freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

講稿2-索引的建立(更新版)

  

【正文】 例越高,確定率越大;反之,比例越低,確定率越小,顯然有成立。定義2:, 表示“文獻(xiàn)具有標(biāo)引詞t或 t’”,表示“文獻(xiàn)具有標(biāo)引詞t與 t’” 其中,、是取大、取小運(yùn)算。兩者的區(qū)別在于從不同的對(duì)象中獲取信息,實(shí)施標(biāo)引的主體不同,但它們的目的都是為了表示信息的主題內(nèi)容。在未聚類文獻(xiàn)空間中,其空間密度為所有文獻(xiàn)對(duì)相關(guān)度的總和,即式(21)的計(jì)算結(jié)果。但如果對(duì)一個(gè)給定文獻(xiàn)集合的全部檢索歷史不了解,則很難產(chǎn)生出這種理想空間。  若用X(a,b)確定二維平面上點(diǎn)X的位置,用X(a,b,c)表示三維空間中點(diǎn)X的位置,同理,如果D為t維文獻(xiàn)空間,則可以用Di=(di1,di2, ..., dit)表示,其中,Di可以看成是文獻(xiàn)空間D的第i維向量,dij為文獻(xiàn)Di的第j個(gè)標(biāo)引詞的權(quán)值。從文獻(xiàn)d到敘詞s的全部敘詞指引集合稱為s 與d的相關(guān)性描述y(s,d)。一般情況下,檢索系統(tǒng)普遍采用全文索引技術(shù),即網(wǎng)頁(yè)文檔中所有詞都選擇參與索引。除了詞在文獻(xiàn)中出現(xiàn)的絕對(duì)頻率,還可使用相對(duì)頻率方法來選擇詞語(yǔ),即選擇那些在一篇文獻(xiàn)中的出現(xiàn)幾率大大高于在整個(gè)文獻(xiàn)庫(kù)中出現(xiàn)幾率的詞和短語(yǔ)。除了選擇詞和短語(yǔ),標(biāo)引程序還可以選擇詞根。它涉及如何從原文中抽取能夠表達(dá)其實(shí)質(zhì)意義的詞匯,以及如何根據(jù)這些詞匯確定標(biāo)引詞。由于漢語(yǔ)結(jié)構(gòu)上的復(fù)雜性、切分的模糊性以及語(yǔ)法分析問題等諸多因素的影響,漢語(yǔ)自動(dòng)分詞未能取得重大的實(shí)質(zhì)性突破。在文檔索引過程中,先通過中文自動(dòng)分詞程序的處理,把文檔正文分割成為獨(dú)立的分詞單位,然后在這些分詞單位基礎(chǔ)上選擇索引詞。概念表示形式可以是字、詞、詞組等,概念表示形式與精確度關(guān)系如圖21所示。為了找到這些內(nèi)容,必須進(jìn)行語(yǔ)義分析來確定哪些是某一文檔中的概念。在現(xiàn)有的系統(tǒng)中,它是最常用的方法。既可以自動(dòng)提取,也可以是由人主觀指定。索引從原理上分抽詞索引和賦詞索引,各種方法和技術(shù)以自然語(yǔ)言的規(guī)律為基礎(chǔ),構(gòu)建在相應(yīng)的數(shù)學(xué)模型上。假定文本以機(jī)器可讀的形式存在,計(jì)算機(jī)程序就可以模仿人,通過對(duì)文本中詞的頻率、位置和語(yǔ)境標(biāo)準(zhǔn)來實(shí)施抽詞標(biāo)引。當(dāng)然,詞、短語(yǔ)或詞根都可以給予反映它們?cè)谖墨I(xiàn)中出現(xiàn)頻率的權(quán)重。少數(shù)新詞語(yǔ)將是那些在一特定文獻(xiàn)中很少出現(xiàn),但是在整個(gè)數(shù)據(jù)庫(kù)中更少出現(xiàn)的詞語(yǔ),如果一個(gè)詞在一個(gè)有1000萬(wàn)詞的數(shù)據(jù)庫(kù)中只出現(xiàn)5次,則它盡管在一篇5000詞的期刊論文中只出現(xiàn)1次,仍然是很重要的,而那些在一篇文獻(xiàn)和整個(gè)數(shù)據(jù)庫(kù)都頻繁出現(xiàn)的詞語(yǔ)(可稱為“泛濫詞”)則要去除。自動(dòng)賦詞標(biāo)引類型主要有以下兩種:基于概率的賦詞標(biāo)引Maron于1979年提出的概率標(biāo)引模型采用基于相關(guān)概率的賦詞標(biāo)引方法,其標(biāo)引過程是:選一批樣品文獻(xiàn),去掉高頻詞和低頻詞,把這些文獻(xiàn)按其主題歸入適當(dāng)?shù)念惸恐?,然后統(tǒng)計(jì)候選關(guān)鍵詞在類目中出現(xiàn)的頻率,再由人工最后確定一個(gè)詞表。基本概率數(shù)大于零的敘詞,便可用于對(duì)具有該詞的文獻(xiàn)進(jìn)行標(biāo)引。根據(jù)向量代數(shù)中數(shù)量積計(jì)算公式有:其中,|a|,|b|分別為向量和的模,=(a,b)為向量和的夾角,又設(shè)向量和的坐標(biāo)分別為={a1,a2,...,at}和={b1,b2,...,bt},則:由余弦函數(shù)的性質(zhì)可知,在[0,]上,其余弦值隨其角度變小而增大。但這會(huì)產(chǎn)生兩個(gè)方面的問題:第一,這種將點(diǎn)分開的方式是否基于這樣一個(gè)事實(shí),即分離文獻(xiàn)空間中的點(diǎn)將導(dǎo)致高檢索效率;反之,高檢索效率必將使得文獻(xiàn)空間中的點(diǎn)彼此分開。(2)空間密度與標(biāo)引性能的關(guān)系一個(gè)理想的文獻(xiàn)空間應(yīng)是同類中文獻(xiàn)的相關(guān)度x要大,不同類之間的相關(guān)度y要小。 j=1,...,m).數(shù)據(jù)是一種抽象的數(shù)量概念,數(shù)據(jù)所表示的含義即為信息,信息是對(duì)數(shù)據(jù)的解釋,數(shù)據(jù)是信息的載體,假若對(duì)數(shù)據(jù)賦予某種意義,此數(shù)據(jù)即為信息,故“對(duì)象屬性數(shù)據(jù)”系統(tǒng)也稱為信息系統(tǒng)。定理1:對(duì)t,t’,有 表示“文獻(xiàn)具有標(biāo)引詞t或 t’” 的信息量小于等于僅含有標(biāo)引詞t或 t’的信息量。這種推測(cè)是一種或然推理,具有或然性。詞頻統(tǒng)計(jì)法的出發(fā)思想是:根據(jù)詞頻統(tǒng)計(jì)結(jié)果,將出現(xiàn)頻率較高并含有實(shí)質(zhì)意義的詞匯作為反映一篇文章主題的有效測(cè)度,這一測(cè)度就確定了標(biāo)引詞的選擇范圍。雖然Zipf最初發(fā)明的定律只是適用于單詞出現(xiàn)頻率的這一現(xiàn)象,但科學(xué)家們發(fā)現(xiàn),它可以描述極其廣泛的一系列統(tǒng)計(jì)分布,譬如個(gè)人的財(cái)富和收入、城市人口甚至博客讀者數(shù)量[6]。只是通過直覺來使用。也就是說,某個(gè)有較高鑒別值的詞一定出現(xiàn)在小數(shù)量的文檔中。已知一個(gè)文檔集,就有了一個(gè)矩陣。若詞的文獻(xiàn)頻率高,用其做標(biāo)引詞會(huì)使文獻(xiàn)密度增大,從而使詞區(qū)分值減?。蝗粼~的文獻(xiàn)頻率低,用其做標(biāo)引詞會(huì)使文獻(xiàn)空間密度減小,從而使詞區(qū)分值增大。 tf = f(t,d), 詞t在文檔d中出現(xiàn)的次數(shù);tf = f(t,d)/MAX[f(t,d)], 在文檔d中特征詞出現(xiàn)的最大次數(shù);tf = log(f(t,d)) tf = log (f(t,d)+1)其中,a、 詞頻的標(biāo)準(zhǔn)化方法See Normalization,也稱為TF的歸一化:將一篇文檔中所有Term的TF值歸一化到[0,1]之間。如對(duì)COMPUTER進(jìn)行3gram處理,可得3字母集合{COM,OMP,MPU,PUT,UTE,TER} 早在1951年,現(xiàn)代信息論創(chuàng)始人Shannon便用ngram進(jìn)行文本壓縮的檢驗(yàn)。經(jīng)過大量實(shí)驗(yàn),Cohen 選擇了下面的HASH函數(shù):k(gj)= mod M其中,是不同的大質(zhì)數(shù),M是HASH表規(guī)模,Ord()給出了相應(yīng)字符的數(shù)量值。n 確定字符得分閾值,其中 n 抽取文獻(xiàn)中字符得分超過閾值的單詞,如果合適的話,將鄰近的單詞抽為短語(yǔ)。 學(xué)習(xí)過程假設(shè)存在n個(gè)受控標(biāo)引詞I1,I2,...,In 和在將處理的文獻(xiàn)中可能出現(xiàn)的m個(gè)不同的單詞w1,w2,w3,...,wm 。對(duì)于一列n個(gè)變量:x1,x2,x3, ..., xn 平均值=(x1+x2+x3+ ...+ xn)/n 方差=()/(n1) 標(biāo)準(zhǔn)偏差=(方差) xi 的zscore =(xi平均值)/標(biāo)準(zhǔn)偏差(3) 選擇促進(jìn)詞和削弱詞如果一個(gè)詞的出現(xiàn)促進(jìn)了標(biāo)引詞Ij的標(biāo)引,則此詞稱為Ij的促進(jìn)詞。但我們需確定一閾值,以便將具有高標(biāo)引值的文獻(xiàn)從低標(biāo)引值文獻(xiàn)中區(qū)分出?;跊Q策概率的標(biāo)引方法主要是依據(jù)某標(biāo)引詞賦予某文獻(xiàn)這一決策事件正確的概率來標(biāo)引文獻(xiàn),如DIA標(biāo)引方法。 句法分析基于深層結(jié)構(gòu)的標(biāo)引法將文獻(xiàn)標(biāo)題可能反映的主題內(nèi)容歸納為有限的幾種元素基本范疇,并使用簡(jiǎn)潔的句法規(guī)則,減小了句法分析的復(fù)雜性。 人工智能應(yīng)用在標(biāo)引中的具體技術(shù)是專家系統(tǒng),專家系統(tǒng)的知識(shí)表示方法主要有產(chǎn)生式表示法、語(yǔ)義網(wǎng)絡(luò)表示法和框架表示法。 詞典標(biāo)引法 詞典標(biāo)引法是一個(gè)傳統(tǒng)的標(biāo)引法,在目前的 國(guó)內(nèi)自動(dòng)標(biāo)引中應(yīng)用得相當(dāng)普遍。當(dāng)原文句子被切分標(biāo)記字典中的漢字構(gòu)詞屬性分割成漢語(yǔ)詞組或短語(yǔ)之后,再按一定的分解模式分割成單詞或?qū)S迷~組。 語(yǔ)法分析標(biāo)引法 語(yǔ)法分析標(biāo)引法是通過對(duì)自然語(yǔ)言文法或句型文法的分析來抽取主題詞加以標(biāo)引由于漢語(yǔ)自然語(yǔ)言文法復(fù)雜,規(guī)則較多,目前還沒有一個(gè)形式化系統(tǒng)能對(duì)漢語(yǔ)文法進(jìn)行描述。要提高標(biāo)引的準(zhǔn)確性和真實(shí)性,就必須進(jìn)行語(yǔ)義理解,在語(yǔ)言深層實(shí)現(xiàn)標(biāo)引,因此漢語(yǔ)自動(dòng)標(biāo)引專家系統(tǒng)代表了今后漢語(yǔ)自動(dòng)標(biāo)引的發(fā)展方向。8 特征詞的權(quán)重一個(gè)詞所擁有的權(quán)重的衡量是變化多樣的。 改善方法1:過濾功能詞某些功能詞,如“beforehand”,“thus”等,在文章中出現(xiàn)的不是很頻繁。如果是,不能將它作為索引詞。這種方法在Porter算法中被采納。Porter algorithm:(Porter, ., 1980, An algorithm for suffix stripping, Program, 14(3) :130137)Step 1: plurals and past participles n SSES SS caresses caress n (*v*) ING motoring motor Step 2: adjn, nv, nadj, …n (m0) OUSNESS OUS callousness callous n (m0) ATIONAL ATE relational relate Step 3: n (m0) ICATE IC triplicate triplic Step 4:n (m1) AL revival revivn (m1) ANCE allowance allow Step 5: n (m1) E probate probat n (m 1 and *d and *L) single letter controll control 借助于字典。字典的使用提供了很多優(yōu)勢(shì),但它也在存取的過程中付出了很大的代價(jià)。因此,索引的結(jié)果是詞的集合,這里的詞或者是詞本身,或者是詞根,或者是合成詞(如果加入了合成詞鑒別功能)d224。 索引表一般使用某種形式的倒排表(Inversion List),即由索引項(xiàng)查找相應(yīng)的文檔。[5] 搜索引擎技術(shù)及趨勢(shì), ,李曉明(北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系教授) 劉建國(guó)(北京大學(xué)計(jì)算機(jī)系副教授)[6] 通信網(wǎng)絡(luò)價(jià)值的魔鬼 梅特卡夫定律錯(cuò)在何處[7]彭波, 搜索引擎的混合索引技術(shù), 北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)系網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室,北京[8]劉挺,搜索引擎技術(shù),哈工大信息檢索實(shí)驗(yàn)室23 / 2
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1