freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[自然科學(xué)]基于潛在語義索引的中文文本檢索研究080327m-資料下載頁

2025-01-16 07:40本頁面
  

【正文】 顯得很復(fù)雜,其實我們只需要在改進一個檢索系統(tǒng)時,使改進后的曲線較改進前的曲線更趨近于右上方,則可以保留這樣的改進。在上面的情況中,是針對一個查詢的,為了更好的也更直觀的評價某一算法對于所有的測試查詢的檢索性能,我們可以對11個查全率下的查準率進行平均處理: (33)其中指的是查全率為r時的平均查準率,指的是使用的查詢總數(shù),是查全率為r時第i個查詢的查準率。現(xiàn)在,11Avg查全率/查準率值已經(jīng)成為信息檢索的一項標準評價指標,并在信息檢索領(lǐng)域得以廣泛應(yīng)用。 本章小結(jié)本章利用第二章闡述的LSI的思想、理論以及SVD的分解過程,針對一個包含7篇中文文本的文本集,分析了如何對其構(gòu)造潛在語義空間,以及使用LSI處理后的效果,最后描述了中文LSI處理的特點,以及本文采用的檢索評價標準。第4章 潛在語義索引的權(quán)重改進 潛在語義索引權(quán)重計算綜述LSI仍然采用的是向量空間模型(VSM)的表示方法,即:采用數(shù)理統(tǒng)計的方法,將文本表示成在模型空間中的所有特征詞的向量,m個特征詞和n篇文本被表示為一個的詞匯—文本矩陣,如圖41所示。 圖41 詞匯—文本矩陣表示圖其中,A的每個元素代表特征詞在文本中的重要程度,也即:特征詞權(quán)重。在LSI中,檢索效果是否合理,在很大程度上就取決于A中的元素選取能否最大限度地體現(xiàn)文本的特點。在潛在語義分析中定義權(quán)重,會使?jié)撛谡Z義空間更能呈現(xiàn)出主要的語義結(jié)構(gòu)。因為LSI的重要任務(wù)就是提取語義結(jié)構(gòu),兩個權(quán)重較大的詞匯之間隱含的語義關(guān)系、以及能提供給詞匯更多信息量的文本所包含詞匯間的語義關(guān)系,更容易被LSI認為是重要的語義關(guān)系而被保留,所以構(gòu)造一個好的權(quán)重函數(shù)對LSI至關(guān)重要,是LSI中的重要優(yōu)化過程。一般特征詞的權(quán)重確定方法有兩種,一種方法是由專家或者用戶根據(jù)自己的經(jīng)驗與所掌握的領(lǐng)域知識人為的賦予權(quán)值,這種方法隨意性很大,而且效率也很低,很難適用于大規(guī)模文本集的處理;另一種方法是運用統(tǒng)計學(xué)的知識,也就是用文本的統(tǒng)計信息(如詞頻、詞之間的同現(xiàn)頻率等)來計算項的權(quán)重,大部分的統(tǒng)計方法都基于香農(nóng)信息學(xué)理論:(1)如果特征項在所有文本中出現(xiàn)的頻率越高,那么它所包含的信息熵也就越少;(2)如果特征項只在少量文本中有較高的出現(xiàn)頻率,那么該特征項就會擁有較高的信息熵。其中熵是不確定性的衡量,不確定性越高,熵越高。一般而言,一個被選取的優(yōu)秀的特征詞應(yīng)該具備以下三個條件:1) 完全性:特征詞匯能夠確實表示目標內(nèi)容;2) 區(qū)分性:根據(jù)特征向量,能將目標同其它文本相區(qū)分;3) 精煉性:特征向量的維數(shù)應(yīng)該盡可能的少;其中的第三條3),已經(jīng)在第三章進行了深入分析,這一點主要是針對研究者的選擇來說的,和權(quán)重公式的確定沒有關(guān)系。針對第一點和第二點,出現(xiàn)了目前被廣泛采用的權(quán)重計算公式TFIDF公式: (41)其中,代表特征詞在文本中的權(quán)重,代表特征詞在文本中出現(xiàn)的頻率,稱為“詞頻因子”,代表特征詞反比于特征詞出現(xiàn)的文本頻數(shù),稱為“反文檔頻數(shù)因子”。簡言之,TFIDF公式的含義是:特征詞的權(quán)重一要正比于詞匯在文本中出現(xiàn)的頻率。二要反比于文本集中出現(xiàn)該詞的文本頻率,也即:當(dāng)一個特征詞在很多的文本中都出現(xiàn)時,它對所在的文本與其它也包含該詞的文本的區(qū)分效果就不好,就代表了更多的不確定性,熵也就越大,反之亦然。這也與香農(nóng)信息論一致。其中對TFIDF進行加權(quán)的最著名的方法是: (42)其中,代表特征詞在文本中出現(xiàn)的頻率,表示文本集中全部的文本數(shù),表示出現(xiàn)特征詞的文本頻數(shù)。其它比較常見的權(quán)重方法還有布爾權(quán)重,權(quán)重,熵權(quán)重,TFIDFIG等。越復(fù)雜的權(quán)重計算方法對文檔的表示精度也就越高,但計算的復(fù)雜度也會隨之上升。布爾權(quán)重是一種最簡單的權(quán)重計算方法,在文本出現(xiàn)的特征詞其權(quán)重就是1,否則為0: (43) 這種方法的缺點就是無法體現(xiàn)一個詞匯在文本中的重要程度。 權(quán)重在TFIDF的基礎(chǔ)上考慮文本長度的不同,對詞匯權(quán)重的影響。權(quán)重對TFIDF權(quán)重公式進行“歸一化”處理,使每個文本的特征向量變?yōu)殚L度為1的單位向量。 (44)其中,N代表文本總數(shù),M代表特征詞總數(shù)。 熵權(quán)重熵權(quán)重是在信息理論的基礎(chǔ)上提出來的,它是最復(fù)雜的權(quán)重計算方法,其特征權(quán)重由下式給出: (45)其中 是特征i的平均熵,N代表文本總數(shù)。當(dāng)該特征在所有文本中是均勻分布時,這個值為1,若特征只在一篇文本中出現(xiàn),則其值為0。 TFIDFIGTFIDFIG考慮詞匯在文本集中分布比例在量上的差異。該方法認為區(qū)分文本的問題可以被形式化為一個分類問題,進而可以把詞匯在文本中的權(quán)重計算問題轉(zhuǎn)化為詞匯在以一個文本為一類的文本分類中的權(quán)重計算問題。為了把握詞匯在各文本中分布比例對權(quán)重計算的影響,引入了信息論中信息增益的方法來實現(xiàn)這一目標。 把訓(xùn)練數(shù)據(jù),即文本集合看作一個符合某種概率分布的信息源,依靠訓(xùn)練數(shù)據(jù)集合的信息熵和文本中詞語的條件熵之間信息量的增益關(guān)系確定該詞語在文本分類中所能提供的信息量,即詞匯在分類中的重要程度,并把這種重要程度定義為該詞匯在文本分類中的權(quán)重。詞匯的信息量用信息增益來表示: (46)其中文本集D的信息熵為: (47)詞匯的條件熵為: (48)文本的概率為: (49)其中, 表示文本中不同詞匯的個數(shù)。該公式在計算文本的概率時只考慮到了詞匯的數(shù)目,對于兩篇詞匯相同但詞匯頻率不相同的文本都會被認為概率相同。其它常用的權(quán)重方法還有NNN權(quán)重函數(shù)、ITC函數(shù)、ATC函數(shù)、Okapi函數(shù)、Ltu函數(shù)等,但只是簡單地計算了特征詞出現(xiàn)的頻率,這些頻率的計算仍然是基于線性的處理,而且沒有考慮特征詞出現(xiàn)的位置對其權(quán)重的不同貢獻程度。 潛在語義索引權(quán)重改進方案本文針對傳統(tǒng)的TFIDF函數(shù)的不足,提出了一種新的權(quán)重計算方案,如式(410)所示。 (410)其中,代表特征詞在文本中的位置因子。它利用了非線性理論修正了TFIDF中線性理論對權(quán)重的不利影響,更加符合實際情況,同時又綜合了特征詞位置這一對文本有重要意義的概念,突出了文本中不同位置特征詞的不同貢獻,而不是僅僅考慮頻率,下面就來分析該公式。 非線性加權(quán)方法在傳統(tǒng)的TFIDF公式中,詞頻采用的是線性的計算方法,也即:文本中特征詞的權(quán)重隨詞頻數(shù)的增加而線性增加。比如,當(dāng)一個詞在一篇文本中出現(xiàn)6次,而另外一個詞只出現(xiàn)了一次,只能說出現(xiàn)6次的詞可能比出現(xiàn)一次的詞更能夠反映文本的主題,但是說出現(xiàn)6次的詞的重要性是出現(xiàn)一次的詞的6倍,這顯然與事實不符。因此,我們應(yīng)該采用一種非線性函數(shù),使得權(quán)重隨著詞頻數(shù)的增加而逐漸上升,但上升的速度又不是很快,使其用在詞頻分析中,更符合實際情況。函數(shù)就是這樣一種符合條件的非線性函數(shù),它具有良好的收斂性和穩(wěn)定性。如圖42所示,我們可以清楚的看出,隨著n的逐漸增大,函數(shù)逐漸向1收斂,當(dāng)n特別大時,函數(shù)值基本趨于穩(wěn)定,而不會隨著n的增長,無限制的擴大。圖42 離散函數(shù)若對詞頻因子進行非線性處理,那么出現(xiàn)一次的詞匯和出現(xiàn)幾千次的詞匯的詞頻因子之比最大不超過2,大大減弱了由單純詞頻因子相比帶來的不合理性,同時,不影響不同詞頻因子對相同文本重要程度的區(qū)分。但是,在新權(quán)重公式中,作者不采用只對進行非線性處理,而是采用對這個整體進行非線性處理。作者認為,一方面,在TFIDF公式中,和兩者的共同作用,能夠有效的體現(xiàn)詞匯對文本,文本對詞匯兩個重要因素對特征詞權(quán)重產(chǎn)生的影響,是對香農(nóng)信息論的很好詮釋。另一方面,對TFIDF中的部分,雖然通過“對數(shù)”對其值在一定程度上進行了平滑處理,使其值不會隨著部分的增加而線性增加,但是,如果的值很大,值依然會比較大,而當(dāng)另一個特征詞的很小時,兩者的相比的比例仍然會比較高,常常會高于經(jīng)過非線性處理的不同詞頻因子的最大比例(不超過2),若只對詞頻因子進行非線性處理,然后與相乘,顯然就“突出”了反文檔頻數(shù)因子對特征詞重要程度的影響,從角度來看,也即:“削弱”了它對特征詞的影響,破壞了TFIDF中兩者同等的地位,顯然是不合理的。所以,本文采用對整體進行非線性處理,隨著的逐漸升高,權(quán)重逐漸向1收斂,在達到一定值時,基本趨于穩(wěn)定,這顯然比線性方法更加符合語言的實際。 特征詞在文本中的位置對權(quán)重的影響在TFIDF中,只考慮了詞頻因子和反文檔頻數(shù)因子,但是,它們都是基于頻度的,這樣往往會“掩蓋”一些重要的特征。作者認為,“位置因子”就是被TFIDF所忽視的一個重要的特征,“在文檔中,處于不同位置的特征詞對文本的貢獻程度應(yīng)該是不一樣的”。所以,在進行加權(quán)時,要考慮詞匯在文本中所處的位置對權(quán)重的影響。比如科技文獻,一般是由標題,摘要,正文,關(guān)鍵詞,結(jié)論這五個部分組成的,顯然出現(xiàn)在標題的詞比在摘要中的更能反應(yīng)文本主題,而出現(xiàn)在摘要中的詞匯比出現(xiàn)在正文中的詞匯在反映文本主題方面更有價值。文本的位置因子比例采用經(jīng)過山西大學(xué)大量實驗后得出的研究成果,設(shè)定標題的位置權(quán)重為5,摘要和結(jié)論部分為3,正文為1,即:標題:摘要:正文:結(jié)論=5:3:1:3。在此,我們不考慮關(guān)鍵詞部分的位置權(quán)重,因為這部分帶有文獻作者一定的主觀性。而對于用戶輸入的檢索語句,雖然沒有諸如文本中的各部分,但是,作者認為其中提取的特征詞非常重要,相當(dāng)于每篇文本標題的地位。因此,在本文中全部設(shè)置為最大位置因子系數(shù)5,而不采用一般的表示方法取正文部分的因子系數(shù)1。當(dāng)在一篇文本的不同部分出現(xiàn)相同的詞時,我們采用“不重復(fù)記錄”原則,只用記錄該詞的最大位置。當(dāng)檢索的文獻的類型發(fā)生變化時,例如:新聞類文本只有標題和正文。但是基本上是上面科技文獻包含的五個部分的子集,只需要保持對應(yīng)部分的比例即可。 本章小結(jié)本章首先對潛在語義分析權(quán)重計算的傳統(tǒng)方法作了總結(jié),重點分析了最常用的TFIDF權(quán)重公式,然后針對此公式的不足,提出了一種新權(quán)重方法,并對其進行了深入分析。第5章 中文潛在語義索引分析系統(tǒng)為了驗證論文中的相關(guān)理論和方法,“中文潛在語義索引分析系統(tǒng)”,并在此系統(tǒng)上,實現(xiàn)了LSI在中文文本上的應(yīng)用。 系統(tǒng)總體設(shè)計(1) 系統(tǒng)總體模型圖如51所示。BrowserBrowserBrowserInternetIISC程序()MicrosoftSql Sever2000 圖51 系統(tǒng)總體模型(2) 系統(tǒng)實現(xiàn)環(huán)境 操作系統(tǒng):Windows XP開發(fā)工具:Microsoft Visual 2003開發(fā)語言:C()服務(wù)器:Microsoft IIS 后臺數(shù)據(jù)庫:Microsoft Sql Sever 2000,用來保存分詞結(jié)果和詞頻,位置因子等程序中需要用到的數(shù)據(jù)。運行模式:B/S構(gòu)架,即:Browser/Server(瀏覽器/服務(wù)器)結(jié)構(gòu)。 “中文潛在語義索引分析系統(tǒng)”的預(yù)處理為了更好的處理中文文本,本文做了如下兩點特殊處理:(1) 特征詞的選擇在LSI中,我們是通過形成詞匯—文本矩陣,并對其進行一系列計算,最后,根據(jù)相似度得到排序結(jié)果的。一切都是從詞匯—文本矩陣開始的,那選擇怎樣的詞匯來作為詞匯—文本矩陣中的特征詞呢?是選擇一篇文本中經(jīng)過分詞后的全部詞匯呢?還是有選擇的進行選取呢?如果我們選擇分詞后的全部詞匯,產(chǎn)生的最大的問題就是會造成詞匯—文本矩陣是個大的稀疏矩陣,因為一篇文本中的詞匯不可能在所有的文本中都出現(xiàn)。SVD的時間復(fù)雜度是,N是詞匯數(shù)和文本數(shù)的乘積,N會隨著詞匯數(shù)和文本數(shù)的增加而迅速增加,若選擇文本中出現(xiàn)的所有詞匯作為代表一篇文本的特征詞,顯然會影響SVD的處理速度。所以,我們要有選擇的選取每篇文本中的詞匯,我們把這些經(jīng)過選擇的能代表一篇文本主要內(nèi)容的詞匯稱為——特征詞。那究竟應(yīng)該選擇那些詞作為代表一篇文本的特征詞呢?經(jīng)過分析,作者發(fā)現(xiàn)在文本中真正能代表文本內(nèi)容的實際上是那些“實詞”,經(jīng)過實驗,作者選擇只保留每篇文本中的名詞性詞匯和動詞。語言技術(shù)平臺LTP中的詞性標注采用的是北大的詞性標注法,名詞性詞匯又分為單純性名詞n,人名nh,習(xí)用語i,地名ns,時間名詞nt,方位名詞nd,團體、組織、機構(gòu)名詞ni,其它專有名詞nz。因為本文采用的是計算機文獻作為系統(tǒng)的測試文本集,在計算機文本中,nh、ns、nt、nd、ni就顯得不太重要,所以只選擇n、i、nz這三種名詞性的詞匯即可。這一點對信息檢索系統(tǒng)來說有著很實際的意義,一個文本能用更少的維度表示,意味著檢索系統(tǒng)所需數(shù)據(jù)庫容量的減小和檢索響應(yīng)速度的提高。用更少的空間維度獲得更精準的檢索效果,這正是一個基于LSI的信息檢索系統(tǒng)所需要的。還有一點需要說明的是,大部分情況下,研究者更習(xí)慣用詞匯來做特征詞,但是有些人則采用了更加復(fù)雜的特征,其中用得比較多的是采用短語來作特征。但是大量的實驗證明,采用復(fù)雜的特征的效果并不比使用分詞后的詞匯效果好。Lewis在分析這一現(xiàn)象時說,盡管用短語做特征比用詞匯做特征在語義質(zhì)量上有一定的優(yōu)勢,但是在統(tǒng)計質(zhì)量上則明顯處于下風(fēng);只用短語做特征的方法造成“有更多的特征,更多的同義詞或近義詞,在分布上更缺乏連續(xù)性,特征的文檔頻度更低”?!∷裕疚牡膶嶒炏到y(tǒng)選擇經(jīng)過分詞后得到的詞匯,作為特征詞的候選詞,不選擇不穩(wěn)定的詞組,這樣特征詞的選擇性能更穩(wěn)定。(2) 特征詞擴展由于漢語表現(xiàn)力極其豐富,我們經(jīng)常在不同的語境中使用不同的詞匯來描述同一個意思。例如,描述“教書育人”的詞匯可能有:教育、教導(dǎo)、教化、感化、教誨、訓(xùn)誨、訓(xùn)迪、啟蒙、誨、傅、春風(fēng)化雨、耳提面命、施教等。即使?jié)撛谡Z義索引能夠在一定程度上識別同義詞、近義詞,然而由于計算的準確率和文本所包含的詞匯量多少有較大的關(guān)系。考慮到
點擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1