freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[自然科學]基于潛在語義索引的中文文本檢索研究080327m(編輯修改稿)

2025-02-12 07:40 本頁面
 

【文章內(nèi)容簡介】 raesser等人開發(fā)的智能輔導系統(tǒng)——AutoTutor,能幫助學生在自然語言交談和激勵下學習某一學科。 Telcordia公司開發(fā)的“Telcodia LSI Engine”是潛在語義分析IR模型的一個實驗系統(tǒng),其中提出的快速檢索算法值得借鑒。另外,有報道稱,Google也正在研究如何采用LSI技術(shù),作為搜索引擎和廣告服務(wù)的算法。而國內(nèi)對于潛在語義索引的研究起步相對較晚,其中哈爾濱工業(yè)大學、東北大學、中科院等很多研究單位的相關(guān)實驗室在這方面做了大量的研究工作,打下了堅實的基礎(chǔ)。同時,一些研究者對LSI的研究也提出了自己很好的見解,比如:南京大學的蓋杰、同濟大學的顧榕等人分別研究了潛在語義分析在信息檢索中的應(yīng)用;西安交通大學的何明、廣西師范大學的黃海英等人分別研究了潛在語義分析在文本分類中的應(yīng)用。南京理工大學的戚涌則研究了潛在語義分析在Web文本自動聚類;尤其是針對特征詞權(quán)重的設(shè)計方面,山西大學的鄭家恒等人提出的“成對比較法”,上海交通大學的韓客松等人提出的“義長”概念,解放軍理工大學的劉海峰等人的把“位置因子”作為特征詞加權(quán)系數(shù)的討論,對作者在特征詞權(quán)重方面的設(shè)計提供了很有益的思路。在商業(yè)應(yīng)用上,LSI已經(jīng)被應(yīng)用在國內(nèi)最有影響的Internet化學化工資源導航站點ChIN中,同時取得了比較理想的檢索效果。 本文的研究意義,,一般認為漢字的信息量最大,因而在信息管理和傳遞中,中文處于很不利的地位。針對中文信息的一些特點,探索針對中文的檢索就顯得非常有必要。同時,基于潛在語義索引的檢索已經(jīng)被證明是對傳統(tǒng)的向量空間技術(shù)的一種改良,可以達到消除詞之間相關(guān)性,化簡文檔向量的目的。用潛在語義索引進行檢索,不是基于文檔集中表層的詞匯信息而是潛在語義結(jié)構(gòu),其性能比關(guān)鍵字匹配方法要高出許多。因此,研究如何利用潛在語義索引技術(shù)進行中文文本檢索的研究就具有很重要的實際意義和應(yīng)用價值。 論文結(jié)構(gòu)論文共分六章,按以下方式組織:第一章緒論,介紹了信息檢索的相關(guān)模型、重點介紹了潛在語義索引以及其研究現(xiàn)狀和研究意義,并說明了論文結(jié)構(gòu)。第二章LSI的基本理論,介紹了LSI的基本思想、奇異值分解、LSI的數(shù)學依據(jù)和特點,以及文本和詞匯的擴充等LSI的相關(guān)基本理論。第三章中文潛在語義索引的處理,對LSI在中文樣本上進行了實例分析、介紹了中文LSI的處理步驟,中文LSI的特點以及性能評價方法。第四章潛在語義索引的權(quán)重改進,對目前常用的特征詞權(quán)重設(shè)計方案進行了介紹,針對TFIDF所存在的不足,提出了一種基于“非線性函數(shù)”和“位置因子”的新權(quán)重方案,并對其進行了深入分析。第五章中文潛在語義索引分析系統(tǒng)的開發(fā),設(shè)計開發(fā)了用于驗證LSI相關(guān)理論和新權(quán)重公式對LSI的影響的測試系統(tǒng),對總體設(shè)計、各模塊功能進行了詳細介紹。第六章中文潛在語義索引分析系統(tǒng)的測試,從新權(quán)重在特征詞選擇方面的性能,以及對基于LSI的系統(tǒng)性能的影響進行了測試分析。最后對論文的工作進行了總結(jié),并指出了潛在語義索引的研究發(fā)展方向。 本章小結(jié)本章首先對信息檢索的發(fā)展,信息檢索的基本定義和傳統(tǒng)模型進行了描述,然后對本文研究的信息檢索模型——潛在語義索引的思想及其在國內(nèi)外的研究情況進行了闡述,最后提出了本文的研究意義及論文組織。 第2章 潛在語義索引的基本理論 潛在語義索引的基本思想潛在語義索引使用了向量空間模型的方法來表示詞匯—文本矩陣的,是對向量空間模型的擴展,傳統(tǒng)的基于關(guān)鍵詞的向量空間模型(VSM),用表示m個詞匯和n個文本構(gòu)成的文本集合,其中每一行代表一個詞匯向量,每一列代表文本集中的一個文本向量,它的優(yōu)點在于將非結(jié)構(gòu)化的文本表示為向量形式,使得各種數(shù)學處理成為可能。但是,向量空間模型是基于詞匯之間關(guān)系相互獨立的基本假設(shè)(正交假設(shè)),在實際情況下很難得到滿足,文本中出現(xiàn)的詞往往存在一定的相關(guān)性,在某種程度上會影響計算的結(jié)果。LSI則將自然語言中的每個文本視為以詞匯為維度的空間中的一個點,認為一個包含語義的文本出現(xiàn)在這種空間中,它的分布絕對不是隨機的,而是服從某種語義結(jié)構(gòu)。同樣地,也將每個詞匯視為以文本為維度的空間中的一個點。文本是由詞匯組成的,而詞匯又要放到文本中去理解,體現(xiàn)了一種“詞匯-文本”雙重概率關(guān)系。LSI把詞匯中的一些不經(jīng)常的用法,如:一些詞匯的誤用,或不相關(guān)的詞匯偶然出現(xiàn)在一起,還有高頻詞,低頻詞等不能代表文本主題的詞匯視為“噪聲”,應(yīng)當從主要語義結(jié)構(gòu)中排除掉。利用截斷的奇異值分解降維的方法,達到信息過濾和去除噪聲的目的。通過對詞匯—文本矩陣A進行截斷的奇異值分解,得到矩陣A的秩為k的“近似矩陣”,從數(shù)據(jù)壓縮的角度看,“近似矩陣”是秩為k的前提下矩陣A的最小二乘意義上的最佳近似。LSI不同于VSM中文本和詞匯的高維表示,而是將文本和詞匯的高維表示投影在低維的潛在語義空間中,縮小了問題的規(guī)模,得到詞匯和文本的不再稀疏的低維表示,同時這種低維表示揭示出了詞匯—文本之間語義上的聯(lián)系。 奇異值分解潛在語義索引重點應(yīng)用了矩陣的奇異值分解(Singular Value Deposition,SVD)。SVD是數(shù)理統(tǒng)計中常用的方法之一,大量應(yīng)用在不受限的最小立方問題,矩陣階次估計和規(guī)范相關(guān)分析等問題的解決方案中。矩陣的奇異值定義:設(shè)A是mn實矩陣,稱n階方陣AA的非0特征值的算術(shù)平方根為矩陣A的奇異值。矩陣的奇異值分解定理:設(shè)A,秩為r,則存在m階正交矩陣U和n階正交矩陣V使得: (21)稱 (22)為矩陣A的奇異值分解。在信息檢索中應(yīng)用的是奇異值分解的一種特殊形式,因為在信息檢索問題中需要進行奇異值分解的矩陣一般都是高階稀疏矩陣。不失一般性,假設(shè)詞匯—文本矩陣A是m行n列的一個稀疏矩陣,其中mn,已知rank(A)=r。由奇異值分解定理可得A的奇異值分解為: (23)其中:的各列正交且長度為1,即。的列向量稱為矩陣A的左奇異值向量。 稱為矩陣A的奇異值標準型,是一個單值的對角矩陣,即:,且有,其中是的奇異值。的各列正交且長度為1,即。的列向量稱為矩陣X的右奇異值向量。一般,對于,矩陣,都是滿秩陣,它們表示了原始矩陣A的全部信息。SVD分解的優(yōu)點在于可以利用較小的矩陣做到了最優(yōu)的近似。如果對角線上的元素均按照大小排序,則選取前k個最大的奇異值,其余設(shè)置為0,這樣得到的矩陣運算結(jié)果記為,是原始矩陣A的一個近似值,其秩為k??梢宰C明,矩陣是所有秩為k的矩陣中與A用F范數(shù)評價時最接近的一個。在中引入0以后,可以通過刪除相應(yīng)的行與列來化簡,獲得了新的對角矩陣S。同時,取和的前k個列,分別獲得矩陣T和D,則可以構(gòu)建A的k秩近似矩陣。 (24)這是對A的一個最佳均方逼近的秩為k的模型,我們用它來估算所需數(shù)據(jù)。降維因子k值的選取關(guān)系到語義空間模型的效率,k值過小會使一些有用的信息丟失,k值過大則會使運算量增大,一般選k時,對于,且有,可令k滿足貢獻率不等式: (可取40%,50%....) (25)其中,為包括原始信息的閾值,貢獻率不等式是參考因子分析的相應(yīng)概念提出的用以衡量k維子空間對于整個空間的表示程度。 圖21 詞匯—文本矩陣奇異值分解圖示對近似矩陣,T的行向量稱為詞匯向量,D的行向量稱為文本向量,在此基礎(chǔ)上進行文本檢索和其他文本處理,即為潛在語義索引LSI,詞匯向量和文本向量可被投影在一個相同的k低維空間,這個空間就被稱為潛在語義空間。圖22 詞匯和文本在潛在語義空間上的表示 LSI通過奇異值分解和取k秩近似矩陣,一方面有效的解決了同義詞和多義詞問題。比如:“電腦”,“計算機”,“程序”和“植被”這四個詞,其中,“電腦”和“計算機”是同義詞,而“程序”是和“電腦”,“計算機”相關(guān)的詞,而“植被”則與其它三個詞完全無關(guān)。在基于關(guān)鍵詞的檢索系統(tǒng)中,若文本中沒有直接出現(xiàn)“電腦”,則當輸入“電腦”一詞進行檢索時,對于包含“計算機”的文本和包含“植被”的文本都不會被命中。但用戶希望在查詢“電腦”時能把關(guān)于“計算機”的文本找出來,或把關(guān)于“程序”的文本也找出來,只是相關(guān)度相對于關(guān)于“計算機”的文本要低一些,但絕對不希望把關(guān)于“植被”的文本找出來。潛在語義索引技術(shù)通過奇異值分解得到的潛在語義空間可以很好的表示這些詞之間的內(nèi)在聯(lián)系,在此空間,“電腦”,“計算機”和“程序”的上下文語境在某種程度上基本一致,也即:距離更接近,而和“植被”的距離則較遠,從而,更加凸顯了詞匯間的語義關(guān)系,對于詞匯和文本,文本和文本間也是一樣的。另一方面,一般情況下,k只需要取一個比較小的值,得到的語義空間就可以表示原始矩陣A的大部分關(guān)鍵信息,同時屬于“噪音”的信息被去除。而且k秩近似矩陣比原來的mn高維稀疏矩陣的項數(shù)小的多,矩陣的壓縮降低了計算的復雜度,有利于提高檢索的效率。 潛在語義索引的數(shù)學依據(jù)實驗表明:潛在語義索引通過奇異值分解,不僅減少了詞匯—文本矩陣的維數(shù),而且大大消減了一直困擾基于關(guān)鍵詞的信息檢索的文本中的詞匯的同義性和多義性問題,那么,潛在語義索引的數(shù)學依據(jù)是什么呢?我們通過下面的兩個關(guān)于奇異值分解定理來進行剖析:定理1:假設(shè)A的奇異值分解由給出,并且有: ,R(A)和N(A)分別表示A的表示區(qū)域和A的零空間,則有:(1) 階特性:,,;(2) 二階分解性:(3) 規(guī)范性: 。其中,和分別代表矩陣的F范數(shù)和譜范數(shù),定理1說明了單位向量,與矩陣A的關(guān)系,同時也體現(xiàn)了矩陣A的特征值與其范數(shù)的關(guān)系。但是,向量對詞匯—文本矩陣A的影響程度是不一樣的。因此,常常需要對矩陣A的相應(yīng)的語義空間進行壓縮,由于r個特征值是按大小排序的,只保留前k個最大的特征值,即所謂的對A進行奇異值分解。所以上面最重要的是奇異值分解的階特性,它表明可以將矩陣的奇異值作為矩陣定性分析的定量手段。而奇異值分解的二階分解性表明,在很多應(yīng)用場合中可以對矩陣進行大膽的壓縮。定理1的三個方面可以用來證明下列定理:定理2:假設(shè)A的奇異值分解由式給出,其,對于任意的,定義: (26)那么, ; (27) ; (28)這一重要結(jié)論表明,由A的k個最大的奇異三元組構(gòu)成的是和A最接近的k秩矩陣,換言之,LSI將詞匯—文本矩陣從高秩投影到低秩后,盡可能地保留了原始矩陣A的大部分信息含量和查詢能力。但是,這還不足以說明為什么LSI模型改進了查詢能力。為此,得到了下面的一個定理,這個定理能夠更加明確地指出LSI模型確實能夠改進檢索性能。定理3:假設(shè)C為一個純粹的,可分為包含k個主題的文本庫模型,而且每一個詞匯在某一主題中出現(xiàn)的概率最大為,為一個大于0的足夠小的值。若有m個文本由C模型產(chǎn)生,則秩為k的LSI以的概率偏向C。 LSI/SVD的特點概括起來,與傳統(tǒng)的向量空間模型比,LSI的優(yōu)點在于:(1) LSI利用潛在的語義結(jié)構(gòu)表示詞匯和文本,將詞匯和文本映射到同一個k維的語義空間內(nèi),均表示為k個因子的形式,向量的含義發(fā)生了很大的變化。它反映的不再是簡單的詞匯出現(xiàn)頻率和分布關(guān)系,而是強化的語義關(guān)系。在保持了原始的大部分信息的同時,克服了傳統(tǒng)向量空間表示方法時產(chǎn)生的多義詞、同義詞和單詞依賴的現(xiàn)象。同時,在新的語義空間中進行相似度分析,比使用原始的特征向量具有良好的效果,因為它是基于語義層而不僅是詞匯層。(2) 由于詞匯和文本在相同的空間,使得LSI更具靈活性,允許用戶使用自然語言提交查詢請求,查詢條件可以是獨立的詞匯,也可以是文本,使得查詢和反饋更容易。(3) 用低維的詞匯—文本空間代替了原來的詞匯—文本空間,可以有效地處理大規(guī)模的文本集,有效地提高了檢索的效率和準確率。(4) LSI不同于傳統(tǒng)的自然語言處理過程和人工智能程序,它是完全自動的。所謂自動,就是LSI不需要人工干預(yù),不需要預(yù)先具有語言學或者知覺相似性知識(不使用人為構(gòu)造的字典、知識基礎(chǔ)、語義網(wǎng)絡(luò)、文法、詞法、句法剖析器等,它的輸入只是原始的未經(jīng)處理的文本序列)。它完全是根據(jù)普通數(shù)學學習方法,提取合適的維度語義空間,結(jié)合其他理論方法,達到有效展示對象和文本內(nèi)容的目的。通過對大量的文本分析,LSI可以自動地模擬人類的知識獲取能力,甚至分類、預(yù)測的能力。潛在語義索引模式以其數(shù)學理論嚴謹、處理文本過程思路清晰得到了信息檢索領(lǐng)域的重視,該方法在語言建模、視頻檢索等方面取得了較為成功的應(yīng)用,在樸素貝葉斯分類模型、KNN模型和SVM模型中都被證明是非常有效的方法。但是,該方法也存在著一些不足之處:(1) 潛在語義在進行信息提取時,忽視了詞匯的語法信息甚至詞匯出現(xiàn)的順序,它仍然是一種Bagofword方法,即:簡單地通過所有詞匯向量的線性總和來產(chǎn)生文本向量,表示文本的含義。但是句子的語法結(jié)構(gòu)包含了詞匯之間更深層次的語義關(guān)聯(lián)信息,忽視這種關(guān)聯(lián)信息在一定程度上影響了潛在語義對文本內(nèi)容的把握,雖然潛在語義通過新的空間在一定程度上實現(xiàn)了降維。(2) 因子k值的選取直接關(guān)系到語義空間模型的效率,k值過小則會使一些有用的信息丟失,k值過大則會使運算量增加,但是,k值是一個可變的參數(shù),對其確定是很困難的,現(xiàn)在還沒有特別好的辦法來解決。在實際中,人們一般只能通過反復的實驗來確定這個值。(3) 奇異值分解對存儲空間的要求很大,運算的時間復雜度很高。SVD算法的時間代價是,N是單詞數(shù)和文本數(shù)的乘積,N隨文本數(shù)和單詞數(shù)的增加而迅速增加,所以SVD不太適合動態(tài)變化的文本集。 潛在語義索引中相似關(guān)系的計算在潛在語義空間中有三種重要的關(guān)系:詞匯和詞匯,文本和文本,詞匯和文本。因為原始矩陣A的近似矩陣代表了矩陣A中最重要和可靠的潛在語義空間,詞匯和文本都被投影到了這個相同的空間,所以這三者的相似關(guān)系就可以通過近似矩陣T,S,D來方便計算。(1) 比較兩個詞匯做“正向”乘法: (29)其中的,因為D已經(jīng)是正交歸一的。它的第i行第j列就代表詞匯i和詞匯j的相似程
點擊復制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1