freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[自然科學(xué)]基于潛在語(yǔ)義索引的中文文本檢索研究080327m(編輯修改稿)

2025-02-12 07:40 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 raesser等人開(kāi)發(fā)的智能輔導(dǎo)系統(tǒng)——AutoTutor,能幫助學(xué)生在自然語(yǔ)言交談和激勵(lì)下學(xué)習(xí)某一學(xué)科。 Telcordia公司開(kāi)發(fā)的“Telcodia LSI Engine”是潛在語(yǔ)義分析IR模型的一個(gè)實(shí)驗(yàn)系統(tǒng),其中提出的快速檢索算法值得借鑒。另外,有報(bào)道稱(chēng),Google也正在研究如何采用LSI技術(shù),作為搜索引擎和廣告服務(wù)的算法。而國(guó)內(nèi)對(duì)于潛在語(yǔ)義索引的研究起步相對(duì)較晚,其中哈爾濱工業(yè)大學(xué)、東北大學(xué)、中科院等很多研究單位的相關(guān)實(shí)驗(yàn)室在這方面做了大量的研究工作,打下了堅(jiān)實(shí)的基礎(chǔ)。同時(shí),一些研究者對(duì)LSI的研究也提出了自己很好的見(jiàn)解,比如:南京大學(xué)的蓋杰、同濟(jì)大學(xué)的顧榕等人分別研究了潛在語(yǔ)義分析在信息檢索中的應(yīng)用;西安交通大學(xué)的何明、廣西師范大學(xué)的黃海英等人分別研究了潛在語(yǔ)義分析在文本分類(lèi)中的應(yīng)用。南京理工大學(xué)的戚涌則研究了潛在語(yǔ)義分析在Web文本自動(dòng)聚類(lèi);尤其是針對(duì)特征詞權(quán)重的設(shè)計(jì)方面,山西大學(xué)的鄭家恒等人提出的“成對(duì)比較法”,上海交通大學(xué)的韓客松等人提出的“義長(zhǎng)”概念,解放軍理工大學(xué)的劉海峰等人的把“位置因子”作為特征詞加權(quán)系數(shù)的討論,對(duì)作者在特征詞權(quán)重方面的設(shè)計(jì)提供了很有益的思路。在商業(yè)應(yīng)用上,LSI已經(jīng)被應(yīng)用在國(guó)內(nèi)最有影響的Internet化學(xué)化工資源導(dǎo)航站點(diǎn)ChIN中,同時(shí)取得了比較理想的檢索效果。 本文的研究意義,,一般認(rèn)為漢字的信息量最大,因而在信息管理和傳遞中,中文處于很不利的地位。針對(duì)中文信息的一些特點(diǎn),探索針對(duì)中文的檢索就顯得非常有必要。同時(shí),基于潛在語(yǔ)義索引的檢索已經(jīng)被證明是對(duì)傳統(tǒng)的向量空間技術(shù)的一種改良,可以達(dá)到消除詞之間相關(guān)性,化簡(jiǎn)文檔向量的目的。用潛在語(yǔ)義索引進(jìn)行檢索,不是基于文檔集中表層的詞匯信息而是潛在語(yǔ)義結(jié)構(gòu),其性能比關(guān)鍵字匹配方法要高出許多。因此,研究如何利用潛在語(yǔ)義索引技術(shù)進(jìn)行中文文本檢索的研究就具有很重要的實(shí)際意義和應(yīng)用價(jià)值。 論文結(jié)構(gòu)論文共分六章,按以下方式組織:第一章緒論,介紹了信息檢索的相關(guān)模型、重點(diǎn)介紹了潛在語(yǔ)義索引以及其研究現(xiàn)狀和研究意義,并說(shuō)明了論文結(jié)構(gòu)。第二章LSI的基本理論,介紹了LSI的基本思想、奇異值分解、LSI的數(shù)學(xué)依據(jù)和特點(diǎn),以及文本和詞匯的擴(kuò)充等LSI的相關(guān)基本理論。第三章中文潛在語(yǔ)義索引的處理,對(duì)LSI在中文樣本上進(jìn)行了實(shí)例分析、介紹了中文LSI的處理步驟,中文LSI的特點(diǎn)以及性能評(píng)價(jià)方法。第四章潛在語(yǔ)義索引的權(quán)重改進(jìn),對(duì)目前常用的特征詞權(quán)重設(shè)計(jì)方案進(jìn)行了介紹,針對(duì)TFIDF所存在的不足,提出了一種基于“非線性函數(shù)”和“位置因子”的新權(quán)重方案,并對(duì)其進(jìn)行了深入分析。第五章中文潛在語(yǔ)義索引分析系統(tǒng)的開(kāi)發(fā),設(shè)計(jì)開(kāi)發(fā)了用于驗(yàn)證LSI相關(guān)理論和新權(quán)重公式對(duì)LSI的影響的測(cè)試系統(tǒng),對(duì)總體設(shè)計(jì)、各模塊功能進(jìn)行了詳細(xì)介紹。第六章中文潛在語(yǔ)義索引分析系統(tǒng)的測(cè)試,從新權(quán)重在特征詞選擇方面的性能,以及對(duì)基于LSI的系統(tǒng)性能的影響進(jìn)行了測(cè)試分析。最后對(duì)論文的工作進(jìn)行了總結(jié),并指出了潛在語(yǔ)義索引的研究發(fā)展方向。 本章小結(jié)本章首先對(duì)信息檢索的發(fā)展,信息檢索的基本定義和傳統(tǒng)模型進(jìn)行了描述,然后對(duì)本文研究的信息檢索模型——潛在語(yǔ)義索引的思想及其在國(guó)內(nèi)外的研究情況進(jìn)行了闡述,最后提出了本文的研究意義及論文組織。 第2章 潛在語(yǔ)義索引的基本理論 潛在語(yǔ)義索引的基本思想潛在語(yǔ)義索引使用了向量空間模型的方法來(lái)表示詞匯—文本矩陣的,是對(duì)向量空間模型的擴(kuò)展,傳統(tǒng)的基于關(guān)鍵詞的向量空間模型(VSM),用表示m個(gè)詞匯和n個(gè)文本構(gòu)成的文本集合,其中每一行代表一個(gè)詞匯向量,每一列代表文本集中的一個(gè)文本向量,它的優(yōu)點(diǎn)在于將非結(jié)構(gòu)化的文本表示為向量形式,使得各種數(shù)學(xué)處理成為可能。但是,向量空間模型是基于詞匯之間關(guān)系相互獨(dú)立的基本假設(shè)(正交假設(shè)),在實(shí)際情況下很難得到滿足,文本中出現(xiàn)的詞往往存在一定的相關(guān)性,在某種程度上會(huì)影響計(jì)算的結(jié)果。LSI則將自然語(yǔ)言中的每個(gè)文本視為以詞匯為維度的空間中的一個(gè)點(diǎn),認(rèn)為一個(gè)包含語(yǔ)義的文本出現(xiàn)在這種空間中,它的分布絕對(duì)不是隨機(jī)的,而是服從某種語(yǔ)義結(jié)構(gòu)。同樣地,也將每個(gè)詞匯視為以文本為維度的空間中的一個(gè)點(diǎn)。文本是由詞匯組成的,而詞匯又要放到文本中去理解,體現(xiàn)了一種“詞匯-文本”雙重概率關(guān)系。LSI把詞匯中的一些不經(jīng)常的用法,如:一些詞匯的誤用,或不相關(guān)的詞匯偶然出現(xiàn)在一起,還有高頻詞,低頻詞等不能代表文本主題的詞匯視為“噪聲”,應(yīng)當(dāng)從主要語(yǔ)義結(jié)構(gòu)中排除掉。利用截?cái)嗟钠娈愔捣纸饨稻S的方法,達(dá)到信息過(guò)濾和去除噪聲的目的。通過(guò)對(duì)詞匯—文本矩陣A進(jìn)行截?cái)嗟钠娈愔捣纸猓玫骄仃嘇的秩為k的“近似矩陣”,從數(shù)據(jù)壓縮的角度看,“近似矩陣”是秩為k的前提下矩陣A的最小二乘意義上的最佳近似。LSI不同于VSM中文本和詞匯的高維表示,而是將文本和詞匯的高維表示投影在低維的潛在語(yǔ)義空間中,縮小了問(wèn)題的規(guī)模,得到詞匯和文本的不再稀疏的低維表示,同時(shí)這種低維表示揭示出了詞匯—文本之間語(yǔ)義上的聯(lián)系。 奇異值分解潛在語(yǔ)義索引重點(diǎn)應(yīng)用了矩陣的奇異值分解(Singular Value Deposition,SVD)。SVD是數(shù)理統(tǒng)計(jì)中常用的方法之一,大量應(yīng)用在不受限的最小立方問(wèn)題,矩陣階次估計(jì)和規(guī)范相關(guān)分析等問(wèn)題的解決方案中。矩陣的奇異值定義:設(shè)A是mn實(shí)矩陣,稱(chēng)n階方陣AA的非0特征值的算術(shù)平方根為矩陣A的奇異值。矩陣的奇異值分解定理:設(shè)A,秩為r,則存在m階正交矩陣U和n階正交矩陣V使得: (21)稱(chēng) (22)為矩陣A的奇異值分解。在信息檢索中應(yīng)用的是奇異值分解的一種特殊形式,因?yàn)樵谛畔z索問(wèn)題中需要進(jìn)行奇異值分解的矩陣一般都是高階稀疏矩陣。不失一般性,假設(shè)詞匯—文本矩陣A是m行n列的一個(gè)稀疏矩陣,其中mn,已知rank(A)=r。由奇異值分解定理可得A的奇異值分解為: (23)其中:的各列正交且長(zhǎng)度為1,即。的列向量稱(chēng)為矩陣A的左奇異值向量。 稱(chēng)為矩陣A的奇異值標(biāo)準(zhǔn)型,是一個(gè)單值的對(duì)角矩陣,即:,且有,其中是的奇異值。的各列正交且長(zhǎng)度為1,即。的列向量稱(chēng)為矩陣X的右奇異值向量。一般,對(duì)于,矩陣,都是滿秩陣,它們表示了原始矩陣A的全部信息。SVD分解的優(yōu)點(diǎn)在于可以利用較小的矩陣做到了最優(yōu)的近似。如果對(duì)角線上的元素均按照大小排序,則選取前k個(gè)最大的奇異值,其余設(shè)置為0,這樣得到的矩陣運(yùn)算結(jié)果記為,是原始矩陣A的一個(gè)近似值,其秩為k??梢宰C明,矩陣是所有秩為k的矩陣中與A用F范數(shù)評(píng)價(jià)時(shí)最接近的一個(gè)。在中引入0以后,可以通過(guò)刪除相應(yīng)的行與列來(lái)化簡(jiǎn),獲得了新的對(duì)角矩陣S。同時(shí),取和的前k個(gè)列,分別獲得矩陣T和D,則可以構(gòu)建A的k秩近似矩陣。 (24)這是對(duì)A的一個(gè)最佳均方逼近的秩為k的模型,我們用它來(lái)估算所需數(shù)據(jù)。降維因子k值的選取關(guān)系到語(yǔ)義空間模型的效率,k值過(guò)小會(huì)使一些有用的信息丟失,k值過(guò)大則會(huì)使運(yùn)算量增大,一般選k時(shí),對(duì)于,且有,可令k滿足貢獻(xiàn)率不等式: (可取40%,50%....) (25)其中,為包括原始信息的閾值,貢獻(xiàn)率不等式是參考因子分析的相應(yīng)概念提出的用以衡量k維子空間對(duì)于整個(gè)空間的表示程度。 圖21 詞匯—文本矩陣奇異值分解圖示對(duì)近似矩陣,T的行向量稱(chēng)為詞匯向量,D的行向量稱(chēng)為文本向量,在此基礎(chǔ)上進(jìn)行文本檢索和其他文本處理,即為潛在語(yǔ)義索引LSI,詞匯向量和文本向量可被投影在一個(gè)相同的k低維空間,這個(gè)空間就被稱(chēng)為潛在語(yǔ)義空間。圖22 詞匯和文本在潛在語(yǔ)義空間上的表示 LSI通過(guò)奇異值分解和取k秩近似矩陣,一方面有效的解決了同義詞和多義詞問(wèn)題。比如:“電腦”,“計(jì)算機(jī)”,“程序”和“植被”這四個(gè)詞,其中,“電腦”和“計(jì)算機(jī)”是同義詞,而“程序”是和“電腦”,“計(jì)算機(jī)”相關(guān)的詞,而“植被”則與其它三個(gè)詞完全無(wú)關(guān)。在基于關(guān)鍵詞的檢索系統(tǒng)中,若文本中沒(méi)有直接出現(xiàn)“電腦”,則當(dāng)輸入“電腦”一詞進(jìn)行檢索時(shí),對(duì)于包含“計(jì)算機(jī)”的文本和包含“植被”的文本都不會(huì)被命中。但用戶希望在查詢“電腦”時(shí)能把關(guān)于“計(jì)算機(jī)”的文本找出來(lái),或把關(guān)于“程序”的文本也找出來(lái),只是相關(guān)度相對(duì)于關(guān)于“計(jì)算機(jī)”的文本要低一些,但絕對(duì)不希望把關(guān)于“植被”的文本找出來(lái)。潛在語(yǔ)義索引技術(shù)通過(guò)奇異值分解得到的潛在語(yǔ)義空間可以很好的表示這些詞之間的內(nèi)在聯(lián)系,在此空間,“電腦”,“計(jì)算機(jī)”和“程序”的上下文語(yǔ)境在某種程度上基本一致,也即:距離更接近,而和“植被”的距離則較遠(yuǎn),從而,更加凸顯了詞匯間的語(yǔ)義關(guān)系,對(duì)于詞匯和文本,文本和文本間也是一樣的。另一方面,一般情況下,k只需要取一個(gè)比較小的值,得到的語(yǔ)義空間就可以表示原始矩陣A的大部分關(guān)鍵信息,同時(shí)屬于“噪音”的信息被去除。而且k秩近似矩陣比原來(lái)的mn高維稀疏矩陣的項(xiàng)數(shù)小的多,矩陣的壓縮降低了計(jì)算的復(fù)雜度,有利于提高檢索的效率。 潛在語(yǔ)義索引的數(shù)學(xué)依據(jù)實(shí)驗(yàn)表明:潛在語(yǔ)義索引通過(guò)奇異值分解,不僅減少了詞匯—文本矩陣的維數(shù),而且大大消減了一直困擾基于關(guān)鍵詞的信息檢索的文本中的詞匯的同義性和多義性問(wèn)題,那么,潛在語(yǔ)義索引的數(shù)學(xué)依據(jù)是什么呢?我們通過(guò)下面的兩個(gè)關(guān)于奇異值分解定理來(lái)進(jìn)行剖析:定理1:假設(shè)A的奇異值分解由給出,并且有: ,R(A)和N(A)分別表示A的表示區(qū)域和A的零空間,則有:(1) 階特性:,,;(2) 二階分解性:(3) 規(guī)范性: 。其中,和分別代表矩陣的F范數(shù)和譜范數(shù),定理1說(shuō)明了單位向量,與矩陣A的關(guān)系,同時(shí)也體現(xiàn)了矩陣A的特征值與其范數(shù)的關(guān)系。但是,向量對(duì)詞匯—文本矩陣A的影響程度是不一樣的。因此,常常需要對(duì)矩陣A的相應(yīng)的語(yǔ)義空間進(jìn)行壓縮,由于r個(gè)特征值是按大小排序的,只保留前k個(gè)最大的特征值,即所謂的對(duì)A進(jìn)行奇異值分解。所以上面最重要的是奇異值分解的階特性,它表明可以將矩陣的奇異值作為矩陣定性分析的定量手段。而奇異值分解的二階分解性表明,在很多應(yīng)用場(chǎng)合中可以對(duì)矩陣進(jìn)行大膽的壓縮。定理1的三個(gè)方面可以用來(lái)證明下列定理:定理2:假設(shè)A的奇異值分解由式給出,其,對(duì)于任意的,定義: (26)那么, ; (27) ; (28)這一重要結(jié)論表明,由A的k個(gè)最大的奇異三元組構(gòu)成的是和A最接近的k秩矩陣,換言之,LSI將詞匯—文本矩陣從高秩投影到低秩后,盡可能地保留了原始矩陣A的大部分信息含量和查詢能力。但是,這還不足以說(shuō)明為什么LSI模型改進(jìn)了查詢能力。為此,得到了下面的一個(gè)定理,這個(gè)定理能夠更加明確地指出LSI模型確實(shí)能夠改進(jìn)檢索性能。定理3:假設(shè)C為一個(gè)純粹的,可分為包含k個(gè)主題的文本庫(kù)模型,而且每一個(gè)詞匯在某一主題中出現(xiàn)的概率最大為,為一個(gè)大于0的足夠小的值。若有m個(gè)文本由C模型產(chǎn)生,則秩為k的LSI以的概率偏向C。 LSI/SVD的特點(diǎn)概括起來(lái),與傳統(tǒng)的向量空間模型比,LSI的優(yōu)點(diǎn)在于:(1) LSI利用潛在的語(yǔ)義結(jié)構(gòu)表示詞匯和文本,將詞匯和文本映射到同一個(gè)k維的語(yǔ)義空間內(nèi),均表示為k個(gè)因子的形式,向量的含義發(fā)生了很大的變化。它反映的不再是簡(jiǎn)單的詞匯出現(xiàn)頻率和分布關(guān)系,而是強(qiáng)化的語(yǔ)義關(guān)系。在保持了原始的大部分信息的同時(shí),克服了傳統(tǒng)向量空間表示方法時(shí)產(chǎn)生的多義詞、同義詞和單詞依賴的現(xiàn)象。同時(shí),在新的語(yǔ)義空間中進(jìn)行相似度分析,比使用原始的特征向量具有良好的效果,因?yàn)樗腔谡Z(yǔ)義層而不僅是詞匯層。(2) 由于詞匯和文本在相同的空間,使得LSI更具靈活性,允許用戶使用自然語(yǔ)言提交查詢請(qǐng)求,查詢條件可以是獨(dú)立的詞匯,也可以是文本,使得查詢和反饋更容易。(3) 用低維的詞匯—文本空間代替了原來(lái)的詞匯—文本空間,可以有效地處理大規(guī)模的文本集,有效地提高了檢索的效率和準(zhǔn)確率。(4) LSI不同于傳統(tǒng)的自然語(yǔ)言處理過(guò)程和人工智能程序,它是完全自動(dòng)的。所謂自動(dòng),就是LSI不需要人工干預(yù),不需要預(yù)先具有語(yǔ)言學(xué)或者知覺(jué)相似性知識(shí)(不使用人為構(gòu)造的字典、知識(shí)基礎(chǔ)、語(yǔ)義網(wǎng)絡(luò)、文法、詞法、句法剖析器等,它的輸入只是原始的未經(jīng)處理的文本序列)。它完全是根據(jù)普通數(shù)學(xué)學(xué)習(xí)方法,提取合適的維度語(yǔ)義空間,結(jié)合其他理論方法,達(dá)到有效展示對(duì)象和文本內(nèi)容的目的。通過(guò)對(duì)大量的文本分析,LSI可以自動(dòng)地模擬人類(lèi)的知識(shí)獲取能力,甚至分類(lèi)、預(yù)測(cè)的能力。潛在語(yǔ)義索引模式以其數(shù)學(xué)理論嚴(yán)謹(jǐn)、處理文本過(guò)程思路清晰得到了信息檢索領(lǐng)域的重視,該方法在語(yǔ)言建模、視頻檢索等方面取得了較為成功的應(yīng)用,在樸素貝葉斯分類(lèi)模型、KNN模型和SVM模型中都被證明是非常有效的方法。但是,該方法也存在著一些不足之處:(1) 潛在語(yǔ)義在進(jìn)行信息提取時(shí),忽視了詞匯的語(yǔ)法信息甚至詞匯出現(xiàn)的順序,它仍然是一種Bagofword方法,即:簡(jiǎn)單地通過(guò)所有詞匯向量的線性總和來(lái)產(chǎn)生文本向量,表示文本的含義。但是句子的語(yǔ)法結(jié)構(gòu)包含了詞匯之間更深層次的語(yǔ)義關(guān)聯(lián)信息,忽視這種關(guān)聯(lián)信息在一定程度上影響了潛在語(yǔ)義對(duì)文本內(nèi)容的把握,雖然潛在語(yǔ)義通過(guò)新的空間在一定程度上實(shí)現(xiàn)了降維。(2) 因子k值的選取直接關(guān)系到語(yǔ)義空間模型的效率,k值過(guò)小則會(huì)使一些有用的信息丟失,k值過(guò)大則會(huì)使運(yùn)算量增加,但是,k值是一個(gè)可變的參數(shù),對(duì)其確定是很困難的,現(xiàn)在還沒(méi)有特別好的辦法來(lái)解決。在實(shí)際中,人們一般只能通過(guò)反復(fù)的實(shí)驗(yàn)來(lái)確定這個(gè)值。(3) 奇異值分解對(duì)存儲(chǔ)空間的要求很大,運(yùn)算的時(shí)間復(fù)雜度很高。SVD算法的時(shí)間代價(jià)是,N是單詞數(shù)和文本數(shù)的乘積,N隨文本數(shù)和單詞數(shù)的增加而迅速增加,所以SVD不太適合動(dòng)態(tài)變化的文本集。 潛在語(yǔ)義索引中相似關(guān)系的計(jì)算在潛在語(yǔ)義空間中有三種重要的關(guān)系:詞匯和詞匯,文本和文本,詞匯和文本。因?yàn)樵季仃嘇的近似矩陣代表了矩陣A中最重要和可靠的潛在語(yǔ)義空間,詞匯和文本都被投影到了這個(gè)相同的空間,所以這三者的相似關(guān)系就可以通過(guò)近似矩陣T,S,D來(lái)方便計(jì)算。(1) 比較兩個(gè)詞匯做“正向”乘法: (29)其中的,因?yàn)镈已經(jīng)是正交歸一的。它的第i行第j列就代表詞匯i和詞匯j的相似程
點(diǎn)擊復(fù)制文檔內(nèi)容
試題試卷相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1