freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于聚類分析的潛在語義文獻(xiàn)檢索研究生學(xué)位論文-資料下載頁

2025-06-27 20:51本頁面
  

【正文】 SVD 分解做出具體示例分析。本文借鑒其做法,選取 10 篇文獻(xiàn)樣本集,構(gòu)建詞匯文獻(xiàn)矩陣,奇異值分解出語義空間(詞匯矩陣和文獻(xiàn)矩陣) ,取閾值 k 等于 2,截取矩陣,降維形成二維語義空間。并對(duì)查詢?cè)~ 進(jìn)行 式投影處理得到 ,最后將 和語義文獻(xiàn)向qXqDq量進(jìn)行相似度計(jì)算,依據(jù)相似度大小輸出檢索文獻(xiàn)。 原始樣本概況文獻(xiàn)數(shù)量:10;即 n=10。關(guān)鍵詞數(shù)量:11。即 m=11。查詢?cè)~ q: human crisis group resources樣本內(nèi)容如表:西南交通大學(xué)碩士研究生學(xué)位論文 第 17 頁(4) 英文標(biāo)題樣本 詞匯文獻(xiàn)矩陣及查詢向量模型的建立根據(jù)表 4 信息,構(gòu)建詞匯文獻(xiàn)矩陣 ,其中元素 表示關(guān)鍵詞 在 的權(quán)重。10A?ijwicjd為了簡(jiǎn)化數(shù)據(jù)的統(tǒng)計(jì),記文獻(xiàn)標(biāo)題的關(guān)鍵名詞作為文獻(xiàn)關(guān)鍵詞,權(quán)重 大小為 在iji標(biāo)題中出現(xiàn)的頻數(shù)。建表 5 如下:jd西南交通大學(xué)碩士研究生學(xué)位論文 第 18 頁(5) 索引擴(kuò)展關(guān)鍵詞在文獻(xiàn)標(biāo)題中出現(xiàn)的頻率即得詞匯文獻(xiàn)矩陣:查詢?cè)~集 q 在索引擴(kuò)展關(guān)鍵詞中出現(xiàn)的頻數(shù)如圖 6 所示:西南交通大學(xué)碩士研究生學(xué)位論文 第 19 頁(6) 查詢?cè)~集在索引擴(kuò)展關(guān)鍵詞中的頻數(shù)即得查詢?cè)~集 q 的查詢向量為: ? ?39。01010X? 詞匯文獻(xiàn)矩陣的奇異值分解利用 MATLAB 對(duì) A 進(jìn)行 SVD(奇異值)分解。分解結(jié)果如下(結(jié)果保留 4 位有效數(shù)字):西南交通大學(xué)碩士研究生學(xué)位論文 第 20 頁 . 7 3 18 568T?4 631 . ..... . . . . 021500497302940457 .. .18 . .6 .23 9 7 659384 81 . ..... . . . .012 0 04 279090574? ?? ?? ?? ?? ? .975 S= .59 0 0 2. 0 00 .53 .91 0 0 0 .2 .59 1? ?? ?? ?? ?? ?39。 .34 . 49 2159 9 4 2D?71965.. .7 . .... .1 .60 7 2 .9 ..39.. .2 47 51 6 1 48 01.. . .6 . . .7 ? ?? ?? ?? ?? ?此時(shí): 39。10101A=TSD?? 潛在語義空間的形成這里我們?nèi)?K=2,分別對(duì) 截取,得到矩陣 。具體如下:39。,TS39。,kkTSD西南交通大學(xué)碩士研究生學(xué)位論文 第 21 8 . 218 . 126 kT?.?????????? 95 03.kS????? 依39。k .6 .4 .28 .5 .D492351994?? ?? ?? ?據(jù) 式知查詢?cè)~集 q 在潛在語義空間下的 k 維查詢向量為 :qQ39。1QqkXTS?? =39。 .5 0. 281. 0?????????? 1 3. 0. .4???????????? = ??5此時(shí) 中的第 i 列表示第 i 個(gè)文獻(xiàn)的語義向量, 的第 j 行表示第 j 個(gè)索引關(guān)鍵39。kDkT詞的語義向量。( , ),具體表示如下表:??10,Z????1,jjZ??由 得索引擴(kuò)展關(guān)鍵詞向量語義空間二維坐標(biāo):kT西南交通大學(xué)碩士研究生學(xué)位論文 第 22 頁 (7) 降維后的二維索引擴(kuò)展關(guān)鍵詞向量坐標(biāo)由 得文獻(xiàn)向量語義空間的二維坐標(biāo):39。D (8) 降維后的二維文獻(xiàn)向量坐標(biāo) 潛在語義空間下的 K 維查詢向量與文獻(xiàn)的相似度計(jì)算由 分別計(jì)算 k 維查詢向量 與各文????22, 1,3,0qiiqi iixysimQd???? qQ獻(xiàn)的余弦相似度,得如下結(jié)果: 西南交通大學(xué)碩士研究生學(xué)位論文 第 23 頁 (9) 二維語義向量與語義向量間的余弦相似度最終檢索結(jié)果順序依次為:d6﹥d 10﹥d 9﹥d 1﹥d 3﹥d 2﹥d 8﹥d 4﹥d 7﹥d 5西南交通大學(xué)碩士研究生學(xué)位論文 第 24 頁第 3 章 基于 K 均值聚類分析的文獻(xiàn)語義檢索模型 文獻(xiàn)聚類綜述 相似文獻(xiàn)的聚類基礎(chǔ)聚類,即按照一定規(guī)則將整個(gè)集合聚集成不同類別,并且使得屬于同一類別的個(gè)體盡可能相似,屬于不同類別的個(gè)體差異明顯。相似文獻(xiàn)的聚類不僅僅把含有相同關(guān)鍵詞的文獻(xiàn)聚集成一類,而是把含有相同或者相近內(nèi)容的關(guān)鍵詞的文獻(xiàn)聚集成一類,內(nèi)容差異較大的文獻(xiàn)分割在不同類。相似文檔聚類由于事先沒有給定文獻(xiàn)信息的分類標(biāo)準(zhǔn),因此被看成一種“無監(jiān)督的學(xué)習(xí)” ,特點(diǎn)為“先有文檔后有類” 。 文獻(xiàn)聚類意義文獻(xiàn)聚類主要應(yīng)用于對(duì)檢索結(jié)果的后續(xù)處理,即對(duì)檢索結(jié)果聚類,幫助用戶剔除自己不需要的文獻(xiàn),并且?guī)椭脩魴z索出僅依靠排序檢索結(jié)果時(shí)很難發(fā)現(xiàn)的有用文獻(xiàn),有效提高檢索效率。 相似度量 在向量空間模型中,相似函數(shù)是基于在某種度量下的向量距離。如下,對(duì) 有:??12,1,2iinxm??? ?iX=(1):閔可夫斯基距離; ()??11pnpijikjDx?????????(2):當(dāng) 時(shí)為海明距離:1? ()??1nijikjXx??(3):當(dāng) 時(shí)為最常用的歐幾里得距離:2P ()????21nijikjDx??(4):對(duì)文獻(xiàn)相似計(jì)算,最常用距離算法為余弦相似夾角:西南交通大學(xué)碩士研究生學(xué)位論文 第 25 頁 ???39。 1212cosnikjijij ikjnikjikj xXsmXx???????? 基于余弦相似度的 K 均值聚類算法Kmeans 算法,也被稱之為 K平均或者 K均值算法,是一種比較廣泛使用的聚類算法。它將各個(gè)聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點(diǎn)。該算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同的類別(簇) ,使得評(píng)價(jià)聚類性能的質(zhì)量函數(shù)(評(píng)價(jià)函數(shù)) 、 、達(dá)到最優(yōu),從而使得同類元素具有相似性,不同類元素具有獨(dú)立性。改進(jìn)的 K 均值算法主要對(duì)質(zhì)量標(biāo)函數(shù)進(jìn)行改動(dòng)。相似度不再以距離刻畫,而是以余弦相似度來描述。具體算法如下:第一步:從 n 個(gè)不同元素中取出 k 個(gè)代表元素作為 k 個(gè)原始中心簇。記為:。??12i12,.C=,k mCc? ?其 中第二步:剩下 個(gè)樣本元素按照最大余弦相似度分配給它們相似度最大的原始k?簇。質(zhì)量函數(shù)如下: , ()????121,cos,(12,3。,2,)mipjijijijijpcdCsCikjkn????, LL 取 ,則令 為同簇元素。??maxijd??ij ????01,ik?L第三步:對(duì)新的 k 個(gè)簇中每一簇內(nèi)元素取新的簇中心。假設(shè) 簇元素為 ,其中心為: iC?i12i3i,C,? i, , , , n ( ) ??0i1i2i3i,+ni iimc???? ?, , , , 12,3k?, L()第四步:計(jì)算平方誤差準(zhǔn)則函數(shù):西南交通大學(xué)碩士研究生學(xué)位論文 第 26 頁( ) , ??0,0000,0,39。11 39。22cos,i i pmipjnni ijj jijpcEC???1,3ik?, L01kiiE???()第五步:若 ,則結(jié)束,反之重復(fù) 2—4 計(jì)算,致其滿足 為止。E??? ??? 改進(jìn)的 k 均值聚類算法與潛在語義分析檢索結(jié)合(1):對(duì)原始矩陣進(jìn)行 分解,分解出詞匯矩陣和文獻(xiàn)矩陣。根據(jù)奇異值的變化率svd選擇適當(dāng)閾值 , 。即: 來替代 ,實(shí)現(xiàn)?1k????22k12AkrF???????語義空間的有效降維。(2):對(duì) k 維語義文獻(xiàn)矩陣中的列向量進(jìn)行改進(jìn)的 k 均值聚類,將文獻(xiàn)向量分成 K類。(3):分別計(jì)算 k 維查詢向量 與各聚類文獻(xiàn)中心向量的相似度。qX(4):依據(jù)查詢向量與各文獻(xiàn)中心相似度的大小,根據(jù)閾值大小選定聚類中心點(diǎn)。分別對(duì)各選定的聚類中心點(diǎn)內(nèi)的各簇元素進(jìn)行分層次的余弦相似度計(jì)算。(5):根據(jù)其余弦值大小,對(duì)各簇內(nèi)的文獻(xiàn)進(jìn)行排序。 本章小結(jié)本章主要介紹了基于余弦的 k 均值聚類算法,并且將其與 svd 分解結(jié)合,運(yùn)用于文獻(xiàn)檢索。故算法存在以下優(yōu)缺點(diǎn):算法優(yōu)點(diǎn):(1):由于結(jié)合 svd 奇異值分解理論,可以將高維詞匯 文獻(xiàn)矩陣映射到低維的語義空間上,并且抓住其主要信息。而 k 均值聚類在高維向量中效果不明顯,但在低維向量時(shí)卻能發(fā)揮極大聚類效果。兩者結(jié)合有效提高文獻(xiàn)檢索質(zhì)量。(2):可以解決詞匯間的歧義現(xiàn)象,能檢測(cè)出即使與關(guān)鍵詞匯不嚴(yán)格匹配,但由于其內(nèi)容和檢索詞意思相近的文獻(xiàn)。另外通過降維有效剔除噪音,過濾無關(guān)信息。算法不足:(1):在提高相似度檢索的同時(shí)難免降低檢索文獻(xiàn)的精確度。(2):對(duì)大量數(shù)據(jù)的進(jìn)行 svd 分解,計(jì)算復(fù)雜性是一個(gè)障礙。西南交通大學(xué)碩士研究生學(xué)位論文 第 27 頁(3):k 均值聚類最初中心點(diǎn)的選取隨機(jī),以及簇類數(shù) k 都會(huì)對(duì)最終結(jié)果影響很大。西南交通大學(xué)碩士研究生學(xué)位論文 第 28 頁第 4 章 實(shí)證分析 樣本集建立及數(shù)據(jù)的初始化由于本節(jié)主要是對(duì)算法的有效性進(jìn)行實(shí)證分析檢驗(yàn),而 web 中的文章主題過于分散,文章形式繁多,而且數(shù)據(jù)庫太過龐大,不利于統(tǒng)計(jì)。然而知網(wǎng)中文獻(xiàn)具有一定格式,文獻(xiàn)內(nèi)容較為集中,因此筆者主要從知網(wǎng)上進(jìn)行文獻(xiàn)的選取。文獻(xiàn)算法的優(yōu)點(diǎn)在于不需要對(duì)整個(gè)數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行匹配,建立詞匯文獻(xiàn)矩陣,而是借助查詢?cè)~集 q獲得 篇相關(guān)文獻(xiàn),然后選取在 篇不同文獻(xiàn)中出現(xiàn)頻率過高的關(guān)鍵詞作為 q 的擴(kuò)展1n1n關(guān)鍵詞,記為 c1。 當(dāng)然這里主要是利用關(guān)鍵詞的嚴(yán)格配對(duì)來進(jìn)行,沒有語義成分。隨后通過 q 和 c1 中的關(guān)鍵詞匯再次進(jìn)行檢索,得到相關(guān)文獻(xiàn) n2,以及擴(kuò)展關(guān)鍵詞匯c2(c 2 中替除 c1,n 2 中剔除 n1,以免重復(fù)計(jì)算) ,隨后重復(fù)以上過程,直至要求,停止。最終得到 個(gè)索引擴(kuò)展關(guān)鍵詞匯和 nn 篇文獻(xiàn)。然后將 建1212,nnc? ?和立詞匯文獻(xiàn)矩陣。 分別以模糊控制和房地產(chǎn)為查詢關(guān)鍵詞建立文獻(xiàn)集1)以“模糊控制 ”為初始索引關(guān)鍵詞,取索引擴(kuò)展關(guān)鍵詞在不同文獻(xiàn)中出現(xiàn)的閾值為 3,即至少在三篇不同的文獻(xiàn)中出現(xiàn)。以 13 篇文獻(xiàn)總量為閾值獲得關(guān)于模糊控制的關(guān)鍵詞集合以及文獻(xiàn)集。2)以“房地產(chǎn) ”為初始索引關(guān)鍵詞,取索引擴(kuò)展關(guān)鍵詞在不同文獻(xiàn)中出現(xiàn)的閾值為 4,即至少在四篇不同的文獻(xiàn)中出現(xiàn)。以 10 篇文獻(xiàn)總量為閾值獲得關(guān)于“房地產(chǎn)” 的關(guān)鍵詞集合以及文獻(xiàn)集。3)由于在以上兩類檢索詞中, “模糊控制” 和“房地產(chǎn)”在每類中必定出現(xiàn)。所以在整個(gè)詞頻矩陣中,我們剔除了“模糊控制” 和“房地產(chǎn)”這兩個(gè)初始查詢關(guān)鍵詞。 詞匯文獻(xiàn)矩陣建立文獻(xiàn)數(shù)量:23;即 n=23。關(guān)鍵詞數(shù)量:11。即 m=14:;西南交通大學(xué)碩士研究生學(xué)位論文 第 29 頁樣本內(nèi)容如表; (10)索引擴(kuò)展關(guān)鍵詞及標(biāo)題樣本西南交通大學(xué)碩士研究生學(xué)位論文 第 30 頁根據(jù)表中信息,構(gòu)建詞匯文獻(xiàn)矩陣 ,其中元素 表示關(guān)鍵詞 在 的權(quán)重。1423A?ijwicjd本章主要對(duì)算法的有效性進(jìn)行驗(yàn)證,不需要統(tǒng)計(jì)大量關(guān)鍵詞的頻數(shù)。為了簡(jiǎn)化數(shù)據(jù)的統(tǒng)計(jì),這里令關(guān)鍵詞的權(quán)重 為 0 和 1,即索引關(guān)鍵詞在文章中出現(xiàn)為 1,不出現(xiàn)為ijw0。如下表所示: (11) 索引擴(kuò)展關(guān)鍵詞在文獻(xiàn)中的頻數(shù)如表(11)建立詞匯 文獻(xiàn)矩陣:西南交通大學(xué)碩士研究生學(xué)位論文 第 31 頁14230101000000A??000111? ?? ?? ?? ? 詞匯文獻(xiàn)矩陣的 SVD 分解,以及潛在語義空間的形成運(yùn)用 matlab 中的奇異值分解函數(shù) svd 分解 ,得到其中間對(duì)角矩陣:1423A? 0 0 03867S?. .45 0 0 .09 4 0 0 0 0 .8625 .9 43 0 0 ? ?? ?? ?? ?? ?令: 得(保留兩位有效數(shù)字):1iii?????,.0,.4,5.,.,.,.?????從以上數(shù)字觀察可得 的變化既有增也有減,這里我們只關(guān)心第一個(gè)變化最大的i?
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1