freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于聚類分析的潛在語義文獻檢索研究生學位論文(編輯修改稿)

2025-07-24 20:51 本頁面
 

【文章內容簡介】 ...................40附 錄 ..................................................................41西南交通大學碩士研究生學位論文 第 1 頁第 1 章 緒 論 研究背景和意義文獻檢索雖作為數據挖掘的重要組成部分,但有著其獨特性。文獻檢索研究的主要對象來自于大量各種數據源文獻。其中包括:新聞文章、學術論文、期刊、專利文獻、政府出版物、電子郵件、Web 頁面等。諸如以上文獻可能包含標題、關鍵詞、作者、出版日期等結構化數據,也包含摘要、內容等非結構化內容 [2]。由于其內容是人們使用的非結構化自然語言,所以計算機對其語義的處理顯得十分艱難。因此,文獻檢索的語義研究顯得十分重要??萍及l(fā)展,網絡信息日新月異,信息增長遍布整個網絡。據中國互聯網絡信息中心報告,截止 2022 年底,中國網頁總數超過 160 億個 [5]。面對如此浩瀚的信息,至少有兩個方面值得我們研究。第一:如何快速有效獲取我們需要的信息;第二:如何根據用戶提供的查詢信息找出一系列鏈式的相關信息。信息時代,科學技術作為第一生產力,最新技術的研究成果大多以文獻方式發(fā)布于網上(除特殊保密技術外) 。據世界知識產權組織統計,世界上新科學技術和新發(fā)明有 90%至 95%記載在文獻里面 [6]。因此無論學術研究還是新產品創(chuàng)新,通過閱讀大量文獻,不僅能夠及時了解研發(fā)進程、開闊研究者視野,而且能夠避免重復研究,侵犯他人知識產權。由于我國屬于發(fā)展中國家,科學技術相對發(fā)達國家而言較為薄弱,科學技術的引進和借鑒顯得尤為重要。據世界知識產權組織統計,在技術研究領域,專利文獻能提高研發(fā)人員的科研水平,拓展思維,激發(fā)創(chuàng)造性,進而縮短研發(fā)時間 60%,節(jié)約 40%的研究費用 [33]。由于不僅存在不同詞匯間的同義性和單個詞匯間的歧義性,而且文獻集是由大量不同索引關鍵詞聚集而形成的集合,因此,文獻檢索極具復雜性,且主要表現在以下方面:首先由同義詞匯引起的復雜性體現在:查詢詞不同、查詢目的、文化背景、語言習慣等差異,直接導致運用不同同義詞匯表示相同概念。有國外研究表明,詞匯運用的不確定性遠超出人們現在的想象。以英文為列,兩人用相同詞匯表達統一概念的概率小于 20%[33]。這大大影響相關文獻的檢出率。其次單個詞匯的多義性。即同一詞匯在不同語境表達不同含義。因此僅根據關鍵西南交通大學碩士研究生學位論文 第 2 頁詞匯判斷文獻是否與提問詞意一致是不夠準確的。詞匯的歧義現象大大降低了檢索的準確性。顯然基于傳統關鍵詞的匹配算法不能很好處理詞匯間的語義性。問題主要表現在以下三個方面:第一:索引詞不夠完整。這里指的是被用來描述文獻內容的詞匯缺乏,覆蓋面窄。主要有兩種可能:一是文獻用同義詞匯代替查詢詞匯;二是文獻索引詞的建立具有偶然性,存在人為刪除或者遺漏重點關鍵詞匯的情況。雖然詞匯同義性可依靠詞匯的智能擴充或者建立同義詞表來解決。但由于詞表擴充后,僅利于知識面比較豐富的查詢者,他們有能力提供更多的檢索詞。但與此同時,新問題也隨之產生了,即新進的詞匯必然會增加詞匯的歧義性,從而降低檢索的準確率。國外有研究表明,無論從海量文獻還是從用戶的實際使用中將新詞匯加入詞匯表,在不降低檢測準確率的前提下,對檢測出結果改善并不明顯 [6]。所以,在詞表中無限地增加同義詞匯集是否可以改進檢索效果,仍有待進一步研究。第二:缺乏解決詞匯間歧義問題的智能算法。以前常用受控詞表和人工轉換來確定語義。但該方法效率低,成本高,難以推廣。第三:由于需要在海量文獻中找出相關需求信息,聚類方法可以提高在各種信息提取中的速度。文獻聚類是文獻搜索中的研究內容之一,它可以根據數據中的不同特征,按照一定算法,將其劃分為不同的數據簇。并且同簇之間相似度大,不同簇之間相似度小。雖然用幾個簇代表整個數據集會丟失部分信息,但其抓住了主要信息,有利于用戶在海量信息中檢索出他們所需要的信息。但在高維向量下的聚類方法不僅耗時,而且聚類質量不佳。 基于以上原因,信息檢索不僅需要解決詞匯歧義以及關鍵詞匯的智能擴充的問題,而且為了突出聚類效果,還需要盡可能地將高維向量映射到低維向量。在此背景下,國外研究人員提出了一種智能型的檢索方法——潛在語義分析法。這種方法不僅能夠消除詞匯的多義現象,而且還能對高維向量進行降維處理,是一種實現語義和降維的雙重算法。 國內外研究概況西南交通大學碩士研究生學位論文 第 3 頁 國外研究狀況國外關于潛在語義分析(LSA)的研究可以追溯到 20 世紀 80 年代末。1988 年,貝爾通信實驗室的 Susan TDumais 等多人撰寫的《 Using Latent Semantic Analysis to Improve Access to Textual Information》 (潛在語義分析對文獻信息檢索效果的改進)是 LSA 方法早期的研發(fā)成果 [8]。該論文發(fā)表至今,仍被廣泛引用。其中文獻[9]比較全面地闡述潛在語義分析產生背景和基本思路,并對 SVD 分解做了簡要分析,并選擇了兩個巨型樣本進行仿真驗證,對傳統詞匯匹配法,Smart 和 Voorhees 系統法以及潛在語義分析法進行檢索效果的比較。文獻[7]該文著重論證了 LSA 的數學相關原理,解決了詞匯文獻矩陣的狀態(tài)更新,開拓了 LSA 的實際應用領域。但以上文獻都缺乏對檢索結果重新分類的研究。 國內研究現狀當前我國主要的中文信息檢索研究單位有:中國科學院計算機研究所、清華大學、復旦大學、香港大學、臺灣大學,哈爾濱工業(yè)大學等。其中北京大學研發(fā)的天網搜索引擎已經實現了個性化搜索、專業(yè)搜索,以及地域信息等方面的搜索。清華大學的PINS 系統和 Bookmark 系統,借助用戶信息以往的搜索習慣,挖掘用戶需求信息 [14]。近年來,有關 LSA 的論文研究也非常豐富。文獻 [23]利用 LSA 對文獻分類進行了研究。主要討論了權重計算、稀疏矩陣、特征選取這三個因素對潛在語義分析的影響。其次對傳統模型進行了改進,進一步降低對存儲空間的要求。文獻[2]基于潛在語義模型研究了中文問答系統。和傳統的問答系統相比,潛在語義系統在人機交互界面以及中文信息處理能力上更有優(yōu)勢。文獻[5]基于潛在語義分析模型的查詢語義擴展模型,拋棄了復雜的語法分析,利用語義空間提取語義信息,克服了傳統信息檢索的弱點,進一步提高了檢索性能。文獻[13]將潛在語義分析運用于答疑系統中,并且使用奇異值分解和因子分解兩種方法,實現了答疑系統答疑功能和挖掘知識功能。但以上研究都缺乏對搜索結果的后續(xù)研究。借助現有的搜索結果,根據用戶喜好,檢索出用戶偏好的文獻可能更能凸顯 LSA 的經濟價值和實用價值。 文獻搜索的若干模型介紹西南交通大學碩士研究生學位論文 第 4 頁盡管查詢詞的千差萬別以及網絡信息浩瀚繁多,而且信息獲取的途徑和方式各不相同,但回顧其檢索過程,二者最終還是基于某種算法匹配,最終達到信息檢索的目的。這揭示了信息檢索的基本原理:檢索系統利用某種算法將查詢詞(集合)與儲備數據信息(集合)進行相似度計算,依據相似度大小輸出檢索信息。 布爾模型 布爾模型 [2]運用布爾邏輯將查詢詞和文檔集建立一種相似度關系。它雖具有簡單、容易理解、簡潔的形式化等優(yōu)點,但是隨著信息檢索理論的進一步研究,布爾模型也面臨著一系列挑戰(zhàn),具體有以下方面:(1) 基于精確的關鍵詞匹配。布爾模型采用精確的“非此即彼” 的二值判斷標準,即只有當查詢詞集以及文獻 D 的索引關鍵詞完全匹配時,才能被檢測出。這完全忽略了詞匯間的同義和多義現象,使得檢索結果不足,容易出現輸出結果為零的現象。而且,最終的相似函數結果也只有 0 和 1 的二值判斷標準,缺乏對查詢結果相關性檢索,無法滿足人們對相關知識搜索的需求。(2) 由于布爾檢索模型沒有對索引詞匯進行加權處理,它無法對檢索的最終結果進行排序。當最終檢索輸出結果過大時,查詢者不能依據輸出結果快速檢測自己所求信息。 概率模型就本質而言,信息檢索是處理隨機事件的過程。概率模型 [2]利用這種不確定性,首先對每個檢索詞賦予不同權值,表示索引詞在相關文獻和不相關文獻中出現的概率。然后計算查詢詞與隨機文獻之間的相似度概率。其檢索過程吸收了相關反饋信息,不斷逼近目標檢索文獻,并最終確定檢索信息。但其檢索方式也存在一定的局限性。如關鍵詞權重取值為 0,1,各種參數估計難度較大,并且索引詞之間相互獨立的假設不一定成立等。 向量模型 VSM 模型 [4]將查詢關鍵詞和文獻映射成一個同維數向量,通過計算兩向量間的余弦相似度,進而檢索出相關文獻。算法首先建立索引關鍵詞集 K={k1,k2.,…,kt},文獻集西南交通大學碩士研究生學位論文 第 5 頁D={d1,d2,…,dj},查詢詞集為 q。分別依據 t 個關鍵詞將 q 和 di 投影到 t 維向量空間上,并將投影向量分別記為 和 Dj。然后對 和 Dj 做余弦值運算,得到它們之間的相似XqX關系,根據其值大小,輸出相似文獻。這種方式能夠將無結構的文字轉化為有數學背景的向量結構,進而借助數學的算法求解文獻和查詢詞之間的相似度。實踐證明,此算法優(yōu)于布爾模型和概率模型。但由于其僅僅利用關鍵詞的頻率,并假定每個索引詞之間相互獨立,忽略的一詞多義和多詞一意,使得查詢結果不盡人意。 潛在語義模型潛在語義分析法 [4]將文獻看作是由若干相關詞匯根據一定順序組合而成的語義集合。認為文獻和詞匯之間必存在某種聯系是該法的基本出發(fā)點。它借助數學原理及計算機技術對這個結構進行處理,保留文獻與詞匯之間的主要信息,去除其它龐大而冗余的次要信息,以達到對該結構優(yōu)化的目的,最終形成語義結構。這與原始文獻詞匯結構相比,不僅規(guī)模減小,而且還能保留其主干信息,進而挖掘出文獻與詞匯的潛在關系。運用數學相關算法,就能在該簡化的語義空間里找出與查詢詞相關聯的文獻信息。用詞頻統計算法對原始 n 篇文獻 ,m 個詞匯 統計,并建立12,nd? 12,mc?m 行 n 列的巨型詞匯文獻矩陣 A= (wij) m?n。行向量表示同一詞匯在不同文獻中出現的頻數;列向量表示同一文獻中不同詞匯出現的頻數。其中, 表示關鍵詞 在文獻ijwic中出現的頻數。jd潛在語義分析法是采用矩陣分解理論中的奇異值分解法,將巨型詞匯文獻矩陣分解成三個矩陣 的乘積。由于此時分解后的三個矩陣規(guī)模太大,mnA???39。mnTSD??造成儲存不變以及主要信息不明顯等弊端,降維處理是克服該弊端的有效做法。如何選擇降維方法是一個關鍵問題,有文獻依據分解后的奇異值呈遞減特性,利用末尾非零奇異值平方和小于給定閾值,以達到剔除較小奇異值進而對矩陣降維目的,即。但此法沒有考慮奇異值的變化率,奇異值變化率強度直接影響221kr?????中奇異值分布,進而對分解后三個矩陣的乘積影響巨大,最終影響原始矩陣 。mnS? mnA?因此,奇異值變化率的研究可以進一步提高降維的可靠性,并且顯然對提升潛在語義結構至關重要。 本文主要研究內容西南交通大學碩士研究生學位論文 第 6 頁基于上述分析,可以看出,潛在語義分析在文獻檢索中最具語義特性,更能搜索出內容和查詢詞集一致的相關文獻。本文將從以下幾個方面,對現有潛在語義分解法做嘗試改進研究。首先依據原始查詢詞集,獲取相關文獻集和擴展關鍵詞集。根據原始查詢詞集獲得相關文獻 ,并且根據同一關鍵詞在不同文獻中出現的詞頻進行閾值處理,獲得一級1n高質量擴展關鍵詞集 。由 不停地做循環(huán)搜索,進而獲得 2 級,3 級,…,n 級擴1c展關鍵詞集以及相關文獻集,建立詞匯文本矩陣 。mnA?其次從理論上論證了詞匯文本矩陣 經過 分解成 乘積后,n?svd39。,mnTSD??三個矩陣對 的作用。即 對 的行作用大, 對 的列39。mnTSD??mnA?mTn?39。mnA作用大, 對 的行列作用都大,起到連接 , 的作用。mn 39。D再次針對分解后的三個矩陣進行降維處理??紤]到 中奇異值增量突變特性,mnS?故考慮閾值的選取由原來的 ,改為 ,其優(yōu)點在于充221kr????? 1k????分利用奇異值突變特性,將突變率大的奇異值作為截取點,與原來相比,克服了對奇異值突變特性挖掘的不足。因此,本文利用對角矩陣 S 中奇異值變化率改變的特點進行閾值 K 的選擇,并對 進行閾值 K 的壓縮處理,最終得到降維矩陣39。,mnTSD??的乘積。從而優(yōu)化語義空間。39。mkknTSD??對于相似度計算的問題,考慮到歐氏距離范圍在 0 到∞,范圍過大,改為余弦相似系數,使得相似范圍在 到 。而且據文獻 [2]知, IBM 公司的 Intelligent Miner for 1?Text 產品是目前最佳的數據采集工具,并且獲得 Data Mining 讀者獎,其核心技術采用余弦相似系數作為不同文本之間的相似距離。故本文按照余弦相似度建立評價函數,對優(yōu)化后的文獻矩陣 中列向量進行 k 均值聚類,形成 k 個簇。然后根據用戶偏好選39。knD?取適當的擴展關鍵詞集對聚類后的 k 個簇內中心點進行余弦相似度計算,最終根據需求選擇相似度符合要求的簇內中心文獻,并且依次對選定的簇內各元素進行余弦相似計算,最終根據相似度大小輸出文獻。為了驗證本文方法的有效性,對分別以“模糊控制”和“房地產”為原始查詢詞集做了實測分析。檢索結果表明,該方法能有效區(qū)分分別以“模糊控制”和“房地產”為關鍵詞的文獻,而且能通過語義分析,挖掘出即使不含“模糊
點擊復制文檔內容
規(guī)章制度相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1