【正文】
詞),其中 單詞是最基本的單位。簡而言之,同義詞構(gòu)成同義詞集合,同義詞集合構(gòu)成類,不同類又構(gòu)成更上層的類。但在這之前,我們還要討論一下什么是語義相似性、語義相關(guān)性和語義距離,這三個詞總是同時出現(xiàn),甚至被經(jīng)?;煊?,然而,它們的意義并非完全一樣,這里我們舉例來說明。上文我們已經(jīng)舉例說明,兩者相關(guān)并不一定說明兩者相似。 網(wǎng)絡(luò)距離模型 由于 WordNet 本身的樹形結(jié)構(gòu)以及語義距離和語義相似度之間的關(guān)系,使得計算兩個概念之間的相似度有一種非常直觀的方法,即測量表示兩個概念的節(jié)點在樹種的距離 —— 節(jié)點 A 到 B 的最短路徑。所謂深度,就是節(jié)點在樹中的深度;從 圖 31 我們可以看到,節(jié)點 B 所在區(qū)域邊的個數(shù)大于節(jié)點 C 所在區(qū) 圖 31 樹形 節(jié)點圖 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 8 域邊的個數(shù),即區(qū)域密度 B 大于區(qū)域密度 C,則對應(yīng)的 BD 邊的權(quán)值應(yīng)當(dāng)小于CF 邊的權(quán)值。 由公式 4 計算出的結(jié)果是無法預(yù)知其取值范圍的,因此,有人提出了一種將取之范圍規(guī)約到 [0,1]的方法,這種方法也同時考慮了最短路徑和公共祖先: 33( , )( , ) ij NNl e n c cij ees im c c e??? ? ? ???? ? ???? ? (35) 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 9 信息理論 模型 信息理論模型是一種本體和語料庫結(jié)合的方法。 ( 1 , 2) 2 * 3 / ( 1 2 2 * 3 )si m c c N N N N? ? ? (34) 然而,公式 34 它本身的缺點也是不容忽視的,公式本身并沒有 充分 考慮邊密度、連接強度、方向性等因素,因此, 本文給出了一個新的計算概念語義相似度的方法,它以共享信息為基礎(chǔ),綜合考慮了深度、邊密度、連接強度、方向性、取值范圍等因素 ,同時避免了對語料庫的頻繁訪問 。其中前半部分中 為節(jié)點 , 的公共祖先到根 節(jié)點的距離,即兩者的共有信息量, 為兩者之間的連接強度,即差異信息量,因此為通過信息學(xué)理論計算出的相似度;后半部分是為了體現(xiàn)非對稱性而編寫的輔助函數(shù) 。 本章小結(jié) 本章系統(tǒng)的闡述了目前概念相似性比較的主流方法,主要分為兩種,網(wǎng)絡(luò)距離模型和信息理論模型。 所謂可擴展是針對于 HTML 等結(jié)構(gòu)語言而言的, XML 文檔有自己的結(jié)構(gòu)特點,但對結(jié)構(gòu)的要求并不強,使用者可以定義自己的 XML 文檔結(jié)構(gòu)。因此,以結(jié)構(gòu)相似性作為評判語義相似性的先決條件是不可取的。一個直觀的想法是用匹配的結(jié)點個數(shù)除以總結(jié)點個數(shù)來衡量相似程度。 通過公式 11 可知,若兩個文檔完全相似,則相似度取值為 1,若兩個文檔完全無關(guān),則相似度取值為 0,即最終輸出的取值結(jié)果規(guī)約到了 [0,1]。這 種測量方法的優(yōu)點是測量簡單,操作易行。這和一些人的預(yù)期是相左的。本文將需要做預(yù)處理的情況作出如下總結(jié): ● 大小寫轉(zhuǎn)換,將大寫字母統(tǒng)一轉(zhuǎn)換為小寫字母; ● 連拼詞組,比如 “ studentbook” ,進行分詞; ● 去掉無意義符號,比如 “ 、 /” 等等; ● 根據(jù)說明文檔將縮略詞恢復(fù)為完整詞匯。 因此,當(dāng)我們需要的語義相似性是狹義的相似性是,應(yīng)當(dāng)選擇方法一;而當(dāng)我們的預(yù)期是尋找兩個相關(guān)的 XML 文檔,需要的是廣義的語義相似性,那么方法二就是一個非常 好的選擇。 為了克服二元性,在第三章,本文提出了一種測量概念語義相似性的新方法,參見 節(jié)。 兩種概念相似性測量方法的選擇 在上一節(jié)中我們指出,尋找最匹配子根節(jié)點算法是一種基于語義相似性計算XML 文檔相似性的算法,但并沒有給出 ( , )simmn 的具體算法。實際情況是,根據(jù) XML 文檔的樹形結(jié)構(gòu),處于上層的節(jié)點應(yīng)該更具有普遍性、總結(jié)性、概要 性。以下圖為例,我們發(fā)現(xiàn)兩顆樹的第一層對應(yīng)于第一層,第二層對應(yīng)于第二層 ?? 因此只需將第一層的節(jié)點和第一層的節(jié)點作比較,將第二層的節(jié)點和第二層的節(jié)點作比較 ?? ,因此我們總結(jié)出 XML 文檔比較的第一步:尋找文檔 A在文檔 B 中的匹配層。和普通文本文檔相比, XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點。 在 節(jié)中我們提出了一個建議,采用信息理論模型,同時避免訪問語料庫。 α, β是區(qū)分相似度和非對稱性的權(quán)重而設(shè)置的參數(shù),需要根據(jù)實驗數(shù)據(jù)不斷修改。 算法分析 我們知道,兩個概念之間的語義距離和連接強度的取值是相反的,語義距離越大連接強度越低,為了將連接強度和語義距離結(jié) 合,本文擴展了連接強度的概念。那么,如何判定兩個概念的共享信息量呢?首先,我們可以根據(jù)本體找到概念 C1 和 C2 的公共祖先 C3,即它們的共有信息為 C3, C3 占它們所有信息量的比重是多少呢,如何量化它?這里就用到了語料庫,我們通過計算 C3 在語料庫中出現(xiàn)的概率 P(C3)來衡量共有信息 C3 的數(shù)量,這樣給出一種計算相似度的方法: ( 1, 2) log ( 3 )Rsim c c p c?? (36) 這里我們只考慮了共有信息量,有人提出忽略差異信息量是不可取的,因為即使 C1 和 C2 的共有信息量很多,但也許它們的差異信息量更多,下面給出了一種考慮了差異信息量的計算方法,共享信息量越多,越相似,差異信息量越多,越不相似: ( 1 , 2 ) 2 * l o g ( 3 ) / ( l o g ( 1 ) l o g ( 2 ) )Lsim c c p c p c p c?? (37) 當(dāng)前算法存在的問題 在網(wǎng)絡(luò)距離模型中,更多的考慮 了 isa 關(guān)系,而很少考慮其他關(guān)系,這種測量也更容易讓人聯(lián)想到相關(guān)性,而不是相似性;通過信息理論模型,我們可以很好的測量兩個概念的相似性,但其對語料庫的頻繁訪問使得算法的實用性不大;兩個算法共同存在的問題是算法都是對稱性的,即測量 C1 和 C2 的相似度值和測量 C2, C1 的相似度值 所得結(jié)果 是一樣的,而實際情況是我們可以說 “ 獵犬 ”是 “ 狗 ” ,但反過來卻不行 ,兩個結(jié)果完全不同 。 簡而言之,隨著深度的加深,權(quán)值隨之變小,概念間的距離變小;隨著邊的區(qū)域密度的增大,權(quán)值變小,概念 間距離變小;隨著父子節(jié)點連接強度的增大,權(quán)值變小,概念間距離變小。 然而,這種測量方法存在一個問題,在計算最短路徑的過程中每一條邊得權(quán)重都是相同,都為 1,這與實際情況是不相符的。旨在說明為什么用本體可以測量語義的相似性,如何構(gòu)建本體,如何選擇本體等。因此相似和相關(guān)是不同的。上下位關(guān)系:如果同義詞集合 A 的所有特征被包含在同義詞集合 B的特征集中,而不是相反,那么 B 是 A 的下位概念( hyponym),反過來, A 是B 的上位概念( hypernym)。 WordNet 的名詞部分是目前被開發(fā)的最完整的部分,名詞的連接關(guān)系就占了所有連接關(guān)系的 80%。父親節(jié)點是當(dāng)前節(jié)點所表示概念的上一級概念,比如 “ 狗 ” 的上一級概念可能為 “ 哺乳動物 ” ;兄弟節(jié)點是父親節(jié)點相同的節(jié)點,比如 “ 哺乳動物 ” 的子節(jié)點可能有 “ 狗 ” 、 “ 貓 ” 、 “ 猩猩 ” 等等,那么 “ 狗 ” 的兄弟節(jié)點即為 “ 貓 ” 和 “ 猩猩 ” ;子節(jié)點為當(dāng)前概念的下一級概念,比如 “ 狗 ” 的下一級概念可以為 “ 獵犬 ” 、 “ 牧羊犬 ” 等等。 本體的基本元素是概念,概念的表現(xiàn)形式為詞匯,即一個詞匯可以有多個語義,可以表達多個概念,而同一個概念也可以被多個詞匯表達。 在 XML 語義相似性測量方面,當(dāng)前的主要方法是遍歷每一個節(jié)點,比較每一個節(jié)點的語義相似度,計算出相似節(jié)點的個數(shù)和總結(jié)點個數(shù)的比作為 XML 文檔相似度的依據(jù),一方面它忽略了文檔本身的結(jié)構(gòu)性,另一方面為每一個節(jié)點執(zhí)行一遍概念相似度算法復(fù)雜度太高。這種方法忽略了 XML 文檔的結(jié)構(gòu)特點;還有研究基于擁有相似的路徑集合則 XML 文檔相似的假設(shè),通過路徑集合 的比較計算 XML 文檔之間的相似度。和文本文檔相比, XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點。 關(guān)鍵詞: 語義相似度 ; 概念 ; WordNet; XML; XML 文檔語義相似度 ABSTRACT With the use of XML in data mining, classification and clustering, data exchange, content management, Web services and so on, how to decide the similarity between XML documents is being a mon problem. And there’s still no answer for where is the effective method to measure the semantic similarity between XML documents. This paper gives a more accurate way for this problem based on WordNet , the ontology , with the discussing of current mainstream ways of semantic similarity between concepts. Based on the semantic similarity between concepts and the structure characteristics of XML, this paper gives a new algorithm for semantic similarity between XML documents. It count the semantic similarity of XMLelements as units, and weights them, and gives the overall semantic similarity of XML documents. The algorithm has been proved to be feasible. And it’s a little step forward that the study of semantic similarity between XML documents has not been focused yet. Key words: semantic similarity; concept; WordNet; XML; semantic similarity between XML documents 1 目 錄 第一章 緒論 ........................................................................... 1 研究背景 ............................................................................. 1 研究現(xiàn)狀 ............................................................................. 2 研究意義 ............................................................................. 2 主要內(nèi)容和組織結(jié)構(gòu) ......................................................... 3 本章小結(jié) ............................................................................. 3 第二章 語義相似度研究 ...................................................... 4 本體概述 ............................................................................. 4 WordNet 簡介 ..................................................................... 5 語義相似性、語義相關(guān)性和語義距離 .............................. 6 本章小結(jié) ............................................................................. 6 第 三章 基于 WordNet 的概念語義相似度算法 ................ 7 基于 WordNet 的語義相似性算法綜