【正文】
度提供了可能。 因此,當(dāng)我們需要的語義相似性是狹義的相似性是,應(yīng)當(dāng)選擇方法一;而當(dāng)我們的預(yù)期是尋找兩個(gè)相關(guān)的 XML 文檔,需要的是廣義的語義相似性,那么方法二就是一個(gè)非常 好的選擇。雖然方法二的基本思想是通過兩個(gè)概念的共有信息量判 斷其相似程度,但我們都知道,無論什么物體,只要是生活在地球上的,其基本組成元素都是相天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 16 同的,都可以歸結(jié)為 “ entity” ,因此即使 “ 文具盒 ” 和 “ 人類 ” 這兩個(gè)看起來毫不相關(guān)的單詞,其相似度也不可能是零。 為了克服二元性,在第三章,本文提出了一種測(cè)量概念語義相似性的新方法,參見 節(jié)。也就是說,因?yàn)閱卧~通常是多意的,同時(shí)一個(gè)概念可能由多個(gè)單詞表達(dá),所以同一個(gè)單詞可能出現(xiàn)在多個(gè)同義詞集合中,而一個(gè)同義詞結(jié)合可能包含多個(gè)單詞。 兩種概念相似性測(cè)量方法的選擇 在上一節(jié)中我們指出,尋找最匹配子根節(jié)點(diǎn)算法是一種基于語義相似性計(jì)算XML 文檔相似性的算法,但并沒有給出 ( , )simmn 的具體算法。由此,給出計(jì)算 XML文檔每一個(gè)節(jié)點(diǎn)相似度的計(jì)算公式: 1( ) ( , )()nS n s im m nN u m n??? (41) 1(1 )nn? ? ? ??? (42) 其中 為經(jīng)驗(yàn)參數(shù), 為目標(biāo)文檔中節(jié)點(diǎn) n 和參照文檔中節(jié)點(diǎn) m 的語義相似度,天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 15 節(jié)點(diǎn) m 為參照文檔中的對(duì)應(yīng)節(jié)點(diǎn)。實(shí)際情況是,根據(jù) XML 文檔的樹形結(jié)構(gòu),處于上層的節(jié)點(diǎn)應(yīng)該更具有普遍性、總結(jié)性、概要 性。 這一算法被命名為尋找最匹配子根節(jié)點(diǎn)算法。以下圖為例,我們發(fā)現(xiàn)兩顆樹的第一層對(duì)應(yīng)于第一層,第二層對(duì)應(yīng)于第二層 ?? 因此只需將第一層的節(jié)點(diǎn)和第一層的節(jié)點(diǎn)作比較,將第二層的節(jié)點(diǎn)和第二層的節(jié)點(diǎn)作比較 ?? ,因此我們總結(jié)出 XML 文檔比較的第一步:尋找文檔 A在文檔 B 中的匹配層。以 圖 41 為例,因?yàn)樽訕?ACF 和子樹 ABD 的結(jié)構(gòu)是相似的, ABDE 和ACFG 的結(jié)構(gòu)是相似的,因此只需分別比較這兩對(duì)子樹的相似性。和普通文本文檔相比, XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點(diǎn)。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 13 第四章 基于 WordNet 的 XML 語義相似性算法 XML 文檔簡(jiǎn)介 XML( Extensible Markup Language)的英文原意是可擴(kuò)展的標(biāo)記 語言。 在 節(jié)中我們提出了一個(gè)建議,采用信息理論模型,同時(shí)避免訪問語料庫。 但相對(duì)于網(wǎng)絡(luò)距離模型,其復(fù)雜度顯然是略高的,因此,在具體的實(shí)現(xiàn)中,可以根據(jù)應(yīng)用的不同,在精度和效率之間進(jìn)行取舍。 α, β是區(qū)分相似度和非對(duì)稱性的權(quán)重而設(shè)置的參數(shù),需要根據(jù)實(shí)驗(yàn)數(shù)據(jù)不斷修改。這樣,本文重新定義任意兩個(gè)節(jié)點(diǎn) a, b 的最短路徑為任意兩個(gè)節(jié)點(diǎn) a, b 之間的連接強(qiáng)度 stren( a, b)。 算法分析 我們知道,兩個(gè)概念之間的語義距離和連接強(qiáng)度的取值是相反的,語義距離越大連接強(qiáng)度越低,為了將連接強(qiáng)度和語義距離結(jié) 合,本文擴(kuò)展了連接強(qiáng)度的概念。深度:隨著深度的加深,子節(jié)點(diǎn)相對(duì)于父節(jié)點(diǎn)的變異越小,共有信息量越大,因此權(quán)值越小,距離越小,相似度越大;邊密度:隨著區(qū)域密度的增大,概念劃分的粒度越細(xì),概念間的差異越小,距離越小,相似度越大;連接強(qiáng)度:節(jié)點(diǎn)之間連接強(qiáng)度越大,節(jié)點(diǎn)之間的繼承關(guān)系越明顯,共有信息量越大,距離越小,相似度越大。那么,如何判定兩個(gè)概念的共享信息量呢?首先,我們可以根據(jù)本體找到概念 C1 和 C2 的公共祖先 C3,即它們的共有信息為 C3, C3 占它們所有信息量的比重是多少呢,如何量化它?這里就用到了語料庫,我們通過計(jì)算 C3 在語料庫中出現(xiàn)的概率 P(C3)來衡量共有信息 C3 的數(shù)量,這樣給出一種計(jì)算相似度的方法: ( 1, 2) log ( 3 )Rsim c c p c?? (36) 這里我們只考慮了共有信息量,有人提出忽略差異信息量是不可取的,因?yàn)榧词?C1 和 C2 的共有信息量很多,但也許它們的差異信息量更多,下面給出了一種考慮了差異信息量的計(jì)算方法,共享信息量越多,越相似,差異信息量越多,越不相似: ( 1 , 2 ) 2 * l o g ( 3 ) / ( l o g ( 1 ) l o g ( 2 ) )Lsim c c p c p c p c?? (37) 當(dāng)前算法存在的問題 在網(wǎng)絡(luò)距離模型中,更多的考慮 了 isa 關(guān)系,而很少考慮其他關(guān)系,這種測(cè)量也更容易讓人聯(lián)想到相關(guān)性,而不是相似性;通過信息理論模型,我們可以很好的測(cè)量?jī)蓚€(gè)概念的相似性,但其對(duì)語料庫的頻繁訪問使得算法的實(shí)用性不大;兩個(gè)算法共同存在的問題是算法都是對(duì)稱性的,即測(cè)量 C1 和 C2 的相似度值和測(cè)量 C2, C1 的相似度值 所得結(jié)果 是一樣的,而實(shí)際情況是我們可以說 “ 獵犬 ”是 “ 狗 ” ,但反過來卻不行 ,兩個(gè)結(jié)果完全不同 。(由于 WordNet 中的語義關(guān)系有許多種,這在上文中有所描述,這里只計(jì)算某種特定的語義關(guān)系,比如 isa 關(guān)系)。 簡(jiǎn)而言之,隨著深度的加深,權(quán)值隨之變小,概念間的距離變?。浑S著邊的區(qū)域密度的增大,權(quán)值變小,概念 間距離變?。浑S著父子節(jié)點(diǎn)連接強(qiáng)度的增大,權(quán)值變小,概念間距離變小。 為了解決這個(gè)問題,有人嘗試給不同的邊賦予權(quán)值,然而,手工賦值的辦法顯然是不可取的,應(yīng)為大型本體中的概念實(shí)在太多,完成這一工程,無異于再建一座萬里長(zhǎng)城。 然而,這種測(cè)量方法存在一個(gè)問題,在計(jì)算最短路徑的過程中每一條邊得權(quán)重都是相同,都為 1,這與實(shí)際情況是不相符的。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 7 第三章 基于 WordNet 的概念語義相似度算法 基于 WordNet 的語義相似性算法綜述 如上文所述,目前基于 WordNet 的語義相似性算法總體上分為兩類,一種直觀方法是網(wǎng)絡(luò)距離模型,即以本體所在樹形結(jié)構(gòu)中兩個(gè)概念的距離為基本指標(biāo)來衡量概念的相似程度;另一種測(cè)量方法是信息理論模型,即通過兩個(gè)概念的共有信息量來衡量概念的相似程度。旨在說明為什么用本體可以測(cè)量語義的相似性,如何構(gòu)建本體,如何選擇本體等。 通過語義距離測(cè)量相似性一種直觀方法是網(wǎng)絡(luò)距離模型,即以本體所在樹形結(jié)構(gòu)中兩個(gè)概念的距離為基本指標(biāo)來衡量概念的相似程度;另一種測(cè)量方法是信息理論模型,即通過兩個(gè)概念的共有信息量來衡量概念的相似程度。因此相似和相關(guān)是不同的。 WordNet 作為一個(gè)主要的通用本體,每一個(gè)詞的定義都經(jīng)過專家論證,可以天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 6 為我們常見的英文詞匯提供可靠的基本解釋;其完善的樹形組織結(jié)構(gòu)利于語義的相似度比較,在現(xiàn)階段的語義相似度研究中被廣泛使用,本文也將使用 WordNet作為本體。上下位關(guān)系:如果同義詞集合 A 的所有特征被包含在同義詞集合 B的特征集中,而不是相反,那么 B 是 A 的下位概念( hyponym),反過來, A 是B 的上位概念( hypernym)。在名詞樹形結(jié)構(gòu)的最頂層是11 個(gè)基本類,比如 “ entity” 、 “ event” 等等。 WordNet 的名詞部分是目前被開發(fā)的最完整的部分,名詞的連接關(guān)系就占了所有連接關(guān)系的 80%。 綜上所述,我們對(duì)于本體的選擇,一方面取決于 對(duì)概念密度和概念間關(guān)系的天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 5 組織強(qiáng)度的需求,另一方面需要參考我們使用本體的目的,所研究問題的特點(diǎn)。父親節(jié)點(diǎn)是當(dāng)前節(jié)點(diǎn)所表示概念的上一級(jí)概念,比如 “ 狗 ” 的上一級(jí)概念可能為 “ 哺乳動(dòng)物 ” ;兄弟節(jié)點(diǎn)是父親節(jié)點(diǎn)相同的節(jié)點(diǎn),比如 “ 哺乳動(dòng)物 ” 的子節(jié)點(diǎn)可能有 “ 狗 ” 、 “ 貓 ” 、 “ 猩猩 ” 等等,那么 “ 狗 ” 的兄弟節(jié)點(diǎn)即為 “ 貓 ” 和 “ 猩猩 ” ;子節(jié)點(diǎn)為當(dāng)前概念的下一級(jí)概念,比如 “ 狗 ” 的下一級(jí)概念可以為 “ 獵犬 ” 、 “ 牧羊犬 ” 等等。 有很多方 法被用來表示一個(gè)本體,方法的選擇取決于研究領(lǐng)域?qū)Ρ倔w的不同需求,也就是對(duì)概念密度和概念間關(guān)系的組織強(qiáng)度的需求。 本體的基本元素是概念,概念的表現(xiàn)形式為詞匯,即一個(gè)詞匯可以有多個(gè)語義,可以表達(dá)多個(gè)概念,而同一個(gè)概念也可以被多個(gè)詞匯表達(dá)。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 4 第二章 語義相似度研究 本體概述 “ 本體( ontology) ” 一詞源于哲學(xué)領(lǐng)域,在古希臘羅馬哲學(xué)中,本體論主要研究的是對(duì)世界本源或基本構(gòu)成的探究,根據(jù) Webster 詞典的定義,本體是關(guān)于存在的物體的本質(zhì)或者各種存在的物體的本質(zhì)的規(guī)范定義。 在 XML 語義相似性測(cè)量方面,當(dāng)前的主要方法是遍歷每一個(gè)節(jié)點(diǎn),比較每一個(gè)節(jié)點(diǎn)的語義相似度,計(jì)算出相似節(jié)點(diǎn)的個(gè)數(shù)和總結(jié)點(diǎn)個(gè)數(shù)的比作為 XML 文檔相似度的依據(jù),一方面它忽略了文檔本身的結(jié)構(gòu)性,另一方面為每一個(gè)節(jié)點(diǎn)執(zhí)行一遍概念相似度算法復(fù)雜度太高。而少量的文獻(xiàn)中雖然提到了 XML 語義相似度測(cè)量,但由于將過多的精力放在了其節(jié)點(diǎn)的語義相似度上,而忽略了文檔本身的結(jié)構(gòu)性。這種方法忽略了 XML 文檔的結(jié)構(gòu)特點(diǎn);還有研究基于擁有相似的路徑集合則 XML 文檔相似的假設(shè),通過路徑集合 的比較計(jì)算 XML 文檔之間的相似度。名詞、動(dòng)詞、形容詞和副詞各被組織成一個(gè)同義詞的網(wǎng)絡(luò),每個(gè)同義詞集合都代表一個(gè)基本的語義概念,并且這些集合之間也由各種關(guān)系連結(jié)。和文本文檔相比, XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點(diǎn)。) ,數(shù)據(jù)挖掘和知識(shí)獲取的必要步驟之一,如何實(shí)現(xiàn)不同本體之間的信息交換成為一個(gè)不可忽視的問題;換言之,要實(shí)現(xiàn)不同本體間的信息交換,或者想要挖掘出所需知識(shí),就必須找到與所需概念相似的概念。 關(guān)鍵詞: 語義相似度 ; 概念 ; WordNet; XML; XML 文檔語義相似度 ABSTRACT With the use of XML in data mining, classification and clustering, data exchange, content management, Web services and so on, how to decide the similarity between XML documents is being a mon problem. And there’s still no answer for where is the effective method to measure the semantic similarity between XML documents. This paper gives a more accurate way for this problem based on WordNet , the ontology , with the discussing of current mainstream ways of semantic similarity between concepts. Based on the semantic similarity between concepts and the structure characteristics of XML, this paper gives a new algorithm for semantic similarity between XML documents. It count the semantic similarity of XMLelements as units, and weights them, and gives the overall semantic similarity of XML documents. The algorithm has been proved to be feasible. And it’s a little step forward that the study of semantic similarity between XML documents has not been focused yet. Key words: semantic similarity; concept; WordNet; XML; semantic similarity between XML documents 1 目 錄 第一章 緒論 ........................................................................... 1 研究背景 ............................................................................. 1 研究現(xiàn)狀 .....