【正文】
距離模型,即以本體所在樹(shù)形結(jié)構(gòu)中兩個(gè)概念的距離為基本指標(biāo)來(lái)衡量概念的相似程度;另一種測(cè)量方法是信息理論模型,即通過(guò)兩個(gè)概念的共有信息量來(lái)衡量概念的相似程度。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 7 第三章 基于 WordNet 的概念語(yǔ)義相似度算法 基于 WordNet 的語(yǔ)義相似性算法綜述 如上文所述,目前基于 WordNet 的語(yǔ)義相似性算法總體上分為兩類,一種直觀方法是網(wǎng)絡(luò)距離模型,即以本體所在樹(shù)形結(jié)構(gòu)中兩個(gè)概念的距離為基本指標(biāo)來(lái)衡量概念的相似程度;另一種測(cè)量方法是信息理論模型,即通過(guò)兩個(gè)概念的共有信息量來(lái)衡量概念的相似程度。 為了解決這個(gè)問(wèn)題,有人嘗試給不同的邊賦予權(quán)值,然而,手工賦值的辦法顯然是不可取的,應(yīng)為大型本體中的概念實(shí)在太多,完成這一工程,無(wú)異于再建一座萬(wàn)里長(zhǎng)城。(由于 WordNet 中的語(yǔ)義關(guān)系有許多種,這在上文中有所描述,這里只計(jì)算某種特定的語(yǔ)義關(guān)系,比如 isa 關(guān)系)。深度:隨著深度的加深,子節(jié)點(diǎn)相對(duì)于父節(jié)點(diǎn)的變異越小,共有信息量越大,因此權(quán)值越小,距離越小,相似度越大;邊密度:隨著區(qū)域密度的增大,概念劃分的粒度越細(xì),概念間的差異越小,距離越小,相似度越大;連接強(qiáng)度:節(jié)點(diǎn)之間連接強(qiáng)度越大,節(jié)點(diǎn)之間的繼承關(guān)系越明顯,共有信息量越大,距離越小,相似度越大。這樣,本文重新定義任意兩個(gè)節(jié)點(diǎn) a, b 的最短路徑為任意兩個(gè)節(jié)點(diǎn) a, b 之間的連接強(qiáng)度 stren( a, b)。 但相對(duì)于網(wǎng)絡(luò)距離模型,其復(fù)雜度顯然是略高的,因此,在具體的實(shí)現(xiàn)中,可以根據(jù)應(yīng)用的不同,在精度和效率之間進(jìn)行取舍。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 13 第四章 基于 WordNet 的 XML 語(yǔ)義相似性算法 XML 文檔簡(jiǎn)介 XML( Extensible Markup Language)的英文原意是可擴(kuò)展的標(biāo)記 語(yǔ)言。以 圖 41 為例,因?yàn)樽訕?shù) ACF 和子樹(shù) ABD 的結(jié)構(gòu)是相似的, ABDE 和ACFG 的結(jié)構(gòu)是相似的,因此只需分別比較這兩對(duì)子樹(shù)的相似性。 這一算法被命名為尋找最匹配子根節(jié)點(diǎn)算法。由此,給出計(jì)算 XML文檔每一個(gè)節(jié)點(diǎn)相似度的計(jì)算公式: 1( ) ( , )()nS n s im m nN u m n??? (41) 1(1 )nn? ? ? ??? (42) 其中 為經(jīng)驗(yàn)參數(shù), 為目標(biāo)文檔中節(jié)點(diǎn) n 和參照文檔中節(jié)點(diǎn) m 的語(yǔ)義相似度,天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 15 節(jié)點(diǎn) m 為參照文檔中的對(duì)應(yīng)節(jié)點(diǎn)。也就是說(shuō),因?yàn)閱卧~通常是多意的,同時(shí)一個(gè)概念可能由多個(gè)單詞表達(dá),所以同一個(gè)單詞可能出現(xiàn)在多個(gè)同義詞集合中,而一個(gè)同義詞結(jié)合可能包含多個(gè)單詞。雖然方法二的基本思想是通過(guò)兩個(gè)概念的共有信息量判 斷其相似程度,但我們都知道,無(wú)論什么物體,只要是生活在地球上的,其基本組成元素都是相天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 16 同的,都可以歸結(jié)為 “ entity” ,因此即使 “ 文具盒 ” 和 “ 人類 ” 這兩個(gè)看起來(lái)毫不相關(guān)的單詞,其相似度也不可能是零。 通常 XML 文檔的節(jié)點(diǎn)內(nèi)容都是由單詞和短語(yǔ)構(gòu)成的,這也為我們通過(guò)概念語(yǔ)義相似度比較文檔節(jié)點(diǎn)的語(yǔ)義相似度提供了可能。該算法的一個(gè)子問(wèn)題是:需要選擇合適的概念語(yǔ)義相似度算法,在 節(jié)詳細(xì)闡述了兩種算法的優(yōu)缺點(diǎn),并提供了選擇標(biāo)準(zhǔn)。相對(duì)于方法一,這用方法的一個(gè)明顯缺點(diǎn)是計(jì)算復(fù)雜度的增高,但顯然,這是計(jì)算精度不可避免的犧牲。 根據(jù) WordNet 的組織特點(diǎn),其結(jié)構(gòu)基礎(chǔ)為概念,也即同義詞集合。由此可見(jiàn),上層節(jié)點(diǎn)對(duì)相似度的貢獻(xiàn)大于下層節(jié)點(diǎn)對(duì)相似度的貢獻(xiàn)。但是,在第二層比較是,我們已經(jīng)發(fā)現(xiàn) B 和 b 相似, B 和 c 不相似,那么有必要將 B 的子節(jié)點(diǎn)和 c 的子節(jié)點(diǎn)作比較嗎?因此,我們改進(jìn)算法得到: ● 計(jì)算根節(jié)點(diǎn)的相似度值; ● 將父節(jié)點(diǎn)匹配的子節(jié)點(diǎn)進(jìn)行比較,尋找最匹配子根節(jié)點(diǎn); ● 重復(fù)上述過(guò)程,直至遍歷所有節(jié)點(diǎn)。 基于語(yǔ)義相似性計(jì)算 XML 文檔的語(yǔ)義相似性 通過(guò)上一節(jié)的論述我們知道, XML 文檔的內(nèi)容是以元素節(jié)點(diǎn)為基礎(chǔ)的樹(shù)形結(jié)構(gòu)。并從信息學(xué)的角度重新解釋了深度、邊密度,節(jié)點(diǎn)之間的連接強(qiáng)度這三個(gè)概念, 在此基礎(chǔ)上給出了一個(gè)新的測(cè)量概念相似性的方法。 表 31 網(wǎng)絡(luò)距離模型與本文設(shè)計(jì)算法比較 公式 節(jié)點(diǎn)間距離 邊密度 連接強(qiáng)度 深度 方向性 31 是 否 否 是 否 33 是 是 否 是 是 34 是 否 否 是 否 35 是 否 否 是 否 38 是 是 是 是 是 從表 31 可以看出,本文設(shè)計(jì)算法在繼承了現(xiàn)有算法優(yōu)點(diǎn)的基礎(chǔ)上,進(jìn)一步可慮了方向性、連接強(qiáng)度等現(xiàn)有算法沒(méi)有可慮的因素,進(jìn)一步提高了算法的精確天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 12 性。也就是說(shuō),父子節(jié)點(diǎn)之間的連接強(qiáng)度越大,取值越小,連接強(qiáng)度越小,取值越大。我們將本體中每一個(gè)概念進(jìn)行量化,統(tǒng)一進(jìn)行賦值,下圖就是一個(gè)賦值后的樹(shù)形結(jié)構(gòu)圖32: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 10 圖 32 賦值后的樹(shù)形結(jié)構(gòu)圖 每個(gè)節(jié)點(diǎn)的信息量跟它們的深度成反比,樹(shù)的最大深度為 3,因此頂層的信息量為 3,依次向下逐個(gè)遞減。 其中一種最簡(jiǎn)單的改進(jìn)是找到概念 c1 和 c2 最短路徑,并計(jì)算出 c1,c2 所在層級(jí)結(jié)構(gòu)的最大深度,并且只考慮上位關(guān)系即 isa 關(guān)系,得到相似度計(jì)算公式: 1 , 2( 1 , 2) m a x[ l og ( m in [ ( 1 , 2) ] / 2 * ) ]LC c csim c c le n c c D?? (31) 下面的方法給出了一種計(jì)算語(yǔ)義距離的方法,我們知道,語(yǔ)義距離越大,相似度越小,因此,只需要適當(dāng)變形就可以得到一種新的相似度計(jì)算方法: m a x m in( ) m a x ()rri r j rriw t c c nc?? ? ? (32) 39。這是因?yàn)椤?dog”處于樹(shù)形結(jié)構(gòu)的更底層,而 tooth 處于樹(shù)形結(jié)構(gòu)的更高層,在距離相同的情況下,樹(shù)形結(jié)構(gòu)的越高層,概念越抽象,之間的差異越大,反之,樹(shù)形結(jié)構(gòu)的越底層,概念越具體,之間的差異越小。當(dāng)然,它也有局限性,即本身是一本英文詞典,并不適用于中文或者其他語(yǔ)言。 語(yǔ)義距離,簡(jiǎn)而言之就是兩個(gè)概念的語(yǔ)義相距的距離。整體部分關(guān)系( meronymy):在 WordNet 中,包含了三種整體部分關(guān)系, A是 B 的組成部分; A 是 B 的成員; A 是 B 的 構(gòu)成材料。 WordNet 中最基礎(chǔ)的語(yǔ)義關(guān)系是 synonymy(同義關(guān)系)。 本體有許多分類方式,一種常用的方式是根據(jù)內(nèi)容分為三類:領(lǐng)域本體:本體內(nèi)容適用于特定學(xué)科領(lǐng)域;通用本體:本體內(nèi)容包含具有普遍意義的客觀世界的常識(shí);任務(wù)本體:本體本 身為用于解決特定任務(wù)的術(shù)語(yǔ)集合。類和概念之間加入適當(dāng)?shù)年P(guān)系,使各個(gè)獨(dú)立的概念和類相連,也就構(gòu)成了一個(gè)本體。 主要內(nèi)容和組織結(jié)構(gòu) 本文的第一部分緒論主要闡述了課題的必要性和意義;第二部分簡(jiǎn)要敘述了語(yǔ)義相似性研究的基本知識(shí),并對(duì)后文將要用到的工具 WordNet 進(jìn)行了介紹;第三部分在已有算法的基礎(chǔ)上給出了一種更加精確的概念語(yǔ)義相似性比較算法;第四部分結(jié)合概念語(yǔ)義相似性比較算法給出了一種 XML文檔語(yǔ)義相似性比較算法;第五部分論述了 XML 文檔語(yǔ)義相似性比較算法的實(shí)現(xiàn)過(guò)程;第六部分對(duì)本文進(jìn)行了總結(jié)并對(duì)將來(lái)的發(fā)展方向進(jìn)行了論述 。 而在語(yǔ)義相似性測(cè)量方面,當(dāng)前研究的主要焦點(diǎn)仍然是概念相似度測(cè)量,還很少有研究將概念相似度測(cè)量應(yīng)用到 XML 文檔中來(lái)實(shí)現(xiàn) XML 文檔的語(yǔ)義相似性比較。 有了概念語(yǔ)義相似度的基礎(chǔ),解決 XML 語(yǔ)義相似度的測(cè)量問(wèn)題首先需要選擇一個(gè) 適合的通用本體,我們采用 WordNet,一種大家普遍接受的通用本體,作為判斷自然語(yǔ)言之間語(yǔ)義的相似性的依據(jù)。語(yǔ)義相似性測(cè)量方法被廣泛的應(yīng)用在了數(shù)據(jù)挖掘和知識(shí)獲取方面以及國(guó)防安全、企業(yè)應(yīng)用等領(lǐng)域。 2021519~ 202165 測(cè)試 、性能評(píng)估及 畢業(yè)論文定稿。進(jìn)而通過(guò)進(jìn)一步的計(jì)算,考慮文檔之中所有節(jié)點(diǎn)的相似度 情況,給出兩個(gè)文檔之間的語(yǔ)義相似度結(jié)果。 二、國(guó)內(nèi)外發(fā)展?fàn)顩r 目前 XML 文檔相似度的研究已經(jīng)取得了許多進(jìn)展。 從 1996 年 W3C 提出 XML 工作草案, 1997 年召開(kāi)第一次 XML 會(huì)議開(kāi)始,到近年來(lái) XML、語(yǔ)義網(wǎng)( Semantic Web)及 OWL 等相關(guān)技術(shù)的研究與發(fā)展,使得面向內(nèi)容的數(shù)據(jù)挖掘等成為可能。 二、 參考文獻(xiàn) [1]Lin D. An InformationTheoretic Definition of Similarity[C].In: Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Man Kaufmann Publishers Inc. . [2]Tversky, A. 1997. Features of similarity. J. Psychological Rev. 84: 327352. [3]Boanerges, A. M., Christian, H. W., Satya, S. S., Amit, S. I. and Budak A. 2021. Template based semantic similarity for security applications. Technical Report, LSDIS Lab, Computer Science Department, University of Gerogia, January. [4]Jiang, J. J., David, W. C. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. Proc. Int. Conf. Research on Computational Linguistics. Taiwan, pp. 115. [5]Peter, F., Martin, K, Erich J. N. 1991. Semantic vs. structural resemblance of classes to appear in special SIGMOD RECORD issue on semantic issues in Multidatabase Systems, 20: 4. [6]Goldstone R L, Son J Y. Similarity [J]. Psychological Review. 2021, 100: 254278. [7]Li M, Chen X, Xin M L, et al. The Similarity Metric[c]. In: IEEE Transactions on Information Theory. 2021. 863872. [8]邱明 . 語(yǔ)義相似性度量及其在設(shè)計(jì)管理系統(tǒng)中的應(yīng)用 [D]. 博士,浙江大學(xué),2021. [9]Bulskov H, Knappe R, Andreasen T. On Measuring Similarity for Conceptual Querying[C]. In: Proceedings of the 5th International Conference on Flexible Query Answering Systems. SpringerVerlag, 2021. 100111. [10]宋玲 . 語(yǔ)義相似度計(jì)算及其應(yīng)用研究 . 博士, 山東大學(xué), 2021. [11]黃世國(guó),耿國(guó)華 . 語(yǔ)義相似性測(cè)度方法研究綜述《計(jì)算機(jī)應(yīng)用與軟件》 2021( 25) . [12]Yang, D. and Powers, D. M. W. Measuring Semantic Similarity in the Taxonomy of WordNet. In Proc. TwentyEighth Australasian Computer Science Conference( ACSC2021), Newcastle, Australia. CRPIT, 38. EstivillCastro, V., Ed. ACS. 315322. 2021. [13]Budanitsky, Alexander. Lexical semantic relatedness and its application in natural language processing. Technical Report CSRG390, Computer Systems Research Group, University of Toronto, August. 1999. [14]周子力 . 基于 WordNet 的本體構(gòu)建