正文內(nèi)容

軟件工程畢業(yè)設(shè)計(jì)-基于wordnet的xml文檔語義相似性計(jì)算方法(文件)

2024-12-28 09:43 上一頁面

下一頁面

　

【正文】度提供了可能。因此，當(dāng)我們需要的語義相似性是狹義的相似性是，應(yīng)當(dāng)選擇方法一；而當(dāng)我們的預(yù)期是尋找兩個(gè)相關(guān)的 XML 文檔，需要的是廣義的語義相似性，那么方法二就是一個(gè)非常好的選擇。雖然方法二的基本思想是通過兩個(gè)概念的共有信息量判斷其相似程度，但我們都知道，無論什么物體，只要是生活在地球上的，其基本組成元素都是相天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 16 同的，都可以歸結(jié)為 “ entity” ，因此即使 “ 文具盒 ” 和 “ 人類 ” 這兩個(gè)看起來毫不相關(guān)的單詞，其相似度也不可能是零。為了克服二元性，在第三章，本文提出了一種測(cè)量概念語義相似性的新方法，參見節(jié)。也就是說，因?yàn)閱卧~通常是多意的，同時(shí)一個(gè)概念可能由多個(gè)單詞表達(dá)，所以同一個(gè)單詞可能出現(xiàn)在多個(gè)同義詞集合中，而一個(gè)同義詞結(jié)合可能包含多個(gè)單詞。兩種概念相似性測(cè)量方法的選擇在上一節(jié)中我們指出，尋找最匹配子根節(jié)點(diǎn)算法是一種基于語義相似性計(jì)算XML 文檔相似性的算法，但并沒有給出 ( , )simmn 的具體算法。由此，給出計(jì)算 XML文檔每一個(gè)節(jié)點(diǎn)相似度的計(jì)算公式： 1( ) ( , )()nS n s im m nN u m n??? (41) 1(1 )nn? ? ? ??? (42) 其中為經(jīng)驗(yàn)參數(shù)，為目標(biāo)文檔中節(jié)點(diǎn) n 和參照文檔中節(jié)點(diǎn) m 的語義相似度，天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 15 節(jié)點(diǎn) m 為參照文檔中的對(duì)應(yīng)節(jié)點(diǎn)。實(shí)際情況是，根據(jù) XML 文檔的樹形結(jié)構(gòu)，處于上層的節(jié)點(diǎn)應(yīng)該更具有普遍性、總結(jié)性、概要性。這一算法被命名為尋找最匹配子根節(jié)點(diǎn)算法。以下圖為例，我們發(fā)現(xiàn)兩顆樹的第一層對(duì)應(yīng)于第一層，第二層對(duì)應(yīng)于第二層 ?? 因此只需將第一層的節(jié)點(diǎn)和第一層的節(jié)點(diǎn)作比較，將第二層的節(jié)點(diǎn)和第二層的節(jié)點(diǎn)作比較 ?? ，因此我們總結(jié)出 XML 文檔比較的第一步：尋找文檔 A在文檔 B 中的匹配層。以圖 41 為例，因?yàn)樽訕?ACF 和子樹 ABD 的結(jié)構(gòu)是相似的， ABDE 和ACFG 的結(jié)構(gòu)是相似的，因此只需分別比較這兩對(duì)子樹的相似性。和普通文本文檔相比， XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點(diǎn)。天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 13 第四章基于 WordNet 的 XML 語義相似性算法 XML 文檔簡(jiǎn)介 XML（ Extensible Markup Language）的英文原意是可擴(kuò)展的標(biāo)記語言。在節(jié)中我們提出了一個(gè)建議，采用信息理論模型，同時(shí)避免訪問語料庫。但相對(duì)于網(wǎng)絡(luò)距離模型，其復(fù)雜度顯然是略高的，因此，在具體的實(shí)現(xiàn)中，可以根據(jù)應(yīng)用的不同，在精度和效率之間進(jìn)行取舍。 α， β是區(qū)分相似度和非對(duì)稱性的權(quán)重而設(shè)置的參數(shù)，需要根據(jù)實(shí)驗(yàn)數(shù)據(jù)不斷修改。這樣，本文重新定義任意兩個(gè)節(jié)點(diǎn) a， b 的最短路徑為任意兩個(gè)節(jié)點(diǎn) a， b 之間的連接強(qiáng)度 stren（ a， b）。算法分析我們知道，兩個(gè)概念之間的語義距離和連接強(qiáng)度的取值是相反的，語義距離越大連接強(qiáng)度越低，為了將連接強(qiáng)度和語義距離結(jié) 合，本文擴(kuò)展了連接強(qiáng)度的概念。深度：隨著深度的加深，子節(jié)點(diǎn)相對(duì)于父節(jié)點(diǎn)的變異越小，共有信息量越大，因此權(quán)值越小，距離越小，相似度越大；邊密度：隨著區(qū)域密度的增大，概念劃分的粒度越細(xì)，概念間的差異越小，距離越小，相似度越大；連接強(qiáng)度：節(jié)點(diǎn)之間連接強(qiáng)度越大，節(jié)點(diǎn)之間的繼承關(guān)系越明顯，共有信息量越大，距離越小，相似度越大。那么，如何判定兩個(gè)概念的共享信息量呢？首先，我們可以根據(jù)本體找到概念 C1 和 C2 的公共祖先 C3，即它們的共有信息為 C3， C3 占它們所有信息量的比重是多少呢，如何量化它？這里就用到了語料庫，我們通過計(jì)算 C3 在語料庫中出現(xiàn)的概率 P(C3)來衡量共有信息 C3 的數(shù)量，這樣給出一種計(jì)算相似度的方法： ( 1, 2) log ( 3 )Rsim c c p c?? (36) 這里我們只考慮了共有信息量，有人提出忽略差異信息量是不可取的，因?yàn)榧词?C1 和 C2 的共有信息量很多，但也許它們的差異信息量更多，下面給出了一種考慮了差異信息量的計(jì)算方法，共享信息量越多，越相似，差異信息量越多，越不相似： ( 1 , 2 ) 2 * l o g ( 3 ) / ( l o g ( 1 ) l o g ( 2 ) )Lsim c c p c p c p c?? (37) 當(dāng)前算法存在的問題在網(wǎng)絡(luò)距離模型中，更多的考慮了 isa 關(guān)系，而很少考慮其他關(guān)系，這種測(cè)量也更容易讓人聯(lián)想到相關(guān)性，而不是相似性；通過信息理論模型，我們可以很好的測(cè)量?jī)蓚€(gè)概念的相似性，但其對(duì)語料庫的頻繁訪問使得算法的實(shí)用性不大；兩個(gè)算法共同存在的問題是算法都是對(duì)稱性的，即測(cè)量 C1 和 C2 的相似度值和測(cè)量 C2， C1 的相似度值所得結(jié)果是一樣的，而實(shí)際情況是我們可以說 “ 獵犬 ”是 “ 狗 ” ，但反過來卻不行，兩個(gè)結(jié)果完全不同。（由于 WordNet 中的語義關(guān)系有許多種，這在上文中有所描述，這里只計(jì)算某種特定的語義關(guān)系，比如 isa 關(guān)系）。簡(jiǎn)而言之，隨著深度的加深，權(quán)值隨之變小，概念間的距離變?。浑S著邊的區(qū)域密度的增大，權(quán)值變小，概念間距離變小；隨著父子節(jié)點(diǎn)連接強(qiáng)度的增大，權(quán)值變小，概念間距離變小。為了解決這個(gè)問題，有人嘗試給不同的邊賦予權(quán)值，然而，手工賦值的辦法顯然是不可取的，應(yīng)為大型本體中的概念實(shí)在太多，完成這一工程，無異于再建一座萬里長(zhǎng)城。然而，這種測(cè)量方法存在一個(gè)問題，在計(jì)算最短路徑的過程中每一條邊得權(quán)重都是相同，都為 1，這與實(shí)際情況是不相符的。天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 7 第三章基于 WordNet 的概念語義相似度算法基于 WordNet 的語義相似性算法綜述如上文所述，目前基于 WordNet 的語義相似性算法總體上分為兩類，一種直觀方法是網(wǎng)絡(luò)距離模型，即以本體所在樹形結(jié)構(gòu)中兩個(gè)概念的距離為基本指標(biāo)來衡量概念的相似程度；另一種測(cè)量方法是信息理論模型，即通過兩個(gè)概念的共有信息量來衡量概念的相似程度。旨在說明為什么用本體可以測(cè)量語義的相似性，如何構(gòu)建本體，如何選擇本體等。通過語義距離測(cè)量相似性一種直觀方法是網(wǎng)絡(luò)距離模型，即以本體所在樹形結(jié)構(gòu)中兩個(gè)概念的距離為基本指標(biāo)來衡量概念的相似程度；另一種測(cè)量方法是信息理論模型，即通過兩個(gè)概念的共有信息量來衡量概念的相似程度。因此相似和相關(guān)是不同的。 WordNet 作為一個(gè)主要的通用本體，每一個(gè)詞的定義都經(jīng)過專家論證，可以天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 6 為我們常見的英文詞匯提供可靠的基本解釋；其完善的樹形組織結(jié)構(gòu)利于語義的相似度比較，在現(xiàn)階段的語義相似度研究中被廣泛使用，本文也將使用 WordNet作為本體。上下位關(guān)系：如果同義詞集合 A 的所有特征被包含在同義詞集合 B的特征集中，而不是相反，那么 B 是 A 的下位概念（ hyponym），反過來， A 是B 的上位概念（ hypernym）。在名詞樹形結(jié)構(gòu)的最頂層是11 個(gè)基本類，比如 “ entity” 、 “ event” 等等。 WordNet 的名詞部分是目前被開發(fā)的最完整的部分，名詞的連接關(guān)系就占了所有連接關(guān)系的 80%。綜上所述，我們對(duì)于本體的選擇，一方面取決于對(duì)概念密度和概念間關(guān)系的天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 5 組織強(qiáng)度的需求，另一方面需要參考我們使用本體的目的，所研究問題的特點(diǎn)。父親節(jié)點(diǎn)是當(dāng)前節(jié)點(diǎn)所表示概念的上一級(jí)概念，比如 “ 狗 ” 的上一級(jí)概念可能為 “ 哺乳動(dòng)物 ” ；兄弟節(jié)點(diǎn)是父親節(jié)點(diǎn)相同的節(jié)點(diǎn)，比如 “ 哺乳動(dòng)物 ” 的子節(jié)點(diǎn)可能有 “ 狗 ” 、 “ 貓 ” 、 “ 猩猩 ” 等等，那么 “ 狗 ” 的兄弟節(jié)點(diǎn)即為 “ 貓 ” 和 “ 猩猩 ” ；子節(jié)點(diǎn)為當(dāng)前概念的下一級(jí)概念，比如 “ 狗 ” 的下一級(jí)概念可以為 “ 獵犬 ” 、 “ 牧羊犬 ” 等等。有很多方法被用來表示一個(gè)本體，方法的選擇取決于研究領(lǐng)域?qū)Ρ倔w的不同需求，也就是對(duì)概念密度和概念間關(guān)系的組織強(qiáng)度的需求。本體的基本元素是概念，概念的表現(xiàn)形式為詞匯，即一個(gè)詞匯可以有多個(gè)語義，可以表達(dá)多個(gè)概念，而同一個(gè)概念也可以被多個(gè)詞匯表達(dá)。天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)（論文） 4 第二章語義相似度研究本體概述 “ 本體（ ontology） ” 一詞源于哲學(xué)領(lǐng)域，在古希臘羅馬哲學(xué)中，本體論主要研究的是對(duì)世界本源或基本構(gòu)成的探究，根據(jù) Webster 詞典的定義，本體是關(guān)于存在的物體的本質(zhì)或者各種存在的物體的本質(zhì)的規(guī)范定義。在 XML 語義相似性測(cè)量方面，當(dāng)前的主要方法是遍歷每一個(gè)節(jié)點(diǎn)，比較每一個(gè)節(jié)點(diǎn)的語義相似度，計(jì)算出相似節(jié)點(diǎn)的個(gè)數(shù)和總結(jié)點(diǎn)個(gè)數(shù)的比作為 XML 文檔相似度的依據(jù)，一方面它忽略了文檔本身的結(jié)構(gòu)性，另一方面為每一個(gè)節(jié)點(diǎn)執(zhí)行一遍概念相似度算法復(fù)雜度太高。而少量的文獻(xiàn)中雖然提到了 XML 語義相似度測(cè)量，但由于將過多的精力放在了其節(jié)點(diǎn)的語義相似度上，而忽略了文檔本身的結(jié)構(gòu)性。這種方法忽略了 XML 文檔的結(jié)構(gòu)特點(diǎn)；還有研究基于擁有相似的路徑集合則 XML 文檔相似的假設(shè)，通過路徑集合的比較計(jì)算 XML 文檔之間的相似度。名詞、動(dòng)詞、形容詞和副詞各被組織成一個(gè)同義詞的網(wǎng)絡(luò)，每個(gè)同義詞集合都代表一個(gè)基本的語義概念，并且這些集合之間也由各種關(guān)系連結(jié)。和文本文檔相比， XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點(diǎn)。） ,數(shù)據(jù)挖掘和知識(shí)獲取的必要步驟之一，如何實(shí)現(xiàn)不同本體之間的信息交換成為一個(gè)不可忽視的問題；換言之，要實(shí)現(xiàn)不同本體間的信息交換，或者想要挖掘出所需知識(shí)，就必須找到與所需概念相似的概念。關(guān)鍵詞：語義相似度；概念； WordNet； XML； XML 文檔語義相似度 ABSTRACT With the use of XML in data mining, classification and clustering, data exchange, content management, Web services and so on, how to decide the similarity between XML documents is being a mon problem. And there’s still no answer for where is the effective method to measure the semantic similarity between XML documents. This paper gives a more accurate way for this problem based on WordNet , the ontology , with the discussing of current mainstream ways of semantic similarity between concepts. Based on the semantic similarity between concepts and the structure characteristics of XML, this paper gives a new algorithm for semantic similarity between XML documents. It count the semantic similarity of XMLelements as units, and weights them, and gives the overall semantic similarity of XML documents. The algorithm has been proved to be feasible. And it’s a little step forward that the study of semantic similarity between XML documents has not been focused yet. Key words： semantic similarity； concept； WordNet； XML； semantic similarity between XML documents 1 目錄第一章緒論 ........................................................................... 1 研究背景 ............................................................................. 1 研究現(xiàn)狀 .....

點(diǎn)擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

軟件工程文檔模板基于java的模擬手機(jī)系統(tǒng)-資料下載頁

【摘要】西安歐亞學(xué)院本科畢業(yè)論文（設(shè)計(jì)）題目：學(xué)生姓名：指導(dǎo)教師：所在分院：專

2025-08-04 06:28

軟件工程課程設(shè)計(jì)庫存管理系統(tǒng)畢業(yè)設(shè)計(jì)畢業(yè)設(shè)計(jì)論文-資料下載頁

【摘要】庫存管理系統(tǒng)前言：倉庫庫存管理系統(tǒng)是一個(gè)企業(yè)不可缺少的部分,它的內(nèi)容對(duì)于企業(yè)的決策者和管理者來說都至關(guān)重要,所以倉庫庫存管理系統(tǒng)應(yīng)該能夠?yàn)橛脩籼峁┏渥愕男畔⒑涂旖莸牟樵兪侄?。但一直以來人們使用傳統(tǒng)人工的方式管理倉庫中的各種物資設(shè)備，這種管理方式存在著許多缺點(diǎn),如:效率低、另外時(shí)間一長(zhǎng),將產(chǎn)生大量的文件和數(shù)據(jù),這對(duì)于查找、更新和

2025-06-25 15:31

基于java的在線考試系統(tǒng)的開發(fā)軟件工程與計(jì)算機(jī)等專業(yè)畢業(yè)設(shè)計(jì)畢業(yè)論文-資料下載頁

【摘要】IXX大學(xué)畢業(yè)設(shè)計(jì)（論文）題目:基于Java技術(shù)的在線考試系統(tǒng)的開發(fā)學(xué)院:專業(yè):班級(jí):學(xué)號(hào):學(xué)生姓名:指導(dǎo)老師:

2025-01-18 14:15

軟件工程畢業(yè)設(shè)計(jì)文獻(xiàn)綜述外文翻譯-基于jsp的賓館管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁

【摘要】北京化工大學(xué)北方學(xué)院畢業(yè)設(shè)計(jì)（論文）——文獻(xiàn)綜述1文獻(xiàn)綜述前言本人畢業(yè)設(shè)計(jì)的論題為《基于JSP的賓館管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)》，該系統(tǒng)是在目前服務(wù)業(yè)的發(fā)展日益明顯，賓館的發(fā)展也成為了必然的趨勢(shì)。國(guó)外的賓館大多賓館都進(jìn)入了電腦時(shí)代，而目前我國(guó)各類賓館中還有相當(dāng)一部分賓館還停留在人工管理的基礎(chǔ)上，尤其是中、小得賓館的

2024-12-03 17:01

相似性和相異性的度量-資料下載頁

【摘要】相似性和相異性的度量相似性和相異性是重要的概念，因?yàn)樗鼈儽辉S多數(shù)據(jù)挖掘技術(shù)所使用，如聚類、最近鄰分類和異常檢測(cè)等。在許多情況下，一旦計(jì)算出相似性或相異性，就不再需要原始數(shù)據(jù)了。這種方法可以看作將數(shù)據(jù)變換到相似性（相異性）空間，然后進(jìn)行分析。首先，我們討論基本要素--相似性和相異性的高層定義，并討論它們之間的聯(lián)系。為方便起見，我們使用術(shù)語鄰近度（proximity）表示相似性或相異性。

2025-08-05 10:35

軟件工程課程設(shè)計(jì)的度量與評(píng)價(jià)系統(tǒng)畢業(yè)設(shè)計(jì)-資料下載頁

【摘要】I軟件工程課程設(shè)計(jì)的度量與評(píng)價(jià)系統(tǒng)畢業(yè)設(shè)計(jì)目錄引言...........................................................................................................................................1第一章概述................

2025-07-27 03:15

軟件工程畢業(yè)設(shè)計(jì)-圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁

【摘要】畢業(yè)設(shè)計(jì)（論文）說明書學(xué)院專業(yè)年級(jí)姓名指導(dǎo)教師年月日

2024-12-04 09:43

軟件工程畢業(yè)設(shè)計(jì)-電子商務(wù)平臺(tái)-資料下載頁

【摘要】設(shè)計(jì)題目：電子商務(wù)平臺(tái)學(xué)院：計(jì)算機(jī)與信息學(xué)院專業(yè)年級(jí)：軟件工程2021級(jí)學(xué)

2024-12-03 16:54

基于javaweb與xml的留言板設(shè)計(jì)畢業(yè)設(shè)計(jì)論文-資料下載頁

【摘要】1目錄中文摘要........................................................................................................................2英文摘要...............................................

2024-11-05 17:04

基于xml數(shù)據(jù)管理的crm系統(tǒng)設(shè)計(jì)畢業(yè)設(shè)計(jì)論文-資料下載頁

【摘要】常州大學(xué)畢業(yè)設(shè)計(jì)（論文）題目基于XML數(shù)據(jù)管理的CRM系統(tǒng)設(shè)計(jì)學(xué)生

2025-07-01 08:04

軟件工程系畢業(yè)設(shè)計(jì)教學(xué)環(huán)節(jié)要求-資料下載頁

【摘要】軟件工程系畢業(yè)設(shè)計(jì)教學(xué)環(huán)節(jié)要求一、畢業(yè)設(shè)計(jì)(論文)的目的和意義畢業(yè)設(shè)計(jì)(論文)是高等職業(yè)學(xué)院培養(yǎng)面向生產(chǎn)、建設(shè)、管理和服務(wù)第一線的高等技術(shù)應(yīng)用型人才的最后一個(gè)教學(xué)環(huán)節(jié)。是培養(yǎng)學(xué)生綜合運(yùn)用所學(xué)基礎(chǔ)理論、基本知識(shí)、基本技能和專業(yè)知識(shí)的重要手段。通過完成某一課題，可以進(jìn)一步檢驗(yàn)學(xué)生處理實(shí)際問題的能力；使學(xué)生掌握基本的設(shè)計(jì)(科研)方法，受到初步的工程技術(shù)訓(xùn)練。并可綜合衡量教學(xué)質(zhì)量，以利

2025-06-27 12:20

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

軟件工程畢業(yè)設(shè)計(jì)-基于wordnet的xml文檔語義相似性計(jì)算方法(文件)

軟件工程文檔模板基于java的模擬手機(jī)系統(tǒng)-資料下載頁

軟件工程課程設(shè)計(jì)庫存管理系統(tǒng)畢業(yè)設(shè)計(jì)畢業(yè)設(shè)計(jì)論文-資料下載頁

基于java的在線考試系統(tǒng)的開發(fā)軟件工程與計(jì)算機(jī)等專業(yè)畢業(yè)設(shè)計(jì)畢業(yè)論文-資料下載頁

軟件工程畢業(yè)設(shè)計(jì)文獻(xiàn)綜述外文翻譯-基于jsp的賓館管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁

相似性和相異性的度量-資料下載頁

軟件工程課程設(shè)計(jì)的度量與評(píng)價(jià)系統(tǒng)畢業(yè)設(shè)計(jì)-資料下載頁

軟件工程畢業(yè)設(shè)計(jì)-圖像檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-資料下載頁

軟件工程畢業(yè)設(shè)計(jì)-電子商務(wù)平臺(tái)-資料下載頁

基于javaweb與xml的留言板設(shè)計(jì)畢業(yè)設(shè)計(jì)論文-資料下載頁

基于xml數(shù)據(jù)管理的crm系統(tǒng)設(shè)計(jì)畢業(yè)設(shè)計(jì)論文-資料下載頁

軟件工程系畢業(yè)設(shè)計(jì)教學(xué)環(huán)節(jié)要求-資料下載頁

物業(yè)管理系統(tǒng)-軟件工程畢業(yè)設(shè)計(jì)論-資料下載頁

軟件工程畢業(yè)設(shè)計(jì)-留言板管理系統(tǒng)-資料下載頁

基于xml數(shù)據(jù)管理的crm系統(tǒng)設(shè)計(jì)畢業(yè)設(shè)計(jì)論文-資料下載頁

基于xml數(shù)據(jù)管理的crm系統(tǒng)設(shè)計(jì)_畢業(yè)設(shè)計(jì)論文-資料下載頁

軟件工程畢業(yè)設(shè)計(jì)-基于wordnet的xml文檔語義相似性計(jì)算方法-文庫吧

軟件工程畢業(yè)設(shè)計(jì)-基于wordnet的xml文檔語義相似性計(jì)算方法-wenkub

軟件工程畢業(yè)設(shè)計(jì)-基于wordnet的xml文檔語義相似性計(jì)算方法(已修改)

軟件工程畢業(yè)設(shè)計(jì)-基于wordnet的xml文檔語義相似性計(jì)算方法(編輯修改稿)