正文內(nèi)容

軟件工程畢業(yè)設(shè)計-基于wordnet的xml文檔語義相似性計算方法(完整版)

2025-01-21 09:43上一頁面

下一頁面

　　

【正文】詞），其中單詞是最基本的單位。簡而言之，同義詞構(gòu)成同義詞集合，同義詞集合構(gòu)成類，不同類又構(gòu)成更上層的類。但在這之前，我們還要討論一下什么是語義相似性、語義相關(guān)性和語義距離，這三個詞總是同時出現(xiàn)，甚至被經(jīng)?；煊?，然而，它們的意義并非完全一樣，這里我們舉例來說明。上文我們已經(jīng)舉例說明，兩者相關(guān)并不一定說明兩者相似。網(wǎng)絡(luò)距離模型由于 WordNet 本身的樹形結(jié)構(gòu)以及語義距離和語義相似度之間的關(guān)系，使得計算兩個概念之間的相似度有一種非常直觀的方法，即測量表示兩個概念的節(jié)點在樹種的距離 —— 節(jié)點 A 到 B 的最短路徑。所謂深度，就是節(jié)點在樹中的深度；從圖 31 我們可以看到，節(jié)點 B 所在區(qū)域邊的個數(shù)大于節(jié)點 C 所在區(qū) 圖 31 樹形節(jié)點圖天津大學(xué) 2021屆本科生畢業(yè)設(shè)計（論文） 8 域邊的個數(shù)，即區(qū)域密度 B 大于區(qū)域密度 C，則對應(yīng)的 BD 邊的權(quán)值應(yīng)當(dāng)小于CF 邊的權(quán)值。由公式 4 計算出的結(jié)果是無法預(yù)知其取值范圍的，因此，有人提出了一種將取之范圍規(guī)約到 [0,1]的方法，這種方法也同時考慮了最短路徑和公共祖先： 33( , )( , ) ij NNl e n c cij ees im c c e??? ? ? ???? ? ???? ? (35) 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計（論文） 9 信息理論模型信息理論模型是一種本體和語料庫結(jié)合的方法。 ( 1 , 2) 2 * 3 / ( 1 2 2 * 3 )si m c c N N N N? ? ? (34) 然而，公式 34 它本身的缺點也是不容忽視的，公式本身并沒有充分考慮邊密度、連接強度、方向性等因素，因此，本文給出了一個新的計算概念語義相似度的方法，它以共享信息為基礎(chǔ)，綜合考慮了深度、邊密度、連接強度、方向性、取值范圍等因素，同時避免了對語料庫的頻繁訪問。其中前半部分中為節(jié)點，的公共祖先到根節(jié)點的距離，即兩者的共有信息量，為兩者之間的連接強度，即差異信息量，因此為通過信息學(xué)理論計算出的相似度；后半部分是為了體現(xiàn)非對稱性而編寫的輔助函數(shù) 。本章小結(jié) 本章系統(tǒng)的闡述了目前概念相似性比較的主流方法，主要分為兩種，網(wǎng)絡(luò)距離模型和信息理論模型。所謂可擴展是針對于 HTML 等結(jié)構(gòu)語言而言的， XML 文檔有自己的結(jié)構(gòu)特點，但對結(jié)構(gòu)的要求并不強，使用者可以定義自己的 XML 文檔結(jié)構(gòu)。因此，以結(jié)構(gòu)相似性作為評判語義相似性的先決條件是不可取的。一個直觀的想法是用匹配的結(jié)點個數(shù)除以總結(jié)點個數(shù)來衡量相似程度。通過公式 11 可知，若兩個文檔完全相似，則相似度取值為 1，若兩個文檔完全無關(guān)，則相似度取值為 0，即最終輸出的取值結(jié)果規(guī)約到了 [0,1]。這種測量方法的優(yōu)點是測量簡單，操作易行。這和一些人的預(yù)期是相左的。本文將需要做預(yù)處理的情況作出如下總結(jié)： ● 大小寫轉(zhuǎn)換，將大寫字母統(tǒng)一轉(zhuǎn)換為小寫字母； ● 連拼詞組，比如 “ studentbook” ，進行分詞； ● 去掉無意義符號，比如 “ 、 /” 等等； ● 根據(jù)說明文檔將縮略詞恢復(fù)為完整詞匯。因此，當(dāng)我們需要的語義相似性是狹義的相似性是，應(yīng)當(dāng)選擇方法一；而當(dāng)我們的預(yù)期是尋找兩個相關(guān)的 XML 文檔，需要的是廣義的語義相似性，那么方法二就是一個非常好的選擇。為了克服二元性，在第三章，本文提出了一種測量概念語義相似性的新方法，參見節(jié)。兩種概念相似性測量方法的選擇在上一節(jié)中我們指出，尋找最匹配子根節(jié)點算法是一種基于語義相似性計算XML 文檔相似性的算法，但并沒有給出 ( , )simmn 的具體算法。實際情況是，根據(jù) XML 文檔的樹形結(jié)構(gòu)，處于上層的節(jié)點應(yīng)該更具有普遍性、總結(jié)性、概要性。以下圖為例，我們發(fā)現(xiàn)兩顆樹的第一層對應(yīng)于第一層，第二層對應(yīng)于第二層 ?? 因此只需將第一層的節(jié)點和第一層的節(jié)點作比較，將第二層的節(jié)點和第二層的節(jié)點作比較 ?? ，因此我們總結(jié)出 XML 文檔比較的第一步：尋找文檔 A在文檔 B 中的匹配層。和普通文本文檔相比， XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點。在節(jié)中我們提出了一個建議，采用信息理論模型，同時避免訪問語料庫。 α， β是區(qū)分相似度和非對稱性的權(quán)重而設(shè)置的參數(shù)，需要根據(jù)實驗數(shù)據(jù)不斷修改。算法分析我們知道，兩個概念之間的語義距離和連接強度的取值是相反的，語義距離越大連接強度越低，為了將連接強度和語義距離結(jié) 合，本文擴展了連接強度的概念。那么，如何判定兩個概念的共享信息量呢？首先，我們可以根據(jù)本體找到概念 C1 和 C2 的公共祖先 C3，即它們的共有信息為 C3， C3 占它們所有信息量的比重是多少呢，如何量化它？這里就用到了語料庫，我們通過計算 C3 在語料庫中出現(xiàn)的概率 P(C3)來衡量共有信息 C3 的數(shù)量，這樣給出一種計算相似度的方法： ( 1, 2) log ( 3 )Rsim c c p c?? (36) 這里我們只考慮了共有信息量，有人提出忽略差異信息量是不可取的，因為即使 C1 和 C2 的共有信息量很多，但也許它們的差異信息量更多，下面給出了一種考慮了差異信息量的計算方法，共享信息量越多，越相似，差異信息量越多，越不相似： ( 1 , 2 ) 2 * l o g ( 3 ) / ( l o g ( 1 ) l o g ( 2 ) )Lsim c c p c p c p c?? (37) 當(dāng)前算法存在的問題在網(wǎng)絡(luò)距離模型中，更多的考慮了 isa 關(guān)系，而很少考慮其他關(guān)系，這種測量也更容易讓人聯(lián)想到相關(guān)性，而不是相似性；通過信息理論模型，我們可以很好的測量兩個概念的相似性，但其對語料庫的頻繁訪問使得算法的實用性不大；兩個算法共同存在的問題是算法都是對稱性的，即測量 C1 和 C2 的相似度值和測量 C2， C1 的相似度值所得結(jié)果是一樣的，而實際情況是我們可以說 “ 獵犬 ”是 “ 狗 ” ，但反過來卻不行，兩個結(jié)果完全不同。簡而言之，隨著深度的加深，權(quán)值隨之變小，概念間的距離變小；隨著邊的區(qū)域密度的增大，權(quán)值變小，概念間距離變小；隨著父子節(jié)點連接強度的增大，權(quán)值變小，概念間距離變小。然而，這種測量方法存在一個問題，在計算最短路徑的過程中每一條邊得權(quán)重都是相同，都為 1，這與實際情況是不相符的。旨在說明為什么用本體可以測量語義的相似性，如何構(gòu)建本體，如何選擇本體等。因此相似和相關(guān)是不同的。上下位關(guān)系：如果同義詞集合 A 的所有特征被包含在同義詞集合 B的特征集中，而不是相反，那么 B 是 A 的下位概念（ hyponym），反過來， A 是B 的上位概念（ hypernym）。 WordNet 的名詞部分是目前被開發(fā)的最完整的部分，名詞的連接關(guān)系就占了所有連接關(guān)系的 80%。父親節(jié)點是當(dāng)前節(jié)點所表示概念的上一級概念，比如 “ 狗 ” 的上一級概念可能為 “ 哺乳動物 ” ；兄弟節(jié)點是父親節(jié)點相同的節(jié)點，比如 “ 哺乳動物 ” 的子節(jié)點可能有 “ 狗 ” 、 “ 貓 ” 、 “ 猩猩 ” 等等，那么 “ 狗 ” 的兄弟節(jié)點即為 “ 貓 ” 和 “ 猩猩 ” ；子節(jié)點為當(dāng)前概念的下一級概念，比如 “ 狗 ” 的下一級概念可以為 “ 獵犬 ” 、 “ 牧羊犬 ” 等等。本體的基本元素是概念，概念的表現(xiàn)形式為詞匯，即一個詞匯可以有多個語義，可以表達多個概念，而同一個概念也可以被多個詞匯表達。在 XML 語義相似性測量方面，當(dāng)前的主要方法是遍歷每一個節(jié)點，比較每一個節(jié)點的語義相似度，計算出相似節(jié)點的個數(shù)和總結(jié)點個數(shù)的比作為 XML 文檔相似度的依據(jù)，一方面它忽略了文檔本身的結(jié)構(gòu)性，另一方面為每一個節(jié)點執(zhí)行一遍概念相似度算法復(fù)雜度太高。這種方法忽略了 XML 文檔的結(jié)構(gòu)特點；還有研究基于擁有相似的路徑集合則 XML 文檔相似的假設(shè)，通過路徑集合的比較計算 XML 文檔之間的相似度。和文本文檔相比， XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點。關(guān)鍵詞：語義相似度；概念； WordNet； XML； XML 文檔語義相似度 ABSTRACT With the use of XML in data mining, classification and clustering, data exchange, content management, Web services and so on, how to decide the similarity between XML documents is being a mon problem. And there’s still no answer for where is the effective method to measure the semantic similarity between XML documents. This paper gives a more accurate way for this problem based on WordNet , the ontology , with the discussing of current mainstream ways of semantic similarity between concepts. Based on the semantic similarity between concepts and the structure characteristics of XML, this paper gives a new algorithm for semantic similarity between XML documents. It count the semantic similarity of XMLelements as units, and weights them, and gives the overall semantic similarity of XML documents. The algorithm has been proved to be feasible. And it’s a little step forward that the study of semantic similarity between XML documents has not been focused yet. Key words： semantic similarity； concept； WordNet； XML； semantic similarity between XML documents 1 目錄第一章緒論 ........................................................................... 1 研究背景 ............................................................................. 1 研究現(xiàn)狀 ............................................................................. 2 研究意義 ............................................................................. 2 主要內(nèi)容和組織結(jié)構(gòu) ......................................................... 3 本章小結(jié) ............................................................................. 3 第二章語義相似度研究 ...................................................... 4 本體概述 ............................................................................. 4 WordNet 簡介 ..................................................................... 5 語義相似性、語義相關(guān)性和語義距離 .............................. 6 本章小結(jié) ............................................................................. 6 第三章基于 WordNet 的概念語義相似度算法 ................ 7 基于 WordNet 的語義相似性算法綜

點擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

軟件工程文檔模板范例-資料下載頁

【摘要】目錄三、需求規(guī)格說明書 9四、概要設(shè)計說明書 12五、詳細設(shè)計說明書 153　軟件需求說明書　　軟件需求說明書的編制是為了使用戶的軟件開發(fā)者雙方對該軟件的起初規(guī)定有一個共同的理解，使之成為整個開發(fā)工作的基礎(chǔ)。編制軟件需求說明書的內(nèi)容要求如下：　　　引言　　　編寫的目的　　　背景　　　定義　　　參考資料　　　任務(wù)概述　　　目標　　　用戶的點

2025-08-04 05:49

軟件工程專業(yè)網(wǎng)上購物系統(tǒng)設(shè)計與實現(xiàn)畢業(yè)設(shè)計(doc畢業(yè)設(shè)計論文)-資料下載頁

【摘要】NANCHANGUNIVERSITY學(xué)士學(xué)位論文THESISOFBACHELOR題目網(wǎng)上購物系統(tǒng)設(shè)計與實現(xiàn)學(xué)院：軟件學(xué)院系軟件工程專業(yè)：軟件工程班級：

2025-06-28 16:17

基于xml的電子商務(wù)系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計-資料下載頁

【摘要】基于XML的電子商務(wù)系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計目錄摘要 IAbstract II1 緒論 1 研究背景及意義 1 國內(nèi)外研究現(xiàn)狀 1 本文所做的工作 22 XML與電子商務(wù)簡介 4 電子商務(wù)簡介 4 電子商務(wù)的涵義 4 電子商務(wù)的分類 4 電子商務(wù)的優(yōu)點與影響 5 電子商務(wù)所面臨的問題 5 XML簡介 7 XML的產(chǎn)生 7 XML的設(shè)

2025-06-24 16:20

xml與java編程開發(fā)方法(doc畢業(yè)設(shè)計論文)-資料下載頁

【摘要】目錄摘要 -1-Abstract -1-1、XML技術(shù)概述 -1-XML技術(shù)背景介紹 -1-XML的優(yōu)點 -1-XML基礎(chǔ) -2-XML的術(shù)語 -2-XML語法 -2-用XSL顯示XML文檔 -6-DOM技術(shù) -6-XML與數(shù)據(jù)庫 -8-2、WEB編程開發(fā)方法 -10-

2025-06-22 16:23

軟件工程畢業(yè)設(shè)計-商品銷售管理系統(tǒng)的設(shè)計與實現(xiàn)-資料下載頁

【摘要】福建農(nóng)林大學(xué)本科畢業(yè)設(shè)計說明書1設(shè)計題目：商品銷售管理系統(tǒng)的設(shè)計與實現(xiàn)學(xué)院：計算機與信息學(xué)院專業(yè)年級：2021級軟件工程學(xué)號：

2024-12-03 16:58

文章相似性檢測程序-資料下載頁

【摘要】這是我自己用C#寫的一個程序，用來檢測多篇文檔之間是否具有相似性（篇數(shù)上限為50）。這個程序還有一些bug和未知的錯誤。注釋也寫的比較混亂，但是現(xiàn)在起碼是可以基本運行的，所以我就上傳過來了。注意：輸入的文檔必須是TXT格式，且采用的是相同的編碼方式。這個程序的一個優(yōu)點是，除了可以檢測文檔之間的相關(guān)性之外，還可以用來識別圖片，音樂，視頻等任何文件的相似性。這部分的實現(xiàn)我將稍后完成，代碼中

2025-07-07 14:30

基于jsp網(wǎng)上購物系統(tǒng)的設(shè)計與實現(xiàn)計算機軟件工程畢業(yè)論文-資料下載頁

【摘要】I畢業(yè)論文（設(shè)計）題目：基于JSP網(wǎng)上購物系統(tǒng)的設(shè)計與實現(xiàn)專業(yè)：計算機科學(xué)與技術(shù)院系：計算機學(xué)院年級：2021學(xué)

2025-02-26 09:53

轉(zhuǎn)發(fā)基于組件的軟件工程-資料下載頁

【摘要】轉(zhuǎn)發(fā)基于組件的軟件工程摘要：基于組件的軟件工程的主要任務(wù)是從事把部件(組件)集成為系統(tǒng)的開發(fā)，這種開發(fā)中部件作為可重用實體，系統(tǒng)的維護和更新是通過定制和替換這些部件來實現(xiàn)的。這需要貫穿于組件和系統(tǒng)整個生命周期的確定的方法體系和工具的支持，包括技術(shù)、組織、市場、法律等其他方面。傳統(tǒng)的軟件工程學(xué)科需要新的方法學(xué)支持基于組件的開發(fā)。IVICACRNKOVIC

2025-05-07 20:41

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

軟件工程畢業(yè)設(shè)計-基于wordnet的xml文檔語義相似性計算方法(完整版)

軟件工程文檔模板范例-資料下載頁

軟件工程專業(yè)網(wǎng)上購物系統(tǒng)設(shè)計與實現(xiàn)畢業(yè)設(shè)計(doc畢業(yè)設(shè)計論文)-資料下載頁

基于xml的電子商務(wù)系統(tǒng)的設(shè)計與實現(xiàn)畢業(yè)設(shè)計-資料下載頁

xml與java編程開發(fā)方法(doc畢業(yè)設(shè)計論文)-資料下載頁

軟件工程畢業(yè)設(shè)計-商品銷售管理系統(tǒng)的設(shè)計與實現(xiàn)-資料下載頁

文章相似性檢測程序-資料下載頁

基于jsp網(wǎng)上購物系統(tǒng)的設(shè)計與實現(xiàn)計算機軟件工程畢業(yè)論文-資料下載頁

轉(zhuǎn)發(fā)基于組件的軟件工程-資料下載頁

軟件工程-麗嘉賓館管理系統(tǒng)-畢業(yè)設(shè)計-論-資料下載頁

軟件工程畢業(yè)設(shè)計管理系統(tǒng)需求說明書-資料下載頁

軟件工程畢業(yè)設(shè)計論文-會計核算管理系統(tǒng)-資料下載頁

aspnet郵件收發(fā)系統(tǒng)計算機與軟件工程專業(yè)畢業(yè)設(shè)計畢業(yè)論-資料下載頁

軟件工程畢業(yè)設(shè)計-基于wordnet的xml文檔語義相似性計算方法(已改無錯字)

軟件工程畢業(yè)設(shè)計-基于wordnet的xml文檔語義相似性計算方法-資料下載頁

軟件工程畢業(yè)設(shè)計-基于wordnet的xml文檔語義相似性計算方法(參考版)

軟件工程畢業(yè)設(shè)計-基于wordnet的xml文檔語義相似性計算方法-文庫吧資料

軟件工程畢業(yè)設(shè)計-基于wordnet的xml文檔語義相似性計算方法-展示頁