freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)設(shè)計-基于wordnet的xml文檔語義相似性計算方法(編輯修改稿)

2025-01-09 09:43 本頁面
 

【文章內(nèi)容簡介】 ....................................... 20 模塊設(shè)計 ...................................................................... 20 界面設(shè)計 ...................................................................... 21 詳細設(shè)計 ........................................................................... 22 本章小節(jié) ........................................................................... 25 第六章 XML 語義相似性比較算法實現(xiàn)與測試 ............. 26 編碼實現(xiàn)與運行結(jié)果 ....................................................... 26 測試 .................................................................................. 30 測試計劃 .................................................................... 32 測試結(jié)果 .................................................................... 33 本章小結(jié) ........................................................................... 34 第七章 總結(jié)與展望 ............................................................. 35 總結(jié) .................................................................................. 35 展望 .................................................................................. 35 參考文獻 ...................................................................................... 36 3 外文資料 中文譯文 致謝 天津大學 2021屆本科生畢業(yè)設(shè)計(論文) 1 第一章 緒論 研究背景 近年來,關(guān)于結(jié)構(gòu)及語義相似性測量的研究成為數(shù)據(jù)挖 掘、機器學習等領(lǐng)域中的研究熱點之一。這不僅是由于 XML( Extensible Markup Language)等互聯(lián)網(wǎng)新技術(shù)的不斷發(fā)展對已有技術(shù)帶來的挑戰(zhàn),更是因為隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的信息資源呈不斷的擴張趨勢,無論在數(shù)量還是領(lǐng)域范圍上,都爆炸式增長,人們已經(jīng)不僅僅滿足于以往對信息的簡單獲取,對知識的需求在不斷擴大,以往偏重結(jié)構(gòu)性相似的匹配方法已經(jīng)不能滿足需求,語義相似性測量逐漸成為關(guān)注的熱點。語義相似性測量方法被廣泛的應用在了數(shù)據(jù)挖掘和知識獲取方面以及國防安全、企業(yè)應用等領(lǐng)域。 而隨著使用本體 表示相關(guān)應用的領(lǐng)域知識被越來越多的人的認同(所謂本體,是一種形式化的,對共享概念明確而又詳細的說明 [1],相關(guān)知識領(lǐng)域用到的所有詞匯都可以在本體中找到相應解釋,這些詞匯也被成為概念。) ,數(shù)據(jù)挖掘和知識獲取的必要步驟之一,如何實現(xiàn)不同本體之間的信息交換成為一個不可忽視的問題;換言之,要實現(xiàn)不同本體間的信息交換,或者想要挖掘出所需知識,就必須找到與所需概念相似的概念。因此,問題也就被簡化為如何決定不同系統(tǒng)或者不同領(lǐng)域間或者同一系統(tǒng)同一領(lǐng)域內(nèi)的兩個概念的語義相似度。 研究與應用并重,我們將重點放在了如何基于本體測 量 XML的語義相似度。從 1996 年 W3C 提出 XML 工作草案, 1997 年召開第一次 XML 會議開始,到近年來 XML、語義網(wǎng)( Semantic Web)及 OWL 等相關(guān)技術(shù)的研究與發(fā)展,使得面向內(nèi)容的數(shù)據(jù)挖掘等成為可能。和文本文檔相比, XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點。隨著 XML 在數(shù)據(jù)挖掘、分類聚類、數(shù)據(jù)交換、內(nèi)容管理、 Web 服務等方面的廣泛應用,如何有效的解決 XML 語義相似度的測量方法,成為人們普遍關(guān)注的一個焦點。 有了概念語義相似度的基礎(chǔ),解決 XML 語義相似度的測量問題首先需要選擇一個 適合的通用本體,我們采用 WordNet,一種大家普遍接受的通用本體,作為判斷自然語言之間語義的相似性的依據(jù)。 WordNet 是普林斯頓大學的心理學家、語言學家和計算機工程師聯(lián)合設(shè)計的一種基于認知語言學的詞典。名詞、動詞、形容詞和副詞各被組織成一個同義詞的網(wǎng)絡(luò),每個同義詞集合都代表一個基本的語義概念,并且這些集合之間也由各種關(guān)系連結(jié)。 綜上所述,我們以 WordNet 作為本體,以一種概念語義相似度測量作為基礎(chǔ),最終能夠基本辨別不同 XML 文檔之間的語義相似性,為數(shù)據(jù)挖掘、知識獲取、信息交換、 Web 應用等領(lǐng)域提供一種 XML 語義相似性測量的解決方案。 天津大學 2021屆本科生畢業(yè)設(shè)計(論文) 2 研究現(xiàn)狀 目前 XML 文檔相似度的研究已經(jīng)取得了許多進展。由于 XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等結(jié)構(gòu)特點,許多研究通過樹的編輯距離來計算 XML 文檔之間的相似度,距離和相似度之間成反比例關(guān)系,距離越大,相似度越??;另有一些研究直接比較樹種節(jié)點之間的相似度,先計算文檔之間相同節(jié)點的個數(shù),通過共同節(jié)點和兩個文檔所有節(jié)點個數(shù)的比值來衡量文檔之間的相似度。這種方法忽略了 XML 文檔的結(jié)構(gòu)特點;還有研究基于擁有相似的路徑集合則 XML 文檔相似的假設(shè),通過路徑集合 的比較計算 XML 文檔之間的相似度。這些研究取得了一些成果,但仍有不足,均忽略了節(jié)點本身語義的相似性。 而在語義相似性測量方面,當前研究的主要焦點仍然是概念相似度測量,還很少有研究將概念相似度測量應用到 XML 文檔中來實現(xiàn) XML 文檔的語義相似性比較。這主要是因為如何實現(xiàn)概念相似度測量還不成熟,仍然沒有一個統(tǒng)一的被大家認同的方法來實現(xiàn)概念相似度測量,因此,概念相似度測量仍然是當前的研究熱點。而少量的文獻中雖然提到了 XML 語義相似度測量,但由于將過多的精力放在了其節(jié)點的語義相似度上,而忽略了文檔本身的結(jié)構(gòu)性。 在概 念相似度測量方面,主流的研究方向分為兩種,一種根據(jù)概念之間的距離來決定概念的相似程度,另一種根據(jù)信息學理論,以兩個概念共有信息量的多少來決定概念的相似程度。以距離測量的方法有太多的經(jīng)驗判斷,缺少說服力,同時計算復雜度高;信息學理論有一個很好的評價相似性的方法,即以共有信息量的多少為標準,但卻忽視了概念之間的方向性等信息,比如 “ 貓 ” 和 “ 哺乳動物 ” 作比較,反過來 “ 哺乳動物 ” 和 “ 貓 ” 作比較,兩者有什么不同呢?顯然,兩者的共有信息量是一樣的。但到底是 “ 貓 ” 和 “ 哺乳動物 ” 像,還是 “ 哺乳動物 ” 和 “ 貓 ” 像呢?顯然是前者更 像一些,這就是方向問題。 在 XML 語義相似性測量方面,當前的主要方法是遍歷每一個節(jié)點,比較每一個節(jié)點的語義相似度,計算出相似節(jié)點的個數(shù)和總結(jié)點個數(shù)的比作為 XML 文檔相似度的依據(jù),一方面它忽略了文檔本身的結(jié)構(gòu)性,另一方面為每一個節(jié)點執(zhí)行一遍概念相似度算法復雜度太高。 研究意義 通過本課題的研究,給出了一個更為精確的概念語義相似性比較算法,為該領(lǐng)域,以及其他應用領(lǐng)域包括 XML 文檔、普通文檔、其它文檔以及信息檢索數(shù)據(jù)挖掘等方面都會有一定貢獻;同時在該算法的基礎(chǔ)之上給出了一種 XML 文檔語義相似性比較算法, 在當前 XML 文檔語義相似性比較研究還沒有大規(guī)模展開天津大學 2021屆本科生畢業(yè)設(shè)計(論文) 3 的情況下,具有一定的探索意義和使用價值。 主要內(nèi)容和組織結(jié)構(gòu) 本文的第一部分緒論主要闡述了課題的必要性和意義;第二部分簡要敘述了語義相似性研究的基本知識,并對后文將要用到的工具 WordNet 進行了介紹;第三部分在已有算法的基礎(chǔ)上給出了一種更加精確的概念語義相似性比較算法;第四部分結(jié)合概念語義相似性比較算法給出了一種 XML文檔語義相似性比較算法;第五部分論述了 XML 文檔語義相似性比較算法的實現(xiàn)過程;第六部分對本文進行了總結(jié)并對將來的發(fā)展方向進行了論述 。 本章小結(jié) 本章主要對課題開展的背景、必要性和意義進行了論述;并敘述了本文的結(jié)構(gòu)安排。 天津大學 2021屆本科生畢業(yè)設(shè)計(論文) 4 第二章 語義相似度研究 本體概述 “ 本體( ontology) ” 一詞源于哲學領(lǐng)域,在古希臘羅馬哲學中,本體論主要研究的是對世界本源或基本構(gòu)成的探究,根據(jù) Webster 詞典的定義,本體是關(guān)于存在的物體的本質(zhì)或者各種存在的物體的本質(zhì)的規(guī)范定義。然而,計算機領(lǐng)域?qū)Α?本體 ” 賦予了新的定義,進而被引進信息科學領(lǐng)域。在信息科學領(lǐng)域,本體的定義是一直發(fā)展著的,目前對于本體的統(tǒng)一定義是 “ 本體是一種形式化的,對 共享概念明確而又規(guī)范的說明 ” 。在信息科學領(lǐng)域,本體被作為所研究領(lǐng)域的一種語義基礎(chǔ),即在本體中可以找到領(lǐng)域中每一個詞匯的語義(這里的領(lǐng)域值特定的范圍,比如化學領(lǐng)域、餐飲領(lǐng)域或者語言學領(lǐng)域、人工智能、信息提取等等)。 本體的基本元素是概念,概念的表現(xiàn)形式為詞匯,即一個詞匯可以有多個語義,可以表達多個概念,而同一個概念也可以被多個詞匯表達。因此,表達同一概念的詞匯構(gòu)成類。類和概念之間加入適當?shù)年P(guān)系,使各個獨立的概念和類相連,也就構(gòu)成了一個本體。這些關(guān)系可以被簡單分為父子關(guān)系、部分整體關(guān)系、同義詞關(guān)系等。 有很多方 法被用來表示一個本體,方法的選擇取決于研究領(lǐng)域?qū)Ρ倔w的不同需求,也就是對概念密度和概念間關(guān)系的組織強度的需求。同一領(lǐng)域,本體 A通過 100 個概念來描述,而本體 B 通過 10000 個概念描述,顯然本體 B 的概念密度更大,描述更精確,同時,概念間的關(guān)系是多種多樣的,本體 A 可能只考慮了父子關(guān)系,而本體 B 考慮了所有關(guān)系。在具體應用中,一個領(lǐng)域的知識庫,一個詞典,一個語義網(wǎng)都可以被用來當作一個本體。目前最流行的一種本體組織方式是將本體組織成樹狀結(jié)構(gòu)的,每一個概念均被表示為樹形結(jié)構(gòu)中的一個節(jié)點,每一個節(jié)點都有它的父親節(jié)點、兄弟 節(jié)點和子節(jié)點。父親節(jié)點是當前節(jié)點所表示概念的上一級概念,比如 “ 狗 ” 的上一級概念可能為 “ 哺乳動物 ” ;兄弟節(jié)點是父親節(jié)點相同的節(jié)點,比如 “ 哺乳動物 ” 的子節(jié)點可能有 “ 狗 ” 、 “ 貓 ” 、 “ 猩猩 ” 等等,那么 “ 狗 ” 的兄弟節(jié)點即為 “ 貓 ” 和 “ 猩猩 ” ;子節(jié)點為當前概念的下一級概念,比如 “ 狗 ” 的下一級概念可以為 “ 獵犬 ” 、 “ 牧羊犬 ” 等等。 WordNet就是這樣一種組織方式。 本體有許多分類方式,一種常用的方式是根據(jù)內(nèi)容分為三類:領(lǐng)域本體:本體內(nèi)容適用于特定學科領(lǐng)域;通用本體:本體內(nèi)容包含具有普遍意義的客觀世界的常識;任務本體:本體本 身為用于解決特定任務的術(shù)語集合。 WordNet 屬于目前常用的一種通用本體。 綜上所述,我們對于本體的選擇,一方面取決于 對概念密度和概念間關(guān)系的天津大學 2021屆本科生畢業(yè)設(shè)計(論文) 5 組織強度的需求,另一方面需要參考我們使用本體的目的,所研究問題的特點。 WordNet 簡介 WordNet 是由普林斯頓大學的 Gee A. Miller 組織開發(fā)的大型英語詞典。其描述的對象包括 pound(復合詞)、 phrasal verb(短語動詞)、 collocation(搭配詞)、 idiomatic phrase(成語)、 word(單詞),其中 單詞是最基本的單位。這些描述對象被分為名詞、動詞、形容詞和副詞,它們各自被組織成一個同義詞的網(wǎng)絡(luò),即上文中提到的樹形結(jié)構(gòu),每個同義詞集合都代表一個基本的語義概念,并且這些集合之間也有各種關(guān)系連結(jié)。 WordNet 的名詞部分是目前被開發(fā)的最完整的部分,名詞的連接關(guān)系就占了所有連接關(guān)系的 80%。我們以名詞為例,說明WordNet 的組織方式。 WordNet 中最基礎(chǔ)的語義關(guān)系是 synonymy(同義關(guān)系)。 Synset(同義詞集合)構(gòu)成了樹形結(jié)構(gòu)中的每個節(jié)點,也即一個概念。在名詞樹形結(jié)構(gòu)的最頂層是11 個基本類,比如 “ entity” 、 “ event” 等等。這 11 個基本類的下一層為 25 個基本類別: {act,activity}動作行為, {food}食物, {possession}所有物, {animal,faunal}動物; {group,grouping}團體, {process}過程, {artifact}人工產(chǎn)物, {location}位置;{quantity,amout}數(shù)量, {attribute}屬性, {motivation,motive}動機, {
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1