freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)設(shè)計(jì)-基于wordnet的xml文檔語義相似性計(jì)算方法-wenkub

2022-12-15 09:43:47 本頁面
 

【正文】 in M L, et al. The Similarity Metric[c]. In: IEEE Transactions on Information Theory. 2021. 863872. [8]邱明 . 語義相似性度量及其在設(shè)計(jì)管理系統(tǒng)中的應(yīng)用 [D]. 博士,浙江大學(xué),2021. [9]Bulskov H, Knappe R, Andreasen T. On Measuring Similarity for Conceptual Querying[C]. In: Proceedings of the 5th International Conference on Flexible Query Answering Systems. SpringerVerlag, 2021. 100111. [10]宋玲 . 語義相似度計(jì)算及其應(yīng)用研究 . 博士, 山東大學(xué), 2021. [11]黃世國,耿國華 . 語義相似性測(cè)度方法研究綜述《計(jì)算機(jī)應(yīng)用與軟件》 2021( 25) . [12]Yang, D. and Powers, D. M. W. Measuring Semantic Similarity in the Taxonomy of WordNet. In Proc. TwentyEighth Australasian Computer Science Conference( ACSC2021), Newcastle, Australia. CRPIT, 38. EstivillCastro, V., Ed. ACS. 315322. 2021. [13]Budanitsky, Alexander. Lexical semantic relatedness and its application in natural language processing. Technical Report CSRG390, Computer Systems Research Group, University of Toronto, August. 1999. [14]周子力 . 基于 WordNet 的本體構(gòu)建及其在安全領(lǐng)域應(yīng)用關(guān)鍵技術(shù)研究 . 博士,華東師范大學(xué), 2021. [15] 盛立東 . 模式識(shí)別導(dǎo)論 [M].北京 :北京郵電大學(xué)出版社, 2021. 三、設(shè)計(jì)(研究)內(nèi)容和要求 研究?jī)?nèi)容: 1. 了解 XML 語義相似性方法; 2. 熟悉 WordNet 的使用方法; 3. 基于 WordNet 實(shí)現(xiàn)基本語義相似性計(jì)算算法; 4. 編寫程序?qū)崿F(xiàn)上述算法。 具體要求:基于 WordNet 實(shí)現(xiàn)基于語義相似性計(jì)算算法。 從 1996 年 W3C 提出 XML 工作草案, 1997 年召開第一次 XML 會(huì)議開始,到近年來 XML、語義網(wǎng)( Semantic Web)及 OWL 等相關(guān)技術(shù)的研究與發(fā)展,使得面向內(nèi)容的數(shù)據(jù)挖掘等成為可能。名詞、動(dòng)詞、形容詞和副詞各被組織成一個(gè)同義詞的網(wǎng)絡(luò),每個(gè)同義詞集合都代表一個(gè)基本的語義概念,并且這些集合之間也由各種關(guān)系連結(jié)。 二、國內(nèi)外發(fā)展?fàn)顩r 目前 XML 文檔相似度的研究已經(jīng)取得了許多進(jìn)展。這些年,也有一些研究將節(jié)點(diǎn)本身的相似度納入了考量范圍,文獻(xiàn) [10]綜合考慮了文檔節(jié)點(diǎn)的語義相似性和結(jié)構(gòu)特點(diǎn),但研究尚不成熟,均在計(jì)算精度和效率之間難以取舍。進(jìn)而通過進(jìn)一步的計(jì)算,考慮文檔之中所有節(jié)點(diǎn)的相似度 情況,給出兩個(gè)文檔之間的語義相似度結(jié)果。 2021218~ 2021310 熟悉編程環(huán)境和相關(guān)語言的開發(fā)技術(shù)。 2021519~ 202165 測(cè)試 、性能評(píng)估及 畢業(yè)論文定稿。 在概念語義相似度比較基礎(chǔ)之上本文參照 XML文檔的結(jié)構(gòu)特性設(shè)計(jì)了一種XML 文檔語義相似性比較算法 ,該算法以 XML 文檔的節(jié)點(diǎn)語義相似性為基礎(chǔ),在經(jīng)過加權(quán)求值,給出文檔整體的語義相似度,經(jīng)試驗(yàn)論證,該算法是可行的。語義相似性測(cè)量方法被廣泛的應(yīng)用在了數(shù)據(jù)挖掘和知識(shí)獲取方面以及國防安全、企業(yè)應(yīng)用等領(lǐng)域。 研究與應(yīng)用并重,我們將重點(diǎn)放在了如何基于本體測(cè) 量 XML的語義相似度。 有了概念語義相似度的基礎(chǔ),解決 XML 語義相似度的測(cè)量問題首先需要選擇一個(gè) 適合的通用本體,我們采用 WordNet,一種大家普遍接受的通用本體,作為判斷自然語言之間語義的相似性的依據(jù)。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 研究現(xiàn)狀 目前 XML 文檔相似度的研究已經(jīng)取得了許多進(jìn)展。 而在語義相似性測(cè)量方面,當(dāng)前研究的主要焦點(diǎn)仍然是概念相似度測(cè)量,還很少有研究將概念相似度測(cè)量應(yīng)用到 XML 文檔中來實(shí)現(xiàn) XML 文檔的語義相似性比較。以距離測(cè)量的方法有太多的經(jīng)驗(yàn)判斷,缺少說服力,同時(shí)計(jì)算復(fù)雜度高;信息學(xué)理論有一個(gè)很好的評(píng)價(jià)相似性的方法,即以共有信息量的多少為標(biāo)準(zhǔn),但卻忽視了概念之間的方向性等信息,比如 “ 貓 ” 和 “ 哺乳動(dòng)物 ” 作比較,反過來 “ 哺乳動(dòng)物 ” 和 “ 貓 ” 作比較,兩者有什么不同呢?顯然,兩者的共有信息量是一樣的。 主要內(nèi)容和組織結(jié)構(gòu) 本文的第一部分緒論主要闡述了課題的必要性和意義;第二部分簡(jiǎn)要敘述了語義相似性研究的基本知識(shí),并對(duì)后文將要用到的工具 WordNet 進(jìn)行了介紹;第三部分在已有算法的基礎(chǔ)上給出了一種更加精確的概念語義相似性比較算法;第四部分結(jié)合概念語義相似性比較算法給出了一種 XML文檔語義相似性比較算法;第五部分論述了 XML 文檔語義相似性比較算法的實(shí)現(xiàn)過程;第六部分對(duì)本文進(jìn)行了總結(jié)并對(duì)將來的發(fā)展方向進(jìn)行了論述 。在信息科學(xué)領(lǐng)域,本體的定義是一直發(fā)展著的,目前對(duì)于本體的統(tǒng)一定義是 “ 本體是一種形式化的,對(duì) 共享概念明確而又規(guī)范的說明 ” 。類和概念之間加入適當(dāng)?shù)年P(guān)系,使各個(gè)獨(dú)立的概念和類相連,也就構(gòu)成了一個(gè)本體。在具體應(yīng)用中,一個(gè)領(lǐng)域的知識(shí)庫,一個(gè)詞典,一個(gè)語義網(wǎng)都可以被用來當(dāng)作一個(gè)本體。 本體有許多分類方式,一種常用的方式是根據(jù)內(nèi)容分為三類:領(lǐng)域本體:本體內(nèi)容適用于特定學(xué)科領(lǐng)域;通用本體:本體內(nèi)容包含具有普遍意義的客觀世界的常識(shí);任務(wù)本體:本體本 身為用于解決特定任務(wù)的術(shù)語集合。其描述的對(duì)象包括 pound(復(fù)合詞)、 phrasal verb(短語動(dòng)詞)、 collocation(搭配詞)、 idiomatic phrase(成語)、 word(單詞),其中 單詞是最基本的單位。 WordNet 中最基礎(chǔ)的語義關(guān)系是 synonymy(同義關(guān)系)。簡(jiǎn)而言之,同義詞構(gòu)成同義詞集合,同義詞集合構(gòu)成類,不同類又構(gòu)成更上層的類。整體部分關(guān)系( meronymy):在 WordNet 中,包含了三種整體部分關(guān)系, A是 B 的組成部分; A 是 B 的成員; A 是 B 的 構(gòu)成材料。但在這之前,我們還要討論一下什么是語義相似性、語義相關(guān)性和語義距離,這三個(gè)詞總是同時(shí)出現(xiàn),甚至被經(jīng)?;煊?,然而,它們的意義并非完全一樣,這里我們舉例來說明。 語義距離,簡(jiǎn)而言之就是兩個(gè)概念的語義相距的距離。上文我們已經(jīng)舉例說明,兩者相關(guān)并不一定說明兩者相似。當(dāng)然,它也有局限性,即本身是一本英文詞典,并不適用于中文或者其他語言。 網(wǎng)絡(luò)距離模型 由于 WordNet 本身的樹形結(jié)構(gòu)以及語義距離和語義相似度之間的關(guān)系,使得計(jì)算兩個(gè)概念之間的相似度有一種非常直觀的方法,即測(cè)量表示兩個(gè)概念的節(jié)點(diǎn)在樹種的距離 —— 節(jié)點(diǎn) A 到 B 的最短路徑。這是因?yàn)椤?dog”處于樹形結(jié)構(gòu)的更底層,而 tooth 處于樹形結(jié)構(gòu)的更高層,在距離相同的情況下,樹形結(jié)構(gòu)的越高層,概念越抽象,之間的差異越大,反之,樹形結(jié)構(gòu)的越底層,概念越具體,之間的差異越小。所謂深度,就是節(jié)點(diǎn)在樹中的深度;從 圖 31 我們可以看到,節(jié)點(diǎn) B 所在區(qū)域邊的個(gè)數(shù)大于節(jié)點(diǎn) C 所在區(qū) 圖 31 樹形 節(jié)點(diǎn)圖 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 8 域邊的個(gè)數(shù),即區(qū)域密度 B 大于區(qū)域密度 C,則對(duì)應(yīng)的 BD 邊的權(quán)值應(yīng)當(dāng)小于CF 邊的權(quán)值。 其中一種最簡(jiǎn)單的改進(jìn)是找到概念 c1 和 c2 最短路徑,并計(jì)算出 c1,c2 所在層級(jí)結(jié)構(gòu)的最大深度,并且只考慮上位關(guān)系即 isa 關(guān)系,得到相似度計(jì)算公式: 1 , 2( 1 , 2) m a x[ l og ( m in [ ( 1 , 2) ] / 2 * ) ]LC c csim c c le n c c D?? (31) 下面的方法給出了一種計(jì)算語義距離的方法,我們知道,語義距離越大,相似度越小,因此,只需要適當(dāng)變形就可以得到一種新的相似度計(jì)算方法: m a x m in( ) m a x ()rri r j rriw t c c nc?? ? ? (32) 39。 由公式 4 計(jì)算出的結(jié)果是無法預(yù)知其取值范圍的,因此,有人提出了一種將取之范圍規(guī)約到 [0,1]的方法,這種方法也同時(shí)考慮了最短路徑和公共祖先: 33( , )( , ) ij NNl e n c cij ees im c c e??? ? ? ???? ? ???? ? (35) 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 9 信息理論 模型 信息理論模型是一種本體和語料庫結(jié)合的方法。我們將本體中每一個(gè)概念進(jìn)行量化,統(tǒng)一進(jìn)行賦值,下圖就是一個(gè)賦值后的樹形結(jié)構(gòu)圖32: 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 10 圖 32 賦值后的樹形結(jié)構(gòu)圖 每個(gè)節(jié)點(diǎn)的信息量跟它們的深度成反比,樹的最大深度為 3,因此頂層的信息量為 3,依次向下逐個(gè)遞減。 ( 1 , 2) 2 * 3 / ( 1 2 2 * 3 )si m c c N N N N? ? ? (34) 然而,公式 34 它本身的缺點(diǎn)也是不容忽視的,公式本身并沒有 充分 考慮邊密度、連接強(qiáng)度、方向性等因素,因此, 本文給出了一個(gè)新的計(jì)算概念語義相似度的方法,它以共享信息為基礎(chǔ),綜合考慮了深度、邊密度、連接強(qiáng)度、方向性、取值范圍等因素 ,同時(shí)避免了對(duì)語料庫的頻繁訪問 。也就是說,父子節(jié)點(diǎn)之間的連接強(qiáng)度越大,取值越小,連接強(qiáng)度越小,取值越大。其中前半部分中 為節(jié)點(diǎn) , 的公共祖先到根 節(jié)點(diǎn)的距離,即兩者的共有信息量, 為兩者之間的連接強(qiáng)度,即差異信息量,因此為通過信息學(xué)理論計(jì)算出的相似度;后半部分是為了體現(xiàn)非對(duì)稱性而編寫的輔助函數(shù) 。 表 31 網(wǎng)絡(luò)距離模型與本文設(shè)計(jì)算法比較 公式 節(jié)點(diǎn)間距離 邊密度 連接強(qiáng)度 深度 方向性 31 是 否 否 是 否 33 是 是 否 是 是 34 是 否 否 是 否 35 是 否 否 是 否 38 是 是 是 是 是 從表 31 可以看出,本文設(shè)計(jì)算法在繼承了現(xiàn)有算法優(yōu)點(diǎn)的基礎(chǔ)上,進(jìn)一步可慮了方向性、連接強(qiáng)度等現(xiàn)有算法沒有可慮的因素,進(jìn)一步提高了算法的精確天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 12 性。 本章小結(jié) 本章系統(tǒng)的闡述了目前概念相似性比較的主流方法,主要分為兩種,網(wǎng)絡(luò)距離模型和信息理論模型。并從信息學(xué)的角度重新解釋了深度、邊密度,節(jié)點(diǎn)之間的連接強(qiáng)度這三個(gè)概念, 在此基礎(chǔ)上給出了一個(gè)新的測(cè)量概念相似性的方法。 所謂可擴(kuò)展是針對(duì)于 HTML 等結(jié)構(gòu)語言而言的, XML 文檔有自己的結(jié)構(gòu)特點(diǎn),但對(duì)結(jié)構(gòu)的要求并不強(qiáng),使用者可以定義自己的 XML 文檔結(jié)構(gòu)。 基于語義相似性計(jì)算 XML 文檔的語義相似性 通過上一節(jié)的論述我們知道, XML 文檔的內(nèi)容是以元素節(jié)點(diǎn)為基礎(chǔ)的樹形結(jié)構(gòu)。因此,以結(jié)構(gòu)相似性作為評(píng)判語義相似性的先決條件是不可取的。但是,在第二層比較是,我們已經(jīng)發(fā)現(xiàn) B 和 b 相似, B 和 c 不相似,那么有必要將 B 的子節(jié)點(diǎn)和 c 的子節(jié)點(diǎn)作比較嗎?因此,我們改進(jìn)算法得到: ● 計(jì)算根節(jié)點(diǎn)的相似度值; ● 將父節(jié)點(diǎn)匹配的子節(jié)點(diǎn)進(jìn)行比較,尋找最匹配子根節(jié)點(diǎn); ● 重復(fù)上述過程,直至遍歷所有節(jié)點(diǎn)。一個(gè)直觀的想法是用匹配的結(jié)點(diǎn)個(gè)數(shù)除以總結(jié)點(diǎn)個(gè)數(shù)來衡量相似程度。由此可見,上層節(jié)點(diǎn)對(duì)相似度的貢獻(xiàn)大于下層節(jié)點(diǎn)對(duì)相似度的貢獻(xiàn)。 通過公式 11 可知,若兩個(gè)文檔完全相似,則相似度取值為 1,若兩個(gè)文檔完全無關(guān),則相似度取值為 0,即最終輸出的取值結(jié)果規(guī)約到了 [0,1]。 根據(jù) WordNet 的組織特點(diǎn),其結(jié)構(gòu)基礎(chǔ)為概念,也即同義詞集合。這 種測(cè)量方法的優(yōu)點(diǎn)是測(cè)量簡(jiǎn)單,操作易行。相對(duì)于方法一,這用方法的一個(gè)明顯缺點(diǎn)是計(jì)算復(fù)雜度的增高,但顯然,這是計(jì)算精度不可避免的犧牲。這和一些人的預(yù)期是相左的。該算法的一個(gè)子問題是:需要選擇合適的概念語義相似度算法,在 節(jié)詳細(xì)闡述了兩種算法的優(yōu)缺點(diǎn),并提供了選擇標(biāo)準(zhǔn)。本文將需要做預(yù)處理的情況作出如下總結(jié): ● 大小寫轉(zhuǎn)換,將大寫字母統(tǒng)一轉(zhuǎn)換為小寫字母; ● 連拼詞組,比如 “ studentbook” ,進(jìn)行分詞; ● 去掉無意義符號(hào),比如 “ 、 /” 等等; ● 根據(jù)說明文檔將縮略詞恢復(fù)為完整詞匯。 通常 XML 文檔的節(jié)點(diǎn)內(nèi)容都是由單詞和短語構(gòu)成的,這也為我們通過概念語義相似度比較文檔節(jié)點(diǎn)的語義相似
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1