freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

軟件工程畢業(yè)設(shè)計(jì)-基于wordnet的xml文檔語(yǔ)義相似性計(jì)算方法(留存版)

  

【正文】 . 33 本章小結(jié) ........................................................................... 34 第七章 總結(jié)與展望 ............................................................. 35 總結(jié) .................................................................................. 35 展望 .................................................................................. 35 參考文獻(xiàn) ...................................................................................... 36 3 外文資料 中文譯文 致謝 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 1 第一章 緒論 研究背景 近年來(lái),關(guān)于結(jié)構(gòu)及語(yǔ)義相似性測(cè)量的研究成為數(shù)據(jù)挖 掘、機(jī)器學(xué)習(xí)等領(lǐng)域中的研究熱點(diǎn)之一。這種方法忽略了 XML 文檔的結(jié)構(gòu)特點(diǎn);還有研究基于擁有相似的路徑集合則 XML 文檔相似的假設(shè),通過(guò)路徑集合 的比較計(jì)算 XML 文檔之間的相似度。 本體的基本元素是概念,概念的表現(xiàn)形式為詞匯,即一個(gè)詞匯可以有多個(gè)語(yǔ)義,可以表達(dá)多個(gè)概念,而同一個(gè)概念也可以被多個(gè)詞匯表達(dá)。 WordNet 的名詞部分是目前被開(kāi)發(fā)的最完整的部分,名詞的連接關(guān)系就占了所有連接關(guān)系的 80%。因此相似和相關(guān)是不同的。 然而,這種測(cè)量方法存在一個(gè)問(wèn)題,在計(jì)算最短路徑的過(guò)程中每一條邊得權(quán)重都是相同,都為 1,這與實(shí)際情況是不相符的。那么,如何判定兩個(gè)概念的共享信息量呢?首先,我們可以根據(jù)本體找到概念 C1 和 C2 的公共祖先 C3,即它們的共有信息為 C3, C3 占它們所有信息量的比重是多少呢,如何量化它?這里就用到了語(yǔ)料庫(kù),我們通過(guò)計(jì)算 C3 在語(yǔ)料庫(kù)中出現(xiàn)的概率 P(C3)來(lái)衡量共有信息 C3 的數(shù)量,這樣給出一種計(jì)算相似度的方法: ( 1, 2) log ( 3 )Rsim c c p c?? (36) 這里我們只考慮了共有信息量,有人提出忽略差異信息量是不可取的,因?yàn)榧词?C1 和 C2 的共有信息量很多,但也許它們的差異信息量更多,下面給出了一種考慮了差異信息量的計(jì)算方法,共享信息量越多,越相似,差異信息量越多,越不相似: ( 1 , 2 ) 2 * l o g ( 3 ) / ( l o g ( 1 ) l o g ( 2 ) )Lsim c c p c p c p c?? (37) 當(dāng)前算法存在的問(wèn)題 在網(wǎng)絡(luò)距離模型中,更多的考慮 了 isa 關(guān)系,而很少考慮其他關(guān)系,這種測(cè)量也更容易讓人聯(lián)想到相關(guān)性,而不是相似性;通過(guò)信息理論模型,我們可以很好的測(cè)量?jī)蓚€(gè)概念的相似性,但其對(duì)語(yǔ)料庫(kù)的頻繁訪(fǎng)問(wèn)使得算法的實(shí)用性不大;兩個(gè)算法共同存在的問(wèn)題是算法都是對(duì)稱(chēng)性的,即測(cè)量 C1 和 C2 的相似度值和測(cè)量 C2, C1 的相似度值 所得結(jié)果 是一樣的,而實(shí)際情況是我們可以說(shuō) “ 獵犬 ”是 “ 狗 ” ,但反過(guò)來(lái)卻不行 ,兩個(gè)結(jié)果完全不同 。 α, β是區(qū)分相似度和非對(duì)稱(chēng)性的權(quán)重而設(shè)置的參數(shù),需要根據(jù)實(shí)驗(yàn)數(shù)據(jù)不斷修改。和普通文本文檔相比, XML 文檔具有 “ 自描述 ” 、 “ 樹(shù)形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等特點(diǎn)。實(shí)際情況是,根據(jù) XML 文檔的樹(shù)形結(jié)構(gòu),處于上層的節(jié)點(diǎn)應(yīng)該更具有普遍性、總結(jié)性、概要 性。 為了克服二元性,在第三章,本文提出了一種測(cè)量概念語(yǔ)義相似性的新方法,參見(jiàn) 節(jié)。本文將需要做預(yù)處理的情況作出如下總結(jié): ● 大小寫(xiě)轉(zhuǎn)換,將大寫(xiě)字母統(tǒng)一轉(zhuǎn)換為小寫(xiě)字母; ● 連拼詞組,比如 “ studentbook” ,進(jìn)行分詞; ● 去掉無(wú)意義符號(hào),比如 “ 、 /” 等等; ● 根據(jù)說(shuō)明文檔將縮略詞恢復(fù)為完整詞匯。這 種測(cè)量方法的優(yōu)點(diǎn)是測(cè)量簡(jiǎn)單,操作易行。一個(gè)直觀(guān)的想法是用匹配的結(jié)點(diǎn)個(gè)數(shù)除以總結(jié)點(diǎn)個(gè)數(shù)來(lái)衡量相似程度。 所謂可擴(kuò)展是針對(duì)于 HTML 等結(jié)構(gòu)語(yǔ)言而言的, XML 文檔有自己的結(jié)構(gòu)特點(diǎn),但對(duì)結(jié)構(gòu)的要求并不強(qiáng),使用者可以定義自己的 XML 文檔結(jié)構(gòu)。其中前半部分中 為節(jié)點(diǎn) , 的公共祖先到根 節(jié)點(diǎn)的距離,即兩者的共有信息量, 為兩者之間的連接強(qiáng)度,即差異信息量,因此為通過(guò)信息學(xué)理論計(jì)算出的相似度;后半部分是為了體現(xiàn)非對(duì)稱(chēng)性而編寫(xiě)的輔助函數(shù) 。 由公式 4 計(jì)算出的結(jié)果是無(wú)法預(yù)知其取值范圍的,因此,有人提出了一種將取之范圍規(guī)約到 [0,1]的方法,這種方法也同時(shí)考慮了最短路徑和公共祖先: 33( , )( , ) ij NNl e n c cij ees im c c e??? ? ? ???? ? ???? ? (35) 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 9 信息理論 模型 信息理論模型是一種本體和語(yǔ)料庫(kù)結(jié)合的方法。 網(wǎng)絡(luò)距離模型 由于 WordNet 本身的樹(shù)形結(jié)構(gòu)以及語(yǔ)義距離和語(yǔ)義相似度之間的關(guān)系,使得計(jì)算兩個(gè)概念之間的相似度有一種非常直觀(guān)的方法,即測(cè)量表示兩個(gè)概念的節(jié)點(diǎn)在樹(shù)種的距離 —— 節(jié)點(diǎn) A 到 B 的最短路徑。但在這之前,我們還要討論一下什么是語(yǔ)義相似性、語(yǔ)義相關(guān)性和語(yǔ)義距離,這三個(gè)詞總是同時(shí)出現(xiàn),甚至被經(jīng)?;煊?,然而,它們的意義并非完全一樣,這里我們舉例來(lái)說(shuō)明。其描述的對(duì)象包括 pound(復(fù)合詞)、 phrasal verb(短語(yǔ)動(dòng)詞)、 collocation(搭配詞)、 idiomatic phrase(成語(yǔ))、 word(單詞),其中 單詞是最基本的單位。在信息科學(xué)領(lǐng)域,本體的定義是一直發(fā)展著的,目前對(duì)于本體的統(tǒng)一定義是 “ 本體是一種形式化的,對(duì) 共享概念明確而又規(guī)范的說(shuō)明 ” 。 天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 2 研究現(xiàn)狀 目前 XML 文檔相似度的研究已經(jīng)取得了許多進(jìn)展。 在概念語(yǔ)義相似度比較基礎(chǔ)之上本文參照 XML文檔的結(jié)構(gòu)特性設(shè)計(jì)了一種XML 文檔語(yǔ)義相似性比較算法 ,該算法以 XML 文檔的節(jié)點(diǎn)語(yǔ)義相似性為基礎(chǔ),在經(jīng)過(guò)加權(quán)求值,給出文檔整體的語(yǔ)義相似度,經(jīng)試驗(yàn)論證,該算法是可行的。這些年,也有一些研究將節(jié)點(diǎn)本身的相似度納入了考量范圍,文獻(xiàn) [10]綜合考慮了文檔節(jié)點(diǎn)的語(yǔ)義相似性和結(jié)構(gòu)特點(diǎn),但研究尚不成熟,均在計(jì)算精度和效率之間難以取舍。 具體要求:基于 WordNet 實(shí)現(xiàn)基于語(yǔ)義相似性計(jì)算算法。 事實(shí)上,相似性及其度量方法一直是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域中的研究主題之一,也是 Web 數(shù)據(jù)挖掘系統(tǒng)所要解決的關(guān)鍵問(wèn)題之一。并以本課題為基礎(chǔ),為將來(lái)在更廣闊范圍的應(yīng)用做準(zhǔn)備。 綜上所述,我們使用基于 WordNet 的語(yǔ)義相似性 測(cè)量方法,最終能夠基本辨別不同文檔之間的語(yǔ)義相似性,為數(shù)據(jù)挖掘、知識(shí)獲取、 Web 應(yīng)用等領(lǐng)域提供一種語(yǔ)義相似性測(cè)量的解決方案。 2021421~ 2021518 代碼 實(shí)現(xiàn)。隨著 XML 在數(shù)據(jù)挖掘、分類(lèi)聚類(lèi)、數(shù)據(jù)交換、內(nèi)容管理、 Web 服務(wù)等方面的廣泛應(yīng)用,如何有效的解決 XML 語(yǔ)義相似度的測(cè)量方法,成為人們普遍關(guān)注的一個(gè)焦點(diǎn)。 研究意義 通過(guò)本課題的研究,給出了一個(gè)更為精確的概念語(yǔ)義相似性比較算法,為該領(lǐng)域,以及其他應(yīng)用領(lǐng)域包括 XML 文檔、普通文檔、其它文檔以及信息檢索數(shù)據(jù)挖掘等方面都會(huì)有一定貢獻(xiàn);同時(shí)在該算法的基礎(chǔ)之上給出了一種 XML 文檔語(yǔ)義相似性比較算法, 在當(dāng)前 XML 文檔語(yǔ)義相似性比較研究還沒(méi)有大規(guī)模展開(kāi)天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(jì)(論文) 3 的情況下,具有一定的探索意義和使用價(jià)值。 WordNet就是這樣一種組織方式。以 “ 動(dòng)物 ” 和 “ 狗 ” 為例, “ 狗 ” 包含了 “ 動(dòng)物 ” 的所有特征,但 “ 動(dòng)物 ” 并不具備 “ 狗 ” 的獨(dú)有特征 “ 狗拿耗子多管閑事兒 ” ,因此 “ 狗 ” 是 “ 動(dòng)物 ” 的子類(lèi),即下位關(guān)系,而 “ 動(dòng)物 ” 是 “ 狗 ” 的父類(lèi),上位關(guān)系。在第二部分,本文介紹了一種通用本體 —— WordNet,簡(jiǎn)單描述了它的內(nèi)容、結(jié)構(gòu)特點(diǎn),說(shuō)明了它作為通用本體的普適性,可操作性。下面介紹了幾種改進(jìn)了的邊距離測(cè)量方法。 10 式定義了連接強(qiáng)度的計(jì)算方法,即節(jié)點(diǎn)出度的倒數(shù)。由此,我們提出了使用本 體擔(dān)當(dāng)語(yǔ)料庫(kù)的方式,并自動(dòng)為語(yǔ)料庫(kù)中的每一個(gè)信息賦值(自動(dòng)生成它們應(yīng)該出現(xiàn)的頻率)。 當(dāng) 比較到第三層時(shí)我們發(fā)現(xiàn),需要將 D 分別和 d, f, g 做比較;再將 E 分別和 d, f, g 做比較 ?? 這仍然是一個(gè)浩大的工程。結(jié)合本體 WordNet下文給出了兩種 ( , )simmn 算法。 XML 文檔語(yǔ)義相似性測(cè)量的其他問(wèn)題 目前為止,本文提供了一種測(cè)量 XML 文檔的方法:尋找最匹配子根節(jié)點(diǎn)算法。任何有關(guān)系的兩個(gè)單詞,它們的相似度都不可能為零,即使這中關(guān)聯(lián)是微乎其微的。 重新整理尋找最匹配子根節(jié)點(diǎn)算法的: 第一步,計(jì)算根節(jié)點(diǎn)的相似度值 ; 第二步,將父節(jié)點(diǎn)匹配的子節(jié)點(diǎn)進(jìn)行比較,計(jì)算每一個(gè)節(jié)點(diǎn)的相似度值 S(n)并記錄; 第三步,尋找最匹配子根節(jié)點(diǎn),即 MAX[S(n)]; 第四步,重復(fù)上述過(guò)程,直至遍歷所有節(jié)點(diǎn); 第五步,累加所有節(jié)點(diǎn)的相似度值 即為文檔的相似度值。然而,通過(guò)比較我們發(fā)現(xiàn),子樹(shù) ACF 和 ACFG 的語(yǔ)義更相似,子樹(shù) ABDE 和 ABD 的語(yǔ)義更相似。 比如,可以使公式 38中的 β 參數(shù)為零,這樣就變成一個(gè)純粹的信息理論模型,而不考慮方向性、連接強(qiáng)度等因素;而如果對(duì) α、β 進(jìn)行更精確的取值,計(jì)算精度提高的同時(shí)算法復(fù)雜度也將提高。這樣概念 C1, C2 的共同祖先 C3 在樹(shù)中的深度 N3 即為它們的共有信息量,而 N1+N2 則為兩者表示的信息量之和,這樣公式 4 同樣適用于信息理論模型。那么能夠自動(dòng)賦值嗎?有許多關(guān)于這方面的工作,大家主要考慮了一下因素:深度、 邊密度,節(jié)點(diǎn)之 間的連接強(qiáng)度。后者顯得更有說(shuō)服性,因?yàn)榍罢咦屓寺?lián)想到 相關(guān)性,而不是相似性。這 11 個(gè)基本類(lèi)的下一層為 25 個(gè)基本類(lèi)別: {act,activity}動(dòng)作行為, {food}食物, {possession}所有物, {animal,faunal}動(dòng)物; {group,grouping}團(tuán)體, {process}過(guò)程, {artifact}人工產(chǎn)物, {location}位置;{quantity,amout}數(shù)量, {attribute}屬性, {motivation,motive}動(dòng)機(jī), {relation}關(guān)系;{body}身體, {natural_object}自然物 體, {shape}形狀, {cognition,knowledge}認(rèn)知,知識(shí); {natural_phenomenon}自然現(xiàn)象, {state}狀態(tài), {munication}交流,{person,human_being}人類(lèi), {substance}物質(zhì), {event,happening}事件, {plant,flora}植物, {time}時(shí)間, {feeling,emotion}情感。同一領(lǐng)域,本體 A通過(guò) 100 個(gè)概念來(lái)描述,而本體 B 通過(guò) 10000 個(gè)概念描述,顯然本體 B 的概念密度更大,描述更精確,同時(shí),概念間的關(guān)系是多種多樣的,本體 A 可能只考慮了父子關(guān)系,而本體 B 考慮了所有關(guān)系。 在概 念相似度測(cè)量方面,主流的研究方向分為兩種,一種根據(jù)概念之間的距離來(lái)決定概念的相似程度,另一種根據(jù)信息學(xué)理論,以?xún)蓚€(gè)概念共有信息量的多少來(lái)決定概念的相似程度。因此,問(wèn)題也就被簡(jiǎn)化為如何決定不同系統(tǒng)或者不同領(lǐng)域間或者同一系統(tǒng)同一領(lǐng)域內(nèi)的兩個(gè)概念的語(yǔ)義相似度。 2021111~ 2021217 對(duì)本課題進(jìn)行調(diào)研學(xué)習(xí) 。 WordNet 是普林斯頓大學(xué)的心理學(xué)家、語(yǔ)言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語(yǔ)言學(xué)的詞典。近 7 年來(lái),該室對(duì) XML 結(jié)構(gòu)相似性計(jì)算方法、基于結(jié)構(gòu)相似性計(jì)算的 Web挖掘方法等進(jìn)行了深入研究,在此基礎(chǔ)上,展開(kāi)了 XML 的語(yǔ)義相似性研究。隨著語(yǔ)義網(wǎng)和本體( ontology)的發(fā)展,這個(gè)問(wèn)題得到了較好的解決,國(guó)內(nèi)外學(xué)者從不同的角度(概念相似度、文檔相似度、半結(jié)構(gòu)文檔相似度)都進(jìn)行了深入研究,而 XML作為一種應(yīng)用越來(lái)越廣泛的文檔記錄方式,對(duì) XML 語(yǔ)義相似度的研究也受到了普遍的關(guān)注和研究。 從 1996 年 W3C 提出 XML 工作草案, 1997 年召開(kāi)第一次 XML 會(huì)議開(kāi)始,到近年來(lái) XML、語(yǔ)義網(wǎng)( Semantic Web)及 OWL 等相關(guān)技術(shù)的研究與發(fā)展,使得面向內(nèi)容的數(shù)據(jù)挖掘等成為可能。進(jìn)而通過(guò)進(jìn)一步的計(jì)算,考慮文檔之中所有節(jié)點(diǎn)的相似度 情況,給出兩個(gè)文檔之間的語(yǔ)義相似度結(jié)果。語(yǔ)義相似性測(cè)量方法被廣泛的應(yīng)用在了數(shù)據(jù)挖掘和知識(shí)獲取方面以及國(guó)防安全、企業(yè)應(yīng)用等領(lǐng)域。 而在語(yǔ)義相似性測(cè)量方面,當(dāng)前研究的主要焦點(diǎn)仍然是概念相似度測(cè)量,還很少有研究將概念相似度測(cè)量應(yīng)用到 XML 文檔中來(lái)實(shí)現(xiàn) XML 文
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1