【正文】
C 提出 XML 工作草案, 1997 年召開第一次 XML 會議開始,到近年來 XML、 語義網(wǎng)( Semantic Web)及 OWL 等相關(guān)技術(shù)的研究與發(fā)展,使得面向內(nèi)容的數(shù)據(jù)挖掘等成為可能。但數(shù)據(jù)的結(jié)構(gòu)相似性研究并不能解決語義沖突問題,不能從根本上消除網(wǎng)絡(luò)環(huán)境下的信息孤島和實現(xiàn)信息資源的互聯(lián)互通和資源共享。但目前對基于 XML 半結(jié)構(gòu)語言計算語義相似性的研究沒有一套成熟、高效的計算方法,自然語言與計算機(jī)語言之間仍然存在一道鴻溝,嚴(yán)重影響了對互聯(lián)網(wǎng)信息的應(yīng)用效率。近 7 年來,該室對 XML 結(jié)構(gòu)相似性計算方法、基于結(jié)構(gòu)相似性計算的 Web挖掘方法等進(jìn)行了深入研究,在此基礎(chǔ)上,展開了 XML 的語義相似性研究。 應(yīng)用環(huán)境: 通過本方法,結(jié)合適當(dāng)?shù)念I(lǐng)域詞典,可對用戶需求的信息、知識進(jìn)行有效匹配,結(jié)合南開大學(xué)的已有項目,研究成果將應(yīng)用于 Web 數(shù)據(jù)挖掘方法與系統(tǒng);同時,還可以應(yīng)用于知識工程、數(shù)字圖書館、各專業(yè)領(lǐng)域的信息檢索、信息過濾、自然語言處理、數(shù)據(jù)集成及語義 Web 等許多方面。并以本課題為基礎(chǔ),為將來在更廣闊范圍的應(yīng)用做準(zhǔn)備。 主要指標(biāo)與技術(shù)參數(shù):本課題用于計算 XML 文檔的語義相似性,最終實現(xiàn)的算法有兩個技術(shù)指標(biāo),即算法的合理性和算法的效率。 ( 2)算法的效率:算法要求時間盡可能快,由于算法越精確需要考慮的參數(shù)越多,計算量越大,因此最終的算法需要在準(zhǔn)確性和效率之間取得平衡。 指導(dǎo)教師(簽字) 年 月 日 審題小組組長(簽字) 年 月 日 天津大學(xué)本科生畢業(yè)設(shè)計(論文)開題報告 課題名稱 基于 WORDNET 的 XML 文檔語義相似性計算方法 學(xué)院名稱 軟件學(xué)院 專業(yè)名稱 軟件工程 學(xué)生姓名 指導(dǎo)教師 一、課題的來源及意義 近年來,關(guān)于結(jié)構(gòu)及語義相似性測量的研究成為數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域中的研究熱點之一。語義相似性測量方法已經(jīng)被廣泛的應(yīng)用在了數(shù)據(jù)挖掘和知識獲取方面以及國防安全、企業(yè)應(yīng)用等領(lǐng)域。和文本文檔相比, XML 文檔具有“自描述”、“樹形結(jié)構(gòu)”、“結(jié)構(gòu)嵌套”等特點。 WordNet 是普林斯頓大學(xué)的心理學(xué)家、語言學(xué)家和計算機(jī)工程師聯(lián)合設(shè)計的一種基于認(rèn)知語言學(xué)的詞典。因此我們使用 WordNet 作為參考,判斷自然語言之間語義的相似性。 綜上所述,我們使用基于 WordNet 的語義相似性 測量方法,最終能夠基本辨別不同文檔之間的語義相似性,為數(shù)據(jù)挖掘、知識獲取、 Web 應(yīng)用等領(lǐng)域提供一種語義相似性測量的解決方案。由于 XML 文檔具有“自描述”、“樹形結(jié)構(gòu)”、“結(jié)構(gòu)嵌套”等結(jié)構(gòu)特點,許多研究通過樹的編輯距離來計算 XML 文檔之間的相似度,距離和相似度之間成反比例關(guān)系,距離越大,相似度 越?。涣碛幸恍┭芯恐苯颖容^樹中 節(jié)點之間的相似度,先計算文檔之間相同節(jié)點的個數(shù),通過共同節(jié)點和兩個文檔所有節(jié)點個數(shù)的比值來衡量文檔之間的相似度。這些研究取得了一些成果,但仍有不足, 語義和結(jié)構(gòu)相似度不能兼顧 。 三、本課題的研究目標(biāo)和研究內(nèi)容 研究目標(biāo):基于 WordNet,實現(xiàn) XML 文檔基本語義相似度計算算法,為后期語義相似度計算算法與已有結(jié)構(gòu)相似度計算算法的結(jié)合做準(zhǔn)備。 四、研究方法和研究手段 本課題以 WordNet 為依托,在抽取出 XML 文檔的節(jié)點之后,通過 WordNet的同義詞集合建立各自的同義詞集合,通過計算兩個集合中詞對的語義相似度,即利用 WordNet 中節(jié)點的位置深度表示節(jié)點語義值,從而構(gòu)建節(jié)點語義相似度矩陣,并將這些相似度值加權(quán)求值后,計算節(jié)點之間的語義相似度。 本課題的開發(fā)語言為 C,應(yīng)用框架為 .Net,開發(fā)工具為 Visual Studio 2021, 研究平臺為 Windows 7,在代碼實現(xiàn)過程將遵循軟件工程的開發(fā)方法,給出合理的實驗數(shù)據(jù),進(jìn)行充分的實驗驗證,保證算法的準(zhǔn)確有效。 2021111~ 2021217 對本課題進(jìn)行調(diào)研學(xué)習(xí) 。 2021311~ 2021410 對課題相關(guān)領(lǐng)域的深入調(diào)研學(xué)習(xí),算法初步設(shè)計 。 2021421~ 2021518 代碼 實現(xiàn)。 六、參考文獻(xiàn) [1]Lin D. An InformationTheoretic Definition of Similarity[C].In: Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Man Kaufmann Publishers Inc. . [2]Tversky, A. 1997. Features of similarity. J. Psychological Rev. 84: 327352. [3]Boanerges, A. M., Christian, H. W., Satya, S. S., Amit, S. I. and Budak A. 2021. Template based semantic similarity for security applications. Technical Report, LSDIS Lab, Computer Science Department, University of Gerogia, January. [4]Jiang, J. J., David, W. C. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. Proc. Int. Conf. Research on Computational Linguistics. Taiwan, pp. 115. [5]Peter, F., Martin, K, Erich J. N. 1991. Semantic vs. structural resemblance of classes to appear in special SIGMOD RECORD issue on semantic issues in Multidatabase Systems, 20: 4. [6]Goldstone R L, Son J Y. Similarity [J]. Psychological Review. 2021, 100: 254278. [7]Li M, Chen X, Xin M L, et al. The Similarity Metric[c]. In: IEEE Transactions on Information Theory. 2021. 863872. [8]邱明 . 語義相似性度量及其在設(shè)計管理系統(tǒng)中的應(yīng)用 [D]. 博士,浙江大學(xué), 2021. [9]Bulskov H, Knappe R, Andreasen T. On Measuring Similarity for Conceptual Querying[C]. In: Proceedings of the 5th International Conference on Flexible Query Answering Systems. SpringerVerlag, 2021. 100111. [10]宋玲 . 語義相似度計算及其應(yīng)用研究 . 博士, 山東大學(xué), 2021. [11]黃世國,耿國華 . 語義相似性測度方法研究綜述《計算機(jī)應(yīng)用與軟件》 2021( 25) . [12]Yang, D. and Powers, D. M. W. Measuring Semantic Similarity in the Taxonomy of WordNet. In Proc. TwentyEighth Australasian Computer Science Conference( ACSC2021), Newcastle, Australia. CRPIT, 38. EstivillCastro, V., Ed. ACS. 315322. 2021. [13]周子力 . 基于 WordNet 的本體構(gòu)建及其在安全領(lǐng)域應(yīng)用關(guān)鍵技術(shù)研究 . 博士,華東師范大學(xué), 2021. 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 指導(dǎo)教師(簽字) 年 月 日 選題是否合適: 是□ 否□ 課題能否實現(xiàn): 能□ 不能□ 審題小組組長(簽字) 年 月 日 摘 要 隨著 XML 在數(shù)據(jù)挖掘、 分類聚類、數(shù)據(jù)交換、內(nèi)容管理、 Web 服務(wù)等方面的廣泛應(yīng)用, XML 文檔的相似性比較成為人們普遍關(guān)注的一個焦點。針對于這一問題,本文在論述了當(dāng)前主流概念語義相似度比較算法的基礎(chǔ)上,以 WordNet為本體給出了一個更為精確的概念語義相似性比較算法,為該領(lǐng)域,以及其他應(yīng)用領(lǐng)域,包括 XML 文檔、普通文檔、其它文檔以及信息檢索數(shù)據(jù)挖掘等方面都會有一定貢獻(xiàn)。在當(dāng)前 XML 文檔語義相似性比較研究還沒有大規(guī)模展開的情況下,該算法具有一定的探索意義和使用價值。這不僅是由于 XML( Extensible Markup Language)等互聯(lián)網(wǎng)新技術(shù)的不斷發(fā)展對已有技術(shù)帶來的挑戰(zhàn),更是因為隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的信息資源呈不斷的擴(kuò)張趨勢,無論在數(shù)量還是領(lǐng)域范圍上,都爆炸式增長,人們已經(jīng)不僅僅滿足于以往對信息的簡單獲取,對知識的需求在不斷擴(kuò)大,以往偏重結(jié)構(gòu)性相似的匹配方法已經(jīng)不能滿足需求,語義相似性測量逐漸成為關(guān)注的熱點。 而隨著使用本體 表示相關(guān)應(yīng)用的領(lǐng)域知識被越來越多的人的認(rèn)同(所謂本體,是一種形式化的,對共享概念明確而又詳細(xì)的說明 [1],相關(guān)知識領(lǐng)域用到的所有詞匯都可以在本體中找到相應(yīng)解釋,這些詞匯也被成為概念。因此,問題也就被簡化為如何決定不同系統(tǒng)或者不同領(lǐng)域間或者同一系統(tǒng)同一領(lǐng)域內(nèi)的兩個概念的語義相似度。從 1996 年 W3C 提出 XML 工作草案, 1997 年召開第一次 XML 會議開始,到近年來 XML、語義網(wǎng)( Semantic Web)及 OWL 等相關(guān)技術(shù)的研究與發(fā)展,使得面向內(nèi)容的數(shù)據(jù)挖掘等成為可能。隨著 XML 在數(shù)據(jù)挖掘、分類聚類、數(shù)據(jù)交換、內(nèi)容管理、 Web 服務(wù)等方面的廣泛應(yīng)用,如何有效的解決 XML 語義相似度的測量方法,成為人們普遍關(guān)注的一個焦點。 WordNet 是普林斯頓大學(xué)的心理學(xué)家、語言學(xué)家和計算機(jī)工程師聯(lián)合設(shè)計的一種基于認(rèn)知語言學(xué)的詞典。 綜上所述,我們以 WordNet 作為本體,以一種概念語義相似度測量作為基礎(chǔ),最終能夠基本辨別不同 XML 文檔之間的語義相似性,為數(shù)據(jù)挖掘、知識獲取、信息交換、 Web 應(yīng)用等領(lǐng)域提供一種 XML 語義相似性測量的解決方案。由于 XML 文檔具有 “ 自描述 ” 、 “ 樹形結(jié)構(gòu) ” 、 “ 結(jié)構(gòu)嵌套 ” 等結(jié)構(gòu)特點,許多研究通過樹的編輯距離來計算 XML 文檔之間的相似度,距離和相似度之間成反比例關(guān)系,距離越大,相似度越?。涣碛幸恍┭芯恐苯颖容^樹種節(jié)點之間的相似度,先計算文檔之間相同節(jié)點的個數(shù),通過共同節(jié)點和兩個文檔所有節(jié)點個數(shù)的比值來衡量文檔之間的相似度。這些研究取得了一些成果,但仍有不足,均忽略了節(jié)點本身語義的相似性。這主要是因為如何實現(xiàn)概念相似度測量還不成熟,仍然沒有一個統(tǒng)一的被大家認(rèn)同的方法來實現(xiàn)概念相似度測量,因此,概念相似度測量仍然是當(dāng)前的研究熱點。 在概 念相似度測量方面,主流的研究方向分為兩種,一種根據(jù)概念之間的距離來決定概念的相似程度,另一種根據(jù)信息學(xué)理論,以兩個概念共有信息量的多少來決定概念的相似程度。但到底是 “ 貓 ” 和 “ 哺乳動物 ” 像,還是 “ 哺乳動物 ” 和 “ 貓 ” 像呢?顯然是前者更 像一些,這就是方向問題。 研究意義 通過本課題的研究,給出了一個更為精確的概念語義相似性比較算法,為該領(lǐng)域,以及其他應(yīng)用領(lǐng)域包括 XML 文檔、普通文檔、其它文檔以及信息檢索數(shù)據(jù)挖掘等方面都會有一定貢獻(xiàn);同時在該算法的基礎(chǔ)之上給出了一種 XML 文檔語義相似性比較算法, 在當(dāng)前 XML 文檔語義相似性比較研究還沒有大規(guī)模展開天津大學(xué) 2021屆本科生畢業(yè)設(shè)計(論文) 3 的情況下,具有一定的探索意義和使用價值。 本章小結(jié) 本章主要對課題開展的背景、必要性和意義進(jìn)行了論述;并敘述了本文的結(jié)構(gòu)安排。然而,計算機(jī)領(lǐng)域?qū)Α?本體 ” 賦予了新的定義,進(jìn)而被引進(jìn)信息科學(xué)領(lǐng)域。在信息科學(xué)領(lǐng)域,本體被作為所研究領(lǐng)域的一種語義基礎(chǔ),即在本體中可以找到領(lǐng)域中每一個詞匯的語義(這里的領(lǐng)域值特定的范圍,比如化學(xué)領(lǐng)域、餐飲領(lǐng)域或者語言學(xué)領(lǐng)域、人工智能、信息提取等等)。因此,表達(dá)同一概念的詞匯構(gòu)成類。這些關(guān)系可以被簡單分為父子關(guān)系、部分整體關(guān)系、同義詞關(guān)系等。同一領(lǐng)域,本體 A通過 100 個概念來描述,而本體 B 通過 10000 個概念描述,顯然本體 B 的概念密度更大,描述更精確,同時,概念間的關(guān)系是多種多樣的,本體 A 可能只考慮了父子關(guān)系,而本體 B 考慮了所有關(guān)系。目前最流行的一種本體組織方式是將本體組織成樹狀結(jié)構(gòu)的,每一個概念均被表示為樹形結(jié)構(gòu)中的一個節(jié)點,每一個節(jié)點都有它的父親節(jié)點、兄弟 節(jié)點和子節(jié)點。 WordNet就是這樣一種組織方式。 WordNet 屬于目前常用的一種通用本體。