【正文】
................................................... 18 概要設計 ........................................................................... 20 模塊設計 ...................................................................... 20 界面設計 ...................................................................... 21 詳細設計 ........................................................................... 22 本章小節(jié) ........................................................................... 25 第六章 XML 語義相似性比較算法實現(xiàn)與測試 ............. 26 編碼實現(xiàn)與運行結果 ....................................................... 26 測試 .................................................................................. 30 測試計劃 .................................................................... 32 測試結果 .................................................................... 33 本章小結 ........................................................................... 34 第七章 總結與展望 ............................................................. 35 總結 .................................................................................. 35 展望 .................................................................................. 35 參考文獻 ...................................................................................... 36 3 外文資料 中文譯文 致謝 天津大學 2021屆本科生畢業(yè)設計(論文) 1 第一章 緒論 研究背景 近年來,關于結構及語義相似性測量的研究成為數據挖 掘、機器學習等領域中的研究熱點之一。 在概念語義相似度比較基礎之上本文參照 XML文檔的結構特性設計了一種XML 文檔語義相似性比較算法 ,該算法以 XML 文檔的節(jié)點語義相似性為基礎,在經過加權求值,給出文檔整體的語義相似度,經試驗論證,該算法是可行的。而如何有效的解決 XML 語義相似度的測量方法,仍然是一個懸而未決的問題。 2021519~ 202165 測試 、性能評估及 畢業(yè)論文定稿。 2021411~ 2021420 算法設計和論證 。 2021218~ 2021310 熟悉編程環(huán)境和相關語言的開發(fā)技術。 五、 進度安排 20211220~ 2021110 查閱國內外 研究背景及現(xiàn)狀 。進而通過進一步的計算,考慮文檔之中所有節(jié)點的相似度 情況,給出兩個文檔之間的語義相似度結果。 研究內容: 1. 了解現(xiàn)有 XML 語義相似性方法; 2. 掌握 WordNet 的使用方法; 3. 基于 WordNet 實現(xiàn)基本語義相似性計算算法; 4. 編寫程序實現(xiàn)上述算法。這些年,也有一些研究將節(jié)點本身的相似度納入了考量范圍,文獻 [10]綜合考慮了文檔節(jié)點的語義相似性和結構特點,但研究尚不成熟,均在計算精度和效率之間難以取舍。這種方 法忽略了 XML文檔的結構特點;還有研究基于擁有相似的路徑集合則 XML文檔相似的假設,通過路徑集合的比較計算 XML 文檔之間的相似度。 二、國內外發(fā)展狀況 目前 XML 文檔相似度的研究已經取得了許多進展。這也成為大家普遍接受的一種做法。名詞、動詞、形容詞和副詞各被組織成一個同義詞的網絡,每個同義詞集合都代表一個基本的語義概念,并且這些集合之間也由各種關系連結。隨著 XML 在 數據挖掘、分類聚類、數據交換、內容管理、 Web 服務等方面的廣泛應用,如何高效的解決 XML 語義相似度的測量方法,成為人們普遍關注的一個焦點。 從 1996 年 W3C 提出 XML 工作草案, 1997 年召開第一次 XML 會議開始,到近年來 XML、語義網( Semantic Web)及 OWL 等相關技術的研究與發(fā)展,使得面向內容的數據挖掘等成為可能。這不僅是由于 XML( Extensible Markup Language)等互聯(lián)網新技術的不斷發(fā)展對已有技術帶來的挑戰(zhàn),更是因為隨著互聯(lián)網技術的飛速發(fā)展,網絡上的信息資源呈不斷的擴張趨勢,無論在數量還是領域范圍上,都爆炸式增長,人們 已經不僅僅滿足于以往對信息的簡單獲取,對知識的需求在不斷擴大,以往偏重結構性相似的匹配方法已經不能滿足需求,語義相似性測量逐漸成為關注的熱點。 具體要求:基于 WordNet 實現(xiàn)基于語義相似性計算算法。 ( 1)算法的合理性指標:相似性算 法通過計算給出兩段 XML 文檔之間的相似度(結果介于 0~1,其中,值越大說明兩者越相似,取值為 1 是,兩者完全一樣,取值為零時,兩者沒有相似性),通過實驗者的 主觀 判斷和 WordNet 詞典的詞類劃分判斷結果是否準確。 二、 參考文獻 [1]Lin D. An InformationTheoretic Definition of Similarity[C].In: Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Man Kaufmann Publishers Inc. . [2]Tversky, A. 1997. Features of similarity. J. Psychological Rev. 84: 327352. [3]Boanerges, A. M., Christian, H. W., Satya, S. S., Amit, S. I. and Budak A. 2021. Template based semantic similarity for security applications. Technical Report, LSDIS Lab, Computer Science Department, University of Gerogia, January. [4]Jiang, J. J., David, W. C. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. Proc. Int. Conf. Research on Computational Linguistics. Taiwan, pp. 115. [5]Peter, F., Martin, K, Erich J. N. 1991. Semantic vs. structural resemblance of classes to appear in special SIGMOD RECORD issue on semantic issues in Multidatabase Systems, 20: 4. [6]Goldstone R L, Son J Y. Similarity [J]. Psychological Review. 2021, 100: 254278. [7]Li M, Chen X, Xin M L, et al. The Similarity Metric[c]. In: IEEE Transactions on Information Theory. 2021. 863872. [8]邱明 . 語義相似性度量及其在設計管理系統(tǒng)中的應用 [D]. 博士,浙江大學,2021. [9]Bulskov H, Knappe R, Andreasen T. On Measuring Similarity for Conceptual Querying[C]. In: Proceedings of the 5th International Conference on Flexible Query Answering Systems. SpringerVerlag, 2021. 100111. [10]宋玲 . 語義相似度計算及其應用研究 . 博士, 山東大學, 2021. [11]黃世國,耿國華 . 語義相似性測度方法研究綜述《計算機應用與軟件》 2021( 25) . [12]Yang, D. and Powers, D. M. W. Measuring Semantic Similarity in the Taxonomy of WordNet. In Proc. TwentyEighth Australasian Computer Science Conference( ACSC2021), Newcastle, Australia. CRPIT, 38. EstivillCastro, V., Ed. ACS. 315322. 2021. [13]Budanitsky, Alexander. Lexical semantic relatedness and its application in natural language processing. Technical Report CSRG390, Computer Systems Research Group, University of Toronto, August. 1999. [14]周子力 . 基于 WordNet 的本體構建及其在安全領域應用關鍵技術研究 . 博士,華東師范大學, 2021. [15] 盛立東 . 模式識別導論 [M].北京 :北京郵電大學出版社, 2021. 三、設計(研究)內容和要求 研究內容: 1. 了解 XML 語義相似性方法; 2. 熟悉 WordNet 的使用方法; 3. 基于 WordNet 實現(xiàn)基本語義相似性計算算法; 4. 編寫程序實現(xiàn)上述算法。 工作目的: 本 課題基于由普林斯頓大學設計的認知語言學詞典 WordNet,設計并實現(xiàn)一套用于計算 XML 基本語義相似性的計算方法。 研究平臺和應用環(huán)境為 Windows 7, 軟件開發(fā)工具為 Visual Studio 2021。 研究條件: 在目前研究成果的基礎上,依托于南開大學信息學院數據庫與信息系統(tǒng)實驗室。隨著語義網和本體( ontology)的發(fā)展,這個問題得到了較好的解決,國內外學者從不同的角度(概念相似度、文檔相似度、半結構文檔相似度)都進行了深入研究,而 XML作為一種應用越來越廣泛的文檔記錄方式,對 XML 語義相似度的研究也受到了普遍的關注和研究。在面向內容的智能信息處理中,基于結構(如樹、圖)表示模式,計算結構化數據的結構相似性并從中挖掘知識,在數據挖掘及相關領域得到了廣泛的研究。 事實上,相似性及其度量方法一直是數據挖掘、機器學習等領域中的研究主題之一,也是 Web 數據挖掘系統(tǒng)所要解決的關鍵問題之一。 畢業(yè)設計(論文)說明書 學 院 軟件學院 專 業(yè) 軟件工程 年 級 2021 級 姓 名 指導教師 2021 年 6 月 15 日 畢業(yè)設計(論文)任務書 題目:基于 WORDNET 的 XML 文檔語義相似性計算方法 學生姓名 學院名稱 軟件學院 專 業(yè) 軟件工程 學 號 指導教師 職 稱 教授 講師 一、原始依據 工作基礎: 近年來,隨著互聯(lián)網技術的飛速發(fā)展,網絡上的信息資源呈不斷的擴張趨勢,無論在數量還是領域范圍上,都爆炸式增長。這在豐富網絡資源的同時,使得有效信息、知識的獲取變得更加困難,因此,關于結構及語義相似性測量的研究成為數據挖掘、機器學習等領域中的研究熱點之一。從 1996 年 W3