freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計-基于字典的中文分詞技術(shù)研究-資料下載頁

2024-12-03 21:00本頁面

【導讀】是建立在中文分詞的基礎(chǔ)之上。步研究提供了一個較好的試驗平臺。首先綜述了現(xiàn)有中文分詞技術(shù)和分詞系。統(tǒng)的發(fā)展現(xiàn)狀及各自的優(yōu)缺點。然后,針對課題任務,對系統(tǒng)進行了總體設(shè)。計,明確了系統(tǒng)功能,整個系統(tǒng)主要分為三個模塊:詞典裝載,查找匹配,在此基礎(chǔ)之上,對構(gòu)成系統(tǒng)的主要模塊進行了詳細設(shè)計和實現(xiàn)。的自動分詞算法,并給出該系統(tǒng)的具體實現(xiàn)。準確性方面進行了性能評價,并展望了下一步的努力方向。匹配速度;有效減少了因標點符號引起的切分歧義。系統(tǒng)詞典比較完善,準確率較高,運行速度較快。

  

【正文】 論文)說明書 第 29 頁 程序測試 起初運行程序,可以看到如下的界面: 圖 初始運行界面 此時首先需要點擊“裝載”按扭將詞典裝載入內(nèi)存。裝載成功后狀態(tài)欄會顯示“裝載成功! 圖 裝載成功 武漢工程大學設(shè)計(論文)說明書 第 30 頁 點擊文件路徑旁的“?”按扭,彈出選擇文件路徑的對話框。 圖 選擇文件路徑 選擇好文件路徑后點擊“分 詞”按扭,則原文與分詞結(jié)果顯示在相應的文本框中,分詞過程幾乎不要等待。 圖 分詞結(jié)果和原文 如果還需要分別的文本,只需要再選定路徑,點擊分詞即可。 武漢工程大學設(shè)計(論文)說明書 第 31 頁 圖 另一個文本的分詞結(jié)果 分詞完畢后點擊退出就可以退出系統(tǒng)。 分詞的結(jié)果從圖中可以看到分詞的準確度比較高,速度也很快,瞬間就可以完成分詞。 武漢工程大學設(shè)計(論文)說明書 第 32 頁 第四章 結(jié)論與展望 全文總結(jié) 本文 對現(xiàn) 有 分詞技術(shù)以及分詞系統(tǒng)進行了綜述, 并對分詞系統(tǒng)的實際實現(xiàn)進行了 研究, 并且應用 set 裝載詞典于內(nèi)存,應用正向最大匹配方法設(shè)計了一個初步的分詞系統(tǒng) 。 在 設(shè)計 過程中遇 到了很多的困難,設(shè)計遍歷算法時要考慮如何能夠在保證全部遍歷的情況下 , 還要使運行速度盡量的快。盡管 作者 比較早的準備了這些問題,但實際實現(xiàn)時還是遇到了許多預料之外的問題。 先談談詞典的設(shè)計,在錄入了漢語詞典的詞匯和一些常用組合后,接下來面對的問題就是漢語的語素和單字詞,合成詞和短語之間沒有清晰的界限。語言學界雖然對于詞在概念上有一個十分清晰的定義,即“詞是最小的能夠獨立活動的有意義的語言成分” 。 但從一些詞典的編撰中 ,我們?nèi)匀豢煽闯鲆恍┥鲜鼋缦揠y以區(qū)分的問題。比如:“聽見”“看見”在很多詞典中都有收錄,但是有類似結(jié)構(gòu)的“聞見”卻沒有收錄。在建立分詞系統(tǒng)詞表時,仍然對于收詞的標準難以把握,例如:“雞蛋”是詞,那么“鴨蛋、鵪鶉蛋”是否也作為詞收入詞表?對于基于字典匹配的系統(tǒng)來說,如果不收錄這些詞,那就沒有辦法準確的分詞。也應該包含未登錄詞識別以及一些詞法分析的切分單位, 例如,一些人名、地名、機構(gòu)名、外國人譯名,應予以識別和切分。一些動詞和形容詞重疊結(jié)構(gòu),如“高高大大”、“甜甜蜜蜜”等;一些附加詞,如后綴,“親和性”、“熱 敏性”等;都可以作為分詞單位予以識別和切分。 武漢工程大學設(shè)計(論文)說明書 第 33 頁 算法方面盡量提高了速度,對詞典存儲的數(shù)據(jù)結(jié)構(gòu)采用了 STL 的 set 容器。搜索時效率比較高,沒有等待的現(xiàn)象。起初并沒有采用 set 容器 而是放在文件內(nèi)搜索,由于訪問硬盤和內(nèi)存的差別存在很大的區(qū)別,所以速度非常慢,幾乎不能忍受,修改后則比較令人滿意。對于基于詞典的分詞系統(tǒng)來說,詞典的查找比較普遍使用的就是二分法及 HASH,尤其對于線形的字典結(jié)構(gòu),好的查找方法可以大大的提高程序的運行效率。 系統(tǒng)的界面也比較友好,利于操作,經(jīng)過測試可以穩(wěn)定使用。其實對于真正的中文分詞系統(tǒng)來 說,由于它是為上級應用服務的,所以沒有必要制作界面,但從研究和分析的角度來講,制作界面大大方便了使用和提高了分析工作的效率。 系統(tǒng) 評價 本文設(shè)計的系統(tǒng)全部是作者本人在對中文分詞研究、理解的基礎(chǔ)上自主編寫的一個分詞系統(tǒng)。它具有如下幾個特點: (1)詞典比較完善。 本系統(tǒng)是基于詞典的中文分詞系統(tǒng),詞典比較完善,收錄詞條 20 多萬條。完善的詞典可以保證分詞的準確率有一定的水平。 對一些方言詞匯和不常用詞匯及一些人名,地名也有收錄。全面的詞典建立在大量實驗的基礎(chǔ)上,能應對現(xiàn)實生活中多種多樣,情況復雜的應用。 (2)匹配速 度較快。 由于把詞典加載到了內(nèi)存,而且使用了良好的詞典查找算法。 運行速度比較快,不需要時間等待分詞結(jié)果。 (3)匹配正確率較高。 從上面的兩個例子可以看到,對待普通的文本錯誤率比較低,經(jīng)過大量的實驗,正確率在 90%以上。 武漢工程大學設(shè)計(論文)說明書 第 34 頁 努力的方向 漢語分詞是中文信息處理系統(tǒng)的基礎(chǔ),有著極其廣泛的實際應用。從基本的輸入系統(tǒng),如智能語句輸入法、語音輸入、手寫輸入;到文字處理,如文本校對、簡體/繁體轉(zhuǎn)換、拼音標注;以及語音合成,文本檢索,文本分類,自然語言接口,自動文摘等等,無處不滲透著分詞系統(tǒng)的應用。但是對于分詞中所涉及的一些關(guān) 鍵問題, 目前 仍然沒有很好的解決方案。因此,中文信息處理技術(shù)的進步和中文信息處理系統(tǒng)的廣泛應用,有待于對分詞中的關(guān)鍵問題進行進一步的深入研究和探索,如,制定和頒布國家通用的分詞詞表,研究歧義切分字段類型,增強歧義判別的能力,提高專有名詞的識別率,研究漢語的構(gòu)詞規(guī)則和詞法規(guī)則等等。 從系統(tǒng)設(shè)計方面,應考慮開發(fā)通用的多功能的漢語分詞系統(tǒng),如:支持多種不同應用的多詞典結(jié)構(gòu)、自適應不同應用的切分結(jié)果、帶結(jié)構(gòu)化和屬性信息的切分結(jié)果等。從分詞的在中文信息處理系統(tǒng)中的應用方面,可以說,已經(jīng) 有了比較顯著的進步, 但是 在 拓展其新 應用 方面仍然要傾注很大的精力 ,如:自動文摘、漢語文本索引和檢索、漢語語音合成、漢語自然語言接口等。 因此 ,漢語分詞系統(tǒng)作為中文信息處理系統(tǒng)的基石,有著極其廣泛的應用前景。通過對分詞技術(shù)的深入研究,開發(fā)出高質(zhì)量,多功能的分詞系統(tǒng),必將促進中文信息處理系統(tǒng)的廣泛應用,換言之,也就提高了中文軟件對于中文的處理能力,這也將使得計算機用戶的日常工作的效率得以提高。 對于本系統(tǒng)而言,有它的不足之處,以后的完善過程中,需要加入另一種逆向匹配的方法來對分詞的結(jié)果進行檢查,當檢查的結(jié)果和以前的結(jié)果產(chǎn)武漢工程大學設(shè)計(論文)說明書 第 35 頁 生了不符合的情況后,就可 以斷定這個地方產(chǎn)生了歧義。對歧義的處理還需要仔細的考慮,初步的方法就是考慮到引入統(tǒng)計的方法。具體的實現(xiàn),需要對每個漢字用一種結(jié)構(gòu)體進行存儲,每個結(jié)構(gòu)體應該包含這個漢字和其他的漢字的互現(xiàn)頻率,在碰到歧義時,優(yōu)先考慮互現(xiàn)信息度高的一個字段做為最優(yōu)的結(jié)果。 當然,既然是基于統(tǒng)計的判別,那么就不可能做到 100%可靠,其他的解決辦法也是需要慢慢的總結(jié)和考量??傊?,分詞這項非常具有必要性和迫切性的工作,需要并值得不斷的為之付出努力。 武漢工程大學設(shè)計(論文)說明書 第 36 頁 致 謝 在這次的畢業(yè)設(shè)計工作中,指導老師 XX 對我給予 了很大的幫助,從開始的資料文獻查找工作,到系統(tǒng)的設(shè)計與調(diào)試,包括后期的論文撰寫,都給予了很大的支持和幫助。同組的同學也給予了一些技術(shù)上的指導和幫助,以前同班的王海龍同學在后期的界面設(shè)計中給予了很多方向性的指導。 當然還要感謝學校為我們 提供了便利的設(shè)施和豐富的資料獲取渠道。在編輯詞典時同寢室的 XXX, XXX, XX, XXX 等同學也很熱心的幫助我分詞和搜集資料,沒有他們詞典是無法這么快的完成的。 最后還要感謝支持我求學的家人,沒有他們也就沒有今天的一切。 武漢工程大學設(shè)計(論文)說明書 第 37 頁 參考文獻 [1] GB/T1371592《信息處理用現(xiàn)代漢語分詞規(guī)范》 ,中國標準出版社, 1993。 [2] 朱德熙 .《語法講義》,商務印書館, 1982 [3]《漢語信息處理詞匯 01 部分;基本術(shù)語( )》,中國標準出版社, 1991 [4] Thomas Emerson, Segmenting Chinese in Unicode , 16th International Unicode Conference Amsterdam, The Netherlands. March 2021. [5] 楊超 .分詞技術(shù)研究報告 . [6] 孫茂松,鄒嘉彥,漢語自動分詞研究評述 [7] 孫茂松,左正平,黃昌寧 .漢語自動分詞詞典機制的實驗研究 .清華大學計算機科學與技術(shù)系 .1999 [8] 鄒飛 .基于 web 的漢字分詞技術(shù) .南京大學計算機科學與技術(shù)系, 2021 [9] HALPERN, Jack and Jouni Kerman. 1999. The Pitfalls and Complexities of Chinese to Chinese Conversion. Proceedings of the 14th International Unicode Conference, Cambridge, Massachusetts, March 1999. [10] Jon, Tim Visual C++ 教程 .清華大學出版社 .2021 [11] Visual C++ MFC 類庫參考手冊 .人民郵電出版社 2021 [12] 辛長安,梅 林 編著 .VC++編程技術(shù)與難點剖析。清華大學出版社 .2021 [13]JONES, Russell. 1997. Chinese Names: The Traditions Surrounding the Use of Chinese Surnames and Personal Names. Pelanduk Publications, Selangor Darul Ehsan, Malaysia, 1997. 武漢工程大學設(shè)計(論文)說明書 第 38 頁 [14]KWOK, . 1997. Comparing representations of Chinese information retrieval. Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Philadelphia, Philadelphia, July 1997. [15]NIE, JianYun, Martin Brisebois, and Xiaobo Ren. 1996. On Chinese text retrieval. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Z252。rich, Switzerland, August 1996. [16]PACKARD, Jerome L., editor. 1997. New Approaches to Chinese Word Formation: Morphology, Phonology and the Lexicon in Modern and Ancient Chinese. Mouton de Gruyter, Berlin, 1997.
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1