freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計-基于字典的中文分詞技術(shù)研究-文庫吧在線文庫

2025-01-16 21:00上一頁面

下一頁面
  

【正文】 對系統(tǒng)進(jìn)行了總體設(shè)計,明確了系統(tǒng)功能,整個系統(tǒng)主要分為三個模塊:詞典裝載,查找匹配,后處理。 third, segmentation ambiguity caused by interpunctions is effectively reduced. The characteristic of this system is that the dictionary is paratively perfect and that the speed and correctness is somewhat high. KeyWords: Chinese Information Process。 需要進(jìn)一步指出的是,由于人類的思維方式和現(xiàn)階段計算機的工作方式還存在著很大的差別,所以人類語言也不是計算機所能準(zhǔn)確理解的。 中文分詞技術(shù)的發(fā)展現(xiàn)狀 計算機對中文語言和西文語言的理解原理和方式基本相同, 但由于漢 語本身的特點,必須引入對于中文語言的處理技術(shù),而漢語自動分詞技術(shù)就是其中很關(guān)鍵的部分。 基于字典的方法 又叫機械分詞方法,它是按照一定的策略將待分析的漢語字串與一個“充分大的”機器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個 字符串,則匹配成功(識別出一個詞)。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計,不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。但是這種分詞方法需要使用大量的語言知識和信息,而由 于漢語語言知識的籠統(tǒng)、復(fù)雜,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。切詞過程考慮到了所有的切分可能,并運用漢語句法等信息從各種切分可能中選擇出合理的切分結(jié)果。 杭州大學(xué)改進(jìn)的 MM 分詞系統(tǒng) 系統(tǒng)的詞典采用一級首字索引結(jié)構(gòu),詞條中包括了“非連續(xù)詞”(形如C1? *Cn)。 1998 年 3 月,國家科武漢工程大學(xué)設(shè)計(論文)說明書 第 7頁 委又組織了第二次評測,結(jié)果與第一次差不多。 論文主要研究了中文搜索引擎中漢語自動分詞系統(tǒng)的設(shè)計與實現(xiàn),從目前中文搜索引擎的發(fā)展現(xiàn)狀出發(fā),引出中文搜索引擎的關(guān)鍵技術(shù) 漢語自動分詞系統(tǒng)的設(shè)計。 圖 21 系統(tǒng)功能 為實現(xiàn)本設(shè)計中基于字典的中文分詞系統(tǒng),本文的實現(xiàn)思路和大致過 程將如下規(guī)劃: 首先應(yīng)該建立 比較完善的 詞典,詞典的組織方式主要有整詞二分, TRIE 樹二分,逐字二分三種 [7]。 最后要確定的是一個好的 匹配 算法,這個算法應(yīng)當(dāng)把時間復(fù)雜度控制在根據(jù)要分割文本的大小線性變化的范圍內(nèi)。filename) 核心匹配 的部分 算法 + int WCompare(stringamp。file_name) 為 函數(shù)加載詞典, void Processing(), int SCompare(stringamp。 武漢工程大學(xué)設(shè)計(論文)說明書 第 13 頁 對于匹配算法,在程序代碼中占比較大的比重,應(yīng)該考慮到運行時間的問題,盡量的減少匹配次數(shù),以 降低程序的整體運行時間復(fù)雜度,當(dāng)然,影響速度的因素還有詞典的組織和數(shù)據(jù)結(jié)構(gòu)等。 紅黑樹能夠以 O(log2n)的時間復(fù)雜度進(jìn)行搜索、插入、刪除操作。 從算法方面考慮,對于機械分詞方法,可以建立一個一般的模型,形式地表示為 ASM(d, a, m),即 Automatic Segmentation Model[8]。設(shè)計好的算法也應(yīng)該同時考慮單次查找的復(fù)雜度與遍歷次數(shù)。 武漢工程大學(xué)設(shè)計(論文)說明書 第 16 頁 切分歧義 最后考慮到歧義的問題,中文分詞 的最大難題在于漢語中眾多的歧義性詞組的存在。 它 們都在一個類中共同實現(xiàn)。 主要界面 系統(tǒng) 操作 的主 界面如下圖 所示。 詞典的建立方面,首先收集詞典中常用的基本詞匯,其次收錄名人的姓名,中國各地及世界主要國家和地區(qū)的地名,及經(jīng)常使用的單位,機構(gòu),企業(yè)名。本系統(tǒng)采用的是線性結(jié)構(gòu)存儲,考慮到實現(xiàn)的方便,使用了 STL 中定義的 SET 結(jié)構(gòu), SET 是一種關(guān)聯(lián)性的序列容器,對其中的元素按一定的規(guī)則排序 [11]。 bool Split::LoadDict(stringamp。 string word。假設(shè)這個單元是一個詞,在詞典 set 中尋找它,如果找到則繼續(xù)執(zhí)行,找不到則去除最后一個字,把它變?yōu)橐粋€四個字的單元進(jìn)行查找,一直進(jìn)行到只有兩個字時,如果它還不是一個詞,那則說明它是一個單字。系統(tǒng)主游標(biāo)首先定位在 1 位置,將 15 取出進(jìn)行匹配,若 12345, 1234, 123, 12 都不能組成詞,那么游標(biāo)定位到 2 的位置,拿出 26 進(jìn)行匹配,如此可以保證文本中武漢工程大學(xué)設(shè)計(論文)說明書 第 23 頁 任何一個可能為詞的單元都被拿出并比較過。pos=posC_Length) { L_Word=(prev_pos,posprev_pos)。 (L_Word)。 ,? ,! ,“ ,” , : ,; ,‘ ,’ ,、 ,? }。iter++) { if((*iter)==0) { string it=*iter+|。 再看一個分詞示例: 人們熱愛暴力,拳擊為你贏得了尊嚴(yán),同時也剝奪了別人的。 武漢工程大學(xué)設(shè)計(論文)說明書 第 31 頁 圖 另一個文本的分詞結(jié)果 分詞完畢后點擊退出就可以退出系統(tǒng)。比如:“聽見”“看見”在很多詞典中都有收錄,但是有類似結(jié)構(gòu)的“聞見”卻沒有收錄。 系統(tǒng)的界面也比較友好,利于操作,經(jīng)過測試可以穩(wěn)定使用。 (2)匹配速 度較快。因此,中文信息處理技術(shù)的進(jìn)步和中文信息處理系統(tǒng)的廣泛應(yīng)用,有待于對分詞中的關(guān)鍵問題進(jìn)行進(jìn)一步的深入研究和探索,如,制定和頒布國家通用的分詞詞表,研究歧義切分字段類型,增強歧義判別的能力,提高專有名詞的識別率,研究漢語的構(gòu)詞規(guī)則和詞法規(guī)則等等。 當(dāng)然,既然是基于統(tǒng)計的判別,那么就不可能做到 100%可靠,其他的解決辦法也是需要慢慢的總結(jié)和考量。 [2] 朱德熙 .《語法講義》,商務(wù)印書館, 1982 [3]《漢語信息處理詞匯 01 部分;基本術(shù)語( )》,中國標(biāo)準(zhǔn)出版社, 1991 [4] Thomas Emerson, Segmenting Chinese in Unicode , 16th International Unicode Conference Amsterdam, The Netherlands. March 2021. [5] 楊超 .分詞技術(shù)研究報告 . [6] 孫茂松,鄒嘉彥,漢語自動分詞研究評述 [7] 孫茂松,左正平,黃昌寧 .漢語自動分詞詞典機制的實驗研究 .清華大學(xué)計算機科學(xué)與技術(shù)系 .1999 [8] 鄒飛 .基于 web 的漢字分詞技術(shù) .南京大學(xué)計算機科學(xué)與技術(shù)系, 2021 [9] HALPERN, Jack and Jouni Kerman. 1999. The Pitfalls and Complexities of Chinese to Chinese Conversion. Proceedings of the 14th International Unicode Conference, Cambridge, Massachusetts, March 1999. [10] Jon, Tim Visual C++ 教程 .清華大學(xué)出版社 .2021 [11] Visual C++ MFC 類庫參考手冊 .人民郵電出版社 2021 [12] 辛長安,梅 林 編著 .VC++編程技術(shù)與難點剖析。 當(dāng)然還要感謝學(xué)校為我們 提供了便利的設(shè)施和豐富的資料獲取渠道。通過對分詞技術(shù)的深入研究,開發(fā)出高質(zhì)量,多功能的分詞系統(tǒng),必將促進(jìn)中文信息處理系統(tǒng)的廣泛應(yīng)用,換言之,也就提高了中文軟件對于中文的處理能力,這也將使得計算機用戶的日常工作的效率得以提高。 從上面的兩個例子可以看到,對待普通的文本錯誤率比較低,經(jīng)過大量的實驗,正確率在 90%以上。 本系統(tǒng)是基于詞典的中文分詞系統(tǒng),詞典比較完善,收錄詞條 20 多萬條。 武漢工程大學(xué)設(shè)計(論文)說明書 第 33 頁 算法方面盡量提高了速度,對詞典存儲的數(shù)據(jù)結(jié)構(gòu)采用了 STL 的 set 容器。盡管 作者 比較早的準(zhǔn)備了這些問題,但實際實現(xiàn)時還是遇到了許多預(yù)料之外的問題。 其中各個函數(shù)如下圖: 圖 系統(tǒng)的所有函數(shù) 武漢工程大學(xué)設(shè)計(論文)說明書 第 29 頁 程序測試 起初運行程序,可以看到如下的界面: 圖 初始運行界面 此時首先需要點擊“裝載”按扭將詞典裝載入內(nèi)存。但是搞藝術(shù)就不同了。 vectorstring::iterator iter=()。 } 實現(xiàn)了遍歷文本并調(diào)用 SCompare()進(jìn)行分詞。 return 1。 string L_Word。 比如一個句子:珠江的水,果然很清澈。 } return true。 } 上面的代碼建立一個輸入文件流對象,并與要打開的文件相關(guān)聯(lián),同時設(shè)定要打開的方式,最后檢查文件打開是否出錯 。 } 這個 過程 循環(huán)從詞典文件中逐行讀入詞條,把詞條壓入先前定義的dict_set 中,執(zhí)行后詞典文件便 裝載入內(nèi)存。對于基于詞典的分詞方法來說,分詞的準(zhǔn)確率很大程度上會依靠詞典 [8]。中間兩個文本框采用滾動視圖分別顯示要分詞的文件、分詞之后的結(jié)果。 3.詞典的存儲 詞典在使用是加載到內(nèi)存,這樣做的考慮是為了明顯的提高運行速度,而且詞典占用的內(nèi)存大小是可以允許的。但是仍然存在許多象第一個例子一樣需要參考上下文語境才能正確分詞的語句。由于最長詞的長度往往無法預(yù)知,通常的做法是常識始于位置 i 的所有可能長度的詞。用這種模型可以對各種方法的復(fù)雜度進(jìn)行比較,假設(shè)在詞典的匹配過程都使用順序查找和相同的計首字索引查找方法,則在不記首字索武漢工程大學(xué)設(shè)計(論文)說明書 第 15 頁 引查找次數(shù)(最小為 log漢字總數(shù) 187。 關(guān)鍵技術(shù)與難點分析 本系統(tǒng)設(shè) 計中 要解決的關(guān)鍵技術(shù)和難點 主要有三個:分詞的效率和準(zhǔn)確度;詞典的組織;切分歧義。 為開發(fā)和實現(xiàn)系統(tǒng)的核心算法,本設(shè)計選用了 C++語言來設(shè)計關(guān)鍵的一些算法 、類等 功能, 同時 為 便于 今后系統(tǒng)功能擴展, 生成 相應(yīng)的動態(tài)鏈接庫( DLL) ,因此選用 了這種流行的面向?qū)ο蟪绦蛟O(shè)計語言。 CString outputing()。filename) int WCompare(stringamp。 文本匹配模塊 則讀入 用戶指定的 文本,并 設(shè)計 匹配算法對文本進(jìn)行分詞 ,在分詞過程中針對歧義進(jìn)行一些必要的修正 。本文所使用的字典詞條數(shù)目在 200,000 到 300,000 條之間,經(jīng)過計算 20,000 到 30,000 條的詞匯放入內(nèi)存中所占用的空間約為 到 之間,這在現(xiàn)在的計算機系統(tǒng)上是很容易被接受的。第四章對系統(tǒng)從分詞速度和分詞準(zhǔn)確性方面進(jìn)行了性能評價,并對下一步的工作和努力方向進(jìn)行了展望。這就給廣大從事漢語分詞研究的工作者提出了新的努
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1