正文內(nèi)容

本科畢業(yè)設(shè)計(jì)－基于字典的中文分詞技術(shù)研究-在線瀏覽

2025-02-05 21:00本頁面

　　

【正文】理 [3]” 。與西方語言文字處理所不同的是，計(jì)算機(jī)在對中文的處理上總是遇到很多的難題： (1)中文不像英文等語言有空格這個(gè)天然的分詞符號； (2)中文的同意詞、同音字等非常之多，由于地域廣闊，各地的用詞習(xí)慣也有不同，不同地域的人輸入的文章和句子都存在著很大的不同； (3)大量虛詞的存在，增加大了智能識別和分詞的難度。但對于中文文本來說，正如上段文字所列舉的種種原因，需要因循一個(gè)特定的規(guī)則對中文文本進(jìn)行切分或分詞。中文分詞技術(shù)的發(fā)展現(xiàn)狀計(jì)算機(jī)對中文語言和西文語言的理解原理和方式基本相同，但由于漢語本身的特點(diǎn)，必須引入對于中文語言的處理技術(shù)，而漢語自動(dòng)分詞技術(shù)就是其中很關(guān)鍵的部分。中文分詞的準(zhǔn)確與否，常常直接影響到對搜索結(jié)果的相關(guān)度排序。因此對于搜索引擎來說，分詞的準(zhǔn)確性和速度，二者都需要達(dá)到很高的要求。圍繞這些基本問題，十幾年來產(chǎn)生了各種漢語分詞方法 [5]。基于字典的方法又叫機(jī)械分詞方法，它是按照一定的策略將待分析的漢語字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行匹配，若在詞典中找到某個(gè) 字符串，則匹配成功（識別出一個(gè)詞）。常用的幾種機(jī)械分詞方法有正向最大匹配、逆向最大匹配、最少切分（使每一句中切出的詞數(shù)最?。?。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。互現(xiàn)武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 4頁信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計(jì)，不需要切分詞典，因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。在實(shí)際應(yīng)用中，還可以將上述各種方法相互組合。因此，實(shí)際使用的分詞系統(tǒng)，都是把機(jī)械分詞作為一種初分手段，然后利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。它通常包括三個(gè)部分：分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。但是這種分詞方法需要使用大量的語言知識和信息，而由于漢語語言知識的籠統(tǒng)、復(fù)雜，難以將各種語言信息組織成機(jī)器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。目前比較優(yōu)秀的中文自動(dòng)分詞系統(tǒng)主要有 [6]：武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 5頁清華大學(xué) SEG 分詞系統(tǒng) 此系統(tǒng)提供了帶回溯的正向、反向、雙向最大匹配法和全切分評價(jià)切分算法，由用戶來選擇合適的切分算法。清華大學(xué) SEGTAG 系統(tǒng) 此系統(tǒng)著眼于將各種各類的信息進(jìn)行綜合，以便最大限度地利用這些信息提高切分精度。通過實(shí)驗(yàn)，該系統(tǒng)可以達(dá)到一個(gè)較高的切分精度，能夠處理未登錄詞比較密集的文本 ,切分速度約為 30 字 /秒。切詞過程考慮到了所有的切分可能，并運(yùn)用漢語句法等信息從各種切分可能中選擇出合理的切分結(jié)果。一、預(yù)處理模塊，利用特殊的標(biāo)記將輸入的文本分割成較短的漢字串，這些標(biāo)記包括標(biāo)點(diǎn)符號、數(shù)字、字母等非漢字符，還包括文本中常見的一些字體、字號等排版信息。最后，此系統(tǒng)還包括一個(gè)未登錄詞識別模塊，實(shí)驗(yàn)過程中，對中文姓氏的自動(dòng)辨別達(dá)武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 6頁到了 70%的準(zhǔn)確率。哈工大統(tǒng)計(jì)分詞系統(tǒng) 此系統(tǒng)能夠利用上下文識別大部分生詞，解決一部分切分歧義。杭州大學(xué)改進(jìn)的 MM 分詞系統(tǒng) 系統(tǒng)的詞典采用一級首字索引結(jié)構(gòu)，詞條中包括了“非連續(xù)詞”（形如C1? *Cn）。 Microsoft Research 漢語句法分析器中的自動(dòng)分詞微軟研究院的自然語言研究所在從 90 年代初開始開發(fā)了一個(gè)通用型的多國語言處理平臺 NLPWin。實(shí)驗(yàn)結(jié)果表明，系統(tǒng)可以正確處理 85%的歧義切分字段，在 Pentium 200 PC上的速度約 600900 字 /秒。系統(tǒng)的分詞連同標(biāo)注的速度在 Pentium 133Hz/16MB 內(nèi)存機(jī)器上的達(dá)到了每秒 3 千詞以上，而在 Pentium II/64MB 內(nèi)存機(jī)器上速度高達(dá)每秒 5千詞。 1998 年 3 月，國家科武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 7頁委又組織了第二次評測，結(jié)果與第一次差不多。應(yīng)該來說，相對于中文分詞存在的客觀困難，這些工作已經(jīng)奠定了中文分詞的良好基礎(chǔ)。這就給廣大從事漢語分詞研究的工作者提出了新的努力方向和目標(biāo)。力圖通過良好的數(shù)據(jù)存儲與組織方式來實(shí)現(xiàn)一個(gè)比較快速，詞典又比較全面的分詞系統(tǒng)。論文主要研究了中文搜索引擎中漢語自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)，從目前中文搜索引擎的發(fā)展現(xiàn)狀出發(fā)，引出中文搜索引擎的關(guān)鍵技術(shù) 漢語自動(dòng)分詞系統(tǒng)的設(shè)計(jì)。第二章針對課題的具體應(yīng)用領(lǐng)域，明確要解決的問題和系統(tǒng)需要實(shí)現(xiàn)的功能，對系統(tǒng)進(jìn)行了總體設(shè)計(jì)，并分析了實(shí)現(xiàn)過程中的關(guān)鍵技術(shù)和難點(diǎn)。第四章對系統(tǒng)從分詞速度和分詞準(zhǔn)確性方面進(jìn)行了性能評價(jià)，并對下一步的工作和努力方向進(jìn)行了展望。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 9頁第二章總體設(shè)計(jì) 功能分析根據(jù)課題任務(wù)，本系統(tǒng)需要實(shí)現(xiàn)的功能主要有： (1)組織詞典并有效存儲；(2)設(shè)計(jì)核心分詞算法并實(shí)現(xiàn)中文自然語言的分詞； (3)設(shè)計(jì)系統(tǒng)界面以及用戶接口，為用戶提供相關(guān)信息反饋。圖 21 系統(tǒng)功能為實(shí)現(xiàn)本設(shè)計(jì)中基于字典的中文分詞系統(tǒng)，本文的實(shí)現(xiàn)思路和大致過程將如下規(guī)劃：首先應(yīng)該建立比較完善的詞典，詞典的組織方式主要有整詞二分， TRIE 樹二分，逐字二分三種 [7]。同時(shí)，詞典不能過大也不能太小，過大則使復(fù)雜度增加，過小則影響分詞的準(zhǔn)確率。本文所使用的字典詞條數(shù)目在 200,000 到 300,000 條之間，經(jīng)過計(jì)算 20,000 到 30,000 條的詞匯放入內(nèi)存中所占用的空間約為到之間，這在現(xiàn)在的計(jì)算機(jī)系統(tǒng)上是很容易被接受的。對字典來說條目有明顯的順序，而且可以根據(jù)首字母來索引相應(yīng)的條目，在本設(shè)計(jì)中擬選用 STL 中 set 關(guān)聯(lián)容器來實(shí)現(xiàn)對詞典的存儲，由于 set 高效的實(shí)現(xiàn)結(jié)構(gòu)，其查找具有非常好的性能。最后要確定的是一個(gè)好的匹配算法，這個(gè)算法應(yīng)當(dāng)把時(shí)間復(fù)雜度控制在根據(jù)要分割文本的大小線性變化的范圍內(nèi)。功能框架根據(jù) 前面的功能分析，整個(gè)系統(tǒng) 的實(shí)現(xiàn) 也可以分為詞典加載模塊、文本匹配與分割模塊以及后期處理與輸出模塊這三個(gè) 模塊。文本匹配模塊則讀入用戶指定的文本，并設(shè)計(jì) 匹配算法對文本進(jìn)行分詞，在分詞過程中針對歧義進(jìn)行一些必要的修正。在上述三個(gè)模塊實(shí)現(xiàn)過程中，針對主要要實(shí)現(xiàn)的功能，擬選用的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)有 vector， set，擬定義的關(guān)鍵數(shù)據(jù) Mprev_pos，擬定義的主要函數(shù)有：LoadFile， WCompare， SCompare， processing， output。filename) 核心匹配的部分算法 + int WCompare(stringamp。st) + void Processing () 后處理的部分函數(shù) +CString outputing()。filename) int WCompare(stringamp。st) 對 5 個(gè)漢字單位的小串進(jìn)行分詞 void Processing () 對句子進(jìn)行分詞處理 CString outputing() bool LoadDict(stringamp。file_name) 為函數(shù)加載詞典， void Processing()， int SCompare(stringamp。st)。 CString outputing()。分詞的結(jié)果儲存在 vectorstring DSDone 中。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 13 頁對于匹配算法，在程序代碼中占比較大的比重，應(yīng)該考慮到運(yùn)行時(shí)間的問題，盡量的減少匹配次數(shù)，以降低程序的整體運(yùn)行時(shí)間復(fù)雜度，當(dāng)然，影響速度的因素還有詞典的組織和數(shù)據(jù)結(jié)構(gòu)等。為實(shí)現(xiàn)用戶交互，輸入要匹配的文件，輸出匹配之后的結(jié)果，本設(shè)計(jì)選用了 VC++ 作為系統(tǒng)主界面設(shè)計(jì)工具。為開發(fā)和實(shí)現(xiàn)系統(tǒng)的核心算法，本設(shè)計(jì)選用了 C++語言來設(shè)計(jì)關(guān)鍵的一些算法、類等功能，同時(shí) 為便于今后系統(tǒng)功能擴(kuò)展，生成相應(yīng)的動(dòng)態(tài)鏈接庫（ DLL），因此選用了這種流行的面向?qū)ο蟪绦蛟O(shè)計(jì)語言。 C++ STL 中標(biāo)準(zhǔn)關(guān)聯(lián)容器 set, multiset, map, multimap 內(nèi)部采用的就是一種非常高效的平衡檢索二叉樹：紅黑樹，也稱為 RB 樹 (RedBlack Tree)。紅黑樹能夠以 O(log2n)的時(shí)間復(fù)雜度進(jìn)行搜索、插入、刪除操作。雖然還有一些更好的、但實(shí)現(xiàn)起來更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)能夠做到一步旋轉(zhuǎn)之內(nèi)達(dá)到平衡，但紅黑樹能夠給我們一個(gè)比較 “ 便宜 ” 的解決方案。關(guān)鍵技術(shù)與難點(diǎn)分析本系統(tǒng)設(shè) 計(jì)中要解決的關(guān)鍵技術(shù)和難點(diǎn) 主要有三個(gè)：分詞的效率和準(zhǔn)確度；詞典的組織；切分歧義。不能運(yùn)行太長的時(shí)間而使用戶產(chǎn)生等待的感覺，也不能錯(cuò)誤太多導(dǎo)致分詞的結(jié)果無法理解。從算法方面考慮，對于機(jī)械分詞方法，可以建立一個(gè)一般的模型，形式地表示為 ASM(d, a, m)，即 Automatic Segmentation Model[8]。例如， ASM(+, , +)就是正向減字最大匹配法（即 MM方法）， ASM(,,+)就是逆向減字最大匹配法 (即 RMM 方法 )等等。用這種模型可以對各種方法的復(fù)雜度進(jìn)行比較，假設(shè)在詞典的匹配過程都使用順序查找和相同的計(jì)首字索引查找方法，則在不記首字索武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 15 頁引查找次數(shù)（最小為 log漢字總數(shù) 187。對于給定的文檔 D，其長度為 N，給定詞典 Z，詞典的詞條數(shù)目為 T，在詞典中查找某一字串的復(fù)雜度為 f（ T），則使用最大匹配算法分詞需要進(jìn)行 O（ N）次的詞典查找，故其時(shí)間復(fù)雜度為 O（ N*f（ T））。設(shè)計(jì)好的算法也應(yīng)該同時(shí)考慮單次查找的復(fù)雜度與遍歷次數(shù)。由于查詢詞 t 已確定，所以稱“確定詞條查詢”。由于最長詞的長度往往無法預(yù)知，通常的做法是常識始于位置 i 的所有可能長度的詞。目前組織分詞詞典主要有整詞、 TRIE、逐字二分等方法。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 16 頁切分歧義最后考慮到歧義的問題，中文分詞的最大難題在于漢語中眾多的歧義性詞組的存在。如一個(gè)句子：“王校長基本沒有同學(xué)生會(huì)面的時(shí)間。但是仍然存在許多象第一個(gè)例子一樣需要參考上下文語境才能正確分詞的語句。解決這類問題通常需要從其他的方面入手。它們都在一個(gè)類中共同實(shí)現(xiàn)。設(shè)計(jì) 概述 1．詞典的編撰作為一個(gè)基于字典的中文分詞系統(tǒng)，首先應(yīng)該具備的就是一個(gè)完整的，有一定組織規(guī)則的字典，本系統(tǒng)根據(jù)漢語詞典，專有名詞詞典，人名地名詞典制作了詞典，并利用大量的資料添加了常用的連續(xù)詞。 3．詞典的存儲詞典在使用是加載到內(nèi)存，這樣做的考慮是為了明顯的提高運(yùn)行速度，而且詞典占用的內(nèi)存大小是可以允許的。 5．未登錄詞的處理武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 18 頁系統(tǒng)對未登錄詞的處理采用把未登錄的連續(xù)詞分成子詞，把未登錄的非連續(xù)詞分成單字。主要界面系統(tǒng) 操作的主界面如下圖所示。在文件路徑編輯框中顯示要分詞的文件，后面的按鈕應(yīng)用 MFC 標(biāo)準(zhǔn)文件操作框選

點(diǎn)擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

基于sip協(xié)議的voip技術(shù)研究畢業(yè)設(shè)計(jì)材料-在線瀏覽

【摘要】淮安信息職業(yè)技術(shù)學(xué)院2009級學(xué)生畢業(yè)設(shè)計(jì)（論文）材料袋學(xué)生姓名：　　王旭　學(xué)號：　71091136　　　　院（系）名稱：　　　計(jì)算機(jī)與通信工程學(xué)院　　專　業(yè)：　　通信技術(shù)　　畢業(yè)設(shè)計(jì)

2025-07-10 18:22

基于顏色特征的圖像檢索技術(shù)研究畢業(yè)設(shè)計(jì)-在線瀏覽

【摘要】電子信息工程專業(yè)畢業(yè)設(shè)計(jì)（報(bào)告）題目基于顏色特征的圖像檢索技術(shù)研究二級學(xué)院電子信息與自動(dòng)化學(xué)院專業(yè)

2024-07-30 13:00

基于顏色特征的圖像檢索技術(shù)研究畢業(yè)設(shè)計(jì)-在線瀏覽

【摘要】電子信息工程專業(yè)畢業(yè)設(shè)計(jì)（報(bào)告）題目基于顏色特征的圖像檢索技術(shù)研究二級學(xué)院電子信息與自動(dòng)化學(xué)院

2024-09-11 09:26

本科畢業(yè)論文-基于安全性的汽車電子技術(shù)研究-在線瀏覽

【摘要】學(xué)校代碼：10206學(xué)生學(xué)號：152104137白城師范學(xué)院畢業(yè)論文（設(shè)計(jì)）基于安全性的汽車電子技術(shù)研究TheResearchofAutomobileElectronicTechnologyBasedonSafety學(xué)生姓名：張軍浩指導(dǎo)教師：王蘊(yùn)

2025-03-05 15:11

人臉識別技術(shù)研究本科畢業(yè)論文-在線瀏覽

【摘要】人臉識別技術(shù)研究人臉識別技術(shù)研究摘要人臉識別是一個(gè)具有很高理論和應(yīng)用價(jià)值的研究課題。人臉是人類視覺中最為普遍的模式，它所反映的視覺信息在人與人的交流和交往中有著及其重要的作用意義。人臉的特殊性，使得人臉識別技術(shù)成為最具潛力的身份識別方式。人臉識別技術(shù)應(yīng)用廣泛，并且日益受到人們的廣泛關(guān)注并成為模式識別領(lǐng)域研究的熱點(diǎn)。同時(shí)人臉識別又是一個(gè)復(fù)雜和困難的課題，其原因有:人

2024-08-08 11:19

人臉識別技術(shù)研究本科畢業(yè)論文-在線瀏覽

【摘要】人臉識別技術(shù)研究1人臉識別技術(shù)研究摘要人臉識別是一個(gè)具有很高理論和應(yīng)用價(jià)值的研究課題。人臉是人類視覺中最為普遍的模式，它所反映的視覺信息在人與人的交流和交往中有著及其重要的作用意義。人臉的特殊性，使得人臉識別技術(shù)成為最具潛力的身份識別方式。人臉識別技術(shù)應(yīng)用廣泛，并且日益受到人們的廣泛關(guān)注并成為模式識別領(lǐng)域研究的熱點(diǎn)。同時(shí)人臉識別

2024-10-30 17:01

本科畢業(yè)論文-基于安全性的汽車電子技術(shù)研究-在線瀏覽

2024-08-01 08:35

基于cad技術(shù)的站場平面設(shè)計(jì)本科畢業(yè)設(shè)計(jì)-在線瀏覽

【摘要】西南交通大學(xué)本科畢業(yè)設(shè)計(jì)（論文）基于CAD技術(shù)的站場平面設(shè)計(jì)（常州站）STATION'SPLANEDESIGNOFCATENARYBASEDONCADTECHNOLOGY（THECHANGZHOUSTATION）年級:2008級學(xué)號:姓名:

2024-08-04 18:57

基于matlab的數(shù)字圖像增強(qiáng)技術(shù)本科畢業(yè)設(shè)計(jì)-在線瀏覽

【摘要】寶雞文理學(xué)院2012屆本科生畢業(yè)設(shè)計(jì) 本科畢業(yè)設(shè)計(jì)題　　目基于MATLAB的數(shù)字圖像增強(qiáng)技術(shù)基于MATLAB的數(shù)字圖像增強(qiáng)技術(shù)摘要:數(shù)字圖像處理是一門新興技術(shù)，隨著計(jì)算機(jī)硬件的發(fā)展，數(shù)字圖像的實(shí)時(shí)處理已經(jīng)成為可能，由于數(shù)字圖像處理的各種算法的出現(xiàn)，使得其處理速度越來越快，能更好的為人們服務(wù)。數(shù)字圖像處理是一種通過計(jì)算機(jī)采用一定

2024-08-07 18:40

印刷油墨的配色技術(shù)研究本科畢業(yè)論文-在線瀏覽

【摘要】株洲工學(xué)院2005屆印刷工程本科畢業(yè)論文（設(shè)計(jì)）株洲工學(xué)院2005屆畢業(yè)設(shè)計(jì)（論文）材料院(系)、部：包裝與印刷學(xué)院學(xué)生姓名：江宇杭指導(dǎo)教師：龔修端職稱講師專業(yè)：印刷工程班級：印

2025-07-24 21:55

基于qt的數(shù)碼相框設(shè)計(jì)本科畢業(yè)設(shè)計(jì)-在線瀏覽

【摘要】上海電力學(xué)院本科畢業(yè)設(shè)計(jì)（論文）題目：基于QT的數(shù)碼相框設(shè)計(jì)上海電力學(xué)院本科畢業(yè)設(shè)計(jì)（論文）題目：基于QT的數(shù)碼相框設(shè)計(jì)院系：計(jì)算機(jī)與信息工程學(xué)院專業(yè)年級：

2024-10-31 18:25

基于qt的數(shù)碼相框設(shè)計(jì)本科畢業(yè)設(shè)計(jì)-在線瀏覽

【摘要】上海電力學(xué)院本科畢業(yè)設(shè)計(jì)（論文）題　　目：基于QT的數(shù)碼相框設(shè)計(jì)上海電力學(xué)院本科畢業(yè)設(shè)計(jì)（論文）題　　目：基于QT的數(shù)碼相框設(shè)計(jì)院　　系：　計(jì)算機(jī)與信息工程學(xué)院專業(yè)年級：　2007電子科學(xué)與技術(shù)學(xué)生姓名：　學(xué)號：　

2024-08-07 18:26

基于opencv的計(jì)算機(jī)視覺技術(shù)研究與實(shí)現(xiàn)本科畢業(yè)論文-在線瀏覽

【摘要】畢業(yè)設(shè)計(jì)（論文）原創(chuàng)性聲明和使用授權(quán)說明原創(chuàng)性聲明本人鄭重承諾：所呈交的畢業(yè)設(shè)計(jì)（論文），是我個(gè)人在指導(dǎo)教師的指導(dǎo)下進(jìn)行的研究工作及取得的成果。盡我所知，除文中特別加以標(biāo)注和致謝的地方外，不包含其他人或組織已經(jīng)發(fā)表或公布過的研究成果，也不包含我為獲得

2024-10-30 15:16

畢業(yè)設(shè)計(jì)-基于小波變換的數(shù)字水印技術(shù)研究-在線瀏覽

【摘要】黑龍江工程學(xué)院本科生畢業(yè)論文目錄摘要··························

2025-02-05 18:53

基于matlab的qam調(diào)制解調(diào)技術(shù)研究畢業(yè)設(shè)計(jì)論文-在線瀏覽

【摘要】西安郵電大學(xué)畢業(yè)設(shè)計(jì)（論文）題目：基于MATLAB的QAM調(diào)制解調(diào)技術(shù)研究西安郵電大學(xué)畢業(yè)設(shè)計(jì)(論文)任務(wù)書學(xué)生姓名指導(dǎo)教師職稱講師學(xué)院通信與信息工程學(xué)院專業(yè)通信工程題目

2024-08-07 18:18