正文內(nèi)容

本科畢業(yè)設(shè)計(jì)－基于字典的中文分詞技術(shù)研究(完整版)

2025-01-20 21:00上一頁(yè)面

下一頁(yè)面

　　

【正文】力方向和目標(biāo)。實(shí)驗(yàn)結(jié)果表明，系統(tǒng)可以正確處理 85%的歧義切分字段，在 Pentium 200 PC上的速度約 600900 字 /秒。最后，此系統(tǒng)還包括一個(gè)未登錄詞識(shí)別模塊，實(shí)驗(yàn)過程中，對(duì)中文姓氏的自動(dòng)辨別達(dá)武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 6頁(yè) 到了 70%的準(zhǔn)確率。清華大學(xué) SEGTAG 系統(tǒng) 此系統(tǒng)著眼于將各種各類的信息進(jìn)行綜合，以便最大限度地利用這些信息提高切分精度。因此，實(shí)際使用的分詞系統(tǒng)，都是把機(jī)械分詞作為一種初分手段，然后利用各種其它的語(yǔ)言信息來進(jìn)一步提高切分的準(zhǔn)確率。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度。因此對(duì)于搜索引擎來說，分詞的準(zhǔn)確性和速度，二者都需要達(dá)到很高的要求。與西方語(yǔ)言文字處理所不同的是，計(jì)算機(jī)在對(duì)中文的處理上總是遇到很多的難題： (1)中文不像英文等語(yǔ)言有空格這個(gè)天然的分詞符號(hào)； (2)中文的同意詞、同音字等非常之多，由于地域廣闊，各地的用詞習(xí)慣也有不同，不同地域的人輸入的文章和句子都存在著很大的不同； (3)大量虛詞的存在，增加大了智能識(shí)別和分詞的難度。 Segmentation Ambiguity 武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 1頁(yè) 第一章緒論課題背景用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行交流，互通信息，是長(zhǎng)期以來人們所追求的計(jì)算機(jī)智能的一種高級(jí)表現(xiàn)形式，即自然語(yǔ)言理解。本系統(tǒng)主要在如下三方面有所改進(jìn)： (1)用 STL 中的 set 容器來組織和存儲(chǔ)詞典以提高匹配效率； (2)采用正向最大匹配算法并快速判斷二字詞以提高匹配速度； (3)有效減少了因標(biāo)點(diǎn)符號(hào)引起的切分歧義。武漢工程大學(xué) 畢業(yè)設(shè)計(jì)（論文）（ 200 6 屆）題目：基于字典的中文分詞技術(shù)研究學(xué)號(hào)：姓名：專業(yè)：計(jì)算機(jī)科學(xué)與技術(shù) 指導(dǎo)教師：武漢工程大學(xué)教務(wù)處武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 I 頁(yè) 目錄摘要 ......................................................... I Abstract ...................................................... II 第一章緒論 ................................................. 1 課題背景 ............................................. 1 中文分詞技術(shù)的發(fā)展現(xiàn)狀 .............................. 2 課題任務(wù)與論文結(jié)構(gòu) ................................... 7 第二章總體設(shè)計(jì) ............................................. 9 功能分析 ............................................. 9 功能框架 ............................................ 10 開發(fā)工具 ............................................ 13 關(guān)鍵技術(shù)與難點(diǎn)分析 .................................. 14 第三章詳細(xì)設(shè)計(jì) ............................................ 17 模塊設(shè)計(jì) ............................................ 17 程序測(cè)試 ............................................ 29 第四章結(jié)論與展望 .......................................... 32 全文總結(jié) ............................................ 32 系統(tǒng)評(píng)價(jià) ............................................ 33 努力的方向 .......................................... 34 致謝 ......................................................... 36 參考文獻(xiàn) ...................................................... 37 武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 I 頁(yè) 摘要中文分詞是指把中文文本切分成表達(dá)完整語(yǔ)義的基本要素 —— 詞，它是語(yǔ)音識(shí)別、智能輸入、搜索引擎等工作的基礎(chǔ)，大多數(shù)中文文字處理系統(tǒng)也是建立在中文分詞的基礎(chǔ)之上。系統(tǒng)詞典比較完善，準(zhǔn)確率較高，運(yùn)行速度較快。這項(xiàng)工作的意義是如此重要與顯著： (1)人們可以用自己的母語(yǔ)或最習(xí)慣的語(yǔ)言等自然語(yǔ)言來與計(jì)算機(jī)交互，而無需再花大量的時(shí)間和精力去學(xué)習(xí)各種計(jì)算機(jī)語(yǔ)言，因?yàn)樵谶@個(gè)學(xué)習(xí)過程中總是伴隨著一段令人沮喪的經(jīng)歷； (2)在人機(jī)交流過程中，人們也可以進(jìn)一步了解自然語(yǔ)言能力和智能的深層次機(jī)制，從而更清晰的認(rèn)識(shí)自己的母語(yǔ)，并進(jìn)一步改進(jìn)人機(jī)交互的機(jī)制，這是一個(gè)相互促進(jìn)的良性循環(huán)。在很多涉及到中文信息處理的領(lǐng)域：中文輸入法，中文搜索引擎，中文語(yǔ)音智能識(shí)別中都需要面臨一個(gè)中文文檔分詞的問題，需要由分詞系統(tǒng)將中文文本分割成表義的基本單元 —— 詞。漢語(yǔ)自動(dòng)分詞有三個(gè)主要問題： (1)切分歧義； (2)未登錄詞及其處理；(3)語(yǔ)言資源建設(shè)?？梢詫?duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì)，計(jì)算它們的互現(xiàn)信息。在諸多混合分詞方法中，引人注目的有基于理解的分詞方法，其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析，利用句法信息和語(yǔ)義信息來處理歧義現(xiàn)象。系統(tǒng)使用有向圖來集成各種各樣的信息。系統(tǒng)對(duì)文本中的地名和領(lǐng)域?qū)Ｓ性~匯也進(jìn)行了一定的識(shí)別。北大計(jì)算語(yǔ)言所分詞系統(tǒng) 本系統(tǒng)由北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所研制開發(fā)，屬于分詞和詞類標(biāo)注相結(jié)合的分詞系統(tǒng)。課題任務(wù)與論文結(jié)構(gòu) 本文針對(duì)現(xiàn)有分詞系統(tǒng)的優(yōu)缺點(diǎn)，及時(shí)準(zhǔn)確的掌握分詞系統(tǒng)的發(fā)展現(xiàn)狀和工作原理，并在分析分詞系統(tǒng)的基礎(chǔ)上自主實(shí)現(xiàn)一個(gè)初步的分詞系統(tǒng)，通過實(shí)踐來發(fā)現(xiàn)問題，優(yōu)化系統(tǒng)。本課題的研究將促進(jìn)中文搜索引擎和漢語(yǔ)自動(dòng)分詞新的發(fā)展。接下來的工作應(yīng)該是選定一個(gè)好的數(shù)據(jù)結(jié)構(gòu)來存儲(chǔ)字典，好的數(shù)據(jù)結(jié)構(gòu)縮短單次匹配的時(shí)間。后期處理與輸出模塊把切分好的文本進(jìn)行后處理，如去除標(biāo)點(diǎn)符號(hào) 并考武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 11 頁(yè) 慮它們帶來的影響，存儲(chǔ) 切分好的文本，并回顯給用戶，為后續(xù)進(jìn)一步處理提供支持。st) 對(duì)“詞”進(jìn)行匹配確認(rèn) int SCompare(stringamp。則處理分詞的結(jié)果。另外一個(gè)重要的原因是， C++標(biāo)準(zhǔn)模板庫(kù) STL 中提供了大量高效的容器及算法，為了有效存儲(chǔ)和訪問詞典，并且利用 STL 中常用的容器和算法以簡(jiǎn)化編程，本系統(tǒng)優(yōu)先選用了 C++語(yǔ)言作為開發(fā)工具，整個(gè)系統(tǒng)在 VC++ 集成開發(fā)環(huán)境下完成。分詞的效率和準(zhǔn)確度控制分詞的效率和準(zhǔn)確度。 12~14）和詞典讀入內(nèi)存時(shí)間的情況下，對(duì)于典型的詞頻分布，減字匹配 ASM(d,,m)的復(fù)雜度約為次，增字匹配 ASM(d,+,m)的復(fù)雜度約為。 (3)前綴詞條查詢給定漢字串 S，根據(jù)分詞詞典查找 S 中從某一指定位置 i 開始的所有的詞，這些詞均為漢字串 S 中從 i 起始的子串 Si 的前綴。 (2)未登錄詞的識(shí)別對(duì)于中文中常出現(xiàn)的人名，地名，專業(yè)術(shù)語(yǔ)，方言詞匯等詞典未登陸的詞匯，詞典匹配方法便無法正確分詞。 4．核心算法的設(shè)計(jì) 系統(tǒng)的核心算法詳細(xì)見查找匹配模塊，核心算法的功能就是便歷整個(gè)輸入串并分成子串進(jìn)行匹配，存儲(chǔ)匹配結(jié)果。下面三個(gè)按鈕依次用于裝載文件、執(zhí)行分詞、退出系統(tǒng)。分詞算法的建立方面，主要考慮到遍歷輸入字符串的復(fù)雜度，并不是很難掌握，需要注意的是語(yǔ)句的結(jié)構(gòu)方面，盡量避免遞歸調(diào)用 [10]，盡量減少不必要的循環(huán)次數(shù)。詞典由 dict_set 代替，程序也將從 dict_set 中查找和匹配詞條。如是，則不能繼續(xù)后續(xù)文件操作。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 22 頁(yè) } 以上的代碼作為分詞前的準(zhǔn)備工作，詞典的裝載過程在程序一開始運(yùn)行時(shí)便需要執(zhí)行，文本的裝載過程在選擇了分詞文本后運(yùn)行。如果象通常的方法，在分詞前進(jìn)行預(yù)處理，去除了標(biāo)點(diǎn)符號(hào)，那么分詞過程中就會(huì)分出“如果”這個(gè)詞，而按照本系統(tǒng)的算法，“，”出現(xiàn)在“如”和“果”中間，“如，果”這個(gè)字段一定不會(huì)出現(xiàn)在詞典中，那么它就可以被切分為“如 |， |果”。 int flag=0。 break。用偽代碼說明整個(gè)分詞過程：武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 25 頁(yè) 從文本中拿出前 5 個(gè)字符； if(這 5 個(gè)字符是詞（） ) 把這個(gè)詞壓入結(jié)果向量；從這個(gè)詞后的一個(gè)字開始繼續(xù)分詞； else 去掉最后一個(gè)字；這四個(gè)字是否是詞（）；分成兩個(gè)函數(shù)不利于用偽碼表示，但避免了遞歸，有利于程序的運(yùn)行效率。 vectorstring::iterator iter_end=()。比如，拉小提琴的技巧，從“會(huì)拉”到“大師”，其水平相差何止十萬(wàn)八千里！同一架小提琴，初學(xué)者拉起來會(huì)令人生厭，而大師演奏出來卻能使聽眾陶醉，癡迷。裝載成功后狀態(tài)欄會(huì)顯示“裝載成功！圖裝載成功武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 30 頁(yè) 點(diǎn)擊文件路徑旁的“?”按扭，彈出選擇文件路徑的對(duì)話框。先談?wù)勗~典的設(shè)計(jì)，在錄入了漢語(yǔ)詞典的詞匯和一些常用組合后，接下來面對(duì)的問題就是漢語(yǔ)的語(yǔ)素和單字詞，合成詞和短語(yǔ)之間沒有清晰的界限。搜索時(shí)效率比較高，沒有等待的現(xiàn)象。完善的詞典可以保證分詞的準(zhǔn)確率有一定的水平。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 34 頁(yè) 努力的方向漢語(yǔ)分詞是中文信息處理系統(tǒng)的基礎(chǔ)，有著極其廣泛的實(shí)際應(yīng)用。對(duì)于本系統(tǒng)而言，有它的不足之處，以后的完善過程中，需要加入另一種逆向匹配的方法來對(duì)分詞的結(jié)果進(jìn)行檢查，當(dāng)檢查的結(jié)果和以前的結(jié)果產(chǎn)武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 35 頁(yè) 生了不符合的情況后，就可以斷定這個(gè)地方產(chǎn)生了歧義。在編輯詞典時(shí)同寢室的 XXX， XXX， XX， XXX 等同學(xué)也很熱心的幫助我分詞和搜集資料，沒有他們?cè)~典是無法這么快的完成的。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 37 頁(yè) 參考文獻(xiàn) [1] GB/T1371592《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》 ,中國(guó)標(biāo)準(zhǔn)出版社， 1993。具體的實(shí)現(xiàn)，需要對(duì)每個(gè)漢字用一種結(jié)構(gòu)體進(jìn)行

點(diǎn)擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

基于高速相機(jī)的炸點(diǎn)坐標(biāo)測(cè)量技術(shù)研究畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

【摘要】長(zhǎng)春理工大學(xué)畢業(yè)論文I編號(hào)本科生畢業(yè)論文基于高速相機(jī)的炸點(diǎn)坐標(biāo)測(cè)量技術(shù)研究Stoppingpointcoordinatemeasuringtechnologyresearchbasedonhigh-speedcamera學(xué)生姓名專業(yè)光電信息工程學(xué)號(hào)指導(dǎo)教師學(xué)院光電

2025-06-19 13:00

基于數(shù)字圖象處理的自動(dòng)對(duì)焦技術(shù)研究畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

【摘要】本科畢業(yè)設(shè)計(jì)(論文)題目：基于數(shù)字圖象處理的自動(dòng)對(duì)焦技術(shù)研究院（系）：電子信息工程專業(yè)：電子信息工程班級(jí)：090404學(xué)生：安曄學(xué)號(hào)：090404122

2025-02-04 03:27

nsga—ii的改進(jìn)算法研究_本科畢業(yè)設(shè)計(jì)-資料下載頁(yè)

【摘要】本科畢業(yè)設(shè)計(jì)（論文）NSGA—II的改進(jìn)算法研究2021年6月本科畢業(yè)設(shè)計(jì)（論文）NSGA—II的改進(jìn)算法研究學(xué)

2025-03-04 07:00

基于壓電材料的振動(dòng)能量收集技術(shù)研究畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

【摘要】題目基于壓電材料的振動(dòng)能量收集技術(shù)研究基于壓電材料的振動(dòng)能量收集技術(shù)研究[摘要]伴隨著無線傳感器網(wǎng)絡(luò)技術(shù)和可攜帶器件的發(fā)展，電池續(xù)航

2025-06-27 19:53

畢業(yè)設(shè)計(jì)-基于單片機(jī)的tcpip技術(shù)研究及應(yīng)用-資料下載頁(yè)

【摘要】I基于單片機(jī)的TCP/IP技術(shù)研究及應(yīng)用摘要今天，嵌入式Inter的應(yīng)用己經(jīng)深入到日常生活的各個(gè)方面。研究嵌入式TCP/IP協(xié)議在內(nèi)部資源有限微處理器上的實(shí)現(xiàn)，具有重要的現(xiàn)實(shí)意義和經(jīng)濟(jì)價(jià)值。論文首先介紹了嵌入式系統(tǒng)的組成及對(duì)嵌入式Int

2024-12-01 19:09

基于高速相機(jī)的炸點(diǎn)坐標(biāo)測(cè)量技術(shù)研究_畢業(yè)設(shè)計(jì)論文-資料下載頁(yè)

2025-07-06 15:38

基于android的中國(guó)象棋本科畢業(yè)設(shè)計(jì)-資料下載頁(yè)

【摘要】武漢科技大學(xué)本科畢業(yè)設(shè)計(jì)I摘要現(xiàn)在智能操作系統(tǒng)迅速發(fā)展，使得智能手機(jī)和其他的智能移動(dòng)設(shè)備得到廣泛普及，因此，智能操作系統(tǒng)的應(yīng)用軟件開發(fā)及其需要的服務(wù)將有廣闊的發(fā)展前景。而Android是開放性體系架構(gòu)，不僅具有非常好的開發(fā)、調(diào)試環(huán)境，而且還支持各種可擴(kuò)展的用戶體驗(yàn)，包括豐富的圖形組件、多媒體支持功能以及強(qiáng)大的瀏覽器。因此，對(duì)

2025-07-02 11:32

nsga—ii的改進(jìn)算法研究本科畢業(yè)設(shè)計(jì)-資料下載頁(yè)

【摘要】本科畢業(yè)設(shè)計(jì)（論文）NSGA—II的改進(jìn)算法研究2013年6月本科畢業(yè)設(shè)計(jì)（論文）NSGA—II的改進(jìn)算法研究學(xué)院：專業(yè)：自動(dòng)化學(xué)生姓名：

2025-06-28 08:10

基于jsp的網(wǎng)上選課系統(tǒng)本科畢業(yè)設(shè)計(jì)-資料下載頁(yè)

【摘要】本科畢業(yè)設(shè)計(jì)(論文)題目：基于JSP的網(wǎng)上選課系統(tǒng)　　　　　　　　　　　　　　　　　　　　　西安工業(yè)大學(xué)畢業(yè)設(shè)計(jì)（論文）任務(wù)書院（系）計(jì)算機(jī)科學(xué)與工程專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)班級(jí)110姓名徐朝平學(xué)號(hào)（論文）題目：基于JSP的網(wǎng)上選課系統(tǒng)

2025-07-27 04:34

基于plc的電梯控制系統(tǒng)本科畢業(yè)設(shè)計(jì)-資料下載頁(yè)

【摘要】本科畢業(yè)設(shè)計(jì)（論文）說明書基于PLC的電梯控制系統(tǒng)系別電子信息工程學(xué)院專業(yè)班級(jí)自動(dòng)化學(xué)生姓名指導(dǎo)教師提交日期2022年05月27日華南理工大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明：所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成

2025-06-27 19:03

基于jsp的網(wǎng)上選課系統(tǒng)本科畢業(yè)設(shè)計(jì)-資料下載頁(yè)

【摘要】本科畢業(yè)設(shè)計(jì)(論文)題目：基于JSP的網(wǎng)上選課系統(tǒng)西安工業(yè)大學(xué)畢業(yè)設(shè)計(jì)（論文）任務(wù)書院（系）計(jì)算機(jī)科學(xué)與工程專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)班級(jí)110姓名徐朝平學(xué)號(hào)（論文）題目：

2025-07-01 16:33