正文內(nèi)容

本科畢業(yè)設(shè)計－基于字典的中文分詞技術(shù)研究(參考版)

2024-12-07 21:00本頁面

　　

【正文】清華大學(xué)出版社 .2021 [13]JONES, Russell. 1997. Chinese Names: The Traditions Surrounding the Use of Chinese Surnames and Personal Names. Pelanduk Publications, Selangor Darul Ehsan, Malaysia, 1997. 武漢工程大學(xué)設(shè)計（論文）說明書第 38 頁 [14]KWOK, . 1997. Comparing representations of Chinese information retrieval. Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Philadelphia, Philadelphia, July 1997. [15]NIE, JianYun, Martin Brisebois, and Xiaobo Ren. 1996. On Chinese text retrieval. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Z252。武漢工程大學(xué)設(shè)計（論文）說明書第 37 頁參考文獻(xiàn) [1] GB/T1371592《信息處理用現(xiàn)代漢語分詞規(guī)范》 ,中國標(biāo)準(zhǔn)出版社， 1993。在編輯詞典時同寢室的 XXX， XXX， XX， XXX 等同學(xué)也很熱心的幫助我分詞和搜集資料，沒有他們詞典是無法這么快的完成的。同組的同學(xué)也給予了一些技術(shù)上的指導(dǎo)和幫助，以前同班的王海龍同學(xué)在后期的界面設(shè)計中給予了很多方向性的指導(dǎo)。總之，分詞這項(xiàng)非常具有必要性和迫切性的工作，需要并值得不斷的為之付出努力。具體的實(shí)現(xiàn)，需要對每個漢字用一種結(jié)構(gòu)體進(jìn)行存儲，每個結(jié)構(gòu)體應(yīng)該包含這個漢字和其他的漢字的互現(xiàn)頻率，在碰到歧義時，優(yōu)先考慮互現(xiàn)信息度高的一個字段做為最優(yōu)的結(jié)果。對于本系統(tǒng)而言，有它的不足之處，以后的完善過程中，需要加入另一種逆向匹配的方法來對分詞的結(jié)果進(jìn)行檢查，當(dāng)檢查的結(jié)果和以前的結(jié)果產(chǎn)武漢工程大學(xué)設(shè)計（論文）說明書第 35 頁生了不符合的情況后，就可以斷定這個地方產(chǎn)生了歧義。因此，漢語分詞系統(tǒng)作為中文信息處理系統(tǒng)的基石，有著極其廣泛的應(yīng)用前景。從系統(tǒng)設(shè)計方面，應(yīng)考慮開發(fā)通用的多功能的漢語分詞系統(tǒng)，如：支持多種不同應(yīng)用的多詞典結(jié)構(gòu)、自適應(yīng)不同應(yīng)用的切分結(jié)果、帶結(jié)構(gòu)化和屬性信息的切分結(jié)果等。但是對于分詞中所涉及的一些關(guān) 鍵問題，目前仍然沒有很好的解決方案。武漢工程大學(xué)設(shè)計（論文）說明書第 34 頁努力的方向漢語分詞是中文信息處理系統(tǒng)的基礎(chǔ)，有著極其廣泛的實(shí)際應(yīng)用。 (3)匹配正確率較高。由于把詞典加載到了內(nèi)存，而且使用了良好的詞典查找算法。全面的詞典建立在大量實(shí)驗(yàn)的基礎(chǔ)上，能應(yīng)對現(xiàn)實(shí)生活中多種多樣，情況復(fù)雜的應(yīng)用。完善的詞典可以保證分詞的準(zhǔn)確率有一定的水平。它具有如下幾個特點(diǎn)： (1)詞典比較完善。其實(shí)對于真正的中文分詞系統(tǒng)來說，由于它是為上級應(yīng)用服務(wù)的，所以沒有必要制作界面，但從研究和分析的角度來講，制作界面大大方便了使用和提高了分析工作的效率。對于基于詞典的分詞系統(tǒng)來說，詞典的查找比較普遍使用的就是二分法及 HASH，尤其對于線形的字典結(jié)構(gòu)，好的查找方法可以大大的提高程序的運(yùn)行效率。搜索時效率比較高，沒有等待的現(xiàn)象。一些動詞和形容詞重疊結(jié)構(gòu)，如“高高大大”、“甜甜蜜蜜”等；一些附加詞，如后綴，“親和性”、“熱敏性”等；都可以作為分詞單位予以識別和切分。在建立分詞系統(tǒng)詞表時，仍然對于收詞的標(biāo)準(zhǔn)難以把握，例如：“雞蛋”是詞，那么“鴨蛋、鵪鶉蛋”是否也作為詞收入詞表？對于基于字典匹配的系統(tǒng)來說，如果不收錄這些詞，那就沒有辦法準(zhǔn)確的分詞。但從一些詞典的編撰中，我們?nèi)匀豢煽闯鲆恍┥鲜鼋缦揠y以區(qū)分的問題。先談?wù)勗~典的設(shè)計，在錄入了漢語詞典的詞匯和一些常用組合后，接下來面對的問題就是漢語的語素和單字詞，合成詞和短語之間沒有清晰的界限。在設(shè)計過程中遇到了很多的困難，設(shè)計遍歷算法時要考慮如何能夠在保證全部遍歷的情況下，還要使運(yùn)行速度盡量的快。分詞的結(jié)果從圖中可以看到分詞的準(zhǔn)確度比較高，速度也很快，瞬間就可以完成分詞。圖分詞結(jié)果和原文如果還需要分別的文本，只需要再選定路徑，點(diǎn)擊分詞即可。裝載成功后狀態(tài)欄會顯示“裝載成功！圖裝載成功武漢工程大學(xué)設(shè)計（論文）說明書第 30 頁點(diǎn)擊文件路徑旁的“?”按扭，彈出選擇文件路徑的對話框。分詞的結(jié)果：人們 |熱愛 |暴力 |拳擊 |為你 |贏得 |了 |尊嚴(yán) |同時 |也 |剝奪 |了 |別人 |的 |人生 |又 |何嘗 |不是 |一場 |長達(dá) |七十年 |的 |拳賽 |充滿 |了 |躲閃 |與 |出拳 |如果 |把握 |機(jī)會 |改變 |命運(yùn) |只需 |一 |記 |重拳 |足以 |前提 |是 |你 |必須 |好好 |的 |保護(hù) |了 |自己 |你 |必須 |還|還 |活 |者 |其實(shí) |人生 |的 |路上 |哪有 |什么 |勝利者 |可言 |只有 |堅持 |與 |等待 |而已 | 這個例子同樣證明了系統(tǒng)的分詞能力可以勝任分詞工作，速度也很快，不需要等待，瞬間就可以完成分詞。人生又何嘗不是一場長達(dá)七十年的拳賽，充滿了躲閃與出拳，如果把握機(jī)會，改變命運(yùn)只需一記重拳足以，前提是你必須好好的保護(hù)了自己，你必須還還活者。在 |傳統(tǒng) |產(chǎn)業(yè) |中 |比如 |一個 |人 |操作 |一部 |機(jī)床 |他 |所 |掌握 |的 |技術(shù) |是 |有限 |的 |幾乎不 |變 |的 |而他 |的 |創(chuàng)造性 |的 |發(fā)揮 |也 |基本上 |受到 |機(jī)床 |能力 |的 |局限 |但是 |搞 |藝術(shù) |就 |不同 |了 |比如 |拉 |小提琴 |的 |技巧 |從 |會 |拉 |到 |大師 |其 |水平 |相差 |何止 |十萬八千里 |同一 |架 |小提琴 |初學(xué)者 |拉起 |來 |會 |令人生厭 |而 |大師 |演奏 |出來 |卻能 |使 |聽眾 |陶醉 |癡迷 | 從結(jié)果可以看出可以基本正確的分割詞語。比如，拉小提琴的技巧，從“會拉”到“大師”，其水平相差何止十萬八千里！同一架小提琴，初學(xué)者拉起來會令人生厭，而大師演奏出來卻能使聽眾陶醉，癡迷。 } 對文本進(jìn)行分詞：在傳統(tǒng)產(chǎn)業(yè)中，比如，一個人操作一部機(jī)床，他所掌握的技術(shù)是有限的，幾乎不變的，而他的創(chuàng)造性的發(fā)揮也基本上受到機(jī)床能力的局限。武漢工程大學(xué)設(shè)計（論文）說明書第 27 頁 result+=()。iter!=iter_end。 vectorstring::iterator iter_end=()。 CString Split::outputing() { CString result=。 copy(default_excluded_words,default_excluded_words+12,inserter(sig_set,()))。 static string default_excluded_words[12]={ ， ,。用偽代碼說明整個分詞過程：武漢工程大學(xué)設(shè)計（論文）說明書第 25 頁從文本中拿出前 5 個字符； if(這 5 個字符是詞（） ) 把這個詞壓入結(jié)果向量；從這個詞后的一個字開始繼續(xù)分詞； else 去掉最后一個字；這四個字是否是詞（）；分成兩個函數(shù)不利于用偽碼表示，但避免了遞歸，有利于程序的運(yùn)行效率。 while(()!=Mprev_pos) { SCompare((Mprev_pos,Mprev_pos+10))。 //將首字壓入輸出向量 return 0。 L_Word=(prev_pos,prev_pos+C_Length)。 break。 //將首詞壓入輸出向量 Mprev_pos=Mprev_pos+pos。 flag=WCompare(L_Word)。pos!=prev_pos。 int flag=0。 const int C_Length=2。其中關(guān)鍵的代碼：算法流程圖 string::size_type pos=0,prev_pos=0。比如一個句子是： 123456789，（其中的數(shù)字代表漢字）。如果象通常的方法，在分詞前進(jìn)行預(yù)處理，去除了標(biāo)點(diǎn)符號，那么分詞過程中就會分出“如果”這個詞，而按照本系統(tǒng)的算法，“，”出現(xiàn)在“如”和“果”中間，“如，果”這個字段一定不會出現(xiàn)在詞典中，那么它就可以被切分為“如 |， |果”。這樣做的理由是可以避免一部分的歧義。游標(biāo)移動到這個單字的后面，繼續(xù)按上述規(guī)則進(jìn)行匹配。查找匹配此模塊的中心思想是把要分詞的中文文本分成五個字的單元（因?yàn)樵~典中定義的詞最大長度為五）。武漢工程大學(xué)設(shè)計（論文）說明書第 22 頁 } 以上的代碼作為分詞前的準(zhǔn)備工作，詞典的裝載過程在程序一開始運(yùn)行時便需要執(zhí)行，文本的裝載過程在選擇了分詞文本后運(yùn)行。)) { (word)。 while(finword,(a,256,39。 char a[256]。如是，則不能繼續(xù)后續(xù)文件操作。 if(!fin) { return false。file_name) { ifstream fin。除了讀入詞典，這個模塊還有一個讀入需要進(jìn)行分詞的文本的功能，此功能的實(shí)現(xiàn)如下： name 即是要打開的文件的名字。詞典由 dict_set 代替，程序也將從 dict_set 中查找和匹配詞條。)) { (word)。詞典裝載此模塊實(shí)現(xiàn)將詞典裝載入 set 的功能，其關(guān)鍵代碼如下： while(finword, (a,256,39。詞典的存儲結(jié)構(gòu)及搜索算法是很重要的一個環(huán)節(jié)，處理的方式不同程序的運(yùn)行速度和準(zhǔn)確率都會有很大的不同。分詞算法的建立方面，主要考慮到遍歷輸入字符串的復(fù)雜度，并不是很難掌握，需要注意的是語句的結(jié)構(gòu)方面，盡量避免遞歸調(diào)用 [10]，盡量減少不必要的循環(huán)次數(shù)。大量的實(shí)驗(yàn)性分詞和添加過程，是一個完整詞典形成的必要因素。做完這些工作以后，本文意識到一個問題，分詞系統(tǒng)不應(yīng)當(dāng)只收錄傳統(tǒng)意義上的詞，而且應(yīng)當(dāng)能夠收錄常用的復(fù)合詞匯，比如“人民代表”，“領(lǐng)導(dǎo)接待日”等。關(guān)鍵算法系統(tǒng) 要實(shí)現(xiàn)的算法主要分為三大任務(wù)，一是詞典的建立，二是分詞算法的設(shè)計，三是詞典的存儲結(jié)構(gòu)。下面三個按鈕依次用于裝載文件、執(zhí)行分詞、退出系統(tǒng)。狀態(tài)框中顯示每

點(diǎn)擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

本科畢業(yè)設(shè)計－基于字典的中文分詞技術(shù)研究(參考版)

【摘要】武漢工程大學(xué)畢業(yè)設(shè)計（論文）（2006屆）題目：基于字典的中文分詞技術(shù)研究學(xué)號：姓名：專業(yè)：計算機(jī)科學(xué)與技術(shù)指導(dǎo)教師：武漢工程大學(xué)教務(wù)處武漢工程大學(xué)設(shè)計（論文）說明書第I頁

2024-12-07 21:00

畢業(yè)設(shè)計-基于雙向匹配的中文分詞算法的研究與實(shí)現(xiàn)(參考版)

【摘要】石家莊經(jīng)濟(jì)學(xué)院本科生畢業(yè)論文Ⅰ摘要中文分詞是信息提取、信息檢索、機(jī)器翻譯、文本分類、自動文摘、語音識別、文本語音轉(zhuǎn)換、自然語言理解等中文信息處理領(lǐng)域的基礎(chǔ)，雖然研究了很多年，但是中文分詞依然是中文信息處理的瓶頸之一。

2024-12-06 14:09

基于fpga的遠(yuǎn)程定位技術(shù)研究本科畢業(yè)論文(參考版)

【摘要】畢業(yè)設(shè)計（論文）中文摘要題目：基于FPGA的遠(yuǎn)程定位技術(shù)研究摘要：GPS（全球衛(wèi)星定位系統(tǒng)）可以實(shí)現(xiàn)一種非常穩(wěn)定的有效的汽車定位方法，利用GSM（全球移動通信系統(tǒng)）技術(shù)將GPS接收到的定位消息迅速的發(fā)送到接收終端。把這兩種技術(shù)組合在一起形成的汽車監(jiān)控導(dǎo)航系統(tǒng)，為解決相關(guān)問題找到了不錯的方法，在汽車導(dǎo)航控制系統(tǒng)的過程中發(fā)揮著重要作用。

2025-03-02 09:47

并網(wǎng)逆變器孤島檢測技術(shù)研究_本科畢業(yè)設(shè)計論文(nxpowerlite)(參考版)

【摘要】核準(zhǔn)通過，歸檔資料。未經(jīng)允許，請勿外傳！9JWKffwvG#tYM*Jg&6a*CZ7H$dq8KqqfHVZFedswSyXTy#&QA9wkxFyeQ^!djs#XuyUP2kNXpRWXmA&UE9aQ@Gn8xp$R#͑Gx^Gjqv^$UE9wEwZ#Qc@UE%&

2024-08-17 00:46

基于數(shù)字水印的圖像認(rèn)證技術(shù)研究本科畢業(yè)論文(參考版)

【摘要】畢業(yè)論文基于數(shù)字水印的圖像認(rèn)證技術(shù)研究基于數(shù)字水印的圖像認(rèn)證技術(shù)研究目錄目錄 I摘要 IIIAbstract III第1章緒論 1選題背景及意義 1信息安全技術(shù) 1信息隱藏技術(shù) 1數(shù)字水印技術(shù) 1圖像認(rèn)證技術(shù)研究概況 2空間域方法 2本

2025-06-27 15:52

基于數(shù)字水印的圖像認(rèn)證技術(shù)研究本科畢業(yè)論文(參考版)

2025-07-05 13:38

畢業(yè)設(shè)計_基于tdoa的無線定位技術(shù)研究(參考版)

【摘要】哈爾濱工程大學(xué)本科生畢業(yè)論文摘要無線定位服務(wù)是一種有著廣闊市場前景的移動增值業(yè)務(wù)，基本原理是利用現(xiàn)有蜂窩網(wǎng)絡(luò)，通過對各種位置特征參數(shù)，包括到達(dá)時間(TOA)、到達(dá)時間差(TDOA)、到達(dá)方向(DOA)的測量和估計，來實(shí)現(xiàn)移動用戶的定位。本論文對無線通信網(wǎng)絡(luò)中基于

2024-12-05 20:44

直流光學(xué)電流互感器的信號處理技術(shù)研究本科畢業(yè)設(shè)計(參考版)

【摘要】華北電力大學(xué)本科畢業(yè)設(shè)計（論文）直流光學(xué)電流互感器的信號處理技術(shù)研究摘要基于法拉第磁光效應(yīng)的直流光學(xué)電流互感器具有廣闊的發(fā)展前景，但在實(shí)用化道路上還存在一些問題，本文針對提高直流光學(xué)電流互感器的信號檢測性能展開研究。本文首先設(shè)計了直流光學(xué)電流互感器的結(jié)構(gòu)，對其在測量過程中引入的內(nèi)部噪聲及其信噪特性進(jìn)行了理論分析和試驗(yàn)，驗(yàn)證了其存在噪聲與信號頻帶相重疊的問題。其次，分析和比

2025-06-22 03:56

直流光學(xué)電流互感器的信號處理技術(shù)研究本科畢業(yè)設(shè)計(參考版)

【摘要】華北電力大學(xué)本科畢業(yè)設(shè)計（論文）1直流光學(xué)電流互感器的信號處理技術(shù)研究摘要基于法拉第磁光效應(yīng)的直流光學(xué)電流互感器具有廣闊的發(fā)展前景，但在實(shí)用化道路上還存在一些問題，本文針對提高直流光學(xué)電流互感器的信號檢測性能展開研究。本文首先設(shè)計了直流光學(xué)電流互感器的結(jié)構(gòu)，對其在測量過程中引入的內(nèi)部噪聲及其信噪特性進(jìn)行了理論分析和試驗(yàn)，驗(yàn)證了其

2025-07-09 13:21

基于sip協(xié)議的voip技術(shù)研究畢業(yè)設(shè)計材料(參考版)

【摘要】淮安信息職業(yè)技術(shù)學(xué)院2009級學(xué)生畢業(yè)設(shè)計（論文）材料袋學(xué)生姓名：　　王旭　學(xué)號：　71091136　　　　院（系）名稱：　　　計算機(jī)與通信工程學(xué)院　　?！I(yè)：　　通信技術(shù)　　畢業(yè)設(shè)計

2025-05-26 18:22

基于顏色特征的圖像檢索技術(shù)研究畢業(yè)設(shè)計(參考版)

【摘要】電子信息工程專業(yè)畢業(yè)設(shè)計（報告）題目基于顏色特征的圖像檢索技術(shù)研究二級學(xué)院電子信息與自動化學(xué)院專業(yè)

2025-06-22 13:00

基于顏色特征的圖像檢索技術(shù)研究畢業(yè)設(shè)計(參考版)

【摘要】電子信息工程專業(yè)畢業(yè)設(shè)計（報告）題目基于顏色特征的圖像檢索技術(shù)研究二級學(xué)院電子信息與自動化學(xué)院

2025-07-05 09:26

本科畢業(yè)論文-基于安全性的汽車電子技術(shù)研究(參考版)

【摘要】學(xué)校代碼：10206學(xué)生學(xué)號：152104137白城師范學(xué)院畢業(yè)論文（設(shè)計）基于安全性的汽車電子技術(shù)研究TheResearchofAutomobileElectronicTechnologyBasedonSafety學(xué)生姓名：張軍浩指導(dǎo)教師：王蘊(yùn)

2025-01-19 15:11

人臉識別技術(shù)研究本科畢業(yè)論文(參考版)

【摘要】人臉識別技術(shù)研究人臉識別技術(shù)研究摘要人臉識別是一個具有很高理論和應(yīng)用價值的研究課題。人臉是人類視覺中最為普遍的模式，它所反映的視覺信息在人與人的交流和交往中有著及其重要的作用意義。人臉的特殊性，使得人臉識別技術(shù)成為最具潛力的身份識別方式。人臉識別技術(shù)應(yīng)用廣泛，并且日益受到人們的廣泛關(guān)注并成為模式識別領(lǐng)域研究的熱點(diǎn)。同時人臉識別又是一個復(fù)雜和困難的課題，其原因有:人

2025-07-01 11:19

人臉識別技術(shù)研究本科畢業(yè)論文(參考版)

【摘要】人臉識別技術(shù)研究1人臉識別技術(shù)研究摘要人臉識別是一個具有很高理論和應(yīng)用價值的研究課題。人臉是人類視覺中最為普遍的模式，它所反映的視覺信息在人與人的交流和交往中有著及其重要的作用意義。人臉的特殊性，使得人臉識別技術(shù)成為最具潛力的身份識別方式。人臉識別技術(shù)應(yīng)用廣泛，并且日益受到人們的廣泛關(guān)注并成為模式識別領(lǐng)域研究的熱點(diǎn)。同時人臉識別

2024-08-31 17:01