正文內(nèi)容

本科畢業(yè)設(shè)計(jì)－基于字典的中文分詞技術(shù)研究(更新版)

2025-01-24 21:00上一頁面

下一頁面

　　

【正文】存儲，每個結(jié)構(gòu)體應(yīng)該包含這個漢字和其他的漢字的互現(xiàn)頻率，在碰到歧義時，優(yōu)先考慮互現(xiàn)信息度高的一個字段做為最優(yōu)的結(jié)果。但是對于分詞中所涉及的一些關(guān) 鍵問題，目前仍然沒有很好的解決方案。全面的詞典建立在大量實(shí)驗(yàn)的基礎(chǔ)上，能應(yīng)對現(xiàn)實(shí)生活中多種多樣，情況復(fù)雜的應(yīng)用。對于基于詞典的分詞系統(tǒng)來說，詞典的查找比較普遍使用的就是二分法及 HASH，尤其對于線形的字典結(jié)構(gòu)，好的查找方法可以大大的提高程序的運(yùn)行效率。但從一些詞典的編撰中，我們?nèi)匀豢煽闯鲆恍┥鲜鼋缦揠y以區(qū)分的問題。圖分詞結(jié)果和原文如果還需要分別的文本，只需要再選定路徑，點(diǎn)擊分詞即可。在 |傳統(tǒng) |產(chǎn)業(yè) |中 |比如 |一個 |人 |操作 |一部 |機(jī)床 |他 |所 |掌握 |的 |技術(shù) |是 |有限 |的 |幾乎不 |變 |的 |而他 |的 |創(chuàng)造性 |的 |發(fā)揮 |也 |基本上 |受到 |機(jī)床 |能力 |的 |局限 |但是 |搞 |藝術(shù) |就 |不同 |了 |比如 |拉 |小提琴 |的 |技巧 |從 |會 |拉 |到 |大師 |其 |水平 |相差 |何止 |十萬八千里 |同一 |架 |小提琴 |初學(xué)者 |拉起 |來 |會 |令人生厭 |而 |大師 |演奏 |出來 |卻能 |使 |聽眾 |陶醉 |癡迷 | 從結(jié)果可以看出可以基本正確的分割詞語。iter!=iter_end。 static string default_excluded_words[12]={ ， ,。 L_Word=(prev_pos,prev_pos+C_Length)。pos!=prev_pos。比如一個句子是： 123456789，（其中的數(shù)字代表漢字）。查找匹配此模塊的中心思想是把要分詞的中文文本分成五個字的單元（因?yàn)樵~典中定義的詞最大長度為五）。 char a[256]。除了讀入詞典，這個模塊還有一個讀入需要進(jìn)行分詞的文本的功能，此功能的實(shí)現(xiàn)如下： name 即是要打開的文件的名字。詞典的存儲結(jié)構(gòu)及搜索算法是很重要的一個環(huán)節(jié)，處理的方式不同程序的運(yùn)行速度和準(zhǔn)確率都會有很大的不同。關(guān)鍵算法系統(tǒng) 要實(shí)現(xiàn)的算法主要分為三大任務(wù)，一是詞典的建立，二是分詞算法的設(shè)計(jì)，三是詞典的存儲結(jié)構(gòu)。 6．系統(tǒng)界面設(shè)計(jì) 界面要方便比較，所以要同時顯示原文和分詞后的文本。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 17 頁第三章詳細(xì)設(shè)計(jì) 模塊設(shè)計(jì) 根據(jù)第二章總體設(shè)計(jì)，本系統(tǒng)共分為三大模塊：詞典裝載模塊，查找匹配模塊與處理與輸出模塊。 TRIE、逐字二分查詢效率較高，整詞實(shí)現(xiàn)相對簡單，但效率要低一些?？梢娊档蜁r間復(fù)雜度應(yīng)從詞典的條目 T 和查找方式 f 同時入手。準(zhǔn)確率方面則主要應(yīng)該從字典方面入手，盡可能使詞條全面。 RB樹的統(tǒng)計(jì)性能要好于一般的平衡二叉樹 (也稱 AVL樹 )，所以被 STL 選擇作為了關(guān)聯(lián)容器的內(nèi)部結(jié)構(gòu)。 int Mprev_pos 對需要分詞的句子進(jìn)行定位。file_name) 其中： bool LoadDict(stringamp。實(shí)現(xiàn)功能框架的函數(shù)定義： SPLIT 部分關(guān)鍵數(shù)據(jù)及結(jié)構(gòu)： vectorstring DSDone int Mprev_pos + setstring dict_set + setstring sig_set 前處理的部分函數(shù)： + bool LoadFile(stringamp。而且，詞典在使用的過程中并不需要動態(tài)的修改，所以不用考慮插入刪除是否方便的問題。這些功能及其相互關(guān)系如圖所示。同時，本文的研究作為現(xiàn)有的基礎(chǔ)，可以繼續(xù)深入下去，作盡可能多的嘗試，試圖為今后的研究工作提出一個比較系統(tǒng)、全面、可持續(xù)的研究方案。 1995 年 12 月，國家科委組織了 863 智能機(jī)專題自動分詞評測，在開放測試條件下的評測結(jié)果是：分詞精度最高為 %[5]。經(jīng)測試，此系統(tǒng)的分詞錯誤率為 %，速度為 236 字 /秒。國家語委文字所應(yīng)用句法分析技術(shù)的漢語自動分詞系統(tǒng) 此系統(tǒng)模型考慮了句法分析在自動分詞系統(tǒng)中的作用，以更好地解決切分歧義。在總控部分的協(xié)調(diào)下，分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行判斷，即它模擬了人們對句子的理解過程，因此分詞的準(zhǔn)確性較高、效果較好。當(dāng)緊密程度高于某一個閾值時，便可認(rèn)為此字組可能構(gòu)成了一個詞。主要的分詞技術(shù) 分詞技術(shù)作為一個近 15 年內(nèi)出現(xiàn)的技術(shù)，發(fā)展還并不成熟，目前主要的分詞技術(shù)主要包括三類：基于文本（或者字典）方法、基于統(tǒng)計(jì)方法以及統(tǒng)計(jì) /字典混合方法。此外，不僅僅是中文，同樣是亞洲語言的日文，韓文，這些用 UNICODE 表示的語言文字也存在著同樣的問題 [4]，所以分詞技術(shù)作為一個具有普遍而重大意義的課題，得到越來越多的學(xué)者和相關(guān)人員的關(guān)注。詞是最小的能夠獨(dú)立活動的有意義的語言成分，分詞單位是自然語言信息處理使用的、具有確定的語義或語法功能的基本單位，包括符合各種規(guī)范限定的詞和詞組 [2]。 second, HMM algorithm is used to fast identify 2word vocabulary to improve match speed。首先綜述了現(xiàn)有中文分詞技術(shù)和分詞系統(tǒng)的發(fā)展現(xiàn)狀及各自的優(yōu)缺點(diǎn) 。提出了詞典的改進(jìn)存儲結(jié)構(gòu)；根據(jù)漢語中二字詞較多的特點(diǎn)，通過快速判斷二字詞來優(yōu)化速度；分析了切分歧義處理和未登錄詞處理，提出了適合本系統(tǒng)的自動分詞算法，并給出該系統(tǒng)的具體實(shí)現(xiàn)。 Dictionary Match。中文分詞即 “用計(jì)算機(jī)對漢語的音、形、義進(jìn)行處理 [3]” 。中文分詞的準(zhǔn)確與否，常常直接影響到對搜索結(jié)果的相關(guān)度排序。常用的幾種機(jī)械分詞方法有正向最大匹配、逆向最大匹配、最少切分（使每一句中切出的詞數(shù)最?。?。在實(shí)際應(yīng)用中，還可以將上述各種方法相互組合。目前比較優(yōu)秀的中文自動分詞系統(tǒng)主要有 [6]：武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 5頁清華大學(xué) SEG 分詞系統(tǒng) 此系統(tǒng)提供了帶回溯的正向、反向、雙向最大匹配法和全切分評價切分算法，由用戶來選擇合適的切分算法。一、預(yù)處理模塊，利用特殊的標(biāo)記將輸入的文本分割成較短的漢字串，這些標(biāo)記包括標(biāo)點(diǎn)符號、數(shù)字、字母等非漢字符，還包括文本中常見的一些字體、字號等排版信息。 Microsoft Research 漢語句法分析器中的自動分詞微軟研究院的自然語言研究所在從 90 年代初開始開發(fā)了一個通用型的多國語言處理平臺 NLPWin。應(yīng)該來說，相對于中文分詞存在的客觀困難，這些工作已經(jīng)奠定了中文分詞的良好基礎(chǔ)。第二章針對課題的具體應(yīng)用領(lǐng)域，明確要解決的問題和系統(tǒng)需要實(shí)現(xiàn)的功能，對系統(tǒng)進(jìn)行了總體設(shè)計(jì)，并分析了實(shí)現(xiàn)過程中的關(guān)鍵技術(shù)和難點(diǎn)。同時，詞典不能過大也不能太小，過大則使復(fù)雜度增加，過小則影響分詞的準(zhǔn)確率。功能框架根據(jù) 前面的功能分析，整個系統(tǒng) 的實(shí)現(xiàn) 也可以分為詞典加載模塊、文本匹配與分割模塊以及后期處理與輸出模塊這三個模塊。st) + void Processing () 后處理的部分函數(shù) +CString outputing()。st)。為實(shí)現(xiàn)用戶交互，輸入要匹配的文件，輸出匹配之后的結(jié)果，本設(shè)計(jì)選用了 VC++ 作為系統(tǒng)主界面設(shè)計(jì)工具。雖然還有一些更好的、但實(shí)現(xiàn)起來更復(fù)雜的數(shù)據(jù)結(jié)構(gòu)能夠做到一步旋轉(zhuǎn)之內(nèi)達(dá)到平衡，但紅黑樹能夠給我們一個比較 “ 便宜 ” 的解決方案。例如， ASM(+, , +)就是正向減字最大匹配法（即 MM方法）， ASM(,,+)就是逆向減字最大匹配法 (即 RMM 方法 )等等。由于查詢詞 t 已確定，所以稱“確定詞條查詢”。如一個句子：“王校長基本沒有同學(xué)生會面的時間。設(shè)計(jì) 概述 1．詞典的編撰作為一個基于字典的中文分詞系統(tǒng)，首先應(yīng)該具備的就是一個完整的，有一定組織規(guī)則的字典，本系統(tǒng)根據(jù)漢語詞典，專有名詞詞典，人名地名詞典制作了詞典，并利用大量的資料添加了常用的連續(xù)詞。在文件路徑編輯框中顯示要分詞的文件，后面的按鈕應(yīng)用 MFC 標(biāo)準(zhǔn)文件操作框選用文件名。對于這些詞，我們很難窮舉它們，于是可以從各大網(wǎng)站，報(bào)圖欲分詞文本的選擇武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 20 頁刊上去尋找，利用分詞系統(tǒng)去進(jìn)行分詞，把分詞結(jié)果中復(fù)合詞不能識別的地方紀(jì)錄下來，并進(jìn)行相應(yīng)的添加。\n39。 ((),ios::in)。\n39。其中如果遇到標(biāo)點(diǎn)符號等非中文字符，那么也將其作為單字處理，等到全部分完后再進(jìn)行去除。 int length=()。是否為詞添加入結(jié)果串減字一個單位拿出 N 個漢字是否開始武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 24 頁 if(flag==1) { (L_Word)。 } 實(shí)現(xiàn)了 5 個字為單位的串的查找。在分詞過程中已經(jīng)把詞或者單字放入了一個 vector 中，輸出只需對此vector 進(jìn) 行遍歷。 } } return result。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 28 頁其實(shí)人生的路上哪有什么勝利者可言，只有堅(jiān)持與等待而已。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 32 頁第四章結(jié)論與展望全文總結(jié) 本文對現(xiàn) 有分詞技術(shù)以及分詞系統(tǒng)進(jìn)行了綜述，并對分詞系統(tǒng)的實(shí)際實(shí)現(xiàn)進(jìn)行了研究，并且應(yīng)用 set 裝載詞典于內(nèi)存，應(yīng)用正向最大匹配方法設(shè)計(jì)了一個初步的分詞系統(tǒng) 。也應(yīng)該包含未登錄詞識別以及一些詞法分析的切分單位，例如，一些人名、地名、機(jī)構(gòu)名、外國人譯名，應(yīng)予以識別和切分。系統(tǒng) 評價本文設(shè)計(jì)的系統(tǒng)全部是作者本人在對中文分詞研究、理解的基礎(chǔ)上自主編寫的一個分詞系統(tǒng)。運(yùn)行速度比較快，不需要時間等待分詞結(jié)果。從分詞的在中文信息處理系統(tǒng)中的應(yīng)用方面，可以說，已經(jīng) 有了比較顯著的進(jìn)步，但是在拓展其新應(yīng)用方面仍然要傾注很大的精力，如：自動文摘、漢語文本索引和檢索、漢語語音合成、漢語自然語言接口等。武漢工程大學(xué)設(shè)計(jì)（論文）說明書第 36 頁致謝在這次的畢業(yè)設(shè)計(jì)工作中，指導(dǎo)老師 XX 對我給予了很大的幫助，從開始的資料文獻(xiàn)查找工作，到系統(tǒng)的設(shè)計(jì)與調(diào)試，包括后期的論文撰寫，都給予了很大的支持和幫助。rich, Switzerland, August 1996. [16]PACKARD, Jerome L., editor. 1997. New Approaches to Chinese Word Formation: Morphology, Phonology and the Lexicon in Modern and Ancient Chinese. Mouton de Gruyter, Berlin, 1997.

點(diǎn)擊復(fù)制文檔內(nèi)容

公司管理相關(guān)推薦

基于壓電材料的振動能量收集技術(shù)研究畢業(yè)設(shè)計(jì)論文-資料下載頁

【摘要】題目基于壓電材料的振動能量收集技術(shù)研究基于壓電材料的振動能量收集技術(shù)研究[摘要]伴隨著無線傳感器網(wǎng)絡(luò)技術(shù)和可攜帶器件的發(fā)展，電池續(xù)航

2025-06-27 19:53

畢業(yè)設(shè)計(jì)-基于單片機(jī)的tcpip技術(shù)研究及應(yīng)用-資料下載頁

【摘要】I基于單片機(jī)的TCP/IP技術(shù)研究及應(yīng)用摘要今天，嵌入式Inter的應(yīng)用己經(jīng)深入到日常生活的各個方面。研究嵌入式TCP/IP協(xié)議在內(nèi)部資源有限微處理器上的實(shí)現(xiàn)，具有重要的現(xiàn)實(shí)意義和經(jīng)濟(jì)價值。論文首先介紹了嵌入式系統(tǒng)的組成及對嵌入式Int

2024-12-01 19:09

基于高速相機(jī)的炸點(diǎn)坐標(biāo)測量技術(shù)研究_畢業(yè)設(shè)計(jì)論文-資料下載頁

【摘要】長春理工大學(xué)畢業(yè)論文I編號本科生畢業(yè)論文基于高速相機(jī)的炸點(diǎn)坐標(biāo)測量技術(shù)研究Stoppingpointcoordinatemeasuringtechnologyresearchbasedonhigh-speedcamera學(xué)生姓名專業(yè)光電

2025-07-06 15:38

基于android的中國象棋本科畢業(yè)設(shè)計(jì)-資料下載頁

【摘要】武漢科技大學(xué)本科畢業(yè)設(shè)計(jì)I摘要現(xiàn)在智能操作系統(tǒng)迅速發(fā)展，使得智能手機(jī)和其他的智能移動設(shè)備得到廣泛普及，因此，智能操作系統(tǒng)的應(yīng)用軟件開發(fā)及其需要的服務(wù)將有廣闊的發(fā)展前景。而Android是開放性體系架構(gòu)，不僅具有非常好的開發(fā)、調(diào)試環(huán)境，而且還支持各種可擴(kuò)展的用戶體驗(yàn)，包括豐富的圖形組件、多媒體支持功能以及強(qiáng)大的瀏覽器。因此，對

2025-07-02 11:32

nsga—ii的改進(jìn)算法研究本科畢業(yè)設(shè)計(jì)-資料下載頁

【摘要】本科畢業(yè)設(shè)計(jì)（論文）NSGA—II的改進(jìn)算法研究2013年6月本科畢業(yè)設(shè)計(jì)（論文）NSGA—II的改進(jìn)算法研究學(xué)院：專業(yè)：自動化學(xué)生姓名：

2025-06-28 08:10

基于jsp的網(wǎng)上選課系統(tǒng)本科畢業(yè)設(shè)計(jì)-資料下載頁

【摘要】本科畢業(yè)設(shè)計(jì)(論文)題目：基于JSP的網(wǎng)上選課系統(tǒng)　　　　　　　　　　　　　　　　　　　　　西安工業(yè)大學(xué)畢業(yè)設(shè)計(jì)（論文）任務(wù)書院（系）計(jì)算機(jī)科學(xué)與工程專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)班級110姓名徐朝平學(xué)號（論文）題目：基于JSP的網(wǎng)上選課系統(tǒng)

2025-07-27 04:34

基于plc的電梯控制系統(tǒng)本科畢業(yè)設(shè)計(jì)-資料下載頁

【摘要】本科畢業(yè)設(shè)計(jì)（論文）說明書基于PLC的電梯控制系統(tǒng)系別電子信息工程學(xué)院專業(yè)班級自動化學(xué)生姓名指導(dǎo)教師提交日期2022年05月27日華南理工大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明：所呈交的論文是本人在導(dǎo)師的指導(dǎo)下獨(dú)立進(jìn)行研究所取得的研究成

2025-06-27 19:03

基于jsp的網(wǎng)上選課系統(tǒng)本科畢業(yè)設(shè)計(jì)-資料下載頁

【摘要】本科畢業(yè)設(shè)計(jì)(論文)題目：基于JSP的網(wǎng)上選課系統(tǒng)西安工業(yè)大學(xué)畢業(yè)設(shè)計(jì)（論文）任務(wù)書院（系）計(jì)算機(jī)科學(xué)與工程專業(yè)計(jì)算機(jī)科學(xué)與技術(shù)班級110姓名徐朝平學(xué)號（論文）題目：

2025-07-01 16:33