freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計(jì)-基于字典的中文分詞技術(shù)研究(完整版)

  

【正文】 力方向和目標(biāo)。實(shí)驗(yàn)結(jié)果表明,系統(tǒng)可以正確處理 85%的歧義切分字段,在 Pentium 200 PC上的速度約 600900 字 /秒。最后,此系統(tǒng)還包括一個(gè)未登錄詞識(shí)別模塊,實(shí)驗(yàn)過程中,對(duì)中文姓氏的自動(dòng)辨別達(dá)武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 6頁(yè) 到了 70%的準(zhǔn)確率。 清華 大學(xué) SEGTAG 系統(tǒng) 此系統(tǒng)著眼于將各種各類的信息進(jìn)行綜合,以便最大限度地利用這些信息提高切分精度。 因此,實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,然后利用各種其它的語(yǔ)言信息來進(jìn)一步提高切分的準(zhǔn)確率。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好 的反映成詞的可信度。因此對(duì)于搜 索引擎來說,分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。與西方語(yǔ)言文字處理所不同的是,計(jì)算機(jī)在對(duì)中文的處理上總是遇到很多的難題: (1)中文不像英文等語(yǔ)言有空格這個(gè)天然的分詞符號(hào); (2)中文的同意詞、同音字等非常之多,由于地域廣闊,各地的用詞習(xí)慣也有不同,不同地域的人輸入的文章和句子都存在著很大的不同; (3)大量虛詞的存在,增加大了智能識(shí)別和分詞的難度。 Segmentation Ambiguity 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 1頁(yè) 第一章 緒論 課題背景 用自然 語(yǔ)言與計(jì)算機(jī)進(jìn)行交流, 互通 信息,是 長(zhǎng)期以來 人們所追求的 計(jì)算機(jī)智能的一種高級(jí)表現(xiàn)形式,即自然語(yǔ)言理解 。 本系統(tǒng)主要在如下三方面有所改進(jìn): (1)用 STL 中的 set 容器來組織和存儲(chǔ)詞典 以提高匹配效率; (2)采用正向最大匹配算法并快速判斷二字詞以提高匹配速度; (3)有效減少了因標(biāo)點(diǎn)符號(hào)引起的切分歧義。 武漢工程大學(xué) 畢業(yè)設(shè)計(jì)(論文) ( 200 6 屆) 題目: 基于字典的中文分詞技術(shù)研究 學(xué)號(hào): 姓名: 專業(yè): 計(jì)算機(jī)科學(xué)與技術(shù) 指導(dǎo)教師: 武漢工程大學(xué)教務(wù)處 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 I 頁(yè) 目錄 摘 要 ......................................................... I Abstract ...................................................... II 第一章 緒論 ................................................. 1 課題背景 ............................................. 1 中文分詞技術(shù)的發(fā)展現(xiàn)狀 .............................. 2 課題任務(wù)與論文結(jié)構(gòu) ................................... 7 第二章 總體設(shè)計(jì) ............................................. 9 功能分析 ............................................. 9 功能框架 ............................................ 10 開發(fā)工具 ............................................ 13 關(guān)鍵技術(shù)與難點(diǎn)分析 .................................. 14 第三章 詳細(xì)設(shè)計(jì) ............................................ 17 模塊設(shè)計(jì) ............................................ 17 程序測(cè)試 ............................................ 29 第四章 結(jié)論與展望 .......................................... 32 全文總結(jié) ............................................ 32 系統(tǒng)評(píng)價(jià) ............................................ 33 努力的方向 .......................................... 34 致 謝 ......................................................... 36 參考文獻(xiàn) ...................................................... 37 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 I 頁(yè) 摘 要 中文分詞是指把中文文本切分成表達(dá)完整語(yǔ)義的基本要素 —— 詞,它是語(yǔ)音識(shí)別、智能輸入、搜索引擎等工作的基礎(chǔ),大多數(shù)中文文字處理系統(tǒng)也是建立在中文分詞的基礎(chǔ)之上。 系統(tǒng)詞典比較完善,準(zhǔn)確率較高,運(yùn)行速度較快。 這項(xiàng)工作的意義是如此重要與顯著: (1)人們可以用自己 的母語(yǔ)或 最習(xí)慣的語(yǔ)言 等自然語(yǔ)言 來 與計(jì)算機(jī)交互 ,而無需再花大量的時(shí)間和精力去學(xué)習(xí)各種計(jì)算機(jī)語(yǔ)言 ,因?yàn)樵谶@個(gè)學(xué)習(xí)過程中總是伴隨著一段令人沮喪的經(jīng)歷 ; (2)在人機(jī)交流過程中, 人們也可以 進(jìn)一步了解 自然 語(yǔ)言能力和智能的 深層次 機(jī)制 ,從而更清晰的認(rèn)識(shí)自己的母語(yǔ),并進(jìn)一步改進(jìn)人機(jī)交互的機(jī)制,這是一個(gè)相互促進(jìn)的良性循環(huán)。 在很多涉及到中文信息處理 的領(lǐng)域:中文輸入法,中文搜索引擎,中文語(yǔ)音智能識(shí)別中都需要面臨一個(gè)中文文檔分詞的問題,需要由分詞系統(tǒng)將中文文本分割成表義的基本單元 —— 詞。 漢語(yǔ)自動(dòng)分詞有三個(gè)主要問題: (1)切分歧義; (2)未登錄詞及其處理;(3)語(yǔ)言資源建設(shè)??梢詫?duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。 在諸多混合分詞方法中,引人注目的有基于理解的分詞方法,其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來處理歧義現(xiàn)象。系統(tǒng)使用有向圖來集成各種各樣的信息。系統(tǒng)對(duì)文本中的地名和領(lǐng)域?qū)S性~匯也進(jìn)行了一定的識(shí)別。 北大計(jì)算語(yǔ)言所分詞系統(tǒng) 本系統(tǒng)由北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所研制開發(fā),屬于分詞和詞類標(biāo)注相結(jié)合的分詞系統(tǒng)。 課題任務(wù)與論文 結(jié)構(gòu) 本文針對(duì)現(xiàn)有分詞系統(tǒng)的優(yōu)缺點(diǎn),及時(shí)準(zhǔn)確的掌握分詞系統(tǒng)的發(fā)展現(xiàn)狀和工作原理,并在分析分詞系統(tǒng)的基礎(chǔ)上自主實(shí)現(xiàn)一個(gè)初步的分詞系統(tǒng),通過實(shí)踐來發(fā)現(xiàn)問題,優(yōu)化系統(tǒng)。本課題的研究將促進(jìn)中文搜索引擎和漢語(yǔ)自動(dòng)分詞新的發(fā)展。 接下來的工作應(yīng)該是選定一個(gè)好的數(shù)據(jù)結(jié)構(gòu)來存儲(chǔ)字典,好的數(shù)據(jù)結(jié)構(gòu)縮短單次匹配的時(shí)間。 后期處理與輸出 模塊 把 切 分好的文本進(jìn)行 后 處理 , 如去除標(biāo)點(diǎn)符號(hào) 并考武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 11 頁(yè) 慮它們帶來的影響 ,存儲(chǔ) 切分好的文本,并回顯給用戶 ,為后續(xù)進(jìn)一步處理提供支持 。st) 對(duì)“詞”進(jìn)行匹配確認(rèn) int SCompare(stringamp。則處理分詞的結(jié)果。 另外一個(gè)重要的原因是, C++標(biāo)準(zhǔn)模板庫(kù) STL 中提供了大量高效的容器及算法,為了有效存儲(chǔ)和訪問詞典,并且利用 STL 中常用的容器和算法以簡(jiǎn)化編程,本系統(tǒng)優(yōu)先選用了 C++語(yǔ)言作為開發(fā)工具,整個(gè)系統(tǒng)在 VC++ 集成開發(fā)環(huán)境下完成。 分詞的效率和準(zhǔn)確度 控制分詞的效率和準(zhǔn)確度。 12~14)和詞典讀入內(nèi)存時(shí)間的情況下,對(duì)于典型的詞頻分布,減字匹配 ASM(d,,m)的復(fù)雜度約為 次,增字匹配 ASM(d,+,m)的復(fù)雜度約為 。 (3)前綴詞條查詢 給定漢字串 S,根據(jù)分詞詞典查找 S 中從某一指定位置 i 開始的所有的詞,這些詞均為漢字串 S 中從 i 起始的子串 Si 的前綴。 (2)未登錄詞的識(shí)別 對(duì)于中文中常出現(xiàn)的人名,地名,專業(yè)術(shù)語(yǔ),方言詞匯等詞典未登陸的詞匯,詞典匹配方法便無法正確分詞。 4.核心算法的設(shè)計(jì) 系統(tǒng)的核心算法詳細(xì)見查找匹配模塊,核心算法的功能就是便歷整個(gè)輸入串并分成子串進(jìn)行匹配,存儲(chǔ)匹配結(jié)果。下面三個(gè)按鈕依次用于裝載文件、執(zhí)行分詞、退出系統(tǒng)。 分詞算法的建立方面,主要考慮到遍歷輸入字符串的復(fù)雜度,并不是很難掌握,需要注意的是語(yǔ)句的結(jié)構(gòu)方面,盡量避免遞歸調(diào)用 [10],盡量減少不必要的循環(huán)次數(shù)。 詞典由 dict_set 代替,程序也將從 dict_set 中查找和匹配詞條。 如是,則不能繼續(xù)后續(xù)文件操作。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 22 頁(yè) } 以上的代碼作為分詞前的準(zhǔn)備 工作,詞典的裝載過程在程序一開始運(yùn)行時(shí)便需要執(zhí)行,文本的裝載過程在選擇了分詞文本后運(yùn)行。如果象通常的方法,在分詞前進(jìn)行預(yù)處理,去除了標(biāo)點(diǎn)符號(hào),那么分詞過程中就會(huì)分出“如果”這個(gè)詞,而按照本系統(tǒng)的算法,“,”出現(xiàn)在“如”和“果”中間,“如,果”這個(gè)字段一定不會(huì)出現(xiàn)在詞典中,那么它就可以被切分為“如 |, |果”。 int flag=0。 break。 用偽代碼說明整個(gè)分詞過程: 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 25 頁(yè) 從文本中拿出前 5 個(gè)字符; if(這 5 個(gè)字符是詞() ) 把這個(gè)詞壓入結(jié)果向量; 從這個(gè)詞后的一個(gè)字開始繼續(xù)分詞; else 去掉最后一個(gè)字; 這四個(gè)字是否是詞(); 分成兩個(gè)函數(shù)不利于用偽碼表示,但避免了遞歸,有利于程序的運(yùn)行效率。 vectorstring::iterator iter_end=()。比如,拉小提琴的技巧,從“會(huì)拉”到“大師”,其水平相差何止十萬(wàn)八千里!同一架小提琴,初學(xué)者拉起來會(huì)令人生厭,而大師演奏出來卻能使聽眾陶醉,癡迷。裝載成功后狀態(tài)欄會(huì)顯示“裝載成功! 圖 裝載成功 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 30 頁(yè) 點(diǎn)擊文件路徑旁的“?”按扭,彈出選擇文件路徑的對(duì)話框。 先談?wù)勗~典的設(shè)計(jì),在錄入了漢語(yǔ)詞典的詞匯和一些常用組合后,接下來面對(duì)的問題就是漢語(yǔ)的語(yǔ)素和單字詞,合成詞和短語(yǔ)之間沒有清晰的界限。搜索時(shí)效率比較高,沒有等待的現(xiàn)象。完善的詞典可以保證分詞的準(zhǔn)確率有一定的水平。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 34 頁(yè) 努力的方向 漢語(yǔ)分詞是中文信息處理系統(tǒng)的基礎(chǔ),有著極其廣泛的實(shí)際應(yīng)用。 對(duì)于本系統(tǒng)而言,有它的不足之處,以后的完善過程中,需要加入另一種逆向匹配的方法來對(duì)分詞的結(jié)果進(jìn)行檢查,當(dāng)檢查的結(jié)果和以前的結(jié)果產(chǎn)武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 35 頁(yè) 生了不符合的情況后,就可 以斷定這個(gè)地方產(chǎn)生了歧義。在編輯詞典時(shí)同寢室的 XXX, XXX, XX, XXX 等同學(xué)也很熱心的幫助我分詞和搜集資料,沒有他們?cè)~典是無法這么快的完成的。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 37 頁(yè) 參考文獻(xiàn) [1] GB/T1371592《信息處理用現(xiàn)代漢語(yǔ)分詞規(guī)范》 ,中國(guó)標(biāo)準(zhǔn)出版社, 1993。具體的實(shí)現(xiàn),需要對(duì)每個(gè)漢字用一種結(jié)構(gòu)體進(jìn)行
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1