freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計-基于字典的中文分詞技術(shù)研究(參考版)

2024-12-07 21:00本頁面
  

【正文】 清華大學(xué)出版社 .2021 [13]JONES, Russell. 1997. Chinese Names: The Traditions Surrounding the Use of Chinese Surnames and Personal Names. Pelanduk Publications, Selangor Darul Ehsan, Malaysia, 1997. 武漢工程大學(xué)設(shè)計(論文)說明書 第 38 頁 [14]KWOK, . 1997. Comparing representations of Chinese information retrieval. Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Philadelphia, Philadelphia, July 1997. [15]NIE, JianYun, Martin Brisebois, and Xiaobo Ren. 1996. On Chinese text retrieval. Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Z252。 武漢工程大學(xué)設(shè)計(論文)說明書 第 37 頁 參考文獻(xiàn) [1] GB/T1371592《信息處理用現(xiàn)代漢語分詞規(guī)范》 ,中國標(biāo)準(zhǔn)出版社, 1993。在編輯詞典時同寢室的 XXX, XXX, XX, XXX 等同學(xué)也很熱心的幫助我分詞和搜集資料,沒有他們詞典是無法這么快的完成的。同組的同學(xué)也給予了一些技術(shù)上的指導(dǎo)和幫助,以前同班的王海龍同學(xué)在后期的界面設(shè)計中給予了很多方向性的指導(dǎo)。總之,分詞這項(xiàng)非常具有必要性和迫切性的工作,需要并值得不斷的為之付出努力。具體的實(shí)現(xiàn),需要對每個漢字用一種結(jié)構(gòu)體進(jìn)行存儲,每個結(jié)構(gòu)體應(yīng)該包含這個漢字和其他的漢字的互現(xiàn)頻率,在碰到歧義時,優(yōu)先考慮互現(xiàn)信息度高的一個字段做為最優(yōu)的結(jié)果。 對于本系統(tǒng)而言,有它的不足之處,以后的完善過程中,需要加入另一種逆向匹配的方法來對分詞的結(jié)果進(jìn)行檢查,當(dāng)檢查的結(jié)果和以前的結(jié)果產(chǎn)武漢工程大學(xué)設(shè)計(論文)說明書 第 35 頁 生了不符合的情況后,就可 以斷定這個地方產(chǎn)生了歧義。 因此 ,漢語分詞系統(tǒng)作為中文信息處理系統(tǒng)的基石,有著極其廣泛的應(yīng)用前景。 從系統(tǒng)設(shè)計方面,應(yīng)考慮開發(fā)通用的多功能的漢語分詞系統(tǒng),如:支持多種不同應(yīng)用的多詞典結(jié)構(gòu)、自適應(yīng)不同應(yīng)用的切分結(jié)果、帶結(jié)構(gòu)化和屬性信息的切分結(jié)果等。但是對于分詞中所涉及的一些關(guān) 鍵問題, 目前 仍然沒有很好的解決方案。 武漢工程大學(xué)設(shè)計(論文)說明書 第 34 頁 努力的方向 漢語分詞是中文信息處理系統(tǒng)的基礎(chǔ),有著極其廣泛的實(shí)際應(yīng)用。 (3)匹配正確率較高。 由于把詞典加載到了內(nèi)存,而且使用了良好的詞典查找算法。全面的詞典建立在大量實(shí)驗(yàn)的基礎(chǔ)上,能應(yīng)對現(xiàn)實(shí)生活中多種多樣,情況復(fù)雜的應(yīng)用。完善的詞典可以保證分詞的準(zhǔn)確率有一定的水平。它具有如下幾個特點(diǎn): (1)詞典比較完善。其實(shí)對于真正的中文分詞系統(tǒng)來 說,由于它是為上級應(yīng)用服務(wù)的,所以沒有必要制作界面,但從研究和分析的角度來講,制作界面大大方便了使用和提高了分析工作的效率。對于基于詞典的分詞系統(tǒng)來說,詞典的查找比較普遍使用的就是二分法及 HASH,尤其對于線形的字典結(jié)構(gòu),好的查找方法可以大大的提高程序的運(yùn)行效率。搜索時效率比較高,沒有等待的現(xiàn)象。一些動詞和形容詞重疊結(jié)構(gòu),如“高高大大”、“甜甜蜜蜜”等;一些附加詞,如后綴,“親和性”、“熱 敏性”等;都可以作為分詞單位予以識別和切分。在建立分詞系統(tǒng)詞表時,仍然對于收詞的標(biāo)準(zhǔn)難以把握,例如:“雞蛋”是詞,那么“鴨蛋、鵪鶉蛋”是否也作為詞收入詞表?對于基于字典匹配的系統(tǒng)來說,如果不收錄這些詞,那就沒有辦法準(zhǔn)確的分詞。 但從一些詞典的編撰中 ,我們?nèi)匀豢煽闯鲆恍┥鲜鼋缦揠y以區(qū)分的問題。 先談?wù)勗~典的設(shè)計,在錄入了漢語詞典的詞匯和一些常用組合后,接下來面對的問題就是漢語的語素和單字詞,合成詞和短語之間沒有清晰的界限。 在 設(shè)計 過程中遇 到了很多的困難,設(shè)計遍歷算法時要考慮如何能夠在保證全部遍歷的情況下 , 還要使運(yùn)行速度盡量的快。 分詞的結(jié)果從圖中可以看到分詞的準(zhǔn)確度比較高,速度也很快,瞬間就可以完成分詞。 圖 分詞結(jié)果和原文 如果還需要分別的文本,只需要再選定路徑,點(diǎn)擊分詞即可。裝載成功后狀態(tài)欄會顯示“裝載成功! 圖 裝載成功 武漢工程大學(xué)設(shè)計(論文)說明書 第 30 頁 點(diǎn)擊文件路徑旁的“?”按扭,彈出選擇文件路徑的對話框。 分詞的結(jié)果: 人們 |熱愛 |暴力 |拳擊 |為你 |贏得 |了 |尊嚴(yán) |同時 |也 |剝奪 |了 |別人 |的 |人生 |又 |何嘗 |不是 |一場 |長達(dá) |七十年 |的 |拳賽 |充滿 |了 |躲閃 |與 |出拳 |如果 |把握 |機(jī)會 |改變 |命運(yùn) |只需 |一 |記 |重拳 |足以 |前提 |是 |你 |必須 |好好 |的 |保護(hù) |了 |自己 |你 |必須 |還|還 |活 |者 |其實(shí) |人生 |的 |路上 |哪有 |什么 |勝利者 |可言 |只有 |堅持 |與 |等待 |而已 | 這個例子同樣證明了系統(tǒng)的分詞能力可以勝 任分詞工作,速度也很快,不需要等待,瞬間就可以完成分詞。人生又何嘗不是一場長達(dá)七十年的拳賽,充滿了躲閃與出拳,如果把握機(jī)會,改變命運(yùn)只需一記重拳足以,前 提是你必須好好的保護(hù)了自己,你必須還還活者。 在 |傳統(tǒng) |產(chǎn)業(yè) |中 |比如 |一個 |人 |操作 |一部 |機(jī)床 |他 |所 |掌握 |的 |技術(shù) |是 |有限 |的 |幾乎不 |變 |的 |而他 |的 |創(chuàng)造性 |的 |發(fā)揮 |也 |基本上 |受到 |機(jī)床 |能力 |的 |局限 |但是 |搞 |藝術(shù) |就 |不同 |了 |比如 |拉 |小提琴 |的 |技巧 |從 |會 |拉 |到 |大師 |其 |水平 |相差 |何止 |十萬八千里 |同一 |架 |小提琴 |初學(xué)者 |拉起 |來 |會 |令人生厭 |而 |大師 |演奏 |出來 |卻能 |使 |聽眾 |陶醉 |癡迷 | 從結(jié)果可以看出可以基本正確的分割詞語。比如,拉小提琴的技巧,從“會拉”到“大師”,其水平相差何止十萬八千里!同一架小提琴,初學(xué)者拉起來會令人生厭,而大師演奏出來卻能使聽眾陶醉,癡迷。 } 對文本進(jìn)行分詞: 在傳統(tǒng)產(chǎn)業(yè)中,比如,一個人操作一部機(jī)床,他所掌握的技術(shù)是有限的,幾乎不變的,而他的創(chuàng)造性的發(fā)揮也基本上受到機(jī)床能力的局限。 武漢工程大學(xué)設(shè)計(論文)說明書 第 27 頁 result+=()。iter!=iter_end。 vectorstring::iterator iter_end=()。 CString Split::outputing() { CString result=。 copy(default_excluded_words,default_excluded_words+12,inserter(sig_set,()))。 static string default_excluded_words[12]={ , ,。 用偽代碼說明整個分詞過程: 武漢工程大學(xué)設(shè)計(論文)說明書 第 25 頁 從文本中拿出前 5 個字符; if(這 5 個字符是詞() ) 把這個詞壓入結(jié)果向量; 從這個詞后的一個字開始繼續(xù)分詞; else 去掉最后一個字; 這四個字是否是詞(); 分成兩個函數(shù)不利于用偽碼表示,但避免了遞歸,有利于程序的運(yùn)行效率。 while(()!=Mprev_pos) { SCompare((Mprev_pos,Mprev_pos+10))。 //將首字壓入輸出向量 return 0。 L_Word=(prev_pos,prev_pos+C_Length)。 break。 //將首詞壓入輸出向量 Mprev_pos=Mprev_pos+pos。 flag=WCompare(L_Word)。pos!=prev_pos。 int flag=0。 const int C_Length=2。其中關(guān)鍵的代碼: 算法流程圖 string::size_type pos=0,prev_pos=0。 比如一個句子是: 123456789,(其 中的數(shù)字代表漢字)。如果象通常的方法,在分詞前進(jìn)行預(yù)處理,去除了標(biāo)點(diǎn)符號,那么分詞過程中就會分出“如果”這個詞,而按照本系統(tǒng)的算法,“,”出現(xiàn)在“如”和“果”中間,“如,果”這個字段一定不會出現(xiàn)在詞典中,那么它就可以被切分為“如 |, |果”。這樣做的理由是可以避免一部分的歧義。游標(biāo)移動到這個單字的后面,繼續(xù)按上述規(guī)則進(jìn)行匹配。 查找匹配 此模塊的中心思想是把要分詞的中文文本分成五個字的單元(因?yàn)樵~典中定義的詞最大長度為五)。 武漢工程大學(xué)設(shè)計(論文)說明書 第 22 頁 } 以上的代碼作為分詞前的準(zhǔn)備 工作,詞典的裝載過程在程序一開始運(yùn)行時便需要執(zhí)行,文本的裝載過程在選擇了分詞文本后運(yùn)行。)) { (word)。 while(finword,(a,256,39。 char a[256]。 如是,則不能繼續(xù)后續(xù)文件操作。 if(!fin) { return false。file_name) { ifstream fin。 除了讀入詞典,這個模塊還有一個讀入需要進(jìn)行分詞的文本的功能,此功能的實(shí)現(xiàn)如下: name 即是要打開的文件的名字 。 詞典由 dict_set 代替,程序也將從 dict_set 中查找和匹配詞條。)) { (word)。 詞典裝載 此模塊實(shí)現(xiàn)將詞典裝載入 set 的功能 ,其 關(guān)鍵代碼如下: while(finword, (a,256,39。 詞典的存儲結(jié)構(gòu)及 搜索算法是很重要的一個環(huán)節(jié),處理的方式不同程序的運(yùn)行速度和準(zhǔn)確率都會有很大的不同。 分詞算法的建立方面,主要考慮到遍歷輸入字符串的復(fù)雜度,并不是很難掌握,需要注意的是語句的結(jié)構(gòu)方面,盡量避免遞歸調(diào)用 [10],盡量減少不必要的循環(huán)次數(shù)。大量的實(shí)驗(yàn)性分詞和添加過程,是一個完整詞典形成的必要因素。做完這些工作以后, 本文 意識到一個問題,分詞系統(tǒng)不應(yīng)當(dāng)只收錄傳統(tǒng)意義上的詞,而且應(yīng)當(dāng)能夠收錄常用的復(fù)合詞匯,比如“人民代表”,“領(lǐng)導(dǎo)接待日”等。 關(guān)鍵 算法 系統(tǒng) 要實(shí)現(xiàn)的算法主要 分為三大任務(wù),一是詞典的建立,二是分詞算法的設(shè)計,三是詞典的存儲結(jié)構(gòu)。下面三個按鈕依次用于裝載文件、執(zhí)行分詞、退出系統(tǒng)。狀態(tài)框中顯示每
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1