freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計(jì)-基于字典的中文分詞技術(shù)研究-免費(fèi)閱讀

  

【正文】 最后還要感謝支持我求學(xué)的家人,沒有他們也就沒有今天的一切。對(duì)歧義的處理還需要仔細(xì)的考慮,初步的方法就是考慮到引入統(tǒng)計(jì)的方法。從基本的輸入系統(tǒng),如智能語(yǔ)句輸入法、語(yǔ)音輸入、手寫輸入;到文字處理,如文本校對(duì)、簡(jiǎn)體/繁體轉(zhuǎn)換、拼音標(biāo)注;以及語(yǔ)音合成,文本檢索,文本分類,自然語(yǔ)言接口,自動(dòng)文摘等等,無(wú)處不滲透著分詞系統(tǒng)的應(yīng)用。 對(duì)一些方言詞匯和不常用詞匯及一些人名,地名也有收錄。起初并沒有采用 set 容器 而是放在文件內(nèi)搜索,由于訪問(wèn)硬盤和內(nèi)存的差別存在很大的區(qū)別,所以速度非常慢,幾乎不能忍受,修改后則比較令人滿意。語(yǔ)言學(xué)界雖然對(duì)于詞在概念上有一個(gè)十分清晰的定義,即“詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分” 。 圖 選擇文件路徑 選擇好文件路徑后點(diǎn)擊“分 詞”按扭,則原文與分詞結(jié)果顯示在相應(yīng)的文本框中,分詞過(guò)程幾乎不要等待。 得到如下的結(jié)果,結(jié)果中并不存在標(biāo)點(diǎn)符號(hào)。 for(。 武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 26 頁(yè) 處理與輸出 通過(guò)下列代碼定義了標(biāo)點(diǎn)符號(hào)排除集 ,此集合內(nèi)的標(biāo)點(diǎn)符號(hào)將不作為分詞結(jié)果顯示。 } } if(flag==0) { Mprev_pos=Mprev_pos+C_Length。 for(pos=prev_pos+10。 系統(tǒng)中使用 Processing()函數(shù)把文本分成 5 個(gè)為單位的單元, SCompare()則完成這個(gè)單元內(nèi)詞的查找工作。 在實(shí)現(xiàn)過(guò)程中主要調(diào)用 set 容器的方法 insert。 name 即是要打開的文件的名字。 武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 21 頁(yè) 在實(shí)現(xiàn)過(guò)程中, 直接 應(yīng)用了 set 容器中提供的標(biāo)準(zhǔn)操作 insert 方法。前面已經(jīng)分析過(guò)分詞算法的時(shí)間復(fù)雜度為 O( N*f( T)),這里設(shè)計(jì)算法要注意的就是減小 N 值。 武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 19 頁(yè) 如圖 所示 ,分詞前先對(duì)要分詞文本的路徑進(jìn)行選擇,然后再執(zhí)行分詞,就可以在“分詞結(jié)果”欄中顯示分詞結(jié)果。 5.未登錄詞的 處理 武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 18 頁(yè) 系統(tǒng)對(duì)未登錄詞的處理采用把未登錄的連續(xù)詞分成子詞,把未登錄的非連續(xù)詞分成單字。解決這類問(wèn)題通常需要從其他的方面入手。 目前組織分詞詞典主要有整詞、 TRIE、逐字二分等方法。 對(duì)于給定的文檔 D,其長(zhǎng)度為 N,給定詞典 Z,詞典的詞條數(shù)目為 T,在詞典中查找某一字串的復(fù)雜度為 f( T),則使用最大匹配算法分詞需要進(jìn)行 O( N)次的詞典查找,故其時(shí)間復(fù)雜度為 O( N*f( T))。不能運(yùn)行太長(zhǎng)的時(shí)間而使用戶產(chǎn)生等待的感覺,也不能錯(cuò)誤太多導(dǎo)致分詞的結(jié)果無(wú)法理解。 C++ STL 中標(biāo)準(zhǔn)關(guān)聯(lián)容器 set, multiset, map, multimap 內(nèi)部采用的就是一種非常高效的平衡檢索二叉樹:紅黑樹,也 稱 為 RB 樹 (RedBlack Tree)。分詞的結(jié)果儲(chǔ)存在 vectorstring DSDone 中。st) 對(duì) 5 個(gè)漢字單位的小串進(jìn)行分詞 void Processing () 對(duì)句子進(jìn)行分詞處理 CString outputing() bool LoadDict(stringamp。 在上述三個(gè)模塊實(shí)現(xiàn)過(guò)程中,針對(duì)主要要實(shí)現(xiàn)的功能,擬 選用的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)有 vector, set,擬 定義的關(guān)鍵 數(shù)據(jù) Mprev_pos,擬定義的主要 函數(shù)有:LoadFile, WCompare, SCompare, processing, output。對(duì)字典來(lái)說(shuō)條目有明顯的順序,而且可以根據(jù)首字母來(lái)索引相應(yīng)的條目, 在本設(shè)計(jì)中擬選用 STL 中 set 關(guān)聯(lián)容器來(lái)實(shí)現(xiàn)對(duì)詞典的存儲(chǔ),由于 set 高效的實(shí)現(xiàn)結(jié)構(gòu),其查找具有非常 好的性能。 武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 9頁(yè) 第二章 總體設(shè)計(jì) 功能分析 根據(jù)課題任務(wù),本系統(tǒng)需要實(shí)現(xiàn)的功能主要有: (1)組織詞典并有效存儲(chǔ);(2)設(shè)計(jì)核心分詞算法并實(shí)現(xiàn)中文自然語(yǔ)言的分詞; (3)設(shè)計(jì)系統(tǒng)界面以及用戶接口,為用戶提供相關(guān)信息反饋。力圖通過(guò)良好的數(shù)據(jù)存儲(chǔ)與組織方式來(lái)實(shí)現(xiàn)一個(gè)比較快速,詞典又比較全面的分詞系統(tǒng)。系統(tǒng)的分詞連同標(biāo)注的速度在 Pentium 133Hz/16MB 內(nèi)存機(jī)器上的達(dá)到了每秒 3 千詞以上,而在 Pentium II/64MB 內(nèi)存機(jī)器上速度高達(dá)每秒 5千詞。 哈工大統(tǒng)計(jì)分詞 系統(tǒng) 此系統(tǒng)能夠利用上下文識(shí)別大部分生詞,解決一部分切分歧義。通過(guò)實(shí)驗(yàn),該系統(tǒng)可以達(dá)到一個(gè)較高的切分精度,能夠處理未登錄詞比較密集的文本 ,切分速度約為 30 字 /秒。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分?;ガF(xiàn)武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 4頁(yè) 信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。圍繞這些基本問(wèn)題,十幾年來(lái)產(chǎn)生了各種漢語(yǔ)分詞方法 [5]。但對(duì)于中文文本來(lái)說(shuō),正如上段文字所列舉的種種原因,需要因循一個(gè)特定的規(guī)則對(duì)中文文本進(jìn)行切分或分詞。 自然語(yǔ)言理解的關(guān)鍵和技術(shù)核心是: 如何使計(jì)算機(jī)理解人類的自然語(yǔ)言,其中第一個(gè)要解決關(guān)鍵問(wèn)題就是分詞 (Segmentation),即把整句話分割成以字或詞為單位的語(yǔ)義單元 [1]。 關(guān)鍵詞: 中文信息處理;自動(dòng)分詞;字典匹配;正向最大匹配;切分歧義; 武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 II 頁(yè) Abstract Chinese segmentation is to segment one Chinese text into words, the basic semanteme to express plete meaning. Chinese segmentation is the base of voice identification, intelligent input and search engine. Most systems of Chinese word processing is also built up on the base of Chinese segmentation. This paper researches the techniques of Chinese segmentation, and designs one system for Chinese Automatic segmentation, which presents a better experimental testbed for future research on Chinese segmentation. First, the paper summarizes present development of the existing techniques and systems of Chinese segmentation and their advantages and disadvantages. Then, According to tasks to be fulfilled, the paper designs total theme of system, and specifies system functions. There are three modules in the system, dictionary loading, finding and match, postprocessing. Based on these work, the paper designs and realizes all these three modules in detail. Improved storage structure of the dictionary is present. The match speed is optimized by fast identifying 2word vocabulary considering the fact that there are many 2word vocabularies in Chinese. Procession of segmentation ambiguity and nonrecording words is analyzed. A proper algorithm of automatic segmentation is present and realized. At last, the paper evaluates performance of the segmentation system developed by the author from two aspects of speed and correctness. Future research directions is prospected. 武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 III 頁(yè) There are three improvements of this segmentation system, first, set container in STL is used to anize the dictionary and store it so as to enhance match efficiency。 本文初步研究了中文分詞技術(shù)并設(shè)計(jì)了一個(gè)漢語(yǔ)自動(dòng)分詞系統(tǒng),為進(jìn)一步研究提供了一個(gè)較好的試驗(yàn)平臺(tái)。最后對(duì)系統(tǒng)從分詞速度和分詞準(zhǔn)確性方面進(jìn)行了性能評(píng)價(jià),并展望了下一步的努力方向。 HMM。然而,中華五武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 2頁(yè) 千年文化源遠(yuǎn)流長(zhǎng),文字和語(yǔ)言歷經(jīng)長(zhǎng)久發(fā)展,形成了一套龐大而復(fù)雜的體系。分詞準(zhǔn)確性對(duì)搜索引擎來(lái)說(shuō)十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來(lái)說(shuō)也是武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書 第 3頁(yè) 不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁(yè),如果分詞耗用的時(shí)間過(guò)長(zhǎng),會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。 基于統(tǒng)計(jì)的分詞方法基本思想是: 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。由于分詞是一個(gè)智能決策過(guò)程,機(jī)械分詞方法無(wú)法解決分詞階段的兩大基本問(wèn)題:歧義切分問(wèn)題和未登錄詞識(shí)別問(wèn)題。其特點(diǎn)則是帶修剪的全切分 評(píng)價(jià)算法。二、歧義識(shí)別模塊,使用正向最小匹配和逆向最大匹配對(duì)文本進(jìn)行雙向掃描,如果兩種掃描結(jié)果相同,則認(rèn)為切分正確,否則就判別其為歧義字段,需要進(jìn)行歧義處理;三、歧義字段處理模塊,此模塊使用構(gòu)詞規(guī)則和詞頻統(tǒng)計(jì)信息來(lái)進(jìn)行排歧。據(jù)報(bào)道, NLPWin 的語(yǔ)法分析部分使用 的是一種雙向的 Chart Parsing,使用了語(yǔ)法規(guī)則并以概率模型作導(dǎo)向,并且將語(yǔ)法和分析器獨(dú)立開。但是,形成鮮明對(duì)比的是,日語(yǔ)同樣存在分詞問(wèn)題,但已經(jīng)有了圈內(nèi)人士廣泛認(rèn)同的日語(yǔ)分詞系統(tǒng)。第三章根據(jù)總體設(shè)計(jì),對(duì)系統(tǒng)進(jìn)行了武漢工程大學(xué)設(shè)計(jì)(論文)說(shuō)明書
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1