freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

本科畢業(yè)設(shè)計(jì)-基于字典的中文分詞技術(shù)研究-免費(fèi)閱讀

2025-01-04 21:00 上一頁面

下一頁面
  

【正文】 最后還要感謝支持我求學(xué)的家人,沒有他們也就沒有今天的一切。對歧義的處理還需要仔細(xì)的考慮,初步的方法就是考慮到引入統(tǒng)計(jì)的方法。從基本的輸入系統(tǒng),如智能語句輸入法、語音輸入、手寫輸入;到文字處理,如文本校對、簡體/繁體轉(zhuǎn)換、拼音標(biāo)注;以及語音合成,文本檢索,文本分類,自然語言接口,自動文摘等等,無處不滲透著分詞系統(tǒng)的應(yīng)用。 對一些方言詞匯和不常用詞匯及一些人名,地名也有收錄。起初并沒有采用 set 容器 而是放在文件內(nèi)搜索,由于訪問硬盤和內(nèi)存的差別存在很大的區(qū)別,所以速度非常慢,幾乎不能忍受,修改后則比較令人滿意。語言學(xué)界雖然對于詞在概念上有一個(gè)十分清晰的定義,即“詞是最小的能夠獨(dú)立活動的有意義的語言成分” 。 圖 選擇文件路徑 選擇好文件路徑后點(diǎn)擊“分 詞”按扭,則原文與分詞結(jié)果顯示在相應(yīng)的文本框中,分詞過程幾乎不要等待。 得到如下的結(jié)果,結(jié)果中并不存在標(biāo)點(diǎn)符號。 for(。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 26 頁 處理與輸出 通過下列代碼定義了標(biāo)點(diǎn)符號排除集 ,此集合內(nèi)的標(biāo)點(diǎn)符號將不作為分詞結(jié)果顯示。 } } if(flag==0) { Mprev_pos=Mprev_pos+C_Length。 for(pos=prev_pos+10。 系統(tǒng)中使用 Processing()函數(shù)把文本分成 5 個(gè)為單位的單元, SCompare()則完成這個(gè)單元內(nèi)詞的查找工作。 在實(shí)現(xiàn)過程中主要調(diào)用 set 容器的方法 insert。 name 即是要打開的文件的名字。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 21 頁 在實(shí)現(xiàn)過程中, 直接 應(yīng)用了 set 容器中提供的標(biāo)準(zhǔn)操作 insert 方法。前面已經(jīng)分析過分詞算法的時(shí)間復(fù)雜度為 O( N*f( T)),這里設(shè)計(jì)算法要注意的就是減小 N 值。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 19 頁 如圖 所示 ,分詞前先對要分詞文本的路徑進(jìn)行選擇,然后再執(zhí)行分詞,就可以在“分詞結(jié)果”欄中顯示分詞結(jié)果。 5.未登錄詞的 處理 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 18 頁 系統(tǒng)對未登錄詞的處理采用把未登錄的連續(xù)詞分成子詞,把未登錄的非連續(xù)詞分成單字。解決這類問題通常需要從其他的方面入手。 目前組織分詞詞典主要有整詞、 TRIE、逐字二分等方法。 對于給定的文檔 D,其長度為 N,給定詞典 Z,詞典的詞條數(shù)目為 T,在詞典中查找某一字串的復(fù)雜度為 f( T),則使用最大匹配算法分詞需要進(jìn)行 O( N)次的詞典查找,故其時(shí)間復(fù)雜度為 O( N*f( T))。不能運(yùn)行太長的時(shí)間而使用戶產(chǎn)生等待的感覺,也不能錯(cuò)誤太多導(dǎo)致分詞的結(jié)果無法理解。 C++ STL 中標(biāo)準(zhǔn)關(guān)聯(lián)容器 set, multiset, map, multimap 內(nèi)部采用的就是一種非常高效的平衡檢索二叉樹:紅黑樹,也 稱 為 RB 樹 (RedBlack Tree)。分詞的結(jié)果儲存在 vectorstring DSDone 中。st) 對 5 個(gè)漢字單位的小串進(jìn)行分詞 void Processing () 對句子進(jìn)行分詞處理 CString outputing() bool LoadDict(stringamp。 在上述三個(gè)模塊實(shí)現(xiàn)過程中,針對主要要實(shí)現(xiàn)的功能,擬 選用的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)有 vector, set,擬 定義的關(guān)鍵 數(shù)據(jù) Mprev_pos,擬定義的主要 函數(shù)有:LoadFile, WCompare, SCompare, processing, output。對字典來說條目有明顯的順序,而且可以根據(jù)首字母來索引相應(yīng)的條目, 在本設(shè)計(jì)中擬選用 STL 中 set 關(guān)聯(lián)容器來實(shí)現(xiàn)對詞典的存儲,由于 set 高效的實(shí)現(xiàn)結(jié)構(gòu),其查找具有非常 好的性能。 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 9頁 第二章 總體設(shè)計(jì) 功能分析 根據(jù)課題任務(wù),本系統(tǒng)需要實(shí)現(xiàn)的功能主要有: (1)組織詞典并有效存儲;(2)設(shè)計(jì)核心分詞算法并實(shí)現(xiàn)中文自然語言的分詞; (3)設(shè)計(jì)系統(tǒng)界面以及用戶接口,為用戶提供相關(guān)信息反饋。力圖通過良好的數(shù)據(jù)存儲與組織方式來實(shí)現(xiàn)一個(gè)比較快速,詞典又比較全面的分詞系統(tǒng)。系統(tǒng)的分詞連同標(biāo)注的速度在 Pentium 133Hz/16MB 內(nèi)存機(jī)器上的達(dá)到了每秒 3 千詞以上,而在 Pentium II/64MB 內(nèi)存機(jī)器上速度高達(dá)每秒 5千詞。 哈工大統(tǒng)計(jì)分詞 系統(tǒng) 此系統(tǒng)能夠利用上下文識別大部分生詞,解決一部分切分歧義。通過實(shí)驗(yàn),該系統(tǒng)可以達(dá)到一個(gè)較高的切分精度,能夠處理未登錄詞比較密集的文本 ,切分速度約為 30 字 /秒。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分?;ガF(xiàn)武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 4頁 信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。圍繞這些基本問題,十幾年來產(chǎn)生了各種漢語分詞方法 [5]。但對于中文文本來說,正如上段文字所列舉的種種原因,需要因循一個(gè)特定的規(guī)則對中文文本進(jìn)行切分或分詞。 自然語言理解的關(guān)鍵和技術(shù)核心是: 如何使計(jì)算機(jī)理解人類的自然語言,其中第一個(gè)要解決關(guān)鍵問題就是分詞 (Segmentation),即把整句話分割成以字或詞為單位的語義單元 [1]。 關(guān)鍵詞: 中文信息處理;自動分詞;字典匹配;正向最大匹配;切分歧義; 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 II 頁 Abstract Chinese segmentation is to segment one Chinese text into words, the basic semanteme to express plete meaning. Chinese segmentation is the base of voice identification, intelligent input and search engine. Most systems of Chinese word processing is also built up on the base of Chinese segmentation. This paper researches the techniques of Chinese segmentation, and designs one system for Chinese Automatic segmentation, which presents a better experimental testbed for future research on Chinese segmentation. First, the paper summarizes present development of the existing techniques and systems of Chinese segmentation and their advantages and disadvantages. Then, According to tasks to be fulfilled, the paper designs total theme of system, and specifies system functions. There are three modules in the system, dictionary loading, finding and match, postprocessing. Based on these work, the paper designs and realizes all these three modules in detail. Improved storage structure of the dictionary is present. The match speed is optimized by fast identifying 2word vocabulary considering the fact that there are many 2word vocabularies in Chinese. Procession of segmentation ambiguity and nonrecording words is analyzed. A proper algorithm of automatic segmentation is present and realized. At last, the paper evaluates performance of the segmentation system developed by the author from two aspects of speed and correctness. Future research directions is prospected. 武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 III 頁 There are three improvements of this segmentation system, first, set container in STL is used to anize the dictionary and store it so as to enhance match efficiency。 本文初步研究了中文分詞技術(shù)并設(shè)計(jì)了一個(gè)漢語自動分詞系統(tǒng),為進(jìn)一步研究提供了一個(gè)較好的試驗(yàn)平臺。最后對系統(tǒng)從分詞速度和分詞準(zhǔn)確性方面進(jìn)行了性能評價(jià),并展望了下一步的努力方向。 HMM。然而,中華五武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 2頁 千年文化源遠(yuǎn)流長,文字和語言歷經(jīng)長久發(fā)展,形成了一套龐大而復(fù)雜的體系。分詞準(zhǔn)確性對搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對于搜索引擎來說也是武漢工程大學(xué)設(shè)計(jì)(論文)說明書 第 3頁 不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁,如果分詞耗用的時(shí)間過長,會嚴(yán)重影響搜索引擎內(nèi)容更新的速度。 基于統(tǒng)計(jì)的分詞方法基本思想是: 從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。由于分詞是一個(gè)智能決策過程,機(jī)械分詞方法無法解決分詞階段的兩大基本問題:歧義切分問題和未登錄詞識別問題。其特點(diǎn)則是帶修剪的全切分 評價(jià)算法。二、歧義識別模塊,使用正向最小匹配和逆向最大匹配對文本進(jìn)行雙向掃描,如果兩種掃描結(jié)果相同,則認(rèn)為切分正確,否則就判別其為歧義字段,需要進(jìn)行歧義處理;三、歧義字段處理模塊,此模塊使用構(gòu)詞規(guī)則和詞頻統(tǒng)計(jì)信息來進(jìn)行排歧。據(jù)報(bào)道, NLPWin 的語法分析部分使用 的是一種雙向的 Chart Parsing,使用了語法規(guī)則并以概率模型作導(dǎo)向,并且將語法和分析器獨(dú)立開。但是,形成鮮明對比的是,日語同樣存在分詞問題,但已經(jīng)有了圈內(nèi)人士廣泛認(rèn)同的日語分詞系統(tǒng)。第三章根據(jù)總體設(shè)計(jì),對系統(tǒng)進(jìn)行了武漢工程大學(xué)設(shè)計(jì)(論文)說明書
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1