freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設(shè)計(jì)-基于雙向匹配的中文分詞算法的研究與實(shí)現(xiàn)(專業(yè)版)

  

【正文】 } return result。 }else{//找不到該字符串最大匹配長(zhǎng)度減一 minReadLen。//返回 List } ( 2) 逆向最大匹配的函數(shù)名稱是 segmentChnRToL,該函數(shù)接受一個(gè)參數(shù) String source,即要分詞的源文件,返回結(jié)果是一個(gè)分好詞的鏈表。//獲得字典數(shù)據(jù)庫(kù)內(nèi)單詞長(zhǎng)度的個(gè)數(shù), 即字典數(shù)據(jù)庫(kù)內(nèi)有幾個(gè)子字典 int start = 0。本系統(tǒng)在吸收了最大正向匹配和最大正向匹配的基礎(chǔ)上,采用了雙向匹配的分詞策略,該算法的具體思想上是首先分別用最大正向匹配和最大逆向匹配進(jìn)行分詞,然后根據(jù)分詞的結(jié)果來進(jìn)行判斷采取用何種分詞結(jié)果。由于中文本身語(yǔ)言的復(fù)雜性,對(duì)于中文分詞本身所遇到的切分歧義問題、未登錄詞做到?jīng)]有錯(cuò)位完全實(shí)現(xiàn)幾乎是不可能的。這種算 法 的數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單占用空間小構(gòu)建及維護(hù)也簡(jiǎn)單易行但由于采用全詞匹配的查詢過程效率較為較低。 石家莊經(jīng)濟(jì)學(xué)院本科生畢業(yè)論文 9 否 是 否 否 獲得預(yù)處理的待分句子 ( STR)初始化 Index=0 開始 獲得子字典最大長(zhǎng)度并將其設(shè)為最大 長(zhǎng)度 MaxLength 取 STR 為字符串 SubStr 將 SubStr 在字典庫(kù)中按最大長(zhǎng)度搜索 比較 STR 長(zhǎng)度是否大于 MaxLength Index 位取 MaxLength 長(zhǎng)字符串( SubStr) 是否搜索成功 切分位置加 SubStr 是否 SubStr 大于 1 切分標(biāo)志加 1(Index+1) 刪除 SubStr 最后一個(gè)字 將 str 在標(biāo)志位 Index 切分,保存分詞結(jié)果到 list 判斷 Index 是否小于 STR 的長(zhǎng)度 返回結(jié)果集 List 結(jié)束 是 是 圖 31最大正向匹配算法 是 否 石家莊經(jīng)濟(jì)學(xué)院本科生畢業(yè)論文 10 最大逆向匹配算法( RMM) 最大逆向匹配算法的算法思想是:最大逆向匹配的算法跟最大正向匹配類似,不同的是掃描的方向,它是從右往左取子串進(jìn)行匹配。 基于理解的分詞算法 該方法又稱基于人工智能的分詞方法,其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來處理歧義現(xiàn)象。常用的方法如下 [3]: 正向最大匹配法 (Maximum Matching Method)通常簡(jiǎn)稱為 MM法。如果存在有歧義的分詞(例如, _C1_是一個(gè)單詞,但是 _C1C2_也是一個(gè)單詞,等等),然后我們向前再看兩個(gè)單詞去尋找所有可能的以 _C1_ 或者 _C1C2_ 開頭的三詞 chunks。 2) 第二類歧義問題是由機(jī)器自動(dòng)分詞出現(xiàn)的,這類分詞只有一種正確的分詞方法,但因?yàn)榉衷~采用的分詞算法不同而出現(xiàn)不同的分詞結(jié)果,例如 對(duì)于這句話 “ 這時(shí)候最熱鬧的 ” ,如果采用最大正向匹配的算法就是 “ 這時(shí)候 /最熱 /鬧 /的 ” ,而如果采用最大逆向匹 配就是 “ 這時(shí)候 /最 /熱鬧 /的 ” 。雖然到現(xiàn)在為止沒有出線一個(gè)百分百的消除歧義的算法,但是 已經(jīng)出現(xiàn) 了許多比較好的,且具有實(shí)際應(yīng)用價(jià)值的算法。本文對(duì)于深入的研究中文分詞,打下了良好的基礎(chǔ),試圖為今后的的研究工作提出一個(gè)比較系統(tǒng)的研究方案。Paoding Paoding(庖丁解牛分詞)基于 Java 的開源中文分詞組件,提供 lucene 和 solr 接口,具有極 高效率 和 高擴(kuò)展性 。基于詞典的分詞方法又稱機(jī)械分詞方法,主要包括最大正向匹配,最大逆向匹配,最少切分法等。中文不同于西文,沒有空格這個(gè) 分隔符,同時(shí)在中文中充滿了大量的同義詞,相近詞,如何給中文斷句是個(gè)非常復(fù)雜的問題,即使是手工操作也會(huì)出現(xiàn)問題。 twoway match。這兩類問題解決不好,那么中文分詞就無法解決,本文系統(tǒng)的講解了這兩類問題,以及遇到的困難等。 HTTPCWS 將取代之前的 PHPCWS 中文分詞擴(kuò)展 CCCEDICT 一個(gè)中文詞典開源項(xiàng)目,提供一份以漢語(yǔ)拼音為中文輔助的漢英辭典,截至 2021 年 2 月8 日,已收錄 82712 個(gè)單詞。 mmseg4j 已經(jīng)實(shí)現(xiàn)了這兩種分詞算法 盤古分詞 石家莊經(jīng)濟(jì)學(xué)院本科生畢業(yè)論文 3 盤古分詞是一個(gè)基于 . 平臺(tái)的開源中文分詞組件,提供 lucene(. 版本 ) 和HubbleDotNet的接口 高效: Core Duo GHz 下單線程 分詞速 度為 390K 字符每秒 準(zhǔn)確:盤古分詞采用字典和統(tǒng)計(jì)結(jié)合的分詞算法,分詞準(zhǔn)確率較高。一提到中文分詞,就會(huì)有兩類人對(duì)此產(chǎn)生質(zhì)疑,一類人是外行,對(duì)此技術(shù)不是很了解,認(rèn)為中文分詞很簡(jiǎn)單,另一種來自圈內(nèi)人,也可以講是行家,雖然中文分詞已經(jīng)研究了將近三十年,可是到現(xiàn)在為止并沒有退出一個(gè)很好的中文分詞系統(tǒng),中文分詞這個(gè)難題到底還能不能解決。 交集型歧義是這樣一種歧義: 漢字串 AJB 被稱作交集型切分歧義,如果滿足 AJ、 JB 同時(shí)為詞( A、 J、 B 分別為漢字串)。我們首先搜索詞典,看 _C1_是否為一個(gè)單個(gè)漢字組成的單詞,然后搜索 _C1C2_來看是否為一個(gè)兩個(gè)漢字組成的單詞,以下類推。 未登錄詞的處理是中文分詞的一大難題,對(duì)于歧義識(shí)別問題中出現(xiàn)的第一種, 我們只有擁有龐大的上下文資料才能處理,而對(duì)于第二種歧義問題,目前已經(jīng)出現(xiàn)了許多消除歧義的算法,第三種歧義問題實(shí)際上就是未登錄詞導(dǎo)致的歧義,對(duì)于現(xiàn)有的詞典來說,所有不在詞典里的詞語(yǔ)可以說都是未登錄詞。因此字與字相鄰出現(xiàn)的概率或頻率能較好反映成詞的可信度。首先,本小節(jié)先介紹最大正向匹配和最大逆向匹配,在兩者的基礎(chǔ)上介紹雙向匹 配算法。因?yàn)閷?shí)際中文分詞系統(tǒng)需要在詞典中反復(fù)查找所需詞匯,所以如何設(shè)計(jì)出高效、易于維護(hù)的詞典存儲(chǔ),對(duì)整個(gè)分詞系統(tǒng)的速度有很大影響。本章還講解了基于詞典的分詞算法的分詞機(jī)制,由于基于詞典的分詞機(jī)制是建立在“查字典”的基礎(chǔ)上,因此,字典在內(nèi)存中 如何存儲(chǔ),這在很大程度上影響了分詞的效率,本文提出的子字典機(jī)制,將字?jǐn)?shù)相同的詞放在一起存儲(chǔ),能夠提高分詞的效率。這樣我們?cè)谶M(jìn)行匹配的時(shí)候,對(duì)于不同長(zhǎng)度的詞可以直接定位到以該詞的首字為索引的相同長(zhǎng)度的子字 典,提高了查詢速度。無論是 Dictionary還是SubDictionary當(dāng)中與詞典的相關(guān)操作(查詢、插入等)與鏈表的查詢、刪除、插入等一致,本文不在贅述,有感興趣的讀者可查閱與鏈表相關(guān)的資料。 } temp = (start, start + minReadLen)。//說明沒有字典 minReadLen = wordLen[0]。 } ( 3) 在實(shí)現(xiàn)了最大正向匹配和最大逆向匹配后我們來實(shí)現(xiàn)雙向匹配算法:雙向匹配算法的思想上文已經(jīng)提到,具體代碼實(shí)現(xiàn)如下 : private String operate(TextBlock block){ String result = 。分詞的精度的計(jì)算機(jī)公式是。 (temp)。 int minReadLen = 0。//如果子字典的最大長(zhǎng)度大于要分詞的長(zhǎng)度,則取剩余的要分詞的字符串為最大的長(zhǎng)度 } while(minReadLen 1){//用二分法查找與當(dāng)前最大匹配長(zhǎng)度相同的子字典 if (!(wordLen, minReadLen)){ minReadLen。 ( 1) 在類 Dictionary中有一個(gè)屬性是詞典的名稱,對(duì)于中文分詞系統(tǒng)來說,我們不能加載任何詞典,這不可能也不現(xiàn)實(shí),我們只是加載經(jīng)過用戶自己同意加載的詞典,這類詞典都有特殊的名稱,這就是類 Dictionary內(nèi)的屬性。其結(jié)構(gòu)如圖 41 所示。其數(shù)據(jù)結(jié)構(gòu)如 36 圖。雙向匹配的算法流程如圖 33。 石家莊經(jīng)濟(jì)學(xué)院本科生畢業(yè)論文 8 3 雙向匹配算法和子字典機(jī)制 通過第二章對(duì)中文分詞的簡(jiǎn)介,我們知道在現(xiàn)有中文分詞算法中,沒有一個(gè)是百分之百完美 的算法,本文主要是將基于字典的最大正向匹配算法和最大逆向匹配算法進(jìn)行了結(jié)合,組成了雙向匹配算法,本章主要是對(duì)雙向匹配的算法思想和算法步驟流程進(jìn)行了講解,此外,本章還對(duì)基于詞典的幾種詞典機(jī)制進(jìn)行了講解,比較了其優(yōu)缺點(diǎn),在此的基礎(chǔ)上提出了本文采用的詞典機(jī)制并且進(jìn)行了詳細(xì)的講解。基于詞典的分詞算法,對(duì)于在詞典中的詞分詞的精確度很高,但是不能很好的解決歧義問題,經(jīng)常和其它分詞算法結(jié)合在一起應(yīng)用。 未登錄詞及其處理 方法 未登錄詞大致包含兩大類: 1)新涌現(xiàn)的通用詞或?qū)I(yè)術(shù)語(yǔ)等; 2)專有名詞,如中國(guó)人名、外國(guó)譯名、地名、機(jī)構(gòu)名(泛指機(jī)關(guān)、團(tuán)體和其它企事業(yè)單位)等。其基本形式是解析單個(gè)單詞的歧義性,例如,假設(shè) C1,C2,…. 代表一個(gè)字符串中的漢字。下面詳細(xì)講述這兩大基本問題并講述已有的解 決辦法。最后對(duì)本文進(jìn)行了總結(jié),對(duì)下一步的工作進(jìn)行了展望。 Complex 加了四個(gè)規(guī)則過慮。 HTTPCWS HTTPCWS 是一款基于 HTTP 協(xié)議 的開源中文分詞系統(tǒng),目前僅支持 Linux 系統(tǒng)。對(duì)于語(yǔ)言學(xué)方面的內(nèi)容本文不再贅述,本文主要講解計(jì)算機(jī)科學(xué)方面的內(nèi)容。接著在 基于詞典的基礎(chǔ)上將最大正向匹配和最大逆向匹配結(jié)合起來,得到了雙向匹配分詞算法,并且使用了自己提出的字典機(jī)制(子字典機(jī)制)實(shí)現(xiàn)了一個(gè)基于雙向匹配算法的中文分詞系統(tǒng)。對(duì)于中文分詞的研究對(duì)于這些方面的發(fā)展有著至關(guān)重要的作用。文 [2]對(duì)現(xiàn)在的各個(gè) 石家莊經(jīng)濟(jì)學(xué)院本科生畢業(yè)論文 2 分詞系統(tǒng)及其特點(diǎn)做了闡述如下: SCWS Hightman 開發(fā)的一套基于詞頻詞典的機(jī)械中文分詞引擎,它能將一整段的漢字基本正確的切分成詞。 高效率:在 PIII 1G 內(nèi)存?zhèn)€人機(jī)器上, 1 秒 可準(zhǔn)確分詞 100 萬 漢字。本文首先從目前語(yǔ)言信息處理的瓶頸入手,提出了自然語(yǔ)言信息處理的關(guān)鍵技術(shù) —— 中文分詞。最典型的是人名,例如在句子“李軍虎去上?!敝校丝梢院苋菀桌斫狻袄钴娀ⅰ弊鳛橐粋€(gè)人名是個(gè)詞,但計(jì)算機(jī)識(shí)別就困難了。 3) 第三類問題就是由于詞典的大小,對(duì)于專業(yè)名詞,人名地名等不包含出現(xiàn)的歧義,例如 “ 張芳明是個(gè)好學(xué)生 ” ,在這里 “ 張芳明 ” 是個(gè)人名,是一個(gè)詞,但是如果在分詞詞典里不包含 “ 張芳明 ” 這個(gè)人名,那么就會(huì)出現(xiàn) “ 張 /芳 /明 ” 這樣錯(cuò)誤的切分結(jié)果。第一個(gè)單詞,在第三個(gè) chunk 中的 _C1C2_,會(huì)被認(rèn)為是正確的。 MM法是每次從 string中取長(zhǎng)度為MAX的子串與 D中的詞進(jìn)行匹配。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語(yǔ)義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過程。 具體的算法流程如圖 32。 TRIE索引樹的優(yōu)點(diǎn)是在對(duì)被切分語(yǔ)句的一次掃描過程中,不需預(yù)知待查詢?cè)~的長(zhǎng)度,沿著樹鏈逐字匹配即可;缺點(diǎn)是它的構(gòu)造和維護(hù)比較復(fù)雜,而且都是單詞樹枝 (一條樹 枝僅代表— 個(gè)詞 ),浪費(fèi)了一定的空間。 2)高效性:高效性是反映中文分詞系統(tǒng)性能的一項(xiàng)重要指標(biāo)。 4)分詞結(jié)果保存模塊: 本功能模塊的主要功能是允許用戶將分詞結(jié)果以文 本形式保存起來,此模塊的功能相對(duì)簡(jiǎn)單,不涉及什么算法,只是為用戶提供了保存結(jié)果的一個(gè)接口,在該模塊用戶可以自己定義要保存的文件的名稱和保存路徑。//獲得分詞的單詞長(zhǎng)度 int minReadLen = 0。 ListString list = new ArrayListString() 。//取得反向匹配的字符串 (temp)。 在實(shí)現(xiàn)了核心算法以后,為了使用戶更舒適、更方便、更人性化,我們?cè)O(shè)計(jì)了 UI圖形界面,如圖 42所示: 圖 42 中文分詞系統(tǒng)界面 UI 圖形界面說明:① 用戶可以選擇載入字典,也可以使用現(xiàn)有的字典; ②、③ 用戶選擇輸入方式,當(dāng)用戶點(diǎn)擊手動(dòng)輸入時(shí),③區(qū)域變?yōu)榭? 編輯的,用戶可以在里面輸入自想要分詞的內(nèi)容,當(dāng)點(diǎn)擊文 件輸入時(shí),會(huì)彈出對(duì)話框,當(dāng)用戶選擇文件點(diǎn)擊確認(rèn)后,會(huì) 將文本打開顯示在③區(qū)域當(dāng)中; ④、⑤ 當(dāng)用戶點(diǎn)擊分詞后,會(huì)將顯示在③區(qū)域內(nèi)容的文字按雙向
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1