freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

畢業(yè)設計-基于雙向匹配的中文分詞算法的研究與實現(xiàn)-wenkub

2022-12-13 14:09:21 本頁面
 

【正文】 ...............Ⅰ 1引言 .............................................................................................................................1 研究背景、目的及意義 ...........................................................................................1 中文分詞的現(xiàn)狀 ....................................................................................................1 本文的主要創(chuàng)新點 ................................................................................................3 課題任務和論文結構 ............................................................................................3 2 中文分詞簡介 ...........................................................................................................4 中文分詞問題描述 .................................................................................................4 中文分詞難點分析 ................................................................................................4 主要的分詞算法 ....................................................................................................6 3 雙 向匹配算法和子字典機制 ...................................................................................8 雙向匹配算法 .........................................................................................................8 基于詞典的分詞算法的詞典機制 ......................................................................13 小結 ......................................................................................................................16 4 中文分詞系統(tǒng)的設計與實現(xiàn) .................................................................................17 系統(tǒng)設計與原則 ..................................................................................................17 中文分詞系統(tǒng)的設計 ..........................................................................................17 中文分詞結果的實現(xiàn) ..........................................................................................19 5 測試 .........................................................................................................................24 測試環(huán)境和測試方案 ..........................................................................................24 中文分詞系統(tǒng)評價標準 ......................................................................................24 實驗結果和結論 ..................................................................................................24 結論 .............................................................................................................................27 致謝 .............................................................................................................................28 參考文獻 .....................................................................................................................29 石家莊經(jīng)濟學院本科生畢業(yè)論文 1 基于雙向匹配的中文分詞算法的研究與實現(xiàn) 1 引言 研究背景、目的及意義 隨著信息時代的到來,可供人們查閱和檢索的中文信息越來越多,如何在浩如煙海的中文信息世界里找到自己需要的資料成為一個越來越重要需要研 究的課題。 本文首先將已有的分詞算法進行了分析、總結和歸納,討論了中文識別一直難以很好解決的兩大問題:歧義識別和未登錄詞。接著在 基于詞典的基礎上將最大正向匹配和最大逆向匹配結合起來,得到了雙向匹配分詞算法,并且使用了自己提出的字典機制(子字典機制)實現(xiàn)了一個基于雙向匹配算法的中文分詞系統(tǒng)。在當今時代,要處理迅猛增長的信息,手工處理已經(jīng)變得不太現(xiàn)實。 中文分詞,顧名思義,就是借助計算機自動給中文斷句,使其能夠正確表達所要表達的意思。可以這樣說,只要是與中文理解相關的領域,都是需要用到中文分詞技術的。對于語言學方面的內(nèi)容本文不再贅述,本文主要講解計算機科學方面的內(nèi)容。該方法的思想事把整個中文句子,讀一遍,然后把字典里有的詞都單獨標示出來,當遇到復合詞的時候,(例如石家莊經(jīng)濟學院),就找到最長的詞匹配,遇到不認識的字符串就分割成單個文字。 其中基于詞典的分詞方法是當今的主流,可以說現(xiàn)在出現(xiàn)的分詞系統(tǒng),很多都是在基于詞典的基礎上再結合另外的一種或兩種方法而成的。采用的是采集的詞頻詞典,并輔以一定的專有名稱,人名,地名,數(shù)字年代等規(guī)則識別來達到基本分詞,經(jīng)小范圍測試大概準確率在 90% ~ 95% 之間,已能基本滿足一些小型搜索引擎、關鍵字提取等場合運用。 HTTPCWS HTTPCWS 是一款基于 HTTP 協(xié)議 的開源中文分詞系統(tǒng),目前僅支持 Linux 系統(tǒng)。 Chrome中文版就是使用的這個詞典進行中文分詞的。新版本的 則發(fā)展為面向 Java 的公用分詞組件,獨立于 Lucene 項目,同時提供了對 Lucene 的默認優(yōu)化實現(xiàn)。 采用基于 不限制個數(shù) 的詞典文件對文章進行有效切分,使能夠將對詞匯分類定義。 Complex 加了四個規(guī)則過慮。 本文認為,雖然我國對于中文分詞的研究有了一定的成績,但是我國對于中文分詞的研究還處于初級階段,雖然研究人員也提出了一些中文分詞技術的重要思想和方法,但是對于中文分詞的兩大基本問題(歧義識別問題和未登錄詞問題)還沒有很好的解決,所研發(fā)的中文分詞系統(tǒng)在不同領域所達到的分詞精度也不 盡相同。在經(jīng)典的分詞算法的基礎上進行了改進,希望通過良好的數(shù)據(jù)存儲與組織方式來實現(xiàn)一個比較快速,詞典比較全面,分詞結果比較精確的分詞系統(tǒng)。接下來第一章闡述 了中文分詞機制和中文分詞的研究背景、意義,和中文分詞的現(xiàn)狀。最后對本文進行了總結,對下一步的工作進行了展望。 中文分詞問題描述 在信息檢索、語音識別、機器翻譯等技術領域中通常需要理解中文的每一句話,也就是要理解每一句話里的每個詞,從而來進行相應的操作,但這需要將每一個詞從句子里單獨切分出來,這就是中文分詞技術。 第一個問題是歧義識別的問題,由于中文自身的特點,對于中文中的一句話不同的劃分可能有不同的意思,例如,“乒乓球拍賣完了”,這句話可以劃分成“乒乓球 /拍賣完 了”,也可以劃分成“乒乓球拍 /賣完了”。如果把“李軍虎”作為一個詞收錄到字典中去,全世界有那么多名字,而且時時都有新增的人名,如此一項巨大的 工程即使可以完成,問題仍舊存在。下面詳細講述這兩大基本問題并講述已有的解 決辦法。 例如:高興 /奮 和高 /興奮,其中 “ 興 ” 就是交集串。這類歧義是自然語言的二義性而出現(xiàn)的,此類歧義問題無論如何劃分都能夠說的通,只有結合上下文才能得到正確的劃分。對于這種歧義,只要字典足夠大就可以解決,但是我們不可能也沒有必要包含所有的人名地名,因此對詞匯進行分類,從而對于某一行業(yè)的詞用專業(yè)詞典來切分是一個很好的解決方法。其基本形式是解析單個單詞的歧義性,例如,假設 C1,C2,…. 代表一個字符串中的漢字。最可能的單詞就是最長的匹配。他們的最大匹配規(guī)則指出,最可能的分詞方案是三個單詞 , 再次,我們從一個字符串的頭部開始,尋找分詞的方案。我們接受這個詞,并向前重復這個過程從漢字 C3,直到字符串的最后一個詞被識別。 未登錄詞及其處理 方法 未登錄詞大致包含兩大類: 1)新涌現(xiàn)的通用詞或專業(yè)術語等; 2)專有名詞,如中國人名、外國譯名、地名、機構名(泛指機關、團體和其它企事業(yè)單位)等。 主要的分詞算法 從開始研究中文分詞算法到現(xiàn)在,雖然沒有出現(xiàn)非常完美的分詞算法,但是也還是出現(xiàn)了許多比較好的分詞算法,目前的分詞算法主要包含基于字典的分詞算法,基于統(tǒng)計的分詞算法和基于理解的分詞算法,下面簡要介 紹一下這些算法。根據(jù)與詞性標注過程是否相結合,又可以分為單純分詞方法和分詞與標注相結合的一體化方法。若成功,則該子串為詞,指針后移 MAX個漢字后繼續(xù)匹配,否則子串逐次減一進行匹配。基于詞典的分詞算法,對于在詞典中的詞分詞的精確度很高,但是不能很好的解決歧義問題,經(jīng)常和其它分詞算法結合在一起應用?;ガF(xiàn)信 石家莊經(jīng)濟學院本科生畢業(yè)論文 7 息體現(xiàn)了漢字之間結合關 系的緊密程度。在實際應用中一般是將其與基于詞典的分詞方法結合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優(yōu)點。這種分詞方法需要使用大量的語言知識和信息。 石家莊經(jīng)濟學院本科生畢業(yè)論文 8 3 雙向匹配算法和子字典機制 通過第二章對中文分詞的簡介,我們知道在現(xiàn)有中文分詞算法中,沒有一個是百分之百完美 的算法,本文主要是將基于字典的最大正向匹配算法和最大逆向匹配算法進行了結合,組成了雙向匹配算法,本章主要是對雙向匹配的算法思想和算法步驟流程進行了講解,此外,本章還對基于詞典的幾種詞典機制進行了講解,比較了其優(yōu)缺點,在此的基礎上提出了本文采用的詞典機制并且進行了詳細的講解。 MM法是每次從 string中取長度為 MAX的子串與 D中的詞進行匹配。 具體的算法流程如圖 31。 石家莊經(jīng)濟學院本科生畢業(yè)論文 11 圖 32最大逆向匹配算法
點擊復制文檔內(nèi)容
公司管理相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1