正文內(nèi)容

漢語(yǔ)分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文(留存版)

2025-01-06 19:02上一頁(yè)面

下一頁(yè)面

　　

【正文】算法的分詞程序設(shè)計(jì) ................................................................. 24 六、結(jié)論 .......................................................................................................................... 35 參考文獻(xiàn) .................................................................................................................... 36 致謝 .............................................................................................................................. 37 1 漢語(yǔ)分詞技術(shù)初探一、引言在自然語(yǔ)言處理中，詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分。特此聲明畢業(yè)論文（設(shè)計(jì)）作者簽名：年月日 I 漢語(yǔ)分詞技術(shù)初探摘要所謂漢語(yǔ)分詞，就是將中文語(yǔ)句中的詞匯切分出來(lái)的過程。這就要求信息處理技術(shù)必須跟上信息發(fā)展的速度，在速度與性能方面具備更高的指標(biāo)。第二章中文分詞簡(jiǎn)介。而中文中，是以字為基本書寫單位，只有段與段、句語(yǔ)句之間有分隔符，而詞匯之間沒有分隔符。如 Google、 Baidu、 Yahoo 等檢索工具。）變聲 —— 如：好酒（ hǎojiuh225。當(dāng)然，就當(dāng)今的現(xiàn)狀來(lái)說，完全的通用性很難達(dá)到。 ④非詞語(yǔ)素問題：現(xiàn)代的書面漢語(yǔ)并非純粹的“現(xiàn)代漢語(yǔ)”，其中夾雜著不少文言成分，如“為民除害”、“以逸待勞”、“幫困濟(jì)窮”等等。（ 2）組合型歧義對(duì)于漢字串 AB, A, B, AB 皆可獨(dú)立成詞。三、基本中文分詞算法自從 1983 年，背景航空航天大學(xué)實(shí)現(xiàn)了我國(guó)第一個(gè)實(shí)用性的自動(dòng)分詞系統(tǒng)到現(xiàn)在，國(guó)內(nèi)外的研究者在中文分詞領(lǐng)域進(jìn)行了廣泛的研究，提出了許多有效的算法?？梢园褭C(jī)械分詞作為初步的處理手段，然后再通過進(jìn)一步工作提高結(jié)果的正確率?；ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。對(duì)于上面這個(gè)例子，我們采取組織兩個(gè)詞典的措施：一個(gè)為專業(yè)詞典，一個(gè)為普通詞典。那么，在實(shí)際的應(yīng)用中，我們就可以把三種分詞方法全部利用上，以求達(dá)到最好的效果。鍵樹的深度 h 則 19 取決于關(guān)鍵字中字符或數(shù)位的個(gè)數(shù)。（一）正向最大匹配算法在第三章中對(duì)現(xiàn)今的中文分詞算法進(jìn)行了介紹，其中介紹了基于字符串匹配的分詞算法，又叫機(jī)械分詞算法，機(jī)械分詞算法里又包含了一種正向最大匹配算法，正向最大匹配算法里又有兩個(gè)分支：增字匹配法和減字匹配法。假設(shè)詞典中最長(zhǎng)的詞有 i個(gè)漢字字符，先對(duì)輸入文本長(zhǎng)度進(jìn)行判定，若輸入文本長(zhǎng)度小于或等于 i，則只在最大詞長(zhǎng)范圍內(nèi)進(jìn)行處理就行了，若輸入文本長(zhǎng)度大于 i，則用輸入文本的當(dāng)前字符串中的前 i個(gè)字作為匹配字段，與字典進(jìn)行匹配，若字典中存在這樣一個(gè) i個(gè)字的詞，則匹配字段就被切分出來(lái)。圖 4 文件分詞對(duì)話框 27 圖 5 文件分詞成功提示對(duì)話框編輯選項(xiàng)中包含了一些可以對(duì)文檔進(jìn)行簡(jiǎn)單編輯操作的選項(xiàng)，如圖 6所示。 //修改查找區(qū)間下界 } return 1。 sb=bp。 j=1。 } else //如果查不到 { A： if(i==1){ //若還剩 2個(gè)字節(jié)，則判斷第一個(gè)字節(jié)，若大于 0，說明不是漢字，輸出一個(gè)字節(jié) buffer[2]=0。 strcat(scrres,buffer)。 if(c==EOF) break。由于個(gè)人能力有限，論文中難免出現(xiàn)一些錯(cuò)誤，忘大家給予指正。MuWFA5ux^Gjqv^$UE9wEwZQcUE% amp。 MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。849Gx^Gj qv^$UE9wEwZQcUE%amp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。ksv*3。gTXRm 6X4NGpP$vSTTamp。ksv*3t nGK8!z89Am YWpazadNuKNamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。六、結(jié)論本文對(duì)漢語(yǔ)分詞技術(shù)進(jìn)行了詳細(xì)的介紹，并對(duì)一些方面進(jìn)行了分析，最后嘗試實(shí)現(xiàn)正向最大匹配算法，最終設(shè)計(jì)出了采用正向最大匹配算法的程序，在測(cè)試中，對(duì)于此程序的分詞速度和分詞結(jié)果還是比較滿意的，但是此程序也存在著很大的缺陷，例如對(duì)于歧義字段和未登錄詞無(wú)法有效的識(shí)別和切分，分詞的效率和準(zhǔn)確性受到詞庫(kù)容量的約束等。 //所以要減去回車的次數(shù) while(1) { c=fgetc(fp1)。 break。 bp=bp+k。i=0。rp=0。 //查找成功 else if(strcmp(tt[mid],aidkey)0) high=mid1。 26 圖 3 程序主面板點(diǎn)擊“分詞”菜單中的“文件分詞”選項(xiàng)后會(huì)彈出如圖 4所示的對(duì)話框，點(diǎn)擊“輸入文件”后的“瀏覽”按鈕，可以選擇待分析的文件，點(diǎn)擊“輸出文件”后的“瀏覽”按鈕可以選擇分詞結(jié)果文件的保存位置。那么實(shí)例的整個(gè)匹配過程如下表 2 所示：表 2 實(shí)例的匹配步驟步驟操作的句子操作分詞結(jié)果 1 我們是中華人民共和國(guó)的公民只取 7個(gè)字 2 我們是中華人民詞典匹配失敗 3 我們是中華人詞典匹配失敗 ?? ?? ?? 我們詞典匹配成功我們是中華人民共和減詞并取前 7個(gè)字是中華人民共和詞典匹配失敗我們 ?? ?? ?? 是詞典匹配成功我們 \是中華人民共和國(guó) 減詞并取前 7個(gè)字中華人民共和國(guó) 詞典匹配成功我們 \是 \中華人民共和國(guó) ?? ?? ?? NULL 減詞我們 \是 \中華人民共和國(guó) \的 \公民 24 （二）采用正向最大算法的分詞程序設(shè)計(jì) 從表 2 可以很清晰的看出減字法工作的過程，我們現(xiàn)在開始用 C 語(yǔ)言實(shí)現(xiàn)這個(gè)算法。 ?? 。例如，若關(guān)鍵字是數(shù)值，則結(jié)點(diǎn)中只包含一個(gè)數(shù)位；若關(guān)鍵字是英文單詞，則結(jié)點(diǎn)中只包含一個(gè)英文字母。同樣，二元分詞就是將“ ABCDE” 切分成“ AB＼ BC＼ CD＼ DE”，在這個(gè)例子中，就是將一個(gè)詞拆成兩兩相連的詞。同理，假設(shè)檢索系統(tǒng)不對(duì)用戶輸入的詞進(jìn)行切分，如果用第二種方法分詞，當(dāng)一個(gè)用戶想要查找包含“搜索引擎”這個(gè)關(guān)鍵字的相關(guān)資源時(shí)，同樣也找不到結(jié)果。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度 [4]，可以對(duì)語(yǔ)料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì)，計(jì)算它們的互現(xiàn)信息。如果將上述各種方法相互組合，例如，可以將正向最大匹配算法和逆向最大匹配算法相結(jié)合來(lái)構(gòu)成雙向匹配法。在真實(shí)的文檔和語(yǔ)料庫(kù)中，專有名詞和術(shù)語(yǔ)占了很大比例，詞典在多數(shù)情況下很難包括這些詞。例：他說的 /確實(shí) /在理。依據(jù)這個(gè)標(biāo)準(zhǔn)，“開發(fā)中國(guó)第一個(gè)操作系統(tǒng)軟件者 ” 、“做出了巨大個(gè)人財(cái)產(chǎn)和精神犧牲者”、“克 9 服許多困難而最終獲得成功者”內(nèi)部也不能切開，這樣復(fù)雜的結(jié)構(gòu)在本質(zhì)上就與詞的定義相矛盾。為了做到足夠通用又不過分龐大，必須做到在詞表和處理功能、處理方式上能靈活組合裝卸，有充分可靠和方便的維護(hù)能力，有標(biāo)準(zhǔn)的開發(fā)接口。由于漢語(yǔ)中的多音字、一些發(fā)音習(xí)慣使得語(yǔ)音識(shí)別和合成過程中需要一個(gè)可靠地中文分詞作為基礎(chǔ)。這方面主要包括拼音輸入法、手寫識(shí)別、簡(jiǎn)繁轉(zhuǎn)換等。什么是中文分詞分詞就是利用計(jì)算機(jī)識(shí)別出文本中詞匯的過程。相對(duì)于研究?jī)?nèi)容，本文的結(jié)構(gòu)安排為：第一章引言。自 20世紀(jì) 80年代初，中文信息處理領(lǐng)域提出自動(dòng)分詞以來(lái)，相關(guān)方面的眾多專家學(xué)者、科研院所、業(yè)機(jī)構(gòu)為之付出了不懈的努力，取得了一些重要的進(jìn)展和一些實(shí)用性的成果，提出了許多中文分詞方法，有些成熟的技術(shù)已經(jīng)應(yīng)用于產(chǎn)品當(dāng)中。因本畢業(yè)論文（設(shè)計(jì)）引起的法律結(jié)果完全由本人承擔(dān)。中文和英文比起來(lái)，有其自身的特點(diǎn)，就是中文以字為基本書寫單位，句子和段落通過分界符來(lái)劃界，但是詞語(yǔ)之間沒有一個(gè)形式上分界符。 (2)對(duì)中文分詞技術(shù)進(jìn)行了簡(jiǎn)介，簡(jiǎn)單介紹了中文分詞、中文分詞的應(yīng)用、中文分詞系統(tǒng)的目標(biāo)、中文分詞的基本問題。此部分總結(jié)論文的所有工作，分析論文中存在的不足和一些未解決的問題。詞是漢語(yǔ)中最小的有意義的獨(dú)立單位，但是這最小的單位卻是沒有顯式分割的。究其根本原因就是因?yàn)橹形姆衷~技術(shù)的滯后和一些多義詞匯選義的把握。由此可見，分詞系統(tǒng)的準(zhǔn)確率應(yīng)當(dāng)達(dá)到 99． 9％以上，這樣才能基本滿足上層的使用要求，換句話說，即使提高千分之一的準(zhǔn)確度，對(duì)實(shí)際應(yīng)用都是非常有意義的。但是應(yīng)該將哪些詞組收入到核心詞典中去，雖然已經(jīng)提出各種收詞的條件，但是對(duì)每個(gè)詞組按照這些條件的進(jìn)行判斷卻難以操作，因此目前還沒有合理的可操作的理論和標(biāo)準(zhǔn)。事實(shí)上，許多中文信息處理系統(tǒng)，都是根據(jù) 10 自己服務(wù)目的制定適合自己需要的分詞系統(tǒng)。未登錄詞在文本處理過程中，會(huì)遇到很多詞典中未囊括的詞語(yǔ)。整句句子重復(fù)這些流程，直到句子全部分解成詞匯為止。它通常包括三個(gè)部分：分詞子系統(tǒng)、句法語(yǔ)義子系統(tǒng)、總控部分。混合分詞的原理就是“先用專業(yè)詞典進(jìn)行一遍分詞，再用普通詞典進(jìn)行一遍分詞”，我們用一個(gè)實(shí)例對(duì)為何要進(jìn)行兩次分詞進(jìn)行說明。那么即使兩次切分階段錯(cuò)誤，但最后相同錯(cuò)誤卻使匹配成功，使得仍然可以正確檢索到結(jié)果。根據(jù) Hash函數(shù)的定義可知， Hash 函數(shù)一般都無(wú)法避免沖突，所以通常還要有相應(yīng)的沖突處理方法，因此對(duì)于詞組中的剩余字串最快的只能通過二分查找來(lái)進(jìn)行查找。 20 首字 hash 表入口項(xiàng)個(gè)數(shù) 第一項(xiàng)指針詞索引表詞典正文指針詞典正文圖 1 基于整詞二分的分詞詞典結(jié)構(gòu) 基于 TRIE 索引樹的分詞詞典機(jī)制 TRIE 索引樹是一種以樹的多重鏈表形式表示的鍵樹。比如在“我們是中華人民共和國(guó)的公民”這句話中，我們可以清楚地判斷，如果在字典中進(jìn)行匹配，只要匹配成功就切分出來(lái)，那么這句話可能被切分成“我們＼是＼中華＼人民＼共和國(guó)＼的＼公民”，該結(jié)果中一共包含 7 個(gè)詞。屏幕分詞只允許打開字節(jié)數(shù)在 32768 以下的文章，結(jié)果直接顯示在屏幕上，而且可以對(duì)其進(jìn)行輸出保存；文件分詞的結(jié)果并不在屏幕上進(jìn)行顯示，而是直接將結(jié)果保存成一個(gè)文本文檔，文檔名默認(rèn)為源文件名后加 _pos。} 對(duì)詞典進(jìn)行比較時(shí)查找方法使用折半查找算法，也就是二分查找，此算法的代碼為： int binsearch(int Len,char *aidkey){ int low,high,mid。 //遇到不能識(shí)別字符則標(biāo)記為 1，否則為 0 int bp,sb,rp。 ch[0]=scrbuf[sb]。 rp+=k。 strcat(scrres,buffer)。 char c。先對(duì)屏幕分詞功能進(jìn)行測(cè)試，使用“文件”菜單下的“打開”選項(xiàng)，打開一個(gè)文本文檔，然后點(diǎn)擊“分詞”菜單中的“屏幕分詞”選項(xiàng)進(jìn)行分詞，結(jié)果如圖 7所示。 qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkum amp。 QA9wkxFyeQ^! djsXuyUP2kNXpRWXm Aamp。 qYpEh5pDx2zVkum amp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm6X4NGpP$vSTTamp。 qYpEh5pDx2zVkum amp。 qYpEh5pDx2zVkum amp。 qYpEh5pDx2zVkum amp。在此我還要特別感謝我的家人，是他們的無(wú)私的支持和鼓勵(lì)，使我在四年的學(xué)習(xí)和生活里能夠?qū)Ｐ闹轮荆粸閷W(xué)費(fèi)而煩惱，順利完成學(xué)業(yè)。 } 34 rewind(fp1)。 break。bp=bp+2。|39。i==0) { end=1。 //對(duì)字典進(jìn)行排序 return 1。 //定義兩個(gè)文件指針 long filelen。 (3) 從當(dāng)前指針 Pi 處起取 m 個(gè)漢字作為詞 Wi ，并進(jìn)行判斷： ○ 1 如果 Wi 是詞典中的詞，則在 Wi 后添加一個(gè)切分標(biāo)志，轉(zhuǎn)到 ○ 3 ； ○ 2 如果 Wi 不是詞典中的詞且長(zhǎng)度大于 1，則將 Wi 從右端去掉一個(gè)字轉(zhuǎn) 25 到 ○ 1 ；若 Wi 的長(zhǎng)度等于 1，則在 Wi 后添加一個(gè)切分標(biāo)志，將 Wi 作為單字詞添加到詞典中，然后轉(zhuǎn)到 ○ 3

點(diǎn)擊復(fù)制文檔內(nèi)容

醫(yī)療健康相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

漢語(yǔ)分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文(留存版)

證書管理系統(tǒng)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)設(shè)計(jì)畢業(yè)論文-資料下載頁(yè)

計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)本科畢業(yè)論文(設(shè)計(jì))總結(jié)-資料下載頁(yè)

計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)實(shí)習(xí)報(bào)告-資料下載頁(yè)

漢語(yǔ)分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文(存儲(chǔ)版)

漢語(yǔ)分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文-文庫(kù)吧在線文庫(kù)

漢語(yǔ)分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文(完整版)

漢語(yǔ)分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文(更新版)

漢語(yǔ)分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文(專業(yè)版)