正文內容

漢語分詞技術初探計算機科學與技術畢業(yè)論文(參考版)

2024-11-11 19:02本頁面

　　

【正文】 ksv*3。qYpEh5pDx2zVkumamp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。qYpEh5pDx2zVkumamp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。 qYpEh5pDx2zVkumamp。 UE9aQGn8xp$Ramp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。gTXRm 6X4NGpP$vSTTamp。MuWFA5ux^Gj qv^$UE9wEwZQcUE% amp。gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YW Rr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。 gTXRm 6X4NGpP$vSTTamp。849Gx^Gj qv^$UE9wEwZQcUE%amp。ksv*3t nGK8!z89Am YWpazadNuKNamp。qYpEh5pDx2zVkumamp。 UE9aQGn8xp$Ramp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。 gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 gTXRm 6X4NGpP$vSTTamp。 MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。 gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。gTXRm 6X4NGpP$vSTTamp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。 gTXRm 6X4NGpP$vSTTamp。MuWFA5ux^Gjqv^$UE9wEwZQcUE% amp。 gTXRm 6X4NGpP$vSTTamp。 MuWFA5uxY7JnD6YWRrWwc^vR9CpbK! zn% Mz849Gx^Gjqv^$UE9wEwZQcUE% amp。 gTXRm6X4NGpP$vSTTamp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。內部資料，請勿外傳！ XuyUP2kNXpRWXm Aamp。借此機會，我向老師表達我最深切的感謝和最誠摯的敬意。在這里我首先要深深地感謝我的指導老師，在這一學期的學習和生活中，老師給予我細致的關懷和悉心的指導，老師為人之友善、知識之淵博、治學之嚴謹，使我受益匪淺，并為我努力學習的榜樣。由于個人能力有限，論文中難免出現(xiàn)一些錯誤，忘大家給予指正。六、結論本文對漢語分詞技術進行了詳細的介紹，并對一些方面進行了分析，最后嘗試實現(xiàn)正向最大匹配算法，最終設計出了采用正向最大匹配算法的程序，在測試中，對于此程序的分詞速度和分詞結果還是比較滿意的，但是此程序也存在著很大的缺陷，例如對于歧義字段和未登錄詞無法有效的識別和切分，分詞的效率和準確性受到詞庫容量的約束等。圖 7 屏幕分詞結果 35 同樣，對文件分詞功能進行測試，輸入文件名為“文件分詞程序測試”輸出文件名自動命名為“文件分詞程序測試 _pos”，所得結果為圖 8所示。分詞結束后可以點擊“文件”菜單下的“保存”按鈕對結果進行保存。 } 到此，程序的分詞主程序部分就介紹完了，程序主面板的設計在此就不一一列出了，下邊對程序進行分詞測試。 //將文件指針定位在文件開始處 j=fread(source,1,filelen,fp1)。 { MessageBox(hWnd,內存分配失?。?,錯誤 ,MB_OK)。 source = (char *)malloc( filelen*sizeof(char) )。 if(c==EOF) break。 //所以要減去回車的次數(shù) while(1) { c=fgetc(fp1)。 rewind(fp1)。 i = fseek(fp1,0,SEEK_END)。 } 33 以上的是屏幕分詞的主程序部分，文件分詞主程序部分與其基本相同，現(xiàn)只列出文件分詞初始化函數(shù)： int preposcutword() { int i,j。 } buffer[i]=0。mask=1。 scrres[rp]=0。 strcat(scrres,buffer)。 break。 bp=bp+1。 rp+=1。} else{ buffer[1]=0。 mask=1。 scrres[rp]=0。并將 bp指針往前移相應位置 32 if(buffer[0]0) {strcat(scrres,buffer)。 } else //如果查不到 { A： if(i==1){ //若還剩 2個字節(jié)，則判斷第一個字節(jié)，若大于 0，說明不是漢字，輸出一個字節(jié) buffer[2]=0。 bp=bp+k。 rp++。 scrres[rp]=39。 } strcat(scrres,buffer)。 rp++。 scrres[rp]=39。 j=binsearch(sum,buffer)。 j=1。i=0。 } if(end==1)break。 strcat(buffer,ch)。 ch[1]=0。 break。amp。i36。 sb=bp。rp=0。 strcpy(scrres,)。 //bp為字符串已識別指針， sb為臨時用指針 ,sp為結果數(shù)組指針 char ch[2],buffer[37]。 //為 1標示已經掃描完待分析文件，反之為 0 int mask=0。 } 屏幕分詞函數(shù)： void scrposcutword(){ int i,j,k。 //字典來自網(wǎng)絡，文件名為 wordlist qsort(tt,sum,40*sizeof(char),pare)。在實際應用中難免會碰到一些較大的文檔，使用屏幕分詞的話需要進行多次操作，這樣很不方便，所以本程序又添加了一種文件分詞功能，可以進行不限大小的分詞，此功能直接對文件進行分詞操作，并不直接顯示在屏幕上，而是生成一個文檔，生成的文檔名默認為源文件名 +_pos。 //修改查找區(qū)間下界 } return 1。 //查找成功 else if(strcmp(tt[mid],aidkey)0) high=mid1。 while(low=high){ mid=(low+high)/2。 low=0。 //屏幕文件結果區(qū) 28 最大正向匹配算法是離不開詞典的，分詞時需要對詞典內的詞進行比較，定義比較函數(shù)為： int pare(const void* a,const void* b) {return strcmp((char*)a,(char*)b)。 //輸入文件的長度 char scrbuf[MD]。 //字典長度 FILE *fp1,*fp2。 char * source,* result。圖 4 文件分詞對話框 27 圖 5 文件分詞成功提示對話框編輯選項中包含了一些可以對文檔進行簡單編輯操作的選項，如圖 6所示。 26 圖 3 程序主面板點擊“分詞”菜單中的“文件分詞”選項后會彈出如圖 4所示的對話框，點擊“輸入文件”后的“瀏覽”按鈕，可以選擇待分析的文件，點擊“輸出文件”后的“瀏覽”按鈕可以選擇分詞結果文件的保存位置。打開后再點擊“屏幕分詞”按鈕，程序便開始對打開文檔進行分詞，結果直接輸出到程序主面板的空白處。程序主面板如圖 3 所示，其中“分詞”選項中可以選擇是使用屏幕分詞還是使用文件分詞。其中分詞功能分為屏幕分詞和文件分詞兩種方式。通過上述設計思想對程序進行編寫，本程序使用 C 語言，開發(fā)環(huán)境為Visual Studio 中 Win32 SDK 平臺。如果 n 等于 1，則直接跳轉到第三步，若不等于 1 則將詞典中最長詞的字數(shù) 賦予 m,然后比較 n 與 m 的大小，若 nm，則將 n 的值賦予 m。設有句子 S = C1C2C3? Cn, 詞 Wi =W1W2W3? Wm , 其中 m 為詞典中最長詞的字數(shù) ,對算法的描述如下： (1) 初始化 i,賦值為 0，指針 Pi指向輸入字串的初始位置。假設詞典中最長的詞有 i個漢字字符，先對輸入文本長度進行判定，若輸入文本長度小于或等于 i，則只在最大詞長范圍內進行處理就行了，若輸入文本長度大于 i，則用輸入文本的當前字符串中的前 i個字作為匹配字段，與字典進行匹配，若字典中存在這樣一個 i個字的詞，則匹配字段就被切分出來。那么實例的整個匹配過程如下表 2 所示：表 2 實例的匹配步驟步驟操作的句子操作分詞結果 1 我們是中華人民共和國的公民只取 7個字 2 我們是中華人民詞典匹配失敗 3 我們是中華人詞典匹配失敗 ?? ?? ?? 我們詞典匹配成功我們是中華人民共和減詞并取前 7個字是中華人民共和詞典匹配失敗我們 ?? ?? ?? 是詞典匹配成功我們 \是中華人民共和國減詞并取前 7個字中華人民共和國詞典匹配成功我們 \是 \中華人民共和國 ?? ?? ?? NULL 減詞我們 \是 \中華人民共和國 \的 \公民 24 （二）采用正向最大算法的分詞程序設計從表 2 可以很清晰的看出減字法工作的過程，我們現(xiàn)在開始用 C 語言實現(xiàn)這個算法。以“我們是中華人民共和國的公民”為例，如果事先知道詞典的最長詞長，那么將減少很多步驟，從而提高分詞速度。但是，為了實現(xiàn)最大匹配，我們將把匹配讀入詞典文件讀入一個句子分詞結果詞典開始結束待切分的臨時變量匹配失敗，句子減一字，繼續(xù)匹配匹配成功 23 “中華人民共和國”作為一個整體的詞進行處理。 22 圖 2 減字分詞法過程上圖就是減字法的分詞過程，為了說明該方法是如何分詞的，我們利用減字法進行最大匹配分詞，之所以稱為最大匹配，就是要求每一句的切分結果中詞組的總數(shù)最少。減字法的流程為：首先讀入一句句子，取出標點符號，這樣句子就被分成相應的若干段，然后對每一段進行詞典的匹配，如果沒有匹配成功就從段末尾減去一個字，再進行匹配，重復上述過程，直到匹配上詞典上的某個詞組或只剩下一個字符，接著將句子剩余的部分重復上述流程，直到將句子全部分解成原子或詞典中存在的詞組。最后，最大的匹配并不一定是想要的分詞結果。這種方法存在如下缺陷：首先，詞典詞長限制，詞長過短，長詞就會被切錯；詞長過長，查找匹配效率就會比較低。（一）正向最大匹配算法在第三章中對現(xiàn)今的中文分詞算法進行了介紹，其中介紹了基于字符串匹配的分詞算法，又叫機械分詞算法，機械分詞算法里又包含了一種正向最大匹配算法，正向最大匹配算法里又有兩個分支：增字匹配法和減字匹配法。 ?? 。啊阿 ?? 大 ?? 004 089 ?? 794 ?? ?；?TRIE 索引樹的分詞詞典機制由首字散列表和 TRIE 索引樹結點兩部分組成。通過首字散列表的哈希定位和詞索引表很容易確定指定詞在詞典正文中的可能位置范圍，進而在詞典正文中通過整詞二分進行定位。表 1 有序線性詞典結構一一一一說明一一對應一一道來一丁不視 ?? 基于整詞二分的分詞詞典結構如圖 1 所示，該機制的詞典結構分為詞典正文、詞索引表、首字散列表等三級。這種詞典結構算法簡單、易于實現(xiàn)、有效空間使用率高，缺點是查找效率低，而且更新代價高。（二）常用詞典結構常用的主要詞典結構主要有以下 3 種 [8]：有序線性詞典結構如表 1 所示，這是最簡單的詞典結構，詞典正文是以詞為單位的有序表，初始化時讀取到內存中，詞典正文中通過整詞二分進行定位。鍵樹的深度 h 則 19 取決于關鍵字中字符或數(shù)位的個數(shù)。例如，若關鍵字是數(shù)值，則結點中只包含一個數(shù)位；若關鍵字是英文單詞，則結點中

點擊復制文檔內容

醫(yī)療健康相關推薦

漢語分詞技術初探計算機科學與技術畢業(yè)論文(參考版)

【摘要】蘭州商學院本科生畢業(yè)論文（設計）論文（設計）題目：漢語分詞技術初探學院、系：信息工程學院計算機科學與技術系專業(yè)(方向

2024-11-11 19:02

計算機科學與技術畢業(yè)論文——漢語分詞技術分析(參考版)

【摘要】蘭州商學院計算機科學與技術畢業(yè)論文——漢語分詞技術分析2蘭州商學院本科生畢業(yè)論文（設計）論文（設計）題目：漢語分詞技術初探學院、系：信息工程學院計算機科學與技術系專業(yè)(方向)：計算機科訪親希沉底焙吾蠢墑價敲黑紐摩嘆雍倍替些徐冒惑矣彥方浙祈禹貸叉膜身涕岡酌耪尚等趁犧鴿胰堪潭爵瑞抱凰盤琺冀晚文長

2024-10-29 18:02

計算機科學與技術畢業(yè)論文(參考版)

【摘要】畢業(yè)設計（論文）課題名稱在線考試系統(tǒng)的設計與研發(fā)姓名XXX學號XXXXXXX專業(yè)計算機科學與技術摘要隨著計算機網(wǎng)絡技術及相關技術的不斷發(fā)展，考試的手段和媒介也在發(fā)生著巨大的變化，傳統(tǒng)的考試方式和手段正面臨著強烈的沖擊。計算機網(wǎng)

2025-06-26 06:13

計算機科學與技術(畢業(yè)論文)(參考版)

【摘要】單位代碼10642密級公開學號202113019010重慶文理學院學士學位論文基于Web的辦公自動化系統(tǒng)設計與實現(xiàn)論文作者：指導教師：學科專業(yè)：計算機科學與技術提交論文日期：2021年12月11日論文答辯日期：2021年12月18日

2025-05-11 20:54

計算機科學與技術畢業(yè)論文(參考版)

【摘要】I計算機科學與技術畢業(yè)論文題目：網(wǎng)上拍賣系統(tǒng)的設計與實現(xiàn)摘要網(wǎng)絡商機無所不在，遍地是黃金，隨著國外網(wǎng)絡拍賣如火如荼的持續(xù)發(fā)燒發(fā)熱下來，網(wǎng)絡原先B2C(BusinesstoCustomer)企業(yè)對消費者的交易商業(yè)模塊轉變?yōu)镃2C(CustomertoCustomer)消費者對消費者的型態(tài)。網(wǎng)絡不光成為企業(yè)的擴展地，更成為個體戶的新興熱點。而網(wǎng)上拍賣可以說是將

2025-01-20 04:08

計算機科學與技術畢業(yè)論文(參考版)

【摘要】第一篇：計算機科學與技術畢業(yè)論文畢業(yè)設計（論文）課題名稱姓名學號專業(yè) 在線考試系統(tǒng)的設計與研發(fā) XXXXXXXXXX計算機科學與技術摘要隨著計算機網(wǎng)絡技術及相關技術的不斷發(fā)展，考試...

2024-10-17 23:59

計算機科學與技術專業(yè)畢業(yè)論文規(guī)范(參考版)

【摘要】重慶工學院計算機科學與技術專業(yè)畢業(yè)實習及畢業(yè)論文(設計)規(guī)范計算機科學與工程學院計算機科學與技術系2005年03月目錄一.畢業(yè)實習及畢業(yè)論文(設計)的主要目的 1二.指導教師選聘及對指導教師的要求 1三.畢業(yè)實習分組及實施計劃 3四.畢業(yè)論文(設計)的選題 3五．畢業(yè)實習及畢業(yè)論

2024-08-27 17:18

計算機科學與技術專業(yè)畢業(yè)論文規(guī)范(參考版)

【摘要】(設計)規(guī)范計算機科學與工程學院計算機科學與技術系2020年03月1目錄一.畢業(yè)實習及畢業(yè)論文(設計)的主要目的................................................................1二.指導教師選聘及對指導教師的要求

2024-10-31 02:07

計算機科學與技術畢業(yè)論文jk(參考版)

【摘要】東北農業(yè)大學本科論文學號：956B30515001姓名:楊指導教師:所在院系：網(wǎng)絡教育學院所學專業(yè)：計算機科學與技術東北農業(yè)大學2021年月

2025-05-11 20:44

計算機科學與技術畢業(yè)論文--人臉識別技術綜述(參考版)

【摘要】計算機科學與技術畢業(yè)論文--人臉識別技術綜述摘要隨著社會信息化網(wǎng)絡化得不斷發(fā)展個人身份趨于數(shù)字化隱性化如何準確的鑒定確保信息安全得到越來越多的重視人臉識別一種應用比較廣泛的生物識別方法在基于人臉固有的生物特征信息利用模式識別和圖行圖像處理技術來對個人身份進行鑒定在國家安全計算機交互家庭娛樂等其他

2024-10-28 08:13

計算機科學與技術畢業(yè)論文正稿(參考版)

【摘要】.....畢業(yè)設計論文圖書信息管理系統(tǒng)的設計姓名:指導教師:所在院系：網(wǎng)絡教育學院所學專業(yè)：計算機科學與技術2011年

2025-06-26 19:49

計算機科學與技術專業(yè)畢業(yè)論文例文(參考版)

【摘要】學號202053131014密級武漢大學?？飘厴I(yè)論文景山衛(wèi)生局局域網(wǎng)的建設院（系）名稱：計算機學院專業(yè)名稱：計算機科學與技術學生姓名：蔣童童指導教師：張玉萍二○一三年四月

2024-10-27 18:06

計算機科學與技術專業(yè)畢業(yè)論文下載(參考版)

【摘要】學號202020601010214畢業(yè)論文題目圖書館管理信息系統(tǒng)學生姓名趙擎天專業(yè)名稱計算機科學與技術指導教師周靄如黃小兵劉艷霞網(wǎng)絡教育學院2020年06月05日-II

2024-10-29 18:02

計算機科學與技術專業(yè)畢業(yè)論文[1](參考版)

【摘要】畢業(yè)論文題目__石景山衛(wèi)生局局域網(wǎng)的建設___專業(yè)名稱計算機科學與技術學生姓名指導教師畢業(yè)時間I一、題

2025-06-06 00:52

計算機科學與技術畢業(yè)論文1(參考版)

【摘要】徐州工程學院2002級計算機科學與技術畢業(yè)設計用WEB技術實現(xiàn)在線教育用WEB技術實現(xiàn)在線教育畢業(yè)論文摘要 2Abstract 31 引言 62 系統(tǒng)開發(fā)工具、環(huán)境及相關技術 8 系統(tǒng)開發(fā)工具Frontpage2003簡介 8 系統(tǒng)開發(fā)環(huán)境簡介 8 系統(tǒng)軟件要求 8 系統(tǒng)硬件要求 9

2025-06-30 21:53