freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

漢語分詞技術初探計算機科學與技術畢業(yè)論文(參考版)

2024-11-11 19:02本頁面
  

【正文】 ksv*3。qYpEh5pDx2zVkumamp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。qYpEh5pDx2zVkumamp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。 qYpEh5pDx2zVkumamp。 UE9aQGn8xp$Ramp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。gTXRm 6X4NGpP$vSTTamp。MuWFA5ux^Gj qv^$UE9wEwZQcUE% amp。gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YW Rr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。 gTXRm 6X4NGpP$vSTTamp。849Gx^Gj qv^$UE9wEwZQcUE%amp。ksv*3t nGK8!z89Am YWpazadNuKNamp。qYpEh5pDx2zVkumamp。 UE9aQGn8xp$Ramp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。 gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 gTXRm 6X4NGpP$vSTTamp。 MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。 gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。gTXRm 6X4NGpP$vSTTamp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。gTXRm 6X4NGpP$vSTTamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。 gTXRm 6X4NGpP$vSTTamp。MuWFA5ux^Gjqv^$UE9wEwZQcUE% amp。 gTXRm 6X4NGpP$vSTTamp。 MuWFA5uxY7JnD6YWRrWwc^vR9CpbK! zn% Mz849Gx^Gjqv^$UE9wEwZQcUE% amp。 gTXRm6X4NGpP$vSTTamp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。 內部資料 , 請勿外傳! XuyUP2kNXpRWXm Aamp。借此機會,我向老師表達我最深切的感謝和最誠摯的敬意。在這里我首先要深深地感謝我的指導老師,在這一學期的學習和生活中,老師給予我細致的關懷和悉心的指導,老師為人之友善、知識之淵博、治學之嚴謹,使我受益匪淺,并為我努力學習的榜樣。由于個人能力有限,論文中難免出現(xiàn)一些錯誤,忘大家給予指正。 六、結論 本文對漢語分詞技術進行了詳細的介紹,并對一些方面進行了分析,最后嘗試實現(xiàn)正向最大匹配算法,最終設計出了采用正向最大匹配算法的程序, 在測試中,對于此程序的分詞速度和分詞結果還是比較滿意的,但是此程序 也存在著很大的 缺陷,例如對于歧義字段和未登錄詞無法有效的識別和切分,分詞的效率和準確性受到詞庫容量的約束等。 圖 7 屏幕分詞結果 35 同樣,對文件分詞功能進行測試,輸入文件名為“文件分詞程序測試”輸出文件名自動命名為“文件分詞程序測試 _pos”,所得結果為圖 8所示。分詞結束后可以點擊“文件”菜單下的“保存”按鈕對結果進行保存。 } 到此,程序的分詞主程序部分就介紹完了,程序主面板的設計在此就不一一列出了,下邊對程序進行分詞測試。 //將文件指針定位在文件開始處 j=fread(source,1,filelen,fp1)。 { MessageBox(hWnd,內存分配失?。?,錯誤 ,MB_OK)。 source = (char *)malloc( filelen*sizeof(char) )。 if(c==EOF) break。 //所以要減去回車的次數(shù) while(1) { c=fgetc(fp1)。 rewind(fp1)。 i = fseek(fp1,0,SEEK_END)。 } 33 以上的是屏幕分詞的主程序部分,文件分詞主程序 部分與其基本相同,現(xiàn)只列出文件分詞初始化函數(shù): int preposcutword() { int i,j。 } buffer[i]=0。mask=1。 scrres[rp]=0。 strcat(scrres,buffer)。 break。 bp=bp+1。 rp+=1。} else{ buffer[1]=0。 mask=1。 scrres[rp]=0。并將 bp指針往前移相應位置 32 if(buffer[0]0) {strcat(scrres,buffer)。 } else //如果查不到 { A: if(i==1){ //若還剩 2個字節(jié),則判斷第一個字節(jié),若大于 0, 說明不是漢字,輸出一個字節(jié) buffer[2]=0。 bp=bp+k。 rp++。 scrres[rp]=39。 } strcat(scrres,buffer)。 rp++。 scrres[rp]=39。 j=binsearch(sum,buffer)。 j=1。i=0。 } if(end==1)break。 strcat(buffer,ch)。 ch[1]=0。 break。amp。i36。 sb=bp。rp=0。 strcpy(scrres,)。 //bp為字符串已識別指針, sb為臨時用指針 ,sp為結果數(shù)組指針 char ch[2],buffer[37]。 //為 1標示已經掃描完待分析文件,反之為 0 int mask=0。 } 屏幕分詞函數(shù): void scrposcutword(){ int i,j,k。 //字典來自網(wǎng)絡,文件名為 wordlist qsort(tt,sum,40*sizeof(char),pare)。在實際應用中難免會碰到一些較大的文檔,使用屏幕分詞的話需要進行多次操作,這樣很不方便,所以本程序又添加了一種文件分詞功能,可以進行不限大小的分詞,此功能直接對 文件進行分詞操作,并不直接顯示在屏幕上,而是生成一個文檔, 生成的文檔名默認為源文件名 +_pos。 //修改查找區(qū)間下界 } return 1。 //查找成功 else if(strcmp(tt[mid],aidkey)0) high=mid1。 while(low=high){ mid=(low+high)/2。 low=0。 //屏幕文件結果區(qū) 28 最大正向匹配算法是離不開詞典的,分詞時需要對詞典內的詞進行比較,定義比較函數(shù)為: int pare(const void* a,const void* b) {return strcmp((char*)a,(char*)b)。 //輸入文件的長度 char scrbuf[MD]。 //字典長度 FILE *fp1,*fp2。 char * source,* result。 圖 4 文件分詞對話框 27 圖 5 文件分詞成功提示對話框 編輯選項中 包含了一些可以對文檔進行簡單編輯操作的選項,如圖 6所示。 26 圖 3 程序主面板 點擊“分詞”菜單中的“文件分詞”選項后會彈出如圖 4所示的對話框,點擊“輸入文件”后的“瀏覽”按鈕,可以選擇待分析的文件,點擊“輸出文件”后的“瀏覽”按鈕可以選擇分詞結果文件的保存位置。打開后再點擊“屏幕分詞”按鈕,程序便開始對打開文檔進行分詞,結果直接輸出到程序主面板的空白處。 程序主面板如圖 3 所示,其中“分詞”選項中可以選擇是使用屏幕分詞還是使用文件分詞。其中分詞功能分為屏幕分詞和文件分詞兩種方式。 通過上述設計思想對程序進行編寫,本程序使用 C 語言,開發(fā)環(huán)境為Visual Studio 中 Win32 SDK 平臺。如果 n 等于 1,則直接跳轉到第三步,若不等于 1 則將詞典中最長詞的字數(shù) 賦予 m,然后比較 n 與 m 的大小,若 nm,則將 n 的值賦予 m。 設有句子 S = C1C2C3? Cn, 詞 Wi =W1W2W3? Wm , 其中 m 為詞典中最長詞的字數(shù) ,對算法的描述如下: (1) 初始化 i,賦值為 0,指針 Pi指向輸入字串的初始位置。假設詞典中最長的詞有 i個漢字字符,先對輸入文本長度進行判定,若輸入文本長度小于或等于 i,則 只在最大詞長范圍內進行處理就行了,若輸入文本長度大于 i, 則用輸入文本的當前字符串中的前 i個字作為匹配字段,與字典進行匹配,若字典中存在這樣一個 i個字的詞, 則匹配字段就被切分出來。那么實例的整個匹配過程如下表 2 所示: 表 2 實例的匹配步驟 步驟 操作的句子 操作 分詞結果 1 我們是中華人民共和國的公民 只取 7個字 2 我們是中華人民 詞典匹配失敗 3 我們是中華人 詞典匹配失敗 ?? ?? ?? 我們 詞典匹配成功 我們 是中華人民共和 減詞并取前 7個字 是中華人民共和 詞典匹配失敗 我們 ?? ?? ?? 是 詞典匹配成功 我們 \是 中華人民共和國 減詞并取前 7個字 中華人民共和國 詞典匹配成功 我們 \是 \中華人民共和國 ?? ?? ?? NULL 減詞 我們 \是 \中華人民共和國 \的 \公民 24 ( 二 ) 采用正向最大算法的分詞程序設計 從表 2 可以很清晰的看出減字法工作的過程,我們現(xiàn)在開始用 C 語言實現(xiàn)這個算法。以“我們是中華人民共和國的公民”為例,如果事先知道詞典的最長詞長,那么將減少很多步驟,從而提高分詞速度。但是,為了實現(xiàn)最大匹配,我們將把匹配 讀入詞典文件 讀入一個句子 分詞結果 詞典 開 始 結束 待切分的臨時變量 匹配失敗,句子減一字,繼續(xù)匹配 匹配成功 23 “中華人民共和國”作為一個整體的詞進行處理。 22 圖 2 減字分詞法過程 上圖就是減字法的分詞過程,為了說明該方法是如何分詞的,我們利用減字法進行最大匹配分詞,之所以稱為最大匹配,就是要求每一句的切分結果中詞組的總數(shù)最少。 減字法的流程為:首先讀入一句句子,取出標點符號,這樣句子就被分成相應的若干段,然后對每一段進行詞典的匹配,如果沒有匹配成功就從段末尾減去一個字,再進行匹配,重 復上述過程,直到匹配上詞典上的某個詞組或只剩下一個字符,接著將句子剩余的部分重復上述流程,直到將句子全部分解成原子或詞典中存在的詞組。最后,最大的匹配并不一定是想要的分詞結果。 這種方法 存在如下缺陷:首先,詞典詞長限制,詞長過短,長詞就會被切錯;詞長過長,查找匹配效率就會比較低。 (一) 正向 最大匹配算法 在第三章中對現(xiàn)今的中文分詞算法進行了介紹,其中介紹了基于字符串匹配的分詞算法,又叫機械分詞算法,機械分詞算法里又包含了一 種正向最大匹配算法,正向最大匹配算法里又有兩個分支: 增字匹配法和減字匹配法。 ?? 。 啊 阿 ?? 大 ?? 004 089 ?? 794 ?? ?;?TRIE 索引樹的分詞詞典機制由首字散 列表和 TRIE 索引樹結點兩部分組成。通過首字散列表的哈希定位和詞索引表很容易確定指定詞在詞典正文中的可能位置 范圍,進而在詞典正文中通過整詞二分進行定位。 表 1 有序線性詞典結構 一一 一一說明 一一對應 一一道來 一丁不視 ?? 基于整詞二分的分詞詞典結構 如圖 1 所示,該機制的詞典結構分為詞典正文、詞索引表、首字散列表等三級。這種詞典結構算法簡單、易于實現(xiàn)、有效空間使用率高,缺點是查找效率低,而且更新代價高。 ( 二 ) 常用詞典結構 常用的主要詞典結構主要有以下 3 種 [8]: 有序線性詞典結構 如表 1 所示,這是最簡單的詞典結構,詞典正文是以詞為單位的有序表,初始化時讀取到內存中,詞典正文中通過整詞二分進行定位。鍵樹的深度 h 則 19 取決于關鍵字中字符或數(shù)位的個數(shù)。例如,若關鍵字是數(shù)值,則結點中只包含一個數(shù)位;若關鍵字是英文單詞,則結點中
點擊復制文檔內容
醫(yī)療健康相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1