freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語分詞技術(shù)初探計算機(jī)科學(xué)與技術(shù)畢業(yè)論文(文件)

2024-12-01 19:02 上一頁面

下一頁面
 

【正文】 ,并不直接顯示在屏幕上,而是生成一個文檔, 生成的文檔名默認(rèn)為源文件名 +_pos。 } 屏幕分詞函數(shù): void scrposcutword(){ int i,j,k。 //bp為字符串已識別指針, sb為臨時用指針 ,sp為結(jié)果數(shù)組指針 char ch[2],buffer[37]。rp=0。i36。 break。 strcat(buffer,ch)。i=0。 j=binsearch(sum,buffer)。 rp++。 scrres[rp]=39。 bp=bp+k。并將 bp指針往前移相應(yīng)位置 32 if(buffer[0]0) {strcat(scrres,buffer)。 mask=1。 rp+=1。 break。 scrres[rp]=0。 } buffer[i]=0。 i = fseek(fp1,0,SEEK_END)。 //所以要減去回車的次數(shù) while(1) { c=fgetc(fp1)。 source = (char *)malloc( filelen*sizeof(char) )。 //將文件指針定位在文件開始處 j=fread(source,1,filelen,fp1)。分詞結(jié)束后可以點擊“文件”菜單下的“保存”按鈕對結(jié)果進(jìn)行保存。 六、結(jié)論 本文對漢語分詞技術(shù)進(jìn)行了詳細(xì)的介紹,并對一些方面進(jìn)行了分析,最后嘗試實現(xiàn)正向最大匹配算法,最終設(shè)計出了采用正向最大匹配算法的程序, 在測試中,對于此程序的分詞速度和分詞結(jié)果還是比較滿意的,但是此程序 也存在著很大的 缺陷,例如對于歧義字段和未登錄詞無法有效的識別和切分,分詞的效率和準(zhǔn)確性受到詞庫容量的約束等。在這里我首先要深深地感謝我的指導(dǎo)老師,在這一學(xué)期的學(xué)習(xí)和生活中,老師給予我細(xì)致的關(guān)懷和悉心的指導(dǎo),老師為人之友善、知識之淵博、治學(xué)之嚴(yán)謹(jǐn),使我受益匪淺,并為我努力學(xué)習(xí)的榜樣。 內(nèi)部資料 , 請勿外傳! XuyUP2kNXpRWXm Aamp。 gTXRm6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 UE9aQGn8xp$Ramp。ksv*3t nGK8!z89Am YWpazadNuKNamp。 gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。 UE9aQGn8xp$Ramp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。ksv*3。qYpEh5pDx2zVkumamp。qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。MuWFA5ux^Gj qv^$UE9wEwZQcUE% amp。MuWFA5uxY7JnD6YW Rr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。849Gx^Gj qv^$UE9wEwZQcUE%amp。qYpEh5pDx2zVkumamp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。MuWFA5ux^Gjqv^$UE9wEwZQcUE% amp。 MuWFA5uxY7JnD6YWRrWwc^vR9CpbK! zn% Mz849Gx^Gjqv^$UE9wEwZQcUE% amp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。借此機(jī)會,我向老師表達(dá)我最深切的感謝和最誠摯的敬意。由于個人能力有限,論文中難免出現(xiàn)一些錯誤,忘大家給予指正。 圖 7 屏幕分詞結(jié)果 35 同樣,對文件分詞功能進(jìn)行測試,輸入文件名為“文件分詞程序測試”輸出文件名自動命名為“文件分詞程序測試 _pos”,所得結(jié)果為圖 8所示。 } 到此,程序的分詞主程序部分就介紹完了,程序主面板的設(shè)計在此就不一一列出了,下邊對程序進(jìn)行分詞測試。 { MessageBox(hWnd,內(nèi)存分配失?。?,錯誤 ,MB_OK)。 if(c==EOF) break。 rewind(fp1)。 } 33 以上的是屏幕分詞的主程序部分,文件分詞主程序 部分與其基本相同,現(xiàn)只列出文件分詞初始化函數(shù): int preposcutword() { int i,j。mask=1。 strcat(scrres,buffer)。 bp=bp+1。} else{ buffer[1]=0。 scrres[rp]=0。 } else //如果查不到 { A: if(i==1){ //若還剩 2個字節(jié),則判斷第一個字節(jié),若大于 0, 說明不是漢字,輸出一個字節(jié) buffer[2]=0。 rp++。 } strcat(scrres,buffer)。 scrres[rp]=39。 j=1。 } if(end==1)break。 ch[1]=0。amp。 sb=bp。 strcpy(scrres,)。 //為 1標(biāo)示已經(jīng)掃描完待分析文件,反之為 0 int mask=0。 //字典來自網(wǎng)絡(luò),文件名為 wordlist qsort(tt,sum,40*sizeof(char),pare)。 //修改查找區(qū)間下界 } return 1。 while(low=high){ mid=(low+high)/2。 //屏幕文件結(jié)果區(qū) 28 最大正向匹配算法是離不開詞典的,分詞時需要對詞典內(nèi)的詞進(jìn)行比較,定義比較函數(shù)為: int pare(const void* a,const void* b) {return strcmp((char*)a,(char*)b)。 //字典長度 FILE *fp1,*fp2。 圖 4 文件分詞對話框 27 圖 5 文件分詞成功提示對話框 編輯選項中 包含了一些可以對文檔進(jìn)行簡單編輯操作的選項,如圖 6所示。打開后再點擊“屏幕分詞”按鈕,程序便開始對打開文檔進(jìn)行分詞,結(jié)果直接輸出到程序主面板的空白處。其中分詞功能分為屏幕分詞和文件分詞兩種方式。如果 n 等于 1,則直接跳轉(zhuǎn)到第三步,若不等于 1 則將詞典中最長詞的字?jǐn)?shù) 賦予 m,然后比較 n 與 m 的大小,若 nm,則將 n 的值賦予 m。假設(shè)詞典中最長的詞有 i個漢字字符,先對輸入文本長度進(jìn)行判定,若輸入文本長度小于或等于 i,則 只在最大詞長范圍內(nèi)進(jìn)行處理就行了,若輸入文本長度大于 i, 則用輸入文本的當(dāng)前字符串中的前 i個字作為匹配字段,與字典進(jìn)行匹配,若字典中存在這樣一個 i個字的詞, 則匹配字段就被切分出來。以“我們是中華人民共和國的公民”為例,如果事先知道詞典的最長詞長,那么將減少很多步驟,從而提高分詞速度。 22 圖 2 減字分詞法過程 上圖就是減字法的分詞過程,為了說明該方法是如何分詞的,我們利用減字法進(jìn)行最大匹配分詞,之所以稱為最大匹配,就是要求每一句的切分結(jié)果中詞組的總數(shù)最少。最后,最大的匹配并不一定是想要的分詞結(jié)果。 (一) 正向 最大匹配算法 在第三章中對現(xiàn)今的中文分詞算法進(jìn)行了介紹,其中介紹了基于字符串匹配的分詞算法,又叫機(jī)械分詞算法,機(jī)械分詞算法里又包含了一 種正向最大匹配算法,正向最大匹配算法里又有兩個分支: 增字匹配法和減字匹配法。 啊 阿 ?? 大 ?? 004 089 ?? 794 ?? 。通過首字散列表的哈希定位和詞索引表很容易確定指定詞在詞典正文中的可能位置 范圍,進(jìn)而在詞典正文中通過整詞二分進(jìn)行定位。這種詞典結(jié)構(gòu)算法簡單、易于實現(xiàn)、有效空間使用率高,缺點是查找效率低,而且更新代價高。鍵樹的深度 h 則 19 取決于關(guān)鍵字中字符或數(shù)位的個數(shù)。 Trie 樹 鍵樹 [7]又稱數(shù)字查找樹。以首字 Hash 詞典機(jī)制的原理為例,據(jù)漢字機(jī)內(nèi)碼的編碼規(guī)律可知,我們就可以通過一對一映射的 Hash 函數(shù)實現(xiàn)詞首字的快速查找。 18 (一) 詞典的索引 使用索引來組 織數(shù)量龐大的文件是一種高效的方法。 那么,在實際的應(yīng)用中,我們就可以把 三種分詞方法全部利用上,以求達(dá)到最好的效果。 一元分詞和二元分詞是比較流行的非詞典式分詞方法。因為對于搜索引擎來說,在查詢切分和文檔切分時采用相同的分詞算法,如果有一些文檔切分是分詞是錯誤,在查詢切分時也產(chǎn)生相同的切分錯誤。這樣既滿足了查詢“搜索引擎”的要求,又滿足了查詢“搜索”的要求。對于上面這個例子,我們采取組織兩個詞典的措施:一個為專業(yè)詞典,一個為普通詞典。因此我們可以得到這樣一個結(jié)論,對同一文本進(jìn)行切 分,如果使用的詞典不同,會導(dǎo)致不同的分詞 16 結(jié)果。 混合分詞 對于實際應(yīng)用中的中文信息檢索系統(tǒng)來說,當(dāng)弄不清楚使用哪種分詞算法更好的話,可以試著合并使用多種方法,混合分詞就是 一種簡單且容易實現(xiàn)的方法,也是大型檢索系統(tǒng)中常用的一種方法,使用混合分詞方法能夠涵蓋更多的詞匯。它的優(yōu)點在于可以發(fā)現(xiàn)所有的切分歧義,但是統(tǒng)計語言模型的精度和決策算法在很大程度上決定了解決歧義的方法,需要大量的標(biāo)注語料, 15 并且分詞速度也因搜索空間的增大而有所緩慢?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。由于漢語語言知 識的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。其基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。統(tǒng)計結(jié)果表明 [5],單純使用正向最大匹配的錯誤率為 1/169,單純使用逆向最大匹配的錯誤率為 1/245??梢园褭C(jī)械分詞作為初步的處理手段,然后再通過進(jìn)一步工作提高結(jié)果的正確率。 ( 3)最少切分 (使每一句中切出的詞數(shù)最小 )。 減字法的流程為:首先讀入一句句子,取出標(biāo)點符號,這樣句子就被分成相應(yīng)的若干段,然后對每一段進(jìn)行詞典的匹配,如果沒有匹配成功就 13 從段末尾減去一個字,再進(jìn)行匹配,重復(fù)上述過程,直 到匹配上某一個單詞。常用的幾種機(jī)械分詞算法如下: ( 1)正向最大匹配法 (由左到右的方向 ); 正向最大匹配分詞是基于詞典的分詞系統(tǒng)。 三、基本中文分詞算法 自從 1983 年,背景航空航天大學(xué)實現(xiàn)了我國第一個實用性的自動分詞系統(tǒng)到現(xiàn)在,國內(nèi)外的研究者在中文分詞領(lǐng)域進(jìn)行了廣泛的研究,提出了許多有效的算法。所以,分詞中遇到未登錄詞匯是不能避 免的。 例: 挨批評 挨 /批評(√) 挨批 /評( X) 對于交集型歧義字段,真實文本中偽歧義現(xiàn)象遠(yuǎn)多于真歧義現(xiàn)象。這種情況 叫作偽歧義。 ( 2)組合型歧義 對于漢字串 AB, A, B, AB 皆可獨立成詞。形式上相同的一段文字,在不同的場景或語境中,可以切分出不同的結(jié)果,有不同的含義。 上述的兩個實例,前者把不是詞的幾個字放在了一起組成了“詞 ” ,而后者把是詞的卻切分開了。而且不同目標(biāo)的應(yīng)用對詞的切分規(guī)范的要求又有所不同,理論上講漢語自動分詞規(guī)范,作為規(guī)范,那么必須支持各種不同目標(biāo)的應(yīng)用,但不同目標(biāo)的應(yīng)用對詞的要求是不同的,甚至是有矛盾的。 ④非詞語素問題:現(xiàn)代的書面漢語并非純粹的“現(xiàn)代漢語”,其中夾雜著不少文言成分,如“為民除害”、“以逸待勞”、“幫困濟(jì)窮”等等。在進(jìn)行中文分詞時,對這些變形結(jié)構(gòu)的切分缺少可操作的、合理的規(guī)范。而產(chǎn)生如此定義涉及多個方面 [3]: ①核心詞典問題:在進(jìn)行分詞時需要有一個核心 (通用的、與領(lǐng)域無關(guān)的 )詞典,即普通詞典,凡在該詞典中存在的詞,在分詞時就應(yīng)該切分出來。但現(xiàn)在此技術(shù)在經(jīng)過了近 30 年的研究,仍存在諸多不足。當(dāng)然,就當(dāng)今的現(xiàn)狀來說,完全的通用性很難達(dá)到。作為各種高層次中文處理的共同基礎(chǔ), 7 自動分詞系統(tǒng)必須具有很好的通用性。如
點擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1