freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語(yǔ)分詞技術(shù)初探計(jì)算機(jī)科學(xué)與技術(shù)畢業(yè)論文(文件)

 

【正文】 ,并不直接顯示在屏幕上,而是生成一個(gè)文檔, 生成的文檔名默認(rèn)為源文件名 +_pos。 } 屏幕分詞函數(shù): void scrposcutword(){ int i,j,k。 //bp為字符串已識(shí)別指針, sb為臨時(shí)用指針 ,sp為結(jié)果數(shù)組指針 char ch[2],buffer[37]。rp=0。i36。 break。 strcat(buffer,ch)。i=0。 j=binsearch(sum,buffer)。 rp++。 scrres[rp]=39。 bp=bp+k。并將 bp指針往前移相應(yīng)位置 32 if(buffer[0]0) {strcat(scrres,buffer)。 mask=1。 rp+=1。 break。 scrres[rp]=0。 } buffer[i]=0。 i = fseek(fp1,0,SEEK_END)。 //所以要減去回車的次數(shù) while(1) { c=fgetc(fp1)。 source = (char *)malloc( filelen*sizeof(char) )。 //將文件指針定位在文件開始處 j=fread(source,1,filelen,fp1)。分詞結(jié)束后可以點(diǎn)擊“文件”菜單下的“保存”按鈕對(duì)結(jié)果進(jìn)行保存。 六、結(jié)論 本文對(duì)漢語(yǔ)分詞技術(shù)進(jìn)行了詳細(xì)的介紹,并對(duì)一些方面進(jìn)行了分析,最后嘗試實(shí)現(xiàn)正向最大匹配算法,最終設(shè)計(jì)出了采用正向最大匹配算法的程序, 在測(cè)試中,對(duì)于此程序的分詞速度和分詞結(jié)果還是比較滿意的,但是此程序 也存在著很大的 缺陷,例如對(duì)于歧義字段和未登錄詞無法有效的識(shí)別和切分,分詞的效率和準(zhǔn)確性受到詞庫(kù)容量的約束等。在這里我首先要深深地感謝我的指導(dǎo)老師,在這一學(xué)期的學(xué)習(xí)和生活中,老師給予我細(xì)致的關(guān)懷和悉心的指導(dǎo),老師為人之友善、知識(shí)之淵博、治學(xué)之嚴(yán)謹(jǐn),使我受益匪淺,并為我努力學(xué)習(xí)的榜樣。 內(nèi)部資料 , 請(qǐng)勿外傳! XuyUP2kNXpRWXm Aamp。 gTXRm6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 UE9aQGn8xp$Ramp。ksv*3t nGK8!z89Am YWpazadNuKNamp。 gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。 UE9aQGn8xp$Ramp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。ksv*3。qYpEh5pDx2zVkumamp。qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。MuWFA5ux^Gj qv^$UE9wEwZQcUE% amp。MuWFA5uxY7JnD6YW Rr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。849Gx^Gj qv^$UE9wEwZQcUE%amp。qYpEh5pDx2zVkumamp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。MuWFA5ux^Gjqv^$UE9wEwZQcUE% amp。 MuWFA5uxY7JnD6YWRrWwc^vR9CpbK! zn% Mz849Gx^Gjqv^$UE9wEwZQcUE% amp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。借此機(jī)會(huì),我向老師表達(dá)我最深切的感謝和最誠(chéng)摯的敬意。由于個(gè)人能力有限,論文中難免出現(xiàn)一些錯(cuò)誤,忘大家給予指正。 圖 7 屏幕分詞結(jié)果 35 同樣,對(duì)文件分詞功能進(jìn)行測(cè)試,輸入文件名為“文件分詞程序測(cè)試”輸出文件名自動(dòng)命名為“文件分詞程序測(cè)試 _pos”,所得結(jié)果為圖 8所示。 } 到此,程序的分詞主程序部分就介紹完了,程序主面板的設(shè)計(jì)在此就不一一列出了,下邊對(duì)程序進(jìn)行分詞測(cè)試。 { MessageBox(hWnd,內(nèi)存分配失?。?,錯(cuò)誤 ,MB_OK)。 if(c==EOF) break。 rewind(fp1)。 } 33 以上的是屏幕分詞的主程序部分,文件分詞主程序 部分與其基本相同,現(xiàn)只列出文件分詞初始化函數(shù): int preposcutword() { int i,j。mask=1。 strcat(scrres,buffer)。 bp=bp+1。} else{ buffer[1]=0。 scrres[rp]=0。 } else //如果查不到 { A: if(i==1){ //若還剩 2個(gè)字節(jié),則判斷第一個(gè)字節(jié),若大于 0, 說明不是漢字,輸出一個(gè)字節(jié) buffer[2]=0。 rp++。 } strcat(scrres,buffer)。 scrres[rp]=39。 j=1。 } if(end==1)break。 ch[1]=0。amp。 sb=bp。 strcpy(scrres,)。 //為 1標(biāo)示已經(jīng)掃描完待分析文件,反之為 0 int mask=0。 //字典來自網(wǎng)絡(luò),文件名為 wordlist qsort(tt,sum,40*sizeof(char),pare)。 //修改查找區(qū)間下界 } return 1。 while(low=high){ mid=(low+high)/2。 //屏幕文件結(jié)果區(qū) 28 最大正向匹配算法是離不開詞典的,分詞時(shí)需要對(duì)詞典內(nèi)的詞進(jìn)行比較,定義比較函數(shù)為: int pare(const void* a,const void* b) {return strcmp((char*)a,(char*)b)。 //字典長(zhǎng)度 FILE *fp1,*fp2。 圖 4 文件分詞對(duì)話框 27 圖 5 文件分詞成功提示對(duì)話框 編輯選項(xiàng)中 包含了一些可以對(duì)文檔進(jìn)行簡(jiǎn)單編輯操作的選項(xiàng),如圖 6所示。打開后再點(diǎn)擊“屏幕分詞”按鈕,程序便開始對(duì)打開文檔進(jìn)行分詞,結(jié)果直接輸出到程序主面板的空白處。其中分詞功能分為屏幕分詞和文件分詞兩種方式。如果 n 等于 1,則直接跳轉(zhuǎn)到第三步,若不等于 1 則將詞典中最長(zhǎng)詞的字?jǐn)?shù) 賦予 m,然后比較 n 與 m 的大小,若 nm,則將 n 的值賦予 m。假設(shè)詞典中最長(zhǎng)的詞有 i個(gè)漢字字符,先對(duì)輸入文本長(zhǎng)度進(jìn)行判定,若輸入文本長(zhǎng)度小于或等于 i,則 只在最大詞長(zhǎng)范圍內(nèi)進(jìn)行處理就行了,若輸入文本長(zhǎng)度大于 i, 則用輸入文本的當(dāng)前字符串中的前 i個(gè)字作為匹配字段,與字典進(jìn)行匹配,若字典中存在這樣一個(gè) i個(gè)字的詞, 則匹配字段就被切分出來。以“我們是中華人民共和國(guó)的公民”為例,如果事先知道詞典的最長(zhǎng)詞長(zhǎng),那么將減少很多步驟,從而提高分詞速度。 22 圖 2 減字分詞法過程 上圖就是減字法的分詞過程,為了說明該方法是如何分詞的,我們利用減字法進(jìn)行最大匹配分詞,之所以稱為最大匹配,就是要求每一句的切分結(jié)果中詞組的總數(shù)最少。最后,最大的匹配并不一定是想要的分詞結(jié)果。 (一) 正向 最大匹配算法 在第三章中對(duì)現(xiàn)今的中文分詞算法進(jìn)行了介紹,其中介紹了基于字符串匹配的分詞算法,又叫機(jī)械分詞算法,機(jī)械分詞算法里又包含了一 種正向最大匹配算法,正向最大匹配算法里又有兩個(gè)分支: 增字匹配法和減字匹配法。 啊 阿 ?? 大 ?? 004 089 ?? 794 ?? 。通過首字散列表的哈希定位和詞索引表很容易確定指定詞在詞典正文中的可能位置 范圍,進(jìn)而在詞典正文中通過整詞二分進(jìn)行定位。這種詞典結(jié)構(gòu)算法簡(jiǎn)單、易于實(shí)現(xiàn)、有效空間使用率高,缺點(diǎn)是查找效率低,而且更新代價(jià)高。鍵樹的深度 h 則 19 取決于關(guān)鍵字中字符或數(shù)位的個(gè)數(shù)。 Trie 樹 鍵樹 [7]又稱數(shù)字查找樹。以首字 Hash 詞典機(jī)制的原理為例,據(jù)漢字機(jī)內(nèi)碼的編碼規(guī)律可知,我們就可以通過一對(duì)一映射的 Hash 函數(shù)實(shí)現(xiàn)詞首字的快速查找。 18 (一) 詞典的索引 使用索引來組 織數(shù)量龐大的文件是一種高效的方法。 那么,在實(shí)際的應(yīng)用中,我們就可以把 三種分詞方法全部利用上,以求達(dá)到最好的效果。 一元分詞和二元分詞是比較流行的非詞典式分詞方法。因?yàn)閷?duì)于搜索引擎來說,在查詢切分和文檔切分時(shí)采用相同的分詞算法,如果有一些文檔切分是分詞是錯(cuò)誤,在查詢切分時(shí)也產(chǎn)生相同的切分錯(cuò)誤。這樣既滿足了查詢“搜索引擎”的要求,又滿足了查詢“搜索”的要求。對(duì)于上面這個(gè)例子,我們采取組織兩個(gè)詞典的措施:一個(gè)為專業(yè)詞典,一個(gè)為普通詞典。因此我們可以得到這樣一個(gè)結(jié)論,對(duì)同一文本進(jìn)行切 分,如果使用的詞典不同,會(huì)導(dǎo)致不同的分詞 16 結(jié)果。 混合分詞 對(duì)于實(shí)際應(yīng)用中的中文信息檢索系統(tǒng)來說,當(dāng)弄不清楚使用哪種分詞算法更好的話,可以試著合并使用多種方法,混合分詞就是 一種簡(jiǎn)單且容易實(shí)現(xiàn)的方法,也是大型檢索系統(tǒng)中常用的一種方法,使用混合分詞方法能夠涵蓋更多的詞匯。它的優(yōu)點(diǎn)在于可以發(fā)現(xiàn)所有的切分歧義,但是統(tǒng)計(jì)語(yǔ)言模型的精度和決策算法在很大程度上決定了解決歧義的方法,需要大量的標(biāo)注語(yǔ)料, 15 并且分詞速度也因搜索空間的增大而有所緩慢?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。由于漢語(yǔ)語(yǔ)言知 識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語(yǔ)言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來處理歧義現(xiàn)象。統(tǒng)計(jì)結(jié)果表明 [5],單純使用正向最大匹配的錯(cuò)誤率為 1/169,單純使用逆向最大匹配的錯(cuò)誤率為 1/245??梢园褭C(jī)械分詞作為初步的處理手段,然后再通過進(jìn)一步工作提高結(jié)果的正確率。 ( 3)最少切分 (使每一句中切出的詞數(shù)最小 )。 減字法的流程為:首先讀入一句句子,取出標(biāo)點(diǎn)符號(hào),這樣句子就被分成相應(yīng)的若干段,然后對(duì)每一段進(jìn)行詞典的匹配,如果沒有匹配成功就 13 從段末尾減去一個(gè)字,再進(jìn)行匹配,重復(fù)上述過程,直 到匹配上某一個(gè)單詞。常用的幾種機(jī)械分詞算法如下: ( 1)正向最大匹配法 (由左到右的方向 ); 正向最大匹配分詞是基于詞典的分詞系統(tǒng)。 三、基本中文分詞算法 自從 1983 年,背景航空航天大學(xué)實(shí)現(xiàn)了我國(guó)第一個(gè)實(shí)用性的自動(dòng)分詞系統(tǒng)到現(xiàn)在,國(guó)內(nèi)外的研究者在中文分詞領(lǐng)域進(jìn)行了廣泛的研究,提出了許多有效的算法。所以,分詞中遇到未登錄詞匯是不能避 免的。 例: 挨批評(píng) 挨 /批評(píng)(√) 挨批 /評(píng)( X) 對(duì)于交集型歧義字段,真實(shí)文本中偽歧義現(xiàn)象遠(yuǎn)多于真歧義現(xiàn)象。這種情況 叫作偽歧義。 ( 2)組合型歧義 對(duì)于漢字串 AB, A, B, AB 皆可獨(dú)立成詞。形式上相同的一段文字,在不同的場(chǎng)景或語(yǔ)境中,可以切分出不同的結(jié)果,有不同的含義。 上述的兩個(gè)實(shí)例,前者把不是詞的幾個(gè)字放在了一起組成了“詞 ” ,而后者把是詞的卻切分開了。而且不同目標(biāo)的應(yīng)用對(duì)詞的切分規(guī)范的要求又有所不同,理論上講漢語(yǔ)自動(dòng)分詞規(guī)范,作為規(guī)范,那么必須支持各種不同目標(biāo)的應(yīng)用,但不同目標(biāo)的應(yīng)用對(duì)詞的要求是不同的,甚至是有矛盾的。 ④非詞語(yǔ)素問題:現(xiàn)代的書面漢語(yǔ)并非純粹的“現(xiàn)代漢語(yǔ)”,其中夾雜著不少文言成分,如“為民除害”、“以逸待勞”、“幫困濟(jì)窮”等等。在進(jìn)行中文分詞時(shí),對(duì)這些變形結(jié)構(gòu)的切分缺少可操作的、合理的規(guī)范。而產(chǎn)生如此定義涉及多個(gè)方面 [3]: ①核心詞典問題:在進(jìn)行分詞時(shí)需要有一個(gè)核心 (通用的、與領(lǐng)域無關(guān)的 )詞典,即普通詞典,凡在該詞典中存在的詞,在分詞時(shí)就應(yīng)該切分出來。但現(xiàn)在此技術(shù)在經(jīng)過了近 30 年的研究,仍存在諸多不足。當(dāng)然,就當(dāng)今的現(xiàn)狀來說,完全的通用性很難達(dá)到。作為各種高層次中文處理的共同基礎(chǔ), 7 自動(dòng)分詞系統(tǒng)必須具有很好的通用性。如
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1