正文內(nèi)容

漢語分詞技術(shù)初探計算機(jī)科學(xué)與技術(shù)畢業(yè)論文(文件)

2024-12-01 19:02 上一頁面

下一頁面

　

【正文】，并不直接顯示在屏幕上，而是生成一個文檔，生成的文檔名默認(rèn)為源文件名 +_pos。 } 屏幕分詞函數(shù)： void scrposcutword(){ int i,j,k。 //bp為字符串已識別指針， sb為臨時用指針 ,sp為結(jié)果數(shù)組指針 char ch[2],buffer[37]。rp=0。i36。 break。 strcat(buffer,ch)。i=0。 j=binsearch(sum,buffer)。 rp++。 scrres[rp]=39。 bp=bp+k。并將 bp指針往前移相應(yīng)位置 32 if(buffer[0]0) {strcat(scrres,buffer)。 mask=1。 rp+=1。 break。 scrres[rp]=0。 } buffer[i]=0。 i = fseek(fp1,0,SEEK_END)。 //所以要減去回車的次數(shù) while(1) { c=fgetc(fp1)。 source = (char *)malloc( filelen*sizeof(char) )。 //將文件指針定位在文件開始處 j=fread(source,1,filelen,fp1)。分詞結(jié)束后可以點擊“文件”菜單下的“保存”按鈕對結(jié)果進(jìn)行保存。六、結(jié)論本文對漢語分詞技術(shù)進(jìn)行了詳細(xì)的介紹，并對一些方面進(jìn)行了分析，最后嘗試實現(xiàn)正向最大匹配算法，最終設(shè)計出了采用正向最大匹配算法的程序，在測試中，對于此程序的分詞速度和分詞結(jié)果還是比較滿意的，但是此程序也存在著很大的缺陷，例如對于歧義字段和未登錄詞無法有效的識別和切分，分詞的效率和準(zhǔn)確性受到詞庫容量的約束等。在這里我首先要深深地感謝我的指導(dǎo)老師，在這一學(xué)期的學(xué)習(xí)和生活中，老師給予我細(xì)致的關(guān)懷和悉心的指導(dǎo)，老師為人之友善、知識之淵博、治學(xué)之嚴(yán)謹(jǐn)，使我受益匪淺，并為我努力學(xué)習(xí)的榜樣。內(nèi)部資料，請勿外傳！ XuyUP2kNXpRWXm Aamp。 gTXRm6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 gTXRm 6X4NGpP$vSTTamp。 UE9aQGn8xp$Ramp。ksv*3t nGK8!z89Am YWpazadNuKNamp。 gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。gTXRm 6X4NGpP$vSTTamp。 UE9aQGn8xp$Ramp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。 ksv*3t nGK8! z89Am YWpazadNuKNamp。ksv*3。qYpEh5pDx2zVkumamp。qYpEh5pDx2zVkumamp。 qYpEh5pDx2zVkumamp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。MuWFA5ux^Gj qv^$UE9wEwZQcUE% amp。MuWFA5uxY7JnD6YW Rr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。849Gx^Gj qv^$UE9wEwZQcUE%amp。qYpEh5pDx2zVkumamp。 6a*CZ7H$dq8Kqqf HVZFedswSyXTyamp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 MuWFA5ux^Gj qv^$UE9wEwZQcUE%amp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK! zn%Mz849Gx^Gj qv^$UE9wEwZQcUE%amp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。MuWFA5uxY7JnD6YWRr Wwc^vR9CpbK!zn%Mz849Gx^Gj qv^$UE9wEwZQcUE% amp。MuWFA5ux^Gjqv^$UE9wEwZQcUE% amp。 MuWFA5uxY7JnD6YWRrWwc^vR9CpbK! zn% Mz849Gx^Gjqv^$UE9wEwZQcUE% amp。 849Gx^Gj qv^$UE9wEwZQcUE%amp。借此機(jī)會，我向老師表達(dá)我最深切的感謝和最誠摯的敬意。由于個人能力有限，論文中難免出現(xiàn)一些錯誤，忘大家給予指正。圖 7 屏幕分詞結(jié)果 35 同樣，對文件分詞功能進(jìn)行測試，輸入文件名為“文件分詞程序測試”輸出文件名自動命名為“文件分詞程序測試 _pos”，所得結(jié)果為圖 8所示。 } 到此，程序的分詞主程序部分就介紹完了，程序主面板的設(shè)計在此就不一一列出了，下邊對程序進(jìn)行分詞測試。 { MessageBox(hWnd,內(nèi)存分配失?。?,錯誤 ,MB_OK)。 if(c==EOF) break。 rewind(fp1)。 } 33 以上的是屏幕分詞的主程序部分，文件分詞主程序部分與其基本相同，現(xiàn)只列出文件分詞初始化函數(shù)： int preposcutword() { int i,j。mask=1。 strcat(scrres,buffer)。 bp=bp+1。} else{ buffer[1]=0。 scrres[rp]=0。 } else //如果查不到 { A： if(i==1){ //若還剩 2個字節(jié)，則判斷第一個字節(jié)，若大于 0，說明不是漢字，輸出一個字節(jié) buffer[2]=0。 rp++。 } strcat(scrres,buffer)。 scrres[rp]=39。 j=1。 } if(end==1)break。 ch[1]=0。amp。 sb=bp。 strcpy(scrres,)。 //為 1標(biāo)示已經(jīng)掃描完待分析文件，反之為 0 int mask=0。 //字典來自網(wǎng)絡(luò)，文件名為 wordlist qsort(tt,sum,40*sizeof(char),pare)。 //修改查找區(qū)間下界 } return 1。 while(low=high){ mid=(low+high)/2。 //屏幕文件結(jié)果區(qū) 28 最大正向匹配算法是離不開詞典的，分詞時需要對詞典內(nèi)的詞進(jìn)行比較，定義比較函數(shù)為： int pare(const void* a,const void* b) {return strcmp((char*)a,(char*)b)。 //字典長度 FILE *fp1,*fp2。圖 4 文件分詞對話框 27 圖 5 文件分詞成功提示對話框編輯選項中包含了一些可以對文檔進(jìn)行簡單編輯操作的選項，如圖 6所示。打開后再點擊“屏幕分詞”按鈕，程序便開始對打開文檔進(jìn)行分詞，結(jié)果直接輸出到程序主面板的空白處。其中分詞功能分為屏幕分詞和文件分詞兩種方式。如果 n 等于 1，則直接跳轉(zhuǎn)到第三步，若不等于 1 則將詞典中最長詞的字?jǐn)?shù) 賦予 m,然后比較 n 與 m 的大小，若 nm，則將 n 的值賦予 m。假設(shè)詞典中最長的詞有 i個漢字字符，先對輸入文本長度進(jìn)行判定，若輸入文本長度小于或等于 i，則只在最大詞長范圍內(nèi)進(jìn)行處理就行了，若輸入文本長度大于 i，則用輸入文本的當(dāng)前字符串中的前 i個字作為匹配字段，與字典進(jìn)行匹配，若字典中存在這樣一個 i個字的詞，則匹配字段就被切分出來。以“我們是中華人民共和國的公民”為例，如果事先知道詞典的最長詞長，那么將減少很多步驟，從而提高分詞速度。 22 圖 2 減字分詞法過程上圖就是減字法的分詞過程，為了說明該方法是如何分詞的，我們利用減字法進(jìn)行最大匹配分詞，之所以稱為最大匹配，就是要求每一句的切分結(jié)果中詞組的總數(shù)最少。最后，最大的匹配并不一定是想要的分詞結(jié)果。（一）正向最大匹配算法在第三章中對現(xiàn)今的中文分詞算法進(jìn)行了介紹，其中介紹了基于字符串匹配的分詞算法，又叫機(jī)械分詞算法，機(jī)械分詞算法里又包含了一種正向最大匹配算法，正向最大匹配算法里又有兩個分支：增字匹配法和減字匹配法。啊阿 ?? 大 ?? 004 089 ?? 794 ?? 。通過首字散列表的哈希定位和詞索引表很容易確定指定詞在詞典正文中的可能位置范圍，進(jìn)而在詞典正文中通過整詞二分進(jìn)行定位。這種詞典結(jié)構(gòu)算法簡單、易于實現(xiàn)、有效空間使用率高，缺點是查找效率低，而且更新代價高。鍵樹的深度 h 則 19 取決于關(guān)鍵字中字符或數(shù)位的個數(shù)。 Trie 樹鍵樹 [7]又稱數(shù)字查找樹。以首字 Hash 詞典機(jī)制的原理為例，據(jù)漢字機(jī)內(nèi)碼的編碼規(guī)律可知，我們就可以通過一對一映射的 Hash 函數(shù)實現(xiàn)詞首字的快速查找。 18 （一）詞典的索引使用索引來組織數(shù)量龐大的文件是一種高效的方法。那么，在實際的應(yīng)用中，我們就可以把三種分詞方法全部利用上，以求達(dá)到最好的效果。一元分詞和二元分詞是比較流行的非詞典式分詞方法。因為對于搜索引擎來說，在查詢切分和文檔切分時采用相同的分詞算法，如果有一些文檔切分是分詞是錯誤，在查詢切分時也產(chǎn)生相同的切分錯誤。這樣既滿足了查詢“搜索引擎”的要求，又滿足了查詢“搜索”的要求。對于上面這個例子，我們采取組織兩個詞典的措施：一個為專業(yè)詞典，一個為普通詞典。因此我們可以得到這樣一個結(jié)論，對同一文本進(jìn)行切分，如果使用的詞典不同，會導(dǎo)致不同的分詞 16 結(jié)果。混合分詞對于實際應(yīng)用中的中文信息檢索系統(tǒng)來說，當(dāng)弄不清楚使用哪種分詞算法更好的話，可以試著合并使用多種方法，混合分詞就是一種簡單且容易實現(xiàn)的方法，也是大型檢索系統(tǒng)中常用的一種方法，使用混合分詞方法能夠涵蓋更多的詞匯。它的優(yōu)點在于可以發(fā)現(xiàn)所有的切分歧義，但是統(tǒng)計語言模型的精度和決策算法在很大程度上決定了解決歧義的方法，需要大量的標(biāo)注語料， 15 并且分詞速度也因搜索空間的增大而有所緩慢?；ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。由于漢語語言知識的籠統(tǒng)、復(fù)雜性，難以將各種語言信息組織成機(jī)器可直接讀取的形式，因此目前基于理解的分詞系統(tǒng)還處在試驗階段。其基本思想就是在分詞的同時進(jìn)行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。統(tǒng)計結(jié)果表明 [5]，單純使用正向最大匹配的錯誤率為 1/169，單純使用逆向最大匹配的錯誤率為 1/245?？梢园褭C(jī)械分詞作為初步的處理手段，然后再通過進(jìn)一步工作提高結(jié)果的正確率。（ 3)最少切分 (使每一句中切出的詞數(shù)最小 )。減字法的流程為：首先讀入一句句子，取出標(biāo)點符號，這樣句子就被分成相應(yīng)的若干段，然后對每一段進(jìn)行詞典的匹配，如果沒有匹配成功就 13 從段末尾減去一個字，再進(jìn)行匹配，重復(fù)上述過程，直到匹配上某一個單詞。常用的幾種機(jī)械分詞算法如下：（ 1）正向最大匹配法 (由左到右的方向 )；正向最大匹配分詞是基于詞典的分詞系統(tǒng)。三、基本中文分詞算法自從 1983 年，背景航空航天大學(xué)實現(xiàn)了我國第一個實用性的自動分詞系統(tǒng)到現(xiàn)在，國內(nèi)外的研究者在中文分詞領(lǐng)域進(jìn)行了廣泛的研究，提出了許多有效的算法。所以，分詞中遇到未登錄詞匯是不能避免的。例：挨批評挨 /批評（√）挨批 /評（ X）對于交集型歧義字段，真實文本中偽歧義現(xiàn)象遠(yuǎn)多于真歧義現(xiàn)象。這種情況叫作偽歧義。（ 2）組合型歧義對于漢字串 AB, A, B, AB 皆可獨立成詞。形式上相同的一段文字，在不同的場景或語境中，可以切分出不同的結(jié)果，有不同的含義。上述的兩個實例，前者把不是詞的幾個字放在了一起組成了“詞 ” ，而后者把是詞的卻切分開了。而且不同目標(biāo)的應(yīng)用對詞的切分規(guī)范的要求又有所不同，理論上講漢語自動分詞規(guī)范，作為規(guī)范，那么必須支持各種不同目標(biāo)的應(yīng)用，但不同目標(biāo)的應(yīng)用對詞的要求是不同的，甚至是有矛盾的。 ④非詞語素問題：現(xiàn)代的書面漢語并非純粹的“現(xiàn)代漢語”，其中夾雜著不少文言成分，如“為民除害”、“以逸待勞”、“幫困濟(jì)窮”等等。在進(jìn)行中文分詞時，對這些變形結(jié)構(gòu)的切分缺少可操作的、合理的規(guī)范。而產(chǎn)生如此定義涉及多個方面 [3]： ①核心詞典問題：在進(jìn)行分詞時需要有一個核心 (通用的、與領(lǐng)域無關(guān)的 )詞典，即普通詞典，凡在該詞典中存在的詞，在分詞時就應(yīng)該切分出來。但現(xiàn)在此技術(shù)在經(jīng)過了近 30 年的研究，仍存在諸多不足。當(dāng)然，就當(dāng)今的現(xiàn)狀來說，完全的通用性很難達(dá)到。作為各種高層次中文處理的共同基礎(chǔ)， 7 自動分詞系統(tǒng)必須具有很好的通用性。如

點擊復(fù)制文檔內(nèi)容

醫(yī)療健康相關(guān)推薦

計算機(jī)網(wǎng)路技術(shù)畢業(yè)論文-資料下載頁

【摘要】鄭州旅游職業(yè)學(xué)院畢業(yè)設(shè)計(論文)2020年12月7日姓名：郭俊苛學(xué)號：09021933年級：09級系別：旅游商貿(mào)系專業(yè)：

2024-11-16 17:29

畢業(yè)設(shè)計畢業(yè)論文計算機(jī)科學(xué)與技術(shù)計算機(jī)遠(yuǎn)程控制軟件的設(shè)計與開發(fā)-資料下載頁

【摘要】xx學(xué)院本科生畢業(yè)論文計算機(jī)遠(yuǎn)程控制軟件的設(shè)計與開發(fā)ComputerRemoteControlSoftwareDesignandDevelopment院系計算機(jī)科學(xué)與工程學(xué)院專業(yè)計算機(jī)科學(xué)與技術(shù)學(xué)生班級xx級

2024-12-03 20:32

計算機(jī)科學(xué)與技術(shù)畢業(yè)論-資料下載頁

【摘要】第1頁共16頁摘要隨著計算機(jī)網(wǎng)絡(luò)技術(shù)及相關(guān)技術(shù)的不斷發(fā)展，考試的手段和媒介也在發(fā)生著巨大的變化，傳統(tǒng)的考試方式和手段正面臨著強(qiáng)烈的沖擊。計算機(jī)網(wǎng)絡(luò)技術(shù)應(yīng)用于教育領(lǐng)域，經(jīng)歷了從傳統(tǒng)的紙筆考試到計算機(jī)輔助考試，再到實現(xiàn)了真正的無紙化考試。在線式考試不僅可以節(jié)省大量的人力、物力，還可以提高考試的效率和質(zhì)量，降低考試成本，使得網(wǎng)絡(luò)考試

2025-05-07 20:53

學(xué)籍管理系統(tǒng)計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)設(shè)計畢業(yè)論文-資料下載頁

【摘要】摘要學(xué)籍管理是整個學(xué)院管理工作的關(guān)鍵環(huán)節(jié)之一，涉及到成績管理、學(xué)籍管理等諸多方面。采用管理信息系統(tǒng)來管理學(xué)生是大使所趨，它能提高學(xué)院管理工作的現(xiàn)代化、科學(xué)化水平，保證信息處理的即時化、準(zhǔn)確化。論文根據(jù)調(diào)查各院對學(xué)籍管理的需求，分析出一般學(xué)院的學(xué)生管理業(yè)務(wù)流程，收集了與學(xué)生信息相關(guān)的資料，確定了學(xué)籍管理系統(tǒng)的目標(biāo)和主要功能需求。在軟件需求的基礎(chǔ)上，

2024-11-29 10:18

計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)論文--網(wǎng)上拍賣系統(tǒng)畢業(yè)設(shè)計-資料下載頁

【摘要】計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)論文--網(wǎng)上拍賣系統(tǒng)畢業(yè)設(shè)計摘要隨著Inter的日益普及和電子商務(wù)的發(fā)展,網(wǎng)上拍賣迅速成為一種非常活躍的C2C電子商務(wù)模式。文中詳細(xì)介紹了JSP技術(shù)以及分析了基于JSP建立網(wǎng)上拍賣系統(tǒng)的技術(shù)手段，深入探討了如何利用Hirbernate技術(shù)實現(xiàn)與mysql數(shù)據(jù)庫連接的

2024-12-03 17:09

證書管理系統(tǒng)計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)設(shè)計畢業(yè)論文-資料下載頁

【摘要】浙江工貿(mào)職業(yè)技術(shù)學(xué)院信息傳媒學(xué)院畢業(yè)設(shè)計（論文）課題名稱：證書管理系統(tǒng)學(xué)生姓名:　　XXX　　　　　　　　　　專業(yè):XXXXX學(xué)生學(xué)號:　　XXXXXXXX學(xué)生班級:　　XXXXXX　　　　　　　　　指導(dǎo)教師:　　XXX　

2024-12-03 17:07

計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)論文--智能排課系統(tǒng)畢業(yè)設(shè)計-資料下載頁

【摘要】計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)論文--智能排課系統(tǒng)畢業(yè)設(shè)計摘要排課問題是所有教育行業(yè)都要面對的問題，尤其針對高校紛繁復(fù)雜的課程和專業(yè)，一直沒有很好解決方法。但這又是每個學(xué)校在每個學(xué)期都會碰到的必修課。本文在相關(guān)理論的指導(dǎo)下，在分析以往一些排課軟件的基礎(chǔ)上，提出一種排課系統(tǒng)的設(shè)計方法，對一些具體的問題給出

2024-12-03 17:07

計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)論文--網(wǎng)上購物系統(tǒng)畢業(yè)設(shè)計-資料下載頁

【摘要】計算機(jī)科學(xué)與技術(shù)專業(yè)畢業(yè)論文--網(wǎng)上購物系統(tǒng)畢業(yè)設(shè)計摘要隨著社會的不斷發(fā)展，科學(xué)技術(shù)也在不斷的更新。Inter作為新型的工具，在90年代便開始用于商業(yè)，它的迅速的發(fā)展為商業(yè)界提供了更加廣闊信息平臺與更多的商機(jī)，如催化劑一般刺激著商業(yè)經(jīng)濟(jì)的快速發(fā)展。因此選擇設(shè)計開發(fā)一個企業(yè)門戶網(wǎng)站擁有重要的

2024-12-02 02:47

計算機(jī)科學(xué)與技術(shù)畢業(yè)論文java聊天室的設(shè)計-資料下載頁

【摘要】湖北大學(xué)知行學(xué)院本科畢業(yè)論文（設(shè)計）題目基于JAVA的聊天室設(shè)計與實現(xiàn)計算機(jī)與信息工程系計算機(jī)科學(xué)與技術(shù)專業(yè)學(xué)號0811050002

2024-11-16 17:43

計算機(jī)科學(xué)與技術(shù)畢業(yè)論文--電子購物網(wǎng)站開發(fā)-資料下載頁

【摘要】本科畢業(yè)論文電子購物網(wǎng)站開發(fā)E-ShoppingSite目錄電子購物網(wǎng)站摘要....................................................................................................

2024-11-16 17:29

計算機(jī)科學(xué)與技術(shù)電子購物網(wǎng)站開發(fā)畢業(yè)論文-資料下載頁

【摘要】本科畢業(yè)論文電子購物網(wǎng)站開發(fā)E-ShoppingSite目錄電子購物網(wǎng)站摘要 2E-Shoppingsite 3第1章概述 4課題背景 5國內(nèi)外在該方向的研究現(xiàn)狀及分析 5目標(biāo) 5使用的開發(fā)平臺 5第2章系統(tǒng)總體分析和設(shè)計 6設(shè)計思路 6系統(tǒng)

2025-06-24 16:09

計算機(jī)科學(xué)與技術(shù)專業(yè)本科畢業(yè)論文正稿-資料下載頁

【摘要】....計算機(jī)科學(xué)與技術(shù)專業(yè)本科畢業(yè)論文題目：公交查詢系統(tǒng)學(xué)號：021220753姓名：XX學(xué)校：開放教育學(xué)院指導(dǎo)教師：X

2025-06-23 06:13

計算機(jī)網(wǎng)絡(luò)技術(shù)畢業(yè)論文計算機(jī)病毒防范技術(shù)-資料下載頁

【摘要】PINGDINGSHANUNIVERSITY畢業(yè)論文(設(shè)計)題目:計算機(jī)病毒防范技術(shù)院(系):軟件學(xué)院專業(yè)年級:計算機(jī)網(wǎng)絡(luò)技術(shù)2020級

2024-11-08 18:55

計算機(jī)科學(xué)與技術(shù)畢業(yè)論文(局域網(wǎng)qq設(shè)計與實現(xiàn))-資料下載頁

【摘要】.....學(xué)習(xí)參考e成都東軟信息技術(shù)職業(yè)學(xué)院畢業(yè)設(shè)計報告題目：局域網(wǎng)QQ制作系別：計算機(jī)科學(xué)與技術(shù)系專業(yè)班級：軟件技術(shù)(可視化程序設(shè)計)

2025-06-27 22:33

計算機(jī)科學(xué)技術(shù)論文-資料下載頁

【摘要】計算機(jī)科學(xué)技術(shù)論文題目ICA協(xié)議在Inter終端服務(wù)的應(yīng)用專業(yè)計算機(jī)科學(xué)與技術(shù)II目錄摘要:....................................................................11、概述...............................................

2025-01-17 04:15