正文內(nèi)容

自然語言理解工程報告-文庫吧資料

2025-02-12 16:14本頁面

　　

【正文】 =()。iter++) { (make_pair(itersecond,iterfirst))。 } void sort1()//調(diào)用優(yōu)先隊列進行排序，默認為從大到小 { for(mapstring,int::iterator iter=()。 } void output3()//輸出單詞總數(shù)及種類 { outfile單詞總數(shù) :total3endl。 } void output2()//輸出單詞總數(shù)及種類 { outfile單詞總數(shù) :total2endl。 } } void output1()//輸出單詞總數(shù)及種類 { outfile單詞總數(shù) :total1endl。 s3=。//重新賦值，跳轉(zhuǎn)移到 print s2=s3。//對應(yīng)字頻加 1 total3++。 s1+=(s2+s3)。 wordnum2[s2+s3]++。 wordnum1[s3]++。 infiletemp[i]。 } s3=。 if(temp[i]0xB0)//除去符號 { infiletemp[i]。//逐個字符讀入 if(()) break。//對應(yīng)字頻加 1 total2++。//對應(yīng)字頻加 1 total1++。 s2+=temp[i++]。 s2+=temp[i++]。 continue。 if(temp[i]0x80) continue。 //第二個字不是漢字，則重新輸入 infiletemp[i]。 wordnum1[s1]++。 infiletemp[i]。 } s1=。 if(temp[i]0xB0)//除去符號 { infiletemp[i]。 if(()) break。//最大長度為 5 while(true) { //第一個字不是漢字，則重新輸入 i=0。 int i=0。 string s2=。 } void end(double t) { cout Elapsed Time: (clock()t)/CLOCKS_PER_SEC sendl。 ()。 exit(1)。 } (,ios::app)。 if(!infile) { cerropen error!endl。 int total1=0,total2=0,total3=0。//定義優(yōu)先隊列 priority_queue pair int,string ,vector pair int,string queue2。 mapstring,intwordnum3。 mapstring,intwordnum1。 ifstream infile。，采用宋詞語料的處理方式，對出現(xiàn)次數(shù)大于某一個數(shù)的詞默認其為一個新詞，這樣系統(tǒng)的找回率可能會進一步提高，但所需語料必須很大，才能保證新詞的正確率。，因而存在語料中的字無法識別，統(tǒng)計結(jié)果與實際結(jié)果存在偏差；對于標點符號的的處理默認其范圍在 8000h——B000h 之間，因而可能會存在一些標點未能處理。，采用默認方式由高到低進行，排序過程中由于是以int（及對應(yīng)的次數(shù)作為排序依據(jù)）所以需調(diào)整為 mapint,string。，剛開始采用的是分三步來識別（先識別一個字；再識別兩個字；最后識別三個字）發(fā)現(xiàn)效率比較低，因而采用嵌套處理，同時采用了 goto 語句，方便跳轉(zhuǎn)。分析原因可知，各種問題的語法構(gòu)成不同，以及一些未登錄詞沒有采用相應(yīng)的添加處理。符會影響到系統(tǒng)的切分，由于半角字符不屬于中文詞語，一概采用去除處理。（二）系統(tǒng)流程：：：：（三）訓(xùn)練模型及測試：由于語料大小有限，在切分的過程中會出現(xiàn)一系列的問題：比如有一些字無法切分，半角字符處理有問題，標點符號未登陸?? ，那么在切分的時候，很容易把標點符號的前后兩個字組成一個詞，很顯然這是不符合常理的。由于語料有限，在處理閾值是可以采用簡化處理，給予一個固定的閾值，這樣實現(xiàn)起來也較為簡單。 ② 添加未登錄字到語料字典中，由于語料有限，無法準確判斷一個詞，所以在此簡化處理識別位登陸字。算法的具體實施過程已在模型方法中說明，此處可略去；標點符號輔助切分，對應(yīng)于人民日報語料中的標點符號。不斷循環(huán)處理語料，知道語料的結(jié)束，對應(yīng)的語料字典也生成完畢。，采用循環(huán)輸入，先識別出一個詞的開始，以大于 80h 為判別依據(jù)，不斷檢測下一個字符的高字節(jié)（確保當前漢字讀寫完畢），若遇到結(jié)束否，則該詞讀入完畢，存儲該詞，同時對于后面的注釋部分采用跳過處理。對人民日報語料處理：，以 ”/”或者 ”{”為結(jié)束標志；詞語之間以空格分開；對于 ”/”或者 ”{”后面的注釋部分可以不處理。然后對 ch[4]清空，繼續(xù)循環(huán)讀入，處理完所有語料再排序處理。：由于處理兩個字時需要考慮到標點符號的影響，當當前字符為漢字，下一個字符為標點時，則不能作為一個詞。同時進行查表來判斷該字是否已經(jīng)出現(xiàn)過，出現(xiàn)過則次數(shù)加一，然后清空 ch[2]，繼續(xù)循環(huán)處理。，經(jīng)初步分析可知，漢字的最小國標碼為 B000h，所以可以采用對小于該國標碼的漢字進行相應(yīng)處理，從而識別出一個、兩個、三個詞組。，首先我們需要對其進行抽樣調(diào)查，經(jīng)調(diào)查發(fā)現(xiàn)其中除了全角字符外，還有一些半角字符以及不能識別字符等，為此我們需要對這些問題進行處理。假定每個字只有 4 個詞位：詞首 (B)、詞中 (M)、詞尾 (E)和單獨成詞 (S)，那么，每個字歸屬一特定的詞位。 4. 基于 HMM 的分詞方法基本思想：把輸入字串 (句子 )S 作為 HMM 的輸入；切分后的單詞串 Sw 為狀態(tài)的輸出，即觀

點擊復(fù)制文檔內(nèi)容

環(huán)評公示相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

自然語言理解工程報告-文庫吧資料

自然語言理解講義第三章-文庫吧資料

大自然語言教案-文庫吧資料

人工智能基礎(chǔ)08--自然語言理解24-文庫吧資料

自然語言處理naturallanguageprocessing(nlp)-文庫吧資料

自然語言理解大作業(yè)指南中文的分詞-詞性標注系統(tǒng)-文庫吧資料

自然語言處理之語言學(xué)基礎(chǔ)-文庫吧資料

大自然語言說課稿及擴展資料-文庫吧資料

自然語言元語言理論的翻譯觀畢業(yè)論文-文庫吧資料

最大熵模型與自然語言處理maxentmodelnlp-文庫吧資料

大自然語言初二語文上學(xué)期說課稿-文庫吧資料

8自然語言處理的應(yīng)用及發(fā)展趨勢-文庫吧資料

自然語言處理的新需求、新資源、新技術(shù)-文庫吧資料

深度學(xué)習(xí)在自然語言處理的應(yīng)用v-文庫吧資料

論自然語言量化結(jié)構(gòu)的單調(diào)推理關(guān)系畢業(yè)論文-文庫吧資料

基于自然語言思想的遞進c_c教程3ppt-文庫吧資料

自然語言理解工程報告(已修改)

自然語言理解工程報告(編輯修改稿)

自然語言理解工程報告-wenkub.com

自然語言理解工程報告(已改無錯字)

自然語言理解工程報告-資料下載頁

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

自然語言理解工程報告-文庫吧資料

自然語言理解講義第三章-文庫吧資料

大自然語言教案-文庫吧資料

人工智能基礎(chǔ)08--自然語言理解24-文庫吧資料

自然語言處理naturallanguageprocessing(nlp)-文庫吧資料

自然語言理解大作業(yè)指南中文的分詞-詞性標注系統(tǒng)-文庫吧資料

自然語言處理之語言學(xué)基礎(chǔ)-文庫吧資料

大自然語言說課稿及擴展資料-文庫吧資料

自然語言元語言理論的翻譯觀畢業(yè)論文-文庫吧資料

最大熵模型與自然語言處理maxentmodelnlp-文庫吧資料

大自然語言初二語文上學(xué)期說課稿-文庫吧資料

8自然語言處理的應(yīng)用及發(fā)展趨勢-文庫吧資料

自然語言處理的新需求、新資源、新技術(shù)-文庫吧資料

深度學(xué)習(xí)在自然語言處理的應(yīng)用v-文庫吧資料

論自然語言量化結(jié)構(gòu)的單調(diào)推理關(guān)系畢業(yè)論文-文庫吧資料

基于自然語言思想的遞進c_c教程3ppt-文庫吧資料

自然語言理解工程報告(已修改)

自然語言理解工程報告(編輯修改稿)

自然語言理解工程報告-wenkub.com

自然語言理解工程報告(已改無錯字)

自然語言理解工程報告-資料下載頁

自然語言處理的新需求、新資源、新技術(shù)-文庫吧資料