freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

自然語言理解工程報告-文庫吧資料

2025-02-12 16:14本頁面
  

【正文】 =()。iter++) { (make_pair(itersecond,iterfirst))。 } void sort1()//調(diào)用優(yōu)先隊列進行排序,默認為從大到小 { for(mapstring,int::iterator iter=()。 } void output3()//輸出單詞總數(shù)及種類 { outfile單詞總數(shù) :total3endl。 } void output2()//輸出單詞總數(shù)及種類 { outfile單詞總數(shù) :total2endl。 } } void output1()//輸出單詞總數(shù)及種類 { outfile單詞總數(shù) :total1endl。 s3=。//重新賦值,跳轉(zhuǎn)移到 print s2=s3。//對應(yīng)字頻加 1 total3++。 s1+=(s2+s3)。 wordnum2[s2+s3]++。 wordnum1[s3]++。 infiletemp[i]。 } s3=。 if(temp[i]0xB0)//除去 符號 { infiletemp[i]。//逐個字符讀入 if(()) break。//對應(yīng)字頻加 1 total2++。//對應(yīng)字頻加 1 total1++。 s2+=temp[i++]。 s2+=temp[i++]。 continue。 if(temp[i]0x80) continue。 //第二個字不是漢字,則重新輸入 infiletemp[i]。 wordnum1[s1]++。 infiletemp[i]。 } s1=。 if(temp[i]0xB0)//除去 符號 { infiletemp[i]。 if(()) break。//最大長度為 5 while(true) { //第一個字不是漢字,則重新輸入 i=0。 int i=0。 string s2=。 } void end(double t) { cout Elapsed Time: (clock()t)/CLOCKS_PER_SEC sendl。 ()。 exit(1)。 } (,ios::app)。 if(!infile) { cerropen error!endl。 int total1=0,total2=0,total3=0。//定義優(yōu)先隊列 priority_queue pair int,string ,vector pair int,string queue2。 mapstring,intwordnum3。 mapstring,intwordnum1。 ifstream infile。 ,采用宋詞語料的處理方式,對出現(xiàn)次數(shù)大于某一個數(shù)的詞默認其為一個新詞,這樣系統(tǒng)的找回 率可能會進一步提高,但所需語料必須很大,才能保證新詞的正確率。 ,因而存在語料中的字無法識別,統(tǒng)計結(jié)果與實際結(jié)果存在偏差;對于標點符號的的處理默認其范圍在 8000h——B000h 之間,因而可能會存在一些標點未能處理。 ,采用默認方式由高到低進行,排序過程中由于是以int(及對應(yīng)的次數(shù)作為排序依據(jù))所 以需調(diào)整為 mapint,string。 ,剛開始采用的是分三步來識別(先識別一個字;再識別兩個字;最后識別三個字)發(fā)現(xiàn)效率比較低,因而采用嵌套處理,同時采用了 goto 語句,方便跳轉(zhuǎn)。分析原因可知,各種問題的語法構(gòu)成不同,以及一些未登錄詞沒有采用相應(yīng)的添加處理。 符會影響到系統(tǒng)的切分,由于半角字符不屬于中文詞語,一概采用去除處理。 (二) 系統(tǒng)流程: : : : (三) 訓(xùn)練模型及測試: 由于 語料大小有限,在切分的過程中會出現(xiàn)一系列的問題:比如有一些字無法切分,半角字符處理有問題,標點符號未登陸?? ,那么在切分的時候,很容易把標點符號的前后兩個字組成一個詞,很顯然這是不符合常理的。由于語料有限,在處理閾值是可以采用簡化處理,給予一個固定的閾值,這樣實現(xiàn)起來也較為簡單。 ② 添加未登錄字到語料字典中,由于語料有限,無法準確判斷一個詞,所以在此簡化處理識別位登陸字。 算法的具體實施過程已在模型方法中說明,此處可略去;標點符號輔助切分,對應(yīng)于人民日報語料中的標點符號。 不斷循環(huán)處理語料,知道語料的結(jié)束,對應(yīng)的語料字典也生成完畢。 ,采用循環(huán)輸入,先識別出一個詞的開始,以大于 80h 為判別依據(jù),不斷檢測下一個字符的高字節(jié)(確保當前漢字讀寫完畢),若遇到結(jié)束否,則該詞讀入完畢,存儲該詞,同時對于后面的注釋部分采用跳過處理。 對人民日報語料處理: ,以 ”/”或者 ”{”為結(jié)束標志;詞語之間以空格分開;對于 ”/”或者 ”{”后面的注釋部分可以不處理。然后對 ch[4]清空,繼續(xù)循環(huán)讀入,處理完所有語料再排序處理。 :由于處理兩個字時需要考慮到標點符號的影響,當當前字符為漢字,下一個字符為標點時,則不能作為一個詞。同時進行查表來判斷該字是否已經(jīng)出現(xiàn)過,出現(xiàn)過則 次數(shù)加一,然后清空 ch[2],繼續(xù)循環(huán)處理。 ,經(jīng)初步分析可知,漢字的最小國標碼為 B000h,所以可以采用對小于該國標碼的漢字進行相應(yīng)處理,從而識別出一個、兩個、三個詞組。 ,首先我們需要對其進行抽樣調(diào)查,經(jīng)調(diào)查發(fā)現(xiàn)其中除了全角字符外,還有一些半角字符以及不能識別字符等,為此我們需要對這些問題進行處理。假定每個字只有 4 個詞位:詞首 (B)、詞中 (M)、詞尾 (E)和單獨成詞 (S),那么,每個字歸屬一特定的詞位。 4. 基于 HMM 的分詞方法 基本思想: 把輸入字串 (句子 )S 作為 HMM 的輸入;切分后的單詞串 Sw 為狀態(tài)的輸出,即觀
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1