freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

自然語言理解工程報告-在線瀏覽

2025-04-09 16:14本頁面
  

【正文】 80h 為標(biāo)準(zhǔn),對于所有滿足此條件的字符進行跳過處理。 :由于每個漢字是以全角字符的形式存儲的,因而需要用 char ch[2]來存儲,在讀入時,先判別高字符是否大于 80h,若大于則讀入下一個字符,否則跳過該全角字符(注意,以處理過半角字符,繼續(xù)讀入一個字符)對于滿足條件的字符,則存儲。對所有語料處理完后,再對存儲的初步結(jié)果進行排序處理。中間緩存采用 ch[4]來存儲,先讀入高字節(jié),若為標(biāo)點,采用 5 來處理;若為漢字,用 ch[0,1]來存儲,繼續(xù)讀入下一個字符,若為漢字,則讀入形成一個詞,查表累計次數(shù);若不是漢字,即符號,則跳過該符號。 ,同 6,只是用 ch[6]進行緩存,以后兩個字為判斷標(biāo)志。 ,為此在處理過程中采取的緩存空間應(yīng)該較大,以確保能夠處理長度足夠大的詞組。 標(biāo)點符號在處理過程中不可以忽略,因而需要對標(biāo)點進行相應(yīng)處理,采用的識別機制是大于 80h ,需要選取最大閾值,所還應(yīng)該統(tǒng)計最長字符串的長度,以備切分時所用,為了簡化系統(tǒng),在此采用默認(rèn)最大長度為一個定值。 切分語料: FMM 算法,并利用分隔符(此處為標(biāo)點符號)來進行輔助切分。 ,需要進 行中間處理,因為語料字典只能識別出全角字符以及其識別的字詞有限,為此需要對待切分語料進行兩部處理: ① 去除其中的半角字符。 ,利用 FMM 算法對其切分。 ,檢測是否結(jié)束,當(dāng)中間語料讀入完畢,相應(yīng)的切分結(jié)果也統(tǒng)計完畢。 ,比如說先前已“ /”作為詞結(jié)束標(biāo)志的時候,字典中對于“落”的存儲為“落 {luo}”這樣在遇到“落”字的時候,便無法進行處理,后來采用了兩種方法以應(yīng)對該問題: 1)添加一“ {”作為結(jié)束標(biāo)志; 2)添加未登錄字的識別過程。 ,新聞?wù)Z料,小說語料來進行,通過觀察切分結(jié)果,我發(fā)現(xiàn)對新聞?wù)Z料切分后的找回率最高。 (四) 評估: ,以及處理過程的簡化, 最終的召回率不是太高,有以下幾個原因:①由于 FMM 算法在且分時,最大召回率為 95%;②詞典中的詞語有限,存在未登錄詞;③算法的簡化,閾值采用自己默認(rèn)的數(shù)來決定;④國標(biāo)碼中的漢字?jǐn)?shù)量有限,有一些字未能識別 。 ,同時考慮到對于存儲的每一個詞包含兩個信息(該詞是什么以及該詞對應(yīng)的次數(shù))為此想到了可以采用 stl 中的 mapstring,int來進行存儲,在排序過程中采用優(yōu)先隊列可以方便排序,從而避免使用結(jié)構(gòu)體處理過程中的繁瑣。采用此方法處理時時間復(fù)雜度、空間復(fù)雜度較低。 ,可以采用“最短路徑法”、“基于語言模型的分詞法”等等相結(jié)合的方法,這樣可以讓系統(tǒng)的召回率更高。 四, 系統(tǒng)演示與分析 (一) 宋詞語料 一) 代碼: includeiostream includefstream includevector includestring includemap includequeue includectime using namespace std。 ofstream outfile。 mapstring,intwordnum2。 priority_queue pair int,string ,vector pair int,string queue1。 priority_queue pair int,string ,vector pair int,string queue3。 void init()//文本初始化 { (,ios::in)。 exit(1)。 if(!outfile) { cerropen error!endl。 } } void close() { ()。 } double start()//統(tǒng)計運行時間,開始 { return clock()。 } void count() { string s1=。 string s3=。 unsigned char temp[6]。 infiletemp[i]。 if(temp[i]0x80) continue。 continue。 s1+=temp[i++]。 s1+=temp[i++]。//對應(yīng)字頻加 1 total1++。//逐個字符讀入 if(()) break。 if(temp[i]0xB0)//除去 符號 { infiletemp[i]。 } s2=。 infiletemp[i]。 wordnum1[s2]++。 wordnum2[s1+s2]++。 //第三個字不是漢字,則重新輸入 print: infiletemp[i]。 if(temp[i]0x80) continue。 continue。//漢字,則進行統(tǒng)計 s3+=temp[i++]。 s3+=temp[i++]。//對應(yīng)字頻加 1 total1++。//對應(yīng)字頻加 1 total2++。 wordnum3[s1]++。 s1=s2。 i=4。 goto print。 outfile單詞種類 :()endl。 outfile單詞種類 :()endl。 outfile單詞種類 :()endl。iter!=()。 } for(mapstring,int::iterator iter=()。iter++) { (make_pair(itersecond,iterfirst))。iter!=()。 } } void output4()//輸出統(tǒng)計結(jié)果 { pairint,stringtmp。 int K1=0,K2=0,K3=0。 cinK1。 cinK2。 cinK3。 while(!()amp。K1) { tmp=()。 outfile\tendl。 } outfilee
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1