【導(dǎo)讀】1從字符串到詞串。漢語(yǔ)自動(dòng)分詞的困難。對(duì)分詞質(zhì)量的評(píng)價(jià)。後面,皇后——后。松樹,鬆開——松。拋妻別字——拋妻別子?;谧值臋z索和基于詞的檢索。檢索“人為”,可能輸出的結(jié)果:。人為因素、人為什么活著、以人為本、……張店區(qū)大學(xué)生不看重大城市的戶口本。你認(rèn)為學(xué)生會(huì)聽老師的嗎。我家門前的小河很難過(guò)。Lemmatization:對(duì)詞進(jìn)行內(nèi)部結(jié)構(gòu)和形式分析。a.字母-點(diǎn)號(hào)-字母-點(diǎn)號(hào)組成的序列,比如:..等等;b.字母開頭,最后以點(diǎn)號(hào)結(jié)束,比如:A.b.Mr.eds.prof.;表示不出現(xiàn)或只出現(xiàn)1次,符到候選詞數(shù)組,并將指針前移,W部分刪去,清空W,轉(zhuǎn)入;如果不是詞分隔符,看指針是否已經(jīng)指到字符流尾部;字符作為一個(gè)詞匯單位輸出,結(jié)束。真實(shí)文本中還有,!!!有關(guān)屈折詞尾變形的規(guī)則。初始化:待分析的詞形=W,d=W的字符數(shù),i=1,設(shè)輸出串R="";如果i(d/2),執(zhí)行到步,否則轉(zhuǎn)入;從W中取出i個(gè)尾字字符,W成為兩部分W1+W2;到SuffixList中查找W2,如果查到,調(diào)用規(guī)則,對(duì)W1進(jìn)行處理,得到W1';到Dict中查找W1',如果找到,R=W1'+""+W2,轉(zhuǎn)入;