freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)-文庫吧

2025-04-19 02:39 本頁面


【正文】 的一般過程 ( 1)初始化:待分析的詞形= W, d=W的字符數(shù), i=1,設(shè)輸出串 R=; ( 2)到 Dict中查找 W,如果找到, R=W,轉(zhuǎn)入( 8); ( 3)如果 i (d/2),執(zhí)行( 4)到( 7)步,否則轉(zhuǎn)入( 8); ( 4)從 W中取出 i個尾字字符, W成為兩部分 W1 + W2( W2為取出的尾字符串); ( 5)到 SuffixList中查找 W2,如果查到,調(diào)用規(guī)則,對 W1進(jìn)行處理,得到 W139。; ( 6)到 Dict中查找 W139。,如果找到, R=W139。 + + W2,轉(zhuǎn)入( 8); ( 7)如果沒有找到, i=i+1,轉(zhuǎn)入( 3); ( 8)輸出 R,結(jié)束; ?16 Lemmatization示例 ? 待分析的詞形 W=―boys‖ , d= 4, i=1, R=―‖ ? W不在詞典中,從 W中取出 1個尾字符, “ boy‖ + ―s‖ ? W2=―s‖, W1’=―boy‖ ? 輸出: “ boy‖ + ―s‖ 17 Lemmatization容易碰到的問題 ? 不規(guī)則詞形變化: child - children ? 歧義問題: 1)是詞綴 還是 詞根中的字符,有時不易判斷 比如:分析副詞詞尾 “ ly‖的規(guī)則: ( 1)將串尾字符 “ y‖去掉; ( 2)如果剩下的字符串以 “ ll‖結(jié)尾,將 “ ll‖變?yōu)?“ le‖ ? wholly ? whol ? whole ? fully ? ful ? fule ? only, inform, …… 2)不同的詞根原形,相同的詞形變化 best good / well? 18 Lemmatization要做到何種程度 ? 詞干層。如: impossibilities?impossibility+ies ? 詞根層。如: impossibilities?im+poss+ibil+it+ies ? 分析程度取決于自然語言處理系統(tǒng)的深度: ? 不解決未定義詞,分析到詞干層 ? 解決未定義詞,要分析到詞根層。 19 3 漢語詞匯處理 ? 從字符串中識別出詞 (word segmentation) ―分 ” 詞 —— ―合 ” 詞 ? 分詞的基本方法 最大匹配法 (Maximum Match based approach) 概率方法 (Probability approach to Word Segmentation) 關(guān)于分詞的形式化定義,參看馬晏 1991,基于評價的漢語自動分詞系統(tǒng)的研究與實(shí)現(xiàn),載黃昌寧、夏瑩編 《 語言信息處理專論 》 ,清華大學(xué)出版社 1996年版 20 最大匹配法 21 最大匹配法分詞示例 詞語 … 計(jì)算語言學(xué) 課程 課時 … 設(shè)定最大詞長MaxLen = 5 S2= 分詞詞表 S1=計(jì)算語言學(xué)課程是三個課時 22 最大匹配法分詞示例(續(xù)) ( 1) S2=; S1不為空,從 S1左邊取出候選子串 W=計(jì)算語言學(xué) ; ( 2)查詞表, “ 計(jì)算語言學(xué) ” 在詞表中,將 W加入到 S2中, S2=―計(jì)算語言學(xué)/ ‖, 并將 W從 S1中去掉,此時 S1=課程是三個課時 ; ( 3) S1不為空,于是從 S1左邊取出候選子串 W=課程是三個 ; ( 4)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=課程是三 ; ( 5)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=課程是 ; ( 6)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=課程 ( 7)查詞表, W在詞表中,將 W加入到 S2中, S2=―計(jì)算語言學(xué) / 課程 / ‖,并 將 W從 S1中去掉,此時 S1=是三個課時 ; 23 最大匹配法分詞示例(續(xù)) ( 8) S1不為空,于是從 S1左邊取出候選子串 W=是三個課時 ; ( 9)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=是三個課 ; ( 10)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=是三個 ; ( 11)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=是三 ( 12)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=―是 ” ,這時 W是單字,將 W加入到 S2中, S2=―計(jì)算語言學(xué) / 課程 / 是 / ‖,并將 W從 S1中去掉,此時 S1=三個課時 ; ( 13) S1不為空,從 S1左邊取出候選子串 W=三個課時 ; ( 14)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=三個課 ; ( 15)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=三個 ; ( 16)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=―三 ” ,這時 W是單字,將 W加入到 S2中, S2=―計(jì)算語言學(xué) / 課程 / 是 / 三 / ‖,并 將 W從 S1中去掉,此時 S1=個課時 ; 24 ( 17) S1不為空,從 S1左邊取出候選子串 W=個課時 ; ( 18)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=個課 ; ( 19)查詞表, W不在詞表中,將 W最右邊一個字去掉,得到 W=―個 ” , 這時 W是單字,將 W加入到 S2中, S2=―計(jì)算語言學(xué) / 課程 / 是 / 三 / 個 / ,并將 W從 S1中去掉,此時 S1=課時 ; ( 20) S1不為空,從 S1左邊取出候選子串 W=課時 ; ( 21)查詞表, W在詞表中,將 W加入到 S2中, S2=―計(jì)算語言學(xué) / 課程 / 是 / 三 / 個 / 課時 / ,并將 W從 S1中去掉,此時 S1=。 ( 22) S1為空,輸出 S2作為分詞結(jié)果,分詞過程結(jié)束。 最大匹配法分詞示例(續(xù)) 25 最大匹配法分詞的問題 ? 最大詞長的確定 ( 1)詞長過短,長詞就會被切錯( “ 中華人民共和國 ” ) ( 2)詞長過長,效率就比較低 ? 掩蓋了分詞歧義 A.―有意見分歧 ” (正向最大匹配和逆向最大匹配結(jié)果不同) 有意 / 見 / 分歧 / 有 / 意見 / 分歧 / B.―結(jié)合成分子時 ” (正向最大匹配和逆向最大匹配結(jié)果相同) 結(jié)合 / 成分 / 子時 / 26 分詞歧義的類型 ? 交集型歧義 如果 AB和 BC都是詞典中的詞,那么如果待切分字串中包含“ ABC‖這個子串,就必然會造成兩種可能的切分: “ AB/ C/ ‖ 和 “ A/ BC/ ‖。這種類型的歧義就是交集型歧義。比如“ 網(wǎng)球場 ” 就可能造成交集型歧義(網(wǎng)球 / 場 / : 網(wǎng) / 球場/)。 ? 組合型歧義 如果 AB和 A、 B都是詞典中的詞,那么如果待切分字串中包含AB這個子串,就必然會造成兩種可能的切分: AB/ 和 A/ B/ 。這種類型的歧義就是組合型歧義。比如 個人 就可能造成組合型歧義( (我) 個人 / : (三) 個 / 人 / )。 27 分詞歧義的類型(續(xù)) ? 鏈長:交集型歧義字段
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1