freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)(存儲版)

2025-07-03 02:39上一頁面

下一頁面
  

【正文】 W中取出 i個尾字字符, W成為兩部分 W1 + W2( W2為取出的尾字符串); ( 5)到 SuffixList中查找 W2,如果查到,調(diào)用規(guī)則,對 W1進(jìn)行處理,得到 W139。第七章 詞匯分析(一) —— 找出字符串中的 “ 詞 ” 詹衛(wèi)東 2 提綱 ? 1 從字符串到詞串 ? 2 英語詞匯處理 ? Tokenization ? Lemmatization ? 3 漢語詞匯處理 ? 分詞算法 ? 漢語自動分詞的困難 ? 對分詞質(zhì)量的評價 ? 4 小結(jié) 3 1 從字符串到詞串 ? 漢字的簡繁轉(zhuǎn)換 ? 後面,皇后 —— 后 ? 松樹,鬆開 —— 松 ? 文本校對( 改錯別字) ? 拋妻別字 —— 拋妻別子 (字音編碼輸入) ? 于預(yù) —— 干預(yù) (字形編碼輸入) ? 基于字的檢索和基于詞的檢索 ? 檢索 “ 人為 ” ,可能輸出的結(jié)果: 人為因素、人為什么活著、以人為本、 …… 詞匯分析是許多 NLP應(yīng)用系統(tǒng)的基礎(chǔ)。; ( 6)到 Dict中查找 W139。這種類型的歧義就是交集型歧義。)(39。比如候選詞“ 意見 ” 只有一個左鄰詞 “ 有 ” ,因此, “ 有 ” 同時也就是“ 意見 ” 的最佳左鄰詞;候選詞 “ 分歧 ” 有兩個左鄰詞 “ 意見 ” 和 “ 見 ” ,其中 “ 意見 ” 的累計概率大于 “ 見 ” 累計概率,因此 “ 意見 ” 是 “ 分歧 ” 的最佳左鄰詞 1w 2w 1?iw iw 1?iwiw 1?iw iwiw jw kwiw35 最大概率分詞算法 1) 對一個待分詞的字串 S,按照從左到右的順序取出全部候選詞w1, w2 , … ,w i, … , w n ; 2) 到詞典中查出每個候選詞 的概率值 P(wi) ,并記錄每個候選詞的全部左鄰詞; 3) 按照公式 1計算每個候選詞的累計概率,同時比較得到每個候選詞的最佳左鄰詞; 4) 如果當(dāng)前詞 wn是字串 S的尾詞,且累計概率 P39。半詞既包含了成詞語素,也包含了不成詞語素,后者肯定是半詞,比如 “ 民 ” ,前者則要看它作為語素的使用頻度高,還是作為單字詞的使用頻度高,比如 “ 見 ” 。 黃居仁、陳克健 等( 1997) 《 信息處理用中文分詞規(guī)范設(shè)計理念及規(guī)范內(nèi)容 》 ,載 《 語言文字應(yīng)用 》 1997年第 1期。 ? 頻度最高的前 6個字覆蓋率達(dá) %。 辛華編 《 英語姓名譯名手冊 》 商務(wù)印書館 1973年(修訂版) 新華通訊社譯名資料組編 《 英語姓名譯名手冊 》 商務(wù)印書館 1997年(第二次修訂版) 60 音譯名的識別 2 ? 音譯名內(nèi)部很難劃分出結(jié)構(gòu),但有一些常見音節(jié),如“ 斯基、斯坦 ” 等 ? 不同語言的音譯規(guī)律不盡相同,如法語、俄語、蒙古語譯名用字與英語就有較大區(qū)別(蒙語人名舉例:“ 那順烏日圖、青格勒圖 ” ),如果按不同的語言訓(xùn)練不同的模型可能會比使用統(tǒng)一的模型效果更好 ? 音譯名可以是人名、地名或其他專名,上下文規(guī)律差別較大 ? 由于音譯名用字比較集中,識別正確率較高 61 機(jī)構(gòu)名的內(nèi)部構(gòu)成規(guī)律 1 ? 機(jī)構(gòu)名一般都是定中結(jié)構(gòu) ? 機(jī)構(gòu)名的后綴一般比較集中,識別相對容易 ? 機(jī)構(gòu)名左邊界識別非常困難 ? 機(jī)構(gòu)名中含有大量的人名、地名、企業(yè)字號等專有名稱。 ? 陳小荷, 20xx, 《 現(xiàn)代漢語自動分析 》 ,北京語言文化大學(xué)出版社,第 7章 ? 語言學(xué)光標(biāo)網(wǎng)站之詞法分析板塊 66 復(fù)習(xí)思考題 1 什么是詞?請談?wù)勀銓?“ 詞 ” 這個概念的認(rèn)識。 ? 白栓虎, 1995, 《 漢語詞切分及標(biāo)注一體化方法 》 ,載陳力為、袁琦主編《 計算語言學(xué)進(jìn)展與應(yīng)用 》 ,清華大學(xué)出版社。這個地名錄中使用的漢字共2662個,頻度最高的前 65個漢字占總頻度的 %,前 622個漢字占總頻度的 %,前 1872個漢字占總頻度的 99%。 ? 前 400個姓氏覆蓋率達(dá) 99%。 3 一個分詞方案的評分為它所對應(yīng)的路徑上所有 邊的罰分之和。(見 ) ( 4) “ 分歧 ” 是尾詞, “ 意見 ” 是 “ 分歧 ” 的最佳左鄰詞,分詞過程結(jié)束, 輸出結(jié)果:有 / 意見 / 分歧 / 37 最大概率法分詞的問題 ? 并不能解決所有的交集型歧義問題 “這事的確定不下來” W1= 這 / 事 / 的確 / 定 / 不 / 下來 / W2= 這 / 事 / 的 / 確定 / 不 / 下來 / ? 無法解決組合型歧義問題 “ 做完作業(yè)才能看電視 ” W1= 做 / 完 / 作業(yè) / 才能 / 看 / 電視 / W2= 做 / 完 / 作業(yè) / 才 / 能 / 看 / 電視 / P(W1)P(W2) P(W1)P(W2) 38 漢語切分的數(shù)據(jù)結(jié)構(gòu)-詞圖 根據(jù)這個數(shù)據(jù)結(jié)構(gòu) , 我們可以把詞法分析中的幾種操作轉(zhuǎn)化為: ? 給詞圖上添加邊 ( 查詞典 , 處理重疊詞 、 離合詞 、 前后綴和未定義詞 ) ; ? 尋找一條起點 S到終點 E的最優(yōu)路徑 ( 切分排歧 ) ; ? 給路徑上的邊加上標(biāo)記 ( 詞性標(biāo)注 ) ; 結(jié)合 合成 成分 合 成 分 子 時 結(jié) S E 子時 分子 39 ―結(jié)合成分子時 ” 的全部分詞路徑示意 $ 結(jié) 結(jié)合 合 合成 成 成分 成 成分 分 分子 分 分子 子 子時 分 分子 子 子時 時 子 子時 時 時 子 子時 時 時 3,4,5 2 1 6, 7 8 9 10 11,12 13 40 最短路徑分詞方法 ? 基本思想: ? 在詞圖上選擇一條詞數(shù)最少的路徑 ? 優(yōu)點:好于單向的最大匹配方法 ? 最大匹配:獨立自主 和平 等 互利 的 原則 (6) ? 最短路徑:獨立自主 和 平等互利 的 原則 (5) ? 缺點: 同樣無法解決大部分交叉歧義 ? 結(jié)合 成分 子時 ? 他 說 的 確實 在理 (都是最短路徑) 他 說 的確 實在 理 他 說 的確 實 在理 41 半詞法分詞 ? 大多數(shù)單字在語境里如果能組成合適的詞就不傾向于單獨使用。字串最左邊的詞沒有左鄰詞。 ? 鏈長為 1: 和尚未 ? 鏈長為 2: 結(jié)合成分 ? 鏈長為 3: 為人民工作 ? 鏈長為 4: 中國產(chǎn)品質(zhì)量 ? 鏈長為 6: 努力學(xué)習(xí)語法規(guī)則 ? …… ? 混合型歧義: 這樣的人才能經(jīng)受住考驗 雙向最大匹配法可以發(fā)現(xiàn)鏈長為奇數(shù)的交集型歧義,但無法發(fā)現(xiàn)鏈長為偶數(shù)的交集型歧義 28 最大匹配法解決分詞歧義的能力 IF W = 個人 , WLeft = 數(shù)詞 THEN W = 個 / 人 / ENDIF 能發(fā)現(xiàn)部分交集型歧義 無法發(fā)現(xiàn)組合型歧義 對最大匹配法進(jìn)行擴(kuò)展:增加歧義詞表,規(guī)則等知識庫 歧義詞表 … 才能 個人 家人 馬上 研究所 … 29 最大匹配
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1