freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)-全文預(yù)覽

2025-06-18 02:39 上一頁面

下一頁面
  

【正文】 名的內(nèi)部構(gòu)成規(guī)律 1 ? 機(jī)構(gòu)名一般都是定中結(jié)構(gòu) ? 機(jī)構(gòu)名的后綴一般比較集中,識別相對容易 ? 機(jī)構(gòu)名左邊界識別非常困難 ? 機(jī)構(gòu)名中含有大量的人名、地名、企業(yè)字號等專有名稱。 55 中國人名的內(nèi)部構(gòu)成規(guī)律 3 ? 中國人名各組成部分的組合規(guī)律 ? 姓+名 ? 姓 ? 名 ? 前綴+姓 ? 姓+后綴 ? 姓+姓+名(海外已婚婦女) 56 中國人名的上下文構(gòu)成規(guī)律 ? 身份詞: ? 前:工人、教師、影星、犯人 ? 后:先生、同志 ? 前后:女士、教授、經(jīng)理、小姐、總理 ? 地名或機(jī)構(gòu)名: ? 前:靜??h大丘莊禹作敏 ? 的字結(jié)構(gòu) ? 前:年過七旬的王貴芝 ? 動作詞 ? 前:批評,逮捕,選舉 ? 后:說,表示,吃,結(jié)婚 ? …… 57 中國人名識別的難點(diǎn) ? 一些高頻姓名用字在非姓名中也是高頻字 ? 姓氏:于,馬,黃,張,向,常,高 ? 名字: 周鵬和 同學(xué) , 周鵬 和同學(xué) ? 人名內(nèi)部相互成詞,指姓與名、名與名之間本身就是一個已經(jīng)被收錄的詞 ? [王國 ]維 、 [高峰 ]、 [汪洋 ]、 張 [朝陽 ] ? 人名與其上下文組合成詞 ? 這里 [有 關(guān) ]天培 的壯烈; ? 費(fèi)孝 通向 人大常委會提交書面報告 ? 人名地名沖突 ? 河北省 劉莊 58 中國地名的識別 ? 中國地名委員會編寫了 《 中華人民共和國地名錄 》 ,收集了全國鄉(xiāng)鎮(zhèn)以上(含鄉(xiāng)鎮(zhèn))各級行政區(qū)域的名稱,以鄉(xiāng)鎮(zhèn)人民政府所在地為主的居民聚落名稱,山、河、湖、海、島、高原、盆地、沙溪等自然地理實(shí)體名稱,名勝古跡、紀(jì)念地、古遺址、水庫、橋梁、電站等名稱。 ? 頻度最高的前 6個字覆蓋率達(dá) %。 ? ―王 , 陳 , 李 , 張 , 劉 ” 等 5個大姓覆蓋率達(dá) 32%。 黃居仁、陳克健 等( 1997) 《 信息處理用中文分詞規(guī)范設(shè)計理念及規(guī)范內(nèi)容 》 ,載 《 語言文字應(yīng)用 》 1997年第 1期。 42 半詞法分詞(續(xù) 1) ? 在詞圖中引入罰分機(jī)制 ? 罰分規(guī)則: 1 每個詞對應(yīng)的邊罰 1分。半詞既包含了成詞語素,也包含了不成詞語素,后者肯定是半詞,比如 “ 民 ” ,前者則要看它作為語素的使用頻度高,還是作為單字詞的使用頻度高,比如 “ 見 ” 。(有意 ) = P(有意 ), P?(意見 )=P‘(有 ) P(意見 ),( “ 意見 ” 的最佳左鄰詞為 “ 有 ” ) P?(見 )=P‘(有意 ) P(見 ),( “ 見 ” 的最佳左鄰詞為 “ 有意 ” ) P39。比如候選詞“ 意見 ” 只有一個左鄰詞 “ 有 ” ,因此, “ 有 ” 同時也就是“ 意見 ” 的最佳左鄰詞;候選詞 “ 分歧 ” 有兩個左鄰詞 “ 意見 ” 和 “ 見 ” ,其中 “ 意見 ” 的累計概率大于 “ 見 ” 累計概率,因此 “ 意見 ” 是 “ 分歧 ” 的最佳左鄰詞 1w 2w 1?iw iw 1?iwiw 1?iw iwiw jw kwiw35 最大概率分詞算法 1) 對一個待分詞的字串 S,按照從左到右的順序取出全部候選詞w1, w2 , … ,w i, … , w n ; 2) 到詞典中查出每個候選詞 的概率值 P(wi) ,并記錄每個候選詞的全部左鄰詞; 3) 按照公式 1計算每個候選詞的累計概率,同時比較得到每個候選詞的最佳左鄰詞; 4) 如果當(dāng)前詞 wn是字串 S的尾詞,且累計概率 P39。 有有 PP ?到達(dá)候選詞 wi時 的累計概率 公式 1 如何盡快找到概率最大的詞串(路徑)? 34 提高計算效率(續(xù)) ? 左鄰詞 假定對字串從左到右進(jìn)行掃描,可以得到 , , … , , , … 等若干候選詞,如果 的尾字 跟 的首字鄰接,就稱 為 的左鄰詞。)(39。比如 個人 就可能造成組合型歧義( (我) 個人 / : (三) 個 / 人 / )。這種類型的歧義就是交集型歧義。如: impossibilities?im+poss+ibil+it+ies ? 分析程度取決于自然語言處理系統(tǒng)的深度: ? 不解決未定義詞,分析到詞干層 ? 解決未定義詞,要分析到詞根層。; ( 6)到 Dict中查找 W139。t dog39。第七章 詞匯分析(一) —— 找出字符串中的 “ 詞 ” 詹衛(wèi)東 2 提綱 ? 1 從字符串到詞串 ? 2 英語詞匯處理 ? Tokenization ? Lemmatization ? 3 漢語詞匯處理 ? 分詞算法 ? 漢語自動分詞的困難 ? 對分詞質(zhì)量的評價 ? 4 小結(jié) 3 1 從字符串到詞串 ? 漢字的簡繁轉(zhuǎn)換 ? 後面,皇后 —— 后 ? 松樹,鬆開 —— 松 ? 文本校對( 改錯別字) ? 拋妻別字 —— 拋妻別子 (字音編碼輸入) ? 于預(yù) —— 干預(yù) (字形編碼輸入) ? 基于字的檢索和基于詞的檢索 ? 檢索 “ 人為 ” ,可能輸出的結(jié)果: 人為因素、人為什么活著、以人為本、 …… 詞匯分析是許多 NLP應(yīng)用系統(tǒng)的基礎(chǔ)。m can39。 ( 6)如果不是字符流尾部,轉(zhuǎn)入( 1); Tokenization算法的一般過程 11 Tokenization示例 S Pointer M r . W u w a s i l l . Char = ―.‖ 字符流尾部標(biāo)記 i=2, W=―Mr.‖ 輸出 : Mr, 這時 S的格局為: W u w a s i l l . …… 最后輸出: Mr Wu was ill 要得到 “ Mr.‖,需要構(gòu)造一個詞典,收錄這一類詞 真實(shí)文本中還有 , !!! 12 Lemmatization ? 英語構(gòu)詞模式: {前綴 }+ {詞根 } + {后綴 } + [詞尾 ] 詞干 13 構(gòu)詞示例 ? boys(復(fù)數(shù)詞尾) ? happiness(名詞后綴) ? impossible(前綴) ? strongest(形容詞最高級詞尾) ? housewarmings(復(fù)合詞+復(fù)數(shù)詞尾) 14 構(gòu)詞分析需要的知識庫 ? 詞典( Dict) ? 前綴表( PrefixList) ? 后綴表( SuffixList) ? 有關(guān)屈折詞尾變形的規(guī)則( Rules) 比如可以構(gòu)造下面這樣的規(guī)則: s // 詞尾字符 s替換為空 ies i // 詞尾字符串 ies替換為 i i y // 替換詞尾 i為 y boys ? boy tries ? try 15
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1