freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)-免費(fèi)閱讀

2025-06-23 02:39 上一頁面

下一頁面
  

【正文】 ? 孫茂松 等, 1999, 《 高頻最大交集型歧義切分字段在漢語自動分詞中的作用 》 ,載 《 中文信息學(xué)報(bào) 》 1999年第 1期。 ? 與人名的用字情況相比較,地名用字分散得多 ? 地名內(nèi)部也有一定的結(jié)構(gòu),右邊界比左邊界更容易識別 59 音譯名的識別 1 ? 音譯名用字非常集中 《 英語姓名譯名手冊 》 中共收英語姓氏 , 教名約 4萬個 , 經(jīng)計(jì)算機(jī)統(tǒng)計(jì)得出英語姓名譯名用字表共 476個: “ 啊阿埃艾愛昂奧巴白柏拜班邦包保堡鮑北貝倍本比彼邊別濱賓玻波博勃伯卜布采蔡藏策查察昌徹陳楚垂茨慈次聰存措達(dá)大戴代丹當(dāng)?shù)赖碌玫青嚨系椎氐俚诘鄱|杜敦頓多厄恩耳爾法凡范方菲費(fèi)芬豐馮佛夫福弗輔富蓋甘岡高哥戈葛格各根貢古顧瓜圭郭果哈海罕翰漢杭豪赫黑亨洪侯胡華懷惠霍基吉季計(jì)嘉佳加賈簡姜焦杰捷金津京久居喀卡開凱坎康考柯科可克肯孔扣寇庫夸匡奎魁坤昆闊拉臘萊來賴蘭朗勞勒樂雷黎理李里禮荔麗歷利立蓮連廉良列琳林霖齡留劉流柳龍隆盧魯露路呂略倫蘿羅洛瑪馬麥邁滿曼芒茅梅門蒙孟米密敏明名摩莫墨默姆木穆拿娜納乃奈南內(nèi)嫩能妮尼年涅寧牛紐農(nóng)努女諾歐帕派潘龐培佩彭蓬皮匹平潑樸普漆奇齊契恰錢強(qiáng)喬切欽琴青瓊丘邱屈讓熱仁日榮茹儒瑞若撒薩塞賽三繕桑瑟森莎沙珊山尚紹舍申生盛圣施詩石什史士壽舒朔斯思絲松孫索所塔泰坦湯唐陶特藤提惕田鐵汀廷亭通透圖托脫娃瓦萬旺威韋為維偉魏衛(wèi)溫文翁沃烏武伍西錫希悉席霞夏顯香向曉肖歇謝欣辛興幸姓雄休修雪遜雅亞延揚(yáng)陽堯耀耶葉依易意因英永尤雨約宰贊早澤曾扎詹湛章張哲者珍真芝知智治朱卓茲子宗祖佐丕謨葆薇岑弼婭繆珀瑙賚滕斐熙鳩竇艮麟黛 ” 。 ? 人名的用字也比較集中。 4 罰分越低,越可能是正確的分詞 43 半詞法分詞(續(xù) 2) 他 說 的 確實(shí) 在理 ( 1+1+1+1+1 = 5分) 他 說 的確 實(shí) 在理 ( 1+1+1+2+1 = 6分) 他 說 的確 實(shí)在 理 ( 1+1+1+1+2 = 6分) 注意:仍然無法解決 “ 結(jié)合成分子時 ” 44 漢語自動分詞的困難 ? 分詞規(guī)范 ? 分詞歧義 ? 未登錄詞識別 劉源 等( 1994) 《 信息處理用現(xiàn)代漢語分詞規(guī)范及自動分詞方法 》 ,清華大學(xué)出版社、廣西科學(xué)技術(shù)出版社, 1994年版。 ? 半詞:如果一個字不單獨(dú)作為詞使用,就是半詞。 ? 最佳左鄰詞 如果某個候選詞 有若干個左鄰詞 , , … 等等,其中累計(jì)概率最大的候選詞稱為 的最佳左鄰詞。 例如:“學(xué)歷史知識” 順向掃描的結(jié)果是:“學(xué)歷 / 史 / 知識 /‖, 通過查詞典知道“史”不在詞典中,于是進(jìn)行回溯,將“學(xué)歷”的尾字“歷”取出與后面的“史”組成“歷史”,再查詞典,看“學(xué)”,“歷史”是否在詞典中,如果在,就將分詞結(jié)果調(diào)整為:“學(xué) / 歷史 / 知識 /‖ 30 最大概率法分詞 基本思想是: ( 1)一個待切分的漢字串可能包含多種分詞結(jié)果 ( 2)將其中概率最大的那個作為該字串的分詞結(jié)果 路徑 1: 0- 1- 3- 5 路徑 2: 0- 2- 3- 5 該走哪條路呢? 31 最大概率法分詞 ? S: 有意見分歧 ? W1: 有 / 意見 / 分歧 / ? W2: 有意 / 見 / 分歧 / Max(P(W1|S), P(W2|S)) ? NnwwP ii 語料庫中的總詞數(shù)在語料庫中的出現(xiàn)次數(shù)?)(獨(dú)立性假設(shè),一元語法 )(. ..)()(), .. .,()( 2121 ii wPwPwPPWP ?????)()( )()|()|( WPSP WPWSPSWP ???32 最大概率法分詞 詞語 概率 … … 有 有意 意見 見 分歧 … … P(W1) = P(有 ) * P(意見 ) * P(分歧 ) = 109 P(W2) = P(有意 ) * P(見 ) * P(分歧 ) = 1 1011 P(W1) P(W2) 33 提高計(jì)算效率 )()(39。 最大匹配法分詞示例(續(xù)) 25 最大匹配法分詞的問題 ? 最大詞長的確定 ( 1)詞長過短,長詞就會被切錯( “ 中華人民共和國 ” ) ( 2)詞長過長,效率就比較低 ? 掩蓋了分詞歧義 A.―有意見分歧 ” (正向最大匹配和逆向最大匹配結(jié)果不同) 有意 / 見 / 分歧 / 有 / 意見 / 分歧 / B.―結(jié)合成分子時 ” (正向最大匹配和逆向最大匹配結(jié)果相同) 結(jié)合 / 成分 / 子時 / 26 分詞歧義的類型 ? 交集型歧義 如果 AB和 BC都是詞典中的詞,那么如果待切分字串中包含“ ABC‖這個子串,就必然會造成兩種可能的切分: “ AB/ C/ ‖ 和 “ A/ BC/ ‖。 ( 6)如果不是字符流尾部,轉(zhuǎn)入( 1); Tokenization算法的一般過程 11 Tokenization示例 S Pointer M r . W u w a s i l l . Char = ―.‖ 字符流尾部標(biāo)記 i=2, W=―Mr.‖ 輸出 : Mr, 這時 S的格局為: W u w a s i l l . …… 最后輸出: Mr Wu was ill 要得到 “ Mr.‖,需要構(gòu)造一個詞典,收錄這一類詞 真實(shí)文本中還有 , !!! 12 Lemmatization ? 英語構(gòu)詞模式: {前綴 }+ {詞根 } + {后綴 } + [詞尾 ] 詞干 13 構(gòu)詞示例 ? boys(復(fù)數(shù)詞尾) ? happiness(名詞后綴) ? impossible(前綴) ? strongest(形容詞最高級詞尾) ? housewarmings(復(fù)合詞+復(fù)數(shù)詞尾) 14 構(gòu)詞分析需要的知識庫 ? 詞典( Dict) ? 前綴表( PrefixList) ? 后綴表( SuffixList) ? 有關(guān)屈折詞尾變形的規(guī)則( Rules) 比如可以構(gòu)造下面這樣的規(guī)則: s // 詞尾字符 s替換為空 ies i // 詞尾字符串 ies替換為 i i y // 替換詞尾 i為 y boys ? boy tries ? try 15 Lemmatization算法的一般過程 ( 1)初始化:待分析的詞形= W, d=W的字符數(shù), i=1,設(shè)輸出串 R=; ( 2)到 Dict中查找 W,如果找到, R=W,轉(zhuǎn)入( 8); ( 3)如果 i (d/2),執(zhí)行( 4)到( 7)步,否則轉(zhuǎn)入( 8); ( 4)從
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1