freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)(已修改)

2025-06-03 02:39 本頁面
 

【正文】 第七章 詞匯分析(一) —— 找出字符串中的 “ 詞 ” 詹衛(wèi)東 2 提綱 ? 1 從字符串到詞串 ? 2 英語詞匯處理 ? Tokenization ? Lemmatization ? 3 漢語詞匯處理 ? 分詞算法 ? 漢語自動(dòng)分詞的困難 ? 對(duì)分詞質(zhì)量的評(píng)價(jià) ? 4 小結(jié) 3 1 從字符串到詞串 ? 漢字的簡繁轉(zhuǎn)換 ? 後面,皇后 —— 后 ? 松樹,鬆開 —— 松 ? 文本校對(duì)( 改錯(cuò)別字) ? 拋妻別字 —— 拋妻別子 (字音編碼輸入) ? 于預(yù) —— 干預(yù) (字形編碼輸入) ? 基于字的檢索和基于詞的檢索 ? 檢索 “ 人為 ” ,可能輸出的結(jié)果: 人為因素、人為什么活著、以人為本、 …… 詞匯分析是許多 NLP應(yīng)用系統(tǒng)的基礎(chǔ)。 從字符串到詞串,是一個(gè)降低不確定性的過程 4 從字符串到詞串(續(xù)) ? 張店區(qū)大學(xué)生不看重大城市的戶口本 ? 張店區(qū) 大學(xué)生 不 看 重大 城市 的 戶口本 ? 張店區(qū) 大學(xué)生 不 看重 大 城市 的 戶口本 ? 你認(rèn)為學(xué)生會(huì)聽老師的嗎 ? 你 認(rèn)為 學(xué)生會(huì) 聽 老師 的 嗎 ? 你 認(rèn)為 學(xué)生 會(huì) 聽 老師 的 嗎 ? 我家門前的小河很難過 …… 從字符串到詞串,存在著不確定性 5 從字符串到詞串(續(xù)) Dog‘s Let‘s ad hoc and so on New York strong – stronger – strongest buy – bought eat – ate eaten try tried – tries treat – treatment 在 “ 字符串 ” 這個(gè)層次上, “ eat‖跟 “ ate‖是相同字母的不同順序形式, 在 “ 詞串 ” 這個(gè)層次上, “ eat‖跟“ ate‖是同一個(gè)詞的不同表現(xiàn)形式 6 2 英語的詞匯處理 ? Tokenization:把字符串變?yōu)樵~串 I‘m a student I ‘m a student ? Lemmatization:對(duì)詞進(jìn)行內(nèi)部結(jié)構(gòu)和形式分析 took take + ed (past tense) 7 Tokenization 1)數(shù)字: 123, % 3/8 11/20/20xx 2)縮略(包含不同的情況): a. 字母-點(diǎn)號(hào)-字母-點(diǎn)號(hào)組成的序列,比如: . . 等等; b. 字母開頭,最后以點(diǎn)號(hào)結(jié)束,比如: A. b. Mr. eds. prof. ; 3)包含非字母字符,比如: ATamp。T Micro$oft 4)帶杠的詞串,比如: threeyearsold, onethird, socalled 5)帶瞥號(hào)的詞串,比如: I39。m can39。t dog39。s let39。s 6)帶空格的詞串,比如: and so on, ad hoc Note 1: 不同語言書寫數(shù)字的習(xí)慣可能有較大差別,比如法語文本中這個(gè)數(shù)字就寫成: 123 456,78 8 a. 識(shí)別分?jǐn)?shù),日期的正則表達(dá)式: [ 09 ] + (/ [ 09 ] + ) + . 12/21 5/13/20xx b. 識(shí)別百分?jǐn)?shù)的正則表達(dá)式: [ \+ | \ ] ? [ 09]+ . ? [ 09 ] * % . % 91% c. 識(shí)別十進(jìn)制數(shù)字的正則表達(dá)式: ( [ 09 ] + , ? ) + (. [ 09 ] + | [ 09 ] + ) * . 12,345 數(shù)字的識(shí)別 (正則表達(dá)式 /regular expression) 有關(guān)正則表達(dá)式的更多知識(shí),可參看 杜淑敏 等編著 《 編譯程序設(shè)計(jì)原理 》 ,北京大學(xué)出版社 1990年版, pp5155 +表示出現(xiàn) 1到無窮次, \ 表示轉(zhuǎn)義, ?表示不出現(xiàn)或只出現(xiàn) 1次,*表示出現(xiàn) 0到無窮次 , [ ] 表示單個(gè)字符, ( )表示任意個(gè)字符 9 數(shù)字的識(shí)別(有限狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò)) digit = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 10 ( 1)對(duì)一個(gè)待分析的字符串( S),從左到右進(jìn)行掃描,讀入當(dāng)前字符( char)到候選詞數(shù)組( W[ i ]),并將指針( pointer)前移,i=i+1; ( 2)看 char是否為詞分隔符(事先可以預(yù)定義空格以及一般標(biāo)點(diǎn)均為詞分隔符); ( 3)如果 char是詞分隔符,并且 W不是空格,將 W中從起始位置到 i1位置的字符作為一個(gè)詞匯單位輸出,同時(shí)將 S中的 W部分刪去,然后清空 W,轉(zhuǎn)入( 1),如果 char是詞分隔符,且 W是空格,將 S中的W部分刪去,清空 W,轉(zhuǎn)入( 1); ( 4)如果不是詞分隔符,看指針是否已經(jīng)指到字符流尾部; ( 5)如果指針已經(jīng)指到字符流尾部,將當(dāng)前 W從起始位置到 i1位置的字符作為一個(gè)詞匯單位輸出,結(jié)束。 ( 6)如果不是字符流尾部,轉(zhuǎn)入( 1); Tokenization算法的一般過程 11 Tokenization示例 S Pointer M r . W u w a s i l l . Char = ―.‖ 字符流尾部標(biāo)記 i=2, W=―Mr.‖ 輸出 : Mr, 這時(shí) S的格局為: W u w a s i l l . …… 最后輸出: Mr Wu was ill 要得到 “ Mr.‖,需要構(gòu)造一個(gè)詞典,收錄這一類詞 真實(shí)文本中還有 , !!! 12 Lemmatization ? 英語構(gòu)詞模式: {前綴 }+ {詞根 } + {后綴 } + [詞尾 ] 詞干 13 構(gòu)詞示例 ? boys(復(fù)數(shù)詞尾) ? happiness(名詞后綴) ? impossible(前綴) ? strongest(形容詞最高級(jí)詞尾) ? housewarmings(復(fù)合詞+復(fù)數(shù)詞尾) 14 構(gòu)詞分析需要的知識(shí)庫 ? 詞典( Dict) ? 前綴表( PrefixList) ? 后綴表( SuffixList) ? 有關(guān)屈折詞尾變形的規(guī)則( Rules) 比如可以構(gòu)造下面這樣的規(guī)則: s // 詞尾字符 s替換為空 ies i // 詞尾字符串 ies替換為 i i y // 替換詞尾 i為 y boys ? boy tries ? try 15 Lemmatization算法
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
公安備案圖鄂ICP備17016276號(hào)-1