freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)(留存版)

2025-07-28 02:39上一頁面

下一頁面
  

【正文】 324 22 5 2 1 23914 比例 % 100 語料規(guī)模: 500萬字新聞?wù)Z料 46 漢語真實(shí)文本中的分詞歧義情況(續(xù)) ? 真歧義 確實(shí)能在真實(shí)語料中發(fā)現(xiàn)多種切分形式 比如 “ 應(yīng)用于 ” 、 “ 地面積 ” ? 偽歧義 雖然有多種切分可能性,但在真實(shí)語料中往往取其中一種切分形式 比如 “ 挨批評 ” 、 “ 市政府 ” 47 漢語真實(shí)文本中的分詞歧義情況(續(xù)) ? 材料一:孫茂松 等 1999 一個(gè) 1億字真實(shí)漢語語料庫中抽取出的前 4,619個(gè)高頻交集型歧義切分覆蓋了該語料庫中全部交集型歧義切分的 %,其中 4279個(gè)屬偽歧義(占 %,如 “ 和軟件 ” 、 “ 充分發(fā)揮 ” 、 “ 情不自禁地 ” ),覆蓋率高達(dá) %。 (wn)最大,則 wn 就是 S的終點(diǎn)詞; 5) 從 wn開始,按照從右到左順序,依次將每個(gè)詞的最佳左鄰詞輸出,即為 S的分詞結(jié)果。比如“ 網(wǎng)球場 ” 就可能造成交集型歧義(網(wǎng)球 / 場 / : 網(wǎng) / 球場/)。 從字符串到詞串,是一個(gè)降低不確定性的過程 4 從字符串到詞串(續(xù)) ? 張店區(qū)大學(xué)生不看重大城市的戶口本 ? 張店區(qū) 大學(xué)生 不 看 重大 城市 的 戶口本 ? 張店區(qū) 大學(xué)生 不 看重 大 城市 的 戶口本 ? 你認(rèn)為學(xué)生會聽老師的嗎 ? 你 認(rèn)為 學(xué)生會 聽 老師 的 嗎 ? 你 認(rèn)為 學(xué)生 會 聽 老師 的 嗎 ? 我家門前的小河很難過 …… 從字符串到詞串,存在著不確定性 5 從字符串到詞串(續(xù)) Dog‘s Let‘s ad hoc and so on New York strong – stronger – strongest buy – bought eat – ate eaten try tried – tries treat – treatment 在 “ 字符串 ” 這個(gè)層次上, “ eat‖跟 “ ate‖是相同字母的不同順序形式, 在 “ 詞串 ” 這個(gè)層次上, “ eat‖跟“ ate‖是同一個(gè)詞的不同表現(xiàn)形式 6 2 英語的詞匯處理 ? Tokenization:把字符串變?yōu)樵~串 I‘m a student I ‘m a student ? Lemmatization:對詞進(jìn)行內(nèi)部結(jié)構(gòu)和形式分析 took take + ed (past tense) 7 Tokenization 1)數(shù)字: 123, % 3/8 11/20/20xx 2)縮略(包含不同的情況): a. 字母-點(diǎn)號-字母-點(diǎn)號組成的序列,比如: . . 等等; b. 字母開頭,最后以點(diǎn)號結(jié)束,比如: A. b. Mr. eds. prof. ; 3)包含非字母字符,比如: ATamp。 ( 22) S1為空,輸出 S2作為分詞結(jié)果,分詞過程結(jié)束。字串最左邊的詞沒有左鄰詞。 3 一個(gè)分詞方案的評分為它所對應(yīng)的路徑上所有 邊的罰分之和。這個(gè)地名錄中使用的漢字共2662個(gè),頻度最高的前 65個(gè)漢字占總頻度的 %,前 622個(gè)漢字占總頻度的 %,前 1872個(gè)漢字占總頻度的 99%。 ? 陳小荷, 20xx, 《 現(xiàn)代漢語自動分析 》 ,北京語言文化大學(xué)出版社,第 7章 ? 語言學(xué)光標(biāo)網(wǎng)站之詞法分析板塊 66 復(fù)習(xí)思考題 1 什么是詞?請談?wù)勀銓?“ 詞 ” 這個(gè)概念的認(rèn)識。 ? 頻度最高的前 6個(gè)字覆蓋率達(dá) %。半詞既包含了成詞語素,也包含了不成詞語素,后者肯定是半詞,比如 “ 民 ” ,前者則要看它作為語素的使用頻度高,還是作為單字詞的使用頻度高,比如 “ 見 ” 。)(39。; ( 6)到 Dict中查找 W139。 ( 6)如果不是字符流尾部,轉(zhuǎn)入( 1); Tokenization算法的一般過程 11 Tokenization示例 S Pointer M r . W u w a s i l l . Char = ―.‖ 字符流尾部標(biāo)記 i=2, W=―Mr.‖ 輸出 : Mr, 這時(shí) S的格局為: W u w a s i l l . …… 最后輸出: Mr Wu was ill 要得到 “ Mr.‖,需要構(gòu)造一個(gè)詞典,收錄這一類詞 真實(shí)文本中還有 , !!! 12 Lemmatization ? 英語構(gòu)詞模式: {前綴 }+ {詞根 } + {后綴 } + [詞尾 ] 詞干 13 構(gòu)詞示例 ? boys(復(fù)數(shù)詞尾) ? happiness(名詞后綴) ? impossible(前綴) ? strongest(形容詞最高級詞尾) ? housewarmings(復(fù)合詞+復(fù)數(shù)詞尾) 14 構(gòu)詞分析需要的知識庫 ? 詞典( Dict) ? 前綴表( PrefixList) ? 后綴表( SuffixList) ? 有關(guān)屈折詞尾變形的規(guī)則( Rules) 比如可以構(gòu)造下面這樣的規(guī)則: s // 詞尾字符 s替換為空 ies i // 詞尾字符串 ies替換為 i i y // 替換詞尾 i為 y boys ? boy tries ? try 15 Lemmatization算法的一般過程 ( 1)初始化:待分析的詞形= W, d=W的字符數(shù), i=1,設(shè)輸出串 R=; ( 2)到 Dict中查找 W,如果找到, R=W,轉(zhuǎn)入( 8); ( 3)如果 i (d/2),執(zhí)行( 4)到( 7)步,否則轉(zhuǎn)入( 8); ( 4)從 W中取出 i個(gè)尾字字符, W成為兩部分 W1 + W2( W2為取出的尾字符串); ( 5)到 SuffixList中查找 W2,如果查到,調(diào)用規(guī)則,對 W1進(jìn)行處理,得到 W139。 例如:“學(xué)歷史知識” 順向掃描的結(jié)果是:“學(xué)歷 / 史 / 知識 /‖, 通過查詞典知道“史”不在詞典中,于是進(jìn)行回溯,將“學(xué)歷”的尾字“歷”取出與后面的“史”組成“歷史”,再查詞典,看“學(xué)”,“歷史”是否在詞典中,如果在,就將分詞結(jié)果調(diào)整為:“學(xué) / 歷史 / 知識 /‖ 30 最大概率法分詞 基本思想是: ( 1)一個(gè)待切分的漢字串可能包含多種分詞結(jié)果 ( 2)將其中概率最大的那個(gè)作為該字串的分詞結(jié)果 路徑 1: 0- 1- 3- 5 路徑 2: 0- 2- 3- 5 該走哪條路呢? 31 最
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1