freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)(文件)

 

【正文】 最佳左鄰詞: P39。(見 ) ( 4) “ 分歧 ” 是尾詞, “ 意見 ” 是 “ 分歧 ” 的最佳左鄰詞,分詞過程結(jié)束, 輸出結(jié)果:有 / 意見 / 分歧 / 37 最大概率法分詞的問題 ? 并不能解決所有的交集型歧義問題 “這事的確定不下來” W1= 這 / 事 / 的確 / 定 / 不 / 下來 / W2= 這 / 事 / 的 / 確定 / 不 / 下來 / ? 無法解決組合型歧義問題 “ 做完作業(yè)才能看電視 ” W1= 做 / 完 / 作業(yè) / 才能 / 看 / 電視 / W2= 做 / 完 / 作業(yè) / 才 / 能 / 看 / 電視 / P(W1)P(W2) P(W1)P(W2) 38 漢語(yǔ)切分的數(shù)據(jù)結(jié)構(gòu)-詞圖 根據(jù)這個(gè)數(shù)據(jù)結(jié)構(gòu) , 我們可以把詞法分析中的幾種操作轉(zhuǎn)化為: ? 給詞圖上添加邊 ( 查詞典 , 處理重疊詞 、 離合詞 、 前后綴和未定義詞 ) ; ? 尋找一條起點(diǎn) S到終點(diǎn) E的最優(yōu)路徑 ( 切分排歧 ) ; ? 給路徑上的邊加上標(biāo)記 ( 詞性標(biāo)注 ) ; 結(jié)合 合成 成分 合 成 分 子 時(shí) 結(jié) S E 子時(shí) 分子 39 ―結(jié)合成分子時(shí) ” 的全部分詞路徑示意 $ 結(jié) 結(jié)合 合 合成 成 成分 成 成分 分 分子 分 分子 子 子時(shí) 分 分子 子 子時(shí) 時(shí) 子 子時(shí) 時(shí) 時(shí) 子 子時(shí) 時(shí) 時(shí) 3,4,5 2 1 6, 7 8 9 10 11,12 13 40 最短路徑分詞方法 ? 基本思想: ? 在詞圖上選擇一條詞數(shù)最少的路徑 ? 優(yōu)點(diǎn):好于單向的最大匹配方法 ? 最大匹配:獨(dú)立自主 和平 等 互利 的 原則 (6) ? 最短路徑:獨(dú)立自主 和 平等互利 的 原則 (5) ? 缺點(diǎn): 同樣無法解決大部分交叉歧義 ? 結(jié)合 成分 子時(shí) ? 他 說 的 確實(shí) 在理 (都是最短路徑) 他 說 的確 實(shí)在 理 他 說 的確 實(shí) 在理 41 半詞法分詞 ? 大多數(shù)單字在語(yǔ)境里如果能組成合適的詞就不傾向于單獨(dú)使用。這類詞就是一般說的單字高頻成詞語(yǔ)素,比如 “ 人、說、我 ” 等。 3 一個(gè)分詞方案的評(píng)分為它所對(duì)應(yīng)的路徑上所有 邊的罰分之和。 ? 材料二:劉開瑛 20xx,第 4章 78248個(gè)交集型歧義字段中,偽歧義: 94% 真歧義: 6% 多切分 12% 單切分 88% 48 漢語(yǔ)真實(shí)文本中的分詞歧義情況(續(xù)) ? 分詞歧義的四個(gè)層級(jí) (何克抗 等 1991, 50883字語(yǔ)料) ? 詞法歧義 : % ( “ 用方塊圖形式加以描述 ” ) ? 句法歧義 : % ( “ 他一陣風(fēng)似的跑了 ” ) ? 語(yǔ)義歧義 : % ( “ 學(xué)生會(huì)寫文章 ” ) ? 語(yǔ)用歧義 : % ( “ 美國(guó)會(huì)采取措施制裁伊拉克 ” ) 基于句法和語(yǔ)義處理技術(shù)的歧義分析精度的上限( 語(yǔ)義級(jí)理想切分精度 1/6250) 所謂切分精度,即指錯(cuò)誤率 49 未登錄詞( unknown word) ? 中外的人名,地名 ( “ 雪村 ” , “ 老張 ” , “ 莎士比亞 ” ,“ 敘利亞 ” ) ; ? 中外組織機(jī)構(gòu)單位名稱和商品品牌名 ( 希望電腦 , 國(guó)際乒聯(lián) , 非??蓸?) ; ? 專業(yè)領(lǐng)域的大量術(shù)語(yǔ) ( 線性回歸 , 韋特比算法 ) ; ? 新詞語(yǔ),縮略語(yǔ) ( 卡拉 OK, E時(shí)代 , 打假 ) ; ? 漢語(yǔ)重疊形式、離合詞的分析 ? 看看 家家 打聽打聽 高高興興 樂呵呵 看一看 看了看 黑不溜逑 古里古怪 ? 游了一會(huì)兒泳 發(fā)理了沒有 擔(dān)什么心 幽了他一默 out of vocabulary – oov problem 50 識(shí)別未登錄詞的策略 1) 盡可能多地收集詞匯,以降低碰到未登錄詞的機(jī)會(huì); 2) 通過構(gòu)詞規(guī)則和上下文特征規(guī)則來識(shí)別; “ 雪村先生 創(chuàng)作了很多歌曲” 3) 通過統(tǒng)計(jì)的方法來猜測(cè)經(jīng)過一般的分詞過程后剩下的 連續(xù)單字詞碎片 是人名、地名等的可能性,從而識(shí)別出未登錄詞。 ? 前 400個(gè)姓氏覆蓋率達(dá) 99%。 ? 前 15個(gè)字的覆蓋率達(dá) %。這個(gè)地名錄中使用的漢字共2662個(gè),頻度最高的前 65個(gè)漢字占總頻度的 %,前 622個(gè)漢字占總頻度的 %,前 1872個(gè)漢字占總頻度的 99%。所以機(jī)構(gòu)名識(shí)別應(yīng)在人名、地名等其他專名識(shí)別之后進(jìn)行,其他專名識(shí)別的正確率對(duì)機(jī)構(gòu)名識(shí)別正確率有較大影響 62 機(jī)構(gòu)名的內(nèi)部構(gòu)成規(guī)律 2 ? 中文機(jī)構(gòu)名用詞非常廣泛。 ? 白栓虎, 1995, 《 漢語(yǔ)詞切分及標(biāo)注一體化方法 》 ,載陳力為、袁琦主編《 計(jì)算語(yǔ)言學(xué)進(jìn)展與應(yīng)用 》 ,清華大學(xué)出版社。 3 寫出漢語(yǔ)詞語(yǔ)重疊形式的分析規(guī)則 4 歸納說明漢語(yǔ)產(chǎn)生新詞的模式 5 在互聯(lián)網(wǎng)上找一篇字?jǐn)?shù)在 3000到 5000字之間的中文文章,進(jìn)行人工分詞,并列舉、歸納碰到的問題。 ? 陳小荷, 20xx, 《 現(xiàn)代漢語(yǔ)自動(dòng)分析 》 ,北京語(yǔ)言文化大學(xué)出版社,第 7章 ? 語(yǔ)言學(xué)光標(biāo)網(wǎng)站之詞法分析板塊 66 復(fù)習(xí)思考題 1 什么是詞?請(qǐng)談?wù)勀銓?duì) “ 詞 ” 這個(gè)概念的認(rèn)識(shí)。隨著社會(huì)發(fā)展,新機(jī)構(gòu)不斷涌現(xiàn),舊機(jī)構(gòu)不斷被淘汰、改組或更名 63 對(duì)分詞質(zhì)量的評(píng)價(jià) ? 計(jì)算分詞正確率的不同標(biāo)準(zhǔn) 以字?jǐn)?shù)或詞數(shù)算 以句數(shù)算 ? 分詞質(zhì)量對(duì) NLP應(yīng)用系統(tǒng)的影響 分詞質(zhì)量對(duì) MT的影響 分詞質(zhì)量對(duì) IR的影響 ―移動(dòng)電話 ” 從合 —— 對(duì)翻譯、校對(duì)有利 從分 —— 對(duì) IR有利 64 小結(jié) ?詞語(yǔ)破碎處,無物存在 —— 引自海德格爾 《 在通向語(yǔ)言的途中 》 , 商務(wù)印書館 1997年版 ?從字串到詞串,存在著多種可能性(不確定性),因而分詞的過程也就是一個(gè)降低不確定性的過程,為了降低不確定性,需要為計(jì)算機(jī)提供確定的 “ 語(yǔ)言知識(shí) ” ,這種知識(shí)可以是詞典形式的,可以是規(guī)則形式的,也可以是統(tǒng)計(jì)數(shù)據(jù)形式的。 辛華編 《 英語(yǔ)姓名譯名手冊(cè) 》 商務(wù)印書館 1973年(修訂版) 新華通訊社譯名資料組編 《 英語(yǔ)姓名譯名手冊(cè) 》 商務(wù)印書館 1997年(第二次修訂版) 60 音譯名的識(shí)別 2 ? 音譯名內(nèi)部很難劃分出結(jié)構(gòu),但有一些常見音節(jié),如“ 斯基、斯坦 ” 等 ? 不同語(yǔ)言的音譯規(guī)律不盡相同,如法語(yǔ)、俄語(yǔ)、蒙古語(yǔ)譯名用字與英語(yǔ)就有較大區(qū)別(蒙語(yǔ)人名舉例:“ 那順烏日?qǐng)D、青格勒?qǐng)D ” ),如果按不同的語(yǔ)言訓(xùn)練不同的模型可能會(huì)比使用統(tǒng)一的模型效果更好 ? 音譯名可以是人名、地名或其他專名,上下文規(guī)律差別較大 ? 由于音譯名用字比較集中,識(shí)別正確率較高 61 機(jī)構(gòu)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1