freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

詞匯分析(一)-預(yù)覽頁

2025-06-23 02:39 上一頁面

下一頁面
 

【正文】 Lemmatization算法的一般過程 ( 1)初始化:待分析的詞形= W, d=W的字符數(shù), i=1,設(shè)輸出串 R=; ( 2)到 Dict中查找 W,如果找到, R=W,轉(zhuǎn)入( 8); ( 3)如果 i (d/2),執(zhí)行( 4)到( 7)步,否則轉(zhuǎn)入( 8); ( 4)從 W中取出 i個尾字字符, W成為兩部分 W1 + W2( W2為取出的尾字符串); ( 5)到 SuffixList中查找 W2,如果查到,調(diào)用規(guī)則,對 W1進行處理,得到 W139。如: impossibilities?impossibility+ies ? 詞根層。 最大匹配法分詞示例(續(xù)) 25 最大匹配法分詞的問題 ? 最大詞長的確定 ( 1)詞長過短,長詞就會被切錯( “ 中華人民共和國 ” ) ( 2)詞長過長,效率就比較低 ? 掩蓋了分詞歧義 A.―有意見分歧 ” (正向最大匹配和逆向最大匹配結(jié)果不同) 有意 / 見 / 分歧 / 有 / 意見 / 分歧 / B.―結(jié)合成分子時 ” (正向最大匹配和逆向最大匹配結(jié)果相同) 結(jié)合 / 成分 / 子時 / 26 分詞歧義的類型 ? 交集型歧義 如果 AB和 BC都是詞典中的詞,那么如果待切分字串中包含“ ABC‖這個子串,就必然會造成兩種可能的切分: “ AB/ C/ ‖ 和 “ A/ BC/ ‖。這種類型的歧義就是組合型歧義。 例如:“學歷史知識” 順向掃描的結(jié)果是:“學歷 / 史 / 知識 /‖, 通過查詞典知道“史”不在詞典中,于是進行回溯,將“學歷”的尾字“歷”取出與后面的“史”組成“歷史”,再查詞典,看“學”,“歷史”是否在詞典中,如果在,就將分詞結(jié)果調(diào)整為:“學 / 歷史 / 知識 /‖ 30 最大概率法分詞 基本思想是: ( 1)一個待切分的漢字串可能包含多種分詞結(jié)果 ( 2)將其中概率最大的那個作為該字串的分詞結(jié)果 路徑 1: 0- 1- 3- 5 路徑 2: 0- 2- 3- 5 該走哪條路呢? 31 最大概率法分詞 ? S: 有意見分歧 ? W1: 有 / 意見 / 分歧 / ? W2: 有意 / 見 / 分歧 / Max(P(W1|S), P(W2|S)) ? NnwwP ii 語料庫中的總詞數(shù)在語料庫中的出現(xiàn)次數(shù)?)(獨立性假設(shè),一元語法 )(. ..)()(), .. .,()( 2121 ii wPwPwPPWP ?????)()( )()|()|( WPSP WPWSPSWP ???32 最大概率法分詞 詞語 概率 … … 有 有意 意見 見 分歧 … … P(W1) = P(有 ) * P(意見 ) * P(分歧 ) = 109 P(W2) = P(有意 ) * P(見 ) * P(分歧 ) = 1 1011 P(W1) P(W2) 33 提高計算效率 )()(39。 意見有意見 PPP ??)()(39。 ? 最佳左鄰詞 如果某個候選詞 有若干個左鄰詞 , , … 等等,其中累計概率最大的候選詞稱為 的最佳左鄰詞。(有 )=P(有 ), P39。 ? 半詞:如果一個字不單獨作為詞使用,就是半詞。 ? 基本思路:充分利用半詞和整詞的差別,盡量選擇沒有半詞落單的分詞方案。 4 罰分越低,越可能是正確的分詞 43 半詞法分詞(續(xù) 2) 他 說 的 確實 在理 ( 1+1+1+1+1 = 5分) 他 說 的確 實 在理 ( 1+1+1+2+1 = 6分) 他 說 的確 實在 理 ( 1+1+1+1+2 = 6分) 注意:仍然無法解決 “ 結(jié)合成分子時 ” 44 漢語自動分詞的困難 ? 分詞規(guī)范 ? 分詞歧義 ? 未登錄詞識別 劉源 等( 1994) 《 信息處理用現(xiàn)代漢語分詞規(guī)范及自動分詞方法 》 ,清華大學出版社、廣西科學技術(shù)出版社, 1994年版。 51 未定義詞識別的一般方法 ? 每一類未定義詞都要構(gòu)造專門的識別算法 ? 識別依據(jù) ? 內(nèi)部構(gòu)成規(guī)律(用字規(guī)律) ? 外部環(huán)境(上下文) ? 重復(fù)出現(xiàn)規(guī)律 52 未定義詞識別的研究進展 ? 較成熟 ? 中國人名、譯名 ? 中國地名 ? 較困難 ? 商標字號 ? 機構(gòu)名 ? 很困難 ? 專業(yè)術(shù)語 ? 縮略語 ? 新詞語 53 中國人名的內(nèi)部構(gòu)成規(guī)律 1 ? 在漢語的未定義詞中,中國人名是規(guī)律性最強,也是最容易識別的一類; ? 中國人名一般由以下部分組合而成: ? 姓:張、王、李、劉、諸葛、西門、范徐麗泰 ? 名:李素麗,張華平,王杰、諸葛亮 ? 前綴:老王,小李 ? 后綴:王老,趙總 ? 中國人名各組成部分用字比較有規(guī)律 54 中國人名的內(nèi)部構(gòu)成規(guī)律 2 ? 根據(jù)統(tǒng)計 , 漢語姓氏大約有 1000多個 , ? 姓氏中使用頻度最高的是 “ 王 ” 姓 。 ? 人名的用字也比較集中。 ? 前 400個字的覆蓋率達 90%。 ? 與人名的用字情況相比較,地名用字分散得多 ? 地名內(nèi)部也有一定的結(jié)構(gòu),右邊界比左邊界更容易識別 59 音譯名的識別 1 ? 音譯名用字非常集中 《 英語姓名譯名手冊 》 中共收英語姓氏 , 教名約 4萬個 , 經(jīng)計算機統(tǒng)計得出英語姓名譯名用字表共 476個: “ 啊阿埃艾愛昂奧巴白柏拜班邦包保堡鮑北貝倍本比彼邊別濱賓玻波博勃伯卜布采蔡藏策查察昌徹陳楚垂茨慈次聰存措達大戴代丹當?shù)赖碌玫青嚨系椎氐俚诘鄱|杜敦頓多厄恩耳爾法凡范方菲費芬豐馮佛夫福弗輔富蓋甘岡高哥戈葛格各根貢古顧瓜圭郭果哈海罕翰漢杭豪赫黑亨洪侯胡華懷惠霍基吉季計嘉佳加賈簡姜焦杰捷金津京久居喀卡開凱坎康考柯科可克肯孔扣寇庫夸匡奎魁坤昆闊拉臘萊來賴蘭朗勞勒樂雷黎理李里禮荔麗歷利立蓮連廉良列琳林霖齡留劉流柳龍隆盧魯露路呂略倫蘿羅洛瑪馬麥邁滿曼芒茅梅門蒙孟米密敏明名摩莫墨默姆木穆拿娜納乃奈南內(nèi)嫩能妮尼年涅寧牛紐農(nóng)努女諾歐帕派潘龐培佩彭蓬皮匹平潑樸普漆奇齊契恰錢強喬切欽琴青瓊丘邱屈讓熱仁日榮茹儒瑞若撒薩塞賽三繕桑瑟森莎沙珊山尚紹舍申生盛圣施詩石什史士壽舒朔斯思絲松孫索所塔泰坦湯唐陶特藤提惕田鐵汀廷亭通透圖托脫娃瓦萬旺威韋為維偉魏衛(wèi)溫文翁沃烏武伍西錫希悉席霞夏顯香向曉肖歇謝欣辛興幸姓雄休修雪遜雅亞延揚陽堯耀耶葉依易意因英永尤雨約宰贊早澤曾扎詹湛章張哲者珍真芝知智治朱卓茲子宗祖佐丕謨葆薇岑弼婭繆珀瑙賚滕斐熙鳩竇艮麟黛 ” 。通過對人民日報1998年 1月中的 10817個機構(gòu)名所含的 19986個詞進行統(tǒng)計,共計 27種詞,其中名詞最多( 9941個),地名其次( 5023個),以下依次為簡稱( 1169個)、專有名詞( 1125個)、動詞( 848個)以及機構(gòu)名( 714個)等 ? 機構(gòu)名長度 極其不固定 ? 機構(gòu)名很不穩(wěn)定。 ? 孫茂松 等, 1999, 《 高頻最大交集型歧義切分字段在漢語自動分詞中的作用 》 ,載 《 中文信息學報 》 1999年第 1期。
點擊復(fù)制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1