freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

hmm模型和詞性標(biāo)注-資料下載頁

2025-04-26 08:53本頁面
  

【正文】 ??????? N1ittttitittiiiiOPOsxPOsxPi)()()()()|()|,(),|()(????????  E 步驟 —— 期望值 ? 可觀察到 ??? ?11 ),(Tt jit ssji 轉(zhuǎn)移的期望次數(shù)到狀態(tài)從狀態(tài)?????11)(Ttit si 出發(fā)的轉(zhuǎn)移的期望次數(shù)從狀態(tài)?的概率初始狀態(tài)為 i1 si ?)(????Ttitt ksikO1的期望次數(shù)輸出符號(hào)狀態(tài))(),( ??M 步驟 —— 重估公式 ???????1111,)(),(?TttTttjiijia??)(? 1 ii ?p ??????TttTtttkiiikob11,)()(),(????詞性標(biāo)注 詞性 (Part of Speech) ? 詞的句法類別 ? 詞性集合: ? 名詞、動(dòng)詞、形容詞、副詞、介詞、助動(dòng)詞 ? 開放詞類 (Open Class)和封閉詞類 (Closed Class) ? 可稱為:語法類、句法類、 POS標(biāo)記、詞類等 ? 詞的兼類現(xiàn)象 ? 例如 ? 打 人 = 動(dòng)詞 ? 一 打 襯衫 = 量詞 ? 詞性標(biāo)注 ? 確定每個(gè)詞在特定的句子中詞性 POS舉例 Penn Treebank詞性集 POS歧義 (在 Brown語料庫中 ) 目前的性能 ? 容易評(píng)價(jià),只需計(jì)算標(biāo)注正確的詞性數(shù)量 ? 目前準(zhǔn)確率大約在 97%左右 ? Baseline也可以達(dá)到 90% ? Baseline算法 : ?對(duì)每一個(gè)詞用它的最高頻的詞性進(jìn)行標(biāo)注 ?未登錄詞全部標(biāo)為名詞 詞性標(biāo)注的常用方法 ? 詞性標(biāo)注( PartofSpeech tagging) ? 回顧: ?作用:句法分析的前期步驟 ?難點(diǎn):兼類詞處理 ? 基于規(guī)則的詞性標(biāo)注 ? 基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)的詞性標(biāo)注 ? 基于 HMM的詞性標(biāo)注 基于 HMM的詞性標(biāo)注 ? HMM模型 ? 五元組 (S, V, p ,A,B) ? S: 狀態(tài)集合;詞性集合 S={t1,.., tm}. ? V :輸出符號(hào)集;詞典 V={w1,..,wv}. ? 模型參數(shù) μ= (A,B,p) ? pi : P(x1 = ti) 詞性 ti的初始概率 ? aij : P(tj|ti) 從詞性 ti到詞性 tj的轉(zhuǎn)移概率 ? bjk: P(wk| tj) 從詞性 tj到詞 wk的輸出概率 ? 序列 ? 觀察序列:詞匯序列: W = w1,w2…wn ? 狀態(tài)序列:詞性序列: T = t1,t2…tn 基于 HMM的詞性標(biāo)注 ? 詞性標(biāo)注 ? 屬于 HMM的解碼問題 ? 給定觀察序列和模型,求解最佳的狀態(tài)序列。 ? 具體任務(wù) ? 給定一個(gè)詞序列 W = w1,w2…wn ? 求解最佳的詞性序列 T = t1,t2…tn )|()| (m axar g)| ,(m axar g)|()| ,(m axar g),| (m axar g uT,WPuTPuWTPuWPuWTPuWTPTTTTTB e s t????基于 HMM的詞性標(biāo)注 ? 數(shù)學(xué)推導(dǎo) ????niiinn twPutttPuT,WP12121 )|(),|()|( ??輸出條件獨(dú)立性假設(shè) ????niiin ttPutttPu|TP1121 )|()|()( ?有限歷史假設(shè) ???niiiii ttPtwPuT,WPuTP11 )|()|()|()| (???niiiiiTB e s t ttPtwPT11 )|()|(m a xa r gHMM:有指導(dǎo)的參數(shù)學(xué)習(xí) ? 模型的參數(shù)未知 ? 假設(shè)有已經(jīng)標(biāo)注好的語料庫 : ? W = w1,w2…wn ? T = t1,t2…tn ? 如何從語料庫中得到這樣的參數(shù) ? 使用最大似然估計(jì)( MLE) )(),()|(jjiji tcttcttP ?)(),()|(iiiii tcwtctwP ?用帶標(biāo)記的語料進(jìn)行訓(xùn)練 HMM:無指導(dǎo)的參數(shù)學(xué)習(xí) ? 語料庫只是詞的序列,沒有人工標(biāo)注詞性。 ? 完全無指導(dǎo)的學(xué)習(xí)是不可能的 ? 至少要知道: ? 詞性集 ? 每個(gè)詞可能的詞性(根據(jù)詞典) ? 使用 BaumWelch算法 詞網(wǎng)格 ? 詞網(wǎng)格: ? 對(duì)于輸入的詞序列,根據(jù)語法詞典,列出每個(gè)詞可能的詞性候選,構(gòu)成詞網(wǎng)格,即狀態(tài)空間。(是完整的柵格狀態(tài)空間的子空間) ? 采用 Viterbi算法搜索詞網(wǎng)格,搜索最佳路徑(詞性序列、狀態(tài)序列)。 ? 計(jì)算相關(guān)概率時(shí),取 log對(duì)數(shù)形式,目的是將乘法運(yùn)算變成加法運(yùn)算。 ? 同時(shí), 將求最大概率的路徑問題轉(zhuǎn)換成求最小費(fèi)用的路徑問題 。 詞網(wǎng)格 Viterbi解碼算法 ? 定義向前變量: ? 計(jì)算第一列 ? 計(jì)算第 t列 ? 選擇最優(yōu)路徑 ? 路徑回朔 )|,(m a x)( ?? ittTit tTPt ?? ?21011????)()|()()( 1iiiiittwPtTPt??   )|()|()(m a xa r g)()|()|()(m a x)(11jjijitttjtjjijitttjttwPttPtttwPttPttii??????????11????列列)(m a xa r g* iTTtTtxi?列第??)( ** 11 ??? ttt xx ?Viterbi搜索 ——例子 小結(jié) 謝謝! 本課件參考了哈工大關(guān)毅教授和劉挺教授的課件
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1