freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎開發(fā)實(shí)踐基于概率語言模型的中文分詞-文庫吧

2025-07-07 21:34 本頁面


【正文】 )C(P SPS|CPm a xa r g=)C|S(Pm a xa r g=cS e g SS G∈G∈( ) )S(Pm a xa rg=cSe g S G∈計(jì)算 P(S) )w(Pl o g+...+)w(P+)w(P)w(P...)w(P)w(P)w, . . . ,w,w(P=)S(P n21n21n21 l ogl og∝≈獨(dú)立性假設(shè),一元語法 N nwwP ii 語料庫中的總詞數(shù)在語料庫中的出現(xiàn)次數(shù)?)(假設(shè)每個(gè)詞之間的概率是上下文無關(guān)的 Nlo g)F re qlo g (=)w(Plo g wi 為了避免向下溢出,取 log 最大似然法估計(jì)詞語的概率: 計(jì)算最大概率 C: 有意見分歧 ?S1: 有 / 意見 / 分歧 / ?S2: 有意 / 見 / 分歧 / P(S1) = P(有 ) * P(意見 ) * P(分歧 ) = 109 P(S2) = P(有意 ) * P(見 ) * P(分歧 ) = 1 1011 可得 P(S1) P(S2),所以選擇 S1對(duì)應(yīng)的切分。 為了避免向下溢出,取 log的計(jì)算結(jié)果: log P(S1) = log P(有 ) + log P(意見 ) + log P(分歧 ) = log P(S2) = log P(有意 ) + log P(見 ) + log P(分歧 ) = log P(S1) log P(S2) 詞語 概率 … … 有 有意 意見 見 分歧 … … 與最大長度匹配分詞的區(qū)別 如果每個(gè)詞出現(xiàn)的概率都相同,則現(xiàn)在的分詞方法退化成最少詞數(shù)的分詞。 最少詞數(shù)的分詞,即一句話分成數(shù)量最少的詞串,類似最大長度匹配切分。 因?yàn)椋绻?0P(w)1,而且 nm 則 (P(w))n (P(w))m 切分詞圖 ?根據(jù)基本詞庫對(duì)句子進(jìn)行全切分,找出所有可能的詞,形成切分詞圖。 ?邊代表詞,邊的權(quán)重是詞的概率。 ?從切分詞圖中尋找概率最大的詞序列,對(duì)應(yīng)于從有向無環(huán)帶正權(quán)重的圖中找最長路徑。 ?其中: ?沒有考慮未登錄詞 ?日期、數(shù)字串等可以用規(guī)則匹配,不需要考慮它內(nèi)部的概率。例如2022年 3月 23日 這樣的日期 切分詞圖中的點(diǎn) 0 1 2 3 4 5 有 意 見 分 歧 如果待切分的字符串有 m個(gè)字符,考慮每個(gè)字符左邊和右邊的位置,則有 m+1個(gè)點(diǎn)對(duì)應(yīng),點(diǎn)的編號(hào)從 0到
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1