freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎開發(fā)實(shí)踐基于概率語言模型的中文分詞-在線瀏覽

2024-09-01 21:34本頁面
  

【正文】 S|CPm a xa r g=)C|S(Pm a xa r g=cS e g SS G∈G∈( ) )S(Pm a xa rg=cSe g S G∈計(jì)算 P(S) )w(Pl o g+...+)w(P+)w(P)w(P...)w(P)w(P)w, . . . ,w,w(P=)S(P n21n21n21 l ogl og∝≈獨(dú)立性假設(shè),一元語法 N nwwP ii 語料庫中的總詞數(shù)在語料庫中的出現(xiàn)次數(shù)?)(假設(shè)每個(gè)詞之間的概率是上下文無關(guān)的 Nlo g)F re qlo g (=)w(Plo g wi 為了避免向下溢出,取 log 最大似然法估計(jì)詞語的概率: 計(jì)算最大概率 C: 有意見分歧 ?S1: 有 / 意見 / 分歧 / ?S2: 有意 / 見 / 分歧 / P(S1) = P(有 ) * P(意見 ) * P(分歧 ) = 109 P(S2) = P(有意 ) * P(見 ) * P(分歧 ) = 1 1011 可得 P(S1) P(S2),所以選擇 S1對應(yīng)的切分。 最少詞數(shù)的分詞,即一句話分成數(shù)量最少的詞串,類似最大長度匹配切分。 ?邊代表詞,邊的權(quán)重是詞的概率。 ?其中: ?沒有考慮未登錄詞 ?日期、數(shù)字串等可以用規(guī)則匹配,不需要考慮它內(nèi)部的概率。 切分詞圖 第 11頁 “有意見分歧”生成的切分詞圖 意見 分歧 有意 分 見 意 有 0 1 2 3 4 5 路徑 1: 0- 1- 3- 5 對應(yīng)切分方案 : 有 / 意見 / 分歧 / 路徑 2: 0- 2- 3- 5 對應(yīng)切分方案 : 有意 / 見 / 分歧 / 計(jì)算最大概率等于求切分詞圖的最長路徑 表示切分詞圖 切分詞圖的特點(diǎn): ?邊比較少,所以是一個(gè)稀疏圖 (Sparse Graph)。 ?需要找一個(gè)節(jié)點(diǎn)的前驅(qū)詞集合,所以用逆鄰接表表示。//詞 public int start。//詞的結(jié)束位置 public int freq。 end = vertexTo。 } } 單向鏈表 public class CnTokenLinkedList implements IterableCnToken { public static class Node { public CnToken item。//記錄下一個(gè)對象 Node(CnToken item) { = item。 } } priv
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1