freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于上下文和語義信息的跨領(lǐng)域中文分詞-在線瀏覽

2024-08-28 19:02本頁面
  

【正文】 t),該詞作為候選詞的頻數(shù) (Frequency),該詞作為最終切分路徑中詞節(jié)點的頻數(shù) (rNum)。 ?也就是說,若某個字串在上下文中多次被當作候選詞,則它很可能就是一個詞。 表 1 基于字的 CRFs特征模板 本文主要方法 —— 模型及特征 基于詞的 CRFs: 采用的具體特征模板有: W0, T0, W0T0, T0T1, W0W1,其中,W表示詞形, T表示詞性,下標 0和 1分別表示相鄰兩個詞的前詞和后詞。 解碼時,用 Viterbi算法。先將使用基于字的 CRFs獲得的候選詞放入詞圖,然后再使用基于詞的 CRFs模型對詞圖中的詞進行標注。 ? 分詞系統(tǒng)能貢獻最高價值,發(fā)揮最高效益時,是針對 新主題,新來源 ,帶有許多未登錄詞的文本 [9]。 ? 在現(xiàn)實應(yīng)用中,需要分詞的絕大部分文本 并不帶有來源、主題等標記數(shù)據(jù) [9] ?;谏舷挛暮驼Z義信息的跨領(lǐng)域中文分詞 報告人:張婧 導(dǎo)師:黃德根教授 學(xué)校:大連理工大學(xué) 研究領(lǐng)域:自然語言處理 主要內(nèi)容 ?中文分詞概況 ?中文分詞的一大挑戰(zhàn) ?本文主要方法 ?參考文獻 中文分詞概況 中文分詞的主要技術(shù) : 基于規(guī)則的方法 基于統(tǒng)計的方法 規(guī)則與統(tǒng)計相結(jié)合的方法 基于序列標注的機器學(xué)習(xí)方法 [12] 基于字標注的方法 [35] 基于子詞標注的方法 [68] 中文分詞的技術(shù)難點: 未登錄詞、歧義、 規(guī)范等 本文所用的方法 主要內(nèi)容 ?中文分詞概況 ?中文分詞的新挑戰(zhàn) ?本文主要方法 ?參考文獻 中文分詞的一大挑戰(zhàn) 跨領(lǐng)域分詞的一個顯著特點是: 一個特定領(lǐng)域文章中的通用詞和術(shù)語較多,這些領(lǐng)域性 OOV是基于某個特定領(lǐng)域的,并且可能會在其所屬領(lǐng)域的某一上下文內(nèi)多次出現(xiàn)。 因此, 領(lǐng)域適應(yīng)性 已經(jīng)成為中文分詞面臨的一大挑戰(zhàn) [9] 。 ? 分詞系統(tǒng)不能預(yù)先把所有可能的文本種類 都訓(xùn)練好 [9] 。 主要內(nèi)容 ?中文分詞概況 ?中文分詞的新挑戰(zhàn) ?本文主要方法 ?參考文獻 模型及特征 上下文及語義信息 分詞算法流程 實驗結(jié)果及總結(jié) 本文主要方法 ?模型及特征 ?上下文及語義信息 ?分詞算法流程 ?實驗結(jié)果及總結(jié) 本文主要方法 —— 模型及特征 本文采用字詞聯(lián)合的 CRFs模型。 訓(xùn)練時,使用最大似然估計,為了避免訓(xùn)練過載,使用高斯先驗對參數(shù)進行規(guī)格化。 模型: 特征模板: ? 基于字的 CRFs特征模板 ? 基于詞的 CRFs特征模板
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1