freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

中文詞語分析一體化系統(tǒng)-資料下載頁

2025-08-04 13:18本頁面
  

【正文】 除以總的人名數(shù)目;其結(jié)果大約為 12% ???niiiii rrprcp01 )|()|(24 未登錄詞識(shí)別 VI ? 漢族人名測(cè)試結(jié)果 類別 封閉測(cè)試語料 1 封閉測(cè)試語料2 開放測(cè)試語料 來源 98年 1月 2月 1日 20日 2月 20日 28日 語料庫大小 8,621K 6,185K 2,605K 實(shí)際人名數(shù) 13722 7534 3149 識(shí)別出的人名數(shù) 17167 10646 4130 正確數(shù) 13376 7489 2886 準(zhǔn)確率 % % % 召回率 % % % F值 % % % 25 計(jì)算所中文詞語一體化分析系統(tǒng) ICTCLAS ? Institute of Computing Tech., Chinese Lexical Analysis System. (ICTCLAS) ? 設(shè)計(jì)的基本原則 – 一體化 – 結(jié)果不唯一 – “當(dāng)斷則斷,不留后患” – “求同存異,保留爭(zhēng)端” 26 ICTCLAS—系統(tǒng)處理流程 語料庫 原始字串 切分詞圖 概率詞典 識(shí)別詞典 語料庫 訓(xùn)練 粗切分 未登錄 詞識(shí)別 切分標(biāo)注 選擇 N優(yōu) 輸出結(jié)果 原子切分 27 ICTCLAS—功能模塊 ICTCLAS N最短路徑切分 (概率統(tǒng)計(jì)) 未登錄詞識(shí)別 隱馬標(biāo)注 人名 地名 譯名 其他 結(jié)果生成 重疊詞 規(guī)范 其他 28 ICTCLAS—初評(píng)結(jié)果 ? 評(píng)測(cè)語料庫為《人民日?qǐng)?bào)》 1998年 1月 1日 1月 15日( 12022行)的新聞?wù)Z料 ? 總共詞數(shù): 601646 切分正確率(按詞統(tǒng)計(jì)) %;按句子統(tǒng)計(jì) % ? 一級(jí)標(biāo)注正確率(按詞統(tǒng)計(jì)): %;按句子統(tǒng)計(jì) % 29 結(jié)論 ? 漢語詞語分析是中文信息處理的基礎(chǔ),無論是理論上,還是實(shí)際應(yīng)用上都極其重要。 其難點(diǎn)主要在于排歧和未登錄詞的識(shí)別。 ? 目前常用的研究方法及相關(guān)系統(tǒng),存在著一些不足:不統(tǒng)一;量化困難,缺乏可比性。 ? N最短路徑方法進(jìn)行詞語粗分,可以盡可能的解決詞語切分問題,同時(shí)將未登錄詞與歧義問題保留到下一過程。 ? 基于角色標(biāo)注的未登錄詞識(shí)別方法,可以克服觸發(fā)與候選字段選取的盲目性,并能計(jì)算出候選詞的概率。最終效果能滿足實(shí)際要求。 ? 基于 HMM的一體化方法 能夠?qū)⑽吹卿浽~、歧義排除和普通詞的處理統(tǒng)一起來,我們?cè)?ICTCLAS中進(jìn)行了實(shí)際的應(yīng)用。 30 敬請(qǐng)指導(dǎo)!謝謝!
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1