freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

漢語分詞-資料下載頁

2024-10-12 08:52本頁面

【導(dǎo)讀】漢語文本是基于單字的,漢語的書面表。添加合適的顯性的詞語邊界標(biāo)志使得所。正確的機(jī)器自動分詞是正確的中文信息處理的。和服|務(wù)|于三日后裁制完畢,并呈送將軍府中。王府飯店的設(shè)施|和|服務(wù)|是一流的。他們是來|查|金泰|撞人那件事的。行俠仗義的|查金泰|遠(yuǎn)近聞名。如何面向大規(guī)模開放應(yīng)用是漢語分詞研。如何識別未登錄詞。如何低廉地獲取語言學(xué)知識。實(shí)時(shí)性應(yīng)用中的效率問題。漢字串AJB被稱作交集型切分歧義,如果滿。足AJ、JB同時(shí)為詞。此時(shí)漢字串J被稱作交集串。[例]“美國會通過對臺售武法案”。[例]組合型切分歧義:“起身”。真歧義指存在兩種或兩種以上的可實(shí)現(xiàn)。漢語書寫過程中并不分詞連寫,對詞組和詞、漢語信息處理現(xiàn)在需要制訂統(tǒng)一的分詞標(biāo)準(zhǔn),動賓結(jié)構(gòu)的詞或詞組如中間插入其它成分,則。多字動詞無連詞并列,一律切分:調(diào)查/研。段,查找分詞詞典。比較FMM法與BMM法的切分結(jié)果,從而

  

【正文】 、 “ 名譽(yù) ” 、“ 榮譽(yù) ” 等 漢語分詞 37 人名識別系統(tǒng)知識庫 ? 簡單上下文 ? 指界詞表 :約 110個(gè)詞 ? 動詞:說、是、指出、認(rèn)為、表示、參加等; ? 介詞:在、之、的、被、以等; ? 正在、今天、本人、先后等。 ? 標(biāo)點(diǎn)符號集 ? 人名出現(xiàn)在句首或句尾(包括分句)的機(jī)會比較大,標(biāo)點(diǎn)符號可用來幫助判斷人名的邊界。 ? 頓號一邊是人名時(shí),另一邊的候選人名的可靠性 高 。 漢語分詞 38 人名識別系統(tǒng)知識庫 ? 非名字用詞表 : 有些雙字詞,如:時(shí)間、獎(jiǎng)勵(lì)、緯度等不作名字用詞,但因?yàn)榻M成它們的單字可作為名字用字,如果跟在姓氏后面,往往會將其與可作姓氏的字一起誤判為姓名。 例: “ 做 \這 \件 \事 \花 \了 \我們 \一 \段 \時(shí)間 \。\” 漢語分詞 39 中文人名識別過程 待處理文本 潛在姓名表 切分預(yù)處理 校正 識別結(jié)果 系統(tǒng)資源表知識庫 中文人名識別 漢語分詞 40 人名識別的具體實(shí)現(xiàn) ? → 姓氏判別 ? → 名字識別 ? → 概率判斷 候選字符串為人名的概率為: P = 姓氏部分為姓氏的概率 P1 * 余下部分的漢字作名字用字的概率 P2*P3(單名時(shí),為 P2) 漢語分詞 41 校正 (對潛在人名的后處理 ) ? 當(dāng)兩個(gè)已辨識的人名相似時(shí),需要檢查是否要更正 ? C1C2C3與 C1C2C4同時(shí)存在 , C1C2正確; ? C1C2C3與 C1C2C4同時(shí)存在 , C1C2C3正確; ? C1C2C3與 C1C2同時(shí)存在 , C1C2正確; ? C1C2C3與 C1C2同時(shí)存在, C1C2C3正確 漢語分詞 42 校正 (對潛在人名的后處理 ) ? 自動校正: ? 如果兩個(gè)潛在人名相似 , 考察它們的權(quán)值 。 ? 一高一低時(shí) , 將低權(quán)值的潛在人名清除 (李文常 、李文 ); ? 都為高權(quán)值時(shí) , 兩者都認(rèn)為是人名 (劉文軍 、 劉文俊 ); ? 都是低權(quán)值時(shí) , 則各自通過第三個(gè)字作名字用字的概率大小來判斷 。 概率夠高 , 識別為人名 。 否則將第三個(gè)字去掉 (李文常 、 李文及 ) 。 ? 人工校正 漢語分詞 43 人名識別結(jié)果與分析 ? 實(shí)驗(yàn)結(jié)果: 8個(gè)測試樣本,共 22020多字,共有中文人名 270個(gè)。系統(tǒng)共識別出中文人名 330個(gè),其中 267個(gè)為真正人名。 召回率 =文本中的中文人名辨識正確的比例=267/270*100% =% 準(zhǔn)確率 = 真正辨識正確的人名的比例 =267/330*100% =% 準(zhǔn) 確率和召回率是互相制約的 , 可通過 概率 閾值的調(diào)整來調(diào)節(jié)二者的關(guān)系 。 漢語分詞 44 人名識別結(jié)果與分析 ? 產(chǎn)生錯(cuò)誤的主要原因 ? 被未識別的地名干擾 。 “ 湖北 \英 \山 \縣 \詹 \家 \河 \鄉(xiāng)\陶 \家 \河 \村 \, \ ” ? 受非中式人名的干擾 。 “ 司 \馬 \義 \\艾 \買 \提 \ ” ? 分詞結(jié)果不理想 。 “ 為 \迎接 \香港 \回 \歸 \送 \賀 \禮 \” ? 規(guī)則不準(zhǔn)確 。 “ 南 \宋 \大 \詩人 \楊 \萬 \里 \“\驚 \如 \漢\殿 \三 \千 \女 \, \ ” ? 其他 。 “ 全世界 \每年 \影片 \產(chǎn)量 \高 \達(dá) \兩 \三 \千 \部\, \ ” 漢語分詞 45 改進(jìn)措施 ? 采用更好的分詞系統(tǒng) ? 構(gòu)建更準(zhǔn)確的姓名用字庫、指界詞庫等 ? 識別時(shí)結(jié)合一些語法、語義知識 ? 采用更合理的大規(guī)模人名語料進(jìn)行訓(xùn)練,使閾值確定得更合理 ? 增加一些校正措施
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1