freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

cwmt3908統(tǒng)計(jì)機(jī)器翻譯研討會(huì)自動(dòng)化所技術(shù)報(bào)告(編輯修改稿)

2025-08-11 18:17 本頁面
 

【文章內(nèi)容簡介】 行的處理: ?中文的分詞, ; ?全角變半角, ?對(duì)英文數(shù)據(jù)進(jìn)行的處理: ?大寫轉(zhuǎn)小寫 ?標(biāo)點(diǎn)符號(hào)的分離處理。 短語表的獲取 ?所有機(jī)器翻譯參評(píng)項(xiàng)目的短語表都是利用 Moses工具包進(jìn)行訓(xùn)練獲取的 ,其中的參數(shù)都利用 Moses工具包的默認(rèn)設(shè)臵 。 開發(fā)集的獲取 評(píng)測任務(wù) 新聞漢英 新聞?dòng)h 科技英漢 開發(fā)集規(guī)模 2652個(gè)漢語句 子, 4個(gè)參 考答案 2046個(gè)英語句 子, 4個(gè)參 考答案 2593個(gè)英語句 子, 4個(gè)參 考答案 開發(fā)集的獲取 ? 新聞評(píng)測任務(wù) ? 以 SSMT07的測試集作為基準(zhǔn) ? 利用相似度從剩余開發(fā)集中過濾一部分開發(fā)集 ? 與 SSMT07測試集合并 ? 科技評(píng)測任務(wù) ? 開發(fā)集 1:以測試集為基準(zhǔn);利用相似度從科技訓(xùn)練語料中抽取一部分作為開發(fā)集; ? 開發(fā)集 2:利用測試集跟新聞發(fā)布訓(xùn)練中的英漢開發(fā)集的相似度來進(jìn)行篩選過濾出來 ? 把這兩個(gè)開發(fā)集合并成最終用于科技評(píng)測任務(wù)的開發(fā)集 。 對(duì)測試語料的特殊處理 ? 這次評(píng)測使用的是時(shí)事新聞?wù)Z料和科技語料 ?包含大量的命名實(shí)體 , 包括:人名 、 地名 、 機(jī)構(gòu)名 、 時(shí)間 、 數(shù)字及未登陸詞 ? 對(duì)測試語料進(jìn)行特殊處理是很有必要的 。 對(duì)測試語料的特殊處理 ? 對(duì)這些實(shí)體詞進(jìn)行特殊處理并獲得翻譯列表 , 設(shè)臵一個(gè)較大的概率添加到訓(xùn)練獲得的翻譯短語對(duì)中對(duì)測試語料進(jìn)行解碼 。 命名實(shí)體識(shí)別翻譯 ? 中文命名實(shí)體識(shí)別 ?采用 [Wu, 2022]開發(fā)的多知識(shí)源融合的漢語實(shí)體識(shí)別系統(tǒng)進(jìn)行漢語命名實(shí)體的識(shí)別; ? 英文命名實(shí)體識(shí)別 ?采用公開的 Mallet軟件包中的基于條件隨機(jī)場模型( Conditional Random Fields, CRF)的英語實(shí)體標(biāo)注工具進(jìn)行英語命名實(shí)體的識(shí)別標(biāo)注; 命名實(shí)體識(shí)別翻譯 ? 漢英實(shí)體翻譯 ? 對(duì)人名和地名:采用字典查詢方式進(jìn)行翻譯 ? 機(jī)構(gòu)名的翻譯:利用基于語塊的層次翻譯模型; ? 英漢實(shí)體翻譯 ? 對(duì)各類實(shí)體都采用逐詞查詢字典的方式進(jìn)行翻譯; ? 所利用的詞典主要是 LDC2022T34實(shí)體詞典和LDC2022L27詞
點(diǎn)擊復(fù)制文檔內(nèi)容
職業(yè)教育相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1