【正文】
。 短語系統(tǒng)167。 分層短語系統(tǒng)167。 CASIA_SYSTEM II英中翻譯系統(tǒng)v評(píng)測(cè)環(huán)境概要v數(shù)據(jù)v總結(jié)中國(guó)科學(xué)院自動(dòng)化所Institute of Automation, Chinese Academy of Sciences技術(shù)說明 短語系統(tǒng)v典型的短語系統(tǒng) [2]v非單調(diào)解碼,任意跳轉(zhuǎn)v對(duì)數(shù)線性模型v10個(gè)特征167。 扭曲概率167。 IBM扭曲模型 [4]中國(guó)科學(xué)院自動(dòng)化所Institute of Automation, Chinese Academy of Sciences技術(shù)說明 分層短語系統(tǒng)v主要借鑒了 Wei[5]的基本思想,引入分層短語的概念v有效地結(jié)合了短語模型和同步上下文無關(guān)文法v分層短語模型將語序信息包含在模型之中,克服了傳統(tǒng)短語翻譯的調(diào)序問題v沿用了統(tǒng)計(jì)線性對(duì)數(shù)方法進(jìn)行概率計(jì)算,使用了如下 6個(gè)特征:167。 句子長(zhǎng)度懲罰中國(guó)科學(xué)院自動(dòng)化所Institute of Automation, Chinese Academy of Sciences技術(shù)說明 依存樹到串系統(tǒng)v 在源語言端運(yùn)用依存結(jié)構(gòu)進(jìn)行統(tǒng)計(jì)翻譯的新模型:DependencyString Structure Model (DSS模型 ) v 由于計(jì)算資源和時(shí)間的限制,參加本次評(píng)測(cè)的系統(tǒng)仍然沿用和分層短語相同的文法 vDSS解碼算法的輸入是一棵樹,而不是一個(gè)串,所以線圖是按照樹節(jié)點(diǎn)來索引的,而不是按照串中的跨距 (span)來建立索引的v 解碼時(shí)使用了 8個(gè)特征,最后兩個(gè)為依存子樹的懲罰167。 句子長(zhǎng)度懲罰167。 地名,人名,機(jī)構(gòu)名處理模塊167。 格式轉(zhuǎn)換:去除中文中的空格167。 新聞 CWMT08提供的 Common,約 85萬句對(duì)和;NIST MT08評(píng)測(cè)提供語料,大約 670萬句對(duì) 167。 翻譯模型最后使用的語料為 538萬句對(duì)v科技領(lǐng)域167。 采用基于 MBR解碼和混淆網(wǎng)絡(luò)解碼的多系