【正文】
如何能夠充分利用有限的資源,開發(fā)出更加魯棒的訓(xùn)練及解碼算法,是我們下一步要思考的問題中國科學(xué)院自動化所Institute of Automation, Chinese Academy of Sciences參考文獻(xiàn)[1] 中科院自動化所評測技術(shù)報(bào)告 (SYSTEM II),第四屆機(jī)器翻譯研討會, 2023[2] Wei Wei, Wei Pang, Zhendong Yang, Zhenbiao Chen, Chengqing Zong, Bo Xu. CASIA SMT System for TCSTAR Evaluation Campaign 2023. In: TCSTAR workshop, 2023.[3] Yaser AlOnaizan, Kishore Papineni. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL ACL 39。 借鑒了漢英評測的經(jīng)驗(yàn),加入了英文命名實(shí)體翻譯及前后處理模塊;167。 采用基于 MBR解碼和混淆網(wǎng)絡(luò)解碼的多系統(tǒng)融合策略,融合 6個(gè)結(jié)果167。 語言模型也同樣使用了過濾技術(shù) ,最后過濾剩余 1000萬句中國科學(xué)院自動化所Institute of Automation, Chinese Academy of Sciences測試結(jié)果v新聞?lì)I(lǐng)域167。 將 NIST語料根據(jù)新聞任務(wù)發(fā)布的訓(xùn)練語料進(jìn)行過濾167。 科技 CWMT08提供的 Special語料中隨機(jī)挑選 200句v 翻譯模型訓(xùn)練數(shù)據(jù):167。 大小寫轉(zhuǎn)換:未翻譯詞保留其原始格式167。 時(shí)間,數(shù)字處理模塊167。 4gram語言模型167。 4gram語言模型167。 方向概率 [3]167。 4gram語言模型167。 系統(tǒng)融合167