【正文】
對 v 語言模型訓練數據:167。 將 NIST語料根據新聞任務發(fā)布的訓練語料進行過濾167。 將 NIST語料根據科技任務發(fā)布的訓練語料進行過濾的 167。 語言模型也同樣使用了過濾技術 ,最后過濾剩余 1000萬句中國科學院自動化所Institute of Automation, Chinese Academy of Sciences測試結果v新聞領域167。 3個來自于基于分層短語的翻譯系統(tǒng) (HPB)167。 采用基于 MBR解碼和混淆網絡解碼的多系統(tǒng)融合策略,融合 6個結果167。 2個來自于基于依存樹到串的翻譯系統(tǒng) (DHPB)167。 借鑒了漢英評測的經驗,加入了英文命名實體翻譯及前后處理模塊;167。 由于缺乏這方面的語料資源,我們只能借用新聞領域的語料,利用數據過濾技術得到相關資源167。 如何能夠充分利用有限的資源,開發(fā)出更加魯棒的訓練及解碼算法,是我們下一步要思考的問題中國科學院自動化所Institute of Automation, Chinese Academy of Sciences參考文獻[1] 中科院自動化所評測技術報告 (SYSTEM II),第四屆機器翻譯研討會, 2023[2] Wei Wei, Wei Pang, Zhendong Yang, Zhenbiao Chen, Chengqing Zong, Bo Xu. CASIA SMT System for TCSTAR Evaluation Campaign 2023. In: TCSTAR workshop, 2023.[3] Yaser AlOnaizan, Kishore Papineni. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL ACL 39