【正文】
采用基于 MBR解碼和混淆網絡解碼的多系統(tǒng)融合策略,融合 6個結果167。 翻譯模型最后使用的語料為 468萬句對167。 翻譯模型最后使用的語料為 538萬句對v科技領域167。 LDC2023T38提供的 Chinese Gigaword Third Edition,約 3900萬句中國科學院自動化所Institute of Automation, Chinese Academy of Sciences數據過濾v過濾的原則:根據 LDC語料中的當前句對中的所有詞匯是否在發(fā)布的訓練語料詞匯集合中 (周玉 ) v新聞領域167。 新聞 CWMT08提供的 Common,約 85萬句對和;NIST MT08評測提供語料,大約 670萬句對 167。 新聞 2023 SSMT英中翻譯測試集167。 格式轉換:去除中文中的空格167。 預處理? 亂碼過濾(中文中的亂碼、英文中的亂碼以及包含中文詞的句子)? 標點符號及數字變換(中文中的部分標點符號、英文中的雙字節(jié)符號及數字)? 英文縮寫處理? 中文分詞、英文 Tokenizationv后處理167。 地名,人名,機構名處理模塊167。 不符合依存子樹懲罰中國科學院自動化所Institute of Automation, Chinese Academy of Sciences技術說明 前后處理v前處理167。 句子長度懲罰167。 雙向詞匯化概率 l(e/f)和 l(f/e)167。 句子長度懲罰中國科學院自動化所Institute of Automation, Chinese Academy of Sciences技術說明 依存樹到串系統(tǒng)v 在源語言端運用依存結構進行統(tǒng)計翻譯的新模型:DependencyString Structure Model (DSS模型 ) v 由于計算資源和時間的限制,參加本次評測的系統(tǒng)仍然沿用和分層短語相同的文法 vDSS解碼算法