【正文】
(f/e) ? 雙向詞匯化概率 l(e/f)和 l(f/e) ? 4gram語言模型 ? 句子長度懲罰 ? 符合依存子樹懲罰 ? 不符合依存子樹懲罰 中國科學院自動化所 Institute of Automation, Chinese Academy of Sciences 技術說明 前后處理 ?前處理 ? 時間,數(shù)字處理模塊 ? 地名,人名,機構名處理模塊 ? 英文轉化為小寫 ? 預處理 ? 亂碼過濾(中文中的亂碼、英文中的亂碼以及包含中文詞的句子) ? 標點符號及數(shù)字變換(中文中的部分標點符號、英文中的雙字節(jié)符號及數(shù)字) ? 英文縮寫處理 ? 中文分詞、英文 Tokenization ?后處理 ? 大小寫轉換:未翻譯詞保留其原始格式 ? 格式轉換:去除中文中的空格 ? 未登錄詞 中國科學院自動化所 Institute of Automation, Chinese Academy of Sciences 技術說明 系統(tǒng)融合 [6][7] MT1MTm……N b e s tN b e s tMB R 解碼器對齊參考GIZ A ++ 詞對齊GIZ A TER混淆網(wǎng)絡CN 解碼中國科學院自動化所 Institute of Automation, Chinese Academy of Sciences 技術說明 外部技術 ? 漢語分詞工具:計算所開發(fā)的 ? 雙語詞對齊工具: GIZA++ ? 語言模型訓練工具: SRILM工具包 ? 英文詞性標注工具: Stanford Loglinear PartOfSpeech Tagger ? 英文依存樹分析工具: MinimumSpanning Tree Parser (MSTparser) 中國科學院自動化所 Institute of Automation, Chinese Academy of Sciences 參評系統(tǒng) CASIA_SYSTEM II 原 始 語料C A S I A 預 處理 模 塊L M S R I 工 具包4 g r a m L M雙 語 語 料G I Z A + +C A S I A 短 語 抽 取與 概 率 計 算作 為 I n i t