【文章內(nèi)容簡介】
A T 計算機學院 11 解碼器( 3/3) ? 解碼算法 1: 算法: C K Y 解碼器 2: 輸入 : 源句子 s r c S e n t , 源句子的句法分析樹 Tc 3: 輸出 : 目標句子列表 tgtSents ,及最佳目標句子 t g t S e n t 4: Begin 5 : 獲得 每個源短語對應的翻譯 。 // 初始化 6 : F o r l e n = 2 t o s r c L e n do // 遞歸過程 7 : F o r i = 1 t o s r c L e n – len + 1 do 8 : j = i + l e n 1 。 9 : F o r k = i to j 1 d o / / 尋找一個分割點 1 0 : F oreach cand A in cands[i,k] a n d e a c h c a n d B in cands[ k+1 , j ] 1 1 : 分別計算 A 和 B 的正向和反向輸入,添加到 c a n d s [i,j] 中 12 : E n d 。 / / f o r l e n 13 : s o r t ( c a n d s [ 1 , s r c L e n ] ) 14 : t g t S e n t s = c a n d s [ 1 , s r c L e n ] 15 : t g t S e n t = c a n d s [ 1 , s r c L e n ] 16 : r e t u r n t g tSent 17 :E nd 計算機學院 12 ? 兩個受限翻譯評測 ? 中 英新聞翻譯評測 ? 英 中科技翻譯評測 ? 測試環(huán)境 ? 操作系統(tǒng): Windows2K ? CPU:AMD64 ? 內(nèi)存 :1G 計算機學院 13 中 英新聞翻譯評測 ( 1/3) ? 語料來源 ? CWMT08提供的新聞語料( Common部分)作為訓練集 ? 預處理 ? 去掉長句 ? 全角符號處理 ? 分詞:中文 ICTCLAS ,英文 WMT05的 Tokenizer工具 ? 英文的詞根化處理:詞對齊過程中使用 ? 句法分析: Stanford的 Parser ? 訓練語料庫: ? 7