【正文】
,允許語序的變化,不過又過于靈活。 2022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 55 基于測試點的機器翻譯評測 1 俞士汶等,機器翻譯譯文質(zhì)量自動評估系統(tǒng),中國中文信息學(xué)會 1991年論文集, pp. 314~ 319 基本思想 –對于每一個句子,孤立測試點,簡化測試目標(biāo)(模擬人類標(biāo)準(zhǔn)化考試的辦法) –對于每一個句子,采用一種 TDL語言描述的BNF去與譯文匹配,匹配成功則正確,否則錯誤 –大批量出題,全面評價機器翻譯譯文質(zhì)量 2022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 56 基于測試點的機器翻譯評測 2 測試點分組: 單詞、詞組、詞法、語法(初、中、高級) 測試點示例: –源文: I am a student. –測試:譯文中出現(xiàn)“學(xué)生 /大學(xué)生”為正確 –源文: I bought a table with three dollars. –測試:“買”出現(xiàn)在“美元”之后為正確 –源文: I bought a table with three legs. –測試:“買”出現(xiàn)在“腿”之前為正確 2022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 57 基于測試點的機器翻譯評測 3 優(yōu)點: –全自動 –實驗證明,評價結(jié)果是可信的 –可以按照人類專家的要求進行單項評測 缺點 –題庫的構(gòu)造需要具有專門知識的專家,并且成本較高 2022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 58 基于 N元語法的機器翻譯評測 1 Kishore Papineni, Salim Roukos, Todd Ward, WeiJing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation, IBM Research, RC22176 (W0109022) September 17, 2022 基本思想 –用譯文中出現(xiàn)的 N元組和參考譯文中出現(xiàn)的 N元組相比,計算匹配的 N元組個數(shù)與候選譯文的 N元組總個數(shù)的比例 –允許一個源文有多個參考譯文,綜合評分 2022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 59 基于 N元語法的機器翻譯評測 2 源文:黨指揮槍是我黨的行動指南。 – 候選譯文: It is a guide to action which ensures that the military always obeys the mand of the party It is to insure the troops forever hearing the activity guidebook that party direct – 參考譯文: It is a guide to action that ensures that the military will forever heed party mands It is the guiding principle which guarantees the military forces always being under the mand of the party It is the practical guide for the army to heed the directions of the party 2022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 60 基于 N元語法的機器翻譯評測 3 兩個改進: –對于候選譯文中某個 n元接續(xù)組出現(xiàn)的次數(shù),如果比參考譯文中出現(xiàn)的最大次數(shù)還多,要把多出的次數(shù)“剪掉”(不作為正確的匹配)。 –為了避免“召回率”過低的問題, BLEU的評價標(biāo)準(zhǔn)又對比參考譯文更短的句子設(shè)計了“懲罰因子”。 2022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 61 基于 N元語法的機器翻譯評測 4 BLEU的總體評價公式如下: 其中, pn是出現(xiàn)在參考譯文中的 n元詞語接續(xù)組占候選譯文中 n元詞語接續(xù)組總數(shù)的比例, wn = 1/N, N為最大的 n元語法階數(shù)(實際取 4)。 其中 c為候選譯文中單詞的個數(shù), r為參考譯文中與 c最接近的譯文單詞個數(shù)。 )l o ge x p (1????Nnnn pwBPB L E U??????? rcifercifBPcr )/1(12022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 62 基于 N元語法的機器翻譯評測 5 其中 S S S3分別是三個不同的機器翻譯系統(tǒng)提供的譯文, H1和H2是兩個人類翻譯者提供的譯文。藍線是 BLEU系統(tǒng)評測的結(jié)果,紅線是只懂目標(biāo)語言的人類專家提供的評測結(jié)果,綠線是同時懂源語言和目標(biāo)語言的人類專家提供的評測結(jié)果。 2022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 63 基于 N元語法的機器翻譯評測 6 這種方法比較好地模擬了人對機器翻譯結(jié)果的評價 –對于低質(zhì)量譯文比高質(zhì)量譯文的評價跟準(zhǔn)確; –評價結(jié)果與只懂目標(biāo)語言的人的評價結(jié)果更接近(相對于懂雙語的人而言) 優(yōu)點 –全自動 –可以提供多種參考譯文綜合考慮,結(jié)果更全面 –容易構(gòu)造測試集,不需要專門知識 2022年 8月 16日 7時 43分 語言信息處理 機器翻譯 II 64 復(fù)習(xí)思考題 利用 《 圣經(jīng) 》 雙語語料庫實現(xiàn)一個詞語對齊系統(tǒng),并從中抽取出一部包含多詞單元的雙語詞典。