【文章內(nèi)容簡(jiǎn)介】
tence Number in English TextSe n ten ce Nu m b e r in Ch in e se Te xt BInformation Retrieval Lab HIT 20 段落重組對(duì)齊 總體思想 ? 篇章定位 ? 句長(zhǎng)搭配 ? 詞典校對(duì) Information Retrieval Lab HIT 21 形式對(duì)齊評(píng)價(jià)函數(shù) ? P[i,j] = a(Pu[i,j]P0)178。 + (Pl[i,j] P0)178。 + a(Pd[i,j] P0)178。 P0為對(duì)應(yīng)文本長(zhǎng)度之比; Pu[i,j]為對(duì)應(yīng)上文部分長(zhǎng)度之比; Pl[i,j]為對(duì)應(yīng)句長(zhǎng)度之比; Pd[i,j]對(duì)應(yīng)下文部分長(zhǎng)度之比; a為加權(quán)系數(shù) Information Retrieval Lab HIT 22 第 150句 第 50句 第 12句 英語文本 第 120句 第 40句 第 10句 漢語文本 重組段落對(duì)齊思想 P0 錨點(diǎn)句對(duì) Pu[i,j] Pl[i,j] Pd[i,j] Information Retrieval Lab HIT 23 錨點(diǎn)句對(duì)的校驗(yàn) ? 詞典檢驗(yàn) L| |表示全部元素的字符長(zhǎng)度和; Match(S)表示譯文出現(xiàn)在漢語句中英語單詞; Match(T)表示成為英文單詞譯文的漢語單詞 ; | ( ) | | ( ) || | | |L M a tc h S L M a tc h THL S L T???Information Retrieval Lab HIT 24 主要內(nèi)容 ? 引言 ? 方法 ? 結(jié)果 ? 討論 Information Retrieval Lab HIT 25 試驗(yàn)結(jié)果 (1) ? 召回率 = (返回段落總數(shù) – 錯(cuò)誤段落總數(shù))/ 雙語文本中 (1:1)型正確句珠總數(shù); ? 準(zhǔn)確率 = (返回段落總數(shù) – 錯(cuò)誤段落總數(shù))/ 返回段落總數(shù); Information Retrieval Lab HIT 26 試驗(yàn)結(jié)果 (2) 文本 1 文本 2 (1:1)型句珠總數(shù) 158 169 提取錨點(diǎn)總數(shù) 108 121 準(zhǔn)確率 % 100% 召回率 % % ? 重組分段的結(jié)果一般每一段落的句子數(shù)在10句以內(nèi)。 Information Retrieval Lab HIT 27 重組分段的實(shí)例 (1)original ? Around 30 people have staged a naked protest against GM food. The protesters spelled out no GM with their bodies in a meadow at Forest Row, East Sussex. ? Organiser Mike Grenville said he hoped it would send a message to the Government of people39。s concern, particularly over mercial planting of GM crops. ? Mr Grenvil