【導(dǎo)讀】機(jī)器翻譯和跨語言檢索解決人類的不同。雙語資源給機(jī)器翻譯和跨語言檢索提供。構(gòu)建雙語語料庫是。上一級的對齊是下一級對齊的基礎(chǔ)。經(jīng)過統(tǒng)計發(fā)現(xiàn)90%以上的電子文本中的。段落對齊是進(jìn)行對齊加工的第一步。段落重組對齊是打破原有的段落標(biāo)記,長句對應(yīng)的譯文長,短句對應(yīng)譯文短?;谠~典的句子對齊。自動分段對齊研究。將原有的段落合并。通過漢英詞匯對之間的特征比較,包括詞的。通過錨點詞所在句子的匹配獲得錨點句子進(jìn)。適合含有較多高頻固定詞的雙語文本。需要分詞等預(yù)處理。每一對相對應(yīng)的句子稱作句珠。設(shè)G為無向圖,G=<V,E>,結(jié)點集V有。兩個子集V1,V2滿足V1∪V2=V,V1∩V2=ф,使G的每一條邊e∈E時,稱這樣的圖為二分圖。V2的每個結(jié)點相鄰接,反之亦然。為完全二分圖,若|V1|=m,|V2|=n,M為完全二分圖G=<S,E,T>的一個最優(yōu)。二分圖中所有的節(jié)點是有序的。采用貪心算法依次在完全二分圖G中選取權(quán)。值最小的邊,直到M中邊數(shù)達(dá)到飽和。P0為對應(yīng)文本長度之比;