【正文】
些統(tǒng)計方法對詞語和詞類序列進行分析 早期機器翻譯系統(tǒng)常用的方法,近期 IBM提出的統(tǒng)計機器翻譯模型也可以認為是采用了這一范式 著名的機器翻譯系統(tǒng) Systran早期也是采用這種方法,后來逐步引入了一些句法和語義分析 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 26 轉換方法 1 整個翻譯過程分為“分析”、“轉換”、“生成”三個階段; 分析:源語言句子 → 源語言深層結構 – 相關分析:分析時考慮目標語言的特點 – 獨立分析:分析過程與目標語言無關 轉換:源語言深層結構 → 目標語言深層結構 生成:目標語言深層結構 → 目標語言句子 – 相關生成:生成時考慮源語言的特點 – 獨立生成:生成過程與源語言無關 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 27 轉換方法 2 理想的轉換方法應該做到獨立分析和獨立生成,這樣在進行多語言機器翻譯的時候可以大大減少分析和生成的工作量; 轉換方法根據深層結構所處的層面可分為: – 句法層轉換:深層結構主要是句法信息 – 語義層轉換:深層結構主要是語義信息 分析深度的權衡 – 分析的層次越深,歧義排除就越充分 – 分析的層次越深,錯誤率也越高 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 28 轉換方法 3 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 29 句法層面的轉換方法 1 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 30 句法層面的轉換方法 2 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 31 句法層面的轉換方法 3 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 32 句法層面的轉換方法 4 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 33 句法層面的轉換方法 5 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 34 中間語言方法 1 利用一種中間語言( interlingua)作為翻譯的中介表示形式; 整個翻譯的過程分為“分析”和“生成”兩個階段 分析:源語言 → 中間語言 生成:中間語言 → 目標語言 分析過程只與源語言有關,與目標語言無關 生成過程只與目標語言有關,與源語言無關 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 35 中間語言方法 2 中間語言方法的優(yōu)點在于進行多語種翻譯的時候,只需要對每種語言分別開發(fā)一個分析模塊和一個生成模塊,模塊總數(shù)為 2*n,相比之下,如果采用轉換方法就需要對每兩種語言之間都開發(fā)一個轉換模塊,模塊總數(shù)為 n*(n1) 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 36 中間語言方法 3 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 37 中間語言方法 4 中間語言的類型 –自然語言:如英語、漢語 –人工語言:如世界語 –某種知識表示形式:如語義網絡 以某種知識表示形式作為中間語言的機器翻譯方法有時也稱為基于知識的機器翻譯方法 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 38 中間語言方法 5 Makoto Nagao (Kyoto University) said: “.. when the pivot language [. interlingua] is used, the results of the analytic stage must be in a form which can be utilized by all of the different languages into which translation is to take place. This level of subtlety is a practical impossibility.” (Machine Translation, Oxford, 1989) PatelSchneider (METAL system) said: ”METAL employs a modified transfer approach rather than an interlingua. If a meta language [an interlingua] were to be used for translation purposes, it would need to incorporate all possible features of many languages. That would not only be an endless task but probably a fruitless one as well. Such a system would soon bee unmanageable and perhaps collapse under its own weight.” (A fourvalued semantics for terminological reasoning, Artificial Intelligence, 38, 1989) 2022年 10月 23日 6時 9分 語言信息處理 機器翻譯 I 39 中間語言方法 6 基于中間語言方法一般都用于多語言的機器翻譯系統(tǒng)中; 從實踐看,基于中間語言的機器翻譯系統(tǒng)還沒有比較成功的先例,如日本主持的亞洲五國語言機器翻譯系統(tǒng),總體上是失敗的; 目前在 CSTAR多國語語音機器翻譯系統(tǒng)中,仍然采用中間語言方法,其中間語言是一種語義表示形式,由于語音翻譯都限制在非常狹窄的領域中(如機票預定),語義描述可以做到非常精確,因此采用中間語言方法有一定的合理性。 翻譯速度快而不失其要:便于在網上快速瀏覽并查找所需要的信息,了解網上信息的梗概要略,譯文具有可讀性。其他成員有德國西門子公司 (Siemens)、香港科技大學等。 Verbmobil制定了 19932022年的研制計劃,其中自 1993年至 1996年的第一階段計劃吸收了德國、美國和日本的 32個企業(yè)和高等學校的成員參加,政府投入資金 4690萬馬克,企業(yè)投入資金 310萬馬克,第一階段的目標是建立非特定人的、面向會面安排交談的口語語音翻譯系統(tǒng)。 1989年,日本 ATR研制了 SLTRANS系統(tǒng)。 由于這個系統(tǒng)的語義表示方法比較細致,能夠解決僅用句法分析方法難于解決的歧義、代詞所指等困難問題,譯文質量較高。語言工作者可以利用這個軟件來描述自然語言的各種規(guī)則。這個自動翻譯中心的主任沃古瓦( )教授明確地提出,一個完整的機器翻譯過程可以分為如下六個步驟: ( 1)原語詞法分析 ( 2)