freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于模板的統(tǒng)計(jì)翻譯模型研究及漢英機(jī)器翻譯系統(tǒng)實(shí)現(xiàn)-文庫吧資料

2025-07-24 18:47本頁面
  

【正文】 語串中的位置, i是產(chǎn)生當(dāng)前這個(gè)法語單詞的對(duì)應(yīng)英語單詞在英語句子中的位置, l是英語串的長度, m是法語串的長度; ? 如果任何一個(gè)目標(biāo)語言位置被多重登錄(含有一個(gè)以上單詞),則返回失??; ? 給空單詞 NULL產(chǎn)生的單詞賦予一個(gè)目標(biāo)語言位置。 )|()(m a xa r g STPSPSS?北京大學(xué)博士論文開題報(bào)告 20221230 語言模型與翻譯模型 ? 考慮漢語動(dòng)詞“打”的翻譯:有幾十種對(duì)應(yīng)的英語詞譯文: 打人,打飯,打魚,打毛衣,打獵,打草稿, …… ? 如果直接采用翻譯模型,就需要根據(jù)上下文建立復(fù)雜的上下文條件概率模型 ? 如果采用信源-信道思想,只要建立簡單的翻譯模型,可以同樣達(dá)到目標(biāo)詞語選擇的效果: – 翻譯模型:不考慮上下文,只考慮單詞之間的翻譯概率 – 語言模型:根據(jù)單詞之間的同現(xiàn)選擇最好的譯文詞 北京大學(xué)博士論文開題報(bào)告 20221230 統(tǒng)計(jì)機(jī)器翻譯的三個(gè)問題 ? 三個(gè)問題: – 語言模型 P(S)的參數(shù)估計(jì) – 翻譯模型 P(T|S)的參數(shù)估計(jì) – 解碼(搜索)算法 北京大學(xué)博士論文開題報(bào)告 20221230 語言模型 ? 把一種語言理解成是產(chǎn)生一個(gè)句子的隨機(jī)事件 ? 語言模型反映的是一個(gè)句子在一種語言中出現(xiàn)的概率 ? 語言模型 – N元語法 P(S)=p(s0)*p(s1|s0)*…*p(S n|Sn1…S nN) – 鏈語法:可以處理長距離依賴 – PCFG( 要使用句法標(biāo)記) 北京大學(xué)博士論文開題報(bào)告 20221230 ? 引入隱含變量:對(duì)齊 A 翻譯模型與對(duì)齊 ??ASATPSTP )|,()|(? P(T|S)的計(jì)算轉(zhuǎn)化為 P(T,A|S)的估計(jì) ? 對(duì)齊:建立源語言句子和目標(biāo)語言句子的詞與詞之間的對(duì)應(yīng)關(guān)系 北京大學(xué)博士論文開題報(bào)告 20221230 IBM Model ? 對(duì) P(T,A|S)的估計(jì) ? IBM Model 1僅考慮詞對(duì)詞的互譯概率 ? IBM Model 2加入了詞的位置變化的概率 ? IBM Model 3加入了一個(gè)詞翻譯成多個(gè)詞的概率 ? IBM Model 4 ? IBM Model 5 北京大學(xué)博士論文開題報(bào)告 20221230 IBM Model 3 ? 對(duì)于句子中每一個(gè)英語單詞 e, 選擇一個(gè)產(chǎn)出率 φ , 其 概率為 n(φ |e); ? 對(duì)于所有單詞的產(chǎn)出率求和得到 mprime; ? 按照下面的方式構(gòu)造一個(gè)新的英語單詞串:刪除產(chǎn)出率為 0的單詞,復(fù)制產(chǎn)出率為1的單詞,復(fù)制兩遍產(chǎn)出率為 2的單詞,依此類推; ? 在這 mprime個(gè)單詞的每一個(gè)后面,決定是否插入一個(gè)空單詞 NULL, 插入和不插入的概率分別為 p1和 p0; ? φ 0為插入的空單詞 NULL的個(gè)數(shù)。 ? 注意,源語言 S是噪聲信道的輸入語言,目標(biāo)語言 T是噪聲信道的輸出語言,與整個(gè)機(jī)器翻譯系統(tǒng)的源語言和目標(biāo)語言剛好相反。 北京大學(xué)博士論文開題報(bào)告 20221230 Inversion Transduction Grammar(2) ? 規(guī)則形式: – A → [ B C ] – A → B C – A → x/y ? 產(chǎn)生源語言和目標(biāo)語言串分別為: – BC BC: 詞序相同 – BC CB: 詞序交換 – x y: 詞典 北京大學(xué)博士論文開題報(bào)告 20221230 Patternbased CFG for MT (1) ? 每個(gè)翻譯模板由一個(gè)源語言上下文無關(guān)規(guī)則和一個(gè)目標(biāo)語言上下文無關(guān)規(guī)則(這兩個(gè)規(guī)則稱為翻譯模板的骨架),以及對(duì)這兩個(gè)規(guī)則的中心詞約束和鏈接約束構(gòu)成; ? 舉例: S:2 → NP:1 歲 :MP:2 了 ──────────── S:be → NP:1 be year:NP:2 old 北京大學(xué)博士論文開題報(bào)告 20221230 Patternbased CFG for MT (2) ? 中心詞約束:對(duì)于上下文無關(guān)語法規(guī)則中右部(子結(jié)點(diǎn))的每個(gè)非終結(jié)符,可以指定其中心詞;對(duì)于規(guī)則左部(父結(jié)點(diǎn))的非終結(jié)符,可以直接指定其中心詞,也可以通過使用相同的序號(hào)規(guī)定其中心詞等于其右部的某個(gè)非終結(jié)符的中心詞; ? 鏈接約束:源語言骨架和目標(biāo)語言骨架的非終結(jié)符子結(jié)點(diǎn)通過使用相同的序號(hào)建立對(duì)應(yīng)關(guān)系,具有對(duì)應(yīng)關(guān)系的非終結(jié)符互為翻譯。 北京大學(xué)博士論文開題報(bào)告 20221230 Inversion Transduction Grammar(1) 比賽星期三開始。北京大學(xué)博士論文開題報(bào)告 20221230 基于模板的統(tǒng)計(jì)翻譯 模型研究及 漢英機(jī)器翻譯系統(tǒng)實(shí)現(xiàn) 劉群 北京大學(xué)計(jì)算語言學(xué)研究所博士論文開題報(bào)告 北京大學(xué)博士論文開題報(bào)告 20221230 目錄 ? 引言 ? 綜述 ? 研究思路 ? 實(shí)驗(yàn)方案 ? 總結(jié) 北京大學(xué)博士論文開題報(bào)告 20221230 引言 ? 本文的主要工作 – 提出一個(gè)基于模板的統(tǒng)計(jì)翻譯模型 – 給出一個(gè)漢英機(jī)器翻譯系統(tǒng)的實(shí)現(xiàn)方案 ? 本文的主要?jiǎng)?chuàng)新 – 給出了轉(zhuǎn)換模板的定義及模板抽取算法 – 提出模板角色概念并給出三種統(tǒng)計(jì)翻譯模型 – 給出該模型的參數(shù)估計(jì)算法 北京大學(xué)博士論文開題報(bào)告 20221230 目錄 ? 引言 ? 綜述 – 機(jī)器翻譯的范式 – 統(tǒng)計(jì)機(jī)器翻譯綜述(三種主要的方法) – 統(tǒng)計(jì)機(jī)器翻譯小結(jié) ? 研究思路 ? 實(shí)驗(yàn)方案 ? 總結(jié) 北京大學(xué)博士論文開題報(bào)告 20221230 機(jī)器翻譯的范式 源語言文本 (如漢語) 目標(biāo)語言文本(如英語) 中間語言 源語言 深層表示 目標(biāo)語言 深層表示 直接翻譯法 轉(zhuǎn)換法 中間語言法 北京大學(xué)博士論文開題報(bào)告 20221230 統(tǒng)計(jì)機(jī)器翻譯方法的 界定 ? 區(qū)別于規(guī)則方法: – 利用語料庫作為知識(shí)來源 – 無需人工編寫規(guī)則 ? 區(qū)別于實(shí)例方法或模板方法: – 建立 完整 的統(tǒng)計(jì)模型 – 必須為整個(gè)翻譯過程, 而不是其中某個(gè)局部 ,建立統(tǒng)計(jì)模型 北京大學(xué)博士論文開題報(bào)告 20221230 統(tǒng)計(jì)機(jī)器翻譯的分類 ? 基于平行概率語法的統(tǒng)計(jì)機(jī)器翻譯模型 ? 基于信源信道思想的統(tǒng)計(jì)機(jī)器翻譯模型 – IBM的 Peter Brown等人首先提出 – 目前影響最大 – 幾乎成為統(tǒng)計(jì)機(jī)器翻譯的同義詞 ? 基于最大熵的統(tǒng)計(jì)機(jī)器翻譯模型 – 源于基于特征的自然語言理解 – Och提出,獲 ACL2022最佳論文 北京大學(xué)博士論文開題報(bào)告 20221230 統(tǒng)計(jì)機(jī)器翻譯的優(yōu)缺點(diǎn) ? 優(yōu)點(diǎn) – 無需人工編寫規(guī)則,利用語料庫直接訓(xùn)練得到機(jī)器翻譯系統(tǒng);(但可以使用語言資源) – 系統(tǒng)開發(fā)周期短; – 魯棒性好; – 譯文質(zhì)量好; ? 缺點(diǎn) – 時(shí)空開銷大; – 數(shù)據(jù)稀疏問題嚴(yán)重; – 對(duì)語料庫依賴性強(qiáng); – 算法研究不成熟。 北京大學(xué)博士論文開題報(bào)告 20221230 基于平行概率語法的 統(tǒng)計(jì)機(jī)器翻譯模型 ? 基本思想 – 兩種語言建立一套平行的語法規(guī)則, ? 規(guī)則一一對(duì)應(yīng) ? 兩套規(guī)則服從同樣的概率分布 – 句法分析的過程決定了生成的過程 ? 主要模型 – Alshawi的基于 Head Transducer的 MT模型 – 吳德愷的 Inverse Transduction Grammar( ITG) – Takeda的 Patternbased CFG for MT 北京大學(xué)博士論文開題報(bào)告 20221230 Head Transducer MT (1) ? Head Transducer( 中心詞轉(zhuǎn)錄機(jī))是一種 Definite State Automata( 有限狀態(tài)自動(dòng)機(jī)) ? 與一般的有限狀態(tài)識(shí)別器的區(qū)別: – 每一條邊上不僅有輸入,而且有輸出; – 不是從左至右輸入,而是從中心詞往兩邊輸入 北京大學(xué)博士論文開題報(bào)告 20221230 Head Transducer MT(2) a:a 0:0 0:0 b:b a:a 1:+1 b:b 1:+1 例子:一個(gè)可以將任何{ a, b} 組成的串倒置的 Head Transducer 北京大學(xué)博士論文開題報(bào)告 20221230 Head Transducer MT(3) ? 所有的語言知識(shí)(詞典、規(guī)則)都表現(xiàn)為Head Transducer; ? Head Transducer可以嵌套:一個(gè) Head Transducer的邊是另一個(gè)的識(shí)別結(jié)果; ? 純統(tǒng)計(jì)的訓(xùn)練方法;對(duì)齊的結(jié)果是依存樹:不使用詞性和短語類標(biāo)記; ? Chart句法分析器。 The game will start on Wednesday。 北京大學(xué)博士論文開題報(bào)告 20221230 信源-信道模型 ? 假設(shè)目標(biāo)語言文本 T是由一段源語言文本 S經(jīng)過某種奇怪的編碼得到的,那么翻譯的目標(biāo)就是要將 T 還原成 S, 這也就是就是一個(gè)解碼的過程。 S P( S) P( T| S) T 北京大學(xué)博士論文開題報(bào)告 20221230 統(tǒng)計(jì)機(jī)器翻譯基本方程式 ? – 語言模型: P(S) – 翻譯模型: P(T|S) ? 語言模型反映“ S 像一個(gè)句子”的程度:流利度 ? 翻譯模型反映“ T像 S”的程度:忠實(shí)度 ? 聯(lián)合使用兩個(gè)模型效果好于單獨(dú)使用翻譯模型,因?yàn)楹笳呷菀讓?dǎo)致一些不好的譯文。 ? 設(shè) m為目前的總單詞數(shù): mprime+φ 0; ? 根據(jù)概率表 t(f|e), 將每一個(gè)單詞 e替換為外文單詞 f; ? 對(duì)于不是由空單詞 NULL產(chǎn)生的每一個(gè)外語單詞,根據(jù)概率表 d(j|i,l,m), 賦予一個(gè)位置。這些位置必須是空位置(沒有被占用)。 ? 最后,讀出法語串,其概率為上述每一步概率的乘積。 ? IBM Model 1: 存在全局最優(yōu) ? IBM Model 2~5: 不存在全局最優(yōu),初始值取上一個(gè)模型訓(xùn)練的結(jié)果 北京大學(xué)博士論文開題報(bào)告 20221230 統(tǒng)計(jì)機(jī)器翻譯的解碼 ? 借鑒語音識(shí)別的搜索算法:堆棧搜索 ? 參數(shù)空間極大,搜索不能總是保證最優(yōu) ? 從錯(cuò)誤類型看,只有兩種: – 模型錯(cuò)誤:概率最大的句子不是正確的句子 – 搜索錯(cuò)誤:沒有找到概率最大的句子 ? 后一類錯(cuò)誤只占總錯(cuò)誤數(shù)的 5%( IBM) ? 搜索問題不是瓶頸 北京大學(xué)博士論文開題報(bào)告 20221230 IBM公司的 Candide系統(tǒng) 1 ? 基于統(tǒng)計(jì)的機(jī)器翻譯方法 ? 分析-轉(zhuǎn)換-生成 – 中間表示是線性的 – 分析和生成都是可逆的 ? 分析(預(yù)處理): 北京大學(xué)博士論文開題報(bào)告 20221230 IBM公司的 Candide系統(tǒng) 2 ? 轉(zhuǎn)換(解碼):基于統(tǒng)計(jì)的機(jī)器翻譯 ? 解碼分為兩個(gè)階段: – 第一階段:使用粗糙模型的堆棧搜索 ? 輸出 140個(gè)評(píng)分最高的譯文 ? 語言模型:三元語法 ? 翻譯模型: EM算法 – 第二階段:使用精細(xì)模型的擾動(dòng)搜索 ? 對(duì)第一階段的輸出結(jié)果先擴(kuò)充,再重新評(píng)分 ? 語言模型:鏈語法 ? 翻譯模型:最大熵方法 北京大學(xué)博士論文開題報(bào)告 20221230 IBM公司的 Candide系統(tǒng) 3 ? ARPA的測(cè)試結(jié)果 : Fluency Adequacy Time Ratio 1992 1993 1992 1993 1992 1993 Systran .466 .540 .686 .743 Candide .511 .580 .575 .670 Transman .81
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1