freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

統(tǒng)計機器翻譯簡介(編輯修改稿)

2025-11-16 10:59 本頁面
 

【文章內(nèi)容簡介】 GYPT可在網(wǎng)上免費下載,成為 SMT的基準 NLP課題組例會報告 2020126 EGYPT工具包的性能 “ 當解碼器的原形系統(tǒng)在研討班上完成時 , 我們很高興并驚異于其速度和性能 。 1990年代早期在 IBM公司舉行的 DARPA機器翻譯評價時 , 我們曾經(jīng)預計只有很短( 10個詞左右 ) 的句子才可以用統(tǒng)計方法進行解碼 , 即使那樣 , 每個句子的解碼時間也可能是幾個小時 。 在早期 IBM的工作過去將近 10年后 , 摩爾定律 、 更好的編譯器以及更加充足的內(nèi)存和硬盤空間幫助我們構(gòu)造了一個能夠在幾秒鐘之內(nèi)對 25個單詞的句子進行解碼的系統(tǒng) 。 為了確保成功 , 我們在搜索中使用了相當嚴格的閾值和約束 , 如下所述 。 但是 ,解碼器相當有效這個事實為這個方向未來的工作預示了很好的前景 , 并肯定了 IBM的工作的初衷 , 即強調(diào)概率模型比效率更重要 。 ” —— 引自 JHU統(tǒng)計機器翻譯研討班的技術(shù)報告 NLP課題組例會報告 2020126 對 IBM方法的改進 IBM方法的問題 ? 不考慮結(jié)構(gòu):能否適用于句法結(jié)構(gòu)差別較大的語言? ? 數(shù)據(jù)稀疏問題嚴重 后續(xù)的改進工作 ? 王野翊的改進 ? Yamada和 Knight的改進 ? Och等人的改進 NLP課題組例會報告 2020126 王野翊的改進 (1) 背景:德英口語翻譯系統(tǒng) ? 語法結(jié)構(gòu)差異較大 ? 數(shù)據(jù)稀疏(訓練數(shù)據(jù)有限) 改進:兩個層次的對齊模型 ? 粗對齊:短語之間的對齊 ? 細對齊:短語內(nèi)詞的對齊 NLP課題組例會報告 2020126 王野翊的改進 (2) 文法推導 ? 詞語聚類:基于互信息的方法 ? 短語歸并 ? 規(guī)則學習 優(yōu)點 ? 機器翻譯的正確率提高:錯誤率降低了 11% ? 提高了整個系統(tǒng)的效率:搜索空間更小 ? 緩解了因口語數(shù)據(jù)缺乏導致的數(shù)據(jù)稀疏問題 NLP課題組例會報告 2020126 Yamada和 Knight的改進 (1) 基于語法的翻譯模型( Syntaxbased TM) : ? 輸入是源語言句法樹 ? 輸出是目標語言句子 翻譯的過程: ? 每個內(nèi)部結(jié)點的子結(jié)點隨機地重新排列:排列概率 ? 在每一個結(jié)點的左邊或右邊隨機插入一個單詞 ? 左、右插入和不插入的概率取決于父結(jié)點和當前結(jié)點標記 ? 插入哪個詞的概率只與被插入詞有關(guān),與位置無關(guān) ? ? 對于每一個葉結(jié)點進行翻譯:詞對詞的翻譯概率 ? 輸出譯文句子 NLP課題組例會報告 2020126 Yamada和 Knight的改進 (2) NLP課題組例會報告 2020126 Yamada和 Knight的改進 (3) NLP課題組例會報告 2020126 Yamada和 Knight的改進 (4) NLP課題組例會報告 2020126 Yamada和 Knight的改進 (5) 訓練 ? 英日詞典例句 2121對,平均句長日 ? 詞匯量:英語 3463,日語 3983,大部分詞只出現(xiàn)一次 ? Brill’s POS Tagger和 Collins’ Parser ? 用中心詞詞性標記取得短語標記 ? 壓扁句法樹:中心詞相同的句法子樹合并 ? EM訓練 20遍迭代: IBM Model 5用 20遍迭代 NLP課題組例會報告 2020126 Yamada和 Knight的改進 (6) 困惑度 Perplexity: Our Model: IBM Model: (Overfitting) Alignment ave. score Perfect sents Our Model 10 IBM Model 5 0 結(jié)果 NLP課題組例會報告 2020126 Och等人的改進 (1) 著名語音翻譯系統(tǒng) VerbMobil的一個模塊 對 IBM方法的改進 ? 基于類的模型:詞語自動聚類:各 400個類 ? 語言模型:基于類的五元語法,回退法平滑 ? 翻譯模型:基于對齊模板的方法 ? 短語層次對齊 ? 詞語層次對齊 ? 短語劃分:動態(tài)規(guī)劃 NLP課題組例會報告 2020126 Och等人的改進 (2) 對齊模板 NLP課題組例會報告 2020126 基于最大熵的 統(tǒng)計機器翻譯模型 (1) Och等人提出,思想來源于 Papineni提出的基于特征的自然語言理解方法 不使用信源-信道思想,直接使用統(tǒng)計翻譯模型,因此是一種直接翻譯模型 是一個比信源-信道模型更具一般性的模型,信源-信道模型是其一個特例 與一般最大熵方法的區(qū)別:使用連續(xù)量作為特征 NLP課題組例會報告 2020126 基于最大熵的 統(tǒng)計機器翻譯模型 (2) 假設 e、 f是機器翻譯的目標語言和源語言句子,h1(e,f), …, hM(e,f)分別是 e、 f上的 M個特征, λ1, …,λM是與這些特征分別對應的 M個參數(shù) , 那么直接翻譯概率可以用以下公式模擬: ? ??????39。 11...]),39。(e x p []),(e x p [ )|()|Pr (1eMmmmMmmm fehfehfepfeM????NLP課題組例會報告 2020126 基于最大熵的 統(tǒng)計機器翻譯模型 (3) 對于給定的 f, 其最佳譯文 e可以用以下公式表示: ????Mmmmeefehfee1)},({m a xa r g)}|{ P r (m a xa r g??NLP課題組例會報告 2020126 基于最大熵的 統(tǒng)計機器翻譯模型 (4) 取以下特征和參數(shù)時等價于信源-信道模型: ? 僅使用兩個特征 ? h1(e,f)=log p(e) ? h2(e,f)=log p(f|e) ? λ1= λ2= 1
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1