freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

統(tǒng)計(jì)機(jī)器翻譯簡介(編輯修改稿)

2024-11-16 10:59 本頁面
 

【文章內(nèi)容簡介】 GYPT可在網(wǎng)上免費(fèi)下載,成為 SMT的基準(zhǔn) NLP課題組例會(huì)報(bào)告 2020126 EGYPT工具包的性能 “ 當(dāng)解碼器的原形系統(tǒng)在研討班上完成時(shí) , 我們很高興并驚異于其速度和性能 。 1990年代早期在 IBM公司舉行的 DARPA機(jī)器翻譯評(píng)價(jià)時(shí) , 我們曾經(jīng)預(yù)計(jì)只有很短( 10個(gè)詞左右 ) 的句子才可以用統(tǒng)計(jì)方法進(jìn)行解碼 , 即使那樣 , 每個(gè)句子的解碼時(shí)間也可能是幾個(gè)小時(shí) 。 在早期 IBM的工作過去將近 10年后 , 摩爾定律 、 更好的編譯器以及更加充足的內(nèi)存和硬盤空間幫助我們構(gòu)造了一個(gè)能夠在幾秒鐘之內(nèi)對(duì) 25個(gè)單詞的句子進(jìn)行解碼的系統(tǒng) 。 為了確保成功 , 我們在搜索中使用了相當(dāng)嚴(yán)格的閾值和約束 , 如下所述 。 但是 ,解碼器相當(dāng)有效這個(gè)事實(shí)為這個(gè)方向未來的工作預(yù)示了很好的前景 , 并肯定了 IBM的工作的初衷 , 即強(qiáng)調(diào)概率模型比效率更重要 。 ” —— 引自 JHU統(tǒng)計(jì)機(jī)器翻譯研討班的技術(shù)報(bào)告 NLP課題組例會(huì)報(bào)告 2020126 對(duì) IBM方法的改進(jìn) IBM方法的問題 ? 不考慮結(jié)構(gòu):能否適用于句法結(jié)構(gòu)差別較大的語言? ? 數(shù)據(jù)稀疏問題嚴(yán)重 后續(xù)的改進(jìn)工作 ? 王野翊的改進(jìn) ? Yamada和 Knight的改進(jìn) ? Och等人的改進(jìn) NLP課題組例會(huì)報(bào)告 2020126 王野翊的改進(jìn) (1) 背景:德英口語翻譯系統(tǒng) ? 語法結(jié)構(gòu)差異較大 ? 數(shù)據(jù)稀疏(訓(xùn)練數(shù)據(jù)有限) 改進(jìn):兩個(gè)層次的對(duì)齊模型 ? 粗對(duì)齊:短語之間的對(duì)齊 ? 細(xì)對(duì)齊:短語內(nèi)詞的對(duì)齊 NLP課題組例會(huì)報(bào)告 2020126 王野翊的改進(jìn) (2) 文法推導(dǎo) ? 詞語聚類:基于互信息的方法 ? 短語歸并 ? 規(guī)則學(xué)習(xí) 優(yōu)點(diǎn) ? 機(jī)器翻譯的正確率提高:錯(cuò)誤率降低了 11% ? 提高了整個(gè)系統(tǒng)的效率:搜索空間更小 ? 緩解了因口語數(shù)據(jù)缺乏導(dǎo)致的數(shù)據(jù)稀疏問題 NLP課題組例會(huì)報(bào)告 2020126 Yamada和 Knight的改進(jìn) (1) 基于語法的翻譯模型( Syntaxbased TM) : ? 輸入是源語言句法樹 ? 輸出是目標(biāo)語言句子 翻譯的過程: ? 每個(gè)內(nèi)部結(jié)點(diǎn)的子結(jié)點(diǎn)隨機(jī)地重新排列:排列概率 ? 在每一個(gè)結(jié)點(diǎn)的左邊或右邊隨機(jī)插入一個(gè)單詞 ? 左、右插入和不插入的概率取決于父結(jié)點(diǎn)和當(dāng)前結(jié)點(diǎn)標(biāo)記 ? 插入哪個(gè)詞的概率只與被插入詞有關(guān),與位置無關(guān) ? ? 對(duì)于每一個(gè)葉結(jié)點(diǎn)進(jìn)行翻譯:詞對(duì)詞的翻譯概率 ? 輸出譯文句子 NLP課題組例會(huì)報(bào)告 2020126 Yamada和 Knight的改進(jìn) (2) NLP課題組例會(huì)報(bào)告 2020126 Yamada和 Knight的改進(jìn) (3) NLP課題組例會(huì)報(bào)告 2020126 Yamada和 Knight的改進(jìn) (4) NLP課題組例會(huì)報(bào)告 2020126 Yamada和 Knight的改進(jìn) (5) 訓(xùn)練 ? 英日詞典例句 2121對(duì),平均句長日 ? 詞匯量:英語 3463,日語 3983,大部分詞只出現(xiàn)一次 ? Brill’s POS Tagger和 Collins’ Parser ? 用中心詞詞性標(biāo)記取得短語標(biāo)記 ? 壓扁句法樹:中心詞相同的句法子樹合并 ? EM訓(xùn)練 20遍迭代: IBM Model 5用 20遍迭代 NLP課題組例會(huì)報(bào)告 2020126 Yamada和 Knight的改進(jìn) (6) 困惑度 Perplexity: Our Model: IBM Model: (Overfitting) Alignment ave. score Perfect sents Our Model 10 IBM Model 5 0 結(jié)果 NLP課題組例會(huì)報(bào)告 2020126 Och等人的改進(jìn) (1) 著名語音翻譯系統(tǒng) VerbMobil的一個(gè)模塊 對(duì) IBM方法的改進(jìn) ? 基于類的模型:詞語自動(dòng)聚類:各 400個(gè)類 ? 語言模型:基于類的五元語法,回退法平滑 ? 翻譯模型:基于對(duì)齊模板的方法 ? 短語層次對(duì)齊 ? 詞語層次對(duì)齊 ? 短語劃分:動(dòng)態(tài)規(guī)劃 NLP課題組例會(huì)報(bào)告 2020126 Och等人的改進(jìn) (2) 對(duì)齊模板 NLP課題組例會(huì)報(bào)告 2020126 基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型 (1) Och等人提出,思想來源于 Papineni提出的基于特征的自然語言理解方法 不使用信源-信道思想,直接使用統(tǒng)計(jì)翻譯模型,因此是一種直接翻譯模型 是一個(gè)比信源-信道模型更具一般性的模型,信源-信道模型是其一個(gè)特例 與一般最大熵方法的區(qū)別:使用連續(xù)量作為特征 NLP課題組例會(huì)報(bào)告 2020126 基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型 (2) 假設(shè) e、 f是機(jī)器翻譯的目標(biāo)語言和源語言句子,h1(e,f), …, hM(e,f)分別是 e、 f上的 M個(gè)特征, λ1, …,λM是與這些特征分別對(duì)應(yīng)的 M個(gè)參數(shù) , 那么直接翻譯概率可以用以下公式模擬: ? ??????39。 11...]),39。(e x p []),(e x p [ )|()|Pr (1eMmmmMmmm fehfehfepfeM????NLP課題組例會(huì)報(bào)告 2020126 基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型 (3) 對(duì)于給定的 f, 其最佳譯文 e可以用以下公式表示: ????Mmmmeefehfee1)},({m a xa r g)}|{ P r (m a xa r g??NLP課題組例會(huì)報(bào)告 2020126 基于最大熵的 統(tǒng)計(jì)機(jī)器翻譯模型 (4) 取以下特征和參數(shù)時(shí)等價(jià)于信源-信道模型: ? 僅使用兩個(gè)特征 ? h1(e,f)=log p(e) ? h2(e,f)=log p(f|e) ? λ1= λ2= 1
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1