freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

深度學(xué)習(xí)及其優(yōu)化方法(ppt54頁)-全文預(yù)覽

2025-01-25 05:35 上一頁面

下一頁面
  

【正文】 一階導(dǎo)數(shù) 信息, ?但克服了最速下降法收斂慢的缺點; ?避免牛頓法需要存儲和計算 Hesse矩陣并求逆的缺點 . ?共軛梯度法不僅是解決大型 線性方程組 最有用的方法之一,也是解大型非線性最優(yōu)化最有效的算法之一。 優(yōu)化方法 21/25 Newton’s method ?推導(dǎo)過程如下: ?利用 Taylor 級數(shù)求得原目標(biāo)函數(shù)的二階近似: ?把 x 看做自變量,所有帶有 xk 的項看做常量,令一階導(dǎo)數(shù)為 0 ,即可求近似函數(shù)的最小值: 即: ?將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值 (或者乘以步長 )。 f(x) 梯度是 Ax+b, Hesse 矩陣等于 A。 CNNs是第一個真正成功訓(xùn)練多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。 RBM 10/25 ?給定隱層 h的基礎(chǔ)上,可視層的概率確定: ( 可視層節(jié)點之間是條件獨立的 ) ?給定可視層 v的基礎(chǔ)上,隱層的概率確定: ?給定一個滿足獨立同分布的樣本集: D={v(1), v(2),…, v(N)},我們需要學(xué)習(xí)參數(shù) θ={W,a,b}。 稀疏自動編碼器 8/25 ?如上圖,其實就是限制每次得到的表達(dá) code盡量稀疏。每次僅調(diào)整一層,逐層調(diào)整。 ?含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu) 。 本質(zhì) :通過構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù) ,來學(xué)習(xí)更有用的特征 , 從而最終提升分類或預(yù)測的準(zhǔn)確性 。 2)每層采用 wakesleep算法進(jìn)行調(diào)優(yōu)。 ?因為是無標(biāo)簽數(shù)據(jù),所以誤差的來源就是直接重構(gòu)后與原輸入相比得到。 RBM 9/25 ?限制波爾茲曼機( RBM) 定義:假設(shè)有一個二部圖 , 同層節(jié)點之間沒有鏈接 , 一層是可視層 , 即輸入數(shù)據(jù)層 ( v), 一層是隱藏層 (h), 如果假設(shè)所有的節(jié)點都是隨機二值 ( 0, 1) 變量節(jié)點 , 同時假設(shè)全概率分布 p(v,h)滿足 Boltzmann分布 , 稱這個模型是 RBM。 CNN 12/25 ?卷積神經(jīng)網(wǎng)絡(luò)( Convolutional Neural Networks) 卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成。 數(shù)學(xué)概念 15/25 梯度(一階導(dǎo)數(shù)) ?某一點的梯度方向是在該點坡度最陡的方向,而梯度的大小告訴我們坡度到底有多陡; ?對于一個含有 n 個變量的標(biāo)量函數(shù),即函數(shù)輸入一個 n 維 的向量,輸出一個數(shù)值,梯度可以定義為: 數(shù)學(xué)概念 16/25 Hesse 矩陣(二階導(dǎo)數(shù)) ?Hesse 矩陣常被應(yīng)用于牛頓法解決的大規(guī)模優(yōu)化問題,主要形式如下: ?當(dāng) f(x) 是下列形式: 其中 x為列向量, A 是 n 階對稱矩陣, b 是 n 維列向量, c 是常數(shù)。 kkkk pxx ????1kp k?優(yōu)化方法 19/25 Gradient Descent ?該方法利用目標(biāo)函數(shù)的局部性質(zhì),得到局部最優(yōu)解,具有一定的“盲目性”,如果目標(biāo)函數(shù)是一個凸優(yōu)化問題,那么局部最優(yōu)解就是全局最優(yōu)解; ?每一次迭代的移動方向都與出發(fā)點的等高線垂直,此外,鋸齒現(xiàn)象( zigzagging)將會導(dǎo)致收斂速度變慢 : 優(yōu)化方法 20/25 Newton’s method ?牛頓法則是利用局部的一階和二階偏導(dǎo)信息,推測整個目標(biāo)函數(shù)的形狀; ?進(jìn)而可以求得出近似函數(shù)的全局最小值,然后將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值; ?相比最速下降法,牛頓法帶有一定對全局的預(yù)測性,收斂性質(zhì)也更優(yōu)良。 ?DFP(DavidonFletcherPowell)使用一個 n階矩陣 Gk+1來近似 H1 ?BFGS(BroydenFletcherGoldfarbShanno)使用一個 n階矩陣 Bk來逼近 H ?LB
點擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1