freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

深度學(xué)習(xí)及其優(yōu)化方法(ppt54頁)-免費(fèi)閱讀

2025-01-27 05:35 上一頁面

下一頁面
  

【正文】 優(yōu)化方法 Adam 45/25 ?特點(diǎn): ?結(jié)合了 Adagrad善于處理稀疏梯度和 RMSprop善于處理非平穩(wěn)目標(biāo)的優(yōu)點(diǎn); ?對(duì)內(nèi)存需求較??; ?為不同的參數(shù)計(jì)算不同的自適應(yīng)學(xué)習(xí)率; ?也適用于大多非凸優(yōu)化 適用于大數(shù)據(jù)集和高維空間 優(yōu)化方法 Adamax 46/25 ?Adamax是 Adam的一種變體,此方法對(duì)學(xué)習(xí)率的上限提供了一個(gè)更簡(jiǎn)單的范圍: ?可以看出, Adamax學(xué)習(xí)率的邊界范圍更簡(jiǎn)單 優(yōu)化方法 Nadam 47/25 ?Nadam類似于帶有 Nesterov動(dòng)量項(xiàng)的 Adam : 優(yōu)化方法 Nadam 48/25 ?可以看出, Nadam對(duì)學(xué)習(xí)率有了更強(qiáng)的約束,同時(shí)對(duì)梯度的更新也有更直接的影響 。 優(yōu)化方法 Adagrad 37/25 ?Adagrad其實(shí)是對(duì)學(xué)習(xí)率進(jìn)行了一個(gè)約束,即: ? 對(duì) 從 1到 進(jìn)行一個(gè)遞推形成一個(gè)約束項(xiàng) regularizer 優(yōu)化方法 Adagrad 38/25 ?特點(diǎn): ?前期 較小時(shí)候, regularizer較大,能夠放大梯度 ; ?后期 較大的時(shí)候, regularizer較小,能夠約束梯度; ?適合處理稀疏梯度。 優(yōu)化方法 26/25 Conjugate Gradients ?確定了移動(dòng)方向( GD:垂直于等值線, CG:共軛方向),并在該方向上搜索極小值點(diǎn)(恰好與該處的等值線相切),然后移動(dòng)到最小值點(diǎn),重復(fù)以上過程,過程如下圖: 優(yōu)化方法 27/25 隨機(jī)梯度下降算法( SGD) 優(yōu)化方法 28/25 隨機(jī)梯度下降算法( SGD) ?SGD是最速梯度下降法的變種, 每次只使用一個(gè)樣本,迭代一次計(jì)算量為 n2,當(dāng) m很大的時(shí)候,隨機(jī)梯度下降迭代一次的速度要遠(yuǎn)高于梯度下降 : ?梯度下降需要把 m個(gè)樣本全部帶入計(jì)算,迭代一次計(jì)算量為 m*n2 優(yōu)化方法 29/25 Minibatch Gradient Descent ?介于 BSD和 SGD之間的一種優(yōu)化算法,每次選取一定量的訓(xùn)練樣本進(jìn)行迭代; ?速度比 BSD快,比 SGD慢;精度比 BSD低,比 SGD高。 kkkk pxx ????1kp k?優(yōu)化方法 19/25 Gradient Descent ?該方法利用目標(biāo)函數(shù)的局部性質(zhì),得到局部最優(yōu)解,具有一定的“盲目性”,如果目標(biāo)函數(shù)是一個(gè)凸優(yōu)化問題,那么局部最優(yōu)解就是全局最優(yōu)解; ?每一次迭代的移動(dòng)方向都與出發(fā)點(diǎn)的等高線垂直,此外,鋸齒現(xiàn)象( zigzagging)將會(huì)導(dǎo)致收斂速度變慢 : 優(yōu)化方法 20/25 Newton’s method ?牛頓法則是利用局部的一階和二階偏導(dǎo)信息,推測(cè)整個(gè)目標(biāo)函數(shù)的形狀; ?進(jìn)而可以求得出近似函數(shù)的全局最小值,然后將當(dāng)前的最小值設(shè)定近似函數(shù)的最小值; ?相比最速下降法,牛頓法帶有一定對(duì)全局的預(yù)測(cè)性,收斂性質(zhì)也更優(yōu)良。 CNN 12/25 ?卷積神經(jīng)網(wǎng)絡(luò)( Convolutional Neural Networks) 卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),每層由多個(gè)二維平面組成,而每個(gè)平面由多個(gè)獨(dú)立神經(jīng)元組成。 ?因?yàn)槭菬o標(biāo)簽數(shù)據(jù),所以誤差的來源就是直接重構(gòu)后與原輸入相比得到。 本質(zhì) :通過構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù) ,來學(xué)習(xí)更有用的特征 , 從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性 。每次僅調(diào)整一層,逐層調(diào)整。 RBM 10/25 ?給定隱層 h的基礎(chǔ)上,可視層的概率確定: ( 可視層節(jié)點(diǎn)之間是條件獨(dú)立的 ) ?給定可視層 v的基礎(chǔ)上,隱層的概率確定: ?給定一個(gè)滿足獨(dú)立同分布的樣本集
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1