freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

深度學(xué)習(xí)及其優(yōu)化方法(ppt54頁(yè))-預(yù)覽頁(yè)

 

【正文】 FGS( Limited BFGS ):由于上述兩種擬牛頓法都要保存一個(gè) n階矩陣,對(duì)于內(nèi)存消耗非常大,因此在此基礎(chǔ)上提出了一種節(jié)約內(nèi)存的方法 LBFGS。 優(yōu)化方法 26/25 Conjugate Gradients ?確定了移動(dòng)方向( GD:垂直于等值線, CG:共軛方向),并在該方向上搜索極小值點(diǎn)(恰好與該處的等值線相切),然后移動(dòng)到最小值點(diǎn),重復(fù)以上過(guò)程,過(guò)程如下圖: 優(yōu)化方法 27/25 隨機(jī)梯度下降算法( SGD) 優(yōu)化方法 28/25 隨機(jī)梯度下降算法( SGD) ?SGD是最速梯度下降法的變種, 每次只使用一個(gè)樣本,迭代一次計(jì)算量為 n2,當(dāng) m很大的時(shí)候,隨機(jī)梯度下降迭代一次的速度要遠(yuǎn)高于梯度下降 : ?梯度下降需要把 m個(gè)樣本全部帶入計(jì)算,迭代一次計(jì)算量為 m*n2 優(yōu)化方法 29/25 Minibatch Gradient Descent ?介于 BSD和 SGD之間的一種優(yōu)化算法,每次選取一定量的訓(xùn)練樣本進(jìn)行迭代; ?速度比 BSD快,比 SGD慢;精度比 BSD低,比 SGD高。 ?優(yōu)化方法 Momentum 33/25 SGD without momentum SGD with momentum 優(yōu)化方法 Momentum 34/25 ?特點(diǎn): ?下降初期時(shí),使用上一次參數(shù)更新,下降方向一致,乘上較大的 能夠進(jìn)行很好的加速; ?下降中后期時(shí),在局部最小值來(lái)回震蕩的時(shí)候, , 使得更新幅度增大,跳出陷阱; ?在梯度改變方向的時(shí)候, 能夠減少更新; ?總之, momentum項(xiàng)能夠在相關(guān)方向加速 SGD,抑制振蕩,從而加快收斂。 優(yōu)化方法 Adagrad 37/25 ?Adagrad其實(shí)是對(duì)學(xué)習(xí)率進(jìn)行了一個(gè)約束,即: ? 對(duì) 從 1到 進(jìn)行一個(gè)遞推形成一個(gè)約束項(xiàng) regularizer 優(yōu)化方法 Adagrad 38/25 ?特點(diǎn): ?前期 較小時(shí)候, regularizer較大,能夠放大梯度 ; ?后期 較大的時(shí)候, regularizer較小,能夠約束梯度; ?適合處理稀疏梯度。 優(yōu)化方法 RMSprop 41/25 ?RMSprop可以算作 Adadelta的一個(gè)特例: ?當(dāng) 時(shí), 就變?yōu)榱饲筇荻绕椒胶偷钠骄鶖?shù); ?如果再求根的話,就變成了 RMS(均方根 ): ?此時(shí),這個(gè) RMS就可以作為學(xué)習(xí)率的一個(gè)約束: 優(yōu)化方法 RMSprop 42/25 ?RMSprop: ?其實(shí) RMSprop依然依賴于全局學(xué)習(xí)率; ?RMSprop算是 Adagrad的一種發(fā)展,和 Adadelta的變體,效果趨于二者之間; ?適合處理非平穩(wěn)目標(biāo) 對(duì)于 RNN效果很好。 優(yōu)化方法 Adam 45/25 ?特點(diǎn): ?結(jié)合了 Adagrad善于處理稀疏梯度和 RMSprop善于處理非平穩(wěn)目標(biāo)的優(yōu)點(diǎn); ?對(duì)內(nèi)存需求較??; ?為不同的參數(shù)計(jì)算不同的自適應(yīng)學(xué)習(xí)率; ?也適用于大多非凸優(yōu)化 適用于大數(shù)據(jù)集和高維空間 優(yōu)化方法 Adamax 46/25 ?Adamax是 Adam的一種變體,此方法對(duì)學(xué)習(xí)率的上限提供了一個(gè)更簡(jiǎn)單的范圍: ?可以看出, Adamax學(xué)習(xí)率的邊界范圍更簡(jiǎn)單 優(yōu)化方法 Nadam 47/25 ?Nadam類似于帶有 Nesterov動(dòng)量項(xiàng)的 Adam : 優(yōu)化方法 Nadam 48/25 ?可以看出, Nadam對(duì)學(xué)習(xí)率有了更強(qiáng)的約束,同時(shí)對(duì)梯度的更新也有更直接
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1