freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

深度學習及其優(yōu)化方法(ppt54頁)(編輯修改稿)

2025-01-29 05:35 本頁面
 

【文章內(nèi)容簡介】 n’s Algorithm 進行近似; ?如果初始值離局部極小值太遠, Taylor 展開并不能對原函數(shù)進行良好的近似。 優(yōu)化方法 23/25 Newton’s method ?在牛頓法的迭代中,需要計算海賽矩陣的逆矩陣 H1這一計算比較復雜,考慮用一個 n階矩陣來近似代替 H1,這就是擬牛頓法的基本思路。 ?DFP(DavidonFletcherPowell)使用一個 n階矩陣 Gk+1來近似 H1 ?BFGS(BroydenFletcherGoldfarbShanno)使用一個 n階矩陣 Bk來逼近 H ?LBFGS( Limited BFGS ):由于上述兩種擬牛頓法都要保存一個 n階矩陣,對于內(nèi)存消耗非常大,因此在此基礎上提出了一種節(jié)約內(nèi)存的方法 LBFGS。 優(yōu)化方法 24/25 Conjugate Gradients ?共軛梯度法是介于最速下降法與牛頓法之間的一個方法; ?它僅需利用 一階導數(shù) 信息, ?但克服了最速下降法收斂慢的缺點; ?避免牛頓法需要存儲和計算 Hesse矩陣并求逆的缺點 . ?共軛梯度法不僅是解決大型 線性方程組 最有用的方法之一,也是解大型非線性最優(yōu)化最有效的算法之一。 ?與最速梯度下降的不同,共軛梯度的優(yōu)點主要體現(xiàn)在選擇搜索方向上: 優(yōu)化方法 25/25 Conjugate Gradients ?共軛方向: ?如上圖, d(1) 方向與二次函數(shù)的等值線相切, d(1) 的共軛方向 d(2) 則指向橢圓的中心。對于二維二次函數(shù),若在兩個共軛方向上進行一維搜索,經(jīng)過兩次迭代必然達到最小點。 優(yōu)化方法 26/25 Conjugate Gradients ?確定了移動方向( GD:垂直于等值線, CG:共軛方向),并在該方向上搜索極小值點(恰好與該處的等值線相切),然后移動到最小值點,重復以上過程,過程如下圖: 優(yōu)化方法 27/25 隨機梯度下降算法( SGD) 優(yōu)化方法 28/25 隨機梯度下降算法( SGD) ?SGD是最速梯度下降法的變種, 每次只使用一個樣本,迭代一次計算量為 n2,當 m很大的時候,隨機梯度下降迭代一次的速度要遠高于梯度下降 : ?梯度下降需要把 m個樣本全部帶入計算,迭代一次計算量為 m*n2 優(yōu)化方法 29/25 Minibatch Gradient Descent ?介于 BSD和 SGD之間的一種優(yōu)化算法,每次選取一定量的訓練樣本進行迭代; ?速度比 BSD快,比 SGD慢;精度比 BSD低,比 SGD高。 ?選擇 n個訓練樣本( nm, m為總訓練集樣本數(shù)) ?在這 n個樣本中進行 n次迭代,每次使用 1個樣本 ?對 n次迭代得出的 n個 gradient進行加權平均再并求和,作為這一次 minibatch下降梯度; ?不斷在訓練集中重復以上步驟,直到收斂。 優(yōu)化方法 30/25 Minibatch Gradient Descent ?其思想是: SGD就是每一次迭代計算 minibatch的梯度,然后對參數(shù)進行更新; ?其中,是學習率, 是梯度, SGD完全依賴于當前 batch的梯度,可理解為允許當前 batch的梯度多大程度影響參數(shù)更新。 ? tg優(yōu)化方法 31/25 Minibatch Gradient Descent ?面臨的挑戰(zhàn): ?learning rate選取比較困難 ?對于稀疏數(shù)據(jù)或者特征,有時我們可能想更新快一些; ?對于常出現(xiàn)的特征更新慢一些,這時候 SGD就不太能滿足要求了; ?SGD容易收斂到局部最優(yōu),并且在某些情況下可能被困在鞍點 優(yōu)化方法 Momentum 32/25 ?momentum是模擬物理里動量的概念,積累之前的動量來
點擊復制文檔內(nèi)容
黨政相關相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1