freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

深度學(xué)習(xí)及其優(yōu)化方法(ppt54頁)(存儲版)

2025-01-31 05:35上一頁面

下一頁面
  

【正文】 : D={v(1), v(2),…, v(N)},我們需要學(xué)習(xí)參數(shù) θ={W,a,b}。 f(x) 梯度是 Ax+b, Hesse 矩陣等于 A。 優(yōu)化方法 24/25 Conjugate Gradients ?共軛梯度法是介于最速下降法與牛頓法之間的一個方法; ?它僅需利用 一階導(dǎo)數(shù) 信息, ?但克服了最速下降法收斂慢的缺點; ?避免牛頓法需要存儲和計算 Hesse矩陣并求逆的缺點 . ?共軛梯度法不僅是解決大型 線性方程組 最有用的方法之一,也是解大型非線性最優(yōu)化最有效的算法之一。 ???優(yōu)化方法 Nesterov 35/25 ?nesterov項在梯度更新時做一個校正,避免前進太快,同時提高靈敏度: ? 并沒有直接改變當(dāng)前梯度 ,所以 Nesterov的改進就是讓之前的動量直接影響當(dāng)前的梯度。 優(yōu)化方法 Adam 43/25 ?Adam(Adaptive Moment Estimation)本質(zhì)上是帶有動量項的 RMSprop, ?它利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學(xué)習(xí)率; ?Adam的優(yōu)點主要在于經(jīng)過偏置校正后,每一次迭代學(xué)習(xí)率都有個確定范圍,使得參數(shù)比較平穩(wěn)。 References: 52/25 [1] Sebastian Ruder. An overview of gradient descent optimization algorithms. eprint arXiv:, . [2]Quoc V. Le, Jiquan Ngiam, Adam Coates, Abhik Lahiri, Bobby Prochnow, Andrew Y. Ng. On Optimization Methods for Deep Learning. Proceedings of the 28th International Conference on Machine Learning, ICML 2023, Bellevue, Washington, USA, June 28 July 2, 2023. [3 [4 Html. [5 [6] [7] References: 53/25 [8] Nocedal and Wright, Numerical Optimization Martens, HessianFree optimization for Deep Learning 54/25 Thank you! 演講完畢,謝謝觀看! 。即: ?其實 Adadelta還是依賴于全局學(xué)習(xí)率的,但作者做了一定處理,經(jīng)過近似牛頓迭代法之后: 此時 Adadelta已經(jīng)不用依賴于全局學(xué)習(xí)率了 優(yōu)化方法 Adadelta 40/25 ?特點: ?訓(xùn)練初中期,加速效果不錯,很快; ?訓(xùn)練后期,反復(fù)在局部最小值附近抖動。 ? tg優(yōu)化方法 31/25 Minibatch Gradient Descent ?面臨的挑戰(zhàn): ?learning rate選取比較困難 ?對于稀疏數(shù)據(jù)或者特征,有時我們可能想更新快一些; ?對于常出現(xiàn)的特征更新慢一些,這時候 SGD就不太能滿足要求了; ?SGD容易收斂到局部最優(yōu),并且在某些情況下可能被困在鞍點 優(yōu)化方法 Momentum 32/25 ?momentum是模擬物理里動量的概念,積累之前的動量來替代真正的梯度: 其中, 是動量因子。 優(yōu)化方法 23/25 Newton’s method ?在牛頓法的迭代中,需要計算海賽矩陣的逆矩陣 H1這一計算比較復(fù)雜,考慮用一個 n階矩陣來近似代替 H1,這就是擬牛頓法的基本思路
點擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1