freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

深度學(xué)習(xí)及其優(yōu)化方法(ppt54頁)(參考版)

2025-01-13 05:35本頁面
  

【正文】 References: 52/25 [1] Sebastian Ruder. An overview of gradient descent optimization algorithms. eprint arXiv:, . [2]Quoc V. Le, Jiquan Ngiam, Adam Coates, Abhik Lahiri, Bobby Prochnow, Andrew Y. Ng. On Optimization Methods for Deep Learning. Proceedings of the 28th International Conference on Machine Learning, ICML 2023, Bellevue, Washington, USA, June 28 July 2, 2023. [3 [4 Html. [5 [6] [7] References: 53/25 [8] Nocedal and Wright, Numerical Optimization Martens, HessianFree optimization for Deep Learning 54/25 Thank you! 演講完畢,謝謝觀看! 。 ?一般而言,在想使用帶動量的 RMSprop,或者 Adam的地方,大多可以使用 Nadam取得更好的效果。 ? 對學(xué)習(xí)率形成一個動態(tài)約束,而且有明確的范圍。 優(yōu)化方法 Adam 43/25 ?Adam(Adaptive Moment Estimation)本質(zhì)上是帶有動量項的 RMSprop, ?它利用梯度的一階矩估計和二階矩估計動態(tài)調(diào)整每個參數(shù)的學(xué)習(xí)率; ?Adam的優(yōu)點(diǎn)主要在于經(jīng)過偏置校正后,每一次迭代學(xué)習(xí)率都有個確定范圍,使得參數(shù)比較平穩(wěn)。即: ?其實 Adadelta還是依賴于全局學(xué)習(xí)率的,但作者做了一定處理,經(jīng)過近似牛頓迭代法之后: 此時 Adadelta已經(jīng)不用依賴于全局學(xué)習(xí)率了 優(yōu)化方法 Adadelta 40/25 ?特點(diǎn): ?訓(xùn)練初中期,加速效果不錯,很快; ?訓(xùn)練后期,反復(fù)在局部最小值附近抖動。 ?缺點(diǎn): ?仍依賴于人工設(shè)置一個全局學(xué)習(xí)率; ? 設(shè)置過大的話,會使 regularizer過于敏感,對梯度的調(diào)節(jié)太大; ?中后期,分母上梯度平方的累加將會越來越大,使 ,訓(xùn)練提前結(jié)束。 優(yōu)化方法 Nesterov 36/25 ?momentum首先計算一個梯度 (短的藍(lán)色向量 ),然后在加速更新梯度的方向進(jìn)行一個大的跳躍 (長的藍(lán)色向量 ),nesterov項首先在之前加速的梯度方向進(jìn)行一個大的跳躍 (棕色向量 ),計算梯度然后進(jìn)行校正 (綠色梯向量 ): ? momentum項和 nesterov項都是為了使梯度更新更加靈活,對不同情況有針對性。 ???優(yōu)化方法 Nesterov 35/25 ?nesterov項在梯度更新時做一個校正,避免前進(jìn)太快,同時提高靈敏度: ? 并沒有直接改變當(dāng)前梯度 ,所以 Nesterov的改進(jìn)就是讓之前的動量直接影響當(dāng)前的梯度。 ? tg優(yōu)化方法 31/25 Minibatch Gradient Descent ?面臨的挑戰(zhàn): ?learning rate選取比較困難 ?對于稀疏數(shù)據(jù)或者特征,有時我們可能想更新快一些; ?對于常出現(xiàn)的特征更新慢一些,這時候 SGD就不太能滿足要求了; ?SGD容易收斂到局部最優(yōu),并且在某些情況下可能被困在鞍點(diǎn) 優(yōu)化方法 Momentu
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1