freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

增強(qiáng)學(xué)習(xí)reinforcementlearning經(jīng)典算法梳理-資料下載頁

2025-04-17 00:23本頁面
  

【正文】 可以更新,這是顯然,也就是online learning,學(xué)習(xí)快;可以面對(duì)沒有結(jié)果的場(chǎng)景,應(yīng)用范圍廣不足之處也是顯而易見的,就是因?yàn)門D target是估計(jì)值,估計(jì)是有誤差的,這就會(huì)導(dǎo)致更新得到value是有偏差的。很難做到無偏估計(jì)。但是以此同時(shí),TD target是每一個(gè)step進(jìn)行估計(jì)的,僅最近的動(dòng)作對(duì)其有影響,而MC的result則受到整個(gè)時(shí)間片中動(dòng)作的影響,因此TD target的方差variance會(huì)比較低,也就是波動(dòng)性小。還是放一下David Silver的總結(jié)吧:那么David Silver的ppt中有三張圖,很清楚的對(duì)比了MC,TD以及DP的不同: 從上面可以很清楚的看到三者的不同。DP就是理想化的情況,遍歷所有。MC現(xiàn)實(shí)一點(diǎn),TD最現(xiàn)實(shí),但是TD也最不準(zhǔn)確。但是沒關(guān)系,反復(fù)迭代之下,還是可以收斂的。整個(gè)增強(qiáng)學(xué)習(xí)算法也都在上面的范疇里:3 TD算法這只是TD(0)的估計(jì)方式,顯然可以拓展到nstep。就是講TDtarget再根據(jù)bellman方程展開。再下來的思想,就是可以把TD(i)和TD(j)合在一起求個(gè)平均吧。再下來就是把能算的TD(i)都算一遍,每一個(gè)給個(gè)系數(shù),總和為1,這就是TD(λ)4 SARSA算法SARSA算法的思想很簡(jiǎn)單,就是增加一個(gè)A,下一步的A,然后據(jù)此來估計(jì)Q(s,a)。之所以算法稱為SARSA,就是指一次更新需要用到這5個(gè)量。5 QLearning算法著名的QLearning。這里直接使用最大的Q來更新。為什么說SARSA是onpolicy而QLearning是offpolicy呢?因?yàn)镾ARSA只是對(duì)policy進(jìn)行估計(jì),而QLearning的Q則是通往最優(yōu)。6 Double QLearningQLearning可能會(huì)出現(xiàn)對(duì)Q值過度估計(jì)的問題,Double QLearning可以解決這個(gè)問題:使用兩個(gè)Q交替更新。7 多種方法比較由上面兩圖可以理解TD,Sarsa,和QLearning的算法來源,本質(zhì)上都是基于Bellman方程??梢赃@么理解:Bellman方程是一種理想條件的解法,而這些方法則是放棄理想準(zhǔn)確度而形成的可實(shí)現(xiàn)方法。小結(jié)本文梳理了TD相關(guān)的幾個(gè)算法。TD算法特別是TD(λ)方法引出了eligibility trace(翻譯做資格跡 不知可否),這部分內(nèi)容留待之后分析。寧可累死在路上,也不能閑死在家里!寧可去碰壁,也不能面壁。是狼就要練好牙,是羊就要練好腿。什么是奮斗?奮斗就是每天很難,可一年一年卻越來越容易。不奮斗就是每天都很容易,可一年一年越來越難。能干的人,不在情緒上計(jì)較,只在做事上認(rèn)真;無能的人!不在做事上認(rèn)真,只在情緒上計(jì)較。拼一個(gè)春夏秋冬!贏一個(gè)無悔人生!早安!—————獻(xiàn)給所有努力的人.學(xué)習(xí)參考
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1