freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

增強學習reinforcementlearning經(jīng)典算法梳理(編輯修改稿)

2025-05-14 00:23 本頁面
 

【文章內(nèi)容簡介】 道狀態(tài)轉(zhuǎn)移概率(就像人類一樣),我們該如何求得最優(yōu)的策略呢?本文介紹蒙特卡洛方法。2 蒙特卡洛方法蒙特卡洛方法只面向具有階段episode的問題。比如玩一局游戲,下一盤棋,是有步驟,會結束的。而有些問題則不一定有結束,比如開賽車,可以無限的開下去,或者說需要特別特別久才能結束。能不能結束是一個關鍵。因為只要能結束,那么每一步的reward都是可以確定的,也就是可以因此來計算value。比如說下棋,最后贏了就是贏了,輸了就是輸了。而對于結束不了的問題,我們只能對于value進行估計。那么蒙特卡洛方法只關心這種能夠較快結束的問題。蒙特卡洛的思想很簡單,就是反復測試求平均。如果大家知道在地上投球計算圓周率的事情就比較好理解了。不清楚的童鞋可以網(wǎng)上找找看。那么如何用在增強學習上呢?既然每一次的episode都可以到結束,那么意味著根據(jù):每一步的reward都知道,也就意味著每一步的return Gt都可以計算出來。這就好了。我們反復做測試,這樣很多狀態(tài)會被遍歷到,而且不止一次,那么每次就可以把在狀態(tài)下的return求和取平均。當episode無限大時,得到的數(shù)據(jù)也就接近于真實的數(shù)據(jù)。蒙特卡洛方法就是使用統(tǒng)計學的方法來取代Bellman方法的計算方法。上面的算法叫firstvisit MC。也就是每一次的episode中state只使用第一次到達的t來計算return。另一種方法就是everyvisit,就是每一次的episode中state只要訪問到就計算return求平均。所以可以看到蒙特卡洛方法是極其簡單的。但是缺點也是很明顯的,需要盡可能多的反復測試,而且需要到每一次測試結束后才來計算,需要耗費大量時間。但是,大家知道嗎?AlphaGo就是使用蒙特卡洛的思想。不是蒙特卡洛樹搜索,而是說在增強學習中使用蒙特卡洛方法的思想。AlphaGo每次也是到下棋結束,而且只使用最后的輸贏作為return。所以這也是非常神奇的事,只使用最后的輸贏結果,竟然能夠優(yōu)化每一步的走法。3 使用蒙特卡洛方法來控制上面說的蒙特卡洛方法只是能夠?qū)Ξ斍暗膒olicy進行評估。那么大家記得上一個blog說的policy iteration方法嗎?我們可以在policy iteration中使用蒙特卡洛方法進行評估,然后使用greedy policy更新。那么依然是有兩種做法。一種就是在一個policy下測試多次,評估完全,然后更新policy,然后再做很多測試。另一種就是不完全評估,每次測試一次完就評估,評估完就更新:第一種做法:第二種做法:兩種做法都能夠收斂,那么顯然第二種做法的速度更快。那么再改進一點,就是改變greedy policy中?的值,使得不斷變小趨于0,這個時候最后得到的policy就是完全的最優(yōu)policy了。這個算法就叫做GLIE MonteCarlo Control:
點擊復制文檔內(nèi)容
教學教案相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1