freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

論文開題報(bào)告提交版(編輯修改稿)

2025-07-20 02:40 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 (5)3. TD算法:【13】結(jié)合動(dòng)態(tài)規(guī)劃和蒙特卡諾算法,Sutton提出基于時(shí)間差分的TD算法,它在每一步的學(xué)習(xí)中利用下式更新狀態(tài)值:V(st)V(st)+ α[rt+1+γV(st+1)V(st)] (6)TD法是一類專門用于預(yù)測(cè)問(wèn)題的漸進(jìn)學(xué)習(xí)過(guò)程,傳統(tǒng)的學(xué)習(xí)預(yù)測(cè)方法是由預(yù)測(cè)值和實(shí)際值之間的誤差來(lái)修正參數(shù)的,而TD法是由相繼預(yù)測(cè)間的誤差值來(lái)完成的,當(dāng)隨著時(shí)間的推移預(yù)測(cè)有變化時(shí)就進(jìn)行學(xué)習(xí)。三. 強(qiáng)化學(xué)習(xí)面臨的主要問(wèn)題我們上面討論的強(qiáng)化學(xué)習(xí)模型是最簡(jiǎn)單的有限狀態(tài)、離散狀態(tài)、離散時(shí)間模型,而實(shí)際應(yīng)用中環(huán)境比這種模型復(fù)雜得多,尤其在狀態(tài)數(shù)增多后經(jīng)典的強(qiáng)化學(xué)習(xí)算法便會(huì)面臨維數(shù)災(zāi)難【12】,另外馬爾科夫模型是假設(shè)所有狀態(tài)都已經(jīng)知道,而實(shí)際上在學(xué)習(xí)過(guò)程中會(huì)出現(xiàn)新的未知狀態(tài),這時(shí)為非馬爾科夫模型【6】……這些問(wèn)題用經(jīng)典的數(shù)學(xué)模型狀態(tài)將無(wú)法實(shí)現(xiàn)。目前強(qiáng)化學(xué)習(xí)的主要問(wèn)題就是如何尋找新的數(shù)學(xué)模型,來(lái)實(shí)現(xiàn)環(huán)境狀態(tài)的未知和維數(shù)爆炸等問(wèn)題。四. 當(dāng)前強(qiáng)化學(xué)習(xí)研究動(dòng)態(tài) 、HRL模型以及由POMDP模型衍生的PSR模型等。1. 部分感知狀態(tài)馬爾科夫模型(POMDP)——解決非馬爾科夫環(huán)境問(wèn)題:在經(jīng)典馬爾科夫模型上增加狀態(tài)預(yù)測(cè),并對(duì)每個(gè)狀態(tài)設(shè)置一個(gè)信度b,用于表示該狀態(tài)的可信度,在決定動(dòng)作時(shí)使用b作為依據(jù),同時(shí)根據(jù)觀察值進(jìn)行狀態(tài)預(yù)測(cè),這樣很好的解決一些非馬爾科夫模型。 2. 分層強(qiáng)化學(xué)習(xí)模型(HRL)——解決維數(shù)爆炸問(wèn)題: 目前解決“維數(shù)災(zāi)難”問(wèn)題方法大致有四種:狀態(tài)聚類法【14】、有限策略空間搜索法【15】、值函數(shù)近似法【16】、和分層強(qiáng)化學(xué)習(xí)【12】分層強(qiáng)化學(xué)習(xí)是通過(guò)在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上增加“抽象”機(jī)制,把整體任務(wù)分解為不同層次上的子任務(wù),使每個(gè)子任務(wù)在規(guī)模較小的子空間中求解,并且求得的子任務(wù)策略可以復(fù)用,從而加快問(wèn)題的求解速度。 五. 我的觀點(diǎn)無(wú)論是傳統(tǒng)的馬爾科夫模型還是最新的POMDP、HRL理論,并沒有哪一個(gè)算法可以適用于所有場(chǎng)合,它們都只是在某個(gè)特定的環(huán)境中有其特長(zhǎng)。為此,我們的工作就是分析每個(gè)算法的優(yōu)缺點(diǎn),通過(guò)比較了解各個(gè)算法的使用場(chǎng)合。六. 參考文獻(xiàn):【1】 and . Reinforcement Learning[M]. London:MIT press,1998.【2】Kaelbling L P,Littman M L
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1