freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

球隊決策策略課件-文庫吧

2025-02-01 17:56 本頁面


【正文】 位 。 這時使用的也是 SBSP。 SBSP的一般算法 ? IF 場上是戰(zhàn)略狀態(tài) ? IF 本方進攻 ? 進攻球員進行動作選擇、其他隊員按 SBSP跑位 ? ELSE ? 防守隊員截球、盯人、按 SBSP跑位 ? ELSE ? 采用積極狀態(tài)下的即時動作 設(shè)計 RoboCup仿真比賽程序的主要難點: ? 在連續(xù)空間作連續(xù)的決策; ? 多個 Agent的存在給狀態(tài)空間帶來維數(shù)災(zāi)難; ? 環(huán)境的反饋延遲太長 。 ? 環(huán)境具有強實時性和動態(tài)性; ? 環(huán)境通訊帶寬很窄; ? 環(huán)境有噪聲; ? 環(huán)境具有部分可觀性; ? 環(huán)境不具有馬爾可夫性; ? 實際上,機器人足球比賽中的動作選擇可以看成是在一定的環(huán)境下Agent在自己獲取的世界狀態(tài) (s)情況下的選擇什么樣的 a,由于系統(tǒng)實現(xiàn)的時候引入了噪音,因此環(huán)境不具有 Markov性,也就是不可再現(xiàn)性,原則上說他就不具有使用強化學(xué)習(xí)的可能。當(dāng)如果簡化這些影響,也可以把這個過程看成馬爾可夫過程,進而采用強化學(xué)習(xí)的方法。 ? 強化學(xué)習(xí)的關(guān)鍵是 Agent與環(huán)境的交互可以看成是一個馬爾可夫模型 ,也就是說 , 環(huán)境應(yīng)該具有再現(xiàn)性 。 ? 在 Robocup中 , 我們考慮 “ 戰(zhàn)術(shù) ” 任務(wù)是這樣一種情況:進攻一方在一活動范圍內(nèi)試圖保持控球權(quán) , 同時另一方試圖奪回控球權(quán) 。 無論何時防守方獲得控球權(quán)或球離開此區(qū)域 , 這個時間段就結(jié)束 , 球員便放置到另一個時間段( 進攻方再次被給予控球權(quán) ) 。 ? 區(qū)域設(shè)定為 20M*20M的正方形 , 并總有 3個進攻隊員和 2個防守隊員 。 球員涉及的動作主要有: ? HoldBall( ):持球 , 持球保持靜止并盡可能遠離對手 。 ? PassBall(f):傳球 , 將球直接踢給 f。 ? GotoBall( ):跑向球 。 ? GetOpen( ):跑位 , 跑到一個空曠的位置 , 在這個位置能得到傳出的球 。 ? 所有防守方都采用固定的策略 GOTOBALL( ), 也就是說他們試圖阻截球 , 拿到球后用HOLDBALL( )保持控球權(quán) 。 ? 在學(xué)習(xí)的時候 , 使用一個全能的教練 Trainer(也是 agent)在控制比賽 , 當(dāng)防守隊員在設(shè)定時間里獲得控球權(quán)或球離開區(qū)域時 Trainer就結(jié)束此時間段 , 就完成了一次對抗 。 在每個 時間段開始 , 他在區(qū)域內(nèi)隨機的置球和球員的位置 , 兩個防守方隊員從區(qū)域的一個角落開始 , 而每個進攻球員隨機放在其他三個角落 , 每個角落一個球員 。 學(xué)習(xí)過程 學(xué)習(xí)過程(續(xù)) 學(xué)習(xí)過程(續(xù)) 13個函數(shù)表示狀態(tài)( WS) ? dist(F1,C) ? dist(F1,F2) ? dist(F1,F3) ? dist(F1,D1) ? dist(F1,D2) ? dist(F2,C) ? dist(F3,C) ? dist(D1,C) ? dist(D2,C) ? Minimum(dist(F2,D1),dist(F2,D2)) ? Minimum(dist(F3,D1),dist(F3,D2)) ? Minimum(ang(F2,F1,D1),ang(F2,F1,D2)) ? Minimum(ang(F3,F1,D1),ang(F3,F1,D2)) Tile Coding ? 采用 Tile coding方法來進行,狀態(tài)用一個 13維的空間來表示,用網(wǎng)格表示每個具體狀態(tài), 在分析的時候,每個格對應(yīng)一個二進制狀態(tài),或是 1(當(dāng)狀態(tài)在這個格內(nèi))或是 0(狀態(tài)不在這個格內(nèi))。 ? 狀態(tài)評價函數(shù) ? 這里 γ 是學(xué)習(xí)率,一個固定的參數(shù), T是從 s開始的時間段內(nèi)經(jīng)過了 T個時間步。規(guī)定,進攻隊員能確切控球的狀態(tài)有最高值 0;所有其他狀態(tài)是負(fù)值,立即失球的狀態(tài)值接近 1。 1000( ) | , { , }tTttV s E r s s E s s? ? ? ? ??????? ? ? ? ??????策略學(xué)習(xí) ? 強化學(xué)習(xí)去完善進攻隊員的策略以達到盡可能長的時間控球 。 ? 使用 Qlearning,即每個進攻隊員獨立學(xué)習(xí)。這樣,所有的進攻隊員都能學(xué)會相似的策略或不同的策略
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1