freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

球隊決策策略課件-文庫吧

2025-02-01 17:56 本頁面


【正文】 位 。 這時使用的也是 SBSP。 SBSP的一般算法 ? IF 場上是戰(zhàn)略狀態(tài) ? IF 本方進攻 ? 進攻球員進行動作選擇、其他隊員按 SBSP跑位 ? ELSE ? 防守隊員截球、盯人、按 SBSP跑位 ? ELSE ? 采用積極狀態(tài)下的即時動作 設計 RoboCup仿真比賽程序的主要難點: ? 在連續(xù)空間作連續(xù)的決策; ? 多個 Agent的存在給狀態(tài)空間帶來維數災難; ? 環(huán)境的反饋延遲太長 。 ? 環(huán)境具有強實時性和動態(tài)性; ? 環(huán)境通訊帶寬很窄; ? 環(huán)境有噪聲; ? 環(huán)境具有部分可觀性; ? 環(huán)境不具有馬爾可夫性; ? 實際上,機器人足球比賽中的動作選擇可以看成是在一定的環(huán)境下Agent在自己獲取的世界狀態(tài) (s)情況下的選擇什么樣的 a,由于系統(tǒng)實現(xiàn)的時候引入了噪音,因此環(huán)境不具有 Markov性,也就是不可再現(xiàn)性,原則上說他就不具有使用強化學習的可能。當如果簡化這些影響,也可以把這個過程看成馬爾可夫過程,進而采用強化學習的方法。 ? 強化學習的關鍵是 Agent與環(huán)境的交互可以看成是一個馬爾可夫模型 ,也就是說 , 環(huán)境應該具有再現(xiàn)性 。 ? 在 Robocup中 , 我們考慮 “ 戰(zhàn)術 ” 任務是這樣一種情況:進攻一方在一活動范圍內試圖保持控球權 , 同時另一方試圖奪回控球權 。 無論何時防守方獲得控球權或球離開此區(qū)域 , 這個時間段就結束 , 球員便放置到另一個時間段( 進攻方再次被給予控球權 ) 。 ? 區(qū)域設定為 20M*20M的正方形 , 并總有 3個進攻隊員和 2個防守隊員 。 球員涉及的動作主要有: ? HoldBall( ):持球 , 持球保持靜止并盡可能遠離對手 。 ? PassBall(f):傳球 , 將球直接踢給 f。 ? GotoBall( ):跑向球 。 ? GetOpen( ):跑位 , 跑到一個空曠的位置 , 在這個位置能得到傳出的球 。 ? 所有防守方都采用固定的策略 GOTOBALL( ), 也就是說他們試圖阻截球 , 拿到球后用HOLDBALL( )保持控球權 。 ? 在學習的時候 , 使用一個全能的教練 Trainer(也是 agent)在控制比賽 , 當防守隊員在設定時間里獲得控球權或球離開區(qū)域時 Trainer就結束此時間段 , 就完成了一次對抗 。 在每個 時間段開始 , 他在區(qū)域內隨機的置球和球員的位置 , 兩個防守方隊員從區(qū)域的一個角落開始 , 而每個進攻球員隨機放在其他三個角落 , 每個角落一個球員 。 學習過程 學習過程(續(xù)) 學習過程(續(xù)) 13個函數表示狀態(tài)( WS) ? dist(F1,C) ? dist(F1,F2) ? dist(F1,F3) ? dist(F1,D1) ? dist(F1,D2) ? dist(F2,C) ? dist(F3,C) ? dist(D1,C) ? dist(D2,C) ? Minimum(dist(F2,D1),dist(F2,D2)) ? Minimum(dist(F3,D1),dist(F3,D2)) ? Minimum(ang(F2,F1,D1),ang(F2,F1,D2)) ? Minimum(ang(F3,F1,D1),ang(F3,F1,D2)) Tile Coding ? 采用 Tile coding方法來進行,狀態(tài)用一個 13維的空間來表示,用網格表示每個具體狀態(tài), 在分析的時候,每個格對應一個二進制狀態(tài),或是 1(當狀態(tài)在這個格內)或是 0(狀態(tài)不在這個格內)。 ? 狀態(tài)評價函數 ? 這里 γ 是學習率,一個固定的參數, T是從 s開始的時間段內經過了 T個時間步。規(guī)定,進攻隊員能確切控球的狀態(tài)有最高值 0;所有其他狀態(tài)是負值,立即失球的狀態(tài)值接近 1。 1000( ) | , { , }tTttV s E r s s E s s? ? ? ? ??????? ? ? ? ??????策略學習 ? 強化學習去完善進攻隊員的策略以達到盡可能長的時間控球 。 ? 使用 Qlearning,即每個進攻隊員獨立學習。這樣,所有的進攻隊員都能學會相似的策略或不同的策略
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1