正文內容

球隊決策策略課件-文庫吧

2025-02-01 17:56 本頁面

【正文】位。這時使用的也是 SBSP。 SBSP的一般算法 ? IF 場上是戰(zhàn)略狀態(tài) ? IF 本方進攻 ? 進攻球員進行動作選擇、其他隊員按 SBSP跑位 ? ELSE ? 防守隊員截球、盯人、按 SBSP跑位 ? ELSE ? 采用積極狀態(tài)下的即時動作設計 RoboCup仿真比賽程序的主要難點： ? 在連續(xù)空間作連續(xù)的決策； ? 多個 Agent的存在給狀態(tài)空間帶來維數災難； ? 環(huán)境的反饋延遲太長。 ? 環(huán)境具有強實時性和動態(tài)性； ? 環(huán)境通訊帶寬很窄； ? 環(huán)境有噪聲； ? 環(huán)境具有部分可觀性； ? 環(huán)境不具有馬爾可夫性； ? 實際上，機器人足球比賽中的動作選擇可以看成是在一定的環(huán)境下Agent在自己獲取的世界狀態(tài) (s)情況下的選擇什么樣的 a,由于系統(tǒng)實現(xiàn)的時候引入了噪音，因此環(huán)境不具有 Markov性，也就是不可再現(xiàn)性，原則上說他就不具有使用強化學習的可能。當如果簡化這些影響，也可以把這個過程看成馬爾可夫過程，進而采用強化學習的方法。 ? 強化學習的關鍵是 Agent與環(huán)境的交互可以看成是一個馬爾可夫模型，也就是說，環(huán)境應該具有再現(xiàn)性。 ? 在 Robocup中，我們考慮 “ 戰(zhàn)術 ” 任務是這樣一種情況：進攻一方在一活動范圍內試圖保持控球權，同時另一方試圖奪回控球權。無論何時防守方獲得控球權或球離開此區(qū)域，這個時間段就結束，球員便放置到另一個時間段（進攻方再次被給予控球權）。 ? 區(qū)域設定為 20M*20M的正方形，并總有 3個進攻隊員和 2個防守隊員。球員涉及的動作主要有： ? HoldBall( )：持球，持球保持靜止并盡可能遠離對手。 ? PassBall(f)：傳球，將球直接踢給 f。 ? GotoBall( )：跑向球。 ? GetOpen( )：跑位，跑到一個空曠的位置，在這個位置能得到傳出的球。 ? 所有防守方都采用固定的策略 GOTOBALL( )，也就是說他們試圖阻截球，拿到球后用HOLDBALL( )保持控球權。 ? 在學習的時候，使用一個全能的教練 Trainer(也是 agent)在控制比賽，當防守隊員在設定時間里獲得控球權或球離開區(qū)域時 Trainer就結束此時間段，就完成了一次對抗。在每個時間段開始，他在區(qū)域內隨機的置球和球員的位置，兩個防守方隊員從區(qū)域的一個角落開始，而每個進攻球員隨機放在其他三個角落，每個角落一個球員。學習過程學習過程（續(xù)）學習過程（續(xù)） 13個函數表示狀態(tài)（ WS） ? dist(F1,C) ? dist(F1,F2) ? dist(F1,F3) ? dist(F1,D1) ? dist(F1,D2) ? dist(F2,C) ? dist(F3,C) ? dist(D1,C) ? dist(D2,C) ? Minimum(dist(F2,D1),dist(F2,D2)) ? Minimum(dist(F3,D1),dist(F3,D2)) ? Minimum(ang(F2,F1,D1),ang(F2,F1,D2)) ? Minimum(ang(F3,F1,D1),ang(F3,F1,D2)) Tile Coding ? 采用 Tile coding方法來進行，狀態(tài)用一個 13維的空間來表示，用網格表示每個具體狀態(tài)，在分析的時候，每個格對應一個二進制狀態(tài)，或是 1（當狀態(tài)在這個格內）或是 0（狀態(tài)不在這個格內）。 ? 狀態(tài)評價函數 ? 這里 γ 是學習率，一個固定的參數， T是從 s開始的時間段內經過了 T個時間步。規(guī)定，進攻隊員能確切控球的狀態(tài)有最高值 0；所有其他狀態(tài)是負值，立即失球的狀態(tài)值接近 1。 1000( ) | , { , }tTttV s E r s s E s s? ? ? ? ??????? ? ? ? ??????策略學習 ? 強化學習去完善進攻隊員的策略以達到盡可能長的時間控球。 ? 使用 Qlearning，即每個進攻隊員獨立學習。這樣，所有的進攻隊員都能學會相似的策略或不同的策略

點擊復制文檔內容

教學課件相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

球隊決策策略課件-文庫吧

模型決策法課件-資料下載頁

短期決策培訓課件-資料下載頁

短期經營決策課件-資料下載頁

制定決策講義課件-資料下載頁

國際定價決策課件-資料下載頁

決策理論培訓課件-資料下載頁

決策樹課件-資料下載頁

決策分析之短期經營決策課件-資料下載頁

[精選]消費者決策與廣告策略-資料下載頁

[精選]消費者決策和廣告策略-資料下載頁

[精選]消費者決策及廣告策略-資料下載頁

[精選]消費者決策和廣告策略-資料下載頁

[精選]消費者決策和廣告策略-資料下載頁

[精選]市場營銷——價格決策定價策略-資料下載頁

決策與決策方法培訓課件(ppt44頁)-資料下載頁

球隊決策策略課件-wenkub

球隊決策策略課件(已修改)

球隊決策策略課件(編輯修改稿)

球隊決策策略課件-wenkub.com

球隊決策策略課件(已改無錯字)