freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

球隊決策策略課件-在線瀏覽

2025-03-15 17:56本頁面
  

【正文】 Robocup球隊策略綜述 ? (4).場上是否處于關鍵狀態(tài)。 ? (5).其他一些因素。 ? 在設計的時候應盡量考慮到上面的情況。 SBSP的一些定義 SBSP的一些定義(續(xù)) SBSP的一些定義(續(xù)) SBSP的一些定義(續(xù)) SBSP的使用 SBSP的使用(續(xù)) SBSP的使用(續(xù)) ? 最后得出了球員 (Agent)在場上的戰(zhàn)略跑位 : SBSP小結 ? SBSP是一個比較成功的球隊整體策略的應用 。 球員的策略也分積極的和戰(zhàn)略的 。當場上狀態(tài)進入戰(zhàn)略狀態(tài)的時候 , 如進攻時 , 控球隊員是處于積極狀態(tài) , 它進行動作的選擇 , 其他隊員都進入戰(zhàn)略狀態(tài) , 這時它們的選擇就是跑位 , 這就是使用 SBSP, 跑到一個戰(zhàn)略位置 。 這時使用的也是 SBSP。 ? 環(huán)境具有強實時性和動態(tài)性; ? 環(huán)境通訊帶寬很窄; ? 環(huán)境有噪聲; ? 環(huán)境具有部分可觀性; ? 環(huán)境不具有馬爾可夫性; ? 實際上,機器人足球比賽中的動作選擇可以看成是在一定的環(huán)境下Agent在自己獲取的世界狀態(tài) (s)情況下的選擇什么樣的 a,由于系統(tǒng)實現(xiàn)的時候引入了噪音,因此環(huán)境不具有 Markov性,也就是不可再現(xiàn)性,原則上說他就不具有使用強化學習的可能。 ? 強化學習的關鍵是 Agent與環(huán)境的交互可以看成是一個馬爾可夫模型 ,也就是說 , 環(huán)境應該具有再現(xiàn)性 。 無論何時防守方獲得控球權或球離開此區(qū)域 , 這個時間段就結束 , 球員便放置到另一個時間段( 進攻方再次被給予控球權 ) 。 球員涉及的動作主要有: ? HoldBall( ):持球 , 持球保持靜止并盡可能遠離對手 。 ? GotoBall( ):跑向球 。 ? 所有防守方都采用固定的策略 GOTOBALL( ), 也就是說他們試圖阻截球 , 拿到球后用HOLDBALL( )保持控球權 。 在每個 時間段開始 , 他在區(qū)域內(nèi)隨機的置球和球員的位置 , 兩個防守方隊員從區(qū)域的一個角落開始 , 而每個進攻球員隨機放在其他三個角落 , 每個角落一個球員 。 ? 狀態(tài)評價函數(shù) ? 這里 γ 是學習率,一個固定的參數(shù), T是從 s開始的時間段內(nèi)經(jīng)過了 T個時間步。 1000( ) | , { , }tTttV s E r s s E s s? ? ? ? ??????? ? ? ? ??????策略學習 ? 強化學習去完善進攻隊員的策略以達到盡可能長的時間控球 。這樣,所有的進攻隊員都能學會相似的策略或不同的策略。 策略學習 ? 給出一個被用于每個進攻隊員的學習算法。 ? counter=1。 If (counter 0) UpdateRL(1) ? else if (球不可踢 ) ? ? If (可以跑向球達到控球 ) GoToBall()。 ? else if (球可控 ) ? { ? If (counter 0),UpdateRL(0) { LastAction=Max(ActionValue(a,current state variables))。 counter=0。 counter=1。 11= + Ma x ( Ac ti o nVa lu e( ) ) Ac ti o nVa lu e ( )c ount e r c ount e rT dErr or ra, c urr e nt , st at e , v ari abl e s L ast Ac ti on, L ast Vari abl e s?? ???注意事項: ? 為了鼓勵策略空間的擴展,可以使用簡單的初始條件:未經(jīng)過訓練的逼近函數(shù)開始輸出為 0,這在所有真實值為負的情況下是可行的。 小結: ? 使用強化學習進行局部 能力強,也就是對球的截球能力強,這方面存在兩個困難:( 1)跟自己比賽,提高有限,( 2)和強隊比賽,高層策略無法控制。這也是我們以后的研究方向。 ? 進攻體系考慮的問題持球隊員進行備選動作的選擇 , 其他隊員或進行策應 , 或進行合理的跑位 。 ? 戰(zhàn)術觸發(fā)條件 ? 戰(zhàn)術的實施過程 ? 戰(zhàn)術的終止條件 ? ………… 戰(zhàn)術的設
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1