freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

球隊決策策略-預覽頁

2025-02-27 18:14 上一頁面

下一頁面
 

【正文】 Agent)在場上的戰(zhàn)略跑位 : SBSP小結 ? SBSP是一個比較成功的球隊整體策略的應用 。當場上狀態(tài)進入戰(zhàn)略狀態(tài)的時候 , 如進攻時 , 控球隊員是處于積極狀態(tài) , 它進行動作的選擇 , 其他隊員都進入戰(zhàn)略狀態(tài) , 這時它們的選擇就是跑位 , 這就是使用 SBSP, 跑到一個戰(zhàn)略位置 。 ? 環(huán)境具有強實時性和動態(tài)性; ? 環(huán)境通訊帶寬很窄; ? 環(huán)境有噪聲; ? 環(huán)境具有部分可觀性; ? 環(huán)境不具有馬爾可夫性; ? 實際上,機器人足球比賽中的動作選擇可以看成是在一定的環(huán)境下Agent在自己獲取的世界狀態(tài) (s)情況下的選擇什么樣的 a,由于系統(tǒng)實現的時候引入了噪音,因此環(huán)境不具有 Markov性,也就是不可再現性,原則上說他就不具有使用強化學習的可能。 無論何時防守方獲得控球權或球離開此區(qū)域 , 這個時間段就結束 , 球員便放置到另一個時間段( 進攻方再次被給予控球權 ) 。 ? GotoBall( ):跑向球 。 在每個 時間段開始 , 他在區(qū)域內隨機的置球和球員的位置 , 兩個防守方隊員從區(qū)域的一個角落開始 , 而每個進攻球員隨機放在其他三個角落 , 每個角落一個球員 。 1000( ) | , { , }tTttV s E r s s E s s? ? ? ? ??????? ? ? ? ??????策略學習 ? 強化學習去完善進攻隊員的策略以達到盡可能長的時間控球 。 策略學習 ? 給出一個被用于每個進攻隊員的學習算法。 If (counter 0) UpdateRL(1) ? else if (球不可踢 ) ? ? else if (球可控 ) ? { ? If (counter 0),UpdateRL(0) { LastAction=Max(ActionValue(a,current state variables))。 counter=1。 小結: ? 使用強化學習進行局部 能力強,也就是對球的截球能力強,這方面存在兩個困難:( 1)跟自己比賽,提高有限,( 2)和強隊比賽,高層策略無法控制。 ? 進攻體系考慮的問題持球隊員進行備選動作的選擇 , 其他隊員或進行策應 , 或進行合理的跑位 。 ? 基于效用對策論進行動作選擇。上節(jié)介紹了使用強化學習的方法來進行動作的選擇。它的研究方法和其他很多利用數學工具研究社會經濟現象的學科一樣,是從復雜的現象中抽象出基本的元素,對這些基本元素構成的數學模型進行詳盡分析,而后逐步引入對其形勢產生影響的其他因素,從而分析其結果。 基于效用的對策論 ? 設影響的因素 cond1, cond2 , ……,cond n, 確定它們對動作的影響 P( act| condi),計算 P( act| cond1, cond2, ……,cond n),求出的 ? 動作。 它主要包含陣型和進攻的傾向性 。 用 attackness、 leftness和aggressiveness三個取值在 0和 1之間的量來表示一個隊員的類型屬性 。 影響因素 (續(xù) ): (3)陣型 。 ? 傳球隊員一旦準備傳球,就向需要響應的接球隊員喊話(say),可以出球的目標狀態(tài)通過一定的通訊協(xié)議傳遞給接球隊員,指導接球隊員的跑位。更進一步就是考慮加入了守門員的防守體系。目標點離本位點遠,說明隊員要離開自己的防守的區(qū)域去防守,這對整體的防守利益帶來不好的影響。顯然防守威脅程度越高的隊員,防守動作的利益越大。 防守規(guī)劃: ? 在體系中還對防守進行了規(guī)劃,使用的方法是基于局部視覺的全局規(guī)劃。 具體算法: ? (1)判斷球被控制的類型 。 如果是爭球情況 , 根據各種信息判斷最有可能控球的人 。 ? (5)從防守任務和可用人手配對生成最優(yōu)的防守方案 ( 最大化防守效益和 ) , 然后提交自己有關的防守請求 。當然,守門員的防單刀球、邊路防守等動作也比較重要。 守門員的站位: ? 1)經驗公式法: [注 ]L1為球的位置到左門柱的距離 , L2為球的位置到右門柱的距離 , sp_goal_width為球門的寬度 。所以,在守門員得到球后,應該用大約20個左右的周期對場上情況進行收集。 但實際上 , 這種方法遠比上面所述的方法
點擊復制文檔內容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1