freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

球隊決策策略課件(專業(yè)版)

2025-03-11 17:56上一頁面

下一頁面
  

【正文】 所以,在守門員得到球后,應(yīng)該用大約20個左右的周期對場上情況進(jìn)行收集。 如果是爭球情況 , 根據(jù)各種信息判斷最有可能控球的人 。目標(biāo)點離本位點遠(yuǎn),說明隊員要離開自己的防守的區(qū)域去防守,這對整體的防守利益帶來不好的影響。 用 attackness、 leftness和aggressiveness三個取值在 0和 1之間的量來表示一個隊員的類型屬性 。上節(jié)介紹了使用強(qiáng)化學(xué)習(xí)的方法來進(jìn)行動作的選擇。 counter=1。 1000( ) | , { , }tTttV s E r s s E s s? ? ? ? ??????? ? ? ? ??????策略學(xué)習(xí) ? 強(qiáng)化學(xué)習(xí)去完善進(jìn)攻隊員的策略以達(dá)到盡可能長的時間控球 。 ? 環(huán)境具有強(qiáng)實時性和動態(tài)性; ? 環(huán)境通訊帶寬很窄; ? 環(huán)境有噪聲; ? 環(huán)境具有部分可觀性; ? 環(huán)境不具有馬爾可夫性; ? 實際上,機(jī)器人足球比賽中的動作選擇可以看成是在一定的環(huán)境下Agent在自己獲取的世界狀態(tài) (s)情況下的選擇什么樣的 a,由于系統(tǒng)實現(xiàn)的時候引入了噪音,因此環(huán)境不具有 Markov性,也就是不可再現(xiàn)性,原則上說他就不具有使用強(qiáng)化學(xué)習(xí)的可能。 ? (3).比賽的場上情況。 RoboCup球隊策略綜述 ? (1).整體策略指定了隊伍的陣型以及其中隊員的位置。更進(jìn)一步,它可以決定什么情況下應(yīng)該采用什么樣的陣型。 比如說場上的比分,是落后還是領(lǐng)先。當(dāng)如果簡化這些影響,也可以把這個過程看成馬爾可夫過程,進(jìn)而采用強(qiáng)化學(xué)習(xí)的方法。 ? 使用 Qlearning,即每個進(jìn)攻隊員獨立學(xué)習(xí)。 ? } 函數(shù) UpdateRL(r) ? UpdateRL(r): 用 TDError來更新狀態(tài)評價函數(shù) 。本節(jié)討論一下使用對策論的方法來進(jìn)行動作的選擇。 前兩個量標(biāo)明球員所打的位置 。目標(biāo)點離當(dāng)前位置遠(yuǎn),說明該防守動作短期內(nèi)不容易收到效果,因為可能在往防守目標(biāo)點移動的過程中,原來的決策已經(jīng)失去意義了;如果目標(biāo)點離當(dāng)前位置近,說明該防守動作可以很快見效,比如已經(jīng)貼著對手,這時如果能堅持對目標(biāo)的防守可能收到很好的防守效果。 ? (3)判斷防守任務(wù)和可用人手 。然后,根據(jù)場上的信息,對本方后場內(nèi)的所有的對方球員之間的空當(dāng)進(jìn)行記錄和統(tǒng)計,找到一個最大的空當(dāng),如果該空當(dāng)?shù)拇笮M足一給定的閾值,并且對手接到球的可能比我方低,則將球沿著這個空當(dāng)?shù)慕瞧椒志€開出,這時球往往會傳到中場的本方球員腳下。當(dāng)守門員剛得到球時,場上的情況必然是對方的球員都壓在禁區(qū)附近,同時由于前幾個周期,守門員剛作過撲球動作,對場上的信息的可信度不高。 ? (2)判斷對方控球球員 。 ? 該體系用防守動作的目標(biāo)點(對于 Mark來說,防守動作的目標(biāo)點在被盯隊員附近;對于 Intercept來說,防守動作的目標(biāo)點在阻截點上)離本位點的遠(yuǎn)近、目標(biāo)點離球員當(dāng)前位置的遠(yuǎn)近和防守目標(biāo)的對防守的威脅程度來作為一個防守動作的特征。 同人類的足球比賽一樣 , 我們給 每個仿真隊員 定義了 一個類型 。歸根結(jié)底,在選擇這些動作的時候必須考慮其他球員的利益,這就是多 Agent的協(xié)作問題了。 } } ? Else (這時球被另外一個前鋒控制 ) { If (counter 0) UpdateRL(0)。規(guī)定,進(jìn)攻隊員能確切控球的狀態(tài)有最高值 0;所有其他狀態(tài)是負(fù)值,立即失球的狀態(tài)值接近 1。 SBSP的一般算法 ? IF 場上是戰(zhàn)略狀態(tài) ? IF 本方進(jìn)攻 ? 進(jìn)攻球員進(jìn)行動作選擇、其他隊員按 SBSP跑位 ? ELSE ? 防守隊員截球、盯人、按 SBSP跑位 ? ELSE ? 采用積極狀態(tài)下的即時動作 設(shè)計 RoboCup仿真比賽程序的主要難點: ? 在連續(xù)空間作連續(xù)的決策; ? 多個 Agent的存在給狀態(tài)空間帶來維數(shù)災(zāi)難; ? 環(huán)境的反饋延遲太長 。 如對手是傾向于進(jìn)攻還是傾向于防守。 Remco在他的論文中對球隊的整體策略進(jìn)行了一下歸納 。 ? (2).整體策略定義了陣型中不同的角色,并把角色分配給不同位置的球員,同時確定哪種異構(gòu)球員適合哪種角色。 Robocup球隊策略綜述 ? (4).場上是否處于關(guān)鍵狀態(tài)。 ? 強(qiáng)化學(xué)習(xí)的關(guān)鍵是
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1