freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

球隊(duì)決策策略(專(zhuān)業(yè)版)

  

【正文】 所以,在守門(mén)員得到球后,應(yīng)該用大約20個(gè)左右的周期對(duì)場(chǎng)上情況進(jìn)行收集。 如果是爭(zhēng)球情況 , 根據(jù)各種信息判斷最有可能控球的人 。目標(biāo)點(diǎn)離本位點(diǎn)遠(yuǎn),說(shuō)明隊(duì)員要離開(kāi)自己的防守的區(qū)域去防守,這對(duì)整體的防守利益帶來(lái)不好的影響。 用 attackness、 leftness和aggressiveness三個(gè)取值在 0和 1之間的量來(lái)表示一個(gè)隊(duì)員的類(lèi)型屬性 。上節(jié)介紹了使用強(qiáng)化學(xué)習(xí)的方法來(lái)進(jìn)行動(dòng)作的選擇。 counter=1。 1000( ) | , { , }tTttV s E r s s E s s? ? ? ? ??????? ? ? ? ??????策略學(xué)習(xí) ? 強(qiáng)化學(xué)習(xí)去完善進(jìn)攻隊(duì)員的策略以達(dá)到盡可能長(zhǎng)的時(shí)間控球 。 ? 環(huán)境具有強(qiáng)實(shí)時(shí)性和動(dòng)態(tài)性; ? 環(huán)境通訊帶寬很窄; ? 環(huán)境有噪聲; ? 環(huán)境具有部分可觀(guān)性; ? 環(huán)境不具有馬爾可夫性; ? 實(shí)際上,機(jī)器人足球比賽中的動(dòng)作選擇可以看成是在一定的環(huán)境下Agent在自己獲取的世界狀態(tài) (s)情況下的選擇什么樣的 a,由于系統(tǒng)實(shí)現(xiàn)的時(shí)候引入了噪音,因此環(huán)境不具有 Markov性,也就是不可再現(xiàn)性,原則上說(shuō)他就不具有使用強(qiáng)化學(xué)習(xí)的可能。 ? (3).比賽的場(chǎng)上情況。 RoboCup球隊(duì)策略綜述 ? (1).整體策略指定了隊(duì)伍的陣型以及其中隊(duì)員的位置。更進(jìn)一步,它可以決定什么情況下應(yīng)該采用什么樣的陣型。 比如說(shuō)場(chǎng)上的比分,是落后還是領(lǐng)先。當(dāng)如果簡(jiǎn)化這些影響,也可以把這個(gè)過(guò)程看成馬爾可夫過(guò)程,進(jìn)而采用強(qiáng)化學(xué)習(xí)的方法。 ? 使用 Qlearning,即每個(gè)進(jìn)攻隊(duì)員獨(dú)立學(xué)習(xí)。 ? } 函數(shù) UpdateRL(r) ? UpdateRL(r): 用 TDError來(lái)更新?tīng)顟B(tài)評(píng)價(jià)函數(shù) 。本節(jié)討論一下使用對(duì)策論的方法來(lái)進(jìn)行動(dòng)作的選擇。 前兩個(gè)量標(biāo)明球員所打的位置 。目標(biāo)點(diǎn)離當(dāng)前位置遠(yuǎn),說(shuō)明該防守動(dòng)作短期內(nèi)不容易收到效果,因?yàn)榭赡茉谕朗啬繕?biāo)點(diǎn)移動(dòng)的過(guò)程中,原來(lái)的決策已經(jīng)失去意義了;如果目標(biāo)點(diǎn)離當(dāng)前位置近,說(shuō)明該防守動(dòng)作可以很快見(jiàn)效,比如已經(jīng)貼著對(duì)手,這時(shí)如果能堅(jiān)持對(duì)目標(biāo)的防守可能收到很好的防守效果。 ? (3)判斷防守任務(wù)和可用人手 。然后,根據(jù)場(chǎng)上的信息,對(duì)本方后場(chǎng)內(nèi)的所有的對(duì)方球員之間的空當(dāng)進(jìn)行記錄和統(tǒng)計(jì),找到一個(gè)最大的空當(dāng),如果該空當(dāng)?shù)拇笮M(mǎn)足一給定的閾值,并且對(duì)手接到球的可能比我方低,則將球沿著這個(gè)空當(dāng)?shù)慕瞧椒志€(xiàn)開(kāi)出,這時(shí)球往往會(huì)傳到中場(chǎng)的本方球員腳下。當(dāng)守門(mén)員剛得到球時(shí),場(chǎng)上的情況必然是對(duì)方的球員都?jí)涸诮麉^(qū)附近,同時(shí)由于前幾個(gè)周期,守門(mén)員剛作過(guò)撲球動(dòng)作,對(duì)場(chǎng)上的信息的可信度不高。 ? (2)判斷對(duì)方控球球員 。 ? 該體系用防守動(dòng)作的目標(biāo)點(diǎn)(對(duì)于 Mark來(lái)說(shuō),防守動(dòng)作的目標(biāo)點(diǎn)在被盯隊(duì)員附近;對(duì)于 Intercept來(lái)說(shuō),防守動(dòng)作的目標(biāo)點(diǎn)在阻截點(diǎn)上)離本位點(diǎn)的遠(yuǎn)近、目標(biāo)點(diǎn)離球員當(dāng)前位置的遠(yuǎn)近和防守目標(biāo)的對(duì)防守的威脅程度來(lái)作為一個(gè)防守動(dòng)作的特征。 同人類(lèi)的足球比賽一樣 , 我們給 每個(gè)仿真隊(duì)員 定義了 一個(gè)類(lèi)型 。歸根結(jié)底,在選擇這些動(dòng)作的時(shí)候必須考慮其他球員的利益,這就是多 Agent的協(xié)作問(wèn)題了。 } } ? Else (這時(shí)球被另外一個(gè)前鋒控制 ) { If (counter 0) UpdateRL(0)。規(guī)定,進(jìn)攻隊(duì)員能確切控球的狀態(tài)有最高值 0;所有其他狀態(tài)是負(fù)值,立即失球的狀態(tài)值接近 1。 SBSP的一般算法 ? IF 場(chǎng)上是戰(zhàn)略狀態(tài) ? IF 本方進(jìn)攻 ? 進(jìn)攻球員進(jìn)行動(dòng)作選擇、其他隊(duì)員按 SBSP跑位 ? ELSE ? 防守隊(duì)員截球、盯人、按 SBSP跑位 ? ELSE ? 采用積極狀態(tài)下的即時(shí)動(dòng)作 設(shè)計(jì) RoboCup仿真比賽程序的主要難點(diǎn): ? 在連續(xù)空間作連續(xù)的決策; ? 多個(gè) Agent的存在給狀態(tài)空間帶來(lái)維數(shù)災(zāi)難; ? 環(huán)境的反饋延遲太長(zhǎng) 。 如對(duì)手是傾向于進(jìn)攻還是傾向于防守。 Remco在他的論文中對(duì)球隊(duì)的整體策略進(jìn)行了一下歸納 。 ? (2).整體策略定義了陣型中不同的角色,并把角色分配給不同位置的球員,同時(shí)確定哪種異構(gòu)球員適合哪種角色。 Robocup球隊(duì)策略綜述 ? (4).場(chǎng)上是否處于關(guān)鍵狀態(tài)。 ? 強(qiáng)化學(xué)習(xí)的關(guān)鍵是
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1