【文章內(nèi)容簡(jiǎn)介】
。每個(gè)進(jìn)攻隊(duì)員有三個(gè)動(dòng)作選擇,對(duì)應(yīng)于控球時(shí)的每個(gè)可能動(dòng)作( GetOpen( ), GotoBall( ), {HoldBall(),PassBall(f)})這是我們的策略評(píng)價(jià)試驗(yàn)中最有效的情況。 策略學(xué)習(xí) ? 給出一個(gè)被用于每個(gè)進(jìn)攻隊(duì)員的學(xué)習(xí)算法。函數(shù)UpdateRL(r)在后面定義。 ? counter=1。 ? If (球出界或防守方得到球 ) ? If (counter 0) UpdateRL(1) ? else if (球不可踢 ) ? { ? If (counter ≥ 0) counter++。 ? If (可以跑向球達(dá)到控球 ) GoToBall()。 ? else GetOpen()。 ? else if (球可控 ) ? { ? If (counter 0),UpdateRL(0) { LastAction=Max(ActionValue(a,current state variables))。 Execute LastAction 。 counter=0。 } } ? Else (這時(shí)球被另外一個(gè)前鋒控制 ) { If (counter 0) UpdateRL(0)。 counter=1。 ? } 函數(shù) UpdateRL(r) ? UpdateRL(r): 用 TDError來(lái)更新?tīng)顟B(tài)評(píng)價(jià)函數(shù) 。 11= + Ma x ( Ac ti o nVa lu e( ) ) Ac ti o nVa lu e ( )c ount e r c ount e rT dErr or ra, c urr e nt , st at e , v ari abl e s L ast Ac ti on, L ast Vari abl e s?? ???注意事項(xiàng): ? 為了鼓勵(lì)策略空間的擴(kuò)展,可以使用簡(jiǎn)單的初始條件:未經(jīng)過(guò)訓(xùn)練的逼近函數(shù)開(kāi)始輸出為 0,這在所有真實(shí)值為負(fù)的情況下是可行的。由于任何沒(méi)有試過(guò)的動(dòng)作往往看上去比已經(jīng)試過(guò)多次并被確切賦值的動(dòng)作更好,這就使所有動(dòng)作都有機(jī)會(huì)被嘗試。 小結(jié): ? 使用強(qiáng)化學(xué)習(xí)進(jìn)行局部 能力強(qiáng),也就是對(duì)球的截球能力強(qiáng),這方面存在兩個(gè)困難:( 1)跟自己比賽,提高有限,( 2)和強(qiáng)隊(duì)比賽,高層策略無(wú)法控制。另外, 的策略,理論上是可以擴(kuò)充到全局 (),這時(shí)一個(gè)實(shí)際需要解決的問(wèn)題是就是怎么解決龐大的狀態(tài)空間。這也是我們以后的研究方向。 ? 進(jìn)攻是從本方隊(duì)員控球開(kāi)始 , 直到本方失去控球權(quán)為止 。 ? 進(jìn)攻體系考慮的問(wèn)題持球隊(duì)員進(jìn)行備選動(dòng)作的選擇 , 其他隊(duì)員或進(jìn)行策應(yīng) , 或進(jìn)行合理的跑位 。 ? 可以分為戰(zhàn)術(shù)配合 ( 局部的幾個(gè)球員 ) 和戰(zhàn)略配合 。 ? 戰(zhàn)術(shù)觸發(fā)條件 ? 戰(zhàn)術(shù)的實(shí)施過(guò)程 ? 戰(zhàn)術(shù)的終止條件 ? ………… 戰(zhàn)術(shù)的設(shè)計(jì)主要涉及到 2個(gè)方面: ? 戰(zhàn)術(shù)本身的設(shè)計(jì) ? 通訊協(xié)議 ? 持球隊(duì)員(進(jìn)攻的核心球員)的動(dòng)作選擇設(shè)計(jì)。 ? 接球隊(duì)員的響應(yīng)設(shè)計(jì) ? 一般隊(duì)員的跑位設(shè)計(jì) ? 決策樹(shù)( if else規(guī)則):這實(shí)際上是 MAS中的策略學(xué)選取中的 比較匹配函數(shù)、興趣或愛(ài)好函數(shù)的方法。 ? 基于效用對(duì)策論進(jìn)行動(dòng)作選擇。 基于效用對(duì)策論 ? 前面介紹了 HfutAgent的個(gè)體技術(shù),一個(gè)球員在控球以后,它可以選擇帶球、開(kāi)球、傳球(包括選擇哪個(gè)隊(duì)友進(jìn)行傳球)等動(dòng)作。如何恰當(dāng)?shù)剡x擇合適的動(dòng)作是比較重要的問(wèn)題。歸根結(jié)底,在選擇這些動(dòng)作的時(shí)候必須考慮其他球員的利益,這就是多 Agent的協(xié)作問(wèn)題了。上節(jié)介紹了使用強(qiáng)化學(xué)習(xí)的方法來(lái)進(jìn)行動(dòng)作的選擇。本節(jié)討論一下使用對(duì)策論的方法來(lái)進(jìn)行動(dòng)作的選擇。 ? 基于效用的對(duì)策論是 MAS協(xié)作是的一種常用的方法 。 對(duì)策論 ? 對(duì)策論,又稱(chēng)博弈論,是使用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)模型研究沖突對(duì)抗條件下最優(yōu)決策問(wèn)題的理論。它的研究方法和其他很多利用數(shù)學(xué)工具研究社會(huì)經(jīng)濟(jì)現(xiàn)象的學(xué)科一樣,是從復(fù)雜的現(xiàn)象中抽象出基本的元素,對(duì)這些基本元素構(gòu)成的數(shù)學(xué)模型進(jìn)行詳盡分析,而后逐步引入對(duì)其形勢(shì)產(chǎn)生影響的其他因素,從而分析其結(jié)果。為建立沖突對(duì)抗條件下決策的數(shù)學(xué)模型,必須數(shù)學(xué)化地描述沖突的參與者所有可能的行為方式及其行為