【正文】
防守體系的設(shè)計(jì)思路: ? 引入防守時(shí)的核心球員(如中衛(wèi)) ? 考慮守門員的防守體系 ? 如何考慮防守動(dòng)作的合理分配。否則,將球直接開到中場(chǎng)位置的邊線附近??梢猿浞值睦眠@ 25個(gè)周期進(jìn)行開球的判斷。 守門員的一般決策過程: ? (1)判斷比賽是否開始;如果沒有則調(diào)整站位 , 否則轉(zhuǎn) (2) ? (2)判斷球的位置是否不可信 , 如果不可信則搜索球的位置 , 否則轉(zhuǎn) (3) ? (3)判斷是不是我方開球 , 是則尋找好的開球點(diǎn) , 然后開球 。守門員的防守在 Robocup中的影響也很大。 根據(jù)世界模型和內(nèi)部狀態(tài) , 判斷有進(jìn)攻威脅的對(duì)方球員并確定防守任務(wù)和確定可用來防守的我方球員 。 如果是對(duì)方控球或者無人控球但對(duì)方會(huì)先得球 , 我方隊(duì)員就采取防守策略 , 并預(yù)測(cè)球下一次被控制的位置 。首先對(duì)所有的進(jìn)攻 防守隊(duì)員配對(duì)以及防守隊(duì)員 本位點(diǎn)配對(duì)生成防守動(dòng)作。 即針對(duì)同一名對(duì)方隊(duì)員防守隊(duì)員的動(dòng)作是互斥的 。威脅程度大致可以用被防守的對(duì)手離球門的遠(yuǎn)近來衡量,離球門越近,威脅程度越大。 ? Intercept(截球 ) ? 其它 ? [注 ]:盯人的目的是防止被盯的對(duì)手接到傳球; Block的目的是阻礙對(duì)方控球隊(duì)員帶球前進(jìn);跑本位點(diǎn)是指球員站在本位點(diǎn)處防守,即進(jìn)行區(qū)域防守。 ? 注:清華采用把隊(duì)員的跑位點(diǎn)通過神經(jīng)網(wǎng)絡(luò)做成關(guān)于球的位置和本身球員號(hào)碼的一個(gè)函數(shù) P(B,i). 體系 ? 防守是從本方失球以后就開始的,一直到本方球員重新獲得控球權(quán)。 (4)對(duì)手模型。 Attackness區(qū)分隊(duì)員的任務(wù)偏重于進(jìn)攻的程度 。 在真實(shí)的足球比賽中 , 隊(duì)員之間的屬性是不同的 。 m a x ( | 1 , 2 , ..., ) ( )a ac t i ons e tP a c ond c ond c ond n U a? ?影響因素: (1)戰(zhàn)術(shù) 。 對(duì)策論 ? Robocup中對(duì)策論的方法實(shí)際上解決的就是在對(duì)抗條件下 (在考慮多方面 影響因素 )怎么使自己 (本方球隊(duì) )的利益最大化。 ? 基于效用的對(duì)策論是 MAS協(xié)作是的一種常用的方法 。如何恰當(dāng)?shù)剡x擇合適的動(dòng)作是比較重要的問題。 ? 戰(zhàn)術(shù)觸發(fā)條件 ? 戰(zhàn)術(shù)的實(shí)施過程 ? 戰(zhàn)術(shù)的終止條件 ? ………… 戰(zhàn)術(shù)的設(shè)計(jì)主要涉及到 2個(gè)方面: ? 戰(zhàn)術(shù)本身的設(shè)計(jì) ? 通訊協(xié)議 ? 持球隊(duì)員(進(jìn)攻的核心球員)的動(dòng)作選擇設(shè)計(jì)。這也是我們以后的研究方向。 11= + Ma x ( Ac ti o nVa lu e( ) ) Ac ti o nVa lu e ( )c ount e r c ount e rT dErr or ra, c urr e nt , st at e , v ari abl e s L ast Ac ti on, L ast Vari abl e s?? ???注意事項(xiàng): ? 為了鼓勵(lì)策略空間的擴(kuò)展,可以使用簡(jiǎn)單的初始條件:未經(jīng)過訓(xùn)練的逼近函數(shù)開始輸出為 0,這在所有真實(shí)值為負(fù)的情況下是可行的。 counter=0。 ? If (可以跑向球達(dá)到控球 ) GoToBall()。 ? counter=1。這樣,所有的進(jìn)攻隊(duì)員都能學(xué)會(huì)相似的策略或不同的策略。 ? 狀態(tài)評(píng)價(jià)函數(shù) ? 這里 γ 是學(xué)習(xí)率,一個(gè)固定的參數(shù), T是從 s開始的時(shí)間段內(nèi)經(jīng)過了 T個(gè)時(shí)間步。 ? 所有防守方都采用固定的策略 GOTOBALL( ), 也就是說他們?cè)噲D阻截球 , 拿到球后用HOLDBALL( )保持控球權(quán) 。 球員涉及的動(dòng)作主要有: ? HoldBall( ):持球 , 持球保持靜止并盡可能遠(yuǎn)離對(duì)手 。 ? 強(qiáng)化學(xué)習(xí)的關(guān)鍵是 Agent與環(huán)境的交互可以看成是一個(gè)馬爾可夫模型 ,也就是說 , 環(huán)境應(yīng)該具有再現(xiàn)性 。 這時(shí)使用的也是 SBSP。 球員的策略也分積極的和戰(zhàn)略的 。 ? 在設(shè)計(jì)的時(shí)候應(yīng)盡量考慮到上面的情況。 Robocup球隊(duì)策略綜述 ? (4).場(chǎng)上是否處于關(guān)鍵狀態(tài)。 ? (2).對(duì)方球隊(duì)的整體傾向。 如球員在比賽中如果自己的體力特別低 , 除非萬不得已一般盡量減少跑動(dòng)以恢復(fù)體力 。 比如在特定 的策略下 , 一個(gè)球員在對(duì)自己的動(dòng)作進(jìn)行選擇的時(shí)候應(yīng)該考慮到位置和位置所在的區(qū)域 , 同時(shí)還要考慮隊(duì)友和對(duì)手的位置