freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

球隊(duì)決策策略課件-文庫(kù)吧

2025-02-01 17:56 本頁(yè)面


【正文】 位 。 這時(shí)使用的也是 SBSP。 SBSP的一般算法 ? IF 場(chǎng)上是戰(zhàn)略狀態(tài) ? IF 本方進(jìn)攻 ? 進(jìn)攻球員進(jìn)行動(dòng)作選擇、其他隊(duì)員按 SBSP跑位 ? ELSE ? 防守隊(duì)員截球、盯人、按 SBSP跑位 ? ELSE ? 采用積極狀態(tài)下的即時(shí)動(dòng)作 設(shè)計(jì) RoboCup仿真比賽程序的主要難點(diǎn): ? 在連續(xù)空間作連續(xù)的決策; ? 多個(gè) Agent的存在給狀態(tài)空間帶來維數(shù)災(zāi)難; ? 環(huán)境的反饋延遲太長(zhǎng) 。 ? 環(huán)境具有強(qiáng)實(shí)時(shí)性和動(dòng)態(tài)性; ? 環(huán)境通訊帶寬很窄; ? 環(huán)境有噪聲; ? 環(huán)境具有部分可觀性; ? 環(huán)境不具有馬爾可夫性; ? 實(shí)際上,機(jī)器人足球比賽中的動(dòng)作選擇可以看成是在一定的環(huán)境下Agent在自己獲取的世界狀態(tài) (s)情況下的選擇什么樣的 a,由于系統(tǒng)實(shí)現(xiàn)的時(shí)候引入了噪音,因此環(huán)境不具有 Markov性,也就是不可再現(xiàn)性,原則上說他就不具有使用強(qiáng)化學(xué)習(xí)的可能。當(dāng)如果簡(jiǎn)化這些影響,也可以把這個(gè)過程看成馬爾可夫過程,進(jìn)而采用強(qiáng)化學(xué)習(xí)的方法。 ? 強(qiáng)化學(xué)習(xí)的關(guān)鍵是 Agent與環(huán)境的交互可以看成是一個(gè)馬爾可夫模型 ,也就是說 , 環(huán)境應(yīng)該具有再現(xiàn)性 。 ? 在 Robocup中 , 我們考慮 “ 戰(zhàn)術(shù) ” 任務(wù)是這樣一種情況:進(jìn)攻一方在一活動(dòng)范圍內(nèi)試圖保持控球權(quán) , 同時(shí)另一方試圖奪回控球權(quán) 。 無論何時(shí)防守方獲得控球權(quán)或球離開此區(qū)域 , 這個(gè)時(shí)間段就結(jié)束 , 球員便放置到另一個(gè)時(shí)間段( 進(jìn)攻方再次被給予控球權(quán) ) 。 ? 區(qū)域設(shè)定為 20M*20M的正方形 , 并總有 3個(gè)進(jìn)攻隊(duì)員和 2個(gè)防守隊(duì)員 。 球員涉及的動(dòng)作主要有: ? HoldBall( ):持球 , 持球保持靜止并盡可能遠(yuǎn)離對(duì)手 。 ? PassBall(f):傳球 , 將球直接踢給 f。 ? GotoBall( ):跑向球 。 ? GetOpen( ):跑位 , 跑到一個(gè)空曠的位置 , 在這個(gè)位置能得到傳出的球 。 ? 所有防守方都采用固定的策略 GOTOBALL( ), 也就是說他們?cè)噲D阻截球 , 拿到球后用HOLDBALL( )保持控球權(quán) 。 ? 在學(xué)習(xí)的時(shí)候 , 使用一個(gè)全能的教練 Trainer(也是 agent)在控制比賽 , 當(dāng)防守隊(duì)員在設(shè)定時(shí)間里獲得控球權(quán)或球離開區(qū)域時(shí) Trainer就結(jié)束此時(shí)間段 , 就完成了一次對(duì)抗 。 在每個(gè) 時(shí)間段開始 , 他在區(qū)域內(nèi)隨機(jī)的置球和球員的位置 , 兩個(gè)防守方隊(duì)員從區(qū)域的一個(gè)角落開始 , 而每個(gè)進(jìn)攻球員隨機(jī)放在其他三個(gè)角落 , 每個(gè)角落一個(gè)球員 。 學(xué)習(xí)過程 學(xué)習(xí)過程(續(xù)) 學(xué)習(xí)過程(續(xù)) 13個(gè)函數(shù)表示狀態(tài)( WS) ? dist(F1,C) ? dist(F1,F2) ? dist(F1,F3) ? dist(F1,D1) ? dist(F1,D2) ? dist(F2,C) ? dist(F3,C) ? dist(D1,C) ? dist(D2,C) ? Minimum(dist(F2,D1),dist(F2,D2)) ? Minimum(dist(F3,D1),dist(F3,D2)) ? Minimum(ang(F2,F1,D1),ang(F2,F1,D2)) ? Minimum(ang(F3,F1,D1),ang(F3,F1,D2)) Tile Coding ? 采用 Tile coding方法來進(jìn)行,狀態(tài)用一個(gè) 13維的空間來表示,用網(wǎng)格表示每個(gè)具體狀態(tài), 在分析的時(shí)候,每個(gè)格對(duì)應(yīng)一個(gè)二進(jìn)制狀態(tài),或是 1(當(dāng)狀態(tài)在這個(gè)格內(nèi))或是 0(狀態(tài)不在這個(gè)格內(nèi))。 ? 狀態(tài)評(píng)價(jià)函數(shù) ? 這里 γ 是學(xué)習(xí)率,一個(gè)固定的參數(shù), T是從 s開始的時(shí)間段內(nèi)經(jīng)過了 T個(gè)時(shí)間步。規(guī)定,進(jìn)攻隊(duì)員能確切控球的狀態(tài)有最高值 0;所有其他狀態(tài)是負(fù)值,立即失球的狀態(tài)值接近 1。 1000( ) | , { , }tTttV s E r s s E s s? ? ? ? ??????? ? ? ? ??????策略學(xué)習(xí) ? 強(qiáng)化學(xué)習(xí)去完善進(jìn)攻隊(duì)員的策略以達(dá)到盡可能長(zhǎng)的時(shí)間控球 。 ? 使用 Qlearning,即每個(gè)進(jìn)攻隊(duì)員獨(dú)立學(xué)習(xí)。這樣,所有的進(jìn)攻隊(duì)員都能學(xué)會(huì)相似的策略或不同的策略
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1