freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

2d仿真機器人足球整體性能的優(yōu)化與實現_畢業(yè)論文(編輯修改稿)

2024-08-26 04:15 本頁面
 

【文章內容簡介】 志線等。其中球和球員都具有大小、位置、速度、加速度等屬性,球員則還有方向、耐力等屬 性。球員與球的屬性每個周期末更新一次,計算的依據是動力學定律。如果球教練 球員 球員 Socket Socket Socket 消息板 裁判 球場仿真 顯示 滁州學院本科畢業(yè)設計 5 員與球員或球之間發(fā)生重疊,則作碰撞處理。 裁判模塊依據比賽規(guī)則控制比賽的進程。由于仿真比賽環(huán)境具有動態(tài)、實時、不確定、多主體對抗等特點,比賽不可能按照事先的設計按部就班的進行,還需要在比賽中有一個 “ 智能 ” 裁判。目前這個內嵌的人工裁判只是部分實現,可以檢測一些簡單的形式,如進球、界外球、越位等。然而,還 是有一些很難檢測的狀態(tài),如雙方對峙、誰都不踢球,這就需要一個 人為 裁判。所有的參賽球隊都必須遵守一個 “ 紳士協(xié)定 ” ,包括不能利用比賽漏洞等有礙比賽 公平的做法。 消息板模塊負責客戶端之間的通訊。每個客戶端程序通過 UDP 的 socket 來連接 server。同樣,通過 socket,客戶端程序可以發(fā)送命令來控制球員,也可以接受球員的感知信息。 rcssserver 采用離散化模式運行,即所有程序運行都是以仿真周期為單位。在每個仿真周( simulatorstep,缺省為 100毫秒)結束前, server 收集所有球員程序的行為請求,直到每個周期末才統(tǒng)一執(zhí)行并更新場上信息。在每個周期的開始, server 根據各個球員的狀態(tài)(包括可視范圍、獲得時間等)發(fā)送相應的已更新的場上信 息,體現了球員感知信息和行動的異步性。如果一個球員在一個周期內發(fā)送了多于一條的獨立行為請求, server 將只執(zhí)行第一個。因此,球為了保證執(zhí)行自己的真實意圖,每周期就只能發(fā)送一條獨立行為請求;另一方面,如果球員在一個周期內沒有發(fā)送行為請求,他將失去該周期的行動機會,對于這樣一個實時對抗的環(huán)境無疑是很不利的。 在 rcssserver 平臺上比賽時,所有仿真比賽場景都可以通過一個可視化程序 rcssmonitor 顯示在電腦屏幕上。它通過一個特殊的端口(缺省為 6000)直接和服務器端連接,獲得比一般球員程序更全面、更準 確的信息,使得用戶可以生動地看到比賽的整個過程,并且可以控制比賽的進程。另外,球場和球場上的對象都是二維的,任何對象都沒有高度的概念。球用一個實心原點表示。場上每個隊員用一個圓圈表示,從圓心處引出兩條線段,紅色線段代表球員脖子的朝向,黑色線段代表球員身體的朝向。當球員體力低于 2400 時圓圈一周會變成紅色代表此球員體力不支。如圖 22 所示。 圖 22 球場界面 滁州學院本科畢業(yè)設計 6 球員客戶端 一個球員客戶端程序通過 UDP 接口連接到服務器端。通過這個接口,客戶端程序可以發(fā)送命令來控制場上的一個球員行動以及接收到這名球員 的感知信息。換句話說,一個球員客戶端就是球員的大腦:從服務器端接收到感知信息,并且發(fā)送命令到服務器端 [5]。 如果球員程序都是獨立的進程,通過一個特定的端口和服務器端連接。當一個球員程序和服務器端建立好連接以后,所有通訊信息都通過這個端口傳輸。一個球隊最多可以連接 12 名隊員,其中包括 11 名隊員(其中一個是守門員)和 1 名場上教練。這些球員程序向服務器端發(fā)送請求執(zhí)行相應行為(如踢球、轉身、跑步等),服務器端分析處理這些請求,相應的更新場上比賽狀態(tài)。另一方面,服務器端給所有隊員提供他們可以感知到的信息,如球員可以 看到的視覺信息、球員自身的狀態(tài)信息等。由于服務器端實際上是一種以離散時間片(或稱為周期)為時間單位工作的實時系統(tǒng),球員程序必須在每個指定仿真周期內及時做出決策并及時將請求發(fā)送給服務器端,否則將錯過執(zhí)行動作的機會。這就要求球員決策要有比較高的實時性。 正式比賽中每個客戶端程序只能控制一個場上隊員。因此,要組成一支球隊就需要同樣數量的程序分別控制每個隊員。球員之間的通訊必須經過比賽平臺按照 say 和 hear 命令協(xié)議執(zhí)行,而且通訊環(huán)境具有單信道、窄帶寬等特點。仿真比賽平臺的一個目的就是要評估多智能體系統(tǒng),智能體之間 的高效通訊也是其中的一個判別標準。 為了盡可能模擬現實環(huán)境,比賽平臺還加了很多限制。比如,每個隊員都有一定的視野范圍,每次只能獲得局部信息,即包括可視范圍內的對象信息,而且是有隨機噪音的;每個球員都有自己的體力值,隨跑動衰減,每周期可以自動恢復一些,這樣就限制球員要注意調整跑動速度,合理分配體力,也更符合現實。另外,為了反映出實際比賽中球以及球員運動的不確定性, server 還引入了風及噪聲的干擾及對行為參數的干擾,使比賽更趨于真實,正如現實比賽很難無風和噪聲的干擾,快速跑動中的隊員不太可能急轉彎等等,但這也 增大了準確建模的難度 [6]。 仿真平臺主要特點 通過上面的介紹可以看到, RoboCup 仿真平臺提供了一個很好的、全分布的、包括合作與對抗的多智能體實時環(huán)境,非常有挑戰(zhàn)性。其具體特點總結如下: ( 1)狀態(tài)空間極大:僅僅考慮 22 個球員的位置和速度情況:每個隊員的位置范圍處于 68105的賽場上,最大速度為 ,保留到小數點后一位,再加上速度方向的考慮,共有 680105010360=109種可能,這樣就存在( 109) 22=10198個狀態(tài),如果再增加足球狀態(tài)等信息,則狀態(tài)空間將更為巨大。 ( 2)動 態(tài)、實時、不確定的環(huán)境:在服務器端,整個系統(tǒng)按照 100 毫秒的周期運轉,所有的球員都必須按照則個周期運行,意味著球員的所有決策必須實時完成,由于多智能體的存在,環(huán)境在動態(tài)的變化,無法預知。 ( 3)感知和行為異步:由于比賽時間以周期為單位離散,感知和行為就無法同步,所以光靠傳統(tǒng)人工智能方法使用感知來激發(fā)行動是遠遠不夠的。 ( 4)球員能力受限:場上所有球員的能力都是參照真實球員有所限制的,如體力、加速度、最滁州學院本科畢業(yè)設計 7 大速度、慣性等。 ( 5)視覺受限:每個球員的視覺都是局部的,受到球員視角和視距的限制,也就是說球員在任何時刻 都只能獲得一部分球場上的信息,這就給球員正確分析場上形勢,進而產生決策帶來了困難。 ( 6)通訊受限:球員之間的通訊環(huán)境具有單信道、窄帶寬等特點,即每隊球員公用一條信道,每個球員一個周期內只能 “聽 ”到隊友一條消息,而且信道容量很有限(缺省為 10 字節(jié))。 ( 7)多智能體的對抗與合作:本方智能體是合作關系,要協(xié)調個體目標與全局目標的沖突;而對抗智能體的競爭關系則意味著執(zhí)行任務時要遇到更多的障礙。 RoboCup 仿真比賽充分體現了人類足球的特點,也集中了許多人工智能領域關注的重點問題。用戶可以運用包括數學建模、搜索 推理、數據挖掘、機器學習、動態(tài)規(guī)劃等各種知識、技術來開發(fā)球隊,并通過該平臺進行實踐、檢驗,很好的推動了相關學科理論的研究。 3 多智能體系統(tǒng)架構 多智能體系統(tǒng)是多個自主智能體的集合,當這些智能體為了一個共同的目標協(xié)調合作時,稱之為形成了一個團隊。一個有共同目標的多智能體系統(tǒng)需要在設計之初就從整體上考慮其協(xié)作方法 [7]。本章首先 站在團隊整體的高度,結合具體的領域知識,探討基于站位和通訊的 協(xié)作 策略;然后介紹了智能體所采用的混合型體系結構;最后從程序設計的角度說明系統(tǒng)架構的具體實現。 團隊整體策略 足球比 賽 是 個集體的項目,由 11 個場上隊員共同完成多進球贏得比賽的任務。但是,每個智能體只擁有局部的視覺,而且其執(zhí)行的動作也只能直接影響到局部的環(huán)境。如何進行全局決策,達到多智能體間的配合,必須是基于領域知識的合作,可以通過預定義模式或實時通訊完成。在仿真比賽中,預定義模式一般由陣型體現,通過陣型的概念對智能體進行角色分配,使其在全場比賽中保持協(xié)調。陣型通過提供一個事先制定的準則從宏觀上對智能體行為進行控制,讓所有的智能體都按照該準則行動,從而整個球隊體現出一定的協(xié)調性。另一方面,由 RoboCup 中通訊帶寬受到極大 限制,仿真比賽的實時動態(tài)特性讓通訊只能是作為配合的輔助作用。 角色和陣型 角色的概念和真實人類足球比賽中的概念相仿,代表一個球員在比賽中承擔的責任,如前鋒、中場、后衛(wèi)、守門員等。每種角色都包括了這個角色的一些性質,如活動區(qū)域、初始位置等,當然不同角色的活動區(qū)域可以相互重疊。每個角色都有不同的行為模式,每個智能體的行為決策會受到它當前扮演角色的影響。 陣型是一組特定角色的集合,如果把參加足球比賽的球員進行角色細分,可以分為諸如左前鋒、右后衛(wèi)等 11 個不同的角色。陣型 最主要的任務是定義各個角色的場上位 置,使智能體的分布能對賽場有盡可能大的 覆蓋,同時維護在比賽過程中陣型的銜接。我們基于 FCP 的 SBSP 策略進行站位的訓練, SBSP 要求陣型在定義角色的同時,定義每個角色的基本位置 Home( x,y),對足球的吸引權重 Weight( x,y),還有對雙方越位線的考慮等。如果足球的位置為 Ball( x,y),簡化的說,角色的場上位置應該是: 滁州學院本科畢業(yè)設計 8 Positioning( x,y) =Home( x,y) +Weight( x,y) *Ball( x,y) 這種方法保證了比賽過程中隊形的協(xié)調,不會出現很多智能體集中于某一處(比如圍著足球)導致其他的空當,基本可以覆蓋場上大概空間。但是,這種加權和的方法缺少靈活性,如果需要對某些敏感區(qū)域進行細節(jié)調整,比如重新考慮雙方禁區(qū)范圍內的站位,就需要增加(條件,規(guī)則)進行補充。 基于 SBSP 的站位系統(tǒng)是預定義的,而比賽情況總是千變萬化的,智能體扮演的角色和對應的站位還可以根據實際情況變換。比賽時,由于控球、盯人等原因,使智能體偏離原扮演角色所處的區(qū)域,導致場上出現空當無人防守,此時就需要其他智能體能夠彌補這個角色缺失引起的危險。偏離原角色的智能體因位置的改變選擇了其他角色的行為,比如中場球員在帶球長驅直 入后,考慮到實際情況(比如單刀等)選擇前鋒行為,此時,一方面前鋒的角色會出現重疊,另一方面中場線也會因為該球員的缺失減弱了中場能力,應該讓被重疊的前鋒或者其他的不重要角色去扮演缺失的中場角色,以免被對方乘虛反擊。除了基本確定位置的方法,球員站位時還應該考慮一些場上的基本情況,如是否越位,實際站位的時候就應該把上述情況綜合起來考慮,如圖 31 所示為完整的站位策略。同時為了應對場上千變萬化的情況,還應該制定多種站位策略,在不同的情況下采用不同的站位策略,增強球隊的實戰(zhàn)能力。 智能體除了因為角色變化產生站位調整外 ,智能體的異構類型也可作調整。陣型規(guī)定了角色的任務,也間接的提出了對角色的素質要求,選擇更符合角色能力要求的異構智能體可以在比賽開始時確定,更佳方法則應該根據比賽情況進行微調。比賽過程中可以進行最多三次換人,將更符合要求的異構智能體換上場,充當對應角色,這一點可以通過在線教練來完成。 局部通訊模型 RoboCup 仿真平臺模擬了低帶寬不可靠的通訊能力,每條消息最多包括 10 個字節(jié)的可見字符(共 1074種可能),而且在 50 米之內只能聽到分別來自每一個隊伍的最多一條消息。因此,隊員間的合作無法主要依靠通 訊完成,通訊只能作為配合的輔助作用。由于智能體對環(huán)境的感知是局部的,不同的智能體可能擁有對環(huán)境的不同認識,因此通訊的主要作用是保證每個智能體所獨立維護的世界模型的一致性。另外,在某些時候,通訊還被用于傳遞輔助決策信息。 解決以局部視覺來維護全局世界模型是一個非常迫切的問題,因為,當所有智能體都按照相同的整體策略框架來進行決策時,如果基于相同的世界模型作為決策依據,對其他智能體的預測就比較準確,那么就會使整個球隊體現出一定的協(xié)調性。通過視覺參數的設置和視覺動作的調整來維護世界模型是智能體的底層工作。根據智能體 的決策結果,即他要做的基本動作(奔跑、轉身、踢球等)以及他所希望觀察到的多個目標,每個目標賦予一定的收益,在不和基本動作沖突前提下的綜合收益最大的視線即為目標方向 [8],這使得智能體能夠維護場上的大部分信息。我們借用圖 52 的分區(qū)方式,以圖中的 10 個邊界點和其他 22 個運動對象的實時位置作為期望目標,根據目標的重要程度和目標在世界模型中的更新程度綜合給出其收益,選擇能獲取最大收益的視覺動作,以轉頭指令( turn_neck)實現這個動作。但是,先驗知識相對動態(tài)比賽存在的缺陷,最大收益視覺動作必定會滁州學院本科畢業(yè)設計 9 放棄某些目標位 置,為了彌補可能缺失的信息,以通訊的方式進行有益補充。 通 過 球 的 位 置 及 吸引 力 得 到 站 位 位 置Y 位 置 是 否 超 出邊 場是 否 需 要 在 球后 面是 否 在 球 的 后面是 否 超 出 X 最 大值 是 否 小 于 X 最 小值是 否 越 位得 到 最 終 站 位 位 置把 邊 場 設 置 為 Y 位置把 球 的 X 位 置 設 置為 自 身 的 X把 X 最 大 值 設 置 為自 身 的 X把 X 最 小 值 設 置 為自 身 的 X把 越 位 線 設 置 為 自身 的 X 圖 31 陣型決定站位流程圖 由于每條通訊消息長度的限制,不可能交流全部的世界模型;另一方面,智能體的全局協(xié)調由陣型指導,而智能體的動作只能影響局部環(huán)境。因此,我們將通訊作為對小范圍局部配合的補充,由于消息內容是局部區(qū)域的世界模型,運動對象(足球和球員)的位置比較接近,因此,采用類似于差分的近距離編碼方式,可以傳遞更多的信息量,比如每次可以傳送四個球員的位置信息。為了進一步的
點擊復制文檔內容
研究報告相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1