【文章內(nèi)容簡介】
稀疏交互相結合提出基于協(xié)商機制的稀疏交互多智能體強化學習算法;(3)對傳統(tǒng)方法和新方法進行算法實現(xiàn),利用柵格化地圖和智能倉儲仿真平臺對算法進行測試分析。擬采用的研究思 路(方法、技術路線、可行性論證等)多智能體強化學習算法(MARL)主要包括兩類,一種是在整個聯(lián)合狀態(tài)動作空間學習的均衡型MARL算法,一種是基于稀疏交互的非均衡型MARL算法。前者求解多個智能體的均衡策略,減少碰撞次數(shù),往往能得到較優(yōu)策略,但是計算速度慢,內(nèi)存開銷很高;后者只在少數(shù)場合進行智能體的交互,求解速度快,但是所得策略往往不如前者。本設計方案對這兩類方法進行綜合考慮,提出了考慮多智能體協(xié)同工作的新算法,一定程度上緩解了現(xiàn)有倉儲機器人的不足之處。具體思路如下:(1)首先研究智能倉儲的概念、研究發(fā)展及多智能體路徑規(guī)劃研究現(xiàn)狀。(2)研究強化學習和多智能體強化學習的基本知識,包括馬爾科夫決策過程,標準式博弈和馬爾科夫博弈。還包括強化學習領域的其他內(nèi)容,如稀疏交互和知識遷移。(3)基于協(xié)商的均衡動作集合求解,均衡點選取方法和局部信息的知識遷移。(4)對傳統(tǒng)方法和新方法進行比較,實驗平臺包括柵格化地圖基準和智能倉儲仿真平臺兩部分。(5)最終總結并提出展望。研究工作安排及進度2016年11月,接受任務,確定畢業(yè)論文題目;2016年12月,提交開題報告,完成論文提綱;2016年12月至2017年1月,理解算法,編程完成實驗;2017年2月,對比現(xiàn)有倉儲機器人尋跡方法,改進,找尋優(yōu)勢;2017年4月,完成畢業(yè)設計。參考文獻目錄[1] L. Bu?oniu, R. Babu?ka and B. D. Schutter. A Comprehensive Survey of MultiAgent Reinforcement Learning. IEEE Transactions on System, Man, and Cybernetics, Part C: Applications and Reviews, 2008, 38(2): 156172.[2] J. Enright and P. R. Wurman. Optimization and Coordinated Autonomy in Mobile Fulfillment Systems. Automated Action Planning for Autonomous Mobile Robots, 2011, 3338.[3] L. Zhou, Y. Shi, J. Wang and Pei Yang.