【文章內(nèi)容簡介】
(4)Q學(xué)習(xí)是一種模型無關(guān)的強化學(xué)習(xí)算法。Q學(xué)習(xí)不估計環(huán)境模型,直接優(yōu)化一個可迭代計算的Q函數(shù)。Q值的修正公式如下式: (5)哪些量是黑斜體?都不是黑斜體,Q(s,a)是后面公式(12)矩陣的一個元素,一般斜體表示式中為當前狀態(tài),為狀態(tài)下可執(zhí)行的動作,為后續(xù)狀態(tài),為狀態(tài)下可執(zhí)行的動作,為獎賞,為學(xué)習(xí)率,為折扣率。在已知有限離散狀態(tài)和行為空間Markov決策過程的狀態(tài)集S、行為集A和目標函數(shù)的情況下,可以以表格形式存儲行為值函數(shù)估計值Q(s, a)及行為選擇策略。2 進港航班排序強化學(xué)習(xí)模型進港航班排序強化學(xué)習(xí)模型由狀態(tài)、動作、Agent、環(huán)境、獎賞函數(shù)和Q學(xué)習(xí)組成。進港航班排序強化模型中的狀態(tài)是各進港航班的到達時刻,航班的預(yù)計到達時刻為初始狀態(tài)。航班所有可分配的到達時刻構(gòu)成狀態(tài)集。動作是對航班到達時間的調(diào)整。在滿足機場到達容量和進港航班不能提前降落的限制下,動作對狀態(tài)進行調(diào)整。在航班當前狀態(tài)所有可行的調(diào)整構(gòu)成了動作集。 Agent和環(huán)境進港航班排序的主體是Agent,Agent之外,與之交互的是環(huán)境。Agent與環(huán)境之間的交互是持續(xù)不斷的,Agent對航班的到達時刻進行調(diào)整,環(huán)境對動作做出反應(yīng),一個新的到達時間和獎賞值傳給Agent。 獎賞函數(shù)進港航班排序的目標是使進港航班總延誤時間最少、延誤成本最小、對后續(xù)航班影響最小,基于這3個目標建立進港航班排序強化學(xué)習(xí)模型的獎賞函數(shù)。延誤時間最少 (6)式中,為航班集合,為航班分配的到達時間,為航班預(yù)計到達時間,航班延誤為1,否則為0。延誤成本最小 (7)式中,為航班集合,為航班分配的到達時間,為航班預(yù)計到達時間,航班延誤為1,否則為0,為航班延誤單位成本。后續(xù)航班影響最小 (8)式中,為航班集合,航班有后續(xù)航班時為1,否則為0;為航班延誤單位成本;航班延誤為1,否則為0;為航班分配的到達時間,為航班預(yù)計到達時間。約束條件: (9)航班不能提前降落,分配的到達時間不早于計劃的到達時間。 (10)進港航班流量不能超過機場的到達容量值。根據(jù)目標函數(shù)和約束約束條件確定的獎賞函數(shù)為: (11)式中,是獎賞函數(shù),是延誤總時間,是延誤總成本,是后續(xù)航班延誤成本,和為權(quán)重,和為1。 Q學(xué)習(xí)進港航班排序強化學(xué)習(xí)模型的狀態(tài)集S、動作集A和目標函數(shù)均已知,以矩陣表示智能體所學(xué)到的知識,當矩陣達到收斂狀態(tài),滿足整個學(xué)習(xí)條件,終止學(xué)習(xí)。表示狀態(tài),表示動作,是狀態(tài)為動作為根據(jù)Q值修正公式得到的最大Q值。 (12)3 模型驗證與分析選用成都雙流機場19:00至20:00之間的20架進港航班進行模型驗證,如表1所示。表1中列出了進港航班的航班號、機型、尾流類型、是否有后續(xù)航班,1表示有后續(xù)航班,0表示沒有;ETA表示航班的預(yù)計到達時間。表1 進港航班數(shù)據(jù) The data of arrival flights編號航班號機型尾流后續(xù)航班ETA13U8886A321M119:002CA1407789H119:003EU2710A320M019:054CA4506A321M119:055EU2720A320M119:1063U8964A320M019:157FM9549A330M119:158JD5136A320M119:209MF8447B737M119:2510CA408A319M019:2511MU5864B737M019:25129C8664A320M119:25133U8668A320M119:3014CA4404A319M119:3015NS3209B737M119:35163U8704A321M119:35173U8734A320M119:40183U8858A320M119:40198L9606B737M019:4520EY818A330M119:45不同尾流類型的飛機的延誤成本不同,重型機延誤成本設(shè)置為4000元/h,中型機延誤成本3000元/h,輕型機延誤成本200元/h。機場的到達容量為20架/h。先到先服務(wù)算法和強化學(xué)習(xí)方法的進港航班順序如表2所示,ETA表示航班預(yù)計到達時間,CTA表示分配的到達時間。先到先服務(wù)算法和強化學(xué)習(xí)方法的進港航班的延誤時間、延誤成本、后續(xù)航班延誤成本,總的延誤時間、總的延誤成本、總的后續(xù)航班延誤成本如表3所示。進港航班排序強化學(xué)習(xí)模型的權(quán)重設(shè)為1/3,先到先服務(wù)算法的獎賞函數(shù)值為3164,強化學(xué)習(xí)算法的獎賞函數(shù)為2880。進港航班排序強化算法的總延誤成本、后續(xù)總延誤成本更低,獎賞函數(shù)值更小,實際運行效率更高。表2 進港航班排序結(jié)果 The result of arrival flights Scheduling編號航班號ETAFCFS強化學(xué)習(xí)CTA排序CTA排序13U888619:0019:00119:0322CA140719:0019:03219:0013EU271019:0519:06319:0944CA450619:0519:09419:06