【正文】
nal model of classical conditioning. Psychobiology,1988,16(2):85125【14】Singh S P, Jaakola T , Jordan M I . Reinforcement Learning with Soft State Aggregation . Neural Information Processing System 7 ,Cambridge , Massachusetts: MIT Press, 1995:361368 【15】Moriarty D , Schultz A , Grefenstette J. Evolutionary Algotithms for Reinforment Learning. Journal of Artificial Intelligence Research, 1999,11(1):241276【16】Bertsekas D P, Tsitsiklis J N . Neurodynamic Programming Belmont: Athena Scientific, 1996本課題要研究或解決的問題和擬采用的研究手段(途徑):本課題主要有三大任務:一是學習強化學習的各種經典算法,比較各個算法的特征和使用場合。二是學習POMDP、PSR、HRL幾個新的數(shù)學模型。三是提出創(chuàng)新,對于PSR模型提出算法創(chuàng)新。對于第一個任務,主要是查閱文獻,學習幾種經典算法,并編程對算法進行比較。進行算法比較時,主要考慮以下幾方面:1. 算法的收斂速度2. 算法收斂后的穩(wěn)定性3. 算法在規(guī)模擴大后的泛化能力4. 算法在不同環(huán)境下的適應能力5. 改變算法的參數(shù),考察參數(shù)對算法性能的影響。采用的研究手段主要是進行橫向比較和縱向比較:對于同一個問題,使用不同的算法,比較各算法的性能 :對于同一個問題同一個算法,改變算法的參數(shù)或問題規(guī)?;颦h(huán)境特征,比較參數(shù)對算法的影響。第二個任務,對于POMDP、PSR、HRL的模型學習,主要以閱讀文獻為主,通過查閱各種資料總結幾種模型的定義、基本框架。最后在論文中加以歸納。第三個任務著重于創(chuàng)新性要求,本課題主要是針對PSR模型下算法的創(chuàng)新。通過學習PSR下的各種算法,對算法提出改進點,并能驗證改進的算法性能。