freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

外文文獻(xiàn)及翻譯--自適應(yīng)動(dòng)態(tài)規(guī)劃綜述-資料下載頁(yè)

2025-01-21 21:39本頁(yè)面
  

【正文】 x(k),u(k),k) 是效用函數(shù), r為折扣因子且滿足0 r =1??刂颇繕?biāo)就是求解容許決策(或控制) 序列u(k), k = i, i+ 1, …… , 使得代價(jià)函數(shù)(2) 最小。根據(jù)貝爾曼最優(yōu)性原理, 始自第k 時(shí)刻任意狀態(tài)的最小代價(jià)包括兩部分, 其中一部分是第k 時(shí)刻內(nèi)所需最小代價(jià), 另一部分是從第k +1 時(shí)刻開(kāi)始到無(wú)窮的最小代價(jià)累加和, 即相應(yīng)的k 時(shí)刻的控制策略u(píng)(k) 也達(dá)到最優(yōu), 表示為接下來(lái), 考慮連續(xù)非線性(時(shí)變) 動(dòng)態(tài)(確定) 系統(tǒng)的最優(yōu)控制問(wèn)題. 考察如下的連續(xù)時(shí)間系統(tǒng):其中, F(x,u,t) 為任意連續(xù)函數(shù)。 求一容許控制策略u(píng)(t) 使得代價(jià)函數(shù)(或性能指標(biāo)函數(shù))最小. 我們可以通過(guò)離散化的方法將連續(xù)問(wèn)題轉(zhuǎn)換為離散問(wèn)題, 然后通過(guò)離散動(dòng)態(tài)規(guī)劃方法求出最優(yōu)控制, 當(dāng)離散化時(shí)間間隔趨于零時(shí), 兩者必趨于一致。 通過(guò)應(yīng)用貝爾曼最優(yōu)性原理, 可以得到DP 的連續(xù)形式為可以看出, 上式是J* (x(t),t) 以x(t)、t 為自變量的一階非線性偏微分方程, 在數(shù)學(xué)上稱其為哈密頓—雅可比—貝爾曼(HamiltonJacobiBellman, HJB)方程。如果系統(tǒng)是線性的且代價(jià)函數(shù)是狀態(tài)和控制輸入的二次型形式, 那么其最優(yōu)控制策略是狀態(tài)反饋的形式, 可以通過(guò)求解標(biāo)準(zhǔn)的黎卡提方程得到. 如果系統(tǒng)是非線性系統(tǒng)或者代價(jià)函數(shù)不是狀態(tài)和控制輸入的二次型形式, 那么就需要通過(guò)求解HJB 方程進(jìn)而獲得最優(yōu)控制策略. 然而, HJB 方程這種偏微分方程的求解是一件非常困難的事情. 此外, DP方法還有一個(gè)明顯的弱點(diǎn): 隨著x 和u 維數(shù)的增加, 計(jì)算量和存儲(chǔ)量有著驚人的增長(zhǎng), 也就是我們平常所說(shuō)的\維數(shù)災(zāi) 問(wèn)題[12]. 為了克服這些弱點(diǎn), Werbos 首先提出了自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive dynamic programming, ADP) 方法的框架[3], 其主要思想是利用一個(gè)函數(shù)近似結(jié)構(gòu)(例如神經(jīng)網(wǎng)絡(luò)、模糊模型、多項(xiàng)式等) 來(lái)估計(jì)代價(jià)函數(shù), 用于按時(shí)間正向求解DP 問(wèn)題。近些年來(lái), ADP 方法獲得了廣泛的關(guān)注, 也產(chǎn)生了一系列的同義詞, 例如: 自適應(yīng)評(píng)價(jià)設(shè)計(jì)[47]、啟發(fā)式動(dòng)態(tài)規(guī)劃[89]、神經(jīng)元?jiǎng)討B(tài)規(guī)劃[1011]、自適應(yīng)動(dòng)態(tài)規(guī)劃[12] 和增強(qiáng)學(xué)習(xí)[13] 等. 2006 年美國(guó)科學(xué)基金會(huì)組織的\2006 NSF Workshop and Outreach Tutorials on Approximate Dynamic Programming 研討會(huì)上, 建議將該方法統(tǒng)稱為\Adaptive/Approximate dynamic programming. Bertsekas 等在文獻(xiàn)[10161。11] 中對(duì)神經(jīng)元?jiǎng)討B(tài)規(guī)劃進(jìn)行了總結(jié), 詳細(xì)地介紹了動(dòng)態(tài)規(guī)劃、神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和訓(xùn)練算法, 提出了許多應(yīng)用神經(jīng)元?jiǎng)討B(tài)規(guī)劃的有效方法. Si 等總結(jié)了ADP 方法在交叉學(xué)科的發(fā)展,討論了DP 和ADP 方法與人工智能、近似理論、控制理論、運(yùn)籌學(xué)和統(tǒng)計(jì)學(xué)的聯(lián)系[14]. 在文獻(xiàn)[15]中, Powell 展示了如何利用ADP 方法求解確定或者隨機(jī)最優(yōu)化問(wèn)題, 并指出了ADP 方法的發(fā)展方向. Balakrishnan 等在文獻(xiàn)[16] 中從有模型和無(wú)模型兩種情況出發(fā), 對(duì)之前利用ADP 方法設(shè)計(jì)動(dòng)態(tài)系統(tǒng)反饋控制器的方法進(jìn)行了總結(jié). 文獻(xiàn)[17] 從要求初始穩(wěn)定和不要求初始穩(wěn)定的角度對(duì)ADP 方法做了介紹. 本文將基于我們的研究成果, 在之前研究的基礎(chǔ)上, 概述ADP 方法的最新進(jìn)展。ADP 的結(jié)構(gòu)發(fā)展為了執(zhí)行ADP 方法, Werbos 提出了兩種基本結(jié)構(gòu): 啟發(fā)式動(dòng)態(tài)規(guī)劃(Heuristic dynamic programming, HDP) 和二次啟發(fā)式規(guī)劃(Dual heuristic programming, DHP), 其結(jié)構(gòu)如圖1 和圖2 所示[4].HDP 是ADP 方法最基礎(chǔ)并且應(yīng)用最廣泛的結(jié)構(gòu), 其目的是估計(jì)系統(tǒng)的代價(jià)函數(shù), 一般采用三個(gè)網(wǎng)絡(luò): 評(píng)價(jià)網(wǎng)、控制網(wǎng)和模型網(wǎng). 評(píng)價(jià)網(wǎng)的輸出用來(lái)估計(jì)代價(jià)函數(shù)J(x(k))。 控制網(wǎng)用來(lái)映射狀態(tài)變量和控制輸入之間的關(guān)系。 模型網(wǎng)用來(lái)估計(jì)下一時(shí)刻的系統(tǒng)狀態(tài). 而DHP 方法則是估計(jì)系統(tǒng)代價(jià)函數(shù)的梯度. DHP 的控制網(wǎng)和模型網(wǎng)的定義與HDP 相同,而其評(píng)價(jià)網(wǎng)的輸出是代價(jià)函數(shù)的梯度。HDP是ADP最基本和廣泛應(yīng)用結(jié)構(gòu)[13],[38],[72],[79],[90],[93],[104],[106]。HDP的結(jié)構(gòu)被顯示在圖2。HDP是一個(gè)成本函數(shù)估算方法。估算成本函數(shù)為一個(gè)給定的政策只需要樣品從瞬時(shí)效用函數(shù)U,而模型的環(huán)境和瞬時(shí)獎(jiǎng)勵(lì)是需要找到相應(yīng)的成本函數(shù)的最優(yōu)策略。在HDP中,評(píng)估網(wǎng)絡(luò)的輸出是J,即方程(2)的估計(jì)值J,這是通過(guò)最小化跟蹤時(shí)間誤差而得出的。和Wc代表的是評(píng)價(jià)網(wǎng)的參數(shù),當(dāng)Eh=0是,對(duì)于所有的k,有和雙啟發(fā)式規(guī)劃是一個(gè)估算方法梯度的成本函數(shù),而不是J本身。要做到這一點(diǎn),需要一個(gè)函數(shù)來(lái)描述梯度的瞬時(shí)成本函數(shù)對(duì)系統(tǒng)的狀態(tài)。在設(shè)計(jì)DHP結(jié)構(gòu)、行動(dòng)網(wǎng)絡(luò)仍是一樣的,但是對(duì)HDP第二網(wǎng)絡(luò),稱為評(píng)論家網(wǎng)絡(luò),與主脈的作為其輸出和狀態(tài)變量作為它的輸入。HDP中的評(píng)價(jià)網(wǎng)絡(luò)的訓(xùn)練是比這更復(fù)雜的,因?yàn)槲覀冃枰紤]所有相關(guān)的通路反向傳播的。這是通過(guò)最小化跟蹤時(shí)間誤差而得出的。和Wc代表的是評(píng)價(jià)網(wǎng)的參數(shù),當(dāng)Eh=0是,對(duì)于所有的k,有2. 理論發(fā)展在[82],Si et al總結(jié)了跨學(xué)科的理論發(fā)展,并概述DP和ADP ADP。并討論了  他們的關(guān)系對(duì)人工智能,近似理論、控制理論、運(yùn)籌學(xué)、和統(tǒng)計(jì)。在[69],鮑威爾顯示加上ADP數(shù)學(xué)規(guī)劃,可以解決(大約)確定性或隨機(jī)優(yōu)化問(wèn)題,遠(yuǎn)比任何東西可以解決用現(xiàn)有技術(shù)和顯示改進(jìn)方向的ADP。在[95],Werbos進(jìn)一步給另外兩個(gè)版本稱為“actiondependent 批評(píng)家”,即ADHDP(也稱為q學(xué)習(xí)[89])和ADDHP。在這兩個(gè)ADP結(jié)構(gòu),控制同時(shí)輸入的評(píng)論家網(wǎng)絡(luò)。1997年,普羅霍羅夫和溫斯遲[70]提出更多的算法根據(jù)。他們討論了設(shè)計(jì)家庭的HDP,DHP和全球化雙啟發(fā)式編程(GDHP)。他們建議  一些新的改進(jìn)原來(lái)的GDHP設(shè)計(jì)。他們承諾是有用的對(duì)于許多工程應(yīng)用領(lǐng)域的優(yōu)化和最優(yōu)控制?;谌说倪@些修改,他們提出一個(gè)統(tǒng)一的方法。這導(dǎo)致一個(gè)廣義培訓(xùn)過(guò)程。在[26],提出實(shí)現(xiàn)ADHDP:最小二乘法支持向量機(jī)(SVM)回歸量已經(jīng)被用于生成控制行為,而一個(gè)基于svm樹(shù)類型神經(jīng)網(wǎng)絡(luò)(NN),是用來(lái)作為評(píng)論家。這個(gè)GDHP或ADGDHP結(jié)構(gòu)最小化誤差與兩方面成本及其衍生品。雖然它是更復(fù)雜的這樣做同時(shí),生成的行為將是優(yōu)越的。所以在[102],GDHP作為可重構(gòu)。一個(gè)新穎的容錯(cuò)控制(FTC)主管GDHP結(jié)合為目的的性能的提高GDHP為容錯(cuò)控制。當(dāng)植物受到一個(gè)已知的突變故障,新初始條件的GDHP加載從動(dòng)態(tài)模型  銀行(DMB)。另一方面,如果故障初期, 可重構(gòu)控制器保持性能通過(guò)不斷修改本身沒(méi)有主管的干預(yù)。這指出,該培訓(xùn)的三個(gè)網(wǎng)絡(luò)用來(lái)實(shí)現(xiàn)是一個(gè)在線的GDHP時(shí)尚利用兩個(gè)不同的網(wǎng)絡(luò)實(shí)現(xiàn)了評(píng)價(jià)。第一個(gè)評(píng)論家網(wǎng)絡(luò)在每一個(gè)迭代訓(xùn)練而第二個(gè)是更新一份第一次在一個(gè)給定的時(shí)期的迭代。所有的ADP結(jié)構(gòu)可以實(shí)現(xiàn)相同的功能獲得最優(yōu)控制政策而計(jì)算精度和運(yùn)行時(shí)間也各不相同。一般來(lái)說(shuō),計(jì)算負(fù)擔(dān)低但HDP計(jì)算精度也低。GDHP具有更好的精度,但計(jì)算過(guò)程將需要一定的時(shí)間,詳細(xì)地比較中可以看[70]。在[30]、[33]和[83],圖示的直接啟發(fā)式動(dòng)態(tài)規(guī)劃是發(fā)達(dá)。使用的方法[83],模型網(wǎng)絡(luò)在圖1是不需要了。參考[101]做了重大的貢獻(xiàn)對(duì)自適應(yīng)補(bǔ)償自適應(yīng)評(píng)價(jià)網(wǎng)絡(luò)設(shè)計(jì)。幾個(gè)實(shí)際的例子是包括在[101]用于演示其中包括單倒立擺和三重倒立擺。一個(gè)鋼筋創(chuàng)建控制器非線性離散時(shí)間系統(tǒng)的設(shè)計(jì)提出了具有輸入約束[36],   在非線性跟蹤控制是實(shí)現(xiàn)過(guò)濾的跟蹤誤差使用直接DHP的設(shè)計(jì)。類似的作品  也看[37]。參考[54]也對(duì)自適應(yīng)補(bǔ)償自適應(yīng)評(píng)價(jià)網(wǎng)絡(luò)的設(shè)計(jì)。兩個(gè)方法訓(xùn)練的評(píng)價(jià)網(wǎng)絡(luò)提供在[54]。一個(gè)前鋒的時(shí)間的方法和一個(gè)后退的時(shí)間的方法。圖4顯示了forwardintimeapproach圖。在這種方法中,我們認(rèn)為J ^(k)(8)作為輸出的評(píng)論家網(wǎng)絡(luò)訓(xùn)練有素,選擇U(k)1 gj ^(k11)作為訓(xùn)練目標(biāo)。注意,J ^(k)和J(k11)是獲得使用狀態(tài)變量在不同時(shí)間的實(shí)例。圖5顯示了圖的后退的時(shí)間的方法。在這種方法中,我們認(rèn)為J ^(k11)在(8)作為輸出的評(píng)論家網(wǎng)絡(luò)訓(xùn)練有素,選擇(J ^(k)2 u(k))/ g作為訓(xùn)練目標(biāo)。[101]可以看作一種落后——及時(shí)。在圖4和圖5,x(k11)的輸出模型的網(wǎng)絡(luò)。一個(gè)改進(jìn)和修改兩個(gè)網(wǎng)絡(luò)架構(gòu), 這就是所謂的(SNAC)在[65],[66]中提出的“單一網(wǎng)絡(luò)自適應(yīng)的批評(píng)”。這種方法消除了這個(gè)行動(dòng)網(wǎng)絡(luò)。因此,SNAC架構(gòu)  提供了三個(gè)潛在的優(yōu)勢(shì):一個(gè)簡(jiǎn)單的架構(gòu),小雅計(jì)算負(fù)載(大約一半的雙網(wǎng)絡(luò)算法),   和沒(méi)有近似誤差原因,行動(dòng)網(wǎng)絡(luò)被消除。這個(gè)方法是適用于SNAC寬范的非線性系統(tǒng),此時(shí)的最優(yōu)控制(固定式)方程可以用狀態(tài)和主方程的變量來(lái)明確表達(dá)。大多數(shù)在航空航天、汽車、機(jī)器人和其他工程學(xué)科的問(wèn)題由非線性控制仿射方程產(chǎn)生這些關(guān)系。基于snac很好的跟蹤控制器產(chǎn)生表演在應(yīng)用微電子機(jī)械系統(tǒng), 化學(xué)反應(yīng)器,高速再入問(wèn)題。Padhi et al。[65]證明線性系統(tǒng)(映射在階段之間的主脈的k11和國(guó)家在舞臺(tái)k是線性的),解決方案獲得的算法基于SNAC結(jié)構(gòu)的解收斂于離散黎卡提微分方程。
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1