freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

倒立擺畢業(yè)設(shè)計(jì)外文翻譯---multi-agent旋翼試驗(yàn)臺控制系統(tǒng)設(shè)計(jì)-資料下載頁

2025-08-07 11:27本頁面
  

【正文】 and guidance in developing the Reinforcement Learning control. MultiAgent旋翼試驗(yàn)臺控制系統(tǒng)設(shè)計(jì):積分滑模與強(qiáng)化學(xué)習(xí)Steven L. Waslander,Gabriel M. Hoffmann斯坦福大學(xué)航空航天博士 候選人 {stevenw, gabeh}@榮順長 斯坦福大學(xué)航空航天 副研究員jsjang@Claire J. Tomlin斯坦福大學(xué)航空航天 副教授tomlin@摘要:斯坦福大學(xué)MultiAgent控制自主旋翼試驗(yàn)臺(STARMAC)是一種多飛行器試驗(yàn)臺,目前包括兩個(gè)旋翼,也被稱為4軸飛行器,有8軸能力。本文提出了控制設(shè)計(jì)算法比較,專為戶外高度控制,在地面效應(yīng)及以上,可提供飛機(jī)獨(dú)特的動態(tài)。由于四個(gè)相互作用旋翼引起的復(fù)雜氣流,經(jīng)典的線性算法無法提供足夠的穩(wěn)定性。積分滑模和強(qiáng)化學(xué)習(xí)控制作為適應(yīng)非線性干擾的兩個(gè)設(shè)計(jì)算法。兩種算法相對于經(jīng)典控制算法都大大提高了控制性能。一、引言作為第一作者[1],STARMAC是一臺旨在驗(yàn)證新型的多飛行器控制技術(shù)和目前現(xiàn)實(shí)世界問題作進(jìn)一步搜索的空中平臺。STARMAC的基本運(yùn)載工具是帶固定螺距槳片的四旋翼飛機(jī)。他們有在100米的正方形面積15分鐘的戶外飛行能力[1]。圖1 一個(gè)飛行中的STARMAC旋翼機(jī)迄今為止已經(jīng)有許多項(xiàng)目涉及旋翼,已知的首次懸停發(fā)生在1922年10月[2]。最近旋翼概念是由商業(yè)遠(yuǎn)程控制版本引發(fā)的關(guān)注,例如DraganFlyer IV。許多團(tuán)體已經(jīng)看到自主旋翼飛行器開發(fā)的重大成功。然而,到今天為止,STARMAC是唯一的可操作多旋翼能夠自主室外飛行的平臺,沒有滑軌或系繩。STARMAC第一主要里程碑是自主懸??刂疲瑤ё藨B(tài)閉環(huán)控制 ,高度和位置。 使用慣性檢測,飛行器的高度控制是和簡單的,采用葉片的相對速度的小差異。在事實(shí)上,標(biāo)準(zhǔn)積分型LQR技術(shù)用來提供飛行器可靠的穩(wěn)定姿態(tài)和跟蹤。位置控制也采用一個(gè)積分型LQR實(shí)現(xiàn),為了確保連續(xù)回路的光譜分離而精心設(shè)計(jì)。遺憾的是,高度控制證明是不那么簡單的。有許多因素影響的高度回路,特別是它不修改自己到經(jīng)典控制技術(shù)。最重要的是高度非線性和4個(gè)旋翼氣流相互作用的不穩(wěn)定因素。在我們的實(shí)驗(yàn)中,當(dāng)運(yùn)動在沒有阻尼的滑軌或系繩上時(shí),這種影響變得至關(guān)重要。在手動飛行的實(shí)證觀察發(fā)現(xiàn),當(dāng)下降通過強(qiáng)烈的湍流流場時(shí)會有明顯的推力損失。類似的直升機(jī)空氣動力現(xiàn)象已被廣泛研究[8],由于其相對默默無聞和復(fù)雜性,這些研究不適用于旋翼機(jī)。其他引入高度控制回路干擾的因素,包括葉片彎曲、地面效應(yīng)和電池放電動態(tài)。雖然這些影響產(chǎn)生姿態(tài)控制的瞬間也存在,控制輸入的微分性質(zhì)消除大部分使姿態(tài)控制變復(fù)雜的推力的絕對干擾,其他問題的產(chǎn)生在選擇低成本高分辨率的姿態(tài)傳感器。用到的超聲波測距裝置[9],受到非高斯噪聲—虛假回波和漏失(dropout)的影響。 由由此產(chǎn)生的原始數(shù)據(jù)流包括尖峰和回波難以緩解,最成功的處理是在卡爾曼濾波之前拒絕不可能的測量值。 為了適應(yīng)這種噪音和干擾的組合,采用了兩種截然不同的方法。積分滑??刂?ISM)[10] [12]采用消除干擾的方法,而不是設(shè)計(jì)一個(gè)控制法則,因只要干擾不超過一定幅度,保證對他的魯棒性?;谀P偷膹?qiáng)化學(xué)習(xí)[13]根據(jù)記錄的輸入和響應(yīng)創(chuàng)建了一個(gè)動態(tài)模型,沒有任何底層的動態(tài)知識,學(xué)習(xí)模型基礎(chǔ)上利用優(yōu)化技術(shù)尋求一個(gè)最優(yōu)控制規(guī)律。本文呈現(xiàn)了兩種方法的論述和從設(shè)計(jì)和實(shí)施的角度的對比。二、系統(tǒng)描述 STARMAC由一隊(duì)旋翼和地面站組成。該系統(tǒng)通過藍(lán)牙1代網(wǎng)絡(luò)通信。飛行器的核心是為這個(gè)項(xiàng)目設(shè)計(jì)并在斯坦福大學(xué)組裝的微控制器電路板。微控制器運(yùn)行實(shí)時(shí)控制代碼,使用傳感器接口和地面站及監(jiān)控系統(tǒng)。這架飛行器有感應(yīng)位置、姿態(tài)、接近地面的能力。差分GPS接收機(jī)是Trimble Lassen LP型號,L1波段操作,提供1Hz更新。慣性測量裝置(IMU)是低成本、重量輕的微應(yīng)變?nèi)S陀螺儀,提供76赫茲的姿態(tài)、姿態(tài)率、加速讀數(shù)。利用12Hz范圍超聲波測量到地面的距離。地面站由一臺筆記本電腦,與飛行器、GPS接收機(jī)接口,提供差分校正。它也有一個(gè)電池充電器,當(dāng)需要手動飛行擴(kuò)展控制時(shí)的操縱桿。三、旋翼動力學(xué) 非線性動力學(xué)的推導(dǎo)是在東北下(NED)慣性系和自身固定坐標(biāo)系下進(jìn)行的。{en,ee,ed}表示慣性軸,{Xb,Yb,Zb}表示機(jī)體軸,如圖2中定義。 機(jī)體軸的歐拉角{φ,θ,ψ }分別對應(yīng)于en、ee和ed軸,分別被稱為橫滾、俯仰和偏航。定義R為從慣性原點(diǎn)到飛行器重心(CG)的位置向量,定義ωB為機(jī)身邊框的角速度。當(dāng)前的速度方向?qū)?yīng)慣性坐標(biāo)系中的ev。圖2 旋翼飛機(jī)的自由受力分析圖轉(zhuǎn)子的,編號為1 4,裝上舷外編號為1 4的旋翼,分別安裝在Xb、Yb、Xb和Yb軸的外側(cè),和相對于重心的位置向量ri。每個(gè)轉(zhuǎn)子產(chǎn)生都產(chǎn)生氣動力矩Qi,和推力Ti兩個(gè)力都平行于轉(zhuǎn)子的旋轉(zhuǎn)軸,都用于飛行器控制。其中,其中ui是施加到電機(jī)的電壓,取決于電池負(fù)載測試。在飛行中,從這種近似得到的Ti變化很大。 扭矩Qi,與轉(zhuǎn)子推力成正比,Qi= Kr * Ti。轉(zhuǎn)子1和3向相反的方向旋轉(zhuǎn),轉(zhuǎn)子2和4也是,因此抵消氣動力矩,可以獨(dú)立用于偏航控制。水平速度有時(shí)對轉(zhuǎn)子的Ri產(chǎn)生作用,對于ev和ev。機(jī)體的阻力被定義為DB,飛行器質(zhì)量設(shè)為m,重力加速度為g,慣性矩陣為I∈。圖2描繪了一個(gè)自由受力分析圖??傋饔昧和時(shí)間M可以概括為: (2)完整的非線性動力學(xué)可描述為: (3)轉(zhuǎn)子總的角動量假設(shè)接近零,因?yàn)樗麄兪欠葱D(zhuǎn)。近懸停條件下,滾轉(zhuǎn)力矩和阻力的貢獻(xiàn)可以忽略不計(jì),在方程(1)(2)中。定義總推力為。平移運(yùn)動定義為, (4)其中Rφ、Rθ和Rψ分別是橫滾、俯仰、偏航的旋轉(zhuǎn)矩陣。對旋轉(zhuǎn)矩陣運(yùn)用小角度近似, (5)最后,假設(shè)總推力近似抵消重力,T≈=mg,除了ed軸, (6)對于小的角速度,歐拉角加速度由方程(3)丟棄二次階項(xiàng)ω Iω決定,并推力擴(kuò)展到四階。角度方程成為: (7)此時(shí)臂長由于對稱性對所有轉(zhuǎn)子是相同的。由此產(chǎn)生的線性模型已可以用于控制設(shè)計(jì)。 四、估算和控制設(shè)計(jì) 應(yīng)用光譜分離的概念,內(nèi)環(huán)的態(tài)度和高度的控制靠控制電機(jī)電壓,外環(huán)位置控制靠命令內(nèi)環(huán)的姿態(tài)請求。 機(jī)械的精確姿態(tài)控制在方程(7)中實(shí)現(xiàn),設(shè)計(jì)了一個(gè)積分型LQR控制器考慮到推力偏差。位置估算使用結(jié)合了GPS水平位置和速度信息,垂直位置和的超聲波測距儀估計(jì)的速度信息,從包括偏差估計(jì)的卡爾曼濾波器中的IMU獲得的加速度和角速度值的導(dǎo)航過濾器得出。積分型LQR技術(shù)應(yīng)用于方程(6)中所描述的設(shè)備線性位置的水平分量。由此產(chǎn)生的懸停性能如圖6所示。如上所述,姿態(tài)控制非常受未建模動態(tài)的影響。事實(shí)上,到今天姿態(tài)控制油門手動命令,對作者仍然是一個(gè)挑戰(zhàn)。額外復(fù)雜性由超聲波測距傳感器產(chǎn)生的,其中有頻繁的錯誤讀數(shù),如圖3所示。 從超聲波測距傳感器,其中有頻繁的錯誤讀數(shù),如圖3所示。為了緩解這種噪音的影響,丟棄不可行的測量量用來消除許多非高斯噪聲分量。這些是在高度和高度率的卡爾曼濾波估計(jì)之后,同時(shí)也增加了估計(jì)的滯后。這部分介紹兩個(gè)控制技術(shù)的推導(dǎo),可用于克服未建模動態(tài)和剩余噪聲的 圖3 特征未處理的超聲波測距數(shù)據(jù),顯示尖峰,虛假回波和丟失。動力飛行 185秒后開始。A:積分滑??刂圃谛盹w機(jī)懸停的高度誤差動態(tài)的線性近似如下, (8)其中是高度的錯誤狀態(tài),是控制輸入,ξ()是干擾和不確定動態(tài)的有界模型。假定ξ()滿足||ξ||≤γ,其中γ為范數(shù)ξ()的上限。在早期使這個(gè)系統(tǒng)穩(wěn)定的嘗試中,據(jù)觀察,由于ξ(g, x ),LQR控制不能應(yīng)對不穩(wěn)定和性能退化?;?刂疲⊿MC)被改進(jìn)提供一個(gè)系統(tǒng)化的方法解決保持穩(wěn)定和在建模不精確和干擾面前性能穩(wěn)定的問題。然而,直到系統(tǒng)動力學(xué)達(dá)到滑動流形,這么好性能的SMC才變得不太放心。為了在整個(gè)飛行包線(一系列飛行點(diǎn)的連線。以包絡(luò)線的形式表示允許航空器飛行的速度、高度范圍。)采用了積分滑模(ISM)技術(shù)。ISM控制分兩部分設(shè)計(jì)。首先,一個(gè)標(biāo)準(zhǔn)的連續(xù)循環(huán)閉環(huán)應(yīng)用于線性設(shè)備。其次,應(yīng)用積分滑模技術(shù)以保證抗擾。使: (9)其中Kp和Kd比例和導(dǎo)數(shù)的回路增益使非線性動力系統(tǒng)穩(wěn)定無干擾。為抑制干擾,設(shè)計(jì)了一個(gè)滑動面s (10)這樣的狀態(tài)軌跡被迫走向s= 0的管道(manifold)。其中是一個(gè)傳統(tǒng)的滑模設(shè)計(jì),z是一個(gè)附加的項(xiàng),使積分控制被包含,α,K∈R是正常數(shù)。 基于下列Lyapunov候選函數(shù),控制部分可由V0決定,從而保證收斂到滑動流形。 (11)上述條件成立,如果和ud可以保證滿足, (12)由于干擾ξ(g,x)限定在γ范圍內(nèi),定義,λ∈R。方程(11)成為, (13)可以看出。 因此,如上所述的up和ud,滑模條件當(dāng), (14)時(shí),成立。以上推導(dǎo)得出的輸入,保證動力學(xué)得到發(fā)展,使得S衰變到滑動流形的邊界層內(nèi)。另外,由于在滑動模式下控制規(guī)律不包含開關(guān)函數(shù),系統(tǒng)不會像傳統(tǒng)滑模控制器一樣受到輸入震顫的影響。五、強(qiáng)化學(xué)習(xí)控制 另一種方法是實(shí)施強(qiáng)化學(xué)習(xí)控制器。強(qiáng)化學(xué)習(xí)的連續(xù)狀態(tài)—動作空間的大部分工作已經(jīng)在方法[13][14]中完成。對于這項(xiàng)工作,該系統(tǒng)的非線性、非參數(shù)模型首先使用飛行數(shù)據(jù)構(gòu)建,使系統(tǒng)近似為隨機(jī)馬爾可夫過程[15][16]。然后一個(gè)基于模型的強(qiáng)化學(xué)習(xí)算法在迭代策略下使用這個(gè)模型搜索可以在嵌入式微處理器下實(shí)施的最優(yōu)控制策略。為了模擬飛機(jī)的隨機(jī)馬爾可夫過程動態(tài),局部加權(quán)線性回歸(LWLR)方法用于映射當(dāng)前狀態(tài),和輸入到隨后的狀態(tài)估計(jì)S(t +1)。在此應(yīng)用中其中V是電池電量。 在高度閉環(huán),輸入,u∈R,是電機(jī)總功率。隨后的狀態(tài)映射是傳統(tǒng)LWLR估算的總和,使用目前的狀態(tài)和輸入,和隨機(jī)向量,一起代表未建模噪聲。V的值是取自輸出誤差的分布,取決于高斯噪聲在LWLR估算所使用的最大似然估計(jì)[16]。盡管真正的分布是不完全高斯,但這個(gè)模型已經(jīng)足夠了。LWLR[17]方法非常適合于這個(gè)問題,因?yàn)樗m合非參數(shù)曲線的局部數(shù)據(jù)結(jié)構(gòu)。該方案擴(kuò)展了最小二乘法,根據(jù)輸入值的接近性分配權(quán)重到每個(gè)訓(xùn)練數(shù)據(jù)點(diǎn),這樣計(jì)算出輸出值。該技術(shù)需要龐大的訓(xùn)練數(shù)據(jù),以反映完整的系統(tǒng)動態(tài),這是從航班飛行捕獲的自動和手動控制下的推力和自動控制下的高度狀態(tài)。對于m的訓(xùn)練數(shù)據(jù)點(diǎn),輸入的訓(xùn)練樣本儲存中,對應(yīng)這些輸入的輸出都存儲在中。這些矩陣被定義為: , (15)X中的單位列,使解決方案中包含恒定偏移量就如在線性回歸應(yīng)用一樣。對角線加權(quán)矩陣,在X上,每個(gè)訓(xùn)練數(shù)據(jù)點(diǎn)有一個(gè)對角線項(xiàng)。該項(xiàng)為訓(xùn)練數(shù)據(jù)點(diǎn)接近的S(t)和u(t)提供了更多的權(quán)重,其中S(t+1)是要計(jì)算的。這項(xiàng)工作中距離測量使用的是: (16)其中是X的第i行,x是向量,擬合參數(shù)τ用來調(diào)整訓(xùn)練點(diǎn)的影響范圍。τ值可以通過交叉驗(yàn)證法調(diào)整,以防止數(shù)據(jù)帶的過擬合或欠擬合。請注意,在取歐幾里德范數(shù)前縮放列是必要的,以防止W矩陣中狀態(tài)的不當(dāng)影響。隨后的狀態(tài)估計(jì)是通過求V的LWLR估值的和計(jì)算的。 (17)因?yàn)閃是x和X一個(gè)連續(xù)函數(shù) ,由于x是變化的,由此產(chǎn)生的估值結(jié)果是一個(gè)捕獲局部結(jié)構(gòu)數(shù)據(jù)的連續(xù)非參數(shù)曲線。在代碼中,矩陣計(jì)算利用矩陣W大對角特點(diǎn),由于每個(gè)都要計(jì)算,他被行相乘,并存儲在W X中。被轉(zhuǎn)置的矩陣是不良條件,因?yàn)槿跸嚓P(guān)的數(shù)據(jù)點(diǎn)影響不大,所以他們的貢獻(xiàn)是不能準(zhǔn)確數(shù)值反演(數(shù)值方法求逆變換)的。為了更精確地計(jì)算數(shù)值反演,可以進(jìn)行奇異值分解。那么,反演過程中利用奇異值n 的數(shù)值誤差可則以避免其值,其中值通過交叉驗(yàn)證選擇。在這項(xiàng)工作中,發(fā)現(xiàn)的≈10數(shù)值誤差最小,通常在n = 1時(shí)滿足。逆運(yùn)算可直接使用對角線矩陣中n的上奇異值和與中相應(yīng)的奇異向量計(jì)算。因此,隨機(jī)馬爾可夫模型變?yōu)椋? (18)下一步,實(shí)施基于模型的強(qiáng)化學(xué)習(xí),結(jié)合隨機(jī)馬爾可夫模型,設(shè)計(jì)出控制器。使用一個(gè)二次獎勵函數(shù): (19)其中R:,和分別是的給予精確跟蹤和良好的阻尼恒定獎勵是系統(tǒng)所需的參考狀態(tài)??刂撇呗杂成渌^察到的狀態(tài)S上到輸入命令u。在這項(xiàng)工作中,狀態(tài)空間約束條件為,輸入命令約束條件為。控制策略選擇為: (20)其中,是策略系數(shù)的向量。線性函數(shù)足以達(dá)到良好的穩(wěn)定性和表現(xiàn)。附加條款,如電池電量和高度誤差的積分,也應(yīng)該考慮進(jìn)來使策略更加適應(yīng)不同的飛行條件。 迭代策略按算法1中解釋那樣執(zhí)行。該算法旨在找到產(chǎn)生最大總獎勵的的w值,通過模擬一個(gè)從一組隨機(jī)的初始條件下開始的有限范圍的系統(tǒng)確定,并對每個(gè)遇到的狀態(tài)求的和。算法1 基于模型的強(qiáng)化學(xué)習(xí)1:生成隨機(jī)初始狀態(tài)集合2:產(chǎn)生隨機(jī)參考軌跡集合T3:初始化W為合理值4:5:repeat6: 7: for do8: 9: for t=0 to do10: 11: 12: 13: end for14: end for15: if then16: 17: end if18: 添加高斯隨機(jī)向量w,存儲為w19:until 收斂 在策略迭代中,每一次迭代一組固定隨機(jī)初始條件和參考軌跡用來模擬飛行,使用一個(gè)由w給定的策略參數(shù)。每次迭代中使用相同的隨機(jī)集合以便達(dá)到收斂可能[15]。每次迭代后,新w值如果優(yōu)于以前的最好策略則作為存儲。通過比較與確定,先前的最好回報(bào)(best reward)則丟棄。然后,一個(gè)高斯隨機(jī)向量添加到。結(jié)果存儲為w,模擬再次執(zhí)行。如是迭代,直到w值經(jīng)歷適當(dāng)?shù)牡螖?shù)后保持穩(wěn)定,由特定的應(yīng)用程序確定。 仿真結(jié)果必須加以檢查,以預(yù)測控制策略所可能產(chǎn)生的性能。 通過為策略的權(quán)重w使用高斯更新規(guī)則,它有可能超過局部最大的。最高概率的步驟是小的,導(dǎo)致解決方案的完善,中局部最大值的附近。但是,如果該算法是全局最大的,并允許繼續(xù)執(zhí)行,存在一個(gè)有限的概率一個(gè)足夠大的高斯步驟將執(zhí)行,這樣,該算法能保持遞增。 六、 試飛結(jié)果A、積分滑模
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1