freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘算法wangy-資料下載頁

2025-05-15 11:39本頁面
  

【正文】 Y所遵循的概率分布上計算,此分布由未知參數(shù) θ確定。 ? 首先, P(Y|h180。)是給定假設(shè) h180。下全部數(shù)據(jù) Y的似然性。其合理性在于我們要尋找一個 h180。使該量的某函數(shù)值最大化。 ? 其次,使該量的對數(shù) lnP(Y|h180。)最大化也使 P(Y|h180。)最大化。 ? 第三,引入期望值 E[lnP(Y|h180。)]是因為全部數(shù)據(jù) Y本身也是一隨機變量。已知全部數(shù)據(jù) Y是觀察到的 X和未觀察到的 Z的合并,我們必須在未觀察到的 Z的可能值上取平均,并以相應(yīng)的概率為權(quán)值。 ? 廣義 EM算法(續(xù)) ? 在 EM算法的一般形式里,重復(fù)以下兩個步驟直至收斂。 ? 步驟 1:估計( E)步驟:使用當(dāng)前假設(shè) h和觀察到的數(shù)據(jù) X來估計 Y上的概率分布以計算 Q(h180。|h)。 ? 步驟 2:最大化( M)步驟:將假設(shè) h替換為使 Q函數(shù)最大化的假設(shè) h180。: ],|)39。|([ l n)|39。( XhhYPEhhQ ?)|39。(m a xa r g39。hhQhh?? 強化學(xué)習(xí) ? 強化學(xué)習(xí)的模型如圖所示 ? 通過 Agent與環(huán)境的交互進行學(xué)習(xí)。 Agent與環(huán)境的交互接口包括 行動 ( Action)、 回報 ( Reward)和 狀態(tài) ( State)。 ? 交互過程可以表述為如下形式: ? 每一步, Agent根據(jù)策略選擇一個行動執(zhí)行,然后感知下一步狀態(tài)和即時回報,通過經(jīng)驗再修改自己的策略。 Agent的目標(biāo)就是 最大化長期回報 。 ? 強化學(xué)習(xí)(續(xù)) ? 馬爾可夫過程 是四元組 M = S, A, T, R。其中 S是狀態(tài)集。 A是行動集, A(s) 表示狀態(tài) s下可執(zhí)行的行動。 ? T = S A S? [0, 1]是狀態(tài)轉(zhuǎn)換模型, T(s,a,s’) 表示狀態(tài) s下執(zhí)行行動 a到達狀態(tài) s’ 的概率,且滿足 ∑ s’ T(s,a,s’) = 1 。 ? R = S A S? R是即時回報函數(shù), R(s,a,s’)表示狀態(tài) s下執(zhí)行行動 a到達狀態(tài) s’ 后可以得到的即時回報。 ? 強化學(xué)習(xí)(續(xù)) ? 轉(zhuǎn)換模型 和 回報函數(shù) 是環(huán)境的一部分,描述了環(huán)境模型,且只與當(dāng)前狀態(tài)和行動有關(guān),與以前的狀態(tài)和行動都沒有關(guān)系,體現(xiàn)了馬爾可夫特性。 ? Agent為了完成任務(wù),必須知道每個行動的長遠(yuǎn)回報,而不僅僅是即時回報。而長遠(yuǎn)回報必須經(jīng)過一定時間的延遲之后才可以獲得。 ? 有終任務(wù) 和 持續(xù)任務(wù) 可以統(tǒng)一起來,他們的長期回報是 或 ? ?? ??? 0 1k ktt rR ? ? ? ??? 0 1k ktkt rR ?? 強化學(xué)習(xí)(續(xù)) ? Agent與環(huán)境交互的學(xué)習(xí)中選擇行動的方法稱為 策略 π :S A? [0, 1], π (s, a)表示在狀態(tài) s下選擇行動 a的概率。 ? 策略的一個退化形式為 π :S?A,稱為 確定性策略 ,表示在狀態(tài) s下行動 a的執(zhí)行概率為1,其它行動均為 0。 Q學(xué)習(xí)是最常用的強化學(xué)習(xí)技術(shù)。 ? ? ??a ssVsasRsasTas39。)]39。()39。,()[39。,(),( ???},|{),( aassREasQ ttt ??? ??}|{)( ssREsV tt ?? ??},|)({ 11 aasssVrE tttt ???? ?? ?? ?值函數(shù) Q函數(shù) ? 強化學(xué)習(xí)(續(xù)) ? 學(xué)習(xí)的目的是找到一個最優(yōu)策略。設(shè)有策略 π 和 π ’,若對所有狀態(tài) s∈ S都有 Vπ (s) ≥ Vπ ’(s) ,則稱策略 π 比策略 π ’好。 ? 這樣就總存在一個策略,它比其它所有策略都好,稱為最優(yōu)策略 π *。 ? 若最優(yōu)策略對應(yīng)的狀態(tài)評價函數(shù)記為 V *,則對所有狀態(tài) s∈ S,有 V * (s) = max Vπ (s) 。 ? 對所有狀態(tài) s∈ S,所有行動 a∈ A(s),有 Q * (s) = max Qπ (s)。 ? 強化學(xué)習(xí)(續(xù)) ? 三種計算 “ 值函數(shù) ” Vπ (s)方法 : ? 動態(tài)規(guī)劃法 :已知環(huán)境模型 T和 R,每步進行迭代 。 ? Monte Carlo法 :沒有環(huán)境模型,根據(jù)經(jīng)驗學(xué)習(xí)。只考慮有終任務(wù),任務(wù)結(jié)束后對所有的回報進行平均。 ? 時序差分法 :沒有環(huán)境模型,根據(jù)經(jīng)驗學(xué)習(xí)。每步進行迭代,不需要等任務(wù)完成。 ? 強化學(xué)習(xí)(續(xù)) ? 在 多 Agent系統(tǒng) 中,環(huán)境在多個 Agent的聯(lián)合動作下進行狀態(tài)的遷移。對于單個 Agent來講,由于其只能確定自身 Agent的行為動作,因此體現(xiàn)出一種行為動作上的 “ 部分感知 ” ,從而產(chǎn)生出另一種形式的非標(biāo)準(zhǔn)馬爾可夫環(huán)境。 ? 多 Agent強化學(xué)習(xí)的技術(shù)包括: 合作多 Agent強化學(xué)習(xí)(適用于分布、同構(gòu)、合作環(huán)境);基于平衡解多 Agent強化學(xué)習(xí)(適用于同構(gòu)或異構(gòu)、合作或競爭環(huán)境);最佳響應(yīng)多 Agent強化學(xué)習(xí)(適用于異構(gòu)、競爭環(huán)境)。 ? 多 Agent強化學(xué)習(xí)機制被廣泛應(yīng)用到各個領(lǐng)域,例如游戲、郵件路由選擇、電梯群控系統(tǒng)以及機器人設(shè)計等等。 ? 強化學(xué)習(xí)(續(xù)) ? 在對策模型中,每個 Agent獲得的瞬時獎懲不僅僅取決于自身的動作,同時還依賴于其他 Agent的動作。 ? 馬爾可夫?qū)Σ? 在 n個 Agent的系統(tǒng)中,定義離散的狀態(tài)集 S,Agent動作集 Ai的集合 A。 ? 聯(lián)合獎賞函數(shù) Ri: S A1 … An S? R; ? 狀態(tài)轉(zhuǎn)移函數(shù) T: S A1 … An S? [0, 1]。 ? 每個 Agent目標(biāo)都是最大化期望折扣獎賞和。 ? 分類精度評價指標(biāo) ? 理想的分類器應(yīng)該將所有屬于某一類的樣本標(biāo)記為該類;且不將任何一個不屬于該類的樣本標(biāo)記為該類??梢圆捎袃蓚€指標(biāo)用來評價分類器的性能:準(zhǔn)確率(查準(zhǔn)率)和召回率 (查全率 )。對于某一特定類別 Ci , ? 準(zhǔn)確率 (P) = ? 召回率 (R) = 五、性能評估 的樣本數(shù)分類屬于的樣本數(shù)且實際屬于分類屬于iiiCCC的樣本數(shù)實際屬于的樣本數(shù)且實際屬于分類屬于iiiCCC? 分類精度評價指標(biāo)(續(xù)) ? 對于同一分類器,這準(zhǔn)確率和查全率的變化趨勢通常是相反的,片面追求其中一個指標(biāo)而完全不顧及另一個是沒有意義的。 ? 為綜合考慮準(zhǔn)確率和查全率,可以使用一種能夠全面評價分類器性能的指標(biāo): F1。 ? F1 = ? F1綜合考慮了上述兩指標(biāo),且偏向于準(zhǔn)確率和查全率中較小的一個,只有當(dāng)準(zhǔn)確率和查全率都較大時, F1指標(biāo)才會比較大。 查全率查準(zhǔn)率查全率查準(zhǔn)率???2? 分類精度評價指標(biāo)(續(xù)) ? 多數(shù)分類器可以通過調(diào)整參數(shù)獲得不同的準(zhǔn)確率和查全率,當(dāng)分類器的參數(shù)調(diào)節(jié)到正好使準(zhǔn)確率和查全率相等時,該值稱為 P/R無損耗 (平衡 )點。它也是一種綜合考慮準(zhǔn)確率和查全率的指標(biāo)。 ? 在綜合考慮全部類別的條件下,精確度 (Accuracy)也是一個常用的指標(biāo),它是指所有分類正確的樣本數(shù)在所有樣本中所占的比例。 ? 精確度 (A) = 全部樣本總數(shù)本數(shù)所有分類標(biāo)記正確的樣? 分類器泛化性能 ? 分類器的泛化性能,是指在某一訓(xùn)練集上訓(xùn)練過以后的分類器適應(yīng)該訓(xùn)練集以外的數(shù)據(jù)的性能,也稱為可擴展性。泛化性能好的分類器不但對訓(xùn)練集中的數(shù)據(jù)準(zhǔn)確分類,也能對其他數(shù)據(jù)準(zhǔn)確分類。 ? 在 k折交叉驗證 中,初試數(shù)據(jù)被劃分成 k個互不相交的子集或 “ 折 ” S 1,S 2,..., S k,每個折的大小大致相等。訓(xùn)練和測試進行 k次。在第 i次迭代, S i用作測試集,其余的子集都用于訓(xùn)練分類法。 ? 扣留測試 ( Holdout)是將訓(xùn)練集隨機地分成兩部分,一部分用于訓(xùn)練學(xué)習(xí)機,記作 Strain,另一部分用于測試,記作 Sval。 Holdout測試的誤差按下式計算: ???v a lii SyxiiLLklho yxhLkhE r r),(, )),((1)(? 分類器泛化性能(續(xù)) ? 解鞋帶法 ( Bootstrap)測試是一種估計訓(xùn)練誤差偏差的方法,它以 Bootstrap樣本進行多次訓(xùn)練,并評價它們的總偏差。 ? Bootstrap樣本是通過替換法從訓(xùn)練樣本中獨立提取出來的。 Bootstrap測試是一種計算代價非常高的評估方法。 ? 留一法 ( Leave One Out)是一種特殊的交叉驗證,它令 n等于訓(xùn)練集個數(shù),即每次只抽取一個作為測試樣本。 ? 留一法錯誤的計算留一法錯誤是推廣誤差的幾乎無偏估計。 ???NiiiiLLNl o o yxhLNhE r r1\ )),((1)(? 分類器泛化性能(續(xù)) ? 發(fā)生 留一法錯誤 最少的模型的泛化能力最好,這時模型的參數(shù)是學(xué)習(xí)機最佳的參數(shù)。 ? 直接進行留一法驗證的代價是高昂的。它必須進行 N次( N為訓(xùn)練集樣本數(shù))訓(xùn)練才能統(tǒng)計出留一法錯誤發(fā)生的次數(shù)。 ? 為避免大量的學(xué)習(xí)機訓(xùn)練次數(shù),一些學(xué)者提出了只需進行一次訓(xùn)練即可估計出留一法錯誤發(fā)生次數(shù)的留一法錯誤估計方法。 ? 估計方法包括的 RM估計 、 xa估計 、 Span估計 以及GCKL和 GACV等。 ? 分類器的其他性能 ? 除了準(zhǔn)確性、可擴展性之外,還有 速度 和 可理解性 也可以作為分類器的比較指標(biāo)。 ? 基于有監(jiān)督學(xué)習(xí)的分類器速度包括訓(xùn)練速度和決策速度,通常,其決策速度遠(yuǎn)快于訓(xùn)練速度。 ? 基于無監(jiān)督學(xué)習(xí)的分類器僅有一個決策的過程,通常比較慢;基于半監(jiān)督學(xué)習(xí)的分類器一般需要通過反復(fù)訓(xùn)練獲得決策結(jié)果,其速度也很慢。 ? 可理解性是指規(guī)則是否易于被人類理解。例如,決策樹的發(fā)現(xiàn)的規(guī)則就遠(yuǎn)比神經(jīng)網(wǎng)絡(luò)所獲得的權(quán)值易于理解。
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1