freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘算法wangy-資料下載頁

2025-05-15 11:39本頁面
  

【正文】 Y所遵循的概率分布上計(jì)算,此分布由未知參數(shù) θ確定。 ? 首先, P(Y|h180。)是給定假設(shè) h180。下全部數(shù)據(jù) Y的似然性。其合理性在于我們要尋找一個(gè) h180。使該量的某函數(shù)值最大化。 ? 其次,使該量的對數(shù) lnP(Y|h180。)最大化也使 P(Y|h180。)最大化。 ? 第三,引入期望值 E[lnP(Y|h180。)]是因?yàn)槿繑?shù)據(jù) Y本身也是一隨機(jī)變量。已知全部數(shù)據(jù) Y是觀察到的 X和未觀察到的 Z的合并,我們必須在未觀察到的 Z的可能值上取平均,并以相應(yīng)的概率為權(quán)值。 ? 廣義 EM算法(續(xù)) ? 在 EM算法的一般形式里,重復(fù)以下兩個(gè)步驟直至收斂。 ? 步驟 1:估計(jì)( E)步驟:使用當(dāng)前假設(shè) h和觀察到的數(shù)據(jù) X來估計(jì) Y上的概率分布以計(jì)算 Q(h180。|h)。 ? 步驟 2:最大化( M)步驟:將假設(shè) h替換為使 Q函數(shù)最大化的假設(shè) h180。: ],|)39。|([ l n)|39。( XhhYPEhhQ ?)|39。(m a xa r g39。hhQhh?? 強(qiáng)化學(xué)習(xí) ? 強(qiáng)化學(xué)習(xí)的模型如圖所示 ? 通過 Agent與環(huán)境的交互進(jìn)行學(xué)習(xí)。 Agent與環(huán)境的交互接口包括 行動(dòng) ( Action)、 回報(bào) ( Reward)和 狀態(tài) ( State)。 ? 交互過程可以表述為如下形式: ? 每一步, Agent根據(jù)策略選擇一個(gè)行動(dòng)執(zhí)行,然后感知下一步狀態(tài)和即時(shí)回報(bào),通過經(jīng)驗(yàn)再修改自己的策略。 Agent的目標(biāo)就是 最大化長期回報(bào) 。 ? 強(qiáng)化學(xué)習(xí)(續(xù)) ? 馬爾可夫過程 是四元組 M = S, A, T, R。其中 S是狀態(tài)集。 A是行動(dòng)集, A(s) 表示狀態(tài) s下可執(zhí)行的行動(dòng)。 ? T = S A S? [0, 1]是狀態(tài)轉(zhuǎn)換模型, T(s,a,s’) 表示狀態(tài) s下執(zhí)行行動(dòng) a到達(dá)狀態(tài) s’ 的概率,且滿足 ∑ s’ T(s,a,s’) = 1 。 ? R = S A S? R是即時(shí)回報(bào)函數(shù), R(s,a,s’)表示狀態(tài) s下執(zhí)行行動(dòng) a到達(dá)狀態(tài) s’ 后可以得到的即時(shí)回報(bào)。 ? 強(qiáng)化學(xué)習(xí)(續(xù)) ? 轉(zhuǎn)換模型 和 回報(bào)函數(shù) 是環(huán)境的一部分,描述了環(huán)境模型,且只與當(dāng)前狀態(tài)和行動(dòng)有關(guān),與以前的狀態(tài)和行動(dòng)都沒有關(guān)系,體現(xiàn)了馬爾可夫特性。 ? Agent為了完成任務(wù),必須知道每個(gè)行動(dòng)的長遠(yuǎn)回報(bào),而不僅僅是即時(shí)回報(bào)。而長遠(yuǎn)回報(bào)必須經(jīng)過一定時(shí)間的延遲之后才可以獲得。 ? 有終任務(wù) 和 持續(xù)任務(wù) 可以統(tǒng)一起來,他們的長期回報(bào)是 或 ? ?? ??? 0 1k ktt rR ? ? ? ??? 0 1k ktkt rR ?? 強(qiáng)化學(xué)習(xí)(續(xù)) ? Agent與環(huán)境交互的學(xué)習(xí)中選擇行動(dòng)的方法稱為 策略 π :S A? [0, 1], π (s, a)表示在狀態(tài) s下選擇行動(dòng) a的概率。 ? 策略的一個(gè)退化形式為 π :S?A,稱為 確定性策略 ,表示在狀態(tài) s下行動(dòng) a的執(zhí)行概率為1,其它行動(dòng)均為 0。 Q學(xué)習(xí)是最常用的強(qiáng)化學(xué)習(xí)技術(shù)。 ? ? ??a ssVsasRsasTas39。)]39。()39。,()[39。,(),( ???},|{),( aassREasQ ttt ??? ??}|{)( ssREsV tt ?? ??},|)({ 11 aasssVrE tttt ???? ?? ?? ?值函數(shù) Q函數(shù) ? 強(qiáng)化學(xué)習(xí)(續(xù)) ? 學(xué)習(xí)的目的是找到一個(gè)最優(yōu)策略。設(shè)有策略 π 和 π ’,若對所有狀態(tài) s∈ S都有 Vπ (s) ≥ Vπ ’(s) ,則稱策略 π 比策略 π ’好。 ? 這樣就總存在一個(gè)策略,它比其它所有策略都好,稱為最優(yōu)策略 π *。 ? 若最優(yōu)策略對應(yīng)的狀態(tài)評價(jià)函數(shù)記為 V *,則對所有狀態(tài) s∈ S,有 V * (s) = max Vπ (s) 。 ? 對所有狀態(tài) s∈ S,所有行動(dòng) a∈ A(s),有 Q * (s) = max Qπ (s)。 ? 強(qiáng)化學(xué)習(xí)(續(xù)) ? 三種計(jì)算 “ 值函數(shù) ” Vπ (s)方法 : ? 動(dòng)態(tài)規(guī)劃法 :已知環(huán)境模型 T和 R,每步進(jìn)行迭代 。 ? Monte Carlo法 :沒有環(huán)境模型,根據(jù)經(jīng)驗(yàn)學(xué)習(xí)。只考慮有終任務(wù),任務(wù)結(jié)束后對所有的回報(bào)進(jìn)行平均。 ? 時(shí)序差分法 :沒有環(huán)境模型,根據(jù)經(jīng)驗(yàn)學(xué)習(xí)。每步進(jìn)行迭代,不需要等任務(wù)完成。 ? 強(qiáng)化學(xué)習(xí)(續(xù)) ? 在 多 Agent系統(tǒng) 中,環(huán)境在多個(gè) Agent的聯(lián)合動(dòng)作下進(jìn)行狀態(tài)的遷移。對于單個(gè) Agent來講,由于其只能確定自身 Agent的行為動(dòng)作,因此體現(xiàn)出一種行為動(dòng)作上的 “ 部分感知 ” ,從而產(chǎn)生出另一種形式的非標(biāo)準(zhǔn)馬爾可夫環(huán)境。 ? 多 Agent強(qiáng)化學(xué)習(xí)的技術(shù)包括: 合作多 Agent強(qiáng)化學(xué)習(xí)(適用于分布、同構(gòu)、合作環(huán)境);基于平衡解多 Agent強(qiáng)化學(xué)習(xí)(適用于同構(gòu)或異構(gòu)、合作或競爭環(huán)境);最佳響應(yīng)多 Agent強(qiáng)化學(xué)習(xí)(適用于異構(gòu)、競爭環(huán)境)。 ? 多 Agent強(qiáng)化學(xué)習(xí)機(jī)制被廣泛應(yīng)用到各個(gè)領(lǐng)域,例如游戲、郵件路由選擇、電梯群控系統(tǒng)以及機(jī)器人設(shè)計(jì)等等。 ? 強(qiáng)化學(xué)習(xí)(續(xù)) ? 在對策模型中,每個(gè) Agent獲得的瞬時(shí)獎(jiǎng)懲不僅僅取決于自身的動(dòng)作,同時(shí)還依賴于其他 Agent的動(dòng)作。 ? 馬爾可夫?qū)Σ? 在 n個(gè) Agent的系統(tǒng)中,定義離散的狀態(tài)集 S,Agent動(dòng)作集 Ai的集合 A。 ? 聯(lián)合獎(jiǎng)賞函數(shù) Ri: S A1 … An S? R; ? 狀態(tài)轉(zhuǎn)移函數(shù) T: S A1 … An S? [0, 1]。 ? 每個(gè) Agent目標(biāo)都是最大化期望折扣獎(jiǎng)賞和。 ? 分類精度評價(jià)指標(biāo) ? 理想的分類器應(yīng)該將所有屬于某一類的樣本標(biāo)記為該類;且不將任何一個(gè)不屬于該類的樣本標(biāo)記為該類??梢圆捎袃蓚€(gè)指標(biāo)用來評價(jià)分類器的性能:準(zhǔn)確率(查準(zhǔn)率)和召回率 (查全率 )。對于某一特定類別 Ci , ? 準(zhǔn)確率 (P) = ? 召回率 (R) = 五、性能評估 的樣本數(shù)分類屬于的樣本數(shù)且實(shí)際屬于分類屬于iiiCCC的樣本數(shù)實(shí)際屬于的樣本數(shù)且實(shí)際屬于分類屬于iiiCCC? 分類精度評價(jià)指標(biāo)(續(xù)) ? 對于同一分類器,這準(zhǔn)確率和查全率的變化趨勢通常是相反的,片面追求其中一個(gè)指標(biāo)而完全不顧及另一個(gè)是沒有意義的。 ? 為綜合考慮準(zhǔn)確率和查全率,可以使用一種能夠全面評價(jià)分類器性能的指標(biāo): F1。 ? F1 = ? F1綜合考慮了上述兩指標(biāo),且偏向于準(zhǔn)確率和查全率中較小的一個(gè),只有當(dāng)準(zhǔn)確率和查全率都較大時(shí), F1指標(biāo)才會比較大。 查全率查準(zhǔn)率查全率查準(zhǔn)率???2? 分類精度評價(jià)指標(biāo)(續(xù)) ? 多數(shù)分類器可以通過調(diào)整參數(shù)獲得不同的準(zhǔn)確率和查全率,當(dāng)分類器的參數(shù)調(diào)節(jié)到正好使準(zhǔn)確率和查全率相等時(shí),該值稱為 P/R無損耗 (平衡 )點(diǎn)。它也是一種綜合考慮準(zhǔn)確率和查全率的指標(biāo)。 ? 在綜合考慮全部類別的條件下,精確度 (Accuracy)也是一個(gè)常用的指標(biāo),它是指所有分類正確的樣本數(shù)在所有樣本中所占的比例。 ? 精確度 (A) = 全部樣本總數(shù)本數(shù)所有分類標(biāo)記正確的樣? 分類器泛化性能 ? 分類器的泛化性能,是指在某一訓(xùn)練集上訓(xùn)練過以后的分類器適應(yīng)該訓(xùn)練集以外的數(shù)據(jù)的性能,也稱為可擴(kuò)展性。泛化性能好的分類器不但對訓(xùn)練集中的數(shù)據(jù)準(zhǔn)確分類,也能對其他數(shù)據(jù)準(zhǔn)確分類。 ? 在 k折交叉驗(yàn)證 中,初試數(shù)據(jù)被劃分成 k個(gè)互不相交的子集或 “ 折 ” S 1,S 2,..., S k,每個(gè)折的大小大致相等。訓(xùn)練和測試進(jìn)行 k次。在第 i次迭代, S i用作測試集,其余的子集都用于訓(xùn)練分類法。 ? 扣留測試 ( Holdout)是將訓(xùn)練集隨機(jī)地分成兩部分,一部分用于訓(xùn)練學(xué)習(xí)機(jī),記作 Strain,另一部分用于測試,記作 Sval。 Holdout測試的誤差按下式計(jì)算: ???v a lii SyxiiLLklho yxhLkhE r r),(, )),((1)(? 分類器泛化性能(續(xù)) ? 解鞋帶法 ( Bootstrap)測試是一種估計(jì)訓(xùn)練誤差偏差的方法,它以 Bootstrap樣本進(jìn)行多次訓(xùn)練,并評價(jià)它們的總偏差。 ? Bootstrap樣本是通過替換法從訓(xùn)練樣本中獨(dú)立提取出來的。 Bootstrap測試是一種計(jì)算代價(jià)非常高的評估方法。 ? 留一法 ( Leave One Out)是一種特殊的交叉驗(yàn)證,它令 n等于訓(xùn)練集個(gè)數(shù),即每次只抽取一個(gè)作為測試樣本。 ? 留一法錯(cuò)誤的計(jì)算留一法錯(cuò)誤是推廣誤差的幾乎無偏估計(jì)。 ???NiiiiLLNl o o yxhLNhE r r1\ )),((1)(? 分類器泛化性能(續(xù)) ? 發(fā)生 留一法錯(cuò)誤 最少的模型的泛化能力最好,這時(shí)模型的參數(shù)是學(xué)習(xí)機(jī)最佳的參數(shù)。 ? 直接進(jìn)行留一法驗(yàn)證的代價(jià)是高昂的。它必須進(jìn)行 N次( N為訓(xùn)練集樣本數(shù))訓(xùn)練才能統(tǒng)計(jì)出留一法錯(cuò)誤發(fā)生的次數(shù)。 ? 為避免大量的學(xué)習(xí)機(jī)訓(xùn)練次數(shù),一些學(xué)者提出了只需進(jìn)行一次訓(xùn)練即可估計(jì)出留一法錯(cuò)誤發(fā)生次數(shù)的留一法錯(cuò)誤估計(jì)方法。 ? 估計(jì)方法包括的 RM估計(jì) 、 xa估計(jì) 、 Span估計(jì) 以及GCKL和 GACV等。 ? 分類器的其他性能 ? 除了準(zhǔn)確性、可擴(kuò)展性之外,還有 速度 和 可理解性 也可以作為分類器的比較指標(biāo)。 ? 基于有監(jiān)督學(xué)習(xí)的分類器速度包括訓(xùn)練速度和決策速度,通常,其決策速度遠(yuǎn)快于訓(xùn)練速度。 ? 基于無監(jiān)督學(xué)習(xí)的分類器僅有一個(gè)決策的過程,通常比較慢;基于半監(jiān)督學(xué)習(xí)的分類器一般需要通過反復(fù)訓(xùn)練獲得決策結(jié)果,其速度也很慢。 ? 可理解性是指規(guī)則是否易于被人類理解。例如,決策樹的發(fā)現(xiàn)的規(guī)則就遠(yuǎn)比神經(jīng)網(wǎng)絡(luò)所獲得的權(quán)值易于理解。
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1