freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

人工智能-第5章-機器學習-閱讀頁

2025-02-05 14:37本頁面
  

【正文】 決方案: 是問題如何在一特定情形下得到解決 。 (3) 結(jié)果: 記錄了實施解決方案后的結(jié)果情況 , 是失敗還是成功 。 當對問題還缺乏足夠的了解時 , 通過在范例的表示上加上結(jié)果部分能取得較好的效果 。 數(shù)據(jù)庫中的索引是通用的 , 目的僅僅是追求索引能對數(shù)據(jù)集合進行平衡的劃分從而使得檢索速度最快;而范例索引則要考慮是否有利于將來的范例檢索 , 它決定了針對某個具體的問題哪些范例被復用; ② 索引應該有一定的抽象或泛化程度 , 這樣才能靈活處理以后可能遇到的各種情景 , 太具體則不能滿足更多的情況; ③ 索引應該有一定的具體性 , 這樣才能在以后被容易地識別出來 , 太抽象則各個范例之間的差別將被消除 。范例表示涉及這樣幾個問題 : 選擇什么信息存放在一個范例中;如何選擇合適的范例內(nèi)容描述結(jié)構(gòu);范例庫如何組織和索引。 (2) 分析模型 :分析模型用于分析目標范例,從中識別和抽取檢索源范例庫的信息。這步非常關(guān)鍵。因此,它要求有一個相似度的評價標準。 2022/2/15 《人工智能》 57 范例學習的主要問題( 2) (4) 類比映射 : 尋找目標范例同源范例之間的對應關(guān)系。把檢索到的源范例的解答復用于新問題或新范例之中需要解決的問題分別是:源范例與目標范例間有何不同之處;源范例中的哪些部分可以用于目標范例。 (6) 解釋過程 : 對把轉(zhuǎn)換過的源范例的求解方案應用到目標范例時所出現(xiàn)的失敗做出解釋,給出失敗的因果分析報告?;诮忉尩乃饕彩且环N重要的方法。 2022/2/15 《人工智能》 58 范例學習的主要問題( 3) (8) 類比驗證 : 驗證目標范例和源范例進行類比的有效性。這時有必要把它加入到范例庫中。此過程涉及選取哪些信息保留,以及如何把新范例有機集成到范例庫中。 在決定選取范例的哪些信息進行保留時,一般要考慮以下幾點:和問題有關(guān)的特征描述;問題的求解結(jié)果;以及解答為什么成功或失敗的原因及解釋。為此,可能要對范例庫的索引內(nèi)容甚至結(jié)構(gòu)進行調(diào)整,如改變索引的強度或特征權(quán)值。 2022/2/15 《人工智能》 60 解釋學習過程和算法 解釋學習一般包括下列 3個步驟: (1) 利用基于解釋的方法對訓練例子進行分析與解釋。 (3) 從解釋結(jié)構(gòu)中識別出訓練例子的特性,獲取一般控制知識。下圖表示 EBG問題。 求解:訓練實例的一般化概括,使之滿足: (1) 目標概念的充分概括描述 TC; (2) 操作準則 OC。 在傳統(tǒng)的機器學習分類中沒有提及到過強化學習。 所謂 強化學習 就是智能系統(tǒng)從環(huán)境到行為映射的學習,以使獎勵信號 (強化信號 ) 函數(shù)值最大。 2022/2/15 《人工智能》 63 強化學習通常包括兩個方面的含義: ① 一方面是將強化學習作為一類問題; ② 另一方面是指解決這類問題的一種技術(shù)。典型的技術(shù)如遺傳算法等搜索技術(shù); ? 另一類是采用統(tǒng)計技術(shù)和動態(tài)規(guī)劃方法來估計在某一環(huán)境狀態(tài)下的行為的效用函數(shù)值,從而通過行為效用函數(shù)來確定最優(yōu)行為。 2022/2/15 《人工智能》 64 強化學習的產(chǎn)生與發(fā)展 ? 強化思想最先來源于心理學的研究。換個說法,哪種行為會“記住”,會與刺激建立聯(lián)系,取決于行為產(chǎn)生的效果。所以, 1954年, Minsky在他的博士論文中實現(xiàn)了計算上的試錯學習。強化學習一詞最早出現(xiàn)于科技文獻是 1961年 Minsky 的論文“ Steps Toward Artificial Intelligence”,此后開始廣泛使用。 2022/2/15 《人工智能》 65 強化學習的發(fā)展過程可粗略分為兩個階段: ? 強化學習的形成階段( 50 年代 ~60年代) ? Minsky首次提出 “強化”和“強化學習”這些術(shù)語; ? Samuel的下棋程序采用類似值迭代、瞬時差分和 Q 學習的訓練機制,來學習用線性函數(shù)表示的值函數(shù); ? Saridis 把強化控制系統(tǒng)的控制器看成一個隨機自動機,首次系統(tǒng)提出了采用強化學習來解決隨機控制系統(tǒng)的學習控制問題。 1978年開始,Sutton、 Barto、 Moore等對這兩者結(jié)合開始進行深入研究。 ? 1992年, Tesauro用強化學習成功了應用到西洋雙陸棋中,稱為TDGammon 。在強化學習中, Agent 選擇一個動作作用于環(huán)境,環(huán)境接收該動作后發(fā)生變化,同時產(chǎn)生一個強化信號(獎或罰)反饋給 Agent, Agent 再根據(jù)強化信號和環(huán)境的當前狀態(tài)再選擇下一個動作,選擇的原則是使受到正的報酬的概率增大。強化學習的目的就是尋找一個最優(yōu)策。 agent 執(zhí)行一個動作除了獲得立即獎賞信號外,還有從后續(xù)狀態(tài) —動作映射的延遲獎賞。 Agent 的任務就是學習控制策略 π: S →A ,能夠最大化期望獎賞值的總和。反之系統(tǒng)產(chǎn)生這個動作的趨勢便減弱。 如果假定環(huán)境是馬爾可夫型的,則順序型強化學習問題可以通過馬氏決策過程( Markov Decision Process, MDP)建模。 馬氏決策過程 由四元組 S, A, R, P定義。記 R(s, a, s’)為系統(tǒng)在狀態(tài) s采用 a動作使環(huán)境狀態(tài)轉(zhuǎn)移到 s’獲得的瞬時獎賞值,簡記為 Rass’;記 P(s, a, s’)為系統(tǒng)在狀態(tài) s采用 a動作使環(huán)境狀態(tài)轉(zhuǎn)移到 s’的概率,簡記為 Pass’ 。因此在已知狀態(tài)轉(zhuǎn)移概率函數(shù) P和獎賞函數(shù) R的環(huán)境模型知識下,可以采用動態(tài)規(guī)劃技術(shù)求解最優(yōu)策略。 由于模型中 P函數(shù)和 R函數(shù)未知,系統(tǒng)只能夠依賴于每次試錯所獲得的瞬時獎賞來選擇策略。 2022/2/15 《人工智能》 70 首先通過下式構(gòu)造一個返回函數(shù) Rt,用于反映系統(tǒng)在某個策略 π指導下的一次學習循環(huán)中,從 st狀態(tài)往后所獲得的所有獎賞的累計折扣和。因此在 s狀態(tài)下的值函數(shù)要考慮不同學習循環(huán)中所有返回函數(shù)的數(shù)學期望。 2022/2/15 《人工智能》 71 根據(jù) Bellman最優(yōu)策略公式,在最優(yōu)策略 π*下,系統(tǒng)在 s狀態(tài)下的值函數(shù)定義為: 所以,強化學習的任務就是求解 π* 。因而實際中常采用逼近的方法進行值函數(shù)的估計 ,其中最主要的方法之一是 Monte Carlo采樣 。 2022/2/15 《人工智能》 73 蒙特卡羅算法 蒙特卡羅算法 ( Monte Carlo method , MC)通過 評估值函數(shù) 來發(fā)現(xiàn)最優(yōu)策略,且不需要環(huán)境的全部信息,它只需要經(jīng)驗知識 。 MC算法基于平均化取樣回報來解決強化學習問題,它將解決的問題分解成幕 ( episode) 。 從 s 出發(fā)到終止狀態(tài) t 的過程中, s 可能不止出現(xiàn)一次。 2022/2/15 《人工智能》 74 MC算法 中,值函數(shù)更新規(guī)則為: ? ?)()()( tttt sVRsVsV ??? ? 其中, Rt 為 t 時刻的獎賞值, α為步長參數(shù)。 T T T T T T T T T T stT 2022/2/15 《人工智能》 75 瞬時差分學習算法 (TD算法 ) TD (Temporal Differences)算法是一種增量式學習算法,它不用建立環(huán)境的動態(tài)信息模型,也不必等到最終輸出結(jié)果產(chǎn)生之后再修改以往學到的經(jīng)驗 ,而是直接從交互經(jīng)驗中學習,在學習過程中逐步修改。所謂一步 TD 算法,是指 Agent 獲得的瞬時報酬值僅回退一步,也就是說只是修改了相鄰狀態(tài)的估計值。 2022/2/15 《人工智能》 76 TD 算法可擴充到 TD (?) 算法,即 Agent 獲得的瞬時報酬值可回退任意步。 顯然,強化學習方法將需要更多次學習循環(huán)才能逼近實際的值函數(shù)。λ返回函數(shù) Rt′的物理意義如圖所示(見下頁)。其中通過構(gòu)造 e(s)函數(shù),即可以保證在一次學習循環(huán)中值函數(shù)正確更新。 Q學習可以看作一種增量式動態(tài)規(guī)劃,它通過直接優(yōu)化一個可迭代計算的動作值函數(shù) Q(s,a)來找到一個策略 , 使得期望折扣報酬總和最大,而非 TD算法中的狀態(tài)值 V(s)。 2022/2/15 《人工智能》 81 知識發(fā)現(xiàn) 近年來, 隨著大型數(shù)據(jù)庫不斷地涌現(xiàn),如何迅速而準確地獲得其中有用的信息和知識 , 以預測模式和發(fā)現(xiàn)趨勢、創(chuàng)建和測試假設、產(chǎn)生形象化的表示等 , 已成為數(shù)據(jù)庫系統(tǒng)和機器學習中一個關(guān)鍵性的研究課題。而人工智能處理方式很難對龐大的數(shù)據(jù)進行有效的處理和應用。數(shù)據(jù)庫知識發(fā)現(xiàn) (knowledge discovery and database, 簡稱 KDD)技術(shù)就是在這種背景下應運而生的,我們把 KDD簡稱為知識發(fā)現(xiàn)。知識發(fā)現(xiàn)的產(chǎn)生和發(fā)展與數(shù)據(jù)處理的發(fā)展有密切的聯(lián)系。 對此定義的進一步解釋: (1) 數(shù)據(jù)集: 是指一個有關(guān)事實 F的集合,它是用來描述事物有關(guān)方面的信息,是進一步發(fā)現(xiàn)知識的原材料。通常可以用一個函數(shù) N(E,F)來表示模式的新穎程度。 (4) 可被人理解: 知識發(fā)現(xiàn)的一個目標就是將數(shù)據(jù)庫中隱含的模式以容易被人理解的形式表現(xiàn)出來,從而幫助人們更好地了解數(shù)據(jù)庫中所包含的信息。一個表達式 E所描述的數(shù)據(jù)是 F一個子集 FE,只有當表達式 E比列舉出 FE中所有元素的描述方法更簡單時,才可稱為 E為一個模式。 (6) 高級過程: 知識發(fā)現(xiàn)是對數(shù)據(jù)進行更深層次處理的過程,而不僅僅是對數(shù)據(jù)進行簡單的運算或查詢,需要一定程度的智能性和自主性。 一個數(shù)據(jù)倉庫包含了各種數(shù)據(jù) , 所以有必要根據(jù)用戶的需求從中提取與 KDD相關(guān)的數(shù)據(jù)。 主要是對上述數(shù)據(jù)進行再加工,包括消除“噪聲”或去掉無用的數(shù)據(jù),彌補遺漏數(shù)據(jù),說明時間序列信息和已知的變化等。轉(zhuǎn)換包括對數(shù)據(jù)組織、數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)屬性轉(zhuǎn)換等。 根據(jù)用戶要求,確定 KDD的目標,利用一種或多種技術(shù),相繼地挖掘已轉(zhuǎn)換的數(shù)據(jù),抽取感興趣的信息。 這一過程主要用于對所獲得的知識進行價值評定,以決定所得的規(guī)則是否存入基礎(chǔ)知識庫。 統(tǒng)計方法 統(tǒng)計方法是從事物的外在數(shù)量上的表現(xiàn)去推斷該事物可能的規(guī)律性。 (2) 模糊集 (3) 支持向量機 針對兩類分類問題,在高維空間中尋找一個超平面作為兩類的分割,以保證最小的錯誤分類率。 規(guī)則反映數(shù)據(jù)項中某些屬性或數(shù)據(jù)集中某些數(shù)據(jù)項之間的統(tǒng)計相關(guān)性。 決策樹的每一個非終葉節(jié)點表示所考慮的數(shù)據(jù)項的測試或決策。 范例推理是直接使用過去的經(jīng)驗或解法來求解給定的問題。 貝葉斯信念網(wǎng)是概率分布的圖表示。 科學發(fā)現(xiàn)是在實驗環(huán)境下發(fā)現(xiàn)科學定律。 在求解過程中,通過最好解的選擇和彼此組合,使期望解的集合愈來愈好。 可視化方法 可視化( visualization)就是把數(shù)據(jù)、信息和知識轉(zhuǎn)化為可視的表示形式的過程。 2022/2/15 《人工智能》 91 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘是知識發(fā)現(xiàn)處理過程的一個核心環(huán)節(jié),其任務就是從數(shù)據(jù)中發(fā)現(xiàn)模式。 數(shù)據(jù)挖掘和知識發(fā)現(xiàn)這兩個術(shù)語的內(nèi)涵大致相同。 在通常情況下,許多人把數(shù)據(jù)挖掘與知識發(fā)現(xiàn)廣泛地認為是同一個概念,一般在科研領(lǐng)域中稱為知識發(fā)現(xiàn),而在工程領(lǐng)域則稱為數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。 ②分類 分類是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,一般用規(guī)則或決策樹模式表示。在同一類別中,個體之間的距離較小,而不同類別的個體之間的距離偏大。 ④ 時序模式 通過時間序列搜索出重復發(fā)生概率較高的模式。例如,在所有購買激光打印機的人中,半年后有 80%的人再購買新硒鼓, 20%的人用舊硒鼓裝碳粉。偏差包括很多潛在的知識,如分類中的異常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預測值的偏差、量值隨時間的變化等。 ⑥ 預測 預測是利用歷史數(shù)據(jù)找出變化規(guī)律,即建立模型,并用此模型來預測未來數(shù)據(jù)的種類、特征等。 數(shù)據(jù)項之間的關(guān)聯(lián)規(guī)則就是根據(jù)一個事務中某些項的出現(xiàn),可推導出另一些項在同一事務中也出現(xiàn)。 對數(shù)據(jù)項集 X ? I ,稱 T 包含 X 當且僅當 X ? T 對任一項集 X ? I ,在事務集 D中的 支持度 定義為 X在該事務集中出現(xiàn)的相對頻度,即: %100}|{),s up( ??? D TXTDX2022/2/15 《人工智能》 96 關(guān)聯(lián)規(guī)則 具有形式: X=Y 這里 X ? I , Y ? I ,且 X∩Y =Φ, X 稱為規(guī)則的條件 , Y 稱為規(guī)則的結(jié)果。 一條規(guī)則 X=Y的 支持度 定義為:在集合 D 中 同時包含 X 和 Y 的事務數(shù)量與 D中的 總事務量之比 ,即: %100}|{),s up ( ????? D TYXTDYX 一條規(guī)則 X=Y的 可信度 定義為:在集合 D 中,包含 X 的事務中有多大可能性也包含
點擊復制文檔內(nèi)容
教學課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1