freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)簡(jiǎn)明原理-全文預(yù)覽

  

【正文】 樹(shù)也利用二分劃分?jǐn)?shù)據(jù)。可以看出圖 14利用切分點(diǎn)s將特征空間進(jìn)行劃分,y是在劃分單元上的輸出值。如圖 13所示就是一個(gè)分類(lèi)樹(shù)。分類(lèi)問(wèn)題輸出特征向量對(duì)應(yīng)的分類(lèi)結(jié)果,回歸問(wèn)題輸出特征向量對(duì)應(yīng)的預(yù)測(cè)值。而且二分策略可以直接處理連續(xù)型屬性值。它們利用信息增益和信息增益比劃分?jǐn)?shù)據(jù)集。為了便于理解,仍然使用表格 8所示數(shù)據(jù)集進(jìn)行說(shuō)明。類(lèi)別039。類(lèi)別039。劃分后,如果是圓的:1,則分類(lèi):1;如果是圓的:0, 則分類(lèi):0。 第二種為如果是紅的:1, 則得到如下數(shù)據(jù)子集 {圓的:1,分類(lèi):1。為了便于理解,用表1所示數(shù)據(jù)集進(jìn)行詳細(xì)說(shuō)明。除了可以使用信息增益和信息增益比來(lái)選擇最優(yōu)劃分特征之外,基尼指數(shù)也可以用來(lái)實(shí)現(xiàn)這個(gè)目的。特征 A 對(duì)數(shù)據(jù)集 D 的信息增益 g(D,A)為 D 的信息熵與按特征 A 進(jìn)行劃分后 D 的信息熵之差,即其中, . 信息增益比 – 用于 決策樹(shù)信息增益比為了避免傾向于選擇屬性值多的特征作為最優(yōu)特征這個(gè)問(wèn)題,在信息增益的基礎(chǔ)上引入了類(lèi)似懲罰因子的概念。. 決策樹(shù)原理. 選擇最優(yōu)特征決策樹(shù)通過(guò)不斷選擇最優(yōu)特征劃分?jǐn)?shù)據(jù)集,對(duì)劃分后的子數(shù)據(jù)集不斷迭代得選擇最優(yōu)特征劃分,直到所有的數(shù)據(jù)集屬于同一個(gè)類(lèi)別,或者沒(méi)有特征可以選擇為止。這種缺陷體現(xiàn)在信息增益對(duì)選擇屬性取值多的特征更有利。用所有類(lèi)別所有可能值包含的信息期望值表示信息熵,計(jì)算方法如下:ID3 決策樹(shù)利用了信息增益來(lái)選擇最優(yōu)特征,用這種方法選擇的特征是使得信息熵增益最大的特征。衡量數(shù)據(jù)的混亂程度就必須提到信息和信息熵的概念。圖 12 決策樹(shù)示例圖1所示決策樹(shù)用來(lái)將數(shù)據(jù)分為兩類(lèi),是蘋(píng)果和非蘋(píng)果。決策樹(shù)利用了樹(shù)型結(jié)構(gòu)進(jìn)行決策,是經(jīng)典的 ifthen 結(jié)構(gòu)。6. 決策樹(shù)基本原理決策樹(shù)算法又分很多種,常用的有ID3, 和 CART 決策樹(shù)。campus39。已知:如果 log(P(X|C0) *P(C0) ) log(P(X|C1) *P(C1) ),則 P(C0|X) P(C1|X),可得 X 屬于 C0 類(lèi);如果 log(P(X|C0) *P(C0) ) log(P(X|C1) *P(C1) ),則 P(C0|X) P(C1|X),可得 X 屬于 C1 類(lèi)。others39。campus39。sky39。others39。campus39。book39。, 39。表格 5 示例測(cè)試數(shù)據(jù)集類(lèi)別訓(xùn)練文本?39。039。139。, 39。, 39。, 39。最終比較 P(C0|X)、P(C1|X)大小得到 X 屬于 C0 類(lèi)還是 C1 類(lèi)。鑒于此,往往在實(shí)際運(yùn)算中,會(huì)借助 log 函數(shù),比較 log(P(X|C0) *P(C0)) 和 log(P(X|C1) *P(C1))的大小來(lái)判斷 X 所屬類(lèi)別。為了避免 P(Xi|C)為 0 造成 P(X|C)為 0 而影響分類(lèi)結(jié)果,在此引入拉普拉斯平滑,本文分別給分子和分母加上 1 和 2,即 P(Xi|C) = (|Dc,xi| + 1) / (|Dc,x| + 2)。其中 P(C)稱(chēng)為先驗(yàn)概率,P(X|C)是條件概率,P(C|X)稱(chēng)為后驗(yàn)概率,將后驗(yàn)概率最大的類(lèi)作為 X 的類(lèi)別輸出。這種情況需要考慮半樸素貝葉斯,即放松屬性之間條件獨(dú)立這一假設(shè),一定程度上考慮屬性之間的依賴(lài)關(guān)系。詞向量的每一項(xiàng)是該詞出現(xiàn)的頻數(shù)。5. NaiveBayes基本原理樸素貝葉斯模型主要用來(lái)分類(lèi),但是與 SVM 模型不同的的是,樸素貝葉斯模型不需要針對(duì)目標(biāo)變量建立模型,而是借助貝葉斯公式計(jì)算樣本屬于各個(gè)類(lèi)別的概率,然后取概率值大的類(lèi)別作為分類(lèi)類(lèi)別。圖 11 b元素的前綴路徑構(gòu)成的條件FP樹(shù)將其他元素 a,b,d 同樣按照上述對(duì) c 的操作,得到表格 3所示頻繁項(xiàng)集。2. 對(duì)元素 b,獲得前綴路徑{a},則將前綴路徑創(chuàng)建成條件 FP 樹(shù),如圖 11所示。首先,獲得以 c 元素的前綴路徑{a:2,b:2},注意此處 a 和 b 的頻數(shù)為 2 是因?yàn)?c 的頻數(shù)為 2,所以與 c 共同出現(xiàn)的 a 和 b 的頻數(shù)就都為 2。具體過(guò)程為:首先獲得頻繁項(xiàng)的前綴路徑,然后將前綴路徑作為新的數(shù)據(jù)集,以此構(gòu)建前綴路徑的條件 FP 樹(shù)。創(chuàng)建 FP 樹(shù)時(shí),當(dāng)待添加的記錄與 FP 樹(shù)中的路徑相同,則只需更新元素對(duì)應(yīng)的頻數(shù);如果待添加的記錄與 FP 樹(shù)存在不一致,則在不一致的地方分叉,創(chuàng)建新的結(jié)點(diǎn)。下面用上文提到的數(shù)據(jù)集展開(kāi)說(shuō)明,假設(shè)最小支持度為 2。. 頻繁項(xiàng)集挖掘原理頻繁項(xiàng)集挖掘分為構(gòu)建 FP 樹(shù),和從 FP 樹(shù)中挖掘頻繁項(xiàng)集兩步。} {39。如規(guī)則{39。}的置信度為 / = 。, 39。, 39。, 39。假設(shè){39。雞蛋39。面包39。牛奶39。雞蛋39。面包39。面包39。. 支持度 Support支持度指某頻繁項(xiàng)集在整個(gè)數(shù)據(jù)集中的比例。牛奶39。雞蛋39。. 關(guān)聯(lián)規(guī)則簡(jiǎn)介關(guān)聯(lián)規(guī)則是在頻繁項(xiàng)集的基礎(chǔ)上得到的。FPgrowth,即 Frequent Pattern Growth,它通過(guò)構(gòu)建 FP 樹(shù)(即 Frequent Pattern Tree)這樣的數(shù)據(jù)結(jié)構(gòu),巧妙得將數(shù)據(jù)存儲(chǔ)在 FP 樹(shù)中,只需要在構(gòu)建 FP 樹(shù)時(shí)掃描數(shù)據(jù)庫(kù)兩次,后續(xù)處理就不需要再訪問(wèn)數(shù)據(jù)庫(kù)了。3. 用于發(fā)現(xiàn)事物的熱點(diǎn)信息。這種場(chǎng)景其實(shí)我們經(jīng)常會(huì)遇到。那么發(fā)現(xiàn)這些頻繁項(xiàng)集有什么意義呢?1. 用于制定營(yíng)銷(xiāo)策略。有研究發(fā)現(xiàn),在超市的訂單記錄中,啤酒和尿布總是頻繁共同出現(xiàn)在同一條訂單記錄里。第一篇中的 SVM 就屬于分類(lèi)。有朋友就會(huì)問(wèn),求出 alpha 之后呢?如何判斷新樣本數(shù)據(jù)屬于 1 還是1 呢?別忘了,在最優(yōu)化求解一節(jié),我們得到了如下:若 f(x)大于 0,則新樣本數(shù)據(jù)屬于 1;否則,新樣本數(shù)據(jù)屬于1。下面是詳細(xì)的 SMO 過(guò)程。由于目標(biāo)變量中自變量 alpha 有 N 個(gè),為了便與求解,每次選出一對(duì)自變量 alpha,然后求目標(biāo)函數(shù)關(guān)于其中一個(gè) alpha 的偏導(dǎo),這樣就可以得到這一對(duì) alpha 的新值。為什么說(shuō)不用一一映射到高維空間很有用呢?原因就在于首先我們無(wú)法針對(duì)每種情況提供精確的映射函數(shù),再者對(duì)于需要映射到無(wú)窮維的情況顯然無(wú)法一一映射完成。倘若能將超平面換成超曲面,則可以將正負(fù)樣本正確分類(lèi),如圖 5所示。那么,對(duì)每個(gè)不等式約束引入拉格朗日乘子,得到拉格朗日函數(shù)如下:分析可知:則原最優(yōu)化問(wèn)題轉(zhuǎn)換成: 由于原最優(yōu)化問(wèn)題直接求解很困難,利用拉格朗日對(duì)偶性,可通過(guò)求解原最優(yōu)化問(wèn)題的對(duì)偶問(wèn)題得到原問(wèn)題的最優(yōu)解。圖 4 Outlier特異點(diǎn)為了解決這種問(wèn)題,對(duì)每個(gè)樣本點(diǎn)引進(jìn)一個(gè)松弛變量,使得約束條件變?yōu)椋哼@樣給 outlier 的約束條件加上一個(gè)變量,使其可以滿足大于等于 1 的條件。既然要最大化間隔,那么回顧下點(diǎn)x到超平面(w,b)的距離公式:其中超平面的公式為:由此可推出點(diǎn) x 到超平面(w,b)的幾何間隔為: 其中 xi代表第i條數(shù)據(jù),yi代表第i條數(shù)據(jù)對(duì)應(yīng)的目標(biāo)變量的取值,取值有+1 和1 兩種。. 軟間隔最大化SVM的核心思路是最大化支持向量到分隔超平面的間隔。2. 不支持類(lèi)別型數(shù)據(jù),需在預(yù)處理階段將類(lèi)別型數(shù)據(jù)轉(zhuǎn)換成離散型數(shù)據(jù)。SVM的優(yōu)點(diǎn)是:1. 可以解決線性不可分的情況。支持向量到分類(lèi)超平面的間隔最大化的思路很完美,按這種思路得到的模型理論上是準(zhǔn)確度最高的一種模型。如圖 1所示,支持向量到超平面1的間隔大于支持向量到超平面2的間隔,因此超平面1優(yōu)于超平面2。分類(lèi)算法主要包括K近鄰、決策樹(shù)、樸素貝葉斯、邏輯回歸、支持向量機(jī)、AdaBoost等;回歸主要包括線性回歸、嶺回歸、lasso、樹(shù)回歸等;聚類(lèi)主要包括 KMeans 以及它的各種變形算法;關(guān)聯(lián)分析主要包括 Apriori、FPgrowth 等算法?;貧w是根據(jù)特征值、目標(biāo)變量擬合出特征值與目標(biāo)變量之間的函數(shù)關(guān)系,可用來(lái)估計(jì)特征值對(duì)應(yīng)的目標(biāo)變量的可能取值。分類(lèi)就是給定大量帶標(biāo)簽的數(shù)據(jù),計(jì)算出未知標(biāo)簽樣本的標(biāo)簽取值。其中提到的規(guī)律有很多種,比如分類(lèi)、聚類(lèi)、回歸、關(guān)聯(lián)分析等。如電信行業(yè)可以根據(jù)用戶(hù)的月長(zhǎng)途電話分鐘數(shù)、上網(wǎng)時(shí)長(zhǎng)、短信使用數(shù)、地理位置、月消費(fèi)數(shù),將所有用戶(hù)聚集成有典型特征的簇,聚集出的某簇特征可能是月長(zhǎng)途電話分鐘數(shù)長(zhǎng)、上網(wǎng)時(shí)間長(zhǎng)、地理位置變化不大、月消費(fèi)數(shù)目低,分析可得這類(lèi)人極有可能是在校大學(xué)生,那么電信公司就可以針對(duì)這類(lèi)特定人群制定有針對(duì)性的營(yíng)銷(xiāo)策略。如超市訂單中有大量訂單同時(shí)包含啤酒與尿布,這其中的頻繁項(xiàng)就是啤酒和尿布,那么超市就可以針對(duì)這個(gè)規(guī)律對(duì)啤酒和尿布進(jìn)行組合促銷(xiāo)活動(dòng)。出發(fā)點(diǎn)很容易理解,距離分類(lèi)超平面近的那些點(diǎn)到該超平面的間隔最大化代表了該超平面對(duì)兩類(lèi)數(shù)據(jù)的區(qū)分度強(qiáng),不容易出現(xiàn)錯(cuò)分的情況。然后將測(cè)試數(shù)據(jù)分別帶入3個(gè)SVM模型中,得到的3個(gè)結(jié)果中的最大值則為最終的分類(lèi)結(jié)果。任何模型都是優(yōu)點(diǎn)與缺點(diǎn)并存的。SVM 的缺點(diǎn)是:1. 經(jīng)典的 SVM 算法僅支持二分類(lèi),對(duì)于多分類(lèi)問(wèn)題需要改動(dòng)模型。雖然這些名詞看起來(lái)很晦澀,但是深入探索后就會(huì)發(fā)現(xiàn)其中的思想并沒(méi)有那么復(fù)雜。因此,我們下面首先需要推導(dǎo)出SVM模型的目標(biāo)函數(shù)和約束條件。考慮到現(xiàn)實(shí)生活中的真實(shí)數(shù)據(jù),存在一些特異點(diǎn)即 outliers,這些數(shù)據(jù)點(diǎn)并不滿足上面推導(dǎo)出的約束條件,如圖 4所示,圖中點(diǎn) A 就是 outlier 特異點(diǎn)。. 拉格朗日對(duì)偶對(duì)于凸二次優(yōu)化問(wèn)題,通過(guò)引入拉格朗日乘子,將目標(biāo)函數(shù)和約束條件整合到拉格朗日函數(shù)中,這樣能方便求解最值問(wèn)題。對(duì)三個(gè)變量分別求偏導(dǎo)得: 將以上三式帶入拉格朗日函數(shù)中得:那么極大極小化拉格朗日函數(shù)轉(zhuǎn)換成:為求解方便,將極大轉(zhuǎn)換成極小得: . 核函數(shù)對(duì)于線性不可分問(wèn)題,如圖 2所示,這類(lèi)問(wèn)題是無(wú)法用超平面劃分正負(fù)樣本數(shù)據(jù)的。這點(diǎn)非常有用,利用核函數(shù),無(wú)需先將變量一一映射到高維空間再計(jì)算內(nèi)積,而是簡(jiǎn)單得在低維空間中利用核函數(shù)完成這一操作。運(yùn)用核函數(shù)后,最優(yōu)化問(wèn)題的目標(biāo)函數(shù)和約束條件變?yōu)椋? . 序列最小優(yōu)化 (Sequential minimal optimization)到目前為止,優(yōu)化問(wèn)題已經(jīng)轉(zhuǎn)化成了一個(gè)包含 N 個(gè) alpha 自變量的目標(biāo)變量和兩個(gè)約束條件。為何不能每次只選一個(gè)自變量進(jìn)行優(yōu)化?那是因?yàn)橹贿x一個(gè)自變量 alpha 的話,會(huì)違反第一個(gè)約束條件,即所有 alpha 和 y 值乘積的和等于 0。按上述方法不斷選擇一對(duì) alpha 并更新,直到達(dá)到最大迭代次數(shù)或所有 alpha 都不再變化,則停止迭代。在文章一開(kāi)始,筆者提到機(jī)器學(xué)習(xí)主要分為四大類(lèi),分別是分類(lèi),聚類(lèi),回歸和關(guān)聯(lián)分析。生活中的數(shù)據(jù)本身包含著各種規(guī)律,機(jī)器學(xué)習(xí)模型可以從數(shù)據(jù)中挖掘出這些規(guī)律,啤酒與尿布就是一個(gè)典型的例子。頻繁項(xiàng)集是在數(shù)據(jù)庫(kù)中大量頻繁出現(xiàn)的數(shù)據(jù)集合。2. 用于發(fā)現(xiàn)共現(xiàn)詞。同理,頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則也頻繁得共同出現(xiàn)在搜索記錄中。其中 Apriori 算法需要多次掃描數(shù)據(jù)庫(kù),這就使得該算法本身不適合大數(shù)據(jù)量。挖掘出頻繁項(xiàng)集后,可以從頻繁項(xiàng)集中進(jìn)一步挖掘關(guān)聯(lián)規(guī)則。舉個(gè)例子,有關(guān)聯(lián)規(guī)則如:{39。} {39。這其中需要先闡明兩個(gè)概念:支持度和置信度。, 39。, 39。有關(guān)聯(lián)規(guī)則如{39。} {39。, 39。}的支持度/{39。}的支持度。面包39。雞蛋39。雞蛋39。牛奶39。在信息安全領(lǐng)域,需要根據(jù)已有流量數(shù)據(jù)制定規(guī)則,來(lái)判斷是否觸發(fā)安全報(bào)警。
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1