freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機(jī)器學(xué)習(xí)簡(jiǎn)明原理-免費(fèi)閱讀

  

【正文】 而提到的求似然函數(shù)的最緊下界,就是 EM 算法的 E 步驟。為了方便計(jì)算,對(duì)這個(gè)概率乘積加上 log,得到 log 似然函數(shù):其中 theta 是三個(gè)模型參數(shù),即每個(gè)聚類對(duì)應(yīng)高斯分布的均值 mu,方差 sigma,男女生兩個(gè)類別的概率 phi。這種參數(shù)估計(jì)的思想,先隨機(jī)初始化模型參數(shù)(每個(gè)類別對(duì)應(yīng)的高斯分布的均值,方差,和每個(gè)類別的概率),然后利用模型參數(shù)更新隱變量(每個(gè)樣本屬于男女生兩類的概率)。上面的公式利用了經(jīng)典的貝葉斯公式求解。隨機(jī)初始化模型參數(shù)后,Kmeans 會(huì)根據(jù)每個(gè)樣本點(diǎn)到簇中心的距離決定每個(gè)樣本屬于哪個(gè)簇。. Expectation (期望)考慮男女生身高這個(gè)例子,假設(shè)有 20 個(gè)身高樣本數(shù)據(jù),但是并不知道每個(gè)樣本數(shù)據(jù)是來(lái)自男生還是女生。圖 15 身高分布但是,現(xiàn)實(shí)中很多時(shí)候我們往往無(wú)法得知采樣樣本是來(lái)自哪個(gè)類,如下圖所示。Kmeans 模型先隨機(jī)初始化聚類中心,然后計(jì)算所有樣本到k個(gè)聚類中心的距離,將樣本歸入離其最近的一個(gè)聚類中心所在的簇。按G(x)分類所有樣本均分類正確,則強(qiáng)分類器的錯(cuò)誤率為0 / 6 = 0。 計(jì)算最優(yōu)弱分類器的權(quán)重alpha = * ln((1 –) / ) = 更新樣本權(quán)重x = 2, 3時(shí),y分類正確,則樣本權(quán)重為: * exp() = x = 4 時(shí),y分類正確,則樣本權(quán)重為: * exp() = x = 0, 1, 5時(shí),y分類錯(cuò)誤,則樣本權(quán)重為: * exp() = 新樣本權(quán)重總和為 * 2 + + * 3 = 規(guī)范化后,x = 2, 3時(shí),樣本權(quán)重更新為: / = x = 4時(shí), 樣本權(quán)重更新為: / = x = 0, 1, 5時(shí), 樣本權(quán)重更新為: / = 綜上,新的樣本權(quán)重為(, , , , , )。,得弱分類器x ,則 y = 1。 x , 則 y = 1。 更新樣本權(quán)重x = 0, 1, 5時(shí),y分類正確,則樣本權(quán)重為: * exp() = x = 4 時(shí),y分類正確,則樣本權(quán)重為: * exp() = x = 2,3時(shí),y分類錯(cuò)誤,則樣本權(quán)重為: * exp() = 新樣本權(quán)重總和為 * 3 + + * 2 = 規(guī)范化后,x = 0, 1, 5時(shí),樣本權(quán)重更新為: / = x = 4時(shí), 樣本權(quán)重更新為: / = x = 2, 3時(shí), 樣本權(quán)重更新為: / = 綜上,新的樣本權(quán)重為(, , , , , )。 x , 則 y = 1。 * 4 = 。 x , 則 y = 1。此時(shí)錯(cuò)誤率為2 * = 。,得弱分類器x ,則 y = 1。終止條件是強(qiáng)分類器的錯(cuò)誤率低于最低錯(cuò)誤率閾值或達(dá)到最大迭代次數(shù)。. 根據(jù)錯(cuò)誤率更新樣本權(quán)重樣本權(quán)重的更新與當(dāng)前樣本權(quán)重和弱分類器的權(quán)重有關(guān)。i代表第i個(gè)樣本。AdaBoost 算法只直接支持二分類,遇到多分類的情況,需要借助 oneversusrest 的思想來(lái)訓(xùn)練多分類模型。各個(gè)弱分類器的權(quán)重是不同的,效果好的弱分類器的權(quán)重大,效果差的弱分類器的權(quán)重小。 面積 = 36, 價(jià)格 = }的葉節(jié)點(diǎn)值為 ( + ) / 2 = 。, 1: 39。返回的決策樹(shù)為:{39。若數(shù)據(jù)集按特征取值是否大于切分點(diǎn)值劃分為兩部分,則在特征A下,集合D的平方誤差為:. 用 CART 樹(shù)進(jìn)行分類和回歸本節(jié)主要用示例數(shù)據(jù)詳細(xì)說(shuō)明如何用 CART 樹(shù)進(jìn)行分類和回歸。如圖 14所示就是一個(gè)回歸樹(shù),其中 s 是切分點(diǎn),x 是特征,y 是目標(biāo)變量。我們知道分類和回歸是機(jī)器學(xué)習(xí)領(lǐng)域兩個(gè)重要的方向。7. 分類回歸樹(shù)基本原理在上節(jié)中,主要介紹了 ID3 和 決策樹(shù)。: {0: 39。由于剩下一個(gè)特征,故按特征圓的劃分?jǐn)?shù)據(jù)子集。. 用 ID3 決策樹(shù)進(jìn)行分類本節(jié)主要介紹用 ID3 決策樹(shù)進(jìn)行分類。信息增益越大,說(shuō)明劃分后的數(shù)據(jù)集信息熵更小,即該數(shù)據(jù)集類別更趨于一致。為什么要提出信息增益比呢?這是因?yàn)橹豢紤]信息增益來(lái)劃分?jǐn)?shù)據(jù)集是有缺陷的。用最優(yōu)特征劃分?jǐn)?shù)據(jù)會(huì)使得數(shù)據(jù)集趨于更純,即數(shù)據(jù)集的類別數(shù)更單一,這樣的數(shù)據(jù)會(huì)更有序。為了讓讀者有一個(gè)感性的認(rèn)識(shí),請(qǐng)看圖 12所示決策樹(shù)。}屬于類別 1。為防止小數(shù)連乘造成結(jié)果幾乎為 0,引入 log 函數(shù),由于測(cè)試文本只包含 X0, X2, X3, 得:log(P(X|C0) *P(C0) ) = log(P(X0|C0)) + log(P(X2|C0)) + log(P(X3|C0)) + log(P(C0))log(P(X|C1) *P(C1) ) = log(P(X0|C1)) + log(P(X2|C1)) + log(P(X3|C1)) + log(P(C1))代入數(shù)據(jù),得P(X0|C0) =P(X2|C0) =P(X3|C0) = (0 + 1) / (5 + 2) = 1/7,P(C0) =P(C1) = 2 / 4,P(X0|C1) =P(X2|C1) = (2 + 1) / (6 + 2) = 3/8,P(X3|C1) = (1 + 1) / (6 + 2) = 2/8,故可得:log(P(X|C0) *P(C0) ) = log(1/7) + log(1/7) + log(1/7) + log(2/4) = log(P(X|C1) *P(C1) ) = log(3/8) + log(3/8) + log(2/8) + log(2/4) = . 根據(jù)后驗(yàn)概率分類由上一章知,因此后驗(yàn)概率 P(C0|X)只需考慮 P(X|C0) *P(C0) ,同理后驗(yàn)概率 P(C1|X)只需考慮 P(X|C1) *P(C1)。 ]可以看出,重復(fù)的39。, 39。將表 1 中示例數(shù)據(jù)集表示成詞向量如下:[ 39。yes39。sky39。campus39。. 用樸素貝葉斯進(jìn)行文本分類利用樸素貝葉斯模型進(jìn)行文本分類,首先需要將文本表示成詞向量,再?gòu)脑~向量中計(jì)算得到條件概率 P(X|C)和先驗(yàn)概率 P(C),然后利用條件概率 P(X|C)與先驗(yàn)概率 P(C)計(jì)算后驗(yàn)概率 P(C0|X)、P(C1|X)。樸素貝葉斯假設(shè)屬性之間條件獨(dú)立,可得:P(X|C) =P(X0|C) *P(X1|C) *P(X2|C) *P(X3|C) *… *P(Xn|C)令 Dc 表示訓(xùn)練集 D 中第 C 類樣本組成的集合,可得:P(Xi|C) = |Dc,xi| / |Dc,x|,表示類別為 C 的樣本在第 i 個(gè)屬性上頻數(shù)總和除以類別為 C 的樣本集合中所有屬性頻數(shù)總和。樸素貝葉斯模型也有它的優(yōu)缺點(diǎn),優(yōu)點(diǎn)是模型簡(jiǎn)單,計(jì)算快;缺點(diǎn)是依賴于屬性之間條件獨(dú)立這一假設(shè),但是現(xiàn)實(shí)場(chǎng)景下很多情況并不滿足這一假設(shè),使得樸素貝葉斯的準(zhǔn)確率受到影響。對(duì)每條規(guī)則計(jì)算置信度后,輸出滿足要求的規(guī)則即可。1. 對(duì)元素 a,獲得前綴路徑為{ },則頻繁項(xiàng)集返回{c,a}。圖 6 向FP樹(shù)添加第一條記錄{ a,b,c }圖 7向FP樹(shù)添加第二條記錄{ a,b,c,d }圖 8向FP樹(shù)添加第三條記錄{ a ,d }圖 9向FP樹(shù)添加第四條記錄{ a ,b }. 挖掘頻繁項(xiàng)集得到 FP 樹(shù)后,需要對(duì)每一個(gè)頻繁項(xiàng),逐個(gè)挖掘頻繁項(xiàng)集。頭指針表包含所有頻繁項(xiàng)及它們的頻數(shù),還有每個(gè)頻繁項(xiàng)指向下一個(gè)相同元素的指針,該指針主要在挖掘 FP 樹(shù)時(shí)使用。多個(gè)ip地址同時(shí)發(fā)送數(shù)據(jù)39。牛奶39。雞蛋39。}的支持度。, 39。有關(guān)聯(lián)規(guī)則如{39。, 39。} {39。挖掘出頻繁項(xiàng)集后,可以從頻繁項(xiàng)集中進(jìn)一步挖掘關(guān)聯(lián)規(guī)則。同理,頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則也頻繁得共同出現(xiàn)在搜索記錄中。頻繁項(xiàng)集是在數(shù)據(jù)庫(kù)中大量頻繁出現(xiàn)的數(shù)據(jù)集合。在文章一開(kāi)始,筆者提到機(jī)器學(xué)習(xí)主要分為四大類,分別是分類,聚類,回歸和關(guān)聯(lián)分析。為何不能每次只選一個(gè)自變量進(jìn)行優(yōu)化?那是因?yàn)橹贿x一個(gè)自變量 alpha 的話,會(huì)違反第一個(gè)約束條件,即所有 alpha 和 y 值乘積的和等于 0。這點(diǎn)非常有用,利用核函數(shù),無(wú)需先將變量一一映射到高維空間再計(jì)算內(nèi)積,而是簡(jiǎn)單得在低維空間中利用核函數(shù)完成這一操作。. 拉格朗日對(duì)偶對(duì)于凸二次優(yōu)化問(wèn)題,通過(guò)引入拉格朗日乘子,將目標(biāo)函數(shù)和約束條件整合到拉格朗日函數(shù)中,這樣能方便求解最值問(wèn)題。因此,我們下面首先需要推導(dǎo)出SVM模型的目標(biāo)函數(shù)和約束條件。SVM 的缺點(diǎn)是:1. 經(jīng)典的 SVM 算法僅支持二分類,對(duì)于多分類問(wèn)題需要改動(dòng)模型。然后將測(cè)試數(shù)據(jù)分別帶入3個(gè)SVM模型中,得到的3個(gè)結(jié)果中的最大值則為最終的分類結(jié)果。如超市訂單中有大量訂單同時(shí)包含啤酒與尿布,這其中的頻繁項(xiàng)就是啤酒和尿布,那么超市就可以針對(duì)這個(gè)規(guī)律對(duì)啤酒和尿布進(jìn)行組合促銷活動(dòng)。其中提到的規(guī)律有很多種,比如分類、聚類、回歸、關(guān)聯(lián)分析等。回歸是根據(jù)特征值、目標(biāo)變量擬合出特征值與目標(biāo)變量之間的函數(shù)關(guān)系,可用來(lái)估計(jì)特征值對(duì)應(yīng)的目標(biāo)變量的可能取值。如圖 1所示,支持向量到超平面1的間隔大于支持向量到超平面2的間隔,因此超平面1優(yōu)于超平面2。SVM的優(yōu)點(diǎn)是:1. 可以解決線性不可分的情況。. 軟間隔最大化SVM的核心思路是最大化支持向量到分隔超平面的間隔。圖 4 Outlier特異點(diǎn)為了解決這種問(wèn)題,對(duì)每個(gè)樣本點(diǎn)引進(jìn)一個(gè)松弛變量,使得約束條件變?yōu)椋哼@樣給 outlier 的約束條件加上一個(gè)變量,使其可以滿足大于等于 1 的條件。倘若能將超平面換成超曲面,則可以將正負(fù)樣本正確分類,如圖 5所示。由于目標(biāo)變量中自變量 alpha 有 N 個(gè),為了便與求解,每次選出一對(duì)自變量 alpha,然后求目標(biāo)函數(shù)關(guān)于其中一個(gè) alpha 的偏導(dǎo),這樣就可以得到這一對(duì) alpha 的新值。有朋友就會(huì)問(wèn),求出 alpha 之后呢?如何判斷新樣本數(shù)據(jù)屬于 1 還是1 呢?別忘了,在最優(yōu)化求解一節(jié),我們得到了如下:若 f(x)大于 0,則新樣本數(shù)據(jù)屬于 1;否則,新樣本數(shù)據(jù)屬于1。有研究發(fā)現(xiàn),在超市的訂單記錄中,啤酒和尿布總是頻繁共同出現(xiàn)在同一條訂單記錄里。這種場(chǎng)景其實(shí)我們經(jīng)常會(huì)遇到。FPgrowth,即 Frequent Pattern Growth,它通過(guò)構(gòu)建 FP 樹(shù)(即 Frequent Pattern Tree)這樣的數(shù)據(jù)結(jié)構(gòu),巧妙得將數(shù)據(jù)存儲(chǔ)在 FP 樹(shù)中,只需要在構(gòu)建 FP 樹(shù)時(shí)掃描數(shù)據(jù)庫(kù)兩次,后續(xù)處理就不需要再訪問(wèn)數(shù)據(jù)庫(kù)了。雞蛋39。. 支持度 Support支持度指某頻繁項(xiàng)集在整個(gè)數(shù)據(jù)集中的比例。面包39。牛奶39。雞蛋39。, 39。, 39。如規(guī)則{39。. 頻繁項(xiàng)集挖掘原理頻繁項(xiàng)集挖掘分為構(gòu)建 FP 樹(shù),和從 FP 樹(shù)中挖掘頻繁項(xiàng)集兩步。創(chuàng)建 FP 樹(shù)時(shí),當(dāng)待添加的記錄與 FP 樹(shù)中的路徑相同,則只需更新元素對(duì)應(yīng)的頻數(shù);如果待添加的記錄與 FP 樹(shù)存在不一致,則在不一致的地方分叉,創(chuàng)建新的結(jié)點(diǎn)。首先,獲得以 c 元素的前綴路徑{a:2,b:2},注意此處 a 和 b 的頻數(shù)為 2 是因?yàn)?c 的頻數(shù)為 2,所以與 c 共同出現(xiàn)的 a 和 b 的頻數(shù)就都為 2。圖 11 b元素的前綴路徑構(gòu)成的條件FP樹(shù)將其他元素 a,b,d 同樣按照上述對(duì) c 的操作,得到表格 3所示頻繁項(xiàng)集。詞向量的每一項(xiàng)是該詞出現(xiàn)的頻數(shù)。其中 P(C)稱為先驗(yàn)概率,P(X|C)是條件概率,P(C|X)稱為后驗(yàn)概率,將后驗(yàn)概率最大的類
點(diǎn)擊復(fù)制文檔內(nèi)容
研究報(bào)告相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1