freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機器學(xué)習(xí)簡明原理(留存版)

2025-08-01 07:13上一頁面

下一頁面
  

【正文】 頻繁項集 置信度,頻繁項集 關(guān)聯(lián)規(guī)則等備選記錄,我們每每都會感嘆瀏覽器的智能,其實這里的秘訣就是頻繁項集。, 39。}的支持度就是 5/10 = 。, 39。面包39。本節(jié)用如下表所示的數(shù)據(jù)集作為例子展開,該示例數(shù)據(jù)集共四條數(shù)據(jù)。接著,創(chuàng)建條件 FP 樹,具體的創(chuàng)建過程和上一節(jié)創(chuàng)建 FP 樹的過程一樣,如圖 10所示。在樸素貝葉斯中會將頻數(shù)進一步轉(zhuǎn)換成頻率。從而得:log(P(X|C0) *P(C0) ) = log(P(X|C0)) + log(P(C0)) = log(P(X0|C0)) + log(P(X1|C0)) + log(P(X2|C0)) + …+ log(P(Xn|C0)) + log(P(C0)),同理可得 log(P(X|C1) *game39。study39。, 39。, 39。決策樹需要選擇最優(yōu)特征劃分?jǐn)?shù)據(jù)集。選擇最優(yōu)特征的算法有很多種,ID3 決策樹用信息增益選擇最優(yōu)特征, 決策樹用信息增益比選擇最優(yōu)特征。 圓的:0, 分類:0}接下來需要對數(shù)據(jù)子集{圓的:1,分類:1。. 決策樹選擇最優(yōu)特征表格 8數(shù)據(jù)集的信息熵為:1/5 * log(1/5) 4/5 * log(4/5) = 1. 按特征圓的劃分?jǐn)?shù)據(jù)集,則信息熵為:3/5 * H(D1) + 2/5 * H(D0)= 3/5 * [1/3 * log(1/3) – 2/3 * log(2/3)] + 2/5 * [2/2 * log(2/2)]= 則信息增益為: – = 數(shù)據(jù)集關(guān)于特征圓的的取值的熵為:3/5 * log(3/5) – 2/5 * log(2/5) = / = 2. 按特征紅的劃分?jǐn)?shù)據(jù)集,則信息熵為:2/5 * H(D1) + 3/5 * H(D0)= 2/5 * [1/2 * log(1/2) – 1/2 * log(1/2)] + 3/5 * [3/3*log(3/3)]= 則信息增益為: – =數(shù)據(jù)集關(guān)于特征紅的的取值的熵為:2/5 * log(2/5) – 3/5 * log(3/5) = 則信息增益比為 / = 綜上所述,由于按特征紅的比按特征圓的劃分的信息增益比大,所以特征紅的為最優(yōu)劃分特征。圖 13 分類樹示例回歸樹用來處理回歸問題。由于剩下一個特征,故按特征圓的劃分?jǐn)?shù)據(jù)集。其中子集{面積 = 20,價格 = 。也可以將同一算法的不同設(shè)置進行組合,這樣訓(xùn)練的模型比單一設(shè)置模型的訓(xùn)練精度高。弱分類器的權(quán)重計算公式如下:可以看出,錯誤率越小,則 alpha 值越大,即該弱分類器的權(quán)重越高;反之,錯誤率越大,則 alpha 值越小,則該弱分類器的權(quán)重越小。表格 11 示例數(shù)據(jù)集x012345y111111. 第一輪迭代 選擇最優(yōu)弱分類器第一輪迭代時,樣本權(quán)重初始化為(, , , , , )。此時錯誤率為2 * = 。 * 4 = 。按G(x)分類會使x=4分類錯誤,則強分類器的錯誤率為1 / 6 = 。,則最優(yōu)弱分類器為x ,則 y = 1。聚類模型中比較經(jīng)典的模型當(dāng)屬高斯混合模型和 Kmeans 模型。. 高斯混合原理和 Kmeans 模型類似,高斯混合模型主要分為兩步,Expectation(期望)和 Maximization(最大化)。這兩個概率和為1。最大似然估計,即求使得觀察到的數(shù)據(jù)出現(xiàn)的概率最大化對應(yīng)的參數(shù)值。E 步驟,即求似然函數(shù)的最緊下界,需要讓上面的不等式中的等式成立。這就是EM算法的思想。在高斯混合模型期望這一步中,需要求解的是每個樣本點屬于男女生兩類的概率。圖 16 未知類別身高分布當(dāng)我們只有身高數(shù)據(jù)的時候,如何將身高數(shù)據(jù)聚成男女生兩個簇?這就是高斯混合分布可以解決的問題。9. 高斯混合模型基本原理. 高斯混合簡介在本系列的前六篇中,筆者分別介紹了分類,關(guān)聯(lián)規(guī)則兩種模型。 * 3 = 。G1(x)為x ,則 y = 1。 x , 則 y = 1。 x , 則 y = 1。本例用到的數(shù)據(jù)集如表1所示。I指示函數(shù)取值為1或0,當(dāng)I指示函數(shù)括號中的表達式為真時,I 函數(shù)結(jié)果為1;當(dāng)I函數(shù)括號中的表達式為假時,I 函數(shù)結(jié)果為0。這需要將弱分類器替換成回歸模型,并改動損失函數(shù)。}}}}. 回歸樹表格 10 示例數(shù)據(jù)集面積/平米價格/萬20213536選擇最優(yōu)特征1. 按特征面積 = 20 劃分?jǐn)?shù)據(jù)集,y1 均值為 ,y2 均值為( + + ) / 3 = ,則平方誤差為:0 + ( – )2+ ( – )2+( – )2 = 2. 按特征面積 = 21 劃分?jǐn)?shù)據(jù)集,則平方誤差為:y1 均值為( + )/ 2 = ,y2 均值為( + ) / 2 = ,則平方誤差為:( –)2+( –)2+ ( –)2+( –)2 = 3. 面積 = 35 劃分?jǐn)?shù)據(jù)集,則平方誤差為:y1 均值為( + + ) / 3 = ,y2 均值為 ,則平方誤差為:( –)2+ ( –)2+( –)2+ 0 = 綜上所述,由于按特征面積 = 21 比特征面積 = 面積 = 35 劃分的平方誤差小,所以特征面積 = 21 為切分點。按最優(yōu)特征劃分?jǐn)?shù)據(jù)集按特征紅的劃分?jǐn)?shù)據(jù)集后,有兩種情況,第一種為如果是紅的:0,則分類:0。分類樹和 ID,都用來處理分類問題。, 1: 39。利用 決策樹進行分類的過程會在下節(jié)介紹。因為按屬性取值多的特征劃分?jǐn)?shù)據(jù)集后,劃分后的各個子數(shù)據(jù)集的類別更單一,即更趨于有序,這就使得劃分后的信息熵更小,那么信息增益就會更大。如圖中所示,圓的和紅的,就是蘋果。 , 所以 log(P(X|C1) *P(C1) ) log(P(X|C0) *P(C0) ), 即 P(C1|X) P(C0|X),可得測試文本{39。, 39。book39。study39。又有 P(C) = |Dc| / |D|, 表示類別為 C 的樣本集合大小除以數(shù)據(jù)集 D 的樣本集合大小。之所以稱之為樸素,是因為樸素貝葉斯模型假設(shè)各屬性之間是條件獨立的,該假設(shè)極大得簡化了運算,使得樸素貝葉斯模型變得非常簡單。然后對條件 FP 樹中的每個頻繁項,獲得前綴路徑并以此構(gòu)建新的條件 FP 樹。異常39。面包39。, 39。}的有 5 條記錄,那么{39。關(guān)聯(lián)規(guī)則指由集合 A,可以在某置信度下推出集合 B。如同啤酒與尿布的例子,超市如果將啤酒和尿布放在相鄰的位置,會增加兩者的銷量。假設(shè)選出了兩個自變量分別是 alpha1 和 alpha2,除了這兩個自變量之外的其他自變量保持固定,則目標(biāo)變量和約束條件轉(zhuǎn)化為: 將約束條件中的 alpha1 用 alpha2 表示,并代入目標(biāo)函數(shù)中,則將目標(biāo)函數(shù)轉(zhuǎn)化成只包含 alpha2 的目標(biāo)函數(shù),讓該目標(biāo)函數(shù)對 alpha2 的偏導(dǎo)等于 0: 可求得 alpha2 未經(jīng)修剪的值: 之所以說 alpha2 是未經(jīng)修剪的值是因為所有 alpha 都必須滿足大于等于 0 且小于等于 C 的約束條件,用此約束條件將 alpha2 進行修剪,修剪過程如下: 由此得: 分兩種情況討論:情況 y1 等于 y2 時,有: 情況 y1 不等于 y2 時,有:修剪后,可得 alpha2 的取值如下:由 alpha2 和 alpha1 的關(guān)系,可得:在完成 alpha1 和 alpha2 的一輪更新后,需要同時更新 b 的值,當(dāng) alpha1 更新后的值滿足 0alpha1C 時,由 KKT 條件得:由于篇幅有限,在此就不把推導(dǎo)過程一一列舉,可得:同樣的道理,當(dāng) alpha2 更新后的值滿足 0alpha1C 時可得:若更新后的 alpha1 和 alpha2 同時滿足大于 0 且小于 C 的條件,那么 b 就等于 b1 等于 b2;否則,b 取 b1 和 b2 的中點。原最優(yōu)化問題的對偶問題為:. 最優(yōu)化問題求解到此為止,已經(jīng)將目標(biāo)函數(shù)和約束條件轉(zhuǎn)換成了極大極小化拉格朗日函數(shù)的問題了。類別型數(shù)據(jù)即男、 女這類由字符串表示某類信息的數(shù)據(jù),需將這類數(shù)據(jù)轉(zhuǎn)換成離散型數(shù)據(jù)如 2。支持向量機即 support vector machine(簡稱 SVM),是機器學(xué)習(xí)領(lǐng)域經(jīng)典的分類算法。聚類是將大量不帶標(biāo)簽的數(shù)據(jù)根據(jù)距離聚集成不同的簇,每一簇數(shù)據(jù)有共同的特征。這其中有很多原因,比如數(shù)據(jù)預(yù)處理的效果、訓(xùn)練集的大小、特征值的選擇、參數(shù)設(shè)置以及核函數(shù)的選擇等因素。圖 3 樣本數(shù)關(guān)于w*x + b的取值符號定義幾何間隔中最小的為:由此,可以得到間隔最大化問題的目標(biāo)函數(shù):并遵循如下約束條件: 做如下變換:則目標(biāo)函數(shù)轉(zhuǎn)換為:相應(yīng)的約束條件變?yōu)椋? 做如下變換:可得目標(biāo)函數(shù)和約束條件變?yōu)椋? 由于 w, b 成倍數(shù)變化并不會影響超平面的公式,所以:此時得到最終的間隔最大化的目標(biāo)函數(shù)和約束條件如下:但是,到這里并沒有真正得結(jié)束。較常用的核函數(shù)是高斯核,高斯核可以將低維空間映射到無窮維。關(guān)聯(lián)分析分為頻繁項集挖掘和關(guān)聯(lián)規(guī)則挖掘。主流的頻繁項集挖掘算法有 Apriori 和 FPgrowth。關(guān)聯(lián)規(guī)則可以用來發(fā)現(xiàn)很多有趣的規(guī)律。面包39。, 39?,F(xiàn)實場景中可以用來發(fā)現(xiàn)很多規(guī)律,下面舉個例子。接著,將出現(xiàn)次數(shù)小于最小支持度 2 的元素(即 e)在數(shù)據(jù)集中刪除,并將數(shù)據(jù)集按出現(xiàn)次數(shù)由高到低排序,得表格 2。由于元素 b 也是頻繁項,所以{c,b}也是頻繁項集。. 樸素貝葉斯原理樸素貝葉斯模型主要利用貝葉斯公式進行展開。表格 4 示例訓(xùn)練數(shù)據(jù)集類別訓(xùn)練文本139。, 39。student39。book39。而CART決策樹,即分類回歸樹,直接支持連續(xù)型屬性值。我們都知道物理中的熵用來衡量混亂程度,熵越大說明越混亂,熵越小說明越單一。為信息增益 g(D,A) 與數(shù)據(jù)集 D 關(guān)于特征 A 的取值的熵 HA(D) 的比值,即其中,其中,n 是特征 A 取值的個數(shù)。紅的39。這就導(dǎo)致了劃分過于迅速,從而影響分類結(jié)果。圖 14 回歸樹示例. CART 樹原理. 分類樹二分分類樹利用二分劃分?jǐn)?shù)據(jù)。類別 039。本文將要介紹的是分類模型中的另一種模型,AdaBoost(adaptive boosting),即自適應(yīng)提升算法。G(x) = sign( * f(x) + * g(x) + * z(x) ). AdaBoost原理AdaBoost 的核心就是不斷迭代訓(xùn)練弱分類器,并計算弱分類器的權(quán)重。w 是樣本權(quán)重。,得弱分類器x ,則 y = 1。G1(x)為x ,則 y = 1。 x , 則 y = 1。 x , 則 y = 1。 x , 則 y = 1。不斷迭代這兩個步驟,當(dāng)聚類中心不再發(fā)生變化或者達到最大迭代次數(shù)時結(jié)束。如上一節(jié)中所介紹,如果我們知道每條樣本所屬的類別后,可以很容易得計算出男女生兩個類所對應(yīng)的高斯分布的參數(shù)。只不過,在混合高斯模型中,需要計算高斯分布的參數(shù):均值 mu,方差 sigma 和男女生類別概率 phi。因
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1