freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機器學(xué)習(xí)簡明原理-免費閱讀

2025-07-11 07:13 上一頁面

下一頁面
  

【正文】 而提到的求似然函數(shù)的最緊下界,就是 EM 算法的 E 步驟。為了方便計算,對這個概率乘積加上 log,得到 log 似然函數(shù):其中 theta 是三個模型參數(shù),即每個聚類對應(yīng)高斯分布的均值 mu,方差 sigma,男女生兩個類別的概率 phi。這種參數(shù)估計的思想,先隨機初始化模型參數(shù)(每個類別對應(yīng)的高斯分布的均值,方差,和每個類別的概率),然后利用模型參數(shù)更新隱變量(每個樣本屬于男女生兩類的概率)。上面的公式利用了經(jīng)典的貝葉斯公式求解。隨機初始化模型參數(shù)后,Kmeans 會根據(jù)每個樣本點到簇中心的距離決定每個樣本屬于哪個簇。. Expectation (期望)考慮男女生身高這個例子,假設(shè)有 20 個身高樣本數(shù)據(jù),但是并不知道每個樣本數(shù)據(jù)是來自男生還是女生。圖 15 身高分布但是,現(xiàn)實中很多時候我們往往無法得知采樣樣本是來自哪個類,如下圖所示。Kmeans 模型先隨機初始化聚類中心,然后計算所有樣本到k個聚類中心的距離,將樣本歸入離其最近的一個聚類中心所在的簇。按G(x)分類所有樣本均分類正確,則強分類器的錯誤率為0 / 6 = 0。 計算最優(yōu)弱分類器的權(quán)重alpha = * ln((1 –) / ) = 更新樣本權(quán)重x = 2, 3時,y分類正確,則樣本權(quán)重為: * exp() = x = 4 時,y分類正確,則樣本權(quán)重為: * exp() = x = 0, 1, 5時,y分類錯誤,則樣本權(quán)重為: * exp() = 新樣本權(quán)重總和為 * 2 + + * 3 = 規(guī)范化后,x = 2, 3時,樣本權(quán)重更新為: / = x = 4時, 樣本權(quán)重更新為: / = x = 0, 1, 5時, 樣本權(quán)重更新為: / = 綜上,新的樣本權(quán)重為(, , , , , )。,得弱分類器x ,則 y = 1。 x , 則 y = 1。 更新樣本權(quán)重x = 0, 1, 5時,y分類正確,則樣本權(quán)重為: * exp() = x = 4 時,y分類正確,則樣本權(quán)重為: * exp() = x = 2,3時,y分類錯誤,則樣本權(quán)重為: * exp() = 新樣本權(quán)重總和為 * 3 + + * 2 = 規(guī)范化后,x = 0, 1, 5時,樣本權(quán)重更新為: / = x = 4時, 樣本權(quán)重更新為: / = x = 2, 3時, 樣本權(quán)重更新為: / = 綜上,新的樣本權(quán)重為(, , , , , )。 x , 則 y = 1。 * 4 = 。 x , 則 y = 1。此時錯誤率為2 * = 。,得弱分類器x ,則 y = 1。終止條件是強分類器的錯誤率低于最低錯誤率閾值或達到最大迭代次數(shù)。. 根據(jù)錯誤率更新樣本權(quán)重樣本權(quán)重的更新與當前樣本權(quán)重和弱分類器的權(quán)重有關(guān)。i代表第i個樣本。AdaBoost 算法只直接支持二分類,遇到多分類的情況,需要借助 oneversusrest 的思想來訓(xùn)練多分類模型。各個弱分類器的權(quán)重是不同的,效果好的弱分類器的權(quán)重大,效果差的弱分類器的權(quán)重小。 面積 = 36, 價格 = }的葉節(jié)點值為 ( + ) / 2 = 。, 1: 39。返回的決策樹為:{39。若數(shù)據(jù)集按特征取值是否大于切分點值劃分為兩部分,則在特征A下,集合D的平方誤差為:. 用 CART 樹進行分類和回歸本節(jié)主要用示例數(shù)據(jù)詳細說明如何用 CART 樹進行分類和回歸。如圖 14所示就是一個回歸樹,其中 s 是切分點,x 是特征,y 是目標變量。我們知道分類和回歸是機器學(xué)習(xí)領(lǐng)域兩個重要的方向。7. 分類回歸樹基本原理在上節(jié)中,主要介紹了 ID3 和 決策樹。: {0: 39。由于剩下一個特征,故按特征圓的劃分數(shù)據(jù)子集。. 用 ID3 決策樹進行分類本節(jié)主要介紹用 ID3 決策樹進行分類。信息增益越大,說明劃分后的數(shù)據(jù)集信息熵更小,即該數(shù)據(jù)集類別更趨于一致。為什么要提出信息增益比呢?這是因為只考慮信息增益來劃分數(shù)據(jù)集是有缺陷的。用最優(yōu)特征劃分數(shù)據(jù)會使得數(shù)據(jù)集趨于更純,即數(shù)據(jù)集的類別數(shù)更單一,這樣的數(shù)據(jù)會更有序。為了讓讀者有一個感性的認識,請看圖 12所示決策樹。}屬于類別 1。為防止小數(shù)連乘造成結(jié)果幾乎為 0,引入 log 函數(shù),由于測試文本只包含 X0, X2, X3, 得:log(P(X|C0) *P(C0) ) = log(P(X0|C0)) + log(P(X2|C0)) + log(P(X3|C0)) + log(P(C0))log(P(X|C1) *P(C1) ) = log(P(X0|C1)) + log(P(X2|C1)) + log(P(X3|C1)) + log(P(C1))代入數(shù)據(jù),得P(X0|C0) =P(X2|C0) =P(X3|C0) = (0 + 1) / (5 + 2) = 1/7,P(C0) =P(C1) = 2 / 4,P(X0|C1) =P(X2|C1) = (2 + 1) / (6 + 2) = 3/8,P(X3|C1) = (1 + 1) / (6 + 2) = 2/8,故可得:log(P(X|C0) *P(C0) ) = log(1/7) + log(1/7) + log(1/7) + log(2/4) = log(P(X|C1) *P(C1) ) = log(3/8) + log(3/8) + log(2/8) + log(2/4) = . 根據(jù)后驗概率分類由上一章知,因此后驗概率 P(C0|X)只需考慮 P(X|C0) *P(C0) ,同理后驗概率 P(C1|X)只需考慮 P(X|C1) *P(C1)。 ]可以看出,重復(fù)的39。, 39。將表 1 中示例數(shù)據(jù)集表示成詞向量如下:[ 39。yes39。sky39。campus39。. 用樸素貝葉斯進行文本分類利用樸素貝葉斯模型進行文本分類,首先需要將文本表示成詞向量,再從詞向量中計算得到條件概率 P(X|C)和先驗概率 P(C),然后利用條件概率 P(X|C)與先驗概率 P(C)計算后驗概率 P(C0|X)、P(C1|X)。樸素貝葉斯假設(shè)屬性之間條件獨立,可得:P(X|C) =P(X0|C) *P(X1|C) *P(X2|C) *P(X3|C) *… *P(Xn|C)令 Dc 表示訓(xùn)練集 D 中第 C 類樣本組成的集合,可得:P(Xi|C) = |Dc,xi| / |Dc,x|,表示類別為 C 的樣本在第 i 個屬性上頻數(shù)總和除以類別為 C 的樣本集合中所有屬性頻數(shù)總和。樸素貝葉斯模型也有它的優(yōu)缺點,優(yōu)點是模型簡單,計算快;缺點是依賴于屬性之間條件獨立這一假設(shè),但是現(xiàn)實場景下很多情況并不滿足這一假設(shè),使得樸素貝葉斯的準確率受到影響。對每條規(guī)則計算置信度后,輸出滿足要求的規(guī)則即可。1. 對元素 a,獲得前綴路徑為{ },則頻繁項集返回{c,a}。圖 6 向FP樹添加第一條記錄{ a,b,c }圖 7向FP樹添加第二條記錄{ a,b,c,d }圖 8向FP樹添加第三條記錄{ a ,d }圖 9向FP樹添加第四條記錄{ a ,b }. 挖掘頻繁項集得到 FP 樹后,需要對每一個頻繁項,逐個挖掘頻繁項集。頭指針表包含所有頻繁項及它們的頻數(shù),還有每個頻繁項指向下一個相同元素的指針,該指針主要在挖掘 FP 樹時使用。多個ip地址同時發(fā)送數(shù)據(jù)39。牛奶39。雞蛋39。}的支持度。, 39。有關(guān)聯(lián)規(guī)則如{39。, 39。} {39。挖掘出頻繁項集后,可以從頻繁項集中進一步挖掘關(guān)聯(lián)規(guī)則。同理,頻繁項集和關(guān)聯(lián)規(guī)則也頻繁得共同出現(xiàn)在搜索記錄中。頻繁項集是在數(shù)據(jù)庫中大量頻繁出現(xiàn)的數(shù)據(jù)集合。在文章一開始,筆者提到機器學(xué)習(xí)主要分為四大類,分別是分類,聚類,回歸和關(guān)聯(lián)分析。為何不能每次只選一個自變量進行優(yōu)化?那是因為只選一個自變量 alpha 的話,會違反第一個約束條件,即所有 alpha 和 y 值乘積的和等于 0。這點非常有用,利用核函數(shù),無需先將變量一一映射到高維空間再計算內(nèi)積,而是簡單得在低維空間中利用核函數(shù)完成這一操作。. 拉格朗日對偶對于凸二次優(yōu)化問題,通過引入拉格朗日乘子,將目標函數(shù)和約束條件整合到拉格朗日函數(shù)中,這樣能方便求解最值問題。因此,我們下面首先需要推導(dǎo)出SVM模型的目標函數(shù)和約束條件。SVM 的缺點是:1. 經(jīng)典的 SVM 算法僅支持二分類,對于多分類問題需要改動模型。然后將測試數(shù)據(jù)分別帶入3個SVM模型中,得到的3個結(jié)果中的最大值則為最終的分類結(jié)果。如超市訂單中有大量訂單同時包含啤酒與尿布,這其中的頻繁項就是啤酒和尿布,那么超市就可以針對這個規(guī)律對啤酒和尿布進行組合促銷活動。其中提到的規(guī)律有很多種,比如分類、聚類、回歸、關(guān)聯(lián)分析等?;貧w是根據(jù)特征值、目標變量擬合出特征值與目標變量之間的函數(shù)關(guān)系,可用來估計特征值對應(yīng)的目標變量的可能取值。如圖 1所示,支持向量到超平面1的間隔大于支持向量到超平面2的間隔,因此超平面1優(yōu)于超平面2。SVM的優(yōu)點是:1. 可以解決線性不可分的情況。. 軟間隔最大化SVM的核心思路是最大化支持向量到分隔超平面的間隔。圖 4 Outlier特異點為了解決這種問題,對每個樣本點引進一個松弛變量,使得約束條件變?yōu)椋哼@樣給 outlier 的約束條件加上一個變量,使其可以滿足大于等于 1 的條件。倘若能將超平面換成超曲面,則可以將正負樣本正確分類,如圖 5所示。由于目標變量中自變量 alpha 有 N 個,為了便與求解,每次選出一對自變量 alpha,然后求目標函數(shù)關(guān)于其中一個 alpha 的偏導(dǎo),這樣就可以得到這一對 alpha 的新值。有朋友就會問,求出 alpha 之后呢?如何判斷新樣本數(shù)據(jù)屬于 1 還是1 呢?別忘了,在最優(yōu)化求解一節(jié),我們得到了如下:若 f(x)大于 0,則新樣本數(shù)據(jù)屬于 1;否則,新樣本數(shù)據(jù)屬于1。有研究發(fā)現(xiàn),在超市的訂單記錄中,啤酒和尿布總是頻繁共同出現(xiàn)在同一條訂單記錄里。這種場景其實我們經(jīng)常會遇到。FPgrowth,即 Frequent Pattern Growth,它通過構(gòu)建 FP 樹(即 Frequent Pattern Tree)這樣的數(shù)據(jù)結(jié)構(gòu),巧妙得將數(shù)據(jù)存儲在 FP 樹中,只需要在構(gòu)建 FP 樹時掃描數(shù)據(jù)庫兩次,后續(xù)處理就不需要再訪問數(shù)據(jù)庫了。雞蛋39。. 支持度 Support支持度指某頻繁項集在整個數(shù)據(jù)集中的比例。面包39。牛奶39。雞蛋39。, 39。, 39。如規(guī)則{39。. 頻繁項集挖掘原理頻繁項集挖掘分為構(gòu)建 FP 樹,和從 FP 樹中挖掘頻繁項集兩步。創(chuàng)建 FP 樹時,當待添加的記錄與 FP 樹中的路徑相同,則只需更新元素對應(yīng)的頻數(shù);如果待添加的記錄與 FP 樹存在不一致,則在不一致的地方分叉,創(chuàng)建新的結(jié)點。首先,獲得以 c 元素的前綴路徑{a:2,b:2},注意此處 a 和 b 的頻數(shù)為 2 是因為 c 的頻數(shù)為 2,所以與 c 共同出現(xiàn)的 a 和 b 的頻數(shù)就都為 2。圖 11 b元素的前綴路徑構(gòu)成的條件FP樹將其他元素 a,b,d 同樣按照上述對 c 的操作,得到表格 3所示頻繁項集。詞向量的每一項是該詞出現(xiàn)的頻數(shù)。其中 P(C)稱為先驗概率,P(X|C)是條件概率,P(C|X)稱為后驗概率,將后驗概率最大的類
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1