freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

機器學(xué)習(xí)簡明原理-預(yù)覽頁

2025-07-11 07:13 上一頁面

下一頁面
 

【正文】 多個ip地址同時發(fā)送數(shù)據(jù)39。這條規(guī)則表示,當流量數(shù)據(jù)包大,并有多個ip地址同時向目標ip發(fā)送數(shù)據(jù)時,則有 85%的概率存在異常,需要觸發(fā)報警。頭指針表包含所有頻繁項及它們的頻數(shù),還有每個頻繁項指向下一個相同元素的指針,該指針主要在挖掘 FP 樹時使用。表格 2 示例數(shù)據(jù)集數(shù)據(jù)集a,b,ca,b,c,da,da,b然后,用更新后的數(shù)據(jù)集中的記錄創(chuàng)建 FP 樹,并同時更新頭指針表。圖 6 向FP樹添加第一條記錄{ a,b,c }圖 7向FP樹添加第二條記錄{ a,b,c,d }圖 8向FP樹添加第三條記錄{ a ,d }圖 9向FP樹添加第四條記錄{ a ,b }. 挖掘頻繁項集得到 FP 樹后,需要對每一個頻繁項,逐個挖掘頻繁項集。下面以元素 c 為例,從上文圖 9創(chuàng)建好的 FP 樹中挖掘頻繁項集。1. 對元素 a,獲得前綴路徑為{ },則頻繁項集返回{c,a}。再加上{c}本身就是頻繁項集,所以 c 對應(yīng)的頻繁項集有:{c} {c,a} {c,b} {c,b,a}。對每條規(guī)則計算置信度后,輸出滿足要求的規(guī)則即可。這里需要用到向量空間模型,即將文本轉(zhuǎn)換成詞向量。樸素貝葉斯模型也有它的優(yōu)缺點,優(yōu)點是模型簡單,計算快;缺點是依賴于屬性之間條件獨立這一假設(shè),但是現(xiàn)實場景下很多情況并不滿足這一假設(shè),使得樸素貝葉斯的準確率受到影響。貝葉斯公式如下:公式中 P(C|X)表示 X 屬于類別 C 的概率,P(X|C)表示類別 C 中 X 出現(xiàn)的概率,P(C)表示類別 C 出現(xiàn)的概率。樸素貝葉斯假設(shè)屬性之間條件獨立,可得:P(X|C) =P(X0|C) *P(X1|C) *P(X2|C) *P(X3|C) *… *P(Xn|C)令 Dc 表示訓(xùn)練集 D 中第 C 類樣本組成的集合,可得:P(Xi|C) = |Dc,xi| / |Dc,x|,表示類別為 C 的樣本在第 i 個屬性上頻數(shù)總和除以類別為 C 的樣本集合中所有屬性頻數(shù)總和。但是小數(shù)連乘會造成所得值幾乎等于 0 的結(jié)果,從而無法比較大小。. 用樸素貝葉斯進行文本分類利用樸素貝葉斯模型進行文本分類,首先需要將文本表示成詞向量,再從詞向量中計算得到條件概率 P(X|C)和先驗概率 P(C),然后利用條件概率 P(X|C)與先驗概率 P(C)計算后驗概率 P(C0|X)、P(C1|X)。book39。campus39。others39。sky39。 book 39。yes39。campus39。將表 1 中示例數(shù)據(jù)集表示成詞向量如下:[ 39。, 39。, 39。, 39。 ]可以看出,重復(fù)的39。, 39。為防止小數(shù)連乘造成結(jié)果幾乎為 0,引入 log 函數(shù),由于測試文本只包含 X0, X2, X3, 得:log(P(X|C0) *P(C0) ) = log(P(X0|C0)) + log(P(X2|C0)) + log(P(X3|C0)) + log(P(C0))log(P(X|C1) *P(C1) ) = log(P(X0|C1)) + log(P(X2|C1)) + log(P(X3|C1)) + log(P(C1))代入數(shù)據(jù),得P(X0|C0) =P(X2|C0) =P(X3|C0) = (0 + 1) / (5 + 2) = 1/7,P(C0) =P(C1) = 2 / 4,P(X0|C1) =P(X2|C1) = (2 + 1) / (6 + 2) = 3/8,P(X3|C1) = (1 + 1) / (6 + 2) = 2/8,故可得:log(P(X|C0) *P(C0) ) = log(1/7) + log(1/7) + log(1/7) + log(2/4) = log(P(X|C1) *P(C1) ) = log(3/8) + log(3/8) + log(2/8) + log(2/4) = . 根據(jù)后驗概率分類由上一章知,因此后驗概率 P(C0|X)只需考慮 P(X|C0) *P(C0) ,同理后驗概率 P(C1|X)只需考慮 P(X|C1) *P(C1)。, 39。}屬于類別 1。由于篇幅限制CART樹會放在下一篇文章進行介紹,本文主要詳細介紹 ID3 和 決策樹。為了讓讀者有一個感性的認識,請看圖 12所示決策樹。圓的但不紅的不是蘋果。用最優(yōu)特征劃分數(shù)據(jù)會使得數(shù)據(jù)集趨于更純,即數(shù)據(jù)集的類別數(shù)更單一,這樣的數(shù)據(jù)會更有序。同樣,信息熵用來衡量信息中的混亂程度。為什么要提出信息增益比呢?這是因為只考慮信息增益來劃分數(shù)據(jù)集是有缺陷的。信息增益比通過引入類似懲罰因子的概念,對屬性取值多的特征會有一定懲罰。信息增益越大,說明劃分后的數(shù)據(jù)集信息熵更小,即該數(shù)據(jù)集類別更趨于一致。HA(D) 就類似懲罰因子,對于屬性值多的特征,雖然信息增益 g(D,A) 會比較大,但是數(shù)據(jù)集 D 關(guān)于特征 A 的取值的熵 HA(D) 會比較大,因而兩者的比值信息增益比 gg(D,A) 會比較小。. 用 ID3 決策樹進行分類本節(jié)主要介紹用 ID3 決策樹進行分類。. 按最優(yōu)特征劃分數(shù)據(jù)集按特征紅的劃分數(shù)據(jù)集后,有兩種情況,第一種為如果是紅的:0,則分類:0。由于剩下一個特征,故按特征圓的劃分數(shù)據(jù)子集。: {0: 39。: {0: 39。}}}}. 用 決策樹進行分類為了讓讀者對 ID3 和 決策樹的不同之處有更好的理解,本節(jié)介紹用 決策樹進行分類。7. 分類回歸樹基本原理在上節(jié)中,主要介紹了 ID3 和 決策樹。在這篇文章中將要介紹的CART(Classification And Regression Tree)樹,即分類回歸樹利用二分策略,有效地避免了劃分過于迅速這一問題。我們知道分類和回歸是機器學(xué)習(xí)領(lǐng)域兩個重要的方向。分類樹利用基尼指數(shù)進行二分。如圖 14所示就是一個回歸樹,其中 s 是切分點,x 是特征,y 是目標變量。將特征值等于切分點值的數(shù)據(jù)劃分為左子樹,將特征值不等于切分點值的數(shù)據(jù)劃分為右子樹。若數(shù)據(jù)集按特征取值是否大于切分點值劃分為兩部分,則在特征A下,集合D的平方誤差為:. 用 CART 樹進行分類和回歸本節(jié)主要用示例數(shù)據(jù)詳細說明如何用 CART 樹進行分類和回歸。 圓的:0, 分類:0}接下來需要對數(shù)據(jù)子集{圓的:1,分類:1。返回的決策樹為:{39。, 1: {39。, 1: 39。 面積 = 21, 價格 = }, {面積 = 35,價格 = 。 面積 = 36, 價格 = }的葉節(jié)點值為 ( + ) / 2 = 。Boosting 是一類算法的總稱,這類算法的特點是通過訓(xùn)練若干弱分類器,然后將弱分類器組合成強分類器進行分類。各個弱分類器的權(quán)重是不同的,效果好的弱分類器的權(quán)重大,效果差的弱分類器的權(quán)重小。AdaBoost 算法有其獨特的優(yōu)點,那就是可以將不同的分類算法組合起來,形成強分類器。AdaBoost 算法只直接支持二分類,遇到多分類的情況,需要借助 oneversusrest 的思想來訓(xùn)練多分類模型。需要注意的是,弱分類器的訓(xùn)練依賴于樣本權(quán)重。i代表第i個樣本。注意,第一輪迭代計算時樣本權(quán)重初始化為總樣本數(shù)分之一。. 根據(jù)錯誤率更新樣本權(quán)重樣本權(quán)重的更新與當前樣本權(quán)重和弱分類器的權(quán)重有關(guān)。alpha 是弱分類器的權(quán)重。終止條件是強分類器的錯誤率低于最低錯誤率閾值或達到最大迭代次數(shù)。熟悉了 AdaBoost 原理的讀者,可以使用其他分類算法作為弱分類器。,得弱分類器x ,則 y = 1。 x , 則 y = 1。此時錯誤率為2 * = 。,得弱分類器x ,則 y = 1。 x , 則 y = 1。 x , 則 y = 1。 * 4 = 。,得弱分類器x ,則 y = 1。 x , 則 y = 1。此時錯誤率為2 * = 。 更新樣本權(quán)重x = 0, 1, 5時,y分類正確,則樣本權(quán)重為: * exp() = x = 4 時,y分類正確,則樣本權(quán)重為: * exp() = x = 2,3時,y分類錯誤,則樣本權(quán)重為: * exp() = 新樣本權(quán)重總和為 * 3 + + * 2 = 規(guī)范化后,x = 0, 1, 5時,樣本權(quán)重更新為: / = x = 4時, 樣本權(quán)重更新為: / = x = 2, 3時, 樣本權(quán)重更新為: / = 綜上,新的樣本權(quán)重為(, , , , , )。G2(x)為x ,則 y = 1。 x , 則 y = 1。此時錯誤率為1 * = 。,得弱分類器x ,則 y = 1。 x , 則 y = 1。 計算最優(yōu)弱分類器的權(quán)重alpha = * ln((1 –) / ) = 更新樣本權(quán)重x = 2, 3時,y分類正確,則樣本權(quán)重為: * exp() = x = 4 時,y分類正確,則樣本權(quán)重為: * exp() = x = 0, 1, 5時,y分類錯誤,則樣本權(quán)重為: * exp() = 新樣本權(quán)重總和為 * 2 + + * 3 = 規(guī)范化后,x = 2, 3時,樣本權(quán)重更新為: / = x = 4時, 樣本權(quán)重更新為: / = x = 0, 1, 5時, 樣本權(quán)重更新為: / = 綜上,新的樣本權(quán)重為(, , , , , )。G2(x)為x ,則 y = 1。按G(x)分類所有樣本均分類正確,則強分類器的錯誤率為0 / 6 = 0。在本篇中,筆者將介紹另一類模型, 聚類。Kmeans 模型先隨機初始化聚類中心,然后計算所有樣本到k個聚類中心的距離,將樣本歸入離其最近的一個聚類中心所在的簇。Kmeans 將樣本分到離其最近的聚類中心所在的簇,也就是每個樣本數(shù)據(jù)屬于某簇的概率非零即 1。圖 15 身高分布但是,現(xiàn)實中很多時候我們往往無法得知采樣樣本是來自哪個類,如下圖所示。由于該極大似然估計問題中包含隱變量和模型參數(shù),所以無法用傳統(tǒng)的求偏導(dǎo)的方法求得。. Expectation (期望)考慮男女生身高這個例子,假設(shè)有 20 個身高樣本數(shù)據(jù),但是并不知道每個樣本數(shù)據(jù)是來自男生還是女生。但是,往往我們不知道每個樣本所屬的類別。隨機初始化模型參數(shù)后,Kmeans 會根據(jù)每個樣本點到簇中心的距離決定每個樣本屬于哪個簇。在本節(jié)中先給出求解每個樣本點屬于男女生兩類的概率計算公式,具體計算公式的推導(dǎo)過程會在下一節(jié)介紹其中,mu、sigma 指高斯分布的均值和方差(如果是二維以上,則是協(xié)方差)。上面的公式利用了經(jīng)典的貝葉斯公式求解。這三個參數(shù)的計算公式如下,具體計算公式的推導(dǎo)過程會在下一節(jié)中介紹。這種參數(shù)估計的思想,先隨機初始化模型參數(shù)(每個類別對應(yīng)的高斯分布的均值,方差,和每個類別的概率),然后利用模型參數(shù)更新隱變量(每個樣本屬于男女生兩類的概率)。. 利用 EM 算法估計高斯混合的參數(shù)通過上文的介紹,讀者對高斯混合模型原理有了一定的了解。為了方便計算,對這個概率乘積加上 log,得到 log 似然函數(shù):其中 theta 是三個模型參數(shù),即每個聚類對應(yīng)高斯分布的均值 mu,方差 sigma,男女生兩個類別的概率 phi。Jensen 不等式利用了凹函數(shù)的不等式性質(zhì)。而提到的求似然函數(shù)的最緊下界,就是 EM 算法的 E 步驟。最終三個參數(shù)的解為:47 / 4
點擊復(fù)制文檔內(nèi)容
研究報告相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1