正文內(nèi)容

數(shù)據(jù)挖掘十大經(jīng)典算法(編輯修改稿)

2025-05-14 01:46 本頁面

　

【文章內(nèi)容簡介】計算期望（E），也就是將隱藏變量象能夠觀測到的一樣包含在內(nèi)從而計算最大似然的期望值；另外一步是最大化（M），也就是最大化在 E 步上找到的最大似然的期望值從而計算參數(shù)的最大似然估計。M 步上找到的參數(shù)然后用于另外一個 E 步計算，這個過程不斷交替進(jìn)行。Vapnik等人在多年研究統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上對線性分類器提出了另一種設(shè)計最佳準(zhǔn)則。其原理也從線性可分說起，然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中去，這種分類器被稱為支持向量機(jī)(Support Vector Machine,簡稱SVM)。支持向量機(jī)的提出有很深的理論背景。支持向量機(jī)方法是在近年來提出的一種新方法。SVM 的主要思想可以概括為兩點：(1) 它是針對線性可分情況進(jìn)行分析，對于線性不可分的情況，通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分，從而使得高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能；(2) 它基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面，使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。在學(xué)習(xí)這種方法時，首先要弄清楚這種方法考慮問題的特點，這就要從線性可分的最簡單情況討論起，在沒有弄懂其原理之前，不要急于學(xué)習(xí)線性不可分等較復(fù)雜的情況，支持向量機(jī)在設(shè)計時，需要用到條件極值問題的求解，因此需用拉格朗日乘子理論，但對多數(shù)人來說，以前學(xué)到的或常用的是約束條件為等式表示的方式，但在此要用到以不等式作為必須滿足的條件，此時只要了解拉格朗日理論的有關(guān)結(jié)論就行。介紹支持向量機(jī)將向量映射到一個更高維的空間里，在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大，分類器的總誤差越小。一個極好的指南是 Burges的《模式識別支持向量機(jī)指南》。van der Walt 和 Barnard 將支持向量機(jī)和其他分類器進(jìn)行了比較。動機(jī)有很多個分類器(超平面）可以把數(shù)據(jù)分開，但是只有一個能夠達(dá)到最大分割。我們通常希望分類的過程是一個機(jī)器學(xué)習(xí)的過程。這些數(shù)據(jù)點并不需要是中的點，而可以是任意(統(tǒng)計學(xué)符號)中或者 (計算機(jī)科學(xué)符號) 的點。我們希望能夠把這些點通過一個n1維的超平面分開，通常這個被稱為線性分類器。有很多分類器都符合這個要求，但是我們還希望找到分類最佳的平面，即使得屬于兩個不同類的數(shù)據(jù)點間隔最大的那個面，該面亦稱為最大間隔超平面。如果我們能夠找到這個面，那么這個分類器就稱為最大間隔分類器。四、數(shù)據(jù)挖掘十大經(jīng)典算法(4)AprioriApriori算法是種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。它的核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里，所有支持度大于最小支持度的項集稱為頻繁項集(簡稱頻集)，也常稱為最大項目集。在Apriori算法中，尋找最大項目集(頻繁項集)的基本思想是：算法需要對數(shù)據(jù)集進(jìn)行多步處理。第一步，簡單統(tǒng)計所有含一個元素項目集出現(xiàn)的頻數(shù)，并找出那些不小于最小支持度的項目集，即一維最大項目集。從第二步開始循環(huán)處理直到再沒有最大項目集生成。循環(huán)過程是：第k步中，根據(jù)第k1步生成的(k1)維最大項目集產(chǎn)生k維侯選項目集，然后對數(shù)據(jù)庫進(jìn)行搜索，得到侯選項目集的項集支持度，與最小支持度進(jìn)行比較，從而找到k維最大項目集。從算法的運(yùn)行過程，我們可以看出該Apriori算法的優(yōu)點：簡單、易理解、數(shù)據(jù)要求低，然而我們也可以看到Apriori算法的缺點：(1)在每一步產(chǎn)生侯選項目集時循環(huán)產(chǎn)生的組合過多，沒有排除不應(yīng)該參與組合的元素。(2)每次計算項集的支持度時，都對數(shù)據(jù)庫D中的全部記錄進(jìn)行了一遍掃描比較，如果是一個大型的數(shù)據(jù)庫的話，這種掃描比較會大大增加計算機(jī)系統(tǒng)的I/O開銷。而這種代價是隨著數(shù)據(jù)庫的記錄的增加呈現(xiàn)出幾何級數(shù)的增加。因此人們開始尋求更好性能的算法，如FP算法。五、數(shù)據(jù)挖掘十大經(jīng)典算法(5) EM最大期望算法（Expectationmaximization algorithm，又譯期望最大化算法）在統(tǒng)計中被用于尋找，依賴于不可觀察的隱性變量的概率模型中，參數(shù)的最大似然估計。在統(tǒng)計計算中，最大期望（EM）算法是在概率模型中尋找參數(shù)最大似然估計或者最大后驗估計的算法，其中概率模型依賴于無法觀測的隱藏變量（Latent Variable）。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計算機(jī)視覺的數(shù)據(jù)聚類（Data Clustering）領(lǐng)域。最大期望算法經(jīng)過兩個步驟交替進(jìn)行計算，第一步是計算期望（E），利用對隱藏變量的現(xiàn)有估計值，計算其最大似然估計值；第二步是最大化（M），最大化在 E 步上求得的最大似然值來計算參數(shù)的值。M 步上找到的參數(shù)估計值被用于下一個 E 步計算中，這個過程不斷交替進(jìn)行。M是一個在已知部分相關(guān)變量的情況下，估計未知變量的迭代技術(shù)。EM的算法流程如下：1. 初始化分布參數(shù)2. 重復(fù)直到收斂：1. E步驟：估計未知參數(shù)的期望值，給出當(dāng)前的參數(shù)估計。2. M步驟：重新估計分布參數(shù)，以使得數(shù)據(jù)的似然性最大，給出未知變量的期望估計。應(yīng)用于缺失值最大期望過程說明我們用表示能夠觀察到的不完整的變量值，用表示無法觀察到的變量值，這樣和一起組成了完整的數(shù)據(jù)。可能是實際測量丟失的數(shù)據(jù)，也可能是能夠簡化問題的隱藏變量，如果它的值能夠知道的話。例如，在混合模型（Mixture Model）中，如果“產(chǎn)生”樣本的混合元素成分已知的話最大似然公式將變得更加便利（參見下面的例子）。估計無法觀測的數(shù)據(jù)讓代表矢量 : 定義的參數(shù)的全部數(shù)據(jù)的概率分布（連續(xù)情況下）或者概率聚類函數(shù)（離散情況下），那么從這個函數(shù)就可以得到全部數(shù)據(jù)的最大似然值，另外，在給定的觀察到的數(shù)據(jù)條件下未知數(shù)據(jù)的條件分布可以表示為：六、數(shù)據(jù)挖掘十大經(jīng)典算法(6) PageRankPageRank，網(wǎng)頁排名，又稱網(wǎng)頁級別、Google左側(cè)排名或佩奇排名，是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計算的技術(shù)，而作為網(wǎng)頁排名的要素之一，以Google公司創(chuàng)辦人拉里佩奇（Larry Page）之姓來命名。Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重要性，在搜索引擎優(yōu)化操作中是經(jīng)常被用來評估網(wǎng)頁優(yōu)化的成效因素之一。Google的創(chuàng)始人拉里佩奇和謝爾蓋布林于1998年在斯坦福大學(xué)發(fā)明了這項技術(shù)。PageRank通過網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票，Google根據(jù)投票來源（甚至來源的來源，即鏈接到A頁面的頁面）和投票目標(biāo)的等級來決定新的等級。簡單的說，一個高等級的頁面可以使其他低等級頁面的等級提升。PageRank讓鏈接來投票一個頁面的“得票數(shù)”由所有鏈向它的頁面的重要性來決定，到一個頁面的超鏈接相當(dāng)于對該頁投一票。一個頁面的PageRank是由所有鏈向它的頁面（“鏈入頁面”）的重要性經(jīng)過遞歸算法得到的。一個有較多鏈入的頁面會有較高的等級，相反如果一個頁面沒有任何鏈入頁面，那么它沒有等級。2005年初，Google為網(wǎng)頁鏈接推出一項新屬性nofollow，使得網(wǎng)站管理員和網(wǎng)志作者可以做出一些Google不計票的鏈接，也就是說這些鏈接不算作投票。nofollow的設(shè)置可以抵制垃圾評論。Google工具條上的PageRank指標(biāo)從0到10。它似乎是一個對數(shù)標(biāo)度算法，細(xì)節(jié)未知。PageRank是Google的商標(biāo)，其技術(shù)亦已經(jīng)申請專利。PageRank算法中的點擊算法是由Jon Kleinbe

點擊復(fù)制文檔內(nèi)容

教學(xué)教案相關(guān)推薦

十大經(jīng)典反轉(zhuǎn)形態(tài)-資料下載頁

【總結(jié)】十大經(jīng)典反轉(zhuǎn)形態(tài)形態(tài)分析是技術(shù)分析領(lǐng)域中比較簡明實用的分析方法，把股價走勢中若干典型的形態(tài)作出歸納，并命名之。被分為兩大類：反轉(zhuǎn)形態(tài)和中繼形態(tài)。我們先說說反轉(zhuǎn)形態(tài)。反轉(zhuǎn)形態(tài)表示趨勢有重要的反轉(zhuǎn)現(xiàn)象，整理形態(tài)則表示市場正逢盤整，也許在修正短線的超賣或超買之后，仍往原來的趨勢前進(jìn)。反轉(zhuǎn)形態(tài)：頭肩型,三重頂與底,雙重頂與底,V型頂與底,圓型,還有三角形,菱形,楔形,矩形等整理形態(tài)：三角型,

2025-04-16 22:30

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

數(shù)據(jù)挖掘十大經(jīng)典算法(編輯修改稿)

十大經(jīng)典反轉(zhuǎn)形態(tài)-資料下載頁

全球十大經(jīng)典女性品牌-資料下載頁

歐美十大經(jīng)典愛情電影-資料下載頁

世界十大經(jīng)典愛情故事-資料下載頁

c語言十大經(jīng)典實例編程-資料下載頁

世界十大經(jīng)典廣告語-資料下載頁

2022外企面試十大經(jīng)典問題-資料下載頁

2002十大經(jīng)典營銷案例-資料下載頁

管理十大經(jīng)典理論終生受用-資料下載頁

成功營銷的十大經(jīng)典案例-資料下載頁

管理十大經(jīng)典理論ppt課件-資料下載頁

十大經(jīng)典營銷案例匯總-資料下載頁

c語言十大經(jīng)典實例編程-資料下載頁

終生受用的十大經(jīng)典理論-資料下載頁

十大經(jīng)典營銷策劃方案-資料下載頁

數(shù)據(jù)挖掘十大經(jīng)典算法-文庫吧在線文庫

數(shù)據(jù)挖掘十大經(jīng)典算法(完整版)

數(shù)據(jù)挖掘十大經(jīng)典算法(更新版)

數(shù)據(jù)挖掘十大經(jīng)典算法(專業(yè)版)

數(shù)據(jù)挖掘十大經(jīng)典算法(留存版)