freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘十大經(jīng)典算法(編輯修改稿)

2025-05-14 01:46 本頁面
 

【文章內(nèi)容簡介】 計算期望(E),也就是將隱藏變量象能夠觀測到的一樣包含在內(nèi)從而計算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期望值從而計算參數(shù)的最大似然估計。M 步上找到的參數(shù)然后用于另外一個 E 步計算,這個過程不斷交替進(jìn)行。Vapnik等人在多年研究統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上對線性分類器提出了另一種設(shè)計最佳準(zhǔn)則。其原理也從線性可分說起,然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中去,這種分類器被稱為支持向量機(jī)(Support Vector Machine,簡稱SVM)。支持向量機(jī)的提出有很深的理論背景。支持向量機(jī)方法是在近年來提出的一種新方法。SVM 的主要思想可以概括為兩點:(1) 它是針對線性可分情況進(jìn)行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能;(2) 它基于結(jié)構(gòu)風(fēng)險最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。在學(xué)習(xí)這種方法時,首先要弄清楚這種方法考慮問題的特點,這就要從線性可分的最簡單情況討論起,在沒有弄懂其原理之前,不要急于學(xué)習(xí)線性不可分等較復(fù)雜的情況,支持向量機(jī)在設(shè)計時,需要用到條件極值問題的求解,因此需用拉格朗日乘子理論,但對多數(shù)人來說,以前學(xué)到的或常用的是約束條件為等式表示的方式,但在此要用到以不等式作為必須滿足的條件,此時只要了解拉格朗日理論的有關(guān)結(jié)論就行。介紹支持向量機(jī)將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是 Burges的《模式識別支持向量機(jī)指南》。van der Walt 和 Barnard 將支持向量機(jī)和其他分類器進(jìn)行了比較。動機(jī)有很多個分類器(超平面)可以把數(shù)據(jù)分開,但是只有一個能夠達(dá)到最大分割。我們通常希望分類的過程是一個機(jī)器學(xué)習(xí)的過程。這些數(shù)據(jù)點并不需要是中的點,而可以是任意(統(tǒng)計學(xué)符號)中或者 (計算機(jī)科學(xué)符號) 的點。我們希望能夠把這些點通過一個n1維的超平面分開,通常這個被稱為線性分類器。有很多分類器都符合這個要求,但是我們還希望找到分類最佳的平面,即使得屬于兩個不同類的數(shù)據(jù)點間隔最大的那個面,該面亦稱為最大間隔超平面。如果我們能夠找到這個面,那么這個分類器就稱為最大間隔分類器。四、數(shù)據(jù)挖掘十大經(jīng)典算法(4)AprioriApriori算法是種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。它的核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集(簡稱頻集),也常稱為最大項目集。在Apriori算法中,尋找最大項目集(頻繁項集)的基本思想是:算法需要對數(shù)據(jù)集進(jìn)行多步處理。第一步,簡單統(tǒng)計所有含一個元素項目集出現(xiàn)的頻數(shù),并找出那些不小于最小支持度的項目集,即一維最大項目集。從第二步開始循環(huán)處理直到再沒有最大項目集生成。循環(huán)過程是:第k步中,根據(jù)第k1步生成的(k1)維最大項目集產(chǎn)生k維侯選項目集,然后對數(shù)據(jù)庫進(jìn)行搜索,得到侯選項目集的項集支持度,與最小支持度進(jìn)行比較,從而找到k維最大項目集。從算法的運(yùn)行過程,我們可以看出該Apriori算法的優(yōu)點:簡單、易理解、數(shù)據(jù)要求低,然而我們也可以看到Apriori算法的缺點:(1)在每一步產(chǎn)生侯選項目集時循環(huán)產(chǎn)生的組合過多,沒有排除不應(yīng)該參與組合的元素。(2)每次計算項集的支持度時,都對數(shù)據(jù)庫D中的全部記錄進(jìn)行了一遍掃描比較,如果是一個大型的數(shù)據(jù)庫的話,這種掃描比較會大大增加計算機(jī)系統(tǒng)的I/O開銷。而這種代價是隨著數(shù)據(jù)庫的記錄的增加呈現(xiàn)出幾何級數(shù)的增加。因此人們開始尋求更好性能的算法,如FP算法。五、數(shù)據(jù)挖掘十大經(jīng)典算法(5) EM最大期望算法(Expectationmaximization algorithm,又譯期望最大化算法)在統(tǒng)計中被用于尋找,依賴于不可觀察的隱性變量的概率模型中,參數(shù)的最大似然估計。在統(tǒng)計計算中,最大期望(EM)算法是在概率模型中尋找參數(shù)最大似然估計或者最大后驗估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variable)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計算機(jī)視覺的數(shù)據(jù)聚類(Data Clustering)領(lǐng)域。最大期望算法經(jīng)過兩個步驟交替進(jìn)行計算,第一步是計算期望(E),利用對隱藏變量的現(xiàn)有估計值,計算其最大似然估計值;第二步是最大化(M),最大化在 E 步上求得的最大似然值來計算參數(shù)的值。M 步上找到的參數(shù)估計值被用于下一個 E 步計算中,這個過程不斷交替進(jìn)行。M是一個在已知部分相關(guān)變量的情況下,估計未知變量的迭代技術(shù)。EM的算法流程如下:1. 初始化分布參數(shù)2. 重復(fù)直到收斂:1. E步驟:估計未知參數(shù)的期望值,給出當(dāng)前的參數(shù)估計。2. M步驟:重新估計分布參數(shù),以使得數(shù)據(jù)的似然性最大,給出未知變量的期望估計。應(yīng)用于缺失值最大期望過程說明我們用 表示能夠觀察到的不完整的變量值,用 表示無法觀察到的變量值,這樣 和 一起組成了完整的數(shù)據(jù)。 可能是實際測量丟失的數(shù)據(jù),也可能是能夠簡化問題的隱藏變量,如果它的值能夠知道的話。例如,在混合模型(Mixture Model)中,如果“產(chǎn)生”樣本的混合元素成分已知的話最大似然公式將變得更加便利(參見下面的例子)。估計無法觀測的數(shù)據(jù)讓 代表矢量 : 定義的參數(shù)的全部數(shù)據(jù)的概率分布(連續(xù)情況下)或者概率聚類函數(shù)(離散情況下),那么從這個函數(shù)就可以得到全部數(shù)據(jù)的最大似然值,另外,在給定的觀察到的數(shù)據(jù)條件下未知數(shù)據(jù)的條件分布可以表示為:六、數(shù)據(jù)挖掘十大經(jīng)典算法(6) PageRankPageRank,網(wǎng)頁排名,又稱網(wǎng)頁級別、Google左側(cè)排名或佩奇排名,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計算的技術(shù),而作為網(wǎng)頁排名的要素之一,以Google公司創(chuàng)辦人拉里佩奇(Larry Page)之姓來命名。Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重要性,在搜索引擎優(yōu)化操作中是經(jīng)常被用來評估網(wǎng)頁優(yōu)化的成效因素之一。Google的創(chuàng)始人拉里佩奇和謝爾蓋布林于1998年在斯坦福大學(xué)發(fā)明了這項技術(shù)。PageRank通過網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標(biāo)的等級來決定新的等級。簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。PageRank讓鏈接來投票一個頁面的“得票數(shù)”由所有鏈向它的頁面的重要性來決定,到一個頁面的超鏈接相當(dāng)于對該頁投一票。一個頁面的PageRank是由所有鏈向它的頁面(“鏈入頁面”)的重要性經(jīng)過遞歸算法得到的。一個有較多鏈入的頁面會有較高的等級,相反如果一個頁面沒有任何鏈入頁面,那么它沒有等級。2005年初,Google為網(wǎng)頁鏈接推出一項新屬性nofollow,使得網(wǎng)站管理員和網(wǎng)志作者可以做出一些Google不計票的鏈接,也就是說這些鏈接不算作投票。nofollow的設(shè)置可以抵制垃圾評論。Google工具條上的PageRank指標(biāo)從0到10。它似乎是一個對數(shù)標(biāo)度算法,細(xì)節(jié)未知。PageRank是Google的商標(biāo),其技術(shù)亦已經(jīng)申請專利。PageRank算法中的點擊算法是由Jon Kleinbe
點擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1