freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘十大經(jīng)典算法(編輯修改稿)

2025-05-14 01:46 本頁面
 

【文章內(nèi)容簡介】 計(jì)算期望(E),也就是將隱藏變量象能夠觀測到的一樣包含在內(nèi)從而計(jì)算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期望值從而計(jì)算參數(shù)的最大似然估計(jì)。M 步上找到的參數(shù)然后用于另外一個 E 步計(jì)算,這個過程不斷交替進(jìn)行。Vapnik等人在多年研究統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上對線性分類器提出了另一種設(shè)計(jì)最佳準(zhǔn)則。其原理也從線性可分說起,然后擴(kuò)展到線性不可分的情況。甚至擴(kuò)展到使用非線性函數(shù)中去,這種分類器被稱為支持向量機(jī)(Support Vector Machine,簡稱SVM)。支持向量機(jī)的提出有很深的理論背景。支持向量機(jī)方法是在近年來提出的一種新方法。SVM 的主要思想可以概括為兩點(diǎn):(1) 它是針對線性可分情況進(jìn)行分析,對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進(jìn)行線性分析成為可能;(2) 它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個樣本空間的期望風(fēng)險(xiǎn)以某個概率滿足一定上界。在學(xué)習(xí)這種方法時(shí),首先要弄清楚這種方法考慮問題的特點(diǎn),這就要從線性可分的最簡單情況討論起,在沒有弄懂其原理之前,不要急于學(xué)習(xí)線性不可分等較復(fù)雜的情況,支持向量機(jī)在設(shè)計(jì)時(shí),需要用到條件極值問題的求解,因此需用拉格朗日乘子理論,但對多數(shù)人來說,以前學(xué)到的或常用的是約束條件為等式表示的方式,但在此要用到以不等式作為必須滿足的條件,此時(shí)只要了解拉格朗日理論的有關(guān)結(jié)論就行。介紹支持向量機(jī)將向量映射到一個更高維的空間里,在這個空間里建立有一個最大間隔超平面。在分開數(shù)據(jù)的超平面的兩邊建有兩個互相平行的超平面。分隔超平面使兩個平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類器的總誤差越小。一個極好的指南是 Burges的《模式識別支持向量機(jī)指南》。van der Walt 和 Barnard 將支持向量機(jī)和其他分類器進(jìn)行了比較。動機(jī)有很多個分類器(超平面)可以把數(shù)據(jù)分開,但是只有一個能夠達(dá)到最大分割。我們通常希望分類的過程是一個機(jī)器學(xué)習(xí)的過程。這些數(shù)據(jù)點(diǎn)并不需要是中的點(diǎn),而可以是任意(統(tǒng)計(jì)學(xué)符號)中或者 (計(jì)算機(jī)科學(xué)符號) 的點(diǎn)。我們希望能夠把這些點(diǎn)通過一個n1維的超平面分開,通常這個被稱為線性分類器。有很多分類器都符合這個要求,但是我們還希望找到分類最佳的平面,即使得屬于兩個不同類的數(shù)據(jù)點(diǎn)間隔最大的那個面,該面亦稱為最大間隔超平面。如果我們能夠找到這個面,那么這個分類器就稱為最大間隔分類器。四、數(shù)據(jù)挖掘十大經(jīng)典算法(4)AprioriApriori算法是種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。它的核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集(簡稱頻集),也常稱為最大項(xiàng)目集。在Apriori算法中,尋找最大項(xiàng)目集(頻繁項(xiàng)集)的基本思想是:算法需要對數(shù)據(jù)集進(jìn)行多步處理。第一步,簡單統(tǒng)計(jì)所有含一個元素項(xiàng)目集出現(xiàn)的頻數(shù),并找出那些不小于最小支持度的項(xiàng)目集,即一維最大項(xiàng)目集。從第二步開始循環(huán)處理直到再沒有最大項(xiàng)目集生成。循環(huán)過程是:第k步中,根據(jù)第k1步生成的(k1)維最大項(xiàng)目集產(chǎn)生k維侯選項(xiàng)目集,然后對數(shù)據(jù)庫進(jìn)行搜索,得到侯選項(xiàng)目集的項(xiàng)集支持度,與最小支持度進(jìn)行比較,從而找到k維最大項(xiàng)目集。從算法的運(yùn)行過程,我們可以看出該Apriori算法的優(yōu)點(diǎn):簡單、易理解、數(shù)據(jù)要求低,然而我們也可以看到Apriori算法的缺點(diǎn):(1)在每一步產(chǎn)生侯選項(xiàng)目集時(shí)循環(huán)產(chǎn)生的組合過多,沒有排除不應(yīng)該參與組合的元素。(2)每次計(jì)算項(xiàng)集的支持度時(shí),都對數(shù)據(jù)庫D中的全部記錄進(jìn)行了一遍掃描比較,如果是一個大型的數(shù)據(jù)庫的話,這種掃描比較會大大增加計(jì)算機(jī)系統(tǒng)的I/O開銷。而這種代價(jià)是隨著數(shù)據(jù)庫的記錄的增加呈現(xiàn)出幾何級數(shù)的增加。因此人們開始尋求更好性能的算法,如FP算法。五、數(shù)據(jù)挖掘十大經(jīng)典算法(5) EM最大期望算法(Expectationmaximization algorithm,又譯期望最大化算法)在統(tǒng)計(jì)中被用于尋找,依賴于不可觀察的隱性變量的概率模型中,參數(shù)的最大似然估計(jì)。在統(tǒng)計(jì)計(jì)算中,最大期望(EM)算法是在概率模型中尋找參數(shù)最大似然估計(jì)或者最大后驗(yàn)估計(jì)的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variable)。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)聚類(Data Clustering)領(lǐng)域。最大期望算法經(jīng)過兩個步驟交替進(jìn)行計(jì)算,第一步是計(jì)算期望(E),利用對隱藏變量的現(xiàn)有估計(jì)值,計(jì)算其最大似然估計(jì)值;第二步是最大化(M),最大化在 E 步上求得的最大似然值來計(jì)算參數(shù)的值。M 步上找到的參數(shù)估計(jì)值被用于下一個 E 步計(jì)算中,這個過程不斷交替進(jìn)行。M是一個在已知部分相關(guān)變量的情況下,估計(jì)未知變量的迭代技術(shù)。EM的算法流程如下:1. 初始化分布參數(shù)2. 重復(fù)直到收斂:1. E步驟:估計(jì)未知參數(shù)的期望值,給出當(dāng)前的參數(shù)估計(jì)。2. M步驟:重新估計(jì)分布參數(shù),以使得數(shù)據(jù)的似然性最大,給出未知變量的期望估計(jì)。應(yīng)用于缺失值最大期望過程說明我們用 表示能夠觀察到的不完整的變量值,用 表示無法觀察到的變量值,這樣 和 一起組成了完整的數(shù)據(jù)。 可能是實(shí)際測量丟失的數(shù)據(jù),也可能是能夠簡化問題的隱藏變量,如果它的值能夠知道的話。例如,在混合模型(Mixture Model)中,如果“產(chǎn)生”樣本的混合元素成分已知的話最大似然公式將變得更加便利(參見下面的例子)。估計(jì)無法觀測的數(shù)據(jù)讓 代表矢量 : 定義的參數(shù)的全部數(shù)據(jù)的概率分布(連續(xù)情況下)或者概率聚類函數(shù)(離散情況下),那么從這個函數(shù)就可以得到全部數(shù)據(jù)的最大似然值,另外,在給定的觀察到的數(shù)據(jù)條件下未知數(shù)據(jù)的條件分布可以表示為:六、數(shù)據(jù)挖掘十大經(jīng)典算法(6) PageRankPageRank,網(wǎng)頁排名,又稱網(wǎng)頁級別、Google左側(cè)排名或佩奇排名,是一種由搜索引擎根據(jù)網(wǎng)頁之間相互的超鏈接計(jì)算的技術(shù),而作為網(wǎng)頁排名的要素之一,以Google公司創(chuàng)辦人拉里佩奇(Larry Page)之姓來命名。Google用它來體現(xiàn)網(wǎng)頁的相關(guān)性和重要性,在搜索引擎優(yōu)化操作中是經(jīng)常被用來評估網(wǎng)頁優(yōu)化的成效因素之一。Google的創(chuàng)始人拉里佩奇和謝爾蓋布林于1998年在斯坦福大學(xué)發(fā)明了這項(xiàng)技術(shù)。PageRank通過網(wǎng)絡(luò)浩瀚的超鏈接關(guān)系來確定一個頁面的等級。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標(biāo)的等級來決定新的等級。簡單的說,一個高等級的頁面可以使其他低等級頁面的等級提升。PageRank讓鏈接來投票一個頁面的“得票數(shù)”由所有鏈向它的頁面的重要性來決定,到一個頁面的超鏈接相當(dāng)于對該頁投一票。一個頁面的PageRank是由所有鏈向它的頁面(“鏈入頁面”)的重要性經(jīng)過遞歸算法得到的。一個有較多鏈入的頁面會有較高的等級,相反如果一個頁面沒有任何鏈入頁面,那么它沒有等級。2005年初,Google為網(wǎng)頁鏈接推出一項(xiàng)新屬性nofollow,使得網(wǎng)站管理員和網(wǎng)志作者可以做出一些Google不計(jì)票的鏈接,也就是說這些鏈接不算作投票。nofollow的設(shè)置可以抵制垃圾評論。Google工具條上的PageRank指標(biāo)從0到10。它似乎是一個對數(shù)標(biāo)度算法,細(xì)節(jié)未知。PageRank是Google的商標(biāo),其技術(shù)亦已經(jīng)申請專利。PageRank算法中的點(diǎn)擊算法是由Jon Kleinbe
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1