freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘十大經(jīng)典算法-在線瀏覽

2025-06-04 01:46本頁面
  

【正文】 據(jù)作為聚類中心,而聚類的結(jié)果要是同類間盡可能相似,不同類間盡可能相異,所以初始聚類中心的選取要盡可能做到這一點(diǎn)。但對(duì)于實(shí)際數(shù)據(jù),孤立點(diǎn)個(gè)數(shù)往往不可預(yù)知。這樣做就降低了樣本輸入順序?qū)Τ跏季垲愔行倪x擇的影響。聚類中心選好以后,就要進(jìn)行不斷的迭代計(jì)算,在Kmeans算法中,是將聚類均值點(diǎn)(類中所有數(shù)據(jù)的幾何中心點(diǎn))作為新的聚類種子進(jìn)行新一輪的聚類計(jì)算,在這種情況下,新的聚類種子可能偏離真正的數(shù)據(jù)密集區(qū),從而導(dǎo)致偏差,特別是在有孤立點(diǎn)存在的情況下,有很大的局限性。這里根據(jù)聚類種子的計(jì)算時(shí),采用簇中那些與第k1輪聚類種子相似度較大的數(shù)據(jù),計(jì)算他們的均值點(diǎn)作為第k輪聚類的種子,相當(dāng)于將孤立點(diǎn)排除在外,孤立點(diǎn)不參與聚類中心的計(jì)算,這樣聚類中心就不會(huì)因?yàn)楣铝Ⅻc(diǎn)的原因而明顯偏離數(shù)據(jù)集中的地方。為了能讓更多的數(shù)據(jù)參與到聚類中心的計(jì)算種去,閾值范圍要包含大多數(shù)的數(shù)據(jù)。在數(shù)據(jù)集中無論是否有明顯的孤立點(diǎn)存在,兩倍的平均距離都能包含大多數(shù)的數(shù)據(jù)。對(duì)孤立點(diǎn)的改進(jìn)—基于距離法所謂孤立點(diǎn)都是基于距離的, 是數(shù)據(jù)U集中到U中最近鄰居的距離最大的對(duì)象, 換言之, 數(shù)據(jù)集中與其最近鄰居的平均距離最大的對(duì)象。首先掃描一次數(shù)據(jù)集, 計(jì)算每一個(gè)數(shù)據(jù)對(duì)象與其臨近對(duì)象的距離, 累加求其距離和, 并計(jì)算出距離和均值。把這個(gè)對(duì)象從數(shù)據(jù)集中移除到孤立點(diǎn)集合中, 重復(fù)直到所有孤立點(diǎn)都找到。經(jīng)典k均值算法隨機(jī)選取k個(gè)點(diǎn)作為初始聚類中心進(jìn)行操作。并且聚類分析得到的聚類的準(zhǔn)確率也不一樣。因此提出了一種基于數(shù)據(jù)對(duì)象兩兩間的距離來動(dòng)態(tài)尋找并確定初始聚類中心的思路, 具體過程如下:比較數(shù)據(jù)集中所有數(shù)據(jù)對(duì)象兩兩之間的距離。比較Am中每一個(gè)數(shù)據(jù)對(duì)象與數(shù)據(jù)對(duì)象集合U中每一個(gè)對(duì)象的距離,在U中找出與Am 中最近的數(shù)據(jù)對(duì)象,優(yōu)先吸收到Am 中,直到Am 中的數(shù)據(jù)對(duì)象個(gè)數(shù)到達(dá)一定數(shù)值,然后令m=m+1。這些集合內(nèi)部的數(shù)據(jù)是相似的,而集合間是相異的。 ②每個(gè)數(shù)據(jù)對(duì)象必須屬于且僅屬于一個(gè)組。最后對(duì)k個(gè)對(duì)象集合分別進(jìn)行算術(shù)平均,形成k個(gè)初始聚類中心。近似的k平均算法已經(jīng)被設(shè)計(jì)用于原始數(shù)據(jù)子集的計(jì)算。由于該算法的速度很快,因此常用的一種方法是多次運(yùn)行k平均算法,選擇最優(yōu)解。另外,算法還假設(shè)均方誤差是計(jì)算群組分散度的最佳參數(shù)。Vector 它是一Regularization)在統(tǒng)計(jì)計(jì)算中,最大期望(EM)法觀測的隱藏變量(Latent 最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺的數(shù)據(jù)集聚最大期望算法經(jīng)過兩個(gè)步驟交替進(jìn)行計(jì)算:第一步是計(jì)算期望(E),大化(M),也就是最大化在 E 步計(jì)算,這個(gè)過程不斷交替進(jìn)行。Vapnik等人在多年研究統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上對(duì)線性分類器提出了另一種設(shè)計(jì)最佳準(zhǔn)則。理也從線性可分說起,然后擴(kuò)展到線性不可分的情況。種分類器被稱為支持向量機(jī)(Support Vector Machine,簡稱SVM)。理論背景。SVM 的主要思想可以概括為兩點(diǎn):的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使能;(2) 它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得在學(xué)習(xí)這種方法時(shí),首先要弄清楚這種方法考慮問題的特點(diǎn),這就要從線性可分的最簡單情以前學(xué)到的或常用的是約束條件為等式表示的方式,但在此要用到以不等式作為必須滿足的分隔超平面使兩個(gè)平行超平面的距假定平行超平面間的距離或差距越大,分類器的總誤差越小。 Burges的《模式識(shí)別支持向量機(jī)指南》。Barnard 將支持向量機(jī)和其他動(dòng)機(jī)我們通常希望分類的過程是一個(gè)機(jī)器學(xué)習(xí)的過程。任意(統(tǒng)計(jì)學(xué)符號(hào))中或者 我們希望能夠把這些點(diǎn)通過一個(gè)n1維的有很多分類器都符合這個(gè)要求,但是我們還希望間隔超平面。它的核心是基于兩階段頻集思想的遞推算法。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集(簡稱頻集),也常稱為最大項(xiàng)目集。在Apriori算法中,尋找最大項(xiàng)目集(頻繁項(xiàng)集)的基本思想是:算法需要對(duì)數(shù)據(jù)集進(jìn)行多步處理。從第二步開始循環(huán)處理直到再?zèng)]有最大項(xiàng)目集生成。從算法的運(yùn)行過程,我們可以看出該Apriori算法的優(yōu)點(diǎn):簡單、易理解、數(shù)據(jù)要求低,然而我們也可以看到Apriori算法的缺點(diǎn):(1)在每一步產(chǎn)生侯選項(xiàng)目集時(shí)循環(huán)產(chǎn)生的組合過多,沒有排除不應(yīng)該參與組合的元素。而這種代價(jià)是隨著數(shù)據(jù)庫的記錄的增加呈現(xiàn)出幾何級(jí)數(shù)的增加。最大期望算法(Expectationmaximization algorithm,又譯期望最大化算法)在統(tǒng)計(jì)中被用于尋找,依賴于不可觀察的隱性變量的概率模型中,參數(shù)的最大似然估計(jì)。在統(tǒng)計(jì)計(jì)算中,最大期望(EM)算法是在概率模型中尋找參數(shù)最大似然估計(jì)或者最大后驗(yàn)估計(jì)的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variable)。最大期望算法經(jīng)過兩個(gè)步驟交替進(jìn)行計(jì)算,第一步是計(jì)算期望(E),利用對(duì)隱藏變量的現(xiàn)有估計(jì)值,計(jì)算其最大似然估計(jì)值;第二步是最大化(M),最大化在 E 步上求得的最大似然值來計(jì)算參數(shù)的值。2. M步驟:重新估計(jì)分布參數(shù),以使得數(shù)據(jù)的似然性最大,給出未知變量的期望估計(jì)。我們用 表示無法觀察到的變量值,這樣 一起組成了完整的數(shù)據(jù)。例如,在混合模型(Mixture Model)中,如果“產(chǎn)生”樣本的混合元素成分已知的話最大似然公式將變得更加便利(參見下面的例子)。估計(jì)無法觀測的數(shù)據(jù)代表矢量 : 佩奇(Larry Page)之姓來命名。Google的創(chuàng)始人拉里布林于1998年在斯坦福大學(xué)發(fā)明了這項(xiàng)技術(shù)。Google把從A頁面到B頁面的鏈接解釋為A頁面給B頁面投票,Google根據(jù)投票來源(甚至來源的來源,即鏈接到A頁面的頁面)和投票目標(biāo)的等級(jí)來決定新的等級(jí)。一個(gè)頁面的“得票數(shù)”由所有鏈向它的頁面的重要性來決定,到一個(gè)頁面的超鏈接相當(dāng)于對(duì)該頁投一票。一個(gè)有較多鏈入的頁面會(huì)有較高的等級(jí),相反如果一個(gè)頁面沒有任何鏈入頁面,那么它沒有等級(jí)。2005年初,Google為網(wǎng)頁鏈接推出一項(xiàng)新屬性nofollow,使得網(wǎng)站管理員和網(wǎng)志作者可以做出一些Google不計(jì)票的鏈接,也就是說這些鏈接不算作投票。它似乎是一個(gè)對(duì)數(shù)標(biāo)度算法,細(xì)節(jié)未知?;舅枷耄喝绻W(wǎng)頁T存在一個(gè)指向網(wǎng)頁A的連接,則表明T的所有者認(rèn)為A比較重要,從而把T的一部分重要性得分賦予A。優(yōu)點(diǎn):是一個(gè)與查詢無關(guān)的靜態(tài)算法,所有網(wǎng)頁的PageRank值通過離線計(jì)算獲得;有效減少在線查詢時(shí)的計(jì)算量,極大降低了查詢響應(yīng)時(shí)間。 PageRank(主題敏感的PageRank)基本思想:針對(duì)PageRank對(duì)主題的忽略而提出。PageRank向量集合,該集合中的每一個(gè)向量與某一主題相關(guān),即計(jì)算某個(gè)頁面關(guān)于不同主題的得分。主要分為兩個(gè)階段:主題相關(guān)的PageRank向量集合的計(jì)算和在線查詢時(shí)主題的確定。優(yōu)點(diǎn):根據(jù)用戶的查詢請求和相關(guān)上下文判斷用戶查詢相關(guān)的主題(用戶的興趣)返回查詢結(jié)果準(zhǔn)確性高?;舅枷耄号cPageRank的不同之處:僅考慮專家頁面的鏈接。優(yōu)點(diǎn):相關(guān)性強(qiáng),結(jié)果準(zhǔn)確。專家頁面的質(zhì)量和公平性難以保證;忽略了大量非專家頁面的影響,不能反應(yīng)整個(gè)Internet的民意;當(dāng)沒
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1