freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘十大算法(編輯修改稿)

2025-07-17 00:25 本頁面
 

【文章內(nèi)容簡介】 滿足αi = 0軟間隔1995年, Corinna Cortes 與Vapnik 提出了一種改進的最大間隔區(qū)方法,這種方法可以處理標記錯誤的樣本。如果可區(qū)分正負例的超平面不存在,則“軟邊界”將選擇一個超平面盡可能清晰地區(qū)分樣本,同時使其與分界最清晰的樣本的距離最大化。這一成果使術語“支持向量機”(或“SVM”)得到推廣。這種方法引入了松馳參數(shù)ξi以衡量對數(shù)據(jù)xi的誤分類度。隨后,將目標函數(shù)與一個針對非0ξi的懲罰函數(shù)相加,在增大間距和縮小錯誤懲罰兩大目標之間進行權衡優(yōu)化。如果懲罰函數(shù)是一個線性函數(shù),則等式(3)變形為四APRIORI 算法Apriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法。其核心是基于兩階段頻集思想的遞推算法。該關聯(lián)規(guī)則在分類上屬于單維、單層、布爾關聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。Apriori演算法所使用的前置統(tǒng)計量包括了: 最大規(guī)則物件數(shù):規(guī)則中物件組所包含的最大物件數(shù)量 最小支援:規(guī)則中物件或是物件組必頇符合的最低案例數(shù) 最小信心水準:計算規(guī)則所必須符合的最低信心水準門檻   該算法的基本思想是:首先找出所有的頻集,這些項集出現(xiàn)的頻繁性至少和預定義的最小支持度一樣。然后由頻集產(chǎn)生強關聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。  可能產(chǎn)生大量的候選集,以及可能需要重復掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點。五 最大期望(EM)算法在統(tǒng)計計算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中尋找參數(shù)最大似然估計的算法,其中概率模型依賴于無法觀測的隱藏變量(Latent Variabl)。最大期望經(jīng)常用在機器學習和計算機視覺的數(shù)據(jù)集聚(Data Clustering)領域。最大期望算法經(jīng)過兩個步驟交替進行計算,第一步是計算期望(E),也就是將隱藏變量象能夠觀測到的一樣包含在內(nèi)從而計算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期望值從而計算參數(shù)的最大似然估計。M 步上找到的參數(shù)然后用于另外一個 E 步計算,這個過程不斷交替進行。最大期望過程說明我們用 表示能夠觀察到的不完整的變量值,用 表示無法觀察到的變量值,這樣 和 一起組成了完整的數(shù)據(jù)。 可能是實際測量丟失的數(shù)據(jù),也可能是能夠簡化問題的隱藏變量,如果它的值能夠知道的話。例如,在混合模型(Mixture Model)中,如果“產(chǎn)生”樣本的混合元素成分已知的話最大似然公式將變得更加便利(參見下面的例子)。估計無法觀測的數(shù)據(jù)讓 代表矢量 θ: 定義的參數(shù)的全部數(shù)據(jù)的概率分布(連續(xù)情況下)或者概率集聚函數(shù)(離散情況下),那么從這個函數(shù)就可以得到全部數(shù)據(jù)的最大似然值,另外,在給定的觀察到的數(shù)據(jù)條件下未知數(shù)據(jù)的條件分布可以表示為:六PageRankPageRank是Google算法的重要內(nèi)容。2001年9月被授予美國專利,專利人是Google創(chuàng)始人之一拉里佩奇(Larry Page)。因此,PageRank里的page不是指網(wǎng)頁,而是指佩奇,即這個等級方法是以佩奇來命名的?! oogle的 PageRank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量倆衡量網(wǎng)站的價值。PageRank背后的概念是,每個到頁面的鏈接都是對該頁面的一次投票,被鏈接的越多,就意味著被其他網(wǎng)站投票越多。這個就是所謂的“鏈接流行度”——衡量多少人愿意將他們的網(wǎng)站和你的網(wǎng)站掛鉤。PageRank這個概念引自學術中一篇論文的被引述的頻度——即被別人引述的次數(shù)越多,一般判斷這篇論文的權威性就越高?! oogle有一套自動化方法來計算這些投票。Google的PageRank分值從0到 10;PageRank為10表示最佳,但非常少見,類似里氏震級(Richter scale),PageRank級別也不是線性的,而是按照一種指數(shù)刻度。這是一種奇特的數(shù)學術語,意思是PageRank4不是比PageRank3好一級——而可能會好6到7倍。因此,一個PageRank5的網(wǎng)頁和PageRank8的網(wǎng)頁之間的差距會比你可能認為的要大的多?! ageRank較高的頁面的排名往往要比PageRank較低的頁面高,而這導致了人們對鏈接的著魔。在整個SEO社區(qū),人們忙于爭奪、交換甚至銷售鏈接,它是過去幾年來人們關注的焦點,以至于Google修改了他的系統(tǒng),并開始放棄某些類型的鏈接。比如,被人們廣泛接受的一條規(guī)定,來自缺乏內(nèi)容的“l(fā)ink farm”(鏈接工廠)網(wǎng)站的鏈接將不會提供頁面的PageRank,從PageRank較高的頁面得到鏈接但是內(nèi)容不相關(比如說某個流行的漫畫書網(wǎng)站鏈接到一個叉車規(guī)范頁面),也不會提供頁面的PageRank。Google選擇降低了PageRank對更新頻率,以便不鼓勵人們不斷的對其進行監(jiān)測?! oogle PageRank一般一年更新四次,所以剛上線的新網(wǎng)站不可能獲得PR值。你的網(wǎng)站很可能在相當長的時間里面看不到PR值的變化,特別是一些新的網(wǎng)站。PR值暫時沒有,這不是什么不好的事情,耐心等待就好了?!  ≡诨ヂ?lián)網(wǎng)上,如果一個網(wǎng)頁被很多其它網(wǎng)頁所鏈接,說明它受到普遍的承認和信賴,那么它的排名就高。這就是 Page Rank 的核心思想。 當然 Google 的 Page Rank 算法實際上要復雜得多。比如說,對來自不同網(wǎng)頁的鏈接對待不同,本身網(wǎng)頁排名高的鏈接更可靠,于是給這些鏈接予較大的權重。Page Rank 考慮了這個因素,可是現(xiàn)在問題又來了,計算搜索結果的網(wǎng)頁排名過程中需要用到網(wǎng)頁本身的排名,這不成了先有雞還是先有蛋的問題了嗎?  Google 的兩個創(chuàng)始人拉里佩奇 (Larry Page )和謝爾蓋布林 (Sergey Brin) 把這個問題變成了一個二維矩陣相乘的問題,并且用迭代的方法解決了這個問題。他們先假定所有網(wǎng)頁的排名是相同的,并且根據(jù)這個初始值,算出各個網(wǎng)頁的第一次迭代排名,然后再根據(jù)第一次迭代排名算出第二次的排名。他們兩人從理論上證明了不論初始值如何選取,這種算法都保證了網(wǎng)頁排名的估計值能收斂到他們的真實值。值得一提的事,這種算法是完全沒有任何人工干預的?! ±碚搯栴}解決了,又遇到實際問題。因為互聯(lián)網(wǎng)上網(wǎng)頁的數(shù)量是巨大的,上面提到的二維矩陣從理論上講有網(wǎng)頁數(shù)目平方之多個元素。如果我們假定有十億個網(wǎng)頁,那么這個矩陣就有一百億億個元素。這樣大的矩陣相乘,計算量是非常大的。拉里和謝爾蓋兩人利用稀疏矩陣計算的技巧,大大的簡化了計算量,并實現(xiàn)了這個網(wǎng)頁排名算法。今天 Google 的工程師把這個算法移植到并行的計算機中,進一步縮短了計算時間,使網(wǎng)頁更新的周期比以前短了許多?! ∥襾?Google 后,拉里 (Larry) 在和我們幾個新員工座談時,講起他當年和謝爾蓋(Sergey) 是怎么想到網(wǎng)頁排名算法的。他說:當時我們覺得整個互聯(lián)網(wǎng)就像一張大的圖(Graph),每個網(wǎng)站就像一個節(jié)點,而每個網(wǎng)頁的鏈接就像一個弧。我想,互聯(lián)網(wǎng)可以用一個圖或者矩陣描述,我也許可以用這個發(fā)現(xiàn)做個博士論文。 他和謝爾蓋就這樣發(fā)明了 Page Rank 的算法?! 【W(wǎng)頁排名的高明之處在于它把整個互聯(lián)網(wǎng)當作了一個整體對待。它無意識中符合了系統(tǒng)論的觀點。相比之下,以前的信息檢索大多把每一個網(wǎng)頁當作獨立的個體對待,很多人當初只注
點擊復制文檔內(nèi)容
高考資料相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1