freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘k-均值算法實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-wenkub.com

2025-06-14 16:52 本頁面
   

【正文】 30 參考文獻(xiàn)[1]T Zhang.R.Ramakrishnan and M.ogihara.An efficient data clustering method for very largedatabases.In Pror.1996 ACMSlGMOD hat.Conf.Management of Data,June 1996:103.114.[2]邵峰晶,于忠清,王金龍,孫仁城 數(shù)據(jù)挖掘原理與算法(第二版) 北京:科學(xué)出版社 ,2009, ISBN 9787030254405.[3]張建輝.KmeaIlS聚類算法研究及應(yīng)用:[武漢理工大學(xué)碩士學(xué)位論文].武漢:武漢理工大學(xué),2007.[4]馮超.Kmeans 類算法的研究:[大連理工大學(xué)碩士學(xué)位論文].大連:大連理工大學(xué),2007.[5]曾志雄.一種有效的基于劃分和層次的混合聚類算法.計(jì)算機(jī)應(yīng)用,2007,27(7):1692.1695.[6]范光平.一種基于變長編碼的遺傳K均值算法研究:[浙江大學(xué)碩士學(xué)位論文].杭州:浙江大學(xué),2007.[7]孫士保,秦克云.改進(jìn)的K平均聚類算法研究.計(jì)算機(jī)工程,2007,33(13):200.202.[8]孫可,劉杰,王學(xué)穎.K均值聚類算法初始質(zhì)心選擇的改進(jìn).沈陽師范大學(xué)學(xué)報(bào),2009,27(4):448450.[9]Jain AK,Duin Robert PW,Mao JC.Statistical paaern recognition:A review.IEEE Trans.Actions on Paaem Analysis and Machine Intelligence,2000,22(1):437.[10]Sambasivam S,Theodosopoulos N.Advanced data clustering methods ofmining web documents.Issues in Informing Science and Information Technology,2006,8(3):563.579.[11]Z.Huang.Extensions to the Kmeans algorithm for clustering large data sets with categorical values.Data Mining and Knowledge discovery,1998,(2):283304.[12]M.Ester,H,P.Kriege.A densitybased algorithm for discovery clusters in large spatial databases.In Proc.1996 Int.03n£Knowledge Discovery and Data Mining Portland.Aug 1996:2262311[13]毛國君,段麗娟,王實(shí),等.?dāng)?shù)據(jù)挖掘原理與算法(第二版).北京:清華大學(xué)出版社,2007.[14] Wang,J.fang and R.Muntz.A statistical information grid approach to spatial data mining.In Proc.1997 Int.Conf.Very Large Databases,Athens,Greece,Aug.1997:186195.[15]Wu K L,Yang M S.Alternative fuzzy cmeans clustering algorithaL Pattern ,35:2267—2278.[16]Hammerly C.Alternatives to the kmeans algorithm that find better clusterings,in:Proc.of the 1 lth Int.Conf.on Information and Knowledge Management,2002:600—607.[17]Alsabti K,Ranka S,Singh K.An Efficient KMeans Clustering AlgorithnL In:Proceedings of PPS/SPDP Workshop on High performance Data :34—39.[18]Lozano J A,Pena J M,Larranaga P.An empirical parison of four initialization methods for the kmeans Recognition,1999,20:1027—1040.[19]Likas A,Vlassis N,Verbeek J J.The global kmeans clustering algoritl衛(wèi)L Pattern Recognition,2003,36:451—461.[20]Kiri W,Claire C,Stefan S.Constrained Kmeans Clustering with Background Knowledge.Proceeding of the Eighteenth Internat ional Conference on Machine :5775841.[21]Ng A Y,Jordan M I,Weiss Y.On spectral clustering:Analysis and an algorittms InAdvances in Neural Information Processing Systems,2001,14:849—856.[22]Higham D,Kibble K.A Unified view of spectral clustering.Technical Report 02。因此我們在實(shí)際應(yīng)用中應(yīng)該注意這方面的不同因素,會(huì)對聚類結(jié)果造成哪些影響,通過本次試驗(yàn),也可以為希望出現(xiàn)的聚類結(jié)果提供改進(jìn)算法的思考方向,使該算法能夠更好的為我們服務(wù)。5 總結(jié)與展望 總結(jié)本文主要介紹了數(shù)據(jù)挖掘中的聚類分析,對聚類分析中的K均值算法進(jìn)行了探索研究,主要是對影響K均值算法的聚類效率因素的探究。另外,雖然兩次的聚類結(jié)果是一樣的,但是迭代的次數(shù)當(dāng)選取第6個(gè)數(shù)據(jù)為初始點(diǎn)比選取第3個(gè)數(shù)據(jù)為初始點(diǎn)迭代次數(shù)有所增加,聚類結(jié)果的輸出順序也有所改變,同時(shí)也驗(yàn)證了實(shí)驗(yàn)一的結(jié)論。結(jié)論:首先對比四個(gè)圖的聚類結(jié)果,并沒有因?yàn)槌跏键c(diǎn)選取的不同而發(fā)生大的改變,只是改變了迭代次數(shù),其中選取最前面的三個(gè)數(shù)據(jù)和后面某一不連續(xù)的數(shù)據(jù)為初始點(diǎn)時(shí)迭代次數(shù)最少。例如可以利用一定的相似性準(zhǔn)則來排除一些近似的聚類中心的侯選集。(3)該算法對“噪聲數(shù)據(jù)”以及孤立的點(diǎn)數(shù)據(jù)是相當(dāng)敏感的,即使少量的該類數(shù)據(jù)也可以對平均值產(chǎn)生相當(dāng)大的影響。有的使用一種結(jié)合了全協(xié)方差矩陣的RPCL算法,而且逐步刪去那些僅僅包含很少數(shù)據(jù)量的訓(xùn)練數(shù)據(jù)的類。這也是該算法的一個(gè)缺點(diǎn)。(2)必須事先給出k值(想要生成的簇的個(gè)數(shù))。聚類結(jié)果對這個(gè)初始點(diǎn)的選擇是相當(dāng)敏感的。通常情況下有k n 且x n 。 K均值聚類算法的主要缺陷及分析主要優(yōu)點(diǎn):(1)作為解決聚類問題而出現(xiàn)的一種傳統(tǒng)經(jīng)典算法,具有簡單、快速的特點(diǎn)。 。平方誤差準(zhǔn)則達(dá)到最小。等所有的樣本調(diào)整完成以后,然后下一步就是對聚類中心的修改,從而開始進(jìn)入下一次迭代過程中去。 K一均值聚類算法基本思想Kmeans算法的工作原理可以總結(jié)為:首先,要從數(shù)據(jù)集中自動(dòng)隨機(jī)選擇K個(gè)點(diǎn)作為初始聚類中心,然后分別將每種樣品計(jì)算其與集群的距離,樣品分類的標(biāo)準(zhǔn)為其與聚類中心的距離。為應(yīng)用最廣泛的一種聚類方法。為了保證最終結(jié)果的可靠,抽樣過程中必須遵循隨機(jī)性,除此之外還要掌握好抽樣的規(guī)模大小,要適度,不能盲目抽取浪費(fèi)時(shí)間,把握效率和效果的充分平衡。但是數(shù)據(jù)集中這種孤立點(diǎn)難免會(huì)出現(xiàn),所以為了減少這種噪音數(shù)據(jù)對聚類結(jié)果的影響,K中心聚類算法[1720]出現(xiàn),它與KM算法最大的區(qū)別是它是用最接近中心的那個(gè)數(shù)據(jù)對象來代表這個(gè)簇,而不是用所有數(shù)據(jù)對象的均值來代表該簇,這樣有效的避免了噪音數(shù)據(jù)的干擾,這也是K中心聚類算法與KM算法唯一的區(qū)別,其他的步驟大相徑庭,沒有太大的區(qū)別。K均值算法多次迭代的最終結(jié)果就是使目標(biāo)函數(shù)KM()最小值,通過該公式我們發(fā)現(xiàn)該算法必須預(yù)先選好初始點(diǎn),對初始點(diǎn)有很強(qiáng)烈的依賴性,如果該初始點(diǎn)選取不合適會(huì)影響整個(gè)結(jié)果,這是該算法的一個(gè)缺點(diǎn),可以改進(jìn)的地方是用層次聚類等方法能夠提前計(jì)算出比較合適的初始點(diǎn),再開始聚類。本算法的計(jì)算公式表示為:KM(X,C)=∑j=1∑xjcj||XiWj||2(j=k) ;……………………………………… ()Wj=∑xj∈cj(xi/|cj|),j=1,2,…..,K;………………………………………………. ()這個(gè)定義的公式是假設(shè)每個(gè)數(shù)組只有唯一的數(shù)據(jù)型的屬性值。CLIQUE算法是網(wǎng)格與密度結(jié)合的算法,它的工作過程是將數(shù)據(jù)空間劃分成不相關(guān)的網(wǎng)格,然后判斷網(wǎng)格是否是密集的,判斷標(biāo)準(zhǔn)是空間中的每一個(gè)維度,再將判斷出來的屬于密集的網(wǎng)格進(jìn)行求交的操作,并檢查這些交集是否連通良好,然后生成最小覆蓋的簇?;谀P退惴òㄉ窠?jīng)網(wǎng)絡(luò)方法[13]和統(tǒng)計(jì)方法,神經(jīng)網(wǎng)絡(luò)方法的思想是將每一個(gè)聚類描述為某個(gè)標(biāo)本,通過度量函數(shù)的計(jì)算,將新的數(shù)據(jù)對象分到相對應(yīng)的標(biāo)本中,最終完成聚類。其中分裂的層次算法也是一種自頂向下的聚類方法,顧名思義分裂的過程就是將一個(gè)分裂為多個(gè),一開始是將所有的數(shù)據(jù)放進(jìn)一個(gè)初始的簇中,對這個(gè)簇進(jìn)行分裂,每次迭代都會(huì)有一個(gè)更小的簇被分裂出來,最終結(jié)果是每個(gè)數(shù)據(jù)只單一的對應(yīng)唯一的一個(gè)簇結(jié)束。其中OPTICS算法不是直接進(jìn)行聚類,而是計(jì)算出一個(gè)簇的次序,以方便自動(dòng)聚類和交互聚類分析。具體步驟是,用戶首先給定所要?jiǎng)澐值拇氐膫€(gè)數(shù)K,算法先進(jìn)行初步劃分為K組,然后用迭代的方法反復(fù)再進(jìn)行分組,每次新得到的分組比前一次要優(yōu)化,是否優(yōu)化的判定標(biāo)準(zhǔn)是同組數(shù)據(jù)之間以及不同組數(shù)據(jù)之間的相似程度,同組相似程度越大組間相似程度越小分組越優(yōu)化,目前常用的算法有Kmeans算法、Kmedoid算法以及以它們?yōu)榛A(chǔ)的算法的各種改進(jìn)。(3)聚類:這就要用到前面的相似性度量函數(shù),選擇距離函數(shù)還是選擇相似系數(shù)等方法來度量選出來的有效特征值的相似度,進(jìn)而完成對該數(shù)據(jù)集的聚類分析。(2)夾角余弦變量的觀測值 ,其夾角余弦我們可以這樣定義為:……………………………………… ()變量聚類一般情況下被叫作為 R 型聚類。一般地,若表示Cab變量Xa,Xb之間的相似系數(shù),應(yīng)滿足:1)| Cab|≤1且Cab=1;2)Cab=1或Cab=—1→Xa=CXb;3)Cab=Cba;Cab的絕對值越與1接近,越說明變量Xa,Xb之間的關(guān)聯(lián)性越大。 如:歐氏距離………………………………… ()② 馬氏(Mahalanois)距離 ……………………………… () 其中 S 是由樣品集N()算得的協(xié)方差矩陣:………………………………… ()樣品聚類一般情況下被叫做Q型聚類,是以距離矩陣為出發(fā)點(diǎn)的。 聚類的相似度量方法聚類分析按照數(shù)據(jù)樣本性質(zhì)的相似程度的大小進(jìn)行劃分,確定這些相似程度的大小必須有一個(gè)準(zhǔn)則來判斷它們的程度大小,這個(gè)判斷準(zhǔn)則叫做相似度方法,主要是在距離和相似系數(shù)的不同。 聚類的基本知識(shí) 類的定義及表示(1)類的
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1