【正文】
參考文獻(xiàn)[1](加)Jiawei Han Micheline Kamber 著, 范 明,孟小峰等譯. 《數(shù)據(jù)挖掘概念與技術(shù)》, 機(jī)械工業(yè)出版社, P223262. [2] , CxLinoffData Mining Techniques NewYork: Wiley,1997 [3] S. Latifi, M. Hedge and M. NaraghiPour. Conditional Connectivity Measures for Large Multiprocessor Systems, IEEE Transactions on Computers, 1994, 43(2):218222. [4] T. C. Lee and J. P. Hayes. A FaultTolerant Communication Scheme for Hypercube Computers, IEEE Transactions on Computers, 1992, 41(10):12421256. [5] J. Wu and K. Yao. A LimitedGlocalInformationBased Multicasting Scheme for Faulty Hypercubes, IEEE Transactions on Computers, 1995, 44(9):11621167. [6] . [7] XU L. Bayesian YingYang machine, clustering and number of clusters[J]. Pattern Recognition Letters, 1997, 18(1113): 11671178. [8] KAUFMAN L, ROUSSEEUW P. Finding Groups in Data: An Introduction to Cluster Analysis[M].New York: John Wiley and Sons, NY,1990. [9] Raymond T. Ng, Jiawei Han. CLARANS: A Method for Clustering Objects for Spatial Data Mining[J]. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2002,14(5): 10031016. [10] ZHANG T, RAMAKRISHNAN R, LIVNY M. BIRCH: an efficient data clustering method for very large databases[C]. In: Proceedings of the ACM SIGMOD Conference, Montreal, Canada, 1996:103114. [11]Ester M, Kriegel HP, Sander J, etal. A Density Based Algorithmfor Discovering Clusters in Large Spatial Databases with Noise[A]. In: Proc 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD296)[C]. Portland: ACM Press, 1996: 226231. [12] Agrawal R, Gehrke J, Gunopulos D, Raghavan P. Automatic subspace clustering 50of highdimensional data for data mining applications[J]. ACM SIGMOD,1998, 27(2):94105. [13] Cao Lijuan, Gu Qingming. Dynamic support vector machines for nonstationary time series forecasting[J]. Intelligent Data Analysis, 2002, 6(1): 6783. [14] . Pattern recognition with fuzzy objective function algorithm[M]. New York: Plenum, 1981. [15] Wang Shitong. A New Integrated Clustering Algorithm GFC and Switching regressions[J]. Int. J. Pattern Recognition and Artificial Intelligence, 2002, 16(4): 433447. [16] Gokcay E, Principe JC. Information theoretic clustering[J]. IEEE Trans. PAMI, 2002, 24(2): 158171. [17] , . The possibilistic c_means algorithm: insights and remendations[J]. IEEE Trans. Fuzzy Systems, 1996, 4(3): 385393. [18] , . A possibilisti。我要衷心地感謝我的父母和家人,沒有他們的關(guān)心和愛護(hù),我不可能度過這漫長(zhǎng)而艱難的求學(xué)生涯,并最終完成學(xué)業(yè)。感謝100002班級(jí)的所有老師和同學(xué),他們?yōu)槲覄?chuàng)造了良好的學(xué)習(xí)環(huán)境、學(xué)習(xí)氣氛和實(shí)驗(yàn)條件。感謝與我同期畢業(yè)的成晨、王勉和吉海斌同學(xué)。李教授作為院長(zhǎng)學(xué)校工作事務(wù)繁忙仍然每周與我們見面一次進(jìn)行答疑和指導(dǎo),李教授為了不讓我們辛苦,寧愿一個(gè)人往本部跑。在工作上,李老師既具有旺盛持久的工作熱情,又具嚴(yán)謹(jǐn)認(rèn)真的治學(xué)態(tài)度。本論文的選題和研究工作傾注了李教授的大量的心血和諄諄的教誨。 致謝 首先,我謹(jǐn)向我的導(dǎo)師李雷教授致以衷心的謝意。我想這是一次意志的磨練,是對(duì)我實(shí)際能力的一次提升,也會(huì)對(duì)我未來(lái)的學(xué)習(xí)和工作有很大的幫助。 腳踏實(shí)地,認(rèn)真嚴(yán)謹(jǐn),實(shí)事求是的學(xué)習(xí)態(tài)度,不怕困難、堅(jiān)持不懈、吃苦耐勞的精神是我在這次設(shè)計(jì)中最大的收益。在整個(gè)過程中,我學(xué)到了新知識(shí),增長(zhǎng)了見識(shí)。這段旅程看似荊棘密布,實(shí)則蘊(yùn)藏著無(wú)盡的寶藏。畢業(yè)設(shè)計(jì)的書寫給了我難忘的回憶。另外,通過對(duì)算法的改進(jìn),試著將此算法用于彩色圖像的分割中。 由于圖像分割本身是一個(gè)很難的課題,其涉及的應(yīng)用范圍也相當(dāng)廣泛,各領(lǐng)域的圖像千差萬(wàn)別,本文提出的算法的適用范圍也受到一些限制。在數(shù)據(jù)挖掘的理論及應(yīng)用實(shí)踐中,人們己經(jīng)提出了許多聚類算法,但每種算法在具有某種優(yōu)點(diǎn)的同時(shí)也存在著某些不足,可能適合于處理某類問題卻無(wú)法處理另一類情況,到目前為止仍沒有普遍適用的聚類算法。并且進(jìn)行了比較,并在此基礎(chǔ)上對(duì)kmeans算法方法進(jìn)行了探討。此外,本文詳細(xì)介紹了kmeans算法算法和FCM算法,并在此基礎(chǔ)上對(duì)kmeans算法方法進(jìn)行了探討。本文分析了經(jīng)典的聚類分割方法,針對(duì)具體的聚類方法,本文進(jìn)行了一些研究。由于圖像分割本身的重要性和有難度的挑戰(zhàn)性,吸引了很多學(xué)者和研究人員,而圖像分割題恰好是將圖像的像素進(jìn)行分類的問題,因此,聚類技術(shù)被廣泛得應(yīng)用到圖像分割中。但圖顯示的結(jié)果可以看出,對(duì)圖像的分割效果比均值聚類的效果要好很多。FCM的聚類算法是針對(duì)特征空間中的點(diǎn)集設(shè)計(jì)的,對(duì)于特殊類型的數(shù)據(jù),比如在樣本每維特征的賦值不是一個(gè)數(shù),而是一個(gè)區(qū)間。4)因?yàn)槟:垲惸繕?biāo)是非凸的,而模糊C均值聚類算法的計(jì)算過程又是迭代爬山,一次很容易陷入局部極值點(diǎn),從而得不到最優(yōu)解或滿意解,同時(shí),大數(shù)據(jù)量下算法耗時(shí)也是困擾人們的一大難題,這2個(gè)問題目前還不能得到全面的解決。2)1)FCM算法缺點(diǎn)對(duì)于同一圖像,對(duì)圖像進(jìn)行分割時(shí),迭代次數(shù)比Kmeans要少,說(shuō)明如果將運(yùn)用到圖像分割中的話,應(yīng)該會(huì)有比較好的結(jié)果。、對(duì)圖像分割的迭代次數(shù)和運(yùn)行時(shí)間算法迭代次數(shù)運(yùn)行時(shí)間均值2718,均值聚類對(duì)圖像的分割效果并不是很好,很多背景的像素點(diǎn)都沒有被判別出來(lái)。另外,選擇模糊度參數(shù)為,迭代終止參數(shù)為,通過14次迭代。根據(jù)Kmeans算法編寫代碼(具體代碼見【附錄A】)。 根據(jù)算法編寫代碼(具體代碼見【附錄C】),運(yùn)行得到的基于均值聚類算法的圖像分割效果圖原圖像 聚類后圖像 繼續(xù)對(duì)多幅圖像用上述方法進(jìn)行C均值聚類分割,得到如下圖像:比如,如果某個(gè)野值樣本遠(yuǎn)離各類的聚類中心,本來(lái)它嚴(yán)格屬于各類的隸屬度都很小,但由于歸一化條件的限制,將會(huì)使它對(duì)各類都有較大的隸屬度(比如兩類情況下各類的隸屬度都是0.5),這種野值的存在將影響迭代的最終結(jié)果。 當(dāng)算法收斂時(shí),就得到了各類的聚類中心和各個(gè)樣本對(duì)于各類的隸屬度值,從而完成了模糊聚類劃分。 步驟4 用式(4)計(jì)算新的U陣。步驟3 根據(jù)式(1)計(jì)算目標(biāo)函數(shù)。在批處理方式運(yùn)行時(shí),F(xiàn)CM采用下列步驟確定聚類中心 和隸屬矩陣 U: 步驟1 用值在0,1間的隨機(jī)數(shù)初始化隸屬矩陣U,使其滿足式(2)中的約束條件。聚類的結(jié)果使目標(biāo)函數(shù) j 最小,因此,構(gòu)造如下新的目標(biāo)函數(shù): () 這里 ,j =1,? ,n,是等式的n個(gè)約束式的拉格朗日乘子。模糊C均值聚類(FCM)方法是一種在已知聚類數(shù)的情況下,利用隸屬度函數(shù)和迭代算法將有限的數(shù)據(jù)集分別聚類的方法。 (3)空間信息的使用 模糊均值聚類方法分割的另一個(gè)問題是它只考慮到了灰度特征或彩色圖像的顏色特征,忽略了圖像中固有的豐富的空間信息,從而導(dǎo)致它對(duì)噪聲比較敏感,而且使得分割出的區(qū)域往往不連續(xù),導(dǎo)致本屬于同類的象素沒有連在一起,不能形成有意義的子圖。所以初始參數(shù)的確定對(duì)于計(jì)算量的降低顯得尤其重要。在沒有任何先驗(yàn)知識(shí)也沒有任何輔助手段的情況下,系統(tǒng)可以采用隨機(jī)選取類中心的辦法。 另外,如果聚類迭代的初始值接近于某個(gè)局部極值的話,就很有可能最終陷入局部極值,從而得不到全局最優(yōu)值。根據(jù)數(shù)學(xué)分析理論,任何一個(gè)迭代并且最后收斂的序列,如果迭代的初始值比較接近于最后的收斂結(jié)果的話,收斂的速度會(huì)明顯提高,迭代次數(shù)也會(huì)較大幅度地減小。均值聚類方法中最困難的是圖像分割的類別數(shù)的確定。利用FCM算法進(jìn)行圖像分割主要有以下難點(diǎn)和問題: (1)聚類類別數(shù)C的確定 在聚類進(jìn)行之前必需給定類的數(shù)目,否則聚類無(wú)法進(jìn)行。FCM算法采用迭代法優(yōu)化目標(biāo)函數(shù)來(lái)獲得對(duì)數(shù)據(jù)集的模糊分類,算法具有很好的收斂性。實(shí)際中應(yīng)用最為廣泛的模糊聚類方法是模糊C均值算法(Fuzzy CMeans),簡(jiǎn)稱FCM,本文中的模糊聚類算法也特指模糊 C 均值算法。其中基于模糊理論的圖像分割是模糊理論在圖像處理中應(yīng)用比較完善的一個(gè)領(lǐng)域。近年來(lái)一些學(xué)者致力于將模糊理論引入到圖像處理中,取得很好的效果。這種不確定性是經(jīng)典的數(shù)學(xué)理論無(wú)法解決的,并且這種不確定性不是隨機(jī)的,因而不適于用概率論來(lái)解決。另一方面,人的視覺對(duì)于圖像從黑到白的灰度級(jí)又是模糊而難以區(qū)分的。一方面,目標(biāo)在投影 成圖像的過程中,由于各種因素的影響,造成了目標(biāo)物的像與干擾(或其他物的像)具有某種程度相似性。FCM算法用于圖像分割是將圖像中屬性相一致的象素進(jìn)行模糊聚類后對(duì)每類象素進(jìn)行標(biāo)定,從而實(shí)現(xiàn)圖像分割的。因此,基于粗糙集的K_均值聚類算法可以有效地對(duì)灰度圖像進(jìn)行分割,從分割后的圖像中可獲取更多的目標(biāo)信息,為進(jìn)一步的圖像分析和理解提供了良好的基礎(chǔ)。得到結(jié)果如下: 圖三與圖一相比分類結(jié)果更好,圖像分割效果更明顯,更能表現(xiàn)圖像特征。c3(1)=192。計(jì)算這12個(gè)中心點(diǎn)之兩兩間距,若最小距離小于間距20,則將相應(yīng)中心點(diǎn)合并,并將兩點(diǎn)的算術(shù)平均值作為該中心點(diǎn)的值,處理后結(jié)果為P{32,160,192}下面將c1(1)=32。⑤ 以上聚類過程結(jié)束后,為了增強(qiáng)顯示效果,分割結(jié)果各像素以聚類中心灰度值作為該類最終灰度針對(duì)上圖,根據(jù)改進(jìn)后的K均值聚類算法: 由原圖像的灰度直方圖,本文將定間距D設(shè)為32,灰度級(jí)L的個(gè)數(shù)為8。③對(duì)于,計(jì)算新的聚類中心,更新類均值:,式中,是中的像素個(gè)數(shù)。 具體步驟如下:① 將粗糙集理論提供的L個(gè)中心點(diǎn)P作為初始類均值 ,。中心點(diǎn)的個(gè)數(shù)和數(shù)值就是K_均值聚類所需要的初始類的個(gè)數(shù)和均值。計(jì)算L個(gè)中心點(diǎn)之兩兩間距,若最小距離小于間距D,則將相應(yīng)中心點(diǎn)合并,并將兩點(diǎn)的算術(shù)平均值作為該中心點(diǎn)的值。一z,ID}(i,J一0,1,.,255)首先確定間距D,通過原圖可求出灰度值分布范圍,根據(jù)灰度值范圍可求出灰度級(jí)數(shù)L。若灰度值相差不大的像素可歸為一類,則可將圖像分為幾類。粗糙集理論能很好地近似分類。 于粗糙集理論的灰度空間劃分。一旦這 K個(gè)樣本選取不合理,將會(huì)增加運(yùn)算的復(fù)雜程度,誤導(dǎo)聚類過程,得到不合理的聚類結(jié)果。(4)Kmeans算法對(duì)一些離散點(diǎn)和初始k值敏感,不同的距離初始值對(duì)同樣的數(shù)據(jù)樣本可能得到不同的結(jié)果。(2)在 Kmeans 算法中,首先需要根據(jù)初始聚類中心來(lái)確定一個(gè)初始劃分,然后對(duì)初始劃分進(jìn)行優(yōu)化。(3)當(dāng)結(jié)果類是密集的,而類與類之間區(qū)別明顯時(shí), 它的效果較好。