freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘k-均值算法實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-文庫(kù)吧資料

2025-06-23 16:52本頁(yè)面
  

【正文】 均值算法對(duì)數(shù)據(jù)集的輸入順序也是敏感的,不同的的順序會(huì)有不同的聚類結(jié)果,這也是今后改進(jìn)算法可以嘗試的方向,也可以在應(yīng)用該算法時(shí),通過(guò)改變數(shù)據(jù)集的輸入順序來(lái)適當(dāng)提高聚類效果。實(shí)驗(yàn)二:本次試驗(yàn)是驗(yàn)證不同的數(shù)據(jù)輸入順序,對(duì)聚類結(jié)果的影響,實(shí)驗(yàn)的數(shù)據(jù)集為了更具說(shuō)服力,還是用實(shí)驗(yàn)一中的數(shù)據(jù),不同之處是,此次實(shí)驗(yàn)只是將數(shù)據(jù)集中的后75個(gè)數(shù)放到前面,也就是與前75個(gè)數(shù)調(diào)換一下順序,本次試驗(yàn)只是驗(yàn)證數(shù)據(jù)集輸入順序的改變對(duì)聚類結(jié)果的影響,所以只選取兩種初始值進(jìn)行驗(yàn)證,與實(shí)驗(yàn)一進(jìn)行對(duì)比,可得實(shí)驗(yàn)結(jié)果如下:令前三個(gè)數(shù)據(jù)p[1]p[2]p[3]作為初始聚類中心,: 數(shù)據(jù)輸入順序改變聚類圖1把第p[4]p[5]p[6]個(gè)數(shù)據(jù)作為初始聚類中心,: 數(shù)據(jù)輸入順序改變聚類圖2實(shí)驗(yàn)分析與結(jié)論:分析:本次實(shí)驗(yàn)主要是與之前的數(shù)據(jù)順序不同時(shí)所得的聚類結(jié)果,改變了數(shù)據(jù)的輸入順序,造成聚類結(jié)果有很大的改變,同時(shí)迭代次數(shù)也增加了,這說(shuō)明K均值算法對(duì)數(shù)據(jù)輸入順序的敏感性不僅體現(xiàn)在迭代次數(shù)上,而且更會(huì)改變數(shù)據(jù)的迭代次數(shù)。實(shí)驗(yàn)表明:K均值算法對(duì)初始值得敏感體現(xiàn)在對(duì)聚類結(jié)果的迭代次數(shù)上,選取合理的初始點(diǎn)有助于我們高效率的完成聚類工作,用最少的時(shí)間完成我們所需要的結(jié)果為我們更好的應(yīng)用在實(shí)際生活上。4 K均值聚類算法的實(shí)驗(yàn) 實(shí)驗(yàn)結(jié)果分析 實(shí)驗(yàn)一:,對(duì)K均值算法進(jìn)行了驗(yàn)證,經(jīng)過(guò)實(shí)驗(yàn)分別對(duì)150個(gè)數(shù)據(jù)的數(shù)據(jù)集選取不同初始點(diǎn)分別進(jìn)行聚類,驗(yàn)證不同的初始條件對(duì)最終聚類結(jié)果的影響情況,得到的聚類結(jié)果分別如下圖:令前三個(gè)數(shù)據(jù)p[1]p[2]p[3]作為初始聚類中心,: 初始點(diǎn)為第1 2 3序號(hào)的聚類圖把第p[4]p[5]p[6]個(gè)數(shù)據(jù)作為初始聚類中心,: 初始點(diǎn)為第4 5 6序號(hào)的聚類圖把第p[100]p[101]p[102]個(gè)數(shù)據(jù)作為初始聚類中心,: 初始點(diǎn)為第100 101 102序號(hào)的聚類圖 把第p[1]p[10]p[100]個(gè)數(shù)據(jù)作為初始聚類中心,: 初始點(diǎn)為第1 10 100序號(hào)的聚類實(shí)驗(yàn)分析與結(jié)論:分析:由以上聚類結(jié)果發(fā)現(xiàn),不同的初始值的選取對(duì)聚類結(jié)果并不是造成很大影響,初始值選取的不同,只是造成聚類結(jié)果中極少數(shù)的數(shù)據(jù)發(fā)生變化,如數(shù)據(jù)27,聚類的迭代次數(shù)發(fā)生了改變由5次變?yōu)?次,還有不同點(diǎn)就是,聚類結(jié)果的輸出順序也發(fā)生了變化;,選擇第100、10102個(gè)數(shù)據(jù)與選擇第6個(gè)數(shù)據(jù)作為初始點(diǎn)的聚類結(jié)果是一樣的,不同之處就是數(shù)據(jù)聚類的輸出順序有所改變,變?yōu)?次;前三次的實(shí)驗(yàn)是選取連續(xù)的數(shù)據(jù)作為初始點(diǎn),在第四次的實(shí)驗(yàn)中,選取第100個(gè)數(shù)據(jù)不連續(xù)的這三個(gè)數(shù)據(jù)作為初始值,從結(jié)果圖可以看出,本次實(shí)驗(yàn)與第一次的聚類結(jié)果和迭代次數(shù)都相同,只是數(shù)據(jù)輸出順序有所改變。 本章小結(jié)本章主要是針對(duì)K均值算法作了系統(tǒng)的分析,介紹了它的基本定義、基本思想、主要流程,最后詳細(xì)分析了該算法在實(shí)際應(yīng)用中的優(yōu)點(diǎn)和不足。因此需要對(duì)算法的時(shí)間復(fù)雜度時(shí)刻進(jìn)行關(guān)注、審查以滿足時(shí)間等的要求。(4)從 Kmeans 算法流程中可以清楚的看到,該算法的實(shí)現(xiàn)原理要求必須不斷地對(duì)樣本進(jìn)行分類,并且必須不斷地計(jì)算更新調(diào)整后的新的聚類中心。而且對(duì)于次勝單元?jiǎng)t采用懲罰的方法以使其遠(yuǎn)離輸入值。還有的使用一種名為次勝者受罰的學(xué)習(xí)競(jìng)爭(zhēng)規(guī)從而自動(dòng)決定類的合理數(shù)目。對(duì) Kmeans 算法中的聚類數(shù)目K 值的確定有很多方法,有的是根據(jù)方差分析理論結(jié)合應(yīng)用混合 F 統(tǒng)計(jì)量來(lái)得到最合適分類數(shù),并且采用模糊劃分熵的方法來(lái)驗(yàn)證其合理性。有的算法是通過(guò)采用類的自動(dòng)識(shí)別它的初始數(shù)據(jù)集的分類和合并來(lái)得到較為合適聚類的簇?cái)?shù)。實(shí)際情況下大部分時(shí)候提前是并不能確定給定的數(shù)據(jù)集應(yīng)劃分成多少個(gè)類別才最適合這個(gè)數(shù)據(jù)集。并且對(duì)初值很敏感:不同的初始K值,也許將導(dǎo)致不同結(jié)果。對(duì)于該問(wèn)題的解決,許多算法采用遺傳算法——GA,例如可以采用遺傳算法GA來(lái)進(jìn)行初始化操作,而且內(nèi)部聚類準(zhǔn)則被當(dāng)做評(píng)價(jià)指標(biāo)。倘若初始值選擇的不合適很可能造成不能得到準(zhǔn)確的聚類結(jié)果的后果。在 Kmeans 算法中,首先要根據(jù)初始的聚類中心來(lái)確定一個(gè)適合的初始劃分,接著要對(duì)初始劃分開(kāi)始進(jìn)行進(jìn)一步的優(yōu)化操作。(2)當(dāng)結(jié)果簇是密集的,而且簇與簇之間的區(qū)別較為明顯時(shí), 它的效果比較較好。其中, n 是所有對(duì)象的個(gè)數(shù), k 是所需要的簇的個(gè)數(shù), x 是迭代發(fā)生了多少次。對(duì)于較大數(shù)據(jù)集的聚類分析來(lái)說(shuō),該算法相比較而言是可伸縮和高效率的。,得到K個(gè)聚類。算法步驟: ,這樣就可以產(chǎn)生K 個(gè)初始聚類中心。算法描述:(1) 從 n個(gè)數(shù)據(jù)對(duì)象中自動(dòng)隨機(jī)的選擇 k 個(gè)對(duì)象來(lái)作為初始狀態(tài)的的聚類中心; (2) 根據(jù)各個(gè)聚類對(duì)象的均值(即每個(gè)簇的中心點(diǎn)),來(lái)計(jì)算各個(gè)數(shù)據(jù)對(duì)象與所有中心對(duì)象之間的距離。輸出:k個(gè)簇。倘若在某一次迭代算法過(guò)程中,所有樣本的分類結(jié)果是正確的,無(wú)需調(diào)整,聚類中心也沒(méi)會(huì)出現(xiàn)有一點(diǎn)任何變化,那么這表明該聚類函數(shù)收斂,從而算法就結(jié)束了。假如是不正確的,那么則需要對(duì)聚類進(jìn)行調(diào)整。利用距離函數(shù)計(jì)算出每一個(gè)新生成的所要作聚類的數(shù)據(jù)對(duì)象的平均距離值,并用這個(gè)平均距離值來(lái)作為新的聚類中心,倘若相鄰兩次計(jì)算所得到的聚類中心點(diǎn)并沒(méi)有發(fā)生一點(diǎn)的改變,那么就能夠證明樣本調(diào)整過(guò)程就算完成了,也就是表示聚類準(zhǔn)則函數(shù)目前達(dá)到了收斂。這種算法不適合處理離散屬性,可是對(duì)于連續(xù)性具有較好的集聚效應(yīng)。主要特點(diǎn)為將每個(gè)群集子集內(nèi)的所有數(shù)據(jù)樣本的平均值作為集群的代表點(diǎn)。3 K一均值聚類算法的研究 K均值聚類算法介紹kmeans算法[2123]是在1967年MacQueen第一次發(fā)現(xiàn)并提出來(lái)的,也被稱為K平均或K均值聚類算法。 本章小結(jié)本章詳細(xì)介紹了聚類分析相關(guān)的基礎(chǔ)知識(shí),分析了它的定義,屬性,表示方法,相似性測(cè)量度,距離函數(shù)等方面。PAM算法對(duì)大數(shù)據(jù)集不具備高效性,一種新的算法也被人們提出來(lái),它就是CLARA算法,該算法是對(duì)大的數(shù)據(jù)集進(jìn)行N次的抽取小數(shù)據(jù)集樣本,并依次對(duì)這些小的數(shù)據(jù)集使用PAM算法,充分發(fā)揮PAM算法的優(yōu)勢(shì),得到N個(gè)聚類結(jié)果,然后再?gòu)倪@N個(gè)聚類結(jié)果中選擇一個(gè)最優(yōu)解作為最終整個(gè)數(shù)據(jù)集的結(jié)果。它所用的目標(biāo)函數(shù)公式是:J=∑j=1∑x∈Wi||xmj||…………………………………………… ()其中Wi表示數(shù)據(jù)集中的人一個(gè)對(duì)象,mj表示該簇的中心,該算法除了不受孤立點(diǎn)影響之外還不受數(shù)據(jù)輸入順序的影響。 K中心聚類法已經(jīng)介紹過(guò)KM算法對(duì)簇中心的選取非常敏感,選取不恰當(dāng)會(huì)對(duì)聚類結(jié)果產(chǎn)生影響,這是KM算法的缺陷,如果有一個(gè)與簇中心點(diǎn)相距很遠(yuǎn)的點(diǎn)被選為初始點(diǎn)就會(huì)非常明顯的影響聚類質(zhì)量。除此之外K均值算法還有其他缺點(diǎn),它在時(shí)間上并不具備高效性。因?yàn)樵撍惴ㄊ嵌x在數(shù)值型的屬性上的,對(duì)該數(shù)據(jù)集假如還有其他屬性是不能識(shí)別的,所以該算法所得的并不是全局最優(yōu)解,而是局部的,而且也不能處理其他形狀的簇,只對(duì)凸形簇敏感。該算法要用戶期望的聚類結(jié)果的組數(shù)作為輸入值K,而每個(gè)簇內(nèi)的初始數(shù)據(jù)是根據(jù)電腦隨機(jī)分配的,也可以依次取前K個(gè)元素,該迭代算法直到?jīng)]有數(shù)據(jù)元素再被分到不同的組中時(shí)就是算法結(jié)束的時(shí)候。 K均值聚類算法 K均值算法是利用算法迭代的思想[1516],通過(guò)多次迭代改變不同簇的重心并將數(shù)據(jù)元素放到新的簇中,直到最終的聚類函數(shù)收斂時(shí)停止即可得到最終的聚類結(jié)果。WAVECLUSTER算法是通過(guò)把數(shù)據(jù)比作信號(hào)來(lái)判斷,多維數(shù)據(jù)對(duì)應(yīng)的是多維的信號(hào),首先要做的也是將數(shù)據(jù)空間劃分為網(wǎng)格,該算法利用的是小波變換算法,使數(shù)據(jù)空間成為頻域空間,在數(shù)據(jù)空間中利用某一函數(shù)對(duì)這些數(shù)據(jù)做卷積,最終就能得到聚類結(jié)果。STING算法的主要思想是先在分層的結(jié)構(gòu)中存儲(chǔ)網(wǎng)格的統(tǒng)計(jì)信息,這些統(tǒng)計(jì)信息是提前計(jì)算出來(lái)的,數(shù)據(jù)對(duì)象的空間被分成許多格子,這些格子是按層次排列,高層的格子信息被劃為許多低層次的格子信息。而統(tǒng)計(jì)方法將每一個(gè)聚類結(jié)果通過(guò)概率描述的方式表示出來(lái),該方法比較適用于概念聚類。 基于模型的算法基于模型的聚類分析算法[1]中的模型指的是數(shù)學(xué)模型,該算法是將數(shù)據(jù)集與某種算法形成最佳的擬合,該算法能夠利用統(tǒng)計(jì)學(xué)的方法,根據(jù)擬合的數(shù)據(jù)模型自動(dòng)確定聚類的個(gè)數(shù)K,該算法的魯棒性很強(qiáng)。而凝聚的層次算法正好與分裂相反,是自底向上將小的簇聚類為大的簇,在一開(kāi)始的時(shí)候數(shù)據(jù)集中每一個(gè)數(shù)據(jù)對(duì)象為一個(gè)小的簇,逐步的與相鄰的簇合并最終成為一個(gè)簇時(shí)終止。 基于層次的算法層次聚類算法[1]有兩種不同的分解形式,分別是分裂和凝聚,它們的區(qū)別是聚類的方向不同。DBSCAN算法是檢驗(yàn)數(shù)據(jù)對(duì)象周圍的數(shù)據(jù)個(gè)數(shù)是否超過(guò)了用戶規(guī)定的范圍。目前比較傳統(tǒng)的的以密度為基礎(chǔ)的聚類的方法有三種,這三種算法包括是:GDBSCAN算法、OPTICS算法、DENCLUE算法。以劃分為基礎(chǔ)的聚類算法將在后面的章節(jié)做重點(diǎn)介紹。 基于劃分的方法劃分算法[11]的基本思想就是通過(guò)迭代的方法將含有M個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)集分成K個(gè)簇。(4)評(píng)估結(jié)果:結(jié)果進(jìn)行分析,看有沒(méi)有完成預(yù)定的要求,并根據(jù)聚類方法的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)結(jié)果進(jìn)行科學(xué)評(píng)估,即聚類分析的九個(gè)方面的要求是否滿足,然后根據(jù)評(píng)估結(jié)果判斷是否對(duì)本次的分析過(guò)程進(jìn)行改進(jìn),以及怎樣改進(jìn)。(2)特征的選擇及提?。簩?duì)于第一步得到的信息,進(jìn)一步細(xì)分,就是將預(yù)處理后的信息再選擇最有效的特征,并將選擇出來(lái)的特征用向量的方法轉(zhuǎn)換成新的有效突出特征,以供聚類分組時(shí)作為分組判定的條件。一般R 型聚類,相似系數(shù)矩陣 C 是數(shù)據(jù)集聚類的出發(fā)點(diǎn),相似系數(shù)矩陣不僅能夠使用相關(guān)矩陣,而且能夠使用夾角余弦矩陣。相關(guān)系數(shù)表示兩個(gè)向量的相關(guān)程度是多少。相似系數(shù)中相關(guān)系數(shù)和夾角余弦是目前最經(jīng)常被使用的。相似系數(shù):當(dāng)對(duì)含有k個(gè)指標(biāo)的變量的數(shù)據(jù)集進(jìn)行聚類時(shí),就用相似系數(shù)來(lái)作為判斷所有變量之間的相似程度(或關(guān)聯(lián)程度)的標(biāo)準(zhǔn)指標(biāo)。明氏距離改進(jìn)后得到了馬氏距離,所有的線性變換對(duì)于馬氏距離來(lái)說(shuō)是不變的,多重相關(guān)性馬氏距離也把它克服了。聚類分析中經(jīng)常使用的的距離函數(shù)有: ① 明氏(Minkowski)距離………………………………………… ()當(dāng)m取1時(shí),則表示絕對(duì)距離,當(dāng)m取2時(shí)就表示歐式(Euclid)距離,當(dāng)m取無(wú)窮大時(shí)就表示切比雪夫(Chebyshev)距離。距離:樣本點(diǎn)之間的相似性我們就用某種距離函數(shù)表示,距離近的表示樣本點(diǎn)相似,具體計(jì)算時(shí)可以把樣本看做有M個(gè)屬性的變量,即這個(gè)樣本就是在一個(gè)M維的空間中的一個(gè)點(diǎn)。例如:(36PT70)V(345AM1234);③ 聚類譜系圖:目前使用的聚類算法輸出結(jié)果大部分都是這種,這種方法表示非常詳細(xì),它能表示出這些樣本自成一類的所有中間情況,而且都會(huì)有各個(gè)類的平臺(tái)高度,我們叫這種圖為標(biāo)度聚類譜系圖。世界錯(cuò)綜復(fù)雜事物存在的方式也不盡相同,所以類的定義并不唯一。孤立點(diǎn)的研究是將來(lái)我們必須重點(diǎn)研究的領(lǐng)域,因?yàn)閹讉€(gè)孤立點(diǎn)就會(huì)影響全局的聚類結(jié)果,這是不容忽視的。關(guān)聯(lián)分析分析數(shù)據(jù)與數(shù)據(jù)之間關(guān)聯(lián)關(guān)系還有它與其他數(shù)據(jù)的派生關(guān)系。其中分類分析包括分類和回歸,分類分析是一種預(yù)測(cè)模型,通過(guò)現(xiàn)有數(shù)據(jù)預(yù)測(cè)將來(lái)的數(shù)據(jù),如果預(yù)測(cè)的數(shù)據(jù)是離散的即叫做分類,如果是連續(xù)的即叫做回歸。多媒體數(shù)據(jù)庫(kù)顧名思義就是包含大量視頻音頻文件,模式識(shí)別技術(shù)被用于該領(lǐng)域。其中關(guān)系數(shù)據(jù)庫(kù)實(shí)際上就是使用數(shù)學(xué)學(xué)科上的方法來(lái)處理數(shù)據(jù)之間的關(guān)系,我們生活中隨處可見(jiàn)關(guān)系數(shù)據(jù)庫(kù),比如交通部的車輛數(shù)據(jù)庫(kù)、銀行的客戶記錄等。其實(shí)數(shù)據(jù)挖掘就是通過(guò)各種分析算法工具從巨大數(shù)量的數(shù)據(jù)中挖掘所需要的數(shù)據(jù)與模型兩者關(guān)系的一個(gè)過(guò)程,可以通過(guò)得到的這些關(guān)系,對(duì)未來(lái)的數(shù)據(jù)與模型關(guān)系進(jìn)行預(yù)測(cè)。本文著重討論的是基于劃分的聚類分析方法中的Kmeans方法,對(duì)KM方法進(jìn)行了詳細(xì)的介紹,包括基本思路工作流程等,本文通過(guò)分
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1