freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

數(shù)據(jù)挖掘k-均值算法實(shí)現(xiàn)畢業(yè)設(shè)計(jì)-全文預(yù)覽

2025-07-08 16:52 上一頁面

下一頁面
  

【正文】 ,變?yōu)?次;前三次的實(shí)驗(yàn)是選取連續(xù)的數(shù)據(jù)作為初始點(diǎn),在第四次的實(shí)驗(yàn)中,選取第100個(gè)數(shù)據(jù)不連續(xù)的這三個(gè)數(shù)據(jù)作為初始值,從結(jié)果圖可以看出,本次實(shí)驗(yàn)與第一次的聚類結(jié)果和迭代次數(shù)都相同,只是數(shù)據(jù)輸出順序有所改變。因此需要對算法的時(shí)間復(fù)雜度時(shí)刻進(jìn)行關(guān)注、審查以滿足時(shí)間等的要求。而且對于次勝單元?jiǎng)t采用懲罰的方法以使其遠(yuǎn)離輸入值。對 Kmeans 算法中的聚類數(shù)目K 值的確定有很多方法,有的是根據(jù)方差分析理論結(jié)合應(yīng)用混合 F 統(tǒng)計(jì)量來得到最合適分類數(shù),并且采用模糊劃分熵的方法來驗(yàn)證其合理性。實(shí)際情況下大部分時(shí)候提前是并不能確定給定的數(shù)據(jù)集應(yīng)劃分成多少個(gè)類別才最適合這個(gè)數(shù)據(jù)集。對于該問題的解決,許多算法采用遺傳算法——GA,例如可以采用遺傳算法GA來進(jìn)行初始化操作,而且內(nèi)部聚類準(zhǔn)則被當(dāng)做評價(jià)指標(biāo)。在 Kmeans 算法中,首先要根據(jù)初始的聚類中心來確定一個(gè)適合的初始劃分,接著要對初始劃分開始進(jìn)行進(jìn)一步的優(yōu)化操作。其中, n 是所有對象的個(gè)數(shù), k 是所需要的簇的個(gè)數(shù), x 是迭代發(fā)生了多少次。,得到K個(gè)聚類。算法步驟: ,這樣就可以產(chǎn)生K 個(gè)初始聚類中心。輸出:k個(gè)簇。假如是不正確的,那么則需要對聚類進(jìn)行調(diào)整。這種算法不適合處理離散屬性,可是對于連續(xù)性具有較好的集聚效應(yīng)。3 K一均值聚類算法的研究 K均值聚類算法介紹kmeans算法[2123]是在1967年MacQueen第一次發(fā)現(xiàn)并提出來的,也被稱為K平均或K均值聚類算法。PAM算法對大數(shù)據(jù)集不具備高效性,一種新的算法也被人們提出來,它就是CLARA算法,該算法是對大的數(shù)據(jù)集進(jìn)行N次的抽取小數(shù)據(jù)集樣本,并依次對這些小的數(shù)據(jù)集使用PAM算法,充分發(fā)揮PAM算法的優(yōu)勢,得到N個(gè)聚類結(jié)果,然后再從這N個(gè)聚類結(jié)果中選擇一個(gè)最優(yōu)解作為最終整個(gè)數(shù)據(jù)集的結(jié)果。 K中心聚類法已經(jīng)介紹過KM算法對簇中心的選取非常敏感,選取不恰當(dāng)會(huì)對聚類結(jié)果產(chǎn)生影響,這是KM算法的缺陷,如果有一個(gè)與簇中心點(diǎn)相距很遠(yuǎn)的點(diǎn)被選為初始點(diǎn)就會(huì)非常明顯的影響聚類質(zhì)量。因?yàn)樵撍惴ㄊ嵌x在數(shù)值型的屬性上的,對該數(shù)據(jù)集假如還有其他屬性是不能識(shí)別的,所以該算法所得的并不是全局最優(yōu)解,而是局部的,而且也不能處理其他形狀的簇,只對凸形簇敏感。 K均值聚類算法 K均值算法是利用算法迭代的思想[1516],通過多次迭代改變不同簇的重心并將數(shù)據(jù)元素放到新的簇中,直到最終的聚類函數(shù)收斂時(shí)停止即可得到最終的聚類結(jié)果。STING算法的主要思想是先在分層的結(jié)構(gòu)中存儲(chǔ)網(wǎng)格的統(tǒng)計(jì)信息,這些統(tǒng)計(jì)信息是提前計(jì)算出來的,數(shù)據(jù)對象的空間被分成許多格子,這些格子是按層次排列,高層的格子信息被劃為許多低層次的格子信息。 基于模型的算法基于模型的聚類分析算法[1]中的模型指的是數(shù)學(xué)模型,該算法是將數(shù)據(jù)集與某種算法形成最佳的擬合,該算法能夠利用統(tǒng)計(jì)學(xué)的方法,根據(jù)擬合的數(shù)據(jù)模型自動(dòng)確定聚類的個(gè)數(shù)K,該算法的魯棒性很強(qiáng)。 基于層次的算法層次聚類算法[1]有兩種不同的分解形式,分別是分裂和凝聚,它們的區(qū)別是聚類的方向不同。目前比較傳統(tǒng)的的以密度為基礎(chǔ)的聚類的方法有三種,這三種算法包括是:GDBSCAN算法、OPTICS算法、DENCLUE算法。 基于劃分的方法劃分算法[11]的基本思想就是通過迭代的方法將含有M個(gè)數(shù)據(jù)對象的數(shù)據(jù)集分成K個(gè)簇。(2)特征的選擇及提?。簩τ诘谝徊降玫降男畔ⅲM(jìn)一步細(xì)分,就是將預(yù)處理后的信息再選擇最有效的特征,并將選擇出來的特征用向量的方法轉(zhuǎn)換成新的有效突出特征,以供聚類分組時(shí)作為分組判定的條件。相關(guān)系數(shù)表示兩個(gè)向量的相關(guān)程度是多少。相似系數(shù):當(dāng)對含有k個(gè)指標(biāo)的變量的數(shù)據(jù)集進(jìn)行聚類時(shí),就用相似系數(shù)來作為判斷所有變量之間的相似程度(或關(guān)聯(lián)程度)的標(biāo)準(zhǔn)指標(biāo)。聚類分析中經(jīng)常使用的的距離函數(shù)有: ① 明氏(Minkowski)距離………………………………………… ()當(dāng)m取1時(shí),則表示絕對距離,當(dāng)m取2時(shí)就表示歐式(Euclid)距離,當(dāng)m取無窮大時(shí)就表示切比雪夫(Chebyshev)距離。例如:(36PT70)V(345AM1234);③ 聚類譜系圖:目前使用的聚類算法輸出結(jié)果大部分都是這種,這種方法表示非常詳細(xì),它能表示出這些樣本自成一類的所有中間情況,而且都會(huì)有各個(gè)類的平臺(tái)高度,我們叫這種圖為標(biāo)度聚類譜系圖。孤立點(diǎn)的研究是將來我們必須重點(diǎn)研究的領(lǐng)域,因?yàn)閹讉€(gè)孤立點(diǎn)就會(huì)影響全局的聚類結(jié)果,這是不容忽視的。其中分類分析包括分類和回歸,分類分析是一種預(yù)測模型,通過現(xiàn)有數(shù)據(jù)預(yù)測將來的數(shù)據(jù),如果預(yù)測的數(shù)據(jù)是離散的即叫做分類,如果是連續(xù)的即叫做回歸。其中關(guān)系數(shù)據(jù)庫實(shí)際上就是使用數(shù)學(xué)學(xué)科上的方法來處理數(shù)據(jù)之間的關(guān)系,我們生活中隨處可見關(guān)系數(shù)據(jù)庫,比如交通部的車輛數(shù)據(jù)庫、銀行的客戶記錄等。本文著重討論的是基于劃分的聚類分析方法中的Kmeans方法,對KM方法進(jìn)行了詳細(xì)的介紹,包括基本思路工作流程等,本文通過分析KM算法的缺點(diǎn),通過實(shí)驗(yàn)驗(yàn)證了對初始點(diǎn)的選取和數(shù)據(jù)輸入順序敏感的驗(yàn)證,通過兩個(gè)實(shí)驗(yàn)分別得出這兩個(gè)因素對聚類結(jié)果產(chǎn)生怎樣的影響并得出結(jié)論,實(shí)驗(yàn)表明初始點(diǎn)不同只是影響聚類迭代的次數(shù),對聚類結(jié)果的影響不明顯,只是少數(shù)數(shù)據(jù)的聚類結(jié)果發(fā)生改變;數(shù)據(jù)輸入順序的不同,不僅會(huì)改變數(shù)據(jù)聚類的迭代次數(shù),也會(huì)讓聚類的結(jié)果發(fā)生明顯改變。文獻(xiàn)[5]的作者用K均值算法與層次聚類算法進(jìn)行混合出一種新的聚類算法,充分發(fā)揮了層次聚類的精確性和K均值的高效性。(4)數(shù)據(jù)庫類型目前,基于聚類算法的數(shù)據(jù)庫比較單一,僅僅包括關(guān)系或事務(wù)數(shù)據(jù)庫,應(yīng)該著眼于其他數(shù)據(jù)庫類型應(yīng)用算法的研究,比如面向以屬性為內(nèi)容的數(shù)據(jù)庫、以文本為內(nèi)容的數(shù)據(jù)庫、各個(gè)不同時(shí)態(tài)為內(nèi)容的數(shù)據(jù)庫、地理數(shù)據(jù)庫多維數(shù)據(jù)庫等的算法開發(fā),這是一項(xiàng)非常艱巨而且有意義的研究任務(wù)。其實(shí)尋找最優(yōu)解就是在優(yōu)化原來的聚類的結(jié)果,通過重復(fù)聚類找到所設(shè)計(jì)的目標(biāo)函數(shù)的最優(yōu)解,但是這個(gè)目標(biāo)函數(shù)一般都不是有最值的函數(shù),所以它的最小值并不是很容易確定,因?yàn)樗⒉晃ㄒ?,有可能找到的這個(gè)只是局部最小值,而不是全局最小,所以這種非完全單調(diào)函數(shù)的全局最小值的查找是目前最急著等待解決的問題。(7)污染數(shù)據(jù)的發(fā)現(xiàn):數(shù)據(jù)是一個(gè)不確定而且無限性的群體,我們不能保證數(shù)據(jù)集中的數(shù)據(jù)是完全集中的,難免會(huì)有個(gè)別的孤立點(diǎn)造成污染數(shù)據(jù),影響整個(gè)結(jié)果,應(yīng)該開發(fā)出能智能識(shí)別這些孤立點(diǎn)的數(shù)據(jù)的算法,來優(yōu)化聚類結(jié)果,目前大部分是通過對目前算法進(jìn)行改進(jìn)來實(shí)現(xiàn)。(3)聚類形狀:在歐幾里得距離的基礎(chǔ)上發(fā)現(xiàn)所得的簇的形狀是球狀簇,它們有相近的距離與密度,形成一個(gè)簇,但是我們更希望能夠有一種算法實(shí)現(xiàn)各個(gè)不同形狀的簇。各大科研機(jī)構(gòu)與高校對聚類的研究主要是對數(shù)據(jù)集聚類算法的設(shè)計(jì)并實(shí)現(xiàn),以研究出來的算法為基礎(chǔ)對算法改進(jìn)。本文主要選擇聚類分析中基于劃分的Kmeans算法并實(shí)現(xiàn)它的應(yīng)用,對數(shù)據(jù)集的數(shù)據(jù)進(jìn)行聚類分析。現(xiàn)在的數(shù)據(jù)挖掘技術(shù)已經(jīng)開始走向科技產(chǎn)品研發(fā)及技術(shù)應(yīng)用,不再是之前的單純的搞一下研究而已,我國市場經(jīng)濟(jì)制度在不斷地完善與發(fā)展,經(jīng)濟(jì)實(shí)力也在不斷進(jìn)步,現(xiàn)在我們的社會(huì)對數(shù)據(jù)挖掘技術(shù)的需求越來越強(qiáng)烈,目前我國很多的有眼光的軟件企業(yè)已經(jīng)將目光聚集于此,來研發(fā)更多適應(yīng)市場需求的數(shù)據(jù)挖掘軟件產(chǎn)品,隨著市場日趨成熟,廣大消費(fèi)者的應(yīng)用需求也是慢慢變大,相信將來會(huì)有更多成熟的中國數(shù)據(jù)挖掘軟件面向市場。原始的數(shù)據(jù)類型可以是多樣的,比如數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)類型,那些圖像圖形資料及文字類資料是半結(jié)構(gòu)化的數(shù)據(jù)類型,當(dāng)然也包括網(wǎng)絡(luò)互聯(lián)網(wǎng)上的那些數(shù)據(jù)我們稱它們?yōu)榘虢Y(jié)構(gòu)化的數(shù)據(jù)類型。目前,廣泛使用的數(shù)據(jù)庫系統(tǒng)雖然具有高效率的錄入所有數(shù)據(jù)查詢所需數(shù)據(jù)統(tǒng)計(jì)數(shù)據(jù)類別等功能,但是并不能發(fā)現(xiàn)這些海量數(shù)據(jù)中蘊(yùn)藏的內(nèi)部關(guān)聯(lián)規(guī)則,也無法從當(dāng)前現(xiàn)在的數(shù)據(jù)情況去預(yù)測未來的數(shù)據(jù)內(nèi)容的發(fā)展趨勢,更不可能做出決策判斷,使得人們逼不得已去面對“數(shù)據(jù)豐富而知識(shí)缺乏”的困鏡[1]。數(shù)據(jù)挖掘K均值算法實(shí)現(xiàn)畢業(yè)設(shè)計(jì)目 錄中文摘要、關(guān)鍵字 11 緒論 3 本文研究的背景和意義 3 聚類分析國內(nèi)外研究現(xiàn)狀 5 本文所做的主要工作 72 聚類算法的分析與研究 8 數(shù)據(jù)挖掘簡介 8 聚類的基本知識(shí) 8 類的定義及表示 9 聚類的相似度量方法 9 聚類間的距離測度函數(shù) 11 聚類分析的一般步驟 12 常用的聚類分析的方法介紹 13 基于劃分的方法 13 基于密度的方法 13 基于層次的算法 13 基于模型的算法 14 基于網(wǎng)格的算法 14 常用的劃分聚類算法的分析 14 K均值聚類算法 15 K中心聚類法 15 本章小結(jié) 163 K一均值聚類算法的研究 17 K均值聚類算法介紹 17 K一均值聚類算法基本思想 17 K一均值聚類算法主要流程 17 K均值聚類算法的主要缺陷及分析 18 本章小結(jié) 194 K均值聚類算法的實(shí)驗(yàn) 20 實(shí)驗(yàn)結(jié)果分析 20 本章小結(jié) 255 總結(jié)與展望 26 總結(jié) 25 展望 26參考文獻(xiàn) 28英文摘要、關(guān)鍵字 311 緒論 本文研究的背景和意義近年來,隨著科技的進(jìn)步以及互聯(lián)網(wǎng)的普及,以計(jì)算機(jī)為代表的信息技術(shù)有了巨大發(fā)展,人們產(chǎn)生、發(fā)現(xiàn)、整理、利用數(shù)據(jù)的能力不斷提升。難道真的沒有辦法可以很科學(xué)的處理這些海量數(shù)據(jù)嗎?事實(shí)并非如此,人類的智慧是無窮的,人們已經(jīng)通過理性的思維和恰當(dāng)?shù)募夹g(shù),將這些海量數(shù)據(jù)充分利用,使它們成為社會(huì)發(fā)展進(jìn)步的強(qiáng)大的力量源泉。數(shù)據(jù)挖掘(Data Mining),也被叫做在已知的數(shù)據(jù)庫中對知識(shí)的發(fā)現(xiàn)(knowledge discovery ,KDD),就是從數(shù)量巨大的、不完整的、有孤立點(diǎn)數(shù)據(jù)的、模糊的、隨機(jī)的數(shù)據(jù)中,提取發(fā)掘出來隱含在當(dāng)中的、人們在這之前不是特別了解的、但又是隱含有用的信息內(nèi)容和知識(shí)內(nèi)容的非平凡過程[2] 。所以數(shù)據(jù)挖掘涉及到的學(xué)科很廣泛,它是各個(gè)學(xué)科的交叉,它用到了人工智能數(shù)學(xué)統(tǒng)計(jì)學(xué)與數(shù)據(jù)庫等技術(shù)來實(shí)現(xiàn)它自己的目的,需要這些領(lǐng)域的工程技術(shù)人員來共同配合,尤其是數(shù)據(jù)庫管理人員。所以聚類分析在我們的日常生活中的應(yīng)用范圍非常廣泛:① 在商業(yè)上,聚類可以根據(jù)消費(fèi)者數(shù)據(jù)庫里面所記錄的數(shù)據(jù)信息,對消費(fèi)者進(jìn)行劃分,根據(jù)各個(gè)消費(fèi)者的特征,以幫助市場營銷員按照市場需求及時(shí)調(diào)整貨物的擺放次序等一系列營銷計(jì)劃的實(shí)施;② 在社會(huì)學(xué)中,聚類用來發(fā)現(xiàn)目前社會(huì)結(jié)構(gòu)組成中潛在的社會(huì)結(jié)構(gòu);③ 在網(wǎng)絡(luò)挖掘中對互聯(lián)網(wǎng)上批量的數(shù)據(jù)信息進(jìn)行有效的劃分與分類,實(shí)現(xiàn)信息的有效利用,對數(shù)據(jù)信息檢索效率方面有顯著提高;④ 在生物信息學(xué)中,在大量的基因群中發(fā)現(xiàn)功能相似的基因組,對基因因功能不同進(jìn)行劃分對其固有的結(jié)構(gòu)特征進(jìn)行分析,來更好的為我們的醫(yī)學(xué)發(fā)展提供有利條件;⑤ 在空間數(shù)據(jù)庫領(lǐng)域,聚類分析能對相似地理特征區(qū)域及它們的人和環(huán)境的不同特征進(jìn)行識(shí)別,來研究地域文化提供條件。 聚類分析國內(nèi)外研究現(xiàn)狀目前,國內(nèi)對于數(shù)據(jù)挖掘聚類分析的研究的集中部門還是科研單位和各大高校,國內(nèi)還沒有公司企業(yè)專門從事聚類分析的研究,相對于外國來說起步較晚。(2)屬性不同情況下的處理能力:現(xiàn)在開發(fā)出來的聚類算法所針對的數(shù)據(jù)類型都是數(shù)值型,但實(shí)際上的聚類類型的信息是不確定的,如二元數(shù)據(jù)、序數(shù)型的、分類型的等或者是所已知的各種數(shù)據(jù)類型的混合。(6)高維數(shù)據(jù)的處理:含有若干維數(shù)據(jù)屬性的數(shù)據(jù)庫是很常見的,但是擅長處理兩維或三維的聚類算法才是目前成熟的應(yīng)用的算法,一旦高維數(shù)據(jù)需要聚類處理,這就是一個(gè)難題,這就需要算法有很強(qiáng)的實(shí)用性。同時(shí)聚類分析
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1