freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于文本的聚類算法研究畢業(yè)論文(文件)

 

【正文】 與現(xiàn)有簇中心距離最遠(yuǎn)的點(diǎn)作為下一個(gè)類簇的初始簇中心,以此類推,確定出K個(gè)類簇的初始聚類中心。 本章小結(jié)本章詳細(xì)的闡述了k均值聚類算法的算法思想及算法流程,并且詳細(xì)的提出了該算法的優(yōu)點(diǎn)以及存在的問(wèn)題。一個(gè)功能柱中的細(xì)胞完成同一種功能。在這種情況下,不論輸入樣本是多少維的,都可投影到低維的數(shù)據(jù)空間的某個(gè)區(qū)域上。另外網(wǎng)絡(luò)要求的輸入神經(jīng)元數(shù)很大,因而SOM網(wǎng)絡(luò)比其他人工神經(jīng)網(wǎng)絡(luò)(比如BP網(wǎng)絡(luò))的規(guī)模要大。再擴(kuò)大一點(diǎn),如果說(shuō)一般的競(jìng)爭(zhēng)學(xué)習(xí)網(wǎng)絡(luò)能夠訓(xùn)練識(shí)別出輸入矢量的點(diǎn)特征,那么SOM網(wǎng)絡(luò)能夠表現(xiàn)輸入矢量在線上或平面上的分布特征。如果采用歐氏距離,計(jì)算連接權(quán)向量與輸入樣本之間的距離,選擇值最小的神經(jīng)元是獲勝神經(jīng)元。鄰域半徑也隨著學(xué)習(xí)代數(shù)的增加而遞減,最后只有獲勝結(jié)點(diǎn)在學(xué)習(xí)步驟6:返回步驟2,直至算法收斂或達(dá)到最大迭代次數(shù)為為止。它采用的鄰域?qū)W習(xí)策略能使數(shù)據(jù)從高維映射到低維時(shí)保持其拓?fù)浣Y(jié)構(gòu)不變,輸出層神經(jīng)元連接權(quán)矢量的空間分布能正確地反應(yīng)輸入模式的空間概率分布。但是由于文本數(shù)據(jù)高維性的特點(diǎn),人們很難預(yù)先給出與原始數(shù)據(jù)空間中相一致的網(wǎng)絡(luò)輸出層拓?fù)浣Y(jié)構(gòu)。③網(wǎng)絡(luò)輸出層神經(jīng)元連接權(quán)的初始值影響聚類速度。只有獲勝節(jié)點(diǎn)才允許有輸出,且輸出為1,其余節(jié)點(diǎn)輸出為0。(1)SOMCV該種方法把SOM網(wǎng)絡(luò)的權(quán)值都初始化為l/m(m是輸入向量的維數(shù)),每個(gè)輸入向量xj要經(jīng)過(guò)如下修正后再輸入網(wǎng)絡(luò)。(5)DSOM該種學(xué)習(xí)策略是把內(nèi)源性一氧化氮(NO)的四維動(dòng)態(tài)擴(kuò)散特性和其在長(zhǎng)時(shí)間學(xué)習(xí)過(guò)程中的增強(qiáng)作用應(yīng)用到SOM中,輸入向量X輸入網(wǎng)絡(luò)后,以某種規(guī)則(評(píng)價(jià)函數(shù))確定競(jìng)爭(zhēng)層中一組獲勝神經(jīng)元,稱為亞興奮神經(jīng)元簇。但是聚類沒(méi)有以類內(nèi)離差最小一平均類內(nèi)相似度最大為基礎(chǔ),很難保證可以得到使平均類內(nèi)離差最小一平均類內(nèi)相似度最大的聚類結(jié)果。(2)等類內(nèi)離差原則聚類問(wèn)題的實(shí)質(zhì)就是求出適當(dāng)s和z,使總類內(nèi)離差D(s)最小。所以,本文把等類內(nèi)離差準(zhǔn)則引入到SOM算法的學(xué)習(xí)策略中,在爭(zhēng)學(xué)習(xí)的過(guò)程中,將決定那個(gè)神經(jīng)元獲勝的策略加以修改,定義新的距離測(cè)度為:d(x1,x 2)=d(x,z)D(S)顯然當(dāng)D(s)增加時(shí),d(x,Z)隨之增加,最終結(jié)果將導(dǎo)致所有區(qū)域的類內(nèi)離差趨于相等。對(duì)于輸出層每個(gè)神經(jīng)元結(jié)點(diǎn)的類內(nèi)離差初始化為D(s。步驟4: 更新按更新獲勝神經(jīng)元及其鄰域內(nèi)所有神經(jīng)元的連接權(quán)值,而鄰域外的神經(jīng)元的連接權(quán)值保持不變。步驟6: 更新每個(gè)輸出層神經(jīng)元結(jié)點(diǎn)的類內(nèi)離差。不同的初始權(quán),在其它條件相同的情況下,可能達(dá)到不同的輸出方差水平。因此連接權(quán)的初始狀態(tài)對(duì)網(wǎng)絡(luò)的訓(xùn)練過(guò)程影響很大。這樣在網(wǎng)絡(luò)訓(xùn)練時(shí),尋找輸入模式的最佳映射就非常困難,為達(dá)到網(wǎng)絡(luò)收練,需經(jīng)過(guò)很多次的反復(fù)學(xué)習(xí)。這種方法相對(duì)于隨機(jī)初始化連接權(quán)值來(lái)說(shuō),網(wǎng)絡(luò)訓(xùn)練時(shí),尋找輸入模式的最佳映射相對(duì)容易,但因?yàn)殡S機(jī)選取的K個(gè)矢量不一定與模式的類別方向一致,達(dá)到網(wǎng)絡(luò)收斂的學(xué)習(xí)次數(shù)波動(dòng)性較大。連接權(quán)值的理想分布是其方向與各個(gè)模式類別的方向一致,但在初始化時(shí)想做到這一點(diǎn)是不現(xiàn)實(shí)的,因?yàn)檫@是網(wǎng)絡(luò)訓(xùn)練所要達(dá)到的目的,在網(wǎng)絡(luò)收斂時(shí),連接權(quán)的方向與各個(gè)模式類別的方向一致。理論表明,文檔數(shù)據(jù)點(diǎn)密集區(qū)可能包含模式類別的中心或離模式類別的中心較近,本文提出一種用層次聚類法探測(cè)數(shù)據(jù)密集區(qū),用探測(cè)到的K個(gè)數(shù)據(jù)密集區(qū)中心點(diǎn)隨機(jī)初始化權(quán)值,以期提高網(wǎng)絡(luò)收斂的速度。步驟3:為這些密集小區(qū)域生成中心點(diǎn)向量。步驟5:用這K個(gè)數(shù)據(jù)點(diǎn)對(duì)SOM網(wǎng)絡(luò)的權(quán)值進(jìn)行初始化,同時(shí)初始化學(xué)習(xí)率“。步驟7:確定獲勝神經(jīng)元。步驟9:參數(shù)調(diào)整。 本章詳細(xì)的介紹了SOM聚類算法的網(wǎng)絡(luò)特性和具體的步驟,以及SOM算法的優(yōu)點(diǎn)以及存在的問(wèn)題。本人完全意識(shí)到本聲明的法律結(jié)果由本人承擔(dān)。對(duì)本文的研究做出重要貢獻(xiàn)的個(gè)人和集體均已在文中以明確方式標(biāo)明。畢業(yè)設(shè)計(jì)(論文)使用授權(quán)聲明本人完全了解濱州學(xué)院關(guān)于收集、保存、使用畢業(yè)設(shè)計(jì)(論文)的規(guī)定。首先非常感謝學(xué)校開(kāi)設(shè)這個(gè)課題,為本人日后從事計(jì)算機(jī)方面的工作提供了經(jīng)驗(yàn),奠定了基礎(chǔ)。這期間凝聚了很多人的心血,在此我表示由衷的感謝。從他身上,我學(xué)到了許多能受益終生的東西。最后,我要感謝我的父母對(duì)我的關(guān)系和理解,如果沒(méi)有他們?cè)谖业膶W(xué)習(xí)生涯中的無(wú)私奉獻(xiàn)和默默支持,我將無(wú)法順利完成今天的學(xué)業(yè)。感謝老師四年來(lái)對(duì)我孜孜不倦的教誨,對(duì)我成長(zhǎng)的關(guān)心和愛(ài)護(hù)。最后,我要特別感謝我的導(dǎo)師趙達(dá)睿老師、和研究生助教熊偉麗老師。在論文的撰寫(xiě)過(guò)程中老師們給予我很大的幫助,幫助解決了不少的難點(diǎn),使得論文能夠及時(shí)完成,這里一并表示真誠(chéng)的感謝。老師們認(rèn)真負(fù)責(zé)的工作態(tài)度,嚴(yán)謹(jǐn)?shù)闹螌W(xué)精神和深厚的理論水平都使我收益匪淺。四年的風(fēng)風(fēng)雨雨,我們一同走過(guò),充滿著關(guān)愛(ài),給我留下了值得珍藏的最美好的記憶。從這里走出,對(duì)我的人生來(lái)說(shuō),將是踏上一個(gè)新的征程,要把所學(xué)的知識(shí)應(yīng)用到實(shí)際工作中去。其次,我要感謝大學(xué)四年中所有的任課老師和輔導(dǎo)員在學(xué)習(xí)期間對(duì)我的嚴(yán)格要求,感謝他們對(duì)我學(xué)習(xí)上和生活上的幫助,使我了解了許多專業(yè)知識(shí)和為人的道理,能夠在今后的生活道路上有繼續(xù)奮斗的力量。首先,我要特別感謝我的知道郭謙功老師對(duì)我的悉心指導(dǎo),在我的論文書(shū)寫(xiě)及設(shè)計(jì)過(guò)程中給了我大量的幫助和指導(dǎo),為我理清了設(shè)計(jì)思路和操作方法,并對(duì)我所做的課題提出了有效的改進(jìn)方案。本次畢業(yè)設(shè)計(jì)是對(duì)我大學(xué)四年學(xué)習(xí)下來(lái)最好的檢驗(yàn)。(保密論文在解密后遵守此規(guī)定) 論文密級(jí):□公開(kāi) □保密(___年__月至__年__月)(保密的學(xué)位論文在解密后應(yīng)遵守此協(xié)議)作者簽名:_______ 導(dǎo)師簽名:______________年_____月_____日 _______年_____月_____日 獨(dú) 創(chuàng) 聲 明本人鄭重聲明:所呈交的畢業(yè)設(shè)計(jì)(論文),是本人在指導(dǎo)老師的指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果,成果不存在知識(shí)產(chǎn)權(quán)爭(zhēng)議。盡我所知,除文中已經(jīng)特別注明引用的內(nèi)容和致謝的地方外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果。鄰域半徑也隨著學(xué)習(xí)代數(shù)的增加而遞減,最后只有獲勝結(jié)點(diǎn)在學(xué)習(xí)。步驟8:更新。步驟6:取樣。步驟4:在每次聚類時(shí),算法接受用戶輸入的輸出層神經(jīng)元結(jié)點(diǎn)數(shù)目參數(shù)K,對(duì)于這些中心點(diǎn),找到一個(gè)合適的相似度閩值,使得在這個(gè)相似度闡值下,有K個(gè)中心點(diǎn)它們之間的相似度小于這個(gè)閩值。圖中結(jié)點(diǎn)e依據(jù)score將被選中,它包括了{(lán)3,4,5,6,7,8},這個(gè)密集的文檔集合中有可能包括模式類別的中心。于是,用SOM對(duì)數(shù)據(jù)進(jìn)行聚類時(shí),對(duì)連接權(quán)值進(jìn)行初始化時(shí),可以試圖從輸入模式空間中找出K個(gè)有代表性的點(diǎn),它們能代表各個(gè)模式類別的中心,或者與各個(gè)模式類別的方向相似,最起碼相差不能太大。由于文本數(shù)據(jù)的高維性,在進(jìn)行聚類之前,一般要進(jìn)行特征選擇和特征抽取,以降低文本數(shù)據(jù)的維度。(2)所有連接權(quán)矢量賦予相同權(quán)值:將所有的連接權(quán)矢量賦予相同的初始值,這樣可以減少輸入模式在最初階段對(duì)連接權(quán)矢量的挑選余地,增加每一個(gè)權(quán)矢量被選中的機(jī)會(huì),盡可能快地校正連接權(quán)矢量和輸入模式之間的方向偏差,加快收斂的速度。目前有下面幾種常用的初始化方法:(1)隨機(jī)初始化權(quán)值:一般學(xué)習(xí)規(guī)則是將網(wǎng)絡(luò)的連接權(quán)賦予區(qū)間內(nèi)的隨機(jī)值。一般說(shuō)來(lái),初始權(quán)值設(shè)置不當(dāng),有可能造成在某一局部極小值周圍長(zhǎng)期徘徊不出,收斂所需的時(shí)間延長(zhǎng),甚至收斂到局部最優(yōu)或不收斂。步驟7: 返回步驟2,直至算法收斂或達(dá)到最大迭代次數(shù)為為止。調(diào)整學(xué)習(xí)率和鄰域半徑,為了保證算法的收斂,學(xué)習(xí)率的取值一般在0到1之間,且隨著學(xué)習(xí)代數(shù)的增加而遞減。對(duì)所有輸入樣本執(zhí)行步驟3一步驟6步驟3: 確定獲勝神經(jīng)元。EDSOM算法的基本步驟可描述如下:步驟1:初始化連接權(quán)值w,學(xué)習(xí)率。最優(yōu)聚類器的必要條件是指最近鄰條件和質(zhì)心條件。(l)文本聚類的目標(biāo)函數(shù)基于劃分的聚類器的基本思想是:一個(gè)K階的聚類器把輸入空間分成K個(gè)小空間S1,S2,…,Sk,每個(gè)小空間S代表一個(gè)類別,每個(gè)小空間S內(nèi)的聚類中心用z。然后計(jì)算各亞興奮神經(jīng)元所處位置的NO濃度,則NO濃度最高的神經(jīng)元為最終獲勝單元。(3)ESOM把更新獲勝結(jié)點(diǎn)Z及其領(lǐng)域結(jié)點(diǎn)的權(quán)值修改。(2)相反有些神經(jīng)元因?yàn)楂@勝次數(shù)過(guò)多,出現(xiàn)神經(jīng)元過(guò)度利用的問(wèn)題。隨機(jī)確定輸出層神經(jīng)元連接權(quán)的初始值,會(huì)引起網(wǎng)絡(luò)達(dá)到收斂的學(xué)習(xí)次數(shù)過(guò)多,影響文本聚類的速度。其權(quán)值得不到任何學(xué)習(xí)訓(xùn)練的機(jī)會(huì),進(jìn)而影響文本聚類的粒度和識(shí)別的精度。(2)無(wú)導(dǎo)師學(xué)習(xí)現(xiàn)在發(fā)展的還不成熟,傳統(tǒng)SOM網(wǎng)絡(luò)在文本聚類領(lǐng)域的應(yīng)用還存在著許多的不足:①網(wǎng)絡(luò)輸出層結(jié)點(diǎn)的初始結(jié)構(gòu)需要用戶預(yù)先給出。②因其采用“勝者全得”的學(xué)習(xí)策略,對(duì)噪音數(shù)據(jù)不敏感。步驟5:參數(shù)調(diào)整。每一個(gè)區(qū)域代表同一類的樣本. SOM網(wǎng)絡(luò)聚類的基本流程步驟1:初始化連接權(quán)值,學(xué)習(xí)率a。所以SOM網(wǎng)絡(luò)可以作為一種樣本特征檢測(cè)器,在樣本排序、樣本分類以及樣本檢測(cè)方面有廣泛的應(yīng)用。同時(shí),如果高維空間比較相近的樣本,則在低維空間中的投影也比較接近,這樣就可以從中取出樣本空間中較多的信息。當(dāng)外界輸入不同的樣本到SOM網(wǎng)絡(luò)中,一開(kāi)始輸入樣本引起輸出興奮的位置各不相同,但通過(guò)網(wǎng)絡(luò)自組織后會(huì)形成一些輸出群,它們分別代表了輸入樣本的分布,反映了輸入樣本的圖形分布特征,所以SOM網(wǎng)絡(luò)常常被稱為特性圖。第四章 SOM聚類算法 SOM聚類算法的網(wǎng)絡(luò)特性與基本流程 SOM網(wǎng)絡(luò)的特性神經(jīng)細(xì)胞模型中還存在著一種細(xì)胞聚類的功能柱。(8)采用遺傳算法或者免疫規(guī)劃方法lv1進(jìn)行混合聚類。這里所指的密度是指樣本點(diǎn)分布的密集情況,描述為,對(duì)于所有的樣本,、將每個(gè)樣本點(diǎn)假設(shè)為中心,設(shè)定一個(gè)半徑,則落入這個(gè)半徑所在圓內(nèi)的所有樣本點(diǎn)的數(shù)目即為該樣本點(diǎn)的密度值,在計(jì)算完所有樣本點(diǎn)的密度值后,選取最大密度值的樣本點(diǎn)作為第一個(gè)初始聚類中心,然后將該樣本點(diǎn)及其半徑所在圓內(nèi)的數(shù)據(jù)點(diǎn)去除后,重新設(shè)定半徑選取下一個(gè)初始中心點(diǎn),以此類推,直到得到K個(gè)初始中心點(diǎn)。(3)將全部樣本以某種規(guī)則直觀的分成k類,分別計(jì)算每一類的均值點(diǎn)作為K均值聚類算法的初始聚類中心。因此,在無(wú)監(jiān)督情況下,通過(guò)某種學(xué)習(xí)方法得到合適的K值是很有必要的。然而,作為聚類誤差和準(zhǔn)則函數(shù),通常存在一些局部最小點(diǎn),目標(biāo)函數(shù)的搜索方向總是沿著聚類誤差和準(zhǔn)則函數(shù)的遞減方向進(jìn)行,當(dāng)初始簇中心不同時(shí),搜索路徑也會(huì)不同,而目標(biāo)函數(shù)具有很多局部最優(yōu)解,這樣就存在著,當(dāng)初始簇中心選取不當(dāng)時(shí),目標(biāo)函數(shù)容易陷入局部最優(yōu)解。K均值聚類算法采用距離函數(shù)作為度量數(shù)據(jù)點(diǎn)間相似度的方法,這里的距離函數(shù)多采用歐氏距離,同時(shí)采用聚類誤差平方和準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù),對(duì)于基于歐式距離的聚類算法而言,其只能發(fā)現(xiàn)數(shù)據(jù)點(diǎn)分布較均勻的類球狀簇,對(duì)于聚類誤差平方和準(zhǔn)則函數(shù)而言,當(dāng)類簇大小差別較大,形狀較不規(guī)則時(shí),容易造成對(duì)較大的類簇進(jìn)行分割來(lái)達(dá)到目標(biāo)函數(shù)取極小值的目的,因此容易造成錯(cuò)誤的聚類結(jié)果。(3)K均值聚類算法的聚類結(jié)果容易受噪音點(diǎn)數(shù)據(jù)的影響。(2)K均值聚類算法嚴(yán)重依賴于初始簇中心點(diǎn)的選取。和大多數(shù)的聚類算法一樣,K均值聚類算法也有其自身的局限,主要局限如下:(1)K均值聚類算法中的聚類數(shù)目即K值需要由用戶預(yù)先給出。為解決這一問(wèn)題,出現(xiàn)了各種基于全局最優(yōu)化思想的K均值聚類方法,比如模擬退火算法、遺傳算法等。從上面的算法思想及流程中可以看出,k個(gè)類簇的初始簇中心點(diǎn)的選取對(duì)聚類的最終結(jié)果至關(guān)重要,算法中,每一次迭代都把數(shù)據(jù)點(diǎn)劃分到與其距離最近的簇中心所在的類簇中去,然后重新計(jì)算簇中心,進(jìn)而反復(fù)迭代,直到每一個(gè)數(shù)據(jù)點(diǎn)都不再重新劃分為止。K均值聚類算法在執(zhí)行過(guò)程中還可以加入聚類準(zhǔn)則函數(shù)來(lái)終止迭代過(guò)程,一般采用聚類誤差平方和準(zhǔn)則函數(shù),即在上面算法流程中的step4中計(jì)算聚類誤差平方和J,然后加入判斷,若兩次的J值沒(méi)有明顯變化,則說(shuō)明J值已經(jīng)收斂,結(jié)束算法,否則轉(zhuǎn)入step2繼續(xù)執(zhí)行。本算法的一個(gè)特點(diǎn)就是在每一次的迭代過(guò)程中都要對(duì)全體數(shù)據(jù)點(diǎn)的分配進(jìn)行調(diào)整,然后重新計(jì)算簇中心,進(jìn)入下一次的迭代過(guò)程,若在某一次迭代過(guò)程中,所有數(shù)據(jù)點(diǎn)的位置沒(méi)有變化,相應(yīng)的簇中心也沒(méi)有變化,此時(shí)標(biāo)志著聚類準(zhǔn)則函數(shù)已經(jīng)收斂,算法結(jié)束。第三章 k均值聚類算法 K均值聚類算法的思想 K均值聚類算法的基本思想一九六七年,麥克奎因[B. Mac Queen]提出了K均值聚類算法,用來(lái)處理數(shù)據(jù)聚類的問(wèn)題,該種算法由于其算法簡(jiǎn)便,又很早提出,因此在科學(xué)和工業(yè)領(lǐng)域的應(yīng)用中影響
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)教案相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1