freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于文本的聚類算法研究畢業(yè)論文-全文預(yù)覽

2024-09-23 14:53 上一頁面

下一頁面
  

【正文】 位置的 NO 濃度,則 NO 濃度最高的神經(jīng)元為最終獲勝單元。 (3)ESOM 把更新獲勝結(jié)點(diǎn) Z及其領(lǐng)域結(jié)點(diǎn)的權(quán)值修改。 (2)相反有些神經(jīng)元因?yàn)楂@勝次數(shù)過多,出現(xiàn)神經(jīng)元過度利用的問題。隨機(jī)確定輸出層神經(jīng)元連接權(quán)的初始值,會(huì)引起網(wǎng)絡(luò)達(dá)到收斂的學(xué)習(xí)次數(shù)過多,影響文本 聚類的速度。其權(quán)值得不到任何學(xué)習(xí)訓(xùn)練的機(jī)會(huì),進(jìn)而影響文本 聚基于文本的聚類算法研究 20 類的粒度和識(shí)別的精度。 (2)無導(dǎo)師學(xué)習(xí)現(xiàn)在發(fā)展的還不成熟,傳統(tǒng) SOM 網(wǎng)絡(luò)在文本聚類領(lǐng)域的應(yīng)用還存在著許多的不足 : ①網(wǎng)絡(luò)輸出層結(jié)點(diǎn)的初始結(jié)構(gòu)需要用戶預(yù)先給出 。 ②因其采用“勝者全得”的學(xué)習(xí)策略,對(duì)噪音數(shù)據(jù)不敏感 。 步驟 5:參數(shù)調(diào)整。每一個(gè)區(qū)域代表同一類的樣本 . 基于文本的聚類算法研究 19 SOM 網(wǎng)絡(luò)聚類的基本流程 步驟 1:初始化連接權(quán)值 ? ,學(xué)習(xí)率 a。所以 SOM 網(wǎng)絡(luò)可以作為一種樣本特征檢測(cè)器,在樣本排序、樣本分類以及樣本檢測(cè)方面有廣泛的應(yīng)用。同時(shí),如果高維空間比較相近的樣本,則在低維空間中的投影也比較接近,這樣就可以從中取出樣本空間中較多的信息。當(dāng)外界輸入不同的樣本到 SOM網(wǎng)絡(luò)中,一開始輸入樣本引起輸出興奮的位置各不相同,但通過網(wǎng)絡(luò)自組織后會(huì)形成一些輸出群,它們分別代表了輸入樣本的分布,反映了輸入樣本的圖形分布特征,所以 SOM 網(wǎng)絡(luò)常常被稱為特性圖。 基于文本的聚類算法研究 18 第四章 SOM 聚類算法 SOM 聚類算法的網(wǎng)絡(luò)特性與基本流程 SOM 網(wǎng)絡(luò)的特性 神經(jīng)細(xì)胞模型中還存在著一種細(xì)胞聚類的功能柱。 (8)采用遺傳算法或者免疫規(guī)劃方法 lv1 進(jìn)行混合聚類。這里所指的密度是指樣本點(diǎn)分布的密集情況,描述為,對(duì)于所有的樣本,、將每個(gè)樣本點(diǎn)假設(shè)為中心,設(shè)定一個(gè)半徑, 則落入這個(gè)半徑所在圓內(nèi)的所有樣本點(diǎn)的數(shù)目即為該樣本點(diǎn)的密度值,在計(jì)算完所有樣本點(diǎn)的密度值后,選取最大密度值的樣本點(diǎn)作為第一個(gè)初始聚類中心,然后將該樣本點(diǎn)及其半徑所在圓內(nèi)的數(shù)據(jù)點(diǎn)去除后,重新設(shè)定半徑選取下一個(gè)初始中心點(diǎn),以此類推,直到得到 K 個(gè)初始中心點(diǎn)。 (3)將全部樣本以某種規(guī)則直觀的分成 k類,分別計(jì)算每一類的均值點(diǎn)作為 K均值聚類算法的初始聚類中心。因此,在無監(jiān)督情況下,通過某種學(xué)習(xí)方法得到合適的 K值是很有必要的。然而,作為聚類誤差和準(zhǔn)則函數(shù),通常存在一些局部最小點(diǎn),目標(biāo)函數(shù)的搜索方向總是沿著聚類誤差和準(zhǔn)則函數(shù)的遞減方向進(jìn)行,當(dāng)初始簇中心不同時(shí),搜索路徑也會(huì)不同,而目標(biāo)函數(shù)具有很多局部最優(yōu)解,這樣就存在著,當(dāng)初始簇中心選取不當(dāng)時(shí),目標(biāo)函數(shù)容易陷入局部最優(yōu)解。 K均值聚類算法采用距離函數(shù)作為度量數(shù)據(jù)點(diǎn)間相似度的方法,這里的距離函數(shù)多采用歐氏距離,同時(shí)采用聚類誤差平方和準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù),對(duì)于基于歐式距離的聚 類算法而言,其只能發(fā)現(xiàn)數(shù)據(jù)點(diǎn)分布較均勻的類球狀簇,對(duì)于聚類誤差平方和準(zhǔn)則函數(shù)而言,當(dāng)類簇大小差別較大,形狀較不規(guī)則時(shí),容易造成對(duì)較大的類簇進(jìn)行分割來達(dá)到目標(biāo)函數(shù)取極小值的目的,因此容易造成錯(cuò)誤的聚類結(jié)果。 (3)K均值聚類算法的聚類結(jié)果容易受噪音點(diǎn)數(shù)據(jù)的影響。 (2)K均值聚類算法嚴(yán)重依賴于初始簇中心點(diǎn)的選取。和大多數(shù)的聚類算法一樣, K均值聚類算法也有其自身的局限,主要局限如下 : (1)K均值聚類算法中的聚類數(shù)目即 K值需要由用戶預(yù)先給出。為解決這一問題,出現(xiàn)了各種基于全局最優(yōu)化思想的 K均值聚類方法,比如模擬退火算法、遺傳算法等。 從上面的算法思想及流程中可以看出, k個(gè)類簇的初始簇中心點(diǎn)的選取對(duì)聚類的最終結(jié)果至關(guān)重要,算法中,每一次迭代都把數(shù)據(jù)點(diǎn)劃分到與其距離最近的簇中心所在的類簇中去,然后重新計(jì)算簇中心,進(jìn)而反復(fù)迭代,直到每一個(gè)數(shù)據(jù)點(diǎn)都不再重新劃分為止。 K均值聚類算法在執(zhí)行過程中還可以加入聚類準(zhǔn)則函數(shù)來終止迭代過程,一般采用聚類誤差平方和準(zhǔn)則函數(shù),即在上面算法流程中的 step4 中計(jì)算聚類誤差平方和 J,然后加入判斷,若兩次的 J 值沒有明顯變化,則說明 J值已經(jīng)收斂,結(jié)束算法,否則轉(zhuǎn)入 step2 繼續(xù)執(zhí)行。本算法的一個(gè)特點(diǎn)就是在每一次的迭代過程中都要對(duì)全體數(shù)據(jù)點(diǎn)的分配進(jìn)行調(diào)整,然后重新計(jì)算簇中心,進(jìn)入下一次的迭代過程,若在某一次迭代過程中,所有數(shù)據(jù)點(diǎn)的位置沒有變化,相應(yīng)的簇中心也沒有變化,此時(shí)標(biāo)志著聚類準(zhǔn)則函數(shù)已經(jīng)收斂,算法結(jié)束。 基于文本的聚類算法研究 12 第三章 k均值聚類算法 K均值聚類算法的思想 K均值聚類算法的基本思想 一九六七年,麥克奎因 [B. Mac Queen]提出了 K均值聚類算法,用來處理數(shù)據(jù)聚類的問題,該種算法由于其算法簡(jiǎn)便,又很早提出,因此在科學(xué)和工業(yè)領(lǐng)域的應(yīng)用中影響力極為廣泛。這么多的算法雖然帶來了更多的選擇,但同時(shí)也帶來了應(yīng)用上的困難,因此有必要在一個(gè)統(tǒng)一的尺度上來衡量一些算法并對(duì)他們做出評(píng)價(jià)。根據(jù)新對(duì)象和這個(gè)標(biāo)本之間的距離,就可以將這個(gè)對(duì)象進(jìn)行分類了。根據(jù)標(biāo)準(zhǔn)統(tǒng)計(jì)方法并綜合考慮“噪聲”或異常數(shù)據(jù),該方法可以自動(dòng)確定聚類個(gè)數(shù),從 而得到魯棒性較好的聚類方法。但由于方法大大簡(jiǎn)化,聚類結(jié)果的精確可能降低。其主要優(yōu)點(diǎn)是能有效地處理大規(guī)模數(shù)據(jù)集;能發(fā)現(xiàn)任意形狀的簇;能成功地處理孤立點(diǎn);對(duì)于輸入的順序不敏感;不要求指定任何參數(shù);且效率和聚類質(zhì)量都比較高。此外,它還可以處理高維數(shù)據(jù)。并且密度單元的計(jì)算復(fù)雜度大,需要建立空間索引來降低計(jì)算量,且對(duì)數(shù)據(jù)維數(shù)的伸縮性 較差。具有代表性的方法是 DBSCAN( Density Based Spatial Clustering of Applications with Noise),它是將密度足夠大的那部分記錄組成類,可以在帶有“噪聲”的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的聚類,但它需要用戶主觀來選擇參數(shù),從而影響了最終的聚類結(jié)果。 基于密度的方法 絕大多 數(shù)劃分算法都是基于對(duì)象之間的距離進(jìn)行聚類,這類方法只能發(fā)現(xiàn)圓形或球狀的簇,較難發(fā)現(xiàn)任意形狀的簇。 在文本聚類中,最常見的是凝聚的層次聚類算法。為此,應(yīng)用最廣泛 的 kmeans 算法有很多變種,他們可能在初始 k 個(gè)聚類中心的選擇、相似度的計(jì)算和計(jì)算聚類中心等策略上有所不同,最終實(shí)現(xiàn)聚類結(jié)果改進(jìn)的目標(biāo)。前者使用所有點(diǎn)的均值來代表簇,后者則采用類中某個(gè)數(shù)據(jù)對(duì)象來代表簇。 基于劃分的方法 基于劃分的聚類算法( Partitioning Method)是文本聚類應(yīng)用中最為普遍的算法。 簇間相似度 在聚類分析中,我們還需要衡量類與類之間的相似度,實(shí)現(xiàn)類與類之間的合并或拆分。 Sim值越大表示兩個(gè)文本越相似, Sim越小則表示兩個(gè)文本區(qū)別越大。文本相似度一般定義為界于 0 和 1 之間的一個(gè)值。 基于文本的聚類算法研究 6 表 VSM模型中文檔與向量空間之間的映射關(guān)系 文本 相似度計(jì)算 文本相似度計(jì)算是自然語言處理、 Web 智能檢索、文本分類和文本聚類研究中的一個(gè)基本問題。所有的這些詞構(gòu)成一個(gè)“空間”,每個(gè)詞對(duì)應(yīng)著空間中的一維。 向量空間模型 Salton 教授提出的向量空間模型簡(jiǎn)稱 VSM 模型 (Vector Space Model),是信息檢索領(lǐng)域中經(jīng)典的檢索模型 。在布爾模型中,一個(gè)文檔表示成 文檔中出現(xiàn)的特征的集合,也可以表示成為特征空間上的一個(gè)向量,向量中每個(gè)分量權(quán)重為 0 或者 1,這種布爾模型稱為經(jīng)典布爾模型。特征定義與篩選可以采用不同的特征選擇方法 ,可利用 NGram、 PAT 樹提取特征、可利用 LSI 降維轉(zhuǎn)化特征、也可利用語義詞典基于文本的聚類算法研究 5 WordNet 或者 HowNet 定義更復(fù)雜的特征結(jié)構(gòu)。特征提取包括特征的定義和篩選,特征定義和篩選考慮以什么作為文本的特征,并不是所有的詞和字都要求或者可以成為特征。 文本表示模型 在實(shí)際的文本聚類分析研究,將實(shí)際文本內(nèi)容變成機(jī)器內(nèi)部表示結(jié)構(gòu)的方法多種多樣,可以用詞、字、短語、 nGram、 顯著性短語等形成向量、樹等結(jié)構(gòu)。該步驟還有一個(gè)關(guān)鍵因素就是對(duì)象距離 (或者相似度 )如何定義; (3)第三個(gè)步驟是算法中參數(shù)的選擇。不同的算法有不同的特性,對(duì)相同的數(shù) 據(jù)輸入,不同的算法會(huì)產(chǎn)生出不同的聚類結(jié)果。 下面通過簡(jiǎn)要描述聚類分析過程來說明對(duì)結(jié)果可能造成影響的各種因素 ,如圖 21所示 : 圖 21 聚類流程 聚類分析過程分成三個(gè)步驟 , 通過這三個(gè)步驟可以找到影響聚類分析效果四個(gè)方面的因素。由于算法種類眾多,文本聚類算法間缺乏一個(gè)進(jìn)行橫向比較與分析的機(jī)制,在工程實(shí)踐中對(duì)算法的選擇及參數(shù)的設(shè)定都是經(jīng)驗(yàn)性的,這對(duì)進(jìn)一步開展研究以及科學(xué)地設(shè)計(jì)算法、分析算法造成了困難。文檔聚類分析算法被用于自動(dòng)產(chǎn)生文檔集合的層次結(jié)構(gòu),比如用于產(chǎn)生類似 Yahoo!的網(wǎng)頁分類目錄結(jié)構(gòu)。 課題研究的意義 文本聚類分析在信息檢索領(lǐng)域有相當(dāng)長的研究歷史,近年來在文本數(shù)據(jù)上的聚類分析研究和應(yīng)用越來越受到關(guān)注。在這一過程中無需指導(dǎo),是一種典型的無需督分類,從而打破了在許多實(shí)際應(yīng)用中由于缺少形成模式類別過程的知識(shí),或者模式類別的形成非常困難時(shí)的挖掘局限性。文本挖掘可以對(duì)大量文檔 集合的內(nèi)容進(jìn)行總結(jié),結(jié)構(gòu)分析,分類,聚類,關(guān)聯(lián)分析,分布分析以及利用文檔進(jìn)行趨勢(shì)預(yù)測(cè)等,目前已成為一項(xiàng)具有較大實(shí)用價(jià)值的關(guān)鍵技術(shù),是組織和管理數(shù)據(jù)和知識(shí)的有力手段。然而 Inter的深入發(fā)展和搜索引擎日趨龐大,進(jìn)一步凸現(xiàn)出海量信息和人們獲取所需信息能力的矛盾。本人授權(quán) 大學(xué)可以將本學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存和匯編本學(xué)位論文。除了文中特別加以標(biāo)注引用的內(nèi)容外,本論文不包含任何其他個(gè)人或集體已經(jīng)發(fā)表或撰寫的成果作品。盡我所知,除文中特別加以標(biāo)注和致謝的地方外,不包含其 他人或組織已經(jīng)發(fā)表或公布過的研究成果,也不包含我為獲得 及其它教育機(jī)構(gòu)的學(xué)位或?qū)W歷而使用過的材料。 本文 首先介紹了 文本聚類 的相關(guān)的技術(shù),包括文本聚類的過程,文本表示模型,相似度計(jì)算及常見聚類算法?;谖谋?的 聚類算法研究 I 摘 要 聚類作為一種知識(shí)發(fā)現(xiàn)的重要方法,它廣泛地與中文信息處理技術(shù)相結(jié)合,應(yīng)用于網(wǎng)絡(luò)信息處理中以滿足用戶快捷地從互聯(lián)網(wǎng)獲得自己需要的信息資源。整個(gè)聚類過程無需指導(dǎo),事先對(duì)數(shù)據(jù)結(jié)構(gòu)未知,是一種典型的無監(jiān)督分類 。 關(guān)鍵詞 : 文本聚類 聚類方法 KMEAN SOM 基于文本 的 聚類算法研究 II Abstract Clustering as an important knowledge discovery method, which extensively with Chinese information processing technology, used in work information processing to meet the users to quickly access from the Inter, the information resources they need. Text clustering is a clustering problem in the effective application of text mining, which according to the different characteristics of text data, according to the similarity between the text, the text will be divided into different clusters. The aim is to make the same class as large as possible the similarity between the text, and different types of text as small as possible the similarity between. The clustering process without guidance, prior to the data structure is unknown, is a typical unsupervised classification. This paper studies the effect of influencing factors that text clustering, text representation of the model such as the Boolean model, vector space model, probabilistic retrieval model and language model. Also studied the analysis of such text clustering algorithm: hierarchical clustering, agglomerative h
點(diǎn)擊復(fù)制文檔內(nèi)容
醫(yī)療健康相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1