freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

中文文本分類(lèi)算法設(shè)計(jì)及其實(shí)現(xiàn)-資料下載頁(yè)

2025-04-15 23:48本頁(yè)面
  

【正文】 ,當(dāng)有多個(gè)類(lèi)別的時(shí)候,當(dāng)然是可以形成多個(gè)直線(xiàn)或者是多個(gè)平面進(jìn)行劃分。、SVM分類(lèi)評(píng)價(jià) 支持向量機(jī)算法,由于它的可觀性,而且不用太多麻煩的計(jì)算,被廣泛的應(yīng)用于文本分類(lèi)的各個(gè)領(lǐng)域。SVM采用核函數(shù)映射向高維空間,努力尋找最優(yōu)平面,而在分類(lèi)決策的時(shí)候,支持向量起著至關(guān)重要的作用,不用涉及各個(gè)向量的測(cè)度,不用計(jì)算遍歷每個(gè)向量,在一定程度上,可以避免因維數(shù)而帶來(lái)的各種困難。在后面第四章的仿真實(shí)驗(yàn)中,有用此種方法實(shí)現(xiàn)的分類(lèi)結(jié)果,詳細(xì)實(shí)驗(yàn)結(jié)果以及各種分析見(jiàn)第四章。、決策樹(shù)算法分類(lèi)器、決策樹(shù)概述決策樹(shù),相信大家都知道決策樹(shù)的類(lèi)型,一個(gè)根結(jié)點(diǎn),派生出很多子結(jié)點(diǎn)和葉結(jié)點(diǎn),而在文本分類(lèi)的過(guò)程中,運(yùn)用決策樹(shù)的方法,每個(gè)葉子結(jié)點(diǎn)都可以很形象的理解為是每一個(gè)類(lèi),訓(xùn)練集中每篇文章所屬的類(lèi)是一定的,決策樹(shù)通過(guò)統(tǒng)計(jì)各個(gè)類(lèi)別向量之間的差距,然后形成區(qū)分度,進(jìn)而形成分類(lèi)器,然后對(duì)所要測(cè)試的文本進(jìn)行決策分類(lèi)。如下一個(gè)簡(jiǎn)單的決策樹(shù)對(duì)abcd進(jìn)行的分類(lèi):abcdcdababdc 圖38 二分決策樹(shù)首先通過(guò)某個(gè)特征,從abcd中,將ab分開(kāi)來(lái),然后根據(jù)其他特征,進(jìn)而將ab進(jìn)行拆分,cd的處理也是如此,那么這種分類(lèi),既然第一次分類(lèi)將ab歸結(jié)到了一起,那么ab之間應(yīng)該是有某些相同的因素,必須要進(jìn)行進(jìn)一步的區(qū)分,才能把a(bǔ)b分開(kāi),當(dāng)信息量越大的時(shí)候,需要的區(qū)分度就越多,決策樹(shù)分類(lèi)的好處是,層次鮮明,各個(gè)類(lèi)之間的關(guān)系可以一目了然。上面的決策樹(shù)在第一次就將四個(gè)類(lèi)兩兩分開(kāi),也有可能在第一次判斷的時(shí)候,就把某個(gè)類(lèi)單獨(dú)的區(qū)分了開(kāi)來(lái),后面進(jìn)行區(qū)分的時(shí)候也是如此,每當(dāng)產(chǎn)生一個(gè)分類(lèi)條件,就會(huì)單獨(dú)的決策分出一個(gè)單獨(dú)的類(lèi),這種屬于上述的一個(gè)特例。如下圖決策樹(shù)所示:abcdabcdcdbcdcd 圖39 二叉樹(shù)特例 這種決策方法,不同于上者,沒(méi)一個(gè)條件都單獨(dú)的分割出了一個(gè)類(lèi)別,而實(shí)際決策樹(shù)設(shè)計(jì)或者實(shí)踐過(guò)程中,不同的人決定的分類(lèi)方法可能不禁相同,有的可能把一個(gè)條件放在了靠近根結(jié)點(diǎn)的位置,而有的設(shè)計(jì)者就可能把這個(gè)條件放在了較深的位置,當(dāng)然最后得出的結(jié)果也是不盡相同的,那么分類(lèi)效果可能也會(huì)不盡相同,這屬于正常情況,正是由于各種不同結(jié)果的存在,才會(huì)激勵(lì)人們繼續(xù)探索發(fā)現(xiàn),尋找更好的方法。、決策樹(shù)分類(lèi)器的構(gòu)造下面是自行編寫(xiě)的一個(gè)例子,詳細(xì)講解決策樹(shù)的訓(xùn)練決策最后形成分類(lèi)器的過(guò)程,由于力求簡(jiǎn)單明了,自行編寫(xiě)的例子比較簡(jiǎn)單,真正的分類(lèi)器里面會(huì)有很多的細(xì)節(jié),這里略去不談。如下表,以四季為例,構(gòu)建的各種四季信息:表31 一個(gè)簡(jiǎn)單的四季訓(xùn)練表季節(jié)溫度時(shí)間天氣適合外出農(nóng)作物春季15℃3月小雨否播種夏季32℃7月晴是鋤草秋季16℃10月陰是收獲冬季8℃12月小雪否鋤地春季14℃4月多云是播種夏季37℃8月大雨否鋤草秋季17℃9月多云是收獲冬季1℃1月大雪否鋤地第一行為各項(xiàng)屬性,列為屬性的情形,注意,根據(jù)人們普遍的思維,根據(jù)時(shí)間3~5為春季,6~8為夏季一眼能知道,這是人們平時(shí)的習(xí)慣,這里只是作為一個(gè)例子,真正文本分類(lèi)的過(guò)程中,并沒(méi)有如此嚴(yán)格的時(shí)間標(biāo)準(zhǔn),更沒(méi)有這么層次分明的溫度、氣候、播種標(biāo)準(zhǔn),而且各個(gè)層次之間的關(guān)系并沒(méi)有這么鮮明,這里只是一個(gè)簡(jiǎn)單的例子。 當(dāng)此訓(xùn)練集輸入到?jīng)Q策樹(shù)分類(lèi)器中,分類(lèi)器就會(huì)統(tǒng)計(jì)各個(gè)屬性的信息,進(jìn)而進(jìn)行判定: 表格中的數(shù)據(jù),對(duì)于溫度的這個(gè)屬性,冬季分別有1℃和零下8℃,春季分別為14℃、16℃,夏季分別為:37℃、32℃,秋季分別為:16℃、17℃。那么在決策的時(shí)候,就可以判定,當(dāng)溫度低于10℃時(shí)為冬季,溫度高于25℃為夏季,溫度介于10℃~25℃之間為春秋兩季,這樣冬季和夏季顯而易見(jiàn)的就被分割開(kāi)來(lái)。 對(duì)于月份這個(gè)數(shù)據(jù),那么進(jìn)行大量的時(shí)間信息統(tǒng)計(jì)決策之后,分類(lèi)器很可能會(huì)構(gòu)造出根據(jù)時(shí)間的判定:35月為春,68為夏。911為秋,122為冬,這樣通過(guò)時(shí)間也成為一條判定依據(jù)。、決策樹(shù)分類(lèi)器的構(gòu)造 這樣,當(dāng)有一條新的屬性信息到來(lái)時(shí),前提是這則信息人們事先并不知曉它所處的季節(jié),這樣決策樹(shù)分類(lèi)器通過(guò)判斷該屬性的值,進(jìn)行判斷,權(quán)衡最終做出決策結(jié)果,該屬性到底屬于哪一個(gè)季節(jié)。 將上述例子引入文本分類(lèi)當(dāng)中的話(huà),每一個(gè)列的屬性,在文本分類(lèi)當(dāng)中可以形象的認(rèn)為是某個(gè)特征詞,該特征詞的表征作用來(lái)決定最后文章所處的類(lèi)別,通過(guò)讀取訓(xùn)練集形成決策樹(shù)分類(lèi)器,進(jìn)而對(duì)訓(xùn)練集中的文本進(jìn)行分類(lèi)。 、樸素貝葉斯分類(lèi)器、貝葉斯算法原理 貝葉斯定理由英國(guó)數(shù)學(xué)家貝葉斯 ( Thomas Bayes 17021763 ) 提出,用來(lái)描述兩個(gè)條件概率之間的關(guān)系,比如 P(A|B) 和 P(B|A)。按照乘法法則: P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B), (37)可以導(dǎo)出貝葉斯定理公式: P(A|B)=P(B|A)*P(A)/P(B) (38)如上公式也可變形為: P(B|A)=P(A|B)*P(B)/P(A) (39)全概率的公式: P(X)=P(X|Y1)+ P(X|Y2)+…+ P(X|Yn) (310)此公式在此處不做具體闡述。舉例說(shuō)明,貝葉斯算法的應(yīng)用:現(xiàn)分別有 A,B 兩個(gè)容器,在容器 A 里分別有 7 個(gè)紅球和 3 個(gè)白球,在容器 B 里有 1 個(gè)紅球和 9 個(gè)白球,現(xiàn)已知從這兩個(gè)容器里任意抽出了一個(gè)球,且是紅球,問(wèn)這個(gè)紅球是來(lái)自容器 A 的概率是多少?假設(shè)已經(jīng)抽出紅球?yàn)槭录?B,從容器 A 里抽出球?yàn)槭录?A,則有:P(B) = 8 / 20,P(A) = 1 / 2,P(B | A) = 7 / 10,按照公式則有:P(A|B)=(7 / 10)*(1 / 2)/(8/20)=、貝葉斯分類(lèi)器樸素貝葉斯分類(lèi)器假設(shè)樣本每個(gè)特征與其他特征都不相關(guān)。如果一種水果其具有黃,長(zhǎng),直徑大概1英寸等特征,該水果可以被判定為是香蕉。盡管這些特征相互依賴(lài)或者有些特征由其他特征決定,然而樸素貝葉斯分類(lèi)器認(rèn)為這些屬性在判定該水果是否為香蕉的概率分布上是獨(dú)立的。樸素貝葉斯分類(lèi)的步驟: ?設(shè)x={a1,a2,...,am}為一個(gè)待分類(lèi)項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。 ?有類(lèi)別集合C={y1,y2,...,yn}. ? 計(jì)算P(y1|x),P(y2|x),...,P(yn|x)。 ④如果P(yk|x)=max{P(y1|x),P(y2|x).....P(yn|x)},則x∈yk、貝葉斯進(jìn)行分類(lèi) 進(jìn)行分類(lèi)的時(shí)候,需要知道先驗(yàn)概率,在數(shù)學(xué)理論中,表示大量時(shí)間重復(fù)之后最終的統(tǒng)計(jì)結(jié)果,知道先驗(yàn)概率之后,按照所得的信息對(duì)先驗(yàn)概率進(jìn)行計(jì)算,從而獲得后驗(yàn)概率,進(jìn)而對(duì)先驗(yàn)概率進(jìn)行修正,以提高分類(lèi)的準(zhǔn)確性,這可以形象的理解為是監(jiān)督學(xué)習(xí),通過(guò)實(shí)驗(yàn)的結(jié)果來(lái)改變實(shí)驗(yàn)中的各種參數(shù)。 由于樸素貝葉斯分類(lèi)在取得某個(gè)文本時(shí),預(yù)先對(duì)它進(jìn)行推測(cè),并不能真正準(zhǔn)確的確定該文本到底屬于哪個(gè)類(lèi),就很容易造成最后結(jié)果分類(lèi)的不準(zhǔn)確性,即使后面用各種方法降低錯(cuò)誤率,但是最終還是會(huì)有錯(cuò)誤的發(fā)生。每種分類(lèi)算法都有自己好的一面和不足的一面,貝葉斯算法即使有那個(gè)缺點(diǎn),但是在實(shí)際使用中,這種方法還是有自己較為重要的方面。 由于本次試驗(yàn)并未使用貝葉斯分類(lèi)器進(jìn)行設(shè)計(jì),因此關(guān)于此類(lèi)方法了解敘述的較少,但是這種分類(lèi)方法確實(shí)有自己獨(dú)到的好處,在這里不做過(guò)多的探究。、BP神經(jīng)網(wǎng)絡(luò)分類(lèi)器、BP神經(jīng)網(wǎng)絡(luò)原理 BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的主要特點(diǎn)是信號(hào)的前向傳遞的同時(shí),誤差反向傳播,輸入信號(hào)從輸入層經(jīng)隱含層逐層處理,一直到輸出層,每一層的神經(jīng)元狀態(tài)只影響下一層神經(jīng)元狀態(tài)。如果輸出層得到不同的期望輸出,則進(jìn)行反向傳播,根據(jù)預(yù)測(cè)誤差調(diào)整網(wǎng)絡(luò)權(quán)值和閾值,這樣不斷的進(jìn)行測(cè)試訓(xùn)練,最終使得BP神經(jīng)網(wǎng)絡(luò)測(cè)出輸出不斷的逼近期望輸出。 BP神經(jīng)網(wǎng)絡(luò)的算法流程如圖所示:進(jìn)行網(wǎng)絡(luò)計(jì)算權(quán)值、閾值樣本輸入樣本修正計(jì)算實(shí)際誤差與期望誤差大于設(shè)定誤差反向傳播小于設(shè)定誤差 圖310 BP神經(jīng)網(wǎng)絡(luò)的算法流程圖Y1 BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu):ωjkωijX1X2YmXn隱含層輸出層輸入層 圖311 BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)圖 如圖所示,X1,X2,...,Xn是BP神經(jīng)網(wǎng)絡(luò)的輸入值,Y1,Y2,...,Ym是BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)值,ωij、ωjk 稱(chēng)為神經(jīng)網(wǎng)絡(luò)的權(quán)值,或者閾值,BP神經(jīng)網(wǎng)絡(luò)可以看成是一個(gè)非線(xiàn)性函數(shù),網(wǎng)絡(luò)的輸入值和預(yù)測(cè)值分別為該函數(shù)的自變量和因變量,如上圖所示的神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)則是表示一個(gè)從n個(gè)輸入映射到M個(gè)輸出的過(guò)程。、BP神經(jīng)網(wǎng)絡(luò)分類(lèi)器 BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類(lèi)領(lǐng)域,可以很形象的這樣想象:輸入層可以表示輸入的文本樣本,而輸出層則可以表示為文本樣本所處的類(lèi)別,這樣對(duì)訓(xùn)練文本進(jìn)行逐步處理,一步一步確定權(quán)值和閾值,使其更適應(yīng)文本訓(xùn)練語(yǔ)料庫(kù)的需求,然后對(duì)測(cè)試集文本進(jìn)行測(cè)試。 BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程包括以下幾個(gè)步驟: 步驟一、網(wǎng)絡(luò)初始化。系統(tǒng)根據(jù)輸入的信息來(lái)確認(rèn)輸入、輸出節(jié)點(diǎn)數(shù)n,m,以及隱含層節(jié)點(diǎn)數(shù)l,然后對(duì)各層之間連接的權(quán)值閾值ωij、ωjk進(jìn)行初始化。 步驟二、隱含層輸出計(jì)算,根據(jù)輸入向量X,輸入層和隱含層之間連接權(quán)值計(jì)算隱含層輸出H。計(jì)算公式為: j=1,2,...,l (311) 上式中,l為銀行曾節(jié)點(diǎn)數(shù),f()為隱含層激勵(lì)函數(shù),該函數(shù)可以有多種表達(dá)形式。 步驟三、輸出層輸出計(jì)算,根據(jù)隱含層輸出H,連接權(quán)值ωjk和閾值b,計(jì)算BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)輸出O k=1,2,...,m (312) 步驟四、誤差計(jì)算,根據(jù)網(wǎng)絡(luò)預(yù)測(cè)輸出O和期望輸出Y,計(jì)算網(wǎng)絡(luò)預(yù)測(cè)誤差e ek=YkOk k=1,2...,m 步驟五、權(quán)值更新。根據(jù)網(wǎng)絡(luò)預(yù)測(cè)誤差e更新網(wǎng)絡(luò)連接權(quán)值ωij、ωjk。 i=1~n,j=1~l (313) j=1~l,l=1~m (314) 式中η表示學(xué)習(xí)效率。 步驟六、閾值更新。根據(jù)網(wǎng)絡(luò)預(yù)測(cè)誤差e更新網(wǎng)絡(luò)節(jié)點(diǎn)閾值a,b。 j=1,2,...,l bk=bk+ek k=1,2,...,m (315) 步驟七、判斷算法迭代是否結(jié)束,若沒(méi)有結(jié)束,返回步驟2。 上面一系列步驟,ab表示閾值,ijk分別對(duì)應(yīng)的長(zhǎng)度為mln如此記憶,很有層次感。、BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi) 上述一些列的過(guò)程都是BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程,由該過(guò)程,對(duì)所有的訓(xùn)練文本分析之后,最終確定了權(quán)值和閾值,這樣訓(xùn)練文本越多,輸入的信息越多,那么最終確定的隱含函數(shù)越趨于期望函數(shù),隨著信息量的增多,結(jié)果會(huì)越來(lái)越趨近于正確值,就像人腦的學(xué)習(xí)過(guò)程一樣,隨著時(shí)間的增多,隨著信息量的增多,隨著年齡的增大,一個(gè)人的大腦越來(lái)越趨向于成熟,分析和解決問(wèn)題的能力也會(huì)越來(lái)越高,BP神經(jīng)網(wǎng)絡(luò)分類(lèi)算法因?yàn)槭悄M人的大腦的神經(jīng)網(wǎng)絡(luò),所以相對(duì)來(lái)說(shuō),是目前較為全面的文本分類(lèi)算法,相信這種算法會(huì)在將來(lái)得到廣泛的應(yīng)用。、本章小結(jié) 本章主要介紹了一些常用的文本分類(lèi)算法,有層次分明的決策樹(shù)分類(lèi)方法,有計(jì)算簡(jiǎn)單,結(jié)構(gòu)清晰的KNN分類(lèi)算法,有計(jì)算比較復(fù)雜的svm分類(lèi)算法,有帶反饋的貝葉斯算法,更有模擬人類(lèi)大腦神經(jīng)元的BP神經(jīng)網(wǎng)絡(luò)分類(lèi)算法,各種算法都有自己的獨(dú)特的特點(diǎn),為了追求最后共同的目標(biāo),都發(fā)揮著自己至關(guān)重要的作用,在今后的文本分類(lèi)算法的研究當(dāng)中,當(dāng)然是結(jié)合各種算法之長(zhǎng),取其精華去其糟粕,不斷完善文本分類(lèi)體質(zhì),以達(dá)到更好的結(jié)果,人類(lèi)社會(huì)的不斷進(jìn)步,文本分類(lèi)的不斷進(jìn)取,相信一定會(huì)獲得很大的突破。下一章主要是針對(duì)語(yǔ)料庫(kù)進(jìn)行的試驗(yàn),語(yǔ)料庫(kù)是本人處理過(guò)的,詳細(xì)結(jié)果,見(jiàn)第四章。51第四章 實(shí)驗(yàn)結(jié)果分析統(tǒng)計(jì)第四章 試驗(yàn)結(jié)果分析統(tǒng)計(jì)、試驗(yàn)結(jié)果評(píng)估指標(biāo)簡(jiǎn)介前面的部分已經(jīng)把文本分類(lèi)詳細(xì)的的過(guò)程,文本分類(lèi)里面主要的方法,以及各種分類(lèi)器的構(gòu)造寫(xiě)的非常詳細(xì),本章就主要針對(duì)KNN、SVM這兩種方法的部分實(shí)驗(yàn)結(jié)果進(jìn)行展示和分析:試驗(yàn)結(jié)果的評(píng)測(cè)指標(biāo),主要有兩個(gè):查全率、查準(zhǔn)率。查全率=查詢(xún)出的相關(guān)信息量/語(yǔ)料庫(kù)中的相關(guān)信息總量。查準(zhǔn)率=查詢(xún)出的相關(guān)信息量/檢索出的信息總量。這樣表示,相當(dāng)?shù)牟幻鞔_,下面對(duì)著兩個(gè)概念詳細(xì)表示:引入abcd四個(gè)變量:a程序歸類(lèi)正確的文章篇數(shù) b程序把把文章分配到某個(gè)類(lèi)別,而實(shí)際文章并不在這個(gè)類(lèi)別c文本本身在某個(gè)類(lèi)別,但是程序并沒(méi)有將文章歸入d程序和語(yǔ)料庫(kù)歸類(lèi)都不在某個(gè)類(lèi)的文章數(shù)P(查全率)=a/(a+b)。此分母就相當(dāng)于程序默認(rèn)的該類(lèi)含有的總文章數(shù)。P(查準(zhǔn)率)=a/(a+c)。此分母就相當(dāng)于語(yǔ)料庫(kù)中某個(gè)類(lèi)的總文章數(shù)。
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1