freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

中文文本分類算法設(shè)計及其實現(xiàn)(參考版)

2025-04-18 23:48本頁面
  

【正文】 本。P(查準(zhǔn)率)=a/(a+c)。這樣表示,相當(dāng)?shù)牟幻鞔_,下面對著兩個概念詳細(xì)表示:引入abcd四個變量:a程序歸類正確的文章篇數(shù) b程序把把文章分配到某個類別,而實際文章并不在這個類別c文本本身在某個類別,但是程序并沒有將文章歸入d程序和語料庫歸類都不在某個類的文章數(shù)P(查全率)=a/(a+b)。查全率=查詢出的相關(guān)信息量/語料庫中的相關(guān)信息總量。下一章主要是針對語料庫進(jìn)行的試驗,語料庫是本人處理過的,詳細(xì)結(jié)果,見第四章。、BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類 上述一些列的過程都是BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,由該過程,對所有的訓(xùn)練文本分析之后,最終確定了權(quán)值和閾值,這樣訓(xùn)練文本越多,輸入的信息越多,那么最終確定的隱含函數(shù)越趨于期望函數(shù),隨著信息量的增多,結(jié)果會越來越趨近于正確值,就像人腦的學(xué)習(xí)過程一樣,隨著時間的增多,隨著信息量的增多,隨著年齡的增大,一個人的大腦越來越趨向于成熟,分析和解決問題的能力也會越來越高,BP神經(jīng)網(wǎng)絡(luò)分類算法因為是模擬人的大腦的神經(jīng)網(wǎng)絡(luò),所以相對來說,是目前較為全面的文本分類算法,相信這種算法會在將來得到廣泛的應(yīng)用。 j=1,2,...,l bk=bk+ek k=1,2,...,m (315) 步驟七、判斷算法迭代是否結(jié)束,若沒有結(jié)束,返回步驟2。 步驟六、閾值更新。根據(jù)網(wǎng)絡(luò)預(yù)測誤差e更新網(wǎng)絡(luò)連接權(quán)值ωij、ωjk。計算公式為: j=1,2,...,l (311) 上式中,l為銀行曾節(jié)點數(shù),f()為隱含層激勵函數(shù),該函數(shù)可以有多種表達(dá)形式。系統(tǒng)根據(jù)輸入的信息來確認(rèn)輸入、輸出節(jié)點數(shù)n,m,以及隱含層節(jié)點數(shù)l,然后對各層之間連接的權(quán)值閾值ωij、ωjk進(jìn)行初始化。、BP神經(jīng)網(wǎng)絡(luò)分類器 BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類領(lǐng)域,可以很形象的這樣想象:輸入層可以表示輸入的文本樣本,而輸出層則可以表示為文本樣本所處的類別,這樣對訓(xùn)練文本進(jìn)行逐步處理,一步一步確定權(quán)值和閾值,使其更適應(yīng)文本訓(xùn)練語料庫的需求,然后對測試集文本進(jìn)行測試。 BP神經(jīng)網(wǎng)絡(luò)的算法流程如圖所示:進(jìn)行網(wǎng)絡(luò)計算權(quán)值、閾值樣本輸入樣本修正計算實際誤差與期望誤差大于設(shè)定誤差反向傳播小于設(shè)定誤差 圖310 BP神經(jīng)網(wǎng)絡(luò)的算法流程圖Y1 BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu):ωjkωijXBP神經(jīng)網(wǎng)絡(luò)分類器、BP神經(jīng)網(wǎng)絡(luò)原理 BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的主要特點是信號的前向傳遞的同時,誤差反向傳播,輸入信號從輸入層經(jīng)隱含層逐層處理,一直到輸出層,每一層的神經(jīng)元狀態(tài)只影響下一層神經(jīng)元狀態(tài)。每種分類算法都有自己好的一面和不足的一面,貝葉斯算法即使有那個缺點,但是在實際使用中,這種方法還是有自己較為重要的方面。 ④如果P(yk|x)=max{P(y1|x),P(y2|x).....P(yn|x)},則x∈yk、貝葉斯進(jìn)行分類 進(jìn)行分類的時候,需要知道先驗概率,在數(shù)學(xué)理論中,表示大量時間重復(fù)之后最終的統(tǒng)計結(jié)果,知道先驗概率之后,按照所得的信息對先驗概率進(jìn)行計算,從而獲得后驗概率,進(jìn)而對先驗概率進(jìn)行修正,以提高分類的準(zhǔn)確性,這可以形象的理解為是監(jiān)督學(xué)習(xí),通過實驗的結(jié)果來改變實驗中的各種參數(shù)。樸素貝葉斯分類的步驟: ?設(shè)x={a1,a2,...,am}為一個待分類項,而每個a為x的一個特征屬性。如果一種水果其具有黃,長,直徑大概1英寸等特征,該水果可以被判定為是香蕉。按照乘法法則: P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B), (37)可以導(dǎo)出貝葉斯定理公式: P(A|B)=P(B|A)*P(A)/P(B) (38)如上公式也可變形為: P(B|A)=P(A|B)*P(B)/P(A) (39)全概率的公式: P(X)=P(X|Y1)+ P(X|Y2)+…+ P(X|Yn) (310)此公式在此處不做具體闡述。 將上述例子引入文本分類當(dāng)中的話,每一個列的屬性,在文本分類當(dāng)中可以形象的認(rèn)為是某個特征詞,該特征詞的表征作用來決定最后文章所處的類別,通過讀取訓(xùn)練集形成決策樹分類器,進(jìn)而對訓(xùn)練集中的文本進(jìn)行分類。911為秋,122為冬,這樣通過時間也成為一條判定依據(jù)。那么在決策的時候,就可以判定,當(dāng)溫度低于10℃時為冬季,溫度高于25℃為夏季,溫度介于10℃~25℃之間為春秋兩季,這樣冬季和夏季顯而易見的就被分割開來。如下表,以四季為例,構(gòu)建的各種四季信息:表31 一個簡單的四季訓(xùn)練表季節(jié)溫度時間天氣適合外出農(nóng)作物春季15℃3月小雨否播種夏季32℃7月晴是鋤草秋季16℃10月陰是收獲冬季8℃12月小雪否鋤地春季14℃4月多云是播種夏季37℃8月大雨否鋤草秋季17℃9月多云是收獲冬季1℃1月大雪否鋤地第一行為各項屬性,列為屬性的情形,注意,根據(jù)人們普遍的思維,根據(jù)時間3~5為春季,6~8為夏季一眼能知道,這是人們平時的習(xí)慣,這里只是作為一個例子,真正文本分類的過程中,并沒有如此嚴(yán)格的時間標(biāo)準(zhǔn),更沒有這么層次分明的溫度、氣候、播種標(biāo)準(zhǔn),而且各個層次之間的關(guān)系并沒有這么鮮明,這里只是一個簡單的例子。如下圖決策樹所示:abcdabcdcdbcdcd 圖39 二叉樹特例 這種決策方法,不同于上者,沒一個條件都單獨的分割出了一個類別,而實際決策樹設(shè)計或者實踐過程中,不同的人決定的分類方法可能不禁相同,有的可能把一個條件放在了靠近根結(jié)點的位置,而有的設(shè)計者就可能把這個條件放在了較深的位置,當(dāng)然最后得出的結(jié)果也是不盡相同的,那么分類效果可能也會不盡相同,這屬于正常情況,正是由于各種不同結(jié)果的存在,才會激勵人們繼續(xù)探索發(fā)現(xiàn),尋找更好的方法。如下一個簡單的決策樹對abcd進(jìn)行的分類:abcdcdababdc 圖38 二分決策樹首先通過某個特征,從abcd中,將ab分開來,然后根據(jù)其他特征,進(jìn)而將ab進(jìn)行拆分,cd的處理也是如此,那么這種分類,既然第一次分類將ab歸結(jié)到了一起,那么ab之間應(yīng)該是有某些相同的因素,必須要進(jìn)行進(jìn)一步的區(qū)分,才能把ab分開,當(dāng)信息量越大的時候,需要的區(qū)分度就越多,決策樹分類的好處是,層次鮮明,各個類之間的關(guān)系可以一目了然。在后面第四章的仿真實驗中,有用此種方法實現(xiàn)的分類結(jié)果,詳細(xì)實驗結(jié)果以及各種分析見第四章。、SVM分類評價 支持向量機(jī)算法,由于它的可觀性,而且不用太多麻煩的計算,被廣泛的應(yīng)用于文本分類的各個領(lǐng)域。、映射函數(shù)(核函數(shù))上述兩種情況,是針對那些區(qū)分度特別大的進(jìn)行劃分,也就是說,很多的點,可以很鮮明的劃分開來,但是實際中肯定存在如下圖所示的情況,其中某個樣本把另外一個樣本完全包含在內(nèi),這種情況該怎么劃分呢? 直接畫一條直線,肯定是不恰當(dāng)?shù)淖龇?,因此就要用到映射,將樣本空間映射到更高維數(shù)的特種空間中,進(jìn)而用一個超平面進(jìn)行劃分,如下圖所示:本身的樣本是二維的x,y坐標(biāo)平面,現(xiàn)在引入第三位坐標(biāo)z,根據(jù)映射關(guān)系,就可以很容易的用一個平面進(jìn)行劃分了,如下圖所示: 圖37 三維空間映射圖示這樣就能實現(xiàn)特征的劃分。、SVM構(gòu)造分類器、線性可分首先給出一個簡單的分類問題,要求區(qū)分兩個類別,要求用一條直線,將下圖中黑色的點和白色的點分開:圖32 多條線性劃分圖示圖中的條件,我們可以畫無數(shù)條用于分割的直線,但是這些直線中,哪一條最好,最符合要求呢?要選擇哪條直線,才能使兩邊的類別劃分的越開越好呢,當(dāng)有一個新的點到達(dá)時,可以很快的進(jìn)行決策呢?可以使用下面的方法:圖33向兩邊延伸 圖34 只想向量機(jī)M距離圖示首先畫一條直線,或者在空間可以理解為一個超平面,在這個直線的兩邊分別延伸出兩條平行的直線,兩條平行的直線與該直線的距離逐漸變遠(yuǎn),直到和空間類別中的某一個點相交,要求是兩邊都相交,然后求M的取值,當(dāng)然滿足條件使得M的取值越大,證明劃分的越開,劃分效果越好,M的取值 定義為:M=2/||W||。當(dāng)然了上式也可以運用于線性空間,原理與之類似。支持向量機(jī)的數(shù)學(xué)描述: w 看過復(fù)旦語料庫的相信都知道,該語料庫含有20個類別,其中9個類別文章數(shù)非常多,有上千篇,其中一個類別中性,將近100篇,其余10個類別文章數(shù)非常少,甚至還有40篇文章的類別,因此在試驗過程中我去掉的了那文章數(shù)非常少的10個類別,用另外10個類別進(jìn)行試驗。、KNN算法效果評價 KNN算法,簡單,容易被大多數(shù)人接受,但是由于其簡單的系統(tǒng)結(jié)構(gòu),對分類效果并不是非??捎^。Cj,Sim是計算二者的相似度,相似度越高,那么結(jié)果權(quán)值越大,最后比較計算得出的結(jié)果就可以得出該文本所屬的類別。、KNN算法用于分類 上述是K個文本,那么這K個文本肯定有各自所屬的類別,接下來關(guān)鍵部分就是計算每個類別與某個文本S之間的權(quán)值,例如本試驗中有10個類別,那么計算的時候,就應(yīng)該分別計算這10個類別與該文本S的權(quán)值,然后選擇最后權(quán)值結(jié)果最大的類別,將該文本歸入其中 權(quán)值的計算公式為: (32)上式中,di表示的是K個文本中的某個文本形成的向量。如圖所示: 圖31 KNN臨近點圖示 尋找與所要查詢點距離最近的點,找到最近的點之后,那么所要查詢的點就跟著那個最近的點走,根據(jù)那個最近點所屬的類別而判定查詢點所屬的類別。常用的文本分類算法有:決策樹算法、樸素貝葉斯算法、K臨近算法、支持向量機(jī)算法、BP神經(jīng)網(wǎng)絡(luò)算法等等。講述了詞典、停用詞詞典,講述了對向量維數(shù)的處理,第三章就是針對前面的已經(jīng)做好的內(nèi)容設(shè)計分類器,當(dāng)然會提到各種常用的分類方法。、文本證據(jù)權(quán)方法 文本證據(jù)權(quán)方法是通過比較文本出現(xiàn)的概率和給定某個特征詞t時,某個類的條件概率之間的差別,進(jìn)而進(jìn)行計算,得到相應(yīng)的權(quán)值 文本證據(jù)權(quán)的計算公式如下: (210)注:Od表示的是事件發(fā)生的概率比上事件不發(fā)生的概率所得的值,特征詞和類別的相關(guān)度記作:P(Ci|t) 相關(guān)度越大,而且相應(yīng)類別出現(xiàn)的概率越小,則計算得出的結(jié)果權(quán)值就越大,表示該詞對某個類的表征作用就越強(qiáng),相反如果相關(guān)度越小,則表示,類別出現(xiàn)的概率越大,則表示該詞對某個類的表征作用就越弱,在實行向量降維的時候,就要考慮把這些表征能力比較弱的詞的向量可以略去不管。X^2統(tǒng)計方法的計算公式如下: (29) 注:A表示特征詞t與類Ci同時出現(xiàn)的次數(shù),D表示二者同時不出現(xiàn)的次數(shù)B表示t出現(xiàn)但是且不出現(xiàn)的次數(shù),C表示滿足(t不出現(xiàn)且Ci出現(xiàn))的次數(shù),N表示語料庫中的總文章數(shù)。期望交叉熵的算法公式為: (28)用這種算法 當(dāng)某個特征詞與類別關(guān)系較大時,得到的權(quán)值結(jié)果自然會比較大,當(dāng)特征詞與類別關(guān)系較小時,得到的結(jié)果會比較小,進(jìn)行降維的時候也是采取取大去小的原則進(jìn)行計算?;バ畔⒌挠嬎愎饺缦拢? (27)注:P(t∩Ci)為特征詞t與類別Ci同時出現(xiàn),其余的概率統(tǒng)計與之前的相同,此公式后面的推到用到了貝葉斯算法的公式,關(guān)于貝葉斯算法,后面將會詳細(xì)講述。這樣一個詞的信息增益越大,在后期設(shè)計分類器或者進(jìn)行分類時,該詞就更重要,反之信息增益越小,那么該詞的重要性就比較低,去除那些信息增益非常低的詞之后,剩下的詞相對就比較少了,對提升算法的速度有很大的幫助。 信息t的信息增益的公式為: (26) 注:其中P(Ci)表示某個文章屬于Ci的概率;P(t)表示包含有特征詞t的文本出現(xiàn)的概率;則表示不包含特征詞t的文本出現(xiàn)的概率;P(Ci|t)表示包含特征詞時屬于類別Ci的概率,反之為不包括特征詞t時屬于Ci的概率。 在文本分類中,信息增益的使用還是較為普遍的,信息增益的方法的大體思想是:首先計算含有該特征詞時的信息熵,然后減去不含該詞的信息熵,以此用來計算特征詞t 的權(quán)重,在最后得到的結(jié)果中,每個詞都有一個對應(yīng)的權(quán)重,權(quán)重的值由大到小進(jìn)行排列,這樣就可以隨意選取前面較大權(quán)重的詞列入計算,這就是信息增益降維的大體思想。比如一個很簡單的例子,X表示隨機(jī)拋出一枚硬幣,出現(xiàn)的結(jié)果的概率,由于拋出硬幣的可能性有兩種:正面朝上、反面朝上(很少有可能會豎著站立不到,除非是人為因素或者是地表柔軟,硬幣扎入地中,這些意外情況不記入其中)最后隨機(jī)出現(xiàn)的兩種結(jié)果概率都是1/2,那么對于拋硬幣這個等概率事件,X的信息熵計算結(jié)果為: H(X)=*(1)*(1)=*2=1又如X
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1