freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

中文文本分類算法設(shè)計(jì)及其實(shí)現(xiàn)(參考版)

2025-04-18 23:48本頁面
  

【正文】 本。P(查準(zhǔn)率)=a/(a+c)。這樣表示,相當(dāng)?shù)牟幻鞔_,下面對(duì)著兩個(gè)概念詳細(xì)表示:引入abcd四個(gè)變量:a程序歸類正確的文章篇數(shù) b程序把把文章分配到某個(gè)類別,而實(shí)際文章并不在這個(gè)類別c文本本身在某個(gè)類別,但是程序并沒有將文章歸入d程序和語料庫歸類都不在某個(gè)類的文章數(shù)P(查全率)=a/(a+b)。查全率=查詢出的相關(guān)信息量/語料庫中的相關(guān)信息總量。下一章主要是針對(duì)語料庫進(jìn)行的試驗(yàn),語料庫是本人處理過的,詳細(xì)結(jié)果,見第四章。、BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類 上述一些列的過程都是BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,由該過程,對(duì)所有的訓(xùn)練文本分析之后,最終確定了權(quán)值和閾值,這樣訓(xùn)練文本越多,輸入的信息越多,那么最終確定的隱含函數(shù)越趨于期望函數(shù),隨著信息量的增多,結(jié)果會(huì)越來越趨近于正確值,就像人腦的學(xué)習(xí)過程一樣,隨著時(shí)間的增多,隨著信息量的增多,隨著年齡的增大,一個(gè)人的大腦越來越趨向于成熟,分析和解決問題的能力也會(huì)越來越高,BP神經(jīng)網(wǎng)絡(luò)分類算法因?yàn)槭悄M人的大腦的神經(jīng)網(wǎng)絡(luò),所以相對(duì)來說,是目前較為全面的文本分類算法,相信這種算法會(huì)在將來得到廣泛的應(yīng)用。 j=1,2,...,l bk=bk+ek k=1,2,...,m (315) 步驟七、判斷算法迭代是否結(jié)束,若沒有結(jié)束,返回步驟2。 步驟六、閾值更新。根據(jù)網(wǎng)絡(luò)預(yù)測(cè)誤差e更新網(wǎng)絡(luò)連接權(quán)值ωij、ωjk。計(jì)算公式為: j=1,2,...,l (311) 上式中,l為銀行曾節(jié)點(diǎn)數(shù),f()為隱含層激勵(lì)函數(shù),該函數(shù)可以有多種表達(dá)形式。系統(tǒng)根據(jù)輸入的信息來確認(rèn)輸入、輸出節(jié)點(diǎn)數(shù)n,m,以及隱含層節(jié)點(diǎn)數(shù)l,然后對(duì)各層之間連接的權(quán)值閾值ωij、ωjk進(jìn)行初始化。、BP神經(jīng)網(wǎng)絡(luò)分類器 BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類領(lǐng)域,可以很形象的這樣想象:輸入層可以表示輸入的文本樣本,而輸出層則可以表示為文本樣本所處的類別,這樣對(duì)訓(xùn)練文本進(jìn)行逐步處理,一步一步確定權(quán)值和閾值,使其更適應(yīng)文本訓(xùn)練語料庫的需求,然后對(duì)測(cè)試集文本進(jìn)行測(cè)試。 BP神經(jīng)網(wǎng)絡(luò)的算法流程如圖所示:進(jìn)行網(wǎng)絡(luò)計(jì)算權(quán)值、閾值樣本輸入樣本修正計(jì)算實(shí)際誤差與期望誤差大于設(shè)定誤差反向傳播小于設(shè)定誤差 圖310 BP神經(jīng)網(wǎng)絡(luò)的算法流程圖Y1 BP神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu):ωjkωijXBP神經(jīng)網(wǎng)絡(luò)分類器、BP神經(jīng)網(wǎng)絡(luò)原理 BP神經(jīng)網(wǎng)絡(luò)是一種多層前饋神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的主要特點(diǎn)是信號(hào)的前向傳遞的同時(shí),誤差反向傳播,輸入信號(hào)從輸入層經(jīng)隱含層逐層處理,一直到輸出層,每一層的神經(jīng)元狀態(tài)只影響下一層神經(jīng)元狀態(tài)。每種分類算法都有自己好的一面和不足的一面,貝葉斯算法即使有那個(gè)缺點(diǎn),但是在實(shí)際使用中,這種方法還是有自己較為重要的方面。 ④如果P(yk|x)=max{P(y1|x),P(y2|x).....P(yn|x)},則x∈yk、貝葉斯進(jìn)行分類 進(jìn)行分類的時(shí)候,需要知道先驗(yàn)概率,在數(shù)學(xué)理論中,表示大量時(shí)間重復(fù)之后最終的統(tǒng)計(jì)結(jié)果,知道先驗(yàn)概率之后,按照所得的信息對(duì)先驗(yàn)概率進(jìn)行計(jì)算,從而獲得后驗(yàn)概率,進(jìn)而對(duì)先驗(yàn)概率進(jìn)行修正,以提高分類的準(zhǔn)確性,這可以形象的理解為是監(jiān)督學(xué)習(xí),通過實(shí)驗(yàn)的結(jié)果來改變實(shí)驗(yàn)中的各種參數(shù)。樸素貝葉斯分類的步驟: ?設(shè)x={a1,a2,...,am}為一個(gè)待分類項(xiàng),而每個(gè)a為x的一個(gè)特征屬性。如果一種水果其具有黃,長(zhǎng),直徑大概1英寸等特征,該水果可以被判定為是香蕉。按照乘法法則: P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B), (37)可以導(dǎo)出貝葉斯定理公式: P(A|B)=P(B|A)*P(A)/P(B) (38)如上公式也可變形為: P(B|A)=P(A|B)*P(B)/P(A) (39)全概率的公式: P(X)=P(X|Y1)+ P(X|Y2)+…+ P(X|Yn) (310)此公式在此處不做具體闡述。 將上述例子引入文本分類當(dāng)中的話,每一個(gè)列的屬性,在文本分類當(dāng)中可以形象的認(rèn)為是某個(gè)特征詞,該特征詞的表征作用來決定最后文章所處的類別,通過讀取訓(xùn)練集形成決策樹分類器,進(jìn)而對(duì)訓(xùn)練集中的文本進(jìn)行分類。911為秋,122為冬,這樣通過時(shí)間也成為一條判定依據(jù)。那么在決策的時(shí)候,就可以判定,當(dāng)溫度低于10℃時(shí)為冬季,溫度高于25℃為夏季,溫度介于10℃~25℃之間為春秋兩季,這樣冬季和夏季顯而易見的就被分割開來。如下表,以四季為例,構(gòu)建的各種四季信息:表31 一個(gè)簡(jiǎn)單的四季訓(xùn)練表季節(jié)溫度時(shí)間天氣適合外出農(nóng)作物春季15℃3月小雨否播種夏季32℃7月晴是鋤草秋季16℃10月陰是收獲冬季8℃12月小雪否鋤地春季14℃4月多云是播種夏季37℃8月大雨否鋤草秋季17℃9月多云是收獲冬季1℃1月大雪否鋤地第一行為各項(xiàng)屬性,列為屬性的情形,注意,根據(jù)人們普遍的思維,根據(jù)時(shí)間3~5為春季,6~8為夏季一眼能知道,這是人們平時(shí)的習(xí)慣,這里只是作為一個(gè)例子,真正文本分類的過程中,并沒有如此嚴(yán)格的時(shí)間標(biāo)準(zhǔn),更沒有這么層次分明的溫度、氣候、播種標(biāo)準(zhǔn),而且各個(gè)層次之間的關(guān)系并沒有這么鮮明,這里只是一個(gè)簡(jiǎn)單的例子。如下圖決策樹所示:abcdabcdcdbcdcd 圖39 二叉樹特例 這種決策方法,不同于上者,沒一個(gè)條件都單獨(dú)的分割出了一個(gè)類別,而實(shí)際決策樹設(shè)計(jì)或者實(shí)踐過程中,不同的人決定的分類方法可能不禁相同,有的可能把一個(gè)條件放在了靠近根結(jié)點(diǎn)的位置,而有的設(shè)計(jì)者就可能把這個(gè)條件放在了較深的位置,當(dāng)然最后得出的結(jié)果也是不盡相同的,那么分類效果可能也會(huì)不盡相同,這屬于正常情況,正是由于各種不同結(jié)果的存在,才會(huì)激勵(lì)人們繼續(xù)探索發(fā)現(xiàn),尋找更好的方法。如下一個(gè)簡(jiǎn)單的決策樹對(duì)abcd進(jìn)行的分類:abcdcdababdc 圖38 二分決策樹首先通過某個(gè)特征,從abcd中,將ab分開來,然后根據(jù)其他特征,進(jìn)而將ab進(jìn)行拆分,cd的處理也是如此,那么這種分類,既然第一次分類將ab歸結(jié)到了一起,那么ab之間應(yīng)該是有某些相同的因素,必須要進(jìn)行進(jìn)一步的區(qū)分,才能把a(bǔ)b分開,當(dāng)信息量越大的時(shí)候,需要的區(qū)分度就越多,決策樹分類的好處是,層次鮮明,各個(gè)類之間的關(guān)系可以一目了然。在后面第四章的仿真實(shí)驗(yàn)中,有用此種方法實(shí)現(xiàn)的分類結(jié)果,詳細(xì)實(shí)驗(yàn)結(jié)果以及各種分析見第四章。、SVM分類評(píng)價(jià) 支持向量機(jī)算法,由于它的可觀性,而且不用太多麻煩的計(jì)算,被廣泛的應(yīng)用于文本分類的各個(gè)領(lǐng)域。、映射函數(shù)(核函數(shù))上述兩種情況,是針對(duì)那些區(qū)分度特別大的進(jìn)行劃分,也就是說,很多的點(diǎn),可以很鮮明的劃分開來,但是實(shí)際中肯定存在如下圖所示的情況,其中某個(gè)樣本把另外一個(gè)樣本完全包含在內(nèi),這種情況該怎么劃分呢? 直接畫一條直線,肯定是不恰當(dāng)?shù)淖龇?,因此就要用到映射,將樣本空間映射到更高維數(shù)的特種空間中,進(jìn)而用一個(gè)超平面進(jìn)行劃分,如下圖所示:本身的樣本是二維的x,y坐標(biāo)平面,現(xiàn)在引入第三位坐標(biāo)z,根據(jù)映射關(guān)系,就可以很容易的用一個(gè)平面進(jìn)行劃分了,如下圖所示: 圖37 三維空間映射圖示這樣就能實(shí)現(xiàn)特征的劃分。、SVM構(gòu)造分類器、線性可分首先給出一個(gè)簡(jiǎn)單的分類問題,要求區(qū)分兩個(gè)類別,要求用一條直線,將下圖中黑色的點(diǎn)和白色的點(diǎn)分開:圖32 多條線性劃分圖示圖中的條件,我們可以畫無數(shù)條用于分割的直線,但是這些直線中,哪一條最好,最符合要求呢?要選擇哪條直線,才能使兩邊的類別劃分的越開越好呢,當(dāng)有一個(gè)新的點(diǎn)到達(dá)時(shí),可以很快的進(jìn)行決策呢?可以使用下面的方法:圖33向兩邊延伸 圖34 只想向量機(jī)M距離圖示首先畫一條直線,或者在空間可以理解為一個(gè)超平面,在這個(gè)直線的兩邊分別延伸出兩條平行的直線,兩條平行的直線與該直線的距離逐漸變遠(yuǎn),直到和空間類別中的某一個(gè)點(diǎn)相交,要求是兩邊都相交,然后求M的取值,當(dāng)然滿足條件使得M的取值越大,證明劃分的越開,劃分效果越好,M的取值 定義為:M=2/||W||。當(dāng)然了上式也可以運(yùn)用于線性空間,原理與之類似。支持向量機(jī)的數(shù)學(xué)描述: w 看過復(fù)旦語料庫的相信都知道,該語料庫含有20個(gè)類別,其中9個(gè)類別文章數(shù)非常多,有上千篇,其中一個(gè)類別中性,將近100篇,其余10個(gè)類別文章數(shù)非常少,甚至還有40篇文章的類別,因此在試驗(yàn)過程中我去掉的了那文章數(shù)非常少的10個(gè)類別,用另外10個(gè)類別進(jìn)行試驗(yàn)。、KNN算法效果評(píng)價(jià) KNN算法,簡(jiǎn)單,容易被大多數(shù)人接受,但是由于其簡(jiǎn)單的系統(tǒng)結(jié)構(gòu),對(duì)分類效果并不是非??捎^。Cj,Sim是計(jì)算二者的相似度,相似度越高,那么結(jié)果權(quán)值越大,最后比較計(jì)算得出的結(jié)果就可以得出該文本所屬的類別。、KNN算法用于分類 上述是K個(gè)文本,那么這K個(gè)文本肯定有各自所屬的類別,接下來關(guān)鍵部分就是計(jì)算每個(gè)類別與某個(gè)文本S之間的權(quán)值,例如本試驗(yàn)中有10個(gè)類別,那么計(jì)算的時(shí)候,就應(yīng)該分別計(jì)算這10個(gè)類別與該文本S的權(quán)值,然后選擇最后權(quán)值結(jié)果最大的類別,將該文本歸入其中 權(quán)值的計(jì)算公式為: (32)上式中,di表示的是K個(gè)文本中的某個(gè)文本形成的向量。如圖所示: 圖31 KNN臨近點(diǎn)圖示 尋找與所要查詢點(diǎn)距離最近的點(diǎn),找到最近的點(diǎn)之后,那么所要查詢的點(diǎn)就跟著那個(gè)最近的點(diǎn)走,根據(jù)那個(gè)最近點(diǎn)所屬的類別而判定查詢點(diǎn)所屬的類別。常用的文本分類算法有:決策樹算法、樸素貝葉斯算法、K臨近算法、支持向量機(jī)算法、BP神經(jīng)網(wǎng)絡(luò)算法等等。講述了詞典、停用詞詞典,講述了對(duì)向量維數(shù)的處理,第三章就是針對(duì)前面的已經(jīng)做好的內(nèi)容設(shè)計(jì)分類器,當(dāng)然會(huì)提到各種常用的分類方法。、文本證據(jù)權(quán)方法 文本證據(jù)權(quán)方法是通過比較文本出現(xiàn)的概率和給定某個(gè)特征詞t時(shí),某個(gè)類的條件概率之間的差別,進(jìn)而進(jìn)行計(jì)算,得到相應(yīng)的權(quán)值 文本證據(jù)權(quán)的計(jì)算公式如下: (210)注:Od表示的是事件發(fā)生的概率比上事件不發(fā)生的概率所得的值,特征詞和類別的相關(guān)度記作:P(Ci|t) 相關(guān)度越大,而且相應(yīng)類別出現(xiàn)的概率越小,則計(jì)算得出的結(jié)果權(quán)值就越大,表示該詞對(duì)某個(gè)類的表征作用就越強(qiáng),相反如果相關(guān)度越小,則表示,類別出現(xiàn)的概率越大,則表示該詞對(duì)某個(gè)類的表征作用就越弱,在實(shí)行向量降維的時(shí)候,就要考慮把這些表征能力比較弱的詞的向量可以略去不管。X^2統(tǒng)計(jì)方法的計(jì)算公式如下: (29) 注:A表示特征詞t與類Ci同時(shí)出現(xiàn)的次數(shù),D表示二者同時(shí)不出現(xiàn)的次數(shù)B表示t出現(xiàn)但是且不出現(xiàn)的次數(shù),C表示滿足(t不出現(xiàn)且Ci出現(xiàn))的次數(shù),N表示語料庫中的總文章數(shù)。期望交叉熵的算法公式為: (28)用這種算法 當(dāng)某個(gè)特征詞與類別關(guān)系較大時(shí),得到的權(quán)值結(jié)果自然會(huì)比較大,當(dāng)特征詞與類別關(guān)系較小時(shí),得到的結(jié)果會(huì)比較小,進(jìn)行降維的時(shí)候也是采取取大去小的原則進(jìn)行計(jì)算?;バ畔⒌挠?jì)算公式如下: (27)注:P(t∩Ci)為特征詞t與類別Ci同時(shí)出現(xiàn),其余的概率統(tǒng)計(jì)與之前的相同,此公式后面的推到用到了貝葉斯算法的公式,關(guān)于貝葉斯算法,后面將會(huì)詳細(xì)講述。這樣一個(gè)詞的信息增益越大,在后期設(shè)計(jì)分類器或者進(jìn)行分類時(shí),該詞就更重要,反之信息增益越小,那么該詞的重要性就比較低,去除那些信息增益非常低的詞之后,剩下的詞相對(duì)就比較少了,對(duì)提升算法的速度有很大的幫助。 信息t的信息增益的公式為: (26) 注:其中P(Ci)表示某個(gè)文章屬于Ci的概率;P(t)表示包含有特征詞t的文本出現(xiàn)的概率;則表示不包含特征詞t的文本出現(xiàn)的概率;P(Ci|t)表示包含特征詞時(shí)屬于類別Ci的概率,反之為不包括特征詞t時(shí)屬于Ci的概率。 在文本分類中,信息增益的使用還是較為普遍的,信息增益的方法的大體思想是:首先計(jì)算含有該特征詞時(shí)的信息熵,然后減去不含該詞的信息熵,以此用來計(jì)算特征詞t 的權(quán)重,在最后得到的結(jié)果中,每個(gè)詞都有一個(gè)對(duì)應(yīng)的權(quán)重,權(quán)重的值由大到小進(jìn)行排列,這樣就可以隨意選取前面較大權(quán)重的詞列入計(jì)算,這就是信息增益降維的大體思想。比如一個(gè)很簡(jiǎn)單的例子,X表示隨機(jī)拋出一枚硬幣,出現(xiàn)的結(jié)果的概率,由于拋出硬幣的可能性有兩種:正面朝上、反面朝上(很少有可能會(huì)豎著站立不到,除非是人為因素或者是地表柔軟,硬幣扎入地中,這些意外情況不記入其中)最后隨機(jī)出現(xiàn)的兩種結(jié)果概率都是1/2,那么對(duì)于拋硬幣這個(gè)等概率事件,X的信息熵計(jì)算結(jié)果為: H(X)=*(1)*(1)=*2=1又如X
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1