freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于web的文本分類(lèi)挖掘的研究學(xué)士學(xué)位論文(編輯修改稿)

2025-07-24 18:45 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 …,m)中,若P(CK∣D)值最大,則文本D 歸為CK類(lèi)。由于P(D)是常數(shù),因此將要求解P(Cj∣D)的問(wèn)題轉(zhuǎn)換為只要求解P(Cj)P(D∣Cj)。假設(shè)文本中詞的分布是條件獨(dú)立的,則P(Cj∣D)= P(Cj)P(D∣Cj). 其中,P(Cj)= ;P(di∣Cj)= 盡管詞的分布是條件獨(dú)立的這個(gè)假設(shè)在實(shí)際文本中是不成立的,但在實(shí)際應(yīng)用中NP分類(lèi)器一般都能取得相對(duì)較好的結(jié)果。從理論上講,貝葉斯分類(lèi)的出錯(cuò)率最小,就試驗(yàn)結(jié)果來(lái)看,樸素貝葉斯在大型的數(shù)據(jù)集上表現(xiàn)出來(lái)難得的速度和準(zhǔn)確度。[15] K近鄰(KNN)方法KNN方法是一種基于實(shí)例的文本分類(lèi)方法。首先,對(duì)于一個(gè)待分類(lèi)文本,計(jì)算它與訓(xùn)練樣本集中每個(gè)文本的文本相似度,根據(jù)文本相似度找出K 個(gè)最相似的訓(xùn)練文本。這最相似的K個(gè)文本按其和待分類(lèi)文本的相似度高低對(duì)類(lèi)別予以加權(quán)平均,從而預(yù)測(cè)待分類(lèi)文本的類(lèi)別。其中最重要的是參數(shù)K的選擇,K 過(guò)小,不能充分體現(xiàn)待分類(lèi)文本的特點(diǎn);而K 過(guò)大,會(huì)造成噪聲增加而導(dǎo)致分類(lèi)效果降低。文本向量D 屬于類(lèi)別Ci的權(quán)值W(Ci∣D)由下式計(jì)算,權(quán)值越高,認(rèn)為文本向量D屬于類(lèi)別Ci 的概率越高:W(Ci∣D)=其中,S(D,Dj)是向量之間的余弦相似度;D1 ~ Dk是訓(xùn)練集中與D余弦相似度最大的K個(gè)文本向量;而P(Ci∣Dj)當(dāng)Dj屬于類(lèi)別Ci時(shí)為1,否則為0。通過(guò)上面的分析可知,KNN 的實(shí)質(zhì)就是以特征屬性權(quán)值作為特征空間的坐標(biāo)系測(cè)度,先計(jì)算測(cè)試集與訓(xùn)練集之間在該坐標(biāo)系中的余弦距離,然后根據(jù)測(cè)試集與訓(xùn)練集的距離遠(yuǎn)近來(lái)確定類(lèi)別。顯然,它沒(méi)有考慮特征屬性關(guān)聯(lián)及共現(xiàn)等因素對(duì)文本相似度的影響,如果加以恰當(dāng)?shù)乜紤],KNN 的效果會(huì)更好。KNN[16]是一種懶散的方法,即它沒(méi)有學(xué)習(xí)過(guò)程,只是存放所有的訓(xùn)練例,直到接到未知文本的時(shí)候刁建立分類(lèi)。KNN的訓(xùn)練過(guò)程較快,而且可以隨時(shí)添加或更新訓(xùn)練例來(lái)調(diào)整。但因?yàn)樾枰艽蟮目臻g來(lái)保存訓(xùn)練例,因此其分類(lèi)的開(kāi)銷(xiāo)會(huì)很大。  決策樹(shù)(Decision Tree)分類(lèi)決策樹(shù)是一種常用數(shù)據(jù)分類(lèi)技術(shù),同樣適用于文本分類(lèi)。決策樹(shù)的核心算法是一種貪心算法,它以自頂向下的方式在訓(xùn)練集的基礎(chǔ)上構(gòu)造決策樹(shù),之后取未知文本的屬性在決策樹(shù)上測(cè)試,路徑由根結(jié)點(diǎn)到葉結(jié)點(diǎn),從而得到該文本的所屬類(lèi)別。決策樹(shù)的建立算法有多種,其中包括:基于信息增益的啟發(fā)式算法ID3;;基于Gini數(shù)的算法CART;針對(duì)大樣本集的可伸縮算法SLIQ;可并行化算法SPRINT;將建樹(shù)和剪枝集成到一起的算法PBULIC。他們的區(qū)別在于構(gòu)造決策樹(shù)與樹(shù)枝剪除的算法細(xì)節(jié)不同。決策樹(shù)可以很好的抵抗噪聲。最大的缺點(diǎn)在于不適應(yīng)大規(guī)模的數(shù)據(jù)集,此種情況下決策樹(shù)的構(gòu)造會(huì)變得效率低下?!』谕镀钡姆椒ㄔ谘芯慷喾诸?lèi)器組合時(shí)提出了投票算法,其核心思想是:n個(gè)專(zhuān)家判斷的有效組合應(yīng)該優(yōu)于某個(gè)專(zhuān)家個(gè)人的判斷。投票算法主要有兩種:Bagging 算法和Boosting 算法。1) Bagging 算法。訓(xùn)練R 個(gè)分類(lèi)器=,i=1,2,…,R分類(lèi)器之間只是參數(shù)不同。其中fi是通過(guò)從訓(xùn)練集(N 篇文檔)中隨機(jī)?。ㄈ『蠓呕兀㎞ 次文檔構(gòu)成的訓(xùn)練集合訓(xùn)練得到的。對(duì)于新文檔D,用這R 個(gè)分類(lèi)器去分類(lèi),得到的最多的那個(gè)類(lèi)別作為D的最終類(lèi)別。2) Boosting 算法。類(lèi)似Bagging 算法,但分類(lèi)器的組合方式是級(jí)聯(lián)的,前一級(jí)分類(lèi)器為后一級(jí)分類(lèi)器提供分類(lèi)信息,指導(dǎo)下一級(jí)分類(lèi)器的訓(xùn)練和分類(lèi)過(guò)程。下面介紹一種Boosting算法AdaBoosting。R次循環(huán),每次循環(huán)訓(xùn)練K 個(gè)分類(lèi)器。,所有權(quán)重的初始值都是相等的。每一次循環(huán),AdaBoost 算法估計(jì)K個(gè)分類(lèi)器fr( D,k),k=1,2,…,K,并對(duì)分類(lèi)錯(cuò)誤的樣本加大權(quán)重。fr( D,k)反映訓(xùn)練樣本Di的類(lèi)標(biāo)簽是否是Ck,而它的大小被認(rèn)為是衡量預(yù)測(cè)的信度。用以下公式來(lái)更新權(quán)重:pik(r+1)=pikrexp(yikfr(Di,k))如果Ck是樣本Di的可能類(lèi)標(biāo)簽中的一個(gè),那么yik=1,否則yik=1,。將權(quán)重重整,使得pik(r+1)=1。這個(gè)過(guò)程循環(huán)R 次之后,得到R*K 個(gè)fr( D,K)。然后用這所有的分類(lèi)器對(duì)樣本集D 進(jìn)行分類(lèi),D的最終分類(lèi)器f˙(D,K)為: f˙(D,k)=  支持向量機(jī)(SVM)方法[17]支持向量機(jī)(SVM)是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法。通過(guò)學(xué)習(xí),SVM 可以自動(dòng)尋找那些對(duì)分類(lèi)有較好區(qū)分能力的支持向量,由此構(gòu)造出的分類(lèi)器可以最大化類(lèi)之間的間隔, 因而有較好的推廣性能和較高的分類(lèi)精確率。SVM 已被用于文本分類(lèi)、孤立的手寫(xiě)體識(shí)別、語(yǔ)音識(shí)別、人臉識(shí)別、三維物體識(shí)別、遙感圖像分析等?!》诸?lèi)性能評(píng)價(jià)文本分類(lèi)效果可以從準(zhǔn)確率、查全率、遺漏率、正確率、錯(cuò)誤率五個(gè)方面評(píng)估。假設(shè):a表示判為C類(lèi)且確實(shí)屬于C類(lèi)的文本數(shù)目。b表示判為C類(lèi)且但實(shí)際不屬于C類(lèi)的文本數(shù)目。c表示判為非C類(lèi)且確實(shí)不屬于C類(lèi)的文本數(shù)目。d表示判為非C類(lèi)且但實(shí)際上卻屬于C類(lèi)的文本數(shù)目。a+d表示實(shí)際屬于C類(lèi)的文本數(shù)目:b+c表示實(shí)際不屬于C類(lèi)的文本數(shù)目??梢远x:準(zhǔn)確率=a/(a+b)查全率=a/(a+d)遺漏率=b/(b+c)正確率= (a+c)/n, n=a+b+c+d錯(cuò)誤率= (b+d)/n, n=a+b+c+d因?yàn)槲谋痉诸?lèi)從根本上說(shuō)是一個(gè)映射過(guò)程,所以評(píng)估文本分類(lèi)系統(tǒng)的標(biāo)志是映射的準(zhǔn)確程度和映射的速度。所以,文本分類(lèi)系統(tǒng)的最重要的兩個(gè)指標(biāo)是:準(zhǔn)確率(precise)和查全率(recall)。準(zhǔn)確率和查全率反映了分類(lèi)質(zhì)量的兩個(gè)不同方面,兩者必須綜合考慮,不可偏廢,因此,存在一種新的評(píng)估指標(biāo),F(xiàn)1測(cè)試值,其數(shù)學(xué)公式如下:F1測(cè)試值=另外有微平均和宏平均兩種計(jì)算準(zhǔn)確率、查全率和F1測(cè)試值的方法。微平均:計(jì)算每一類(lèi)的準(zhǔn)確率、查全率和F1測(cè)試值。宏平均:計(jì)算全部類(lèi)的準(zhǔn)確率、查全率和F1測(cè)試值第三章 基于支持向量機(jī)的中文文本分類(lèi) 統(tǒng)計(jì)學(xué)習(xí)理論機(jī)器學(xué)習(xí)的目的是根據(jù)給定的訓(xùn)練樣本求對(duì)某系統(tǒng)輸入輸出之間依賴(lài)關(guān)系的估計(jì),使它能夠?qū)ξ粗敵鲎鞒霰M可能準(zhǔn)確的預(yù)測(cè)??梢砸话愕乇硎緸?變量Y與x之間存在一定的未知依賴(lài)關(guān)系,即遵循某一未知的聯(lián)合概率F(x,y),則機(jī)器學(xué)習(xí)問(wèn)題就是根據(jù)n個(gè)獨(dú)立同分布的觀測(cè)樣本(x1,y1),(x2,y2),…,(xn,yn)在一組函數(shù){f(x,w)}中求一個(gè)最優(yōu)的函數(shù)f(x,w0)對(duì)依賴(lài)關(guān)系進(jìn)行估計(jì),使期望風(fēng)險(xiǎn):R(w)=∫L(y,f(x, w))dF(x,y)(31)最小。其中,{ f(x,w)}稱(chēng)作預(yù)測(cè)函數(shù)集,w為函數(shù)的廣義參數(shù),L(y,f(x,w))為由于用f(x,w)對(duì)y進(jìn)行預(yù)測(cè)而造成的損失。預(yù)測(cè)函數(shù)也稱(chēng)作學(xué)習(xí)函數(shù)、學(xué)習(xí)模型或?qū)W習(xí)機(jī)器。由于期望風(fēng)險(xiǎn)是預(yù)測(cè)函數(shù)在整個(gè)樣本空間上的出錯(cuò)率的數(shù)學(xué)期望,因此要使式(31)最小化必須依賴(lài)于聯(lián)合概率F(x,y)的信息。但是,在實(shí)際的機(jī)器學(xué)習(xí)問(wèn)題中這一要求太強(qiáng),樣本集的分布函數(shù)往往難以預(yù)知,這使得期望風(fēng)險(xiǎn)無(wú)法直接計(jì)算和最小化。因此傳統(tǒng)的學(xué)習(xí)方法采用了所謂經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization,簡(jiǎn)稱(chēng)ERM)準(zhǔn)則,即定義經(jīng)驗(yàn)風(fēng)險(xiǎn):Remp(w)= L(yi f (xi, w)) (32)來(lái)作為對(duì)期望風(fēng)險(xiǎn)的估計(jì),并設(shè)計(jì)學(xué)習(xí)算法使它最小化。ERM準(zhǔn)則是目前絕大多數(shù)模式識(shí)別方法的基礎(chǔ),其定義為訓(xùn)練集上的平均出錯(cuò)率,用于對(duì)整個(gè)樣本集的期望風(fēng)險(xiǎn)進(jìn)行估計(jì)。它建立在樣本數(shù)目足夠多的前提下,所提出的各種方法只有在樣本數(shù)趨向無(wú)窮大時(shí),其性能才有理論上的保證。而在現(xiàn)實(shí)世界的應(yīng)用中,這一前提并不總能被滿(mǎn)足,這時(shí)大多數(shù)此類(lèi)方法都難以取得理想的效果[18] Vapnik的研究指出,使用經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化方法得到的學(xué)習(xí)結(jié)果,其風(fēng)險(xiǎn)與期望風(fēng)險(xiǎn)之間至少以概率1η滿(mǎn)足如下關(guān)系[19] :R(w)≤Remp(w)+,(33)其中h是函數(shù)集的VC維(VC維是VapnikChervonenkis維的縮寫(xiě)),n是樣本數(shù)。VC維概念是統(tǒng)計(jì)學(xué)習(xí)理論的一個(gè)核心概念,它是描述函數(shù)集的復(fù)雜性或?qū)W習(xí)能力的一個(gè)重要指標(biāo)。這一結(jié)論從理論上說(shuō)明了學(xué)習(xí)機(jī)器的實(shí)際風(fēng)險(xiǎn)是由兩部分組成的:一是經(jīng)驗(yàn)風(fēng)險(xiǎn)(即訓(xùn)練誤差),另一部分稱(chēng)作置信范圍,它和學(xué)習(xí)機(jī)器的VC維及訓(xùn)練樣本數(shù)有關(guān)。式(33)可以簡(jiǎn)單地表示為:R(w) ≤Remp (w) +Φ(h/n), (34)它表明,如果對(duì)于一個(gè)給定數(shù)目的訓(xùn)練集,我們?cè)O(shè)計(jì)了一個(gè)過(guò)于復(fù)雜的學(xué)習(xí)機(jī),則置信范圍Φ(h/n)將會(huì)很大。這時(shí),即使我們可以把經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化為零,在測(cè)試集上的錯(cuò)誤數(shù)目仍可能很大。這就是為什么會(huì)出現(xiàn)“過(guò)學(xué)習(xí)”現(xiàn)象的原因。機(jī)器學(xué)習(xí)過(guò)程不但要使經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,還要使VC維盡可能小以縮小置信范圍,才能取得較小的實(shí)際風(fēng)險(xiǎn),即對(duì)未來(lái)樣本有較好的推廣性。從上面的結(jié)論可以看到,ERM 原則在樣本有限時(shí)是不合理的,我們需要同時(shí)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍。其實(shí),在傳統(tǒng)方法中,選擇學(xué)習(xí)模型和算法的過(guò)程就是調(diào)整置信范圍的過(guò)程,如果模型比較適合現(xiàn)有的訓(xùn)練樣本(相當(dāng)于h/n的值適當(dāng)),則可以取得比較好的效果。但因
點(diǎn)擊復(fù)制文檔內(nèi)容
化學(xué)相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1