freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于樸素貝葉斯的文本分類算法-wenkub

2023-07-08 20:15:24 本頁面
 

【正文】 的來歷。條件獨(dú)立性給定類標(biāo)號y,樸素貝葉斯分類器在估計(jì)類條件概率時(shí)假設(shè)屬性之間條件獨(dú)立。上面的數(shù)據(jù)可以用以下概率式子表示:P(cancer)=,P(無cancer)=P(陽性|cancer)=,P(陰性|cancer)=P(陽性|無cancer)=,P(陰性|無cancer)=假設(shè)現(xiàn)在有一個(gè)新病人,化驗(yàn)測試返回陽性,是否將病人斷定為有癌癥呢?在這里,Y={cancer,無cancer},共兩個(gè)類別,這個(gè)新病人是一個(gè)樣本,他有一個(gè)屬性陽性,可以令x=(陽性)。(2)病人無癌癥。根據(jù)貝葉斯公式,后驗(yàn)概率為在比較不同Y值的后驗(yàn)概率時(shí),分母P(X)總是常數(shù),因此可以忽略。x的集合記為X,稱為屬性集。一個(gè)事物具有很多屬性,把它的眾多屬性看做一個(gè)向量,即x=(x1,x2,x3,…,xn),用x這個(gè)向量來代表這個(gè)事物。乘法公式ve Bayes is easy to implement and fast, so it is widely used. This article introduced the theory of Na239。其中樸素貝葉斯具有容易實(shí)現(xiàn),運(yùn)行速度快的特點(diǎn),被廣泛使用。本文詳細(xì)介紹了樸素貝葉斯的基本原理,討論了兩種常見模型:多項(xiàng)式模型(MM)和伯努利模型(BM),實(shí)現(xiàn)了可運(yùn)行的代碼,并進(jìn)行了一些數(shù)據(jù)測試。ve Bayes and discussed two popular models: multinomial model(MM) and Bernoulli model(BM) in details, implemented runnable code and performed some data tests.Keywords: na239。P(XYZ)=P(Z|XY)P(Y|X)P(X)全概率公式類別也是有很多種,用集合Y={y1,y2,…ym}表示。一般X和Y的關(guān)系是不確定的,你只能在某種程度上說x有多大可能性屬于類y1,比如說x有80%的可能性屬于類y1,這時(shí)可以把X和Y看做是隨機(jī)變量,P(Y|X)稱為Y的后驗(yàn)概率(posterior probability),與之相對的,P(Y)稱為Y的先驗(yàn)概率(prior probability)[2]。先驗(yàn)概率P(Y)可以通過計(jì)算訓(xùn)練集中屬于每一個(gè)類的訓(xùn)練樣本所占的比例容易地估計(jì)。樣本數(shù)據(jù)來自某化驗(yàn)測試,它也有兩種可能的結(jié)果:陽性和陰性。我們可以來計(jì)算各個(gè)類別的后驗(yàn)概率:P(cancer | 陽性) = P(陽性 | cancer)p(cancer)=* = P(無cancer | 陽性) =P(陽性 | 無cancer)*p(無cancer)=* = 因此,應(yīng)該判斷為無癌癥。條件獨(dú)立假設(shè)可以形式化的表達(dá)如下:其中每個(gè)訓(xùn)練樣本可用一個(gè)屬性向量X=(x1,x2,x3,…,xn)表示,各個(gè)屬性之間條件獨(dú)立。樸素貝葉斯如何工作有了條件獨(dú)立假設(shè),就不必計(jì)算X和Y的每一種組合的類條件概率,只需對給定的Y,計(jì)算每個(gè)xi的條件概率。貝葉斯分類器舉例假設(shè)給定了如下訓(xùn)練樣本數(shù)據(jù),我們學(xué)習(xí)的目標(biāo)是根據(jù)給定的天氣狀況判斷你對PlayTennis這個(gè)請求的回答是Yes還是No。因?yàn)橛?個(gè)樣本屬于Yes,5個(gè)樣本屬于No,所以P(Yes)=9/14, P(No)=5/14。如果有一個(gè)屬性的類條件概率為0,則整個(gè)類的后驗(yàn)概率就等于0,我們可以直接得到后驗(yàn)概率P(Yes | x1)= P(No | x1)=0,這時(shí)二者相等,無法分類。如果沒有訓(xùn)練集(即n=0),則P(xi|yj)=p, 因此p可以看作是在類yj的樣本中觀察屬性值xi的先驗(yàn)概率。顯然,文檔向量空間是一個(gè)高維度空間。樸素貝葉斯分類器是一種有監(jiān)督學(xué)習(xí),常見有兩種模型,多項(xiàng)式模型(multinomial model)和伯努利模型(Bernoulli model)。偽代碼//C,類別集合,D,用于訓(xùn)練的文本文件集合TrainMultiNomialNB(C,D) {// 單詞出現(xiàn)多次,只算一個(gè)V←ExtractVocabulary(D)// 單詞可重復(fù)計(jì)算N←CountTokens(D)for each c∈C// 計(jì)算類別c下的單詞總數(shù)// N和Nc的計(jì)算方法和Introduction to Information Retrieval上的不同,個(gè)人認(rèn)為//該書是錯(cuò)誤的,先驗(yàn)概率和類條件概率的計(jì)算方法應(yīng)當(dāng)保持一致Nc←CountTokensInClass(D,c)prior[c]←Nc/N// 將類別c下的文檔連接成一個(gè)大字符串textc←ConcatenateTextOfAllDocsInClass(D,c)for each t∈V// 計(jì)算類c下單詞t的出現(xiàn)次數(shù)Tct←CountTokensOfTerm(textc,t)for each t∈V//計(jì)算P(t|c)condprob[t][c]←return V,prior,condprob}ApplyMultiNomialNB(C,V,prior,condprob,d) {// 將文檔d中的單詞抽取出來,允許重復(fù),如果單詞是全新的,在全局單詞表V中都// 沒出現(xiàn)過,則忽略掉W←ExtractTokensFromDoc(V,d)for each c∈Cscore[c]←prior[c]for each t∈Wif t∈Vdscore[c] *= condprob[t][c]return max(score[c])}舉例給定一組分類好了的文本訓(xùn)練數(shù)據(jù),如下:docIddoc類別In c=China?1Chinese Beijing Chineseyes2Chinese Chinese Shanghaiyes3Chinese Macaoyes4Tokyo Japan Chineseno
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1