freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于樸素貝葉斯的文本分類算法-文庫吧資料

2025-06-29 20:15本頁面
  

【正文】 2)=2/5P(Chinese|no)=(1+1)/(1+2)=2/3P(Japan|no)=P(Tokyo| no) =(1+1)/(1+2)=2/3P(Beijing| no)= P(Macao| no)= P(Shanghai | no)=(0+1)/(1+2)=1/3有了以上類條件概率,開始計(jì)算后驗(yàn)概率,P(yes | d)=P(yes)P(Chinese|yes) P(Japan|yes) P(Tokyo|yes)(1P(Beijing|yes)) (1P(Shanghai|yes))(1P(Macao|yes))=3/44/51/51/5(12/5) (12/5)(12/5)=81/15625≈P(no | d)= 1/42/32/32/3(11/3)(11/3)(11/3)=16/729≈因此,這個(gè)文檔不屬于類別china。后驗(yàn)概率的計(jì)算,也有點(diǎn)變化,見下面的偽代碼。有了以上類條件概率,開始計(jì)算后驗(yàn)概率,P(yes | d)=(3/7)31/141/148/11=108/184877≈P(no | d)= (2/9)32/92/93/11=32/216513≈因此,這個(gè)文檔屬于類別china。類yes下總共有8個(gè)單詞,類no下總共有3個(gè)單詞,訓(xùn)練樣本單詞總數(shù)為11,因此P(yes)=8/11, P(no)=3/11。偽代碼//C,類別集合,D,用于訓(xùn)練的文本文件集合TrainMultiNomialNB(C,D) {// 單詞出現(xiàn)多次,只算一個(gè)V←ExtractVocabulary(D)// 單詞可重復(fù)計(jì)算N←CountTokens(D)for each c∈C// 計(jì)算類別c下的單詞總數(shù)// N和Nc的計(jì)算方法和Introduction to Information Retrieval上的不同,個(gè)人認(rèn)為//該書是錯(cuò)誤的,先驗(yàn)概率和類條件概率的計(jì)算方法應(yīng)當(dāng)保持一致Nc←CountTokensInClass(D,c)prior[c]←Nc/N// 將類別c下的文檔連接成一個(gè)大字符串textc←ConcatenateTextOfAllDocsInClass(D,c)for each t∈V// 計(jì)算類c下單詞t的出現(xiàn)次數(shù)Tct←CountTokensOfTerm(textc,t)for each t∈V//計(jì)算P(t|c)condprob[t][c]←return V,prior,condprob}ApplyMultiNomialNB(C,V,prior,condprob,d) {// 將文檔d中的單詞抽取出來,允許重復(fù),如果單詞是全新的,在全局單詞表V中都// 沒出現(xiàn)過,則忽略掉W←ExtractTokensFromDoc(V,d)for each c∈Cscore[c]←prior[c]for each t∈Wif t∈Vdscore[c] *= condprob[t][c]return max(score[c])}舉例給定一組分類好了的文本訓(xùn)練數(shù)據(jù),如下:docIddoc類別In c=China?1Chinese Beijing Chineseyes2Chinese Chinese Shanghaiyes3Chinese Macaoyes4Tokyo Japan Chineseno給定一個(gè)新樣本Chinese Chinese Chinese Tokyo Japan,對(duì)其進(jìn)行分類。在這里,m=|V|, p=1/|V|。樸素貝葉斯分類器是一種有監(jiān)督學(xué)習(xí),常見有兩種模型,多項(xiàng)式模型(multinomial model)和伯努利模型(Bernoulli model)。例如:d,c={Beijing joins the World Trade Organization, China}對(duì)于這個(gè)只有一句話的文檔,我們把它歸類到 China,即打上china標(biāo)簽。顯然,文檔向量空間是一個(gè)高維度空間。第2章 樸素貝葉斯文本分類算法現(xiàn)在開始進(jìn)入本文的主旨部分:如何將貝葉斯分類器應(yīng)用到文本分類上來。如果沒有訓(xùn)練集(即n=0),則P(xi|yj)=p, 因此p可以看作是在類yj的樣本中觀察屬性值xi的先驗(yàn)概率。簡單的使用樣本比例來估計(jì)類條件概率的方法太脆弱了,尤其是當(dāng)訓(xùn)練樣本少而屬性數(shù)目又很大時(shí)。如果有一個(gè)屬性的類條件概率為0,則整個(gè)類的后驗(yàn)概率就等于0,我們可以直接得到后驗(yàn)概率P(Yes | x1)= P(No | x1)=0,這時(shí)二者相等,無法分類。條件概率的m估計(jì)假設(shè)有來了一個(gè)新樣本 x1= (Outlook = Cloudy,Temprature = Cool,Humidity = High,Wind = Strong),要求對(duì)其分類。因?yàn)橛?個(gè)樣本屬于Yes,5個(gè)樣本屬于No,所以P(Yes)=9/14, P(No)=5/14。我們需要利用訓(xùn)練數(shù)據(jù)計(jì)算后驗(yàn)概率P(Yes|x)和P(No|x),如果P(Yes|x)P(No|x),那么新實(shí)例分類為Yes,否則為No。貝葉斯分類器舉例假設(shè)給定了如下訓(xùn)練樣本數(shù)據(jù),我們學(xué)習(xí)的目標(biāo)是根據(jù)給定的天氣狀況判斷你對(duì)PlayTennis這個(gè)請(qǐng)求的回答是Yes還是No。估計(jì)分類屬性的條件概率P(xi|Y=y)怎么計(jì)算呢?它一般根據(jù)類別y下包含屬性xi的實(shí)例的比例來估計(jì)。樸素貝葉斯如何工作有了條件獨(dú)立假設(shè),就不必計(jì)算X和Y的每一種組合的類條件概率,只需對(duì)給定的Y,計(jì)算每個(gè)xi的條件概率。一般各個(gè)詞語之間肯定不是相互獨(dú)立的,有一定的上下文聯(lián)系。條件獨(dú)立假設(shè)可以形式化的表達(dá)如下:其中每個(gè)訓(xùn)練樣本可用一個(gè)屬性向量X=(x1,x2,x3,…,xn)表示,各個(gè)屬性之間條件獨(dú)立。一般地,對(duì)類條件概率P(X|Y)的估計(jì),有樸素貝葉斯分類器和貝葉斯信念網(wǎng)絡(luò)兩種方法,
點(diǎn)擊復(fù)制文檔內(nèi)容
環(huán)評(píng)公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1