freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于樸素貝葉斯的文本分類算法(編輯修改稿)

2025-07-20 20:15 本頁面
 

【文章內(nèi)容簡介】 |V|則表示訓(xùn)練樣本包含多少種單詞。在這里,m=|V|, p=1/|V|。P(tk|c)可以看作是單詞tk在證明d屬于類c上提供了多大的證據(jù),而P(c)則可以認(rèn)為是類別c在整體上占多大比例(有多大可能性)。偽代碼//C,類別集合,D,用于訓(xùn)練的文本文件集合TrainMultiNomialNB(C,D) {// 單詞出現(xiàn)多次,只算一個V←ExtractVocabulary(D)// 單詞可重復(fù)計算N←CountTokens(D)for each c∈C// 計算類別c下的單詞總數(shù)// N和Nc的計算方法和Introduction to Information Retrieval上的不同,個人認(rèn)為//該書是錯誤的,先驗概率和類條件概率的計算方法應(yīng)當(dāng)保持一致Nc←CountTokensInClass(D,c)prior[c]←Nc/N// 將類別c下的文檔連接成一個大字符串textc←ConcatenateTextOfAllDocsInClass(D,c)for each t∈V// 計算類c下單詞t的出現(xiàn)次數(shù)Tct←CountTokensOfTerm(textc,t)for each t∈V//計算P(t|c)condprob[t][c]←return V,prior,condprob}ApplyMultiNomialNB(C,V,prior,condprob,d) {// 將文檔d中的單詞抽取出來,允許重復(fù),如果單詞是全新的,在全局單詞表V中都// 沒出現(xiàn)過,則忽略掉W←ExtractTokensFromDoc(V,d)for each c∈Cscore[c]←prior[c]for each t∈Wif t∈Vdscore[c] *= condprob[t][c]return max(score[c])}舉例給定一組分類好了的文本訓(xùn)練數(shù)據(jù),如下:docIddoc類別In c=China?1Chinese Beijing Chineseyes2Chinese Chinese Shanghaiyes3Chinese Macaoyes4Tokyo Japan Chineseno給定一個新樣本Chinese Chinese Chinese Tokyo Japan,對其進(jìn)行分類。該文本用屬性向量表示為d=(Chinese, Chinese, Chinese, Tokyo, Japan),類別集合為Y={yes, no}。類yes下總共有8個單詞,類no下總共有3個單詞,訓(xùn)練樣本單詞總數(shù)為11,因此P(yes)=8/11, P(no)=3/11。類條件概率計算如下:P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14P(Chinese|no)=(1+1)/(3+6)=2/9P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9分母中的8,是指yes類別下textc的長度,也即訓(xùn)練樣本的單詞總數(shù),6是指訓(xùn)練樣本有Chinese,Beijing,Shanghai, Macao, Tokyo, Japan 共6個單詞,3是指no類下共有3個單詞。有了以上類條件概率,開始計算后驗概率,P(yes | d)=(3/7)31/141/148/11=108/184877≈P(no | d)= (2/9)32/92/93/11=32/216513≈因此,這個文檔屬于類別china?;驹鞵(c)= 類c下文件總數(shù)/整個訓(xùn)練樣本的文件總數(shù)P(tk|c)=(類c下包含單詞tk的文件數(shù)+1)/(類c下單詞總數(shù)+2)在這里,m=2, p=1/2。后驗概率的計算,也有點變化,見下面的偽代碼。偽代碼//C,類別集合,D,用于訓(xùn)練的文本文件集合TrainBernoulliNB(C, D) {// 單詞出現(xiàn)多次,只算一個V←ExtractVocabulary(D)// 計算文件總數(shù)N←CountDocs(D)for each c∈C// 計算類別c下的文件總數(shù)Nc←CountDocsInClass(D,c)prior[c]←Nc/Nfor each t∈V// 計算類c下包含單詞t的文件數(shù)Nct←CountDocsInClassContainingTerm(D,c,t)//計算P(t|c)condprob[t][c]←(Nct+1)/(Nct+2)return V,prior,condprob}ApplyBernoulliNB(C,V,prior,condprob,d) {// 將文檔d中單詞表抽取出來,如果單詞是全新的,在全局單詞表V中都沒出現(xiàn)過,// 則舍棄Vd←ExtractTermsFromDoc(V,d)for each c∈Cscore[c]←prior[c]for each t∈Vif t∈Vdscore[c] *= condprob[t][c]elsescore[c] *= (1condprob[t][c])return max(score[c])}舉例還是使用前面例子中的數(shù)據(jù),不過模型換成了使用伯努利模型。類yes下總共有3個文件,類no下有1個文件,訓(xùn)練樣本文件總數(shù)為11,因此P(yes)=3/4, P(Chinese | yes)=(3+1)/(3+2)=4/5P(Japan | yes)=P(Tokyo | yes)=(0+1)/(3+2)=1/5P(Beijing | yes)= P(Macao|yes)= P(Shanghai |yes)=(1+1)/(3+2)=2/5P(Chinese|no)=(1+1)/(1+2)=2/3P(Japan|no)=P(Tokyo| no) =(1+1)/(1+2)=2/3P(Beijing|
點擊復(fù)制文檔內(nèi)容
環(huán)評公示相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1