freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

基于樸素貝葉斯的文本分類算法-wenkub

2023-07-08 20:15:24 本頁面
 

【正文】 的來歷。條件獨立性給定類標號y,樸素貝葉斯分類器在估計類條件概率時假設屬性之間條件獨立。上面的數(shù)據(jù)可以用以下概率式子表示:P(cancer)=,P(無cancer)=P(陽性|cancer)=,P(陰性|cancer)=P(陽性|無cancer)=,P(陰性|無cancer)=假設現(xiàn)在有一個新病人,化驗測試返回陽性,是否將病人斷定為有癌癥呢?在這里,Y={cancer,無cancer},共兩個類別,這個新病人是一個樣本,他有一個屬性陽性,可以令x=(陽性)。(2)病人無癌癥。根據(jù)貝葉斯公式,后驗概率為在比較不同Y值的后驗概率時,分母P(X)總是常數(shù),因此可以忽略。x的集合記為X,稱為屬性集。一個事物具有很多屬性,把它的眾多屬性看做一個向量,即x=(x1,x2,x3,…,xn),用x這個向量來代表這個事物。乘法公式ve Bayes is easy to implement and fast, so it is widely used. This article introduced the theory of Na239。其中樸素貝葉斯具有容易實現(xiàn),運行速度快的特點,被廣泛使用。本文詳細介紹了樸素貝葉斯的基本原理,討論了兩種常見模型:多項式模型(MM)和伯努利模型(BM),實現(xiàn)了可運行的代碼,并進行了一些數(shù)據(jù)測試。ve Bayes and discussed two popular models: multinomial model(MM) and Bernoulli model(BM) in details, implemented runnable code and performed some data tests.Keywords: na239。P(XYZ)=P(Z|XY)P(Y|X)P(X)全概率公式類別也是有很多種,用集合Y={y1,y2,…ym}表示。一般X和Y的關系是不確定的,你只能在某種程度上說x有多大可能性屬于類y1,比如說x有80%的可能性屬于類y1,這時可以把X和Y看做是隨機變量,P(Y|X)稱為Y的后驗概率(posterior probability),與之相對的,P(Y)稱為Y的先驗概率(prior probability)[2]。先驗概率P(Y)可以通過計算訓練集中屬于每一個類的訓練樣本所占的比例容易地估計。樣本數(shù)據(jù)來自某化驗測試,它也有兩種可能的結果:陽性和陰性。我們可以來計算各個類別的后驗概率:P(cancer | 陽性) = P(陽性 | cancer)p(cancer)=* = P(無cancer | 陽性) =P(陽性 | 無cancer)*p(無cancer)=* = 因此,應該判斷為無癌癥。條件獨立假設可以形式化的表達如下:其中每個訓練樣本可用一個屬性向量X=(x1,x2,x3,…,xn)表示,各個屬性之間條件獨立。樸素貝葉斯如何工作有了條件獨立假設,就不必計算X和Y的每一種組合的類條件概率,只需對給定的Y,計算每個xi的條件概率。貝葉斯分類器舉例假設給定了如下訓練樣本數(shù)據(jù),我們學習的目標是根據(jù)給定的天氣狀況判斷你對PlayTennis這個請求的回答是Yes還是No。因為有9個樣本屬于Yes,5個樣本屬于No,所以P(Yes)=9/14, P(No)=5/14。如果有一個屬性的類條件概率為0,則整個類的后驗概率就等于0,我們可以直接得到后驗概率P(Yes | x1)= P(No | x1)=0,這時二者相等,無法分類。如果沒有訓練集(即n=0),則P(xi|yj)=p, 因此p可以看作是在類yj的樣本中觀察屬性值xi的先驗概率。顯然,文檔向量空間是一個高維度空間。樸素貝葉斯分類器是一種有監(jiān)督學習,常見有兩種模型,多項式模型(multinomial model)和伯努利模型(Bernoulli model)。偽代碼//C,類別集合,D,用于訓練的文本文件集合TrainMultiNomialNB(C,D) {// 單詞出現(xiàn)多次,只算一個V←ExtractVocabulary(D)// 單詞可重復計算N←CountTokens(D)for each c∈C// 計算類別c下的單詞總數(shù)// N和Nc的計算方法和Introduction to Information Retrieval上的不同,個人認為//該書是錯誤的,先驗概率和類條件概率的計算方法應當保持一致Nc←CountTokensInClass(D,c)prior[c]←Nc/N// 將類別c下的文檔連接成一個大字符串textc←ConcatenateTextOfAllDocsInClass(D,c)for each t∈V// 計算類c下單詞t的出現(xiàn)次數(shù)Tct←CountTokensOfTerm(textc,t)for each t∈V//計算P(t|c)condprob[t][c]←return V,prior,condprob}ApplyMultiNomialNB(C,V,prior,condprob,d) {// 將文檔d中的單詞抽取出來,允許重復,如果單詞是全新的,在全局單詞表V中都// 沒出現(xiàn)過,則忽略掉W←ExtractTokensFromDoc(V,d)for each c∈Cscore[c]←prior[c]for each t∈Wif t∈Vdscore[c] *= condprob[t][c]return max(score[c])}舉例給定一組分類好了的文本訓練數(shù)據(jù),如下:docIddoc類別In c=China?1Chinese Beijing Chineseyes2Chinese Chinese Shanghaiyes3Chinese Macaoyes4Tokyo Japan Chineseno
點擊復制文檔內容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1