freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

基于樸素貝葉斯的文本分類算法-資料下載頁

2025-06-23 20:15本頁面
  

【正文】 階段,我們都不再需要文本語料庫了?;镜目蚣艽a都在NaiveBayesClassifier中,MultiNomialNB和BernoulliNB都只是重新實現(xiàn)(override)了/** 計算先驗概率P(c). */protectedvoidcalculatePc() {}/** 計算類條件概率P(x|c). */protectedvoidcalculatePxc() {}/*** 計算文本屬性向量X在類Cj下的后驗概率P(Cj|X).**@paramx* 文本屬性向量*@paramcj* 給定的類別*@return后驗概率*/protecteddoublecalcProd(finalString[] x,finalintcj) {return0。}這三個函數(shù)。訓練函數(shù)如下:publicfinalvoidtrain(String intermediateData, String modelFile) {// 加載中間數(shù)據(jù)文件loadData(intermediateData)。model =newTrainnedModel()。 = 。 = 。// 開始訓練calculatePc()。calculatePxc()。db =null。try{// 用序列化,將訓練得到的結(jié)果存放到模型文件中ObjectOutputStream out =newObjectOutputStream(newFileOutputStream(modelFile))。(model)。()。}catch(IOException e) {()。}}我們使用命令:MultiNomialNB –t d:\ d:\開始訓練。有了模型文件,就可以用它來進行分類了??梢允褂妹頜ultiNomialNB d:\ d:\ gbk。還可以將當初訓練出這個模型文件的文本庫,進行分類,看看正確率有多少,即“吃自己的狗食”,命令行如下MultiNomialNB r d:\reduced\ gbk d:\分類函數(shù)如下:/*** 對給定的文本進行分類.**@paramtext* 給定的文本*@return分類結(jié)果*/publicfinalString classify(finalString text) {String[] terms =null。// 中文分詞處理(分詞后結(jié)果可能還包含有停用詞)terms = (text, ” “).split(” “)。// 去掉停用詞,以免影響分類terms = (terms)。doubleprobility = 。// 分類結(jié)果ListClassifyResult crs =newArrayListClassifyResult()。for(inti = 0。 i 。 i++) {// 計算給定的文本屬性向量terms在給定的分類Ci中的分類條件概率probility = calcProd(terms, i)。// 保存分類結(jié)果ClassifyResult cr =newClassifyResult()。 = [i]。 // 分類 = probility。 // 關鍵字在分類的條件概率(“In process….”)。([i] + “:” + probility)。(cr)。}// 找出最大的元素ClassifyResult maxElem = (ClassifyResult) (crs,newComparator() {publicintpare(finalObject o1,finalObject o2) {finalClassifyResult m1 = (ClassifyResult) o1。finalClassifyResult m2 = (ClassifyResult) o2。finaldoubleret = – 。if(ret 0) {return1。}else{return1。}}})。return}測試正確率的函數(shù)getCorrectRate(),核心代碼就是對每個文本文件調(diào)用classify(),將得到的類別和原始的類別比較,經(jīng)過統(tǒng)計后就可以得到百分比。更多細節(jié)請讀者閱讀源代碼。參考文獻[1] Christopher D. Manning, Prabhakar Raghavan, Hinrich Sch252。tze,Introduction to Information Retrieval, Cambridge University Press, 2008, chapter 13,Text classification and Naive Bayes.[2]PangNing Tan, Michael Steinbach, Vipin Kumar,《數(shù)據(jù)挖掘?qū)д摗?,北京:人民郵電出版社,2007,第140~145頁。[2] 石志偉, 吳功宜, “基于樸素貝葉斯分類器的文本分類算法”, 第一屆全國信息檢索與內(nèi)容安全學術會議,2004[3] 洞庭散人,“基于樸素貝葉斯分類器的文本分類算法(上)”,“基于樸素貝葉斯分類器的文本分類算法(下)”,2008[4]DL88250, “樸素貝葉斯中文文本分類器的研究與實現(xiàn)(1)”,“樸素貝葉斯中文文本分類器的研究與實現(xiàn)(2)”,2008
點擊復制文檔內(nèi)容
環(huán)評公示相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1