【正文】
參考文獻[1]Mark Graven,Dan Dipasquo,Daven Freitag Learning to Construct Knowledge Bases from the World Wide Web[J]Artificial Intelligence 2000,118(12):69113[2][D].吉林:[3]Sebastiani Learning In Automated Text Categorization[C].ACM Computing Surveys,2002,34(1):147[4]劉健,[J].,44(10):135137[5]范小麗,[J].,46(34):123125[6][D].重慶:[7]. Liand . Jain Classification of text document[J]The puter Joural,141(8):537546,1998[8]臺德藝,基于特征權(quán)重算法的文本分類研究[D].合肥:合肥工業(yè)大學(xué),2007[9]張小莉,基于信息增益的中文特征提取算法研究[D].重慶:重慶大學(xué),2008[10]蔣健,文本分類中特征提取和特征加權(quán)方法研究[D].重慶:重慶大學(xué),2010[11],Text catagorization with support vector machines:learning with many relevant features in proceedings of ECML98 10th European Conference on Machine ,1998第12頁共12頁。本文存在的不足之處是并未驗證信息增益(IG)、互信息(MI)、分布等特征提取方法在文本分類中的有效性,對上述特征提取方法的對分類結(jié)果的影響也并未做出比較。對特征降維模塊中常用的特征提取方法,如文檔頻率(DF)、信息增益(IG)、互信息(MI)、分布、TFIDF,進行了系統(tǒng)的理論概述;對常用的分類算法(如樸素貝葉斯算法、KNN算法和支持向量(SVM))的原理進行了詳細的描述。(3)兩種分類算法的性能比較在相同的硬件環(huán)境下,貝葉斯分類算法和KNN分類算法經(jīng)比較,可知:在分類準確率方面,KNN算法更優(yōu);在分類速度方面,樸素貝葉斯算法更優(yōu)。結(jié)論:樸素貝葉斯算法不必去除出現(xiàn)次數(shù)很低的詞,因為出現(xiàn)次數(shù)很低的詞的IDF比較大,去除后分類準確率下降,而計算時間并沒有顯著減少。做10次交叉驗證實驗,%,用時23min,第6次實驗準確率超過80%;方法二:取出現(xiàn)次數(shù)大于等于4次的詞作為特征詞,共計30095個。圖6:KNN分類器主類Java代碼注解:1)用TreeMapString,TreeMapString,Double保存測試集和訓(xùn)練集;2)注意要以類目_文件名作為每個文件的key,才能避免同名不同內(nèi)容的文件出現(xiàn);3)注意設(shè)置JM參數(shù),否則會出現(xiàn)JAVA heap溢出錯誤;4)本程序用向量夾角余弦計算相似度。樸素貝葉斯分類器分類結(jié)果(混淆矩陣)如圖4所示:圖4:貝葉斯分類法分類結(jié)果的混淆矩陣表示(2)KNN算法實現(xiàn)在java編程實現(xiàn)中,包含兩大類:文檔向量計算類()和KNN算法實現(xiàn)類()。 測試評估模塊(1)樸素貝葉斯算法實現(xiàn)在java編程實現(xiàn)中,包含兩大類:貝葉斯算法類()與測試集與訓(xùn)練集創(chuàng)建類()。(2)KNN分類器KNN算法描述:1) 文本向量化表示,由特征詞的TF*IDF值計算;2) 在新文本到達后,根據(jù)特征詞確定新文本的向量;3) 在訓(xùn)練文本集中選出與新文本最相似的k個文本,相似度用向量夾角余弦度量,計算公式為:一般采用先設(shè)定一個初始k值,然后根據(jù)實驗測試結(jié)果調(diào)整k值,本文中取k=20。策略一:可保留所有詞作為特征詞;策略二:選取出現(xiàn)次數(shù)大于等于4次的詞作為特征詞。該模塊將原始特征集合中的特征詞條按照特征提取方法進行計算評價,最后選出前N個(預(yù)定數(shù)目)個權(quán)重值最大的特征詞構(gòu)成特征集合。具體步驟如下:1) 英文詞法分析,去除數(shù)字、連字符、標(biāo)點符號、特殊字符,所有大寫字母轉(zhuǎn)換成小寫,可以用正則表達式 String res[]=(“[^azAZ]”);2) 去停用詞,過濾對分類無價值的詞;3) 詞根還原stemming,基于Porter算法.2 特征降維模塊文本預(yù)處理將語料庫中出現(xiàn)的絕大部分詞條作為文檔的特征項,形成特征向量空間,致使原始特征空間的維數(shù)非常大,勢必會增加機器學(xué)習(xí)的時間和空間的復(fù)雜度。然后統(tǒng)計特征提取方法所需要的參數(shù),利用特征提取方法進行計算,選出預(yù)定數(shù)目的最能代表各個類別特征的最優(yōu)特征集和,經(jīng)過權(quán)重計算,區(qū)別每個特征詞條所代表的文本類別信息大小并存儲;(3)