freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

文本分類中的特征提取和分類算法綜述(存儲版)

2025-05-15 08:06上一頁面

下一頁面
  

【正文】 比較,可知:在分類準確率方面,KNN算法更優(yōu);在分類速度方面,樸素貝葉斯算法更優(yōu)。參考文獻[1]Mark Graven,Dan Dipasquo,Daven Freitag Learning to Construct Knowledge Bases from the World Wide Web[J]Artificial Intelligence 2000,118(12):69113[2][D].吉林:[3]Sebastiani Learning In Automated Text Categorization[C].ACM Computing Surveys,2002,34(1):147[4]劉健,[J].,44(10):135137[5]范小麗,[J].,46(34):123125[6][D].重慶:[7]. Liand . Jain Classification of text document[J]The puter Joural,141(8):537546,1998[8]臺德藝,基于特征權(quán)重算法的文本分類研究[D].合肥:合肥工業(yè)大學(xué),2007[9]張小莉,基于信息增益的中文特征提取算法研究[D].重慶:重慶大學(xué),2008[10]蔣健,文本分類中特征提取和特征加權(quán)方法研究[D].重慶:重慶大學(xué),2010[11],Text catagorization with support vector machines:learning with many relevant features in proceedings of ECML98 10th European Conference on Machine ,1998第12頁共12頁。結(jié)論:樸素貝葉斯算法不必去除出現(xiàn)次數(shù)很低的詞,因為出現(xiàn)次數(shù)很低的詞的IDF比較大,去除后分類準確率下降,而計算時間并沒有顯著減少。 測試評估模塊(1)樸素貝葉斯算法實現(xiàn)在java編程實現(xiàn)中,包含兩大類:貝葉斯算法類()與測試集與訓(xùn)練集創(chuàng)建類()。具體步驟如下:1) 英文詞法分析,去除數(shù)字、連字符、標點符號、特殊字符,所有大寫字母轉(zhuǎn)換成小寫,可以用正則表達式 String res[]=(“[^azAZ]”);2) 去停用詞,過濾對分類無價值的詞;3) 詞根還原stemming,基于Porter算法.2 特征降維模塊文本預(yù)處理將語料庫中出現(xiàn)的絕大部分詞條作為文檔的特征項,形成特征向量空間,致使原始特征空間的維數(shù)非常大,勢必會增加機器學(xué)習(xí)的時間和空間的復(fù)雜度。同時,稀疏、高維的數(shù)據(jù)對SVM算法基本沒影響,因此能夠更好地體現(xiàn)文本數(shù)據(jù)的類別特征,相對于其它分類算法,SVM算法的文本分類準確率較高。因此,上式簡化為: (式27)結(jié)合式24和27,可得 (式28)利用式28計算出的每個類別對于文檔的后驗概率值,然后將文檔判定到概率值最大的那個文本類別中去。在分類中,K最近鄰算法的時間復(fù)雜度與文本訓(xùn)練集合的文檔總數(shù)成正比,該算法的時間復(fù)雜度較高,更適用于文本訓(xùn)練集合規(guī)模較小的文本分類系統(tǒng)。 K最近鄰算法K最近鄰算法(kNN),是一種基于向量空間模型的類比學(xué)習(xí)方法。對于多類問題,分別計算對于每個類別的卡方統(tǒng)計值,再用下面兩種公式計算特征對于整個樣本的卡方統(tǒng)計值,分別進行檢驗: (式16) (式17)其中,為類別數(shù),從原始特征空間中移除低于特定閾值的特征,保留高于該閾值的特征作為文檔表示的特征。該算法考慮了特征在文檔中出現(xiàn)前后的信息熵之差,公式定義為[3]: (式12)其中,表示語料庫中文檔類別總數(shù);表示類文檔在語料庫中出現(xiàn)的概率;表示包含特征的文檔的概率;表示不包含特征的文檔的概率;表示包含特征的文檔屬于類別的概率;表示包含特征的文檔不屬于類別的概率。本文主要采用NewsGroups語料庫中的20news18828數(shù)據(jù)源,使用kNN和Native Bayes分類算法對驗證幾種已有的經(jīng)典特征選擇方法,并將其分類結(jié)果進行比較,揭示特征提取算法對分類性能的影響。文本分類的主要功能就是對相關(guān)的文檔集合進行類別的標簽與分配,其主要依據(jù)是在文本訓(xùn)練過程中將那些
點擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1