freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

文本分類中的特征提取和分類算法綜述-預覽頁

2025-05-09 08:06 上一頁面

下一頁面
 

【正文】 自動分類的兩大技術(shù)基礎(chǔ),在組織和管理海量文本信息技術(shù)領(lǐng)域中文本分類是一種非常有效的技術(shù)手段[1]。特征降維是文本分類過程中的一個重要環(huán)節(jié)。 幾種經(jīng)典的特征提取方法 文檔頻率(DF)文檔頻率是指在訓練文檔集中某詞條出現(xiàn)過的文檔總數(shù)[3]。是一種最簡單的詞約簡技術(shù),常用于大規(guī)模的語料特征選擇中。信息增益法的缺點是,它考慮了特征未發(fā)生的情況,盡管特征不出現(xiàn)的情況也可能對文本分類的判別有積極作用,但這種積極作用往往要遠小于考慮這種情況時對文本分類帶來的干擾。互信息值較高的特征詞通常在某個類別中出現(xiàn)的概率高,而在其他文本類別中出現(xiàn)的概率低,也就更有可能被選作為文本類別的特征。當特征詞與文本類別相互獨立時,此時特征不含有任何與文本類別有關(guān)的鑒別信息。 (式18)針對TFIDF算法的歸一化計算公式為: (式19) 文本分類方法文本分類方法主要分為兩大類:基于規(guī)則的分類方法和基于統(tǒng)計的分類方法。因其簡單、穩(wěn)定、有效的特點,被廣泛應用于模式識別系統(tǒng)中。當兩個文本越相似時,的值越大。 樸素貝葉斯算法樸素貝葉斯算法[7]可應用到大規(guī)模文本集合中,具有方法簡單、速度快、分類準確率高等優(yōu)點。那么,類別的先驗概率為: (式23)其中,表示屬于類別的文本數(shù)目,表示訓練集的文本總數(shù)。 支持向量機(SVM)支持向量機SVM算法是一種基于統(tǒng)計學理論的機器學習方法。其中,HH2是指在樣本集合中平行于H并且過離H最近的點的直線。大量實驗結(jié)果表明,支持向量機的文本分類效果明顯優(yōu)于其它的文本分類算法[11]。具體的處理流程如下:(1) 將語料庫中的文本進行預處理(去停頓詞、虛詞等處理)后,形成原始特征集和;(2) 在文本預處理模塊處理的結(jié)果的基礎(chǔ)上,循環(huán)讀取每個特征詞條,獲得其相關(guān)的詞頻以及文檔頻率等信息。因此,需通過特征降維實現(xiàn)對原始特征集的空間降維處理,以便提高文本分類系統(tǒng)的工作效率。統(tǒng)計結(jié)果如下: 出現(xiàn)次數(shù)大于等于1次的詞有87554個 出現(xiàn)次數(shù)大于等于2次的詞有49352個 出現(xiàn)次數(shù)大于等于3次的詞有36456個 出現(xiàn)次數(shù)大于等于4次的詞有30095個保留所有詞作為特征詞 共計87554個選取出現(xiàn)次數(shù)大于等于4次的詞作為特征詞共計30095個 文本分類模塊(1)樸素貝葉斯分類器樸素貝葉斯分類器有兩種模型 :1) 多項式模型(以單詞為粒度)類條件概率P(tk|c)=(類c下單詞tk在各個文檔中出現(xiàn)過的次數(shù)之和+1)/ (類c下單詞總數(shù)+訓練樣本中不重復特征詞總數(shù))先驗概率P(c)=類c下的單詞總數(shù)/整個訓練樣本的單詞總數(shù) 2) 伯努利模型(以文件為粒度)類條件概率P(tk|c)=(類c下包含單詞tk的文件數(shù)+1)/(類c下單詞總數(shù)+2)先驗概率P(c)=類c下文件總數(shù)/整個訓練樣本的文件總數(shù) 由于多項式模型分類準確率較高,故本文的樸素貝葉斯分類器采用多項式模型。其中,分類器主類如圖3所示圖3:樸素貝葉斯分類器主類Java代碼注解:1)計算概率用到了BigDecimal類實現(xiàn)任意精度計算;2)用交叉驗證法做十次分類實驗,對準確率取平均值;3)根據(jù)正確類目文件和分類結(jié)果文計算混淆矩陣并且輸出;4)MapString,Double cateWordsProb key為“類目_單詞”, value為該類目下該單詞的出現(xiàn)次數(shù),避免重復計算。 KNN算法的分類結(jié)果(混淆矩陣)如圖7所示:圖7:KNN分類器的分類結(jié)果表示 實驗結(jié)果分析(1)貝葉斯分類結(jié)果與分析由不同的特征提取策略,可得貝葉斯分類器結(jié)果如下:方法一:取所有詞作為特征詞,共87554個。(2)KNN分類結(jié)果與分析由于KNN分類算法的復雜度較高,若選取所有詞作為特征詞進行分類實驗,則所需時間較長,為了適當提高分類效率,考慮提取出現(xiàn)次數(shù)不小于4次的詞作為特征詞,分類結(jié)果如下: 取出現(xiàn)次數(shù)大于等于4次的詞共計30095個作為特征詞: %,用時1h55min,其中有3次實驗準確率超過80%。最后通過采用Newsgroups18828數(shù)據(jù)源以及java軟件環(huán)境搭建文本自動分類的實驗平臺,證明了文檔頻率(DF)和TFIDF特征提取方法的有效性,并對樸素貝葉斯分類算法和KNN分類算法的實驗結(jié)果進行比較,得出結(jié)論:在分類準確率方面,KNN算法更優(yōu);在分類速度方面,樸素貝葉斯算法更
點擊復制文檔內(nèi)容
公司管理相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1