【正文】
概率;表示屬于類(lèi)別的概率。 互信息(MI)互信息衡量的是某個(gè)特征詞和特征類(lèi)別之間的統(tǒng)計(jì)相關(guān)性。該算法考慮了特征在文檔中出現(xiàn)前后的信息熵之差,公式定義為[3]: (式12)其中,表示語(yǔ)料庫(kù)中文檔類(lèi)別總數(shù);表示類(lèi)文檔在語(yǔ)料庫(kù)中出現(xiàn)的概率;表示包含特征的文檔的概率;表示不包含特征的文檔的概率;表示包含特征的文檔屬于類(lèi)別的概率;表示包含特征的文檔不屬于類(lèi)別的概率。但其缺點(diǎn)是如果某一稀有詞條主要出現(xiàn)在某類(lèi)訓(xùn)練集中,能夠很好地反應(yīng)該類(lèi)別的特征,但因低于某個(gè)設(shè)定的閾值而直接濾除掉,因此就可能影響文本分類(lèi)器的分類(lèi)精度。 (式11)其中,表示詞條在文檔中出現(xiàn)的次數(shù),表示文本的總詞匯數(shù)。文檔頻率特征提取方法的基本思想是:首先根據(jù)具體情況設(shè)定最小和最大的文檔頻率閾值,接著計(jì)算每個(gè)特征詞的文檔頻率。本文主要采用NewsGroups語(yǔ)料庫(kù)中的20news18828數(shù)據(jù)源,使用kNN和Native Bayes分類(lèi)算法對(duì)驗(yàn)證幾種已有的經(jīng)典特征選擇方法,并將其分類(lèi)結(jié)果進(jìn)行比較,揭示特征提取算法對(duì)分類(lèi)性能的影響。特征提取和特征抽取是特征降維技術(shù)的兩大類(lèi),相對(duì)于特征抽取方法,特征提取方法因其快速、簡(jiǎn)單、便捷的優(yōu)點(diǎn),在文本分類(lèi)領(lǐng)域中得到廣泛的應(yīng)用。然而,面對(duì)高維的文本特征,如果不進(jìn)行降維處理,則會(huì)造成“維度災(zāi)難”,從而大大影響分類(lèi)效果。所以,對(duì)文本自動(dòng)分類(lèi)技術(shù)的深入研究有著非常重要的理論意義與實(shí)用價(jià)值。文本分類(lèi)的主要功能就是對(duì)相關(guān)的文檔集合進(jìn)行類(lèi)別的標(biāo)簽與分配,其主要依據(jù)是在文本訓(xùn)練過(guò)程中將那些已經(jīng)被提前分配合理的作為類(lèi)別標(biāo)簽的訓(xùn)練文檔集和。采用kNN和Naive Bayes分類(lèi)算法對(duì)已有的經(jīng)典征選擇方法的性能作了測(cè)試,并將分類(lèi)結(jié)果進(jìn)行對(duì)比,使用查全率、查準(zhǔn)率、揭示特征選擇方法的選擇對(duì)分類(lèi)速度及分類(lèi)精度的影響。文本分類(lèi)中的特征提取和分類(lèi)算法綜述摘要:文本分類(lèi)是信息檢索和過(guò)濾過(guò)程中的一項(xiàng)關(guān)鍵技術(shù),其任務(wù)是對(duì)未知類(lèi)別的文檔進(jìn)行自動(dòng)處理,判別它們所屬于的預(yù)定義類(lèi)別集合中的類(lèi)別。本文主要對(duì)文本分類(lèi)中所涉及的特征選擇和分類(lèi)算法進(jìn)行了論述,并通過(guò)實(shí)驗(yàn)的方法進(jìn)行了深入的研究。關(guān)鍵字:文本分類(lèi) 特征選擇 分類(lèi)算法A Review For Feature Selection And Classification Algorithm In Text CategorizationAbstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a parison. The results have been made a prehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed.Keywords:Text categorization Feature selection Classification algori