freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

文本分類中的特征提取和分類算法綜述-文庫(kù)吧資料

2025-04-21 08:06本頁(yè)面
  

【正文】 把文檔表示為文本特征向量的表示形式,經(jīng)過(guò)分類模塊處理過(guò)程得到最終的文本分類結(jié)果;(4) 最后通過(guò)測(cè)試評(píng)估模塊,對(duì)文本分類結(jié)果進(jìn)行分析與比較,驗(yàn)證采用不同的特征提取方法進(jìn)行特征降維,對(duì)分類結(jié)果的影響。整個(gè)系統(tǒng)分為四個(gè)模塊:文本預(yù)處理模塊、特征降維模塊、分類模塊及測(cè)試評(píng)估模塊,系統(tǒng)框架如圖2所示。分類系統(tǒng)實(shí)現(xiàn)與結(jié)果分析 文本分類系統(tǒng)的整體設(shè)計(jì)本文使用Newsgroups18828數(shù)據(jù)源和java軟件設(shè)計(jì)平臺(tái)做分類分類實(shí)驗(yàn),實(shí)現(xiàn)了文本訓(xùn)練與測(cè)試前的文本預(yù)處理等相關(guān)工作,通過(guò)利用java軟件編程,生成了樸素貝葉斯分類器和KNN分類器。同時(shí),稀疏、高維的數(shù)據(jù)對(duì)SVM算法基本沒(méi)影響,因此能夠更好地體現(xiàn)文本數(shù)據(jù)的類別特征,相對(duì)于其它分類算法,SVM算法的文本分類準(zhǔn)確率較高。支持向量機(jī)的基本思想是:首先將樣本輸入空間,通過(guò)某種非線性變換(通過(guò)定義適當(dāng)?shù)膬?nèi)積實(shí)現(xiàn))轉(zhuǎn)換到高維空間中去,并且在高維空間線性可分的情況下通過(guò)計(jì)算得到文本最優(yōu)分類平面[10]。SVM算法是依據(jù)線性且可分情況下的最優(yōu)分類平面提出的,如圖所示: 圖1 最優(yōu)分類超平面和支持向量圖1:SVM中的分類平面如圖1所示,樣本集合能夠被平面H完全區(qū)分開(kāi),同時(shí)使直線HH2間的距離最大。該理論的基本思想是在準(zhǔn)確性和機(jī)器容量之間,對(duì)于給定的具有有限數(shù)量訓(xùn)練文本集的學(xué)習(xí)任務(wù)進(jìn)行折衷,以期望得到最佳的應(yīng)用性能[8]。因此,上式簡(jiǎn)化為: (式27)結(jié)合式24和27,可得 (式28)利用式28計(jì)算出的每個(gè)類別對(duì)于文檔的后驗(yàn)概率值,然后將文檔判定到概率值最大的那個(gè)文本類別中去。設(shè)表示文本特征集合中的第個(gè)特征詞,表示特征詞在所有屬于類別的文檔集中出現(xiàn)的概率。假設(shè)訓(xùn)練集中存在個(gè)類別,類別集合表示為,文本特征詞集合表示為,各個(gè)文本特征對(duì)給定文本類別的影響是相互獨(dú)立的。理論上,由于樸素貝葉斯算法所基于的假設(shè)太過(guò)于嚴(yán)格,故而其分類效果要普遍優(yōu)于其他分類算法,但是在實(shí)際應(yīng)用中并不能完全符合理論中的假設(shè)條件,則算法的準(zhǔn)確率會(huì)有一定程度的下降。在分類中,K最近鄰算法的時(shí)間復(fù)雜度與文本訓(xùn)練集合的文檔總數(shù)成正比,該算法的時(shí)間復(fù)雜度較高,更適用于文本訓(xùn)練集合規(guī)模較小的文本分類系統(tǒng)。通過(guò)上述計(jì)算公式,從預(yù)先確定好類別的文檔集合中選取前K個(gè)與待分類文檔最接近的樣本。在空間模型中,通過(guò)計(jì)算兩個(gè)文本向量之間夾角的余弦值來(lái)表示兩個(gè)文檔和之間的文本相似度,計(jì)算公式如下: (式21)其中,表示第個(gè)文檔的第個(gè)屬性值。使用kNN算法分類時(shí),首先將待分類文檔通過(guò)特征權(quán)重計(jì)算表示成空間向量形式的特征集合;然后,根據(jù)相應(yīng)的準(zhǔn)則將特征向量與預(yù)先確定好類別的樣本權(quán)重向量進(jìn)行相關(guān)的計(jì)算,得到前K個(gè)相似度較高的文本;最后,判定該文檔的文本類別屬性。 K最近鄰算法K最近鄰算法(kNN),是一種基于向量空間模型的類比學(xué)習(xí)方法。其中基于規(guī)則的分類方法包括:決策樹(shù)、關(guān)聯(lián)規(guī)則和粗糙集等;基于統(tǒng)計(jì)的分類方法包括:K最近鄰算法、樸素貝葉斯、支持向量機(jī)等算法。 TFIDF詞匯頻率: ,其中,表示文本的總詞匯數(shù),表示詞在文本中出現(xiàn)的次數(shù),的值越大,詞與文本的相關(guān)性就越強(qiáng);逆文檔頻率: 其中,表示包含詞的文檔數(shù),表示語(yǔ)料庫(kù)中的總文檔數(shù)目,值越大,該詞與文檔的相關(guān)性越低。反之,的值越大,與的統(tǒng)計(jì)相關(guān)性越強(qiáng)。對(duì)于多類問(wèn)題,分別計(jì)算對(duì)于每個(gè)類別的卡方統(tǒng)計(jì)值,再用下面兩種公式計(jì)算特征對(duì)于整個(gè)樣本的卡方統(tǒng)計(jì)值,分別進(jìn)行檢驗(yàn): (式16) (式17)其中,為類別數(shù),從原始特征空間中移除低于特定閾值的特征,保留高于該閾值的特征作為文檔表示的特征。在個(gè)類別的文本訓(xùn)練集上特征項(xiàng)的互信息值公式定義如下[5]: (式14) 統(tǒng)計(jì)(CHI)統(tǒng)計(jì)用來(lái)衡量特征詞條和類別之間的統(tǒng)計(jì)相關(guān)性。特征詞和類別的互信息公式定義如下[4]: (式13) 其中,為類別數(shù);表示類別的概率;表示包含特征且屬于類別的概率;表示特征的
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1