freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

文本分類(lèi)中的特征提取和分類(lèi)算法綜述(編輯修改稿)

2025-05-12 08:06 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 度較高的文本;最后,判定該文檔的文本類(lèi)別屬性。在計(jì)算文本相似度時(shí),通常采用向量夾角余弦來(lái)度量。在空間模型中,通過(guò)計(jì)算兩個(gè)文本向量之間夾角的余弦值來(lái)表示兩個(gè)文檔和之間的文本相似度,計(jì)算公式如下: (式21)其中,表示第個(gè)文檔的第個(gè)屬性值。當(dāng)兩個(gè)文本越相似時(shí),的值越大。通過(guò)上述計(jì)算公式,從預(yù)先確定好類(lèi)別的文檔集合中選取前K個(gè)與待分類(lèi)文檔最接近的樣本。對(duì)于待分類(lèi)樣本的K個(gè)近鄰樣本,依次計(jì)算對(duì)每個(gè)類(lèi)別的權(quán)重,計(jì)算公式如下: (式22)其中,表示待分類(lèi)文檔的特征向量,則表示文本類(lèi)別屬性函數(shù),若文檔屬于類(lèi),則該函數(shù)值為1,否則為0.在文本分類(lèi)中,K最近鄰算法的主要過(guò)程是:在文本的訓(xùn)練階段,將文本訓(xùn)練集文檔分別表示成機(jī)器可識(shí)別操作的特征向量的形式;在文本分類(lèi)階段,主要進(jìn)行文本的相似度計(jì)算和權(quán)重值排序。在分類(lèi)中,K最近鄰算法的時(shí)間復(fù)雜度與文本訓(xùn)練集合的文檔總數(shù)成正比,該算法的時(shí)間復(fù)雜度較高,更適用于文本訓(xùn)練集合規(guī)模較小的文本分類(lèi)系統(tǒng)。 樸素貝葉斯算法樸素貝葉斯算法[7]可應(yīng)用到大規(guī)模文本集合中,具有方法簡(jiǎn)單、速度快、分類(lèi)準(zhǔn)確率高等優(yōu)點(diǎn)。理論上,由于樸素貝葉斯算法所基于的假設(shè)太過(guò)于嚴(yán)格,故而其分類(lèi)效果要普遍優(yōu)于其他分類(lèi)算法,但是在實(shí)際應(yīng)用中并不能完全符合理論中的假設(shè)條件,則算法的準(zhǔn)確率會(huì)有一定程度的下降。在類(lèi)別數(shù)目較多或者類(lèi)別之間相關(guān)性較小的情況下,該模型的分類(lèi)性能才能達(dá)到最佳。假設(shè)訓(xùn)練集中存在個(gè)類(lèi)別,類(lèi)別集合表示為,文本特征詞集合表示為,各個(gè)文本特征對(duì)給定文本類(lèi)別的影響是相互獨(dú)立的。那么,類(lèi)別的先驗(yàn)概率為: (式23)其中,表示屬于類(lèi)別的文本數(shù)目,表示訓(xùn)練集的文本總數(shù)。設(shè)表示文本特征集合中的第個(gè)特征詞,表示特征詞在所有屬于類(lèi)別的文檔集中出現(xiàn)的概率。則未知類(lèi)別文本屬于文本類(lèi)別的條件概率為: (式24)根據(jù)貝葉斯定理,文本類(lèi)別的后驗(yàn)概率為: (式25) (式26)其中,表示文本中所有特征詞在整個(gè)文本集合中出現(xiàn)的概率,為常數(shù)。因此,上式簡(jiǎn)化為: (式27)結(jié)合式24和27,可得 (式28)利用式28計(jì)算出的每個(gè)類(lèi)別對(duì)于文檔的后驗(yàn)概率值,然后將文檔判定到概率值最大的那個(gè)文本類(lèi)別中去。 支持向量機(jī)(SVM)支持向量機(jī)SVM算法是一種基于統(tǒng)計(jì)學(xué)理論的機(jī)器學(xué)習(xí)方法。該理論的基本思想是在準(zhǔn)確性和機(jī)器容量之間,對(duì)于給定的具有有限數(shù)量訓(xùn)練文本集的學(xué)習(xí)任務(wù)進(jìn)行折衷,以期望得到最佳的應(yīng)用性能[8]。該算法依據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則,合理地選擇特征集合以及文本類(lèi)別的判定函數(shù),以保證通過(guò)有限實(shí)驗(yàn)條件下所得到的性能良好的文本分類(lèi)器在對(duì)實(shí)際的分類(lèi)中效果仍然良好,最終得到一個(gè)分類(lèi)性能優(yōu)異并具有廣泛應(yīng)用性的學(xué)習(xí)機(jī)[9]。SVM算法是依據(jù)線性且可分情況下的最優(yōu)分類(lèi)平面提出的,如圖所示: 圖1 最優(yōu)分類(lèi)超平面和支持向量圖1:SVM中的分類(lèi)平面如圖1所示,樣本集合能夠被平面H完全區(qū)分開(kāi),同時(shí)使直線HH2間的距離最大。其中,HH2是指在樣本集合中平行于H并且過(guò)離H最近的點(diǎn)的直線。支持向量機(jī)的基本思想是:首先將樣本輸入空間,通過(guò)某種非線性變換(通過(guò)定義適當(dāng)?shù)膬?nèi)積實(shí)現(xiàn))轉(zhuǎn)換到高維空間中去,并且在高維空間線性可分的情況下通過(guò)計(jì)算得到文本最優(yōu)分類(lèi)平面[10]。通常,一個(gè)分類(lèi)面只能對(duì)兩個(gè)類(lèi)別進(jìn)行劃分,而對(duì)于多類(lèi)別的文本分類(lèi)問(wèn)題,就需要構(gòu)造多個(gè)超平面,將每一類(lèi)別和其它的類(lèi)別區(qū)分開(kāi)來(lái)。同時(shí),稀疏、高維的數(shù)據(jù)對(duì)SVM算法基本沒(méi)影響,因此能夠更好地體現(xiàn)文本數(shù)據(jù)的類(lèi)別特征,相對(duì)于其它分類(lèi)算法,SVM算法的文本分類(lèi)準(zhǔn)確率較高。大量實(shí)驗(yàn)結(jié)果表明,支持向量機(jī)的文本分類(lèi)效果明顯優(yōu)于其它的文本分類(lèi)算法[11]。分類(lèi)系統(tǒng)實(shí)現(xiàn)與結(jié)果分析 文本分類(lèi)系統(tǒng)的整體設(shè)計(jì)本文使用Newsgroups18828數(shù)據(jù)源和java軟件設(shè)計(jì)平臺(tái)做分類(lèi)分類(lèi)實(shí)驗(yàn),實(shí)現(xiàn)了文本訓(xùn)練與測(cè)試前的文本預(yù)處理等相關(guān)工作,通過(guò)利用java軟件編程,生成了樸素貝葉斯分類(lèi)器和KNN分類(lèi)器。在面對(duì)大規(guī)模的文本數(shù)據(jù)時(shí),文本預(yù)處理后所得到的特征項(xiàng)數(shù)量巨大,給分類(lèi)器的處理工作打來(lái)很大困難
點(diǎn)擊復(fù)制文檔內(nèi)容
公司管理相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1