【文章內(nèi)容簡(jiǎn)介】
? 模型: 200M數(shù)據(jù)的 2/3用于構(gòu)建分類器模型,剩余 1/3作開放測(cè)試集進(jìn)行分類測(cè)試。 SVM使用線性核函數(shù)。 ? 評(píng)測(cè)標(biāo)準(zhǔn):微平均準(zhǔn)確率、宏平均準(zhǔn)確率、宏平均召回率、宏平均 F1值和時(shí)間,其中時(shí)間是包括訓(xùn)練和分類的總時(shí)間 實(shí)驗(yàn)結(jié)果 1:分類器的比較 (1) 分類方法 微平均準(zhǔn)確率 (%) 宏平均準(zhǔn)確率(%) 宏平均召回率(%) 宏平均 F1(%) 時(shí)間( s) SVMmultic SVMTorch RainbowSVM MSVMlight 實(shí)驗(yàn)結(jié)果 1:分類器的比較 (2) 性能曲線圖 時(shí)間柱狀圖 0%20%40%60%80%100%micro_p Macro_p Macro_r Macro_F1S V M m u l t i c l a s s S V M T o r c hR a i n b o w S V M M S V M l i g h t050001000015000202302500030000S V M m u l t i c S V M T o r c h R a i n b o w S V M M S V M l i g h t實(shí)驗(yàn) 2:閾值策略的比較( 1) ? 對(duì) WRCut中各類別的權(quán)重值,本文將訓(xùn)練集隨機(jī)劃分為訓(xùn)練 訓(xùn)練集 (占 3/4)和訓(xùn)練 測(cè)試集(占 1/4),從經(jīng)驗(yàn)值出發(fā),在反復(fù)訓(xùn)練的過程中自動(dòng)調(diào)整權(quán)重值。 ? 權(quán)重調(diào)整范圍為 ~,每個(gè)類的權(quán)重分別遞增 ,當(dāng)權(quán)重的增加使得精度下降時(shí),該權(quán)重減 ,取宏觀 F1達(dá)到最大值時(shí)各類別所得權(quán)重,總訓(xùn)練時(shí)間為 ,這個(gè)時(shí)間對(duì)總訓(xùn)練時(shí)間而言是可忽略的。 實(shí)驗(yàn) 2:閾值策略的比較( 2) 類別編號(hào) 類別 權(quán)重值 01 人文與藝術(shù) 03 商業(yè)與經(jīng)濟(jì) 04 娛樂與休閑 05 計(jì)算機(jī)與因特網(wǎng) 07 教育 08 各國(guó)風(fēng)情 10 自然科學(xué) 11 政府與政治 12 社會(huì)科學(xué) 13 醫(yī)療與健康 14 社會(huì)與文化 經(jīng)過學(xué)習(xí)得到的 11個(gè)類別各自的權(quán)重值 實(shí)驗(yàn) 2:閾值策略的比較( 3) RCut策略與 WRCut策略精度比較曲線 80%82%84%86%88%90%92%micro_