【導(dǎo)讀】分類系統(tǒng)模塊結(jié)構(gòu)。系統(tǒng)運(yùn)行環(huán)境介紹。向量空間模型建立。采用基于Java開源項(xiàng)目:HTMLParser. 鏈接錨文本等信息。實(shí)驗(yàn)過程遇到問題:。針對語料編碼方式的多樣性,我們將GBK作為默認(rèn)編碼。依靠實(shí)驗(yàn)效果好壞,對網(wǎng)頁不同區(qū)域內(nèi)容設(shè)置不同權(quán)。錨文本收集僅收集鏈接文本,在20G語料中未實(shí)現(xiàn)擴(kuò)展。采用哈工大分詞程序。增加部分停用詞,詞匯數(shù)量達(dá)到2040個。分別計算詞條與個各類別的CHI值,取最大值作為該詞項(xiàng)的CHI值。是一種基于概率的方法,交叉熵越大,對文本類別分布的影響越大。使用DF移除低于一定閾值低頻詞,消除CHI對低頻詞的倚重,再用CHI從。ITC是TF*IDF變形,使用詞頻的對數(shù)代替詞頻,減少了。采用交叉驗(yàn)證方式來選擇合適的參數(shù)c和g. 于3,則認(rèn)為此網(wǎng)頁類別為空。CPU;內(nèi)存512;硬盤300G;數(shù)量4臺。鏈入與鏈出錨文本不同權(quán)重設(shè)置。考慮不同網(wǎng)頁質(zhì)量對錨文本準(zhǔn)確程度的影響