【導(dǎo)讀】分類系統(tǒng)模塊結(jié)構(gòu)。系統(tǒng)運(yùn)行環(huán)境介紹。對(duì)訓(xùn)練集進(jìn)行網(wǎng)頁凈化。然后對(duì)凈化后的中文文本進(jìn)行分詞,接著從。文檔,再利用分類模型對(duì)特征向量進(jìn)行處理,根據(jù)評(píng)測程序比較分類結(jié)果與網(wǎng)頁本身所屬。評(píng)測指標(biāo)達(dá)到最優(yōu)。后,也就確立了分類器。對(duì)網(wǎng)頁結(jié)構(gòu)進(jìn)行分析,認(rèn)為網(wǎng)頁內(nèi)容塊無論形式如。的部分,將其看作一個(gè)表格,便于處理。根據(jù)表格的嵌套關(guān)系對(duì)每個(gè)表格進(jìn)行分級(jí),對(duì)處于。最高級(jí)別的表格進(jìn)行比較。主要是根據(jù)table表格中。包含的文字?jǐn)?shù)目和表格中的一些特殊字符進(jìn)行比較,按照一定規(guī)則將一部分table內(nèi)容去除掉。內(nèi)容視為一個(gè)新的網(wǎng)頁,并進(jìn)行同樣的迭代操作。們認(rèn)為進(jìn)行四次迭代后網(wǎng)頁“去噪”效果最好)。經(jīng)過調(diào)研,我們認(rèn)為網(wǎng)頁URL一般具有以下。間沒有標(biāo)點(diǎn)符號(hào)時(shí),系統(tǒng)會(huì)報(bào)錯(cuò)等。選擇了CHI作為特征項(xiàng)的提取方法。按照切分出的每個(gè)詞的CHI值的大小進(jìn)行排。考慮到雖然余弦相似度是全局的相。極大的項(xiàng),權(quán)重很小的項(xiàng)對(duì)相似度貢獻(xiàn)很小,的特征項(xiàng),而小于該閾值的則舍棄。