【導(dǎo)讀】?jī)?nèi)容管理的層次,對(duì)于大型網(wǎng)站而言,URL往往非常有規(guī)律。主題型網(wǎng)頁(yè)的主體在于“文字”,相對(duì)于導(dǎo)航型網(wǎng)頁(yè),其鏈接數(shù)較少。分類過(guò)程分為三個(gè)階段:。標(biāo)點(diǎn)符號(hào)數(shù)目,文字?jǐn)?shù)目。無(wú)需復(fù)雜算法,只需設(shè)置特征閾值。持向量機(jī))進(jìn)行進(jìn)一步的分類。這一階段的特征有:URL層數(shù)、URL中。取結(jié)果的反饋,進(jìn)一步篩選網(wǎng)頁(yè),去掉非主題型網(wǎng)頁(yè)。URL是否為目錄型,是否包含某些特殊關(guān)鍵字。–閾值設(shè)置:抽樣測(cè)試表明,當(dāng)網(wǎng)頁(yè)的句號(hào)和逗號(hào)數(shù)目超過(guò)20個(gè)時(shí),由于階段1和階段2都可能存在一定的誤差,因此。對(duì)網(wǎng)頁(yè)的特征選擇與抽取還有待完善,期。階段3的反饋機(jī)制過(guò)于簡(jiǎn)單。而且這部分文本中絕大部分都是PlainText。任意節(jié)點(diǎn)leaf屬于L,calLength<averageLength;對(duì)腳本、frame的信息進(jìn)行定位,并根據(jù)每。關(guān)系,將正文提取出來(lái)。以表格的形式來(lái)展現(xiàn)主題