freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

主題型網(wǎng)頁(yè)發(fā)現(xiàn)以及網(wǎng)頁(yè)內(nèi)信息塊發(fā)現(xiàn)-資料下載頁(yè)

2024-10-12 12:49本頁(yè)面

【導(dǎo)讀】?jī)?nèi)容管理的層次,對(duì)于大型網(wǎng)站而言,URL往往非常有規(guī)律。主題型網(wǎng)頁(yè)的主體在于“文字”,相對(duì)于導(dǎo)航型網(wǎng)頁(yè),其鏈接數(shù)較少。分類過(guò)程分為三個(gè)階段:。標(biāo)點(diǎn)符號(hào)數(shù)目,文字?jǐn)?shù)目。無(wú)需復(fù)雜算法,只需設(shè)置特征閾值。持向量機(jī))進(jìn)行進(jìn)一步的分類。這一階段的特征有:URL層數(shù)、URL中。取結(jié)果的反饋,進(jìn)一步篩選網(wǎng)頁(yè),去掉非主題型網(wǎng)頁(yè)。URL是否為目錄型,是否包含某些特殊關(guān)鍵字。–閾值設(shè)置:抽樣測(cè)試表明,當(dāng)網(wǎng)頁(yè)的句號(hào)和逗號(hào)數(shù)目超過(guò)20個(gè)時(shí),由于階段1和階段2都可能存在一定的誤差,因此。對(duì)網(wǎng)頁(yè)的特征選擇與抽取還有待完善,期。階段3的反饋機(jī)制過(guò)于簡(jiǎn)單。而且這部分文本中絕大部分都是PlainText。任意節(jié)點(diǎn)leaf屬于L,calLength<averageLength;對(duì)腳本、frame的信息進(jìn)行定位,并根據(jù)每。關(guān)系,將正文提取出來(lái)。以表格的形式來(lái)展現(xiàn)主題

  

【正文】 ngth( leaf) averageLength。 L=Lleaf。 ? 4. 集合 M為空。任意節(jié)點(diǎn) leaf 屬于 L, parent= leaf .getParent() while(().size==1){ parent= parent .getParent()。 } M=M+parent。 如果 (這里經(jīng)驗(yàn)值設(shè)為 3)結(jié)束 否則 ,L =M,并執(zhí)行 3。 四、進(jìn)一步去除噪音 ? 干擾信息: script、 frame(廣告、或網(wǎng)站定制的腳本) ? 對(duì)腳本、 frame的信息進(jìn)行定位,并根據(jù)每段正文的起始和結(jié)束位置與干擾信息塊的關(guān)系,將正文提取出來(lái)。 五、表格型網(wǎng)頁(yè)抽取 ? 以表格的形式來(lái)展現(xiàn)主題 ? 股票的價(jià)格信息 ? 電腦 DIY的配件信息 ? 處理 – 抽取網(wǎng)頁(yè)中的 Table標(biāo)記中的內(nèi)容 – 統(tǒng)計(jì) Table中包含文字的 TR和 TD(避免遞歸處理)的信息 ? 把所有 TD數(shù)目(列數(shù))超過(guò)閾值的 TR的都抽取出來(lái), ? 如果這些 TR的數(shù)目大于某個(gè)閾值 ,將其父結(jié)點(diǎn)加到結(jié)果集 結(jié)果分析 ? 1. 對(duì)于布局正規(guī)的網(wǎng)頁(yè),抽取方法效果十分理想 ? 2. 對(duì)于論壇類型的文章,該方法可以去除一些無(wú)意義的回復(fù)(如頂、贊等),保留有意義的回復(fù)。 ? 3. 對(duì)于表格類型的網(wǎng)頁(yè),結(jié)合有規(guī)律的行列分布,可以對(duì)表格信息進(jìn)行有效的抽取 不足與改進(jìn) ? 找到一個(gè)更加科學(xué)的方法來(lái)設(shè)定閾值 ? 利用標(biāo)題以獲得更多的信息 ? 更好的“上升”策略 謝 謝 !請(qǐng)批評(píng)指正! 成員:蔡捷飛、陳啟泓、梁志宏、馬亮、溫澤逢
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1