正文內(nèi)容

sewm20xx分類系統(tǒng)說明-資料下載頁

2025-09-20 20:07本頁面

【導(dǎo)讀】分類系統(tǒng)模塊結(jié)構(gòu)。系統(tǒng)運(yùn)行環(huán)境介紹。向量空間模型建立。采用基于Java開源項(xiàng)目：HTMLParser. 鏈接錨文本等信息。實(shí)驗(yàn)過程遇到問題：。針對語料編碼方式的多樣性，我們將GBK作為默認(rèn)編碼。依靠實(shí)驗(yàn)效果好壞，對網(wǎng)頁不同區(qū)域內(nèi)容設(shè)置不同權(quán)。錨文本收集僅收集鏈接文本，在20G語料中未實(shí)現(xiàn)擴(kuò)展。采用哈工大分詞程序。增加部分停用詞，詞匯數(shù)量達(dá)到2040個。分別計算詞條與個各類別的CHI值，取最大值作為該詞項(xiàng)的CHI值。是一種基于概率的方法，交叉熵越大，對文本類別分布的影響越大。使用DF移除低于一定閾值低頻詞，消除CHI對低頻詞的倚重，再用CHI從。ITC是TF*IDF變形，使用詞頻的對數(shù)代替詞頻，減少了。采用交叉驗(yàn)證方式來選擇合適的參數(shù)c和g. 于3，則認(rèn)為此網(wǎng)頁類別為空。CPU;內(nèi)存512;硬盤300G;數(shù)量4臺。鏈入與鏈出錨文本不同權(quán)重設(shè)置。考慮不同網(wǎng)頁質(zhì)量對錨文本準(zhǔn)確程度的影響

　　

【正文】用舉手表決方法，統(tǒng)計不同特征選擇方法構(gòu)成的空向量，如果此網(wǎng)頁出現(xiàn)次數(shù)大于 3，則認(rèn)為此網(wǎng)頁類別為空。 2020/11/4 12 系統(tǒng)運(yùn)行環(huán)境 ? 硬件環(huán)境 ? CPU 。內(nèi)存 512。硬盤 300G。數(shù)量 4臺 ? 操作系統(tǒng) ? XP系統(tǒng) ? 編程語言 ? Java 2020/11/4 13 總結(jié)與展望 ? 考慮網(wǎng)頁更細(xì)致區(qū)域分塊 ? 網(wǎng)頁分塊在網(wǎng)頁中的位置以及文本內(nèi)容在塊區(qū)域中不同位置對網(wǎng)頁分類的影響，將應(yīng)用于宏觀分塊各個的影響因素應(yīng)用于每個微觀分塊中 ? 考慮不同鏈接信息對分類的影響 ? 鏈入與鏈出錨文本不同權(quán)重設(shè)置 ? 考慮不同網(wǎng)頁質(zhì)量對錨文本準(zhǔn)確程度的影響 ? 希望可以對網(wǎng)頁分類加以擴(kuò)展，考慮網(wǎng)頁不同形式、風(fēng)格等方面的分類研究

點(diǎn)擊復(fù)制文檔內(nèi)容

教學(xué)課件相關(guān)推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

sewm20xx分類系統(tǒng)說明-資料下載頁

系統(tǒng)說明20xx年3月-資料下載頁

植物學(xué)系統(tǒng)與分類畢潤成教授20xx2-資料下載頁

6賬戶的分類(20xx)-資料下載頁

食品分類系統(tǒng)ppt課件-資料下載頁

問答系統(tǒng)—問題分類-資料下載頁

植物分類學(xué)和植物分類系統(tǒng)-資料下載頁

20xx年考試說明-資料下載頁

20xx中考說明分析-資料下載頁

【酒店餐飲管理】xx餐飲管理系統(tǒng)說明-資料下載頁

系統(tǒng)模型及其分類ppt課件-資料下載頁

植被分類系統(tǒng)介紹ppt課件-資料下載頁

crm應(yīng)用系統(tǒng)的分類-資料下載頁

智能大廈5a系統(tǒng)分類說明-資料下載頁

應(yīng)用系統(tǒng)分類-資料下載頁

植物分類學(xué)基礎(chǔ)(20xx版)-資料下載頁

sewm20xx分類系統(tǒng)說明-文庫吧

sewm20xx分類系統(tǒng)說明-wenkub

sewm20xx分類系統(tǒng)說明(已修改)

sewm20xx分類系統(tǒng)說明(編輯修改稿)

sewm20xx分類系統(tǒng)說明-wenkub.com