freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

sewm20xx中文網(wǎng)頁分類評(píng)測參賽系統(tǒng)說明-資料下載頁

2024-09-29 20:07本頁面

【導(dǎo)讀】分類系統(tǒng)模塊結(jié)構(gòu)。系統(tǒng)運(yùn)行環(huán)境介紹。對(duì)訓(xùn)練集進(jìn)行網(wǎng)頁凈化。然后對(duì)凈化后的中文文本進(jìn)行分詞,接著從。文檔,再利用分類模型對(duì)特征向量進(jìn)行處理,根據(jù)評(píng)測程序比較分類結(jié)果與網(wǎng)頁本身所屬。評(píng)測指標(biāo)達(dá)到最優(yōu)。后,也就確立了分類器。對(duì)網(wǎng)頁結(jié)構(gòu)進(jìn)行分析,認(rèn)為網(wǎng)頁內(nèi)容塊無論形式如。的部分,將其看作一個(gè)表格,便于處理。根據(jù)表格的嵌套關(guān)系對(duì)每個(gè)表格進(jìn)行分級(jí),對(duì)處于。最高級(jí)別的表格進(jìn)行比較。主要是根據(jù)table表格中。包含的文字?jǐn)?shù)目和表格中的一些特殊字符進(jìn)行比較,按照一定規(guī)則將一部分table內(nèi)容去除掉。內(nèi)容視為一個(gè)新的網(wǎng)頁,并進(jìn)行同樣的迭代操作。們認(rèn)為進(jìn)行四次迭代后網(wǎng)頁“去噪”效果最好)。經(jīng)過調(diào)研,我們認(rèn)為網(wǎng)頁URL一般具有以下。間沒有標(biāo)點(diǎn)符號(hào)時(shí),系統(tǒng)會(huì)報(bào)錯(cuò)等。選擇了CHI作為特征項(xiàng)的提取方法。按照切分出的每個(gè)詞的CHI值的大小進(jìn)行排。考慮到雖然余弦相似度是全局的相。極大的項(xiàng),權(quán)重很小的項(xiàng)對(duì)相似度貢獻(xiàn)很小,的特征項(xiàng),而小于該閾值的則舍棄。

  

【正文】 驗(yàn)發(fā)現(xiàn),在最好情況下,這樣做比傳統(tǒng)的 tf*idf可以將分類結(jié)果提高 。 信息管理系 分類模塊 采用了 KNN分類模型,經(jīng)過反復(fù)實(shí)驗(yàn),確定K取 15??紤]到雖然余弦相似度是全局的相似度,但是 KNN的計(jì)算結(jié)果取決于少量權(quán)重極大的項(xiàng),權(quán)重很小的項(xiàng)對(duì)相似度貢獻(xiàn)很小,因此,我們?yōu)樘卣黜?xiàng)權(quán)值設(shè)立了一個(gè)閾值,在讀入數(shù)據(jù)時(shí)只讀入權(quán)重大于該閾值的特征項(xiàng),而小于該閾值的則舍棄。 信息管理系 系統(tǒng)運(yùn)行環(huán)境 ?硬件環(huán)境 CPU:AMD 1600+, 內(nèi)存: 256M,硬盤: 80G,數(shù)量: 8臺(tái) ?操作系統(tǒng) Windows XP ?編程語言 Java 信息管理系 Thank you!
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1