freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

去偽存真去粗取精——頁面質(zhì)量評估及其在網(wǎng)絡(luò)信息檢索中的-wenkub.com

2025-07-15 14:42 本頁面
   

【正文】 就算抓,也應(yīng)該用 1個(gè)線程來抓,只抓更新的內(nèi)容,何必每天抓一次,而且用無數(shù)個(gè)線程,而且 每次都要抓全部內(nèi)容,還不放過任何 wiki的歷史頁面,甚至連錯(cuò)誤信息都要原樣搬走。 – PageRank( Google) , HITS( Kleinberg.)及眾多的改進(jìn)算法 頁面質(zhì)量評估相關(guān)工作概述 ? 微觀粒度的頁面質(zhì)量評估 – 目的:找出對用戶檢索信息有用的頁面的某個(gè)部分 – 去除特定垃圾信息(利用機(jī)器學(xué)習(xí)方法和一定量的訓(xùn)練) ? 去除廣告條( Davison et. al.) ? 去除頁面中的無關(guān)鏈接與垃圾鏈接( Kushmerick et. al.) – 頁面分塊模型 ? 依據(jù)語料統(tǒng)計(jì)信息計(jì)算頁面塊的信息量( Lin et. al.) ? 基于模板頻度檢測構(gòu)建站點(diǎn)模板( Yossef et. al. Yi et. al.) ? 基于頁面塊的絕對位置和機(jī)器學(xué)習(xí)方法計(jì)算塊的重要性( VIsion Based Page Segmentation, VIPS, MSRA) 頁面質(zhì)量評估相關(guān)工作概述 ? 微觀粒度的質(zhì)量評估示例(頁面分塊) 頁面質(zhì)量評估相關(guān)工作概述 ? 頁面質(zhì)量評估的研究現(xiàn)狀 – 微觀粒度 ? 具有數(shù)據(jù)挖掘方面研究的積累(數(shù)據(jù)預(yù)處理、數(shù)據(jù)清理等) ? 相對比較成熟完善 – 宏觀粒度 ? 搜索引擎競價(jià)排名機(jī)制的引入,帶來了大量的鏈接垃圾 ? 內(nèi)容推薦和主題相關(guān)假設(shè)受到挑戰(zhàn) ? 過多關(guān)注頁面自身的特性,忽略用戶的實(shí)際需求 ? 只重視鏈接結(jié)構(gòu)特征,忽略頁面其他類型的查詢無關(guān)特征 是我們研究的重點(diǎn) 頁面質(zhì)量評估的研究現(xiàn)狀 ? 頁面質(zhì)量評估應(yīng)當(dāng)涉及到鏈接關(guān)系之外的特征信息 PageRank only uses the link structure of the web to estimate page quality. It seems to us that a better estimate of the quality of a page requires additional sources of information. Monika R. Henzinger, Research Director of Google – 我們的理解: 對于檢索系統(tǒng)而言,頁面質(zhì)量的最根本評價(jià)不是由諸如頁面在鏈接結(jié)構(gòu)圖中的重要程度這樣的特征來決定的。去偽存真 去粗取精 ——頁面質(zhì)量評估及其在網(wǎng)絡(luò)信息檢索中的應(yīng)用 馬少平 劉奕群 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室 2022年 7月,山東,濟(jì)南 去偽存真 去粗取精 ? 問題背景 ? 頁面質(zhì)量評估的相關(guān)工作概述 ? 高質(zhì)量頁面的查詢無關(guān)特征分析 ? 基于學(xué)習(xí)的頁面質(zhì)量評估算法 ? 應(yīng)用展望 去偽存真 去粗取精 ? 問題背景 ? 頁面質(zhì)量評估的相關(guān)工作概述 ? 高質(zhì)量頁面的查詢無關(guān)特征分析 ? 基于學(xué)習(xí)的頁面質(zhì)量評估算法 ? 應(yīng)用展望 問題背景 ? World Wide Web的出現(xiàn)與發(fā)展 38年 13年 4年 1994年個(gè)人瀏覽器誕生,到1998年用戶超過 5000萬人 問題背景 ? Web蘊(yùn)含著多少信息? – How Much Info 工程 – 由 Intel, Microsoft, HP, EMC等公司贊助, UC Berkeley大學(xué)完成 – 2022年世界上共產(chǎn)生了 5Exabyte的數(shù)據(jù),其中92%的信息存儲于電子介質(zhì) ? 相當(dāng)于人類歷史上所有說過的話語 所包含的信息量的總和 – 大部分存儲于 Web中,構(gòu)成了 Web 中超過 150Billion的網(wǎng)絡(luò)頁面 問題背景 ? Web的發(fā)展帶來了什么? – 信息數(shù)量的急劇膨脹 – 知識的獲取空前簡單與繁榮 ? Information is no longer a scarce reso
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1