freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

去偽存真去粗取精——頁面質(zhì)量評估及其在網(wǎng)絡(luò)信息檢索中的-文庫吧

2025-07-03 14:42 本頁面


【正文】 – 2022年 9月 , Google從首頁去除了頁面索引數(shù)量的信息,并解釋說:“ 絕對的數(shù)量已經(jīng)不再重要 ” Google Yahoo! MSN Teoma Round 1 % % % % Round 2 % % % % Round 3 % % % % Round 4 % % % % Round 5 % % % % Average % % % % 問題背景:搜索引擎的索引能力 ? 對中文搜索引擎而言 – 搜索引擎里每天有 400多萬 被檢索的關(guān)鍵詞 – 一般而言不重復(fù)的關(guān)鍵詞會占總數(shù)的 30%以內(nèi) (根據(jù)李彥宏報(bào)告的百度狀況) – 對于每個(gè)關(guān)鍵詞,用戶平均點(diǎn)擊的頁面數(shù)在 2頁以內(nèi) – 則可以估算如下 : ? 用戶每天使用到的被索引的頁面數(shù)為 2400萬 個(gè)左右 ? 在百度的平均更新周期( 1個(gè)月)內(nèi),用戶共可能訪問到的頁面總數(shù)為 個(gè), ? 少于百度聲稱的索引量( 8億 ) ? 更少于中文網(wǎng)頁總數(shù)( 20億 ) ? 搜索引擎應(yīng)當(dāng)處理 (存儲、評價(jià)、預(yù)處理與后處理 )所有的 Web頁面么 ? – 數(shù)據(jù)數(shù)量已然非常龐大 – 網(wǎng)絡(luò)環(huán)境數(shù)據(jù)質(zhì)量堪憂:不可靠、 Spam、過時(shí),重復(fù) ? 不需要,也不可能 ! ? 利用頁面質(zhì)量評估定位高質(zhì)量頁面 ? 在用戶查詢之前進(jìn)行 ? 數(shù)據(jù)預(yù)處理階段 ? 使用 查詢無關(guān)特征 進(jìn)行 問題背景 問題背景 頁面質(zhì)量評估的過程應(yīng)當(dāng) 是查詢無關(guān)完成的 去偽存真 去粗取精 ? 問題背景 ? 頁面質(zhì)量評估的相關(guān)工作概述 ? 高質(zhì)量頁面的查詢無關(guān)特征分析 ? 基于學(xué)習(xí)的頁面質(zhì)量評估算法 ? 應(yīng)用展望 頁面質(zhì)量評估相關(guān)工作概述 ? 按照粒度不同 – 宏觀粒度的質(zhì)量評估 ? 去除無用頁面 / 定位有用頁面 ? 清理“全局垃圾” – 微觀粒度的質(zhì)量評估 ? 去除頁面中的無用部分 / 找出頁面中最有用的部分 ? 清理“局部垃圾” 頁面質(zhì)量評估相關(guān)工作概述 ? 宏觀粒度的頁面質(zhì)量評估 – 目的:找出對用戶檢索信息有用的頁面 – 當(dāng)前的研究重點(diǎn): Web鏈接結(jié)構(gòu)分析 – 如果存在超鏈接 L從頁面 P(source)指向頁面 P(destiny),則 P(source)與 P(destiny)之間滿足: 假設(shè) 1: (內(nèi)容推薦假設(shè))頁面 P(source)的作者推薦頁面P(destiny)的內(nèi)容,且利用 L的鏈接文本內(nèi)容對 P(destiny)進(jìn)行描述。 假設(shè) 2: (主題相關(guān)假設(shè))被超鏈接連接的兩個(gè)頁面 P(source)與P(destiny)比隨機(jī)抽取的兩個(gè)頁面有更大的概率有內(nèi)容相關(guān)性。 – PageRank( Google) , HITS( Kleinberg.)及眾多的改進(jìn)算法 頁面質(zhì)量評估相關(guān)工作概述 ? 微觀粒度的頁面質(zhì)量評估 – 目的:找出對用戶檢索信息有用的頁面的某個(gè)部分 – 去除特定垃圾信息(利用機(jī)器學(xué)習(xí)方法和一定量的訓(xùn)練) ? 去除廣告條( Davison et. al.) ? 去除頁面中的無關(guān)鏈接與垃圾鏈接( Kushmerick et. al.) – 頁面分塊模型 ? 依據(jù)語料統(tǒng)計(jì)信息計(jì)算頁面塊的信息量( Lin et. al.) ? 基于模板頻度檢測構(gòu)建站點(diǎn)模板( Yossef et. al. Yi et. al.) ? 基于頁面塊的絕對位置和機(jī)器學(xué)習(xí)方法計(jì)算塊的重要性( VIsion Based Page Segmentation, VIPS, MSRA) 頁面質(zhì)量評估相關(guān)工作概述 ? 微觀粒度的質(zhì)量評估示例(頁面分塊) 頁面質(zhì)量評估相關(guān)工作概述 ? 頁面質(zhì)量評估的研究現(xiàn)狀 – 微觀粒度 ? 具有數(shù)據(jù)挖掘方面研究的積累(數(shù)據(jù)預(yù)處理、數(shù)據(jù)清理等) ? 相對比較成熟完善 – 宏觀粒度 ? 搜索引擎競價(jià)排名機(jī)制的引入,帶來了大量的鏈接垃
點(diǎn)擊復(fù)制文檔內(nèi)容
高考資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1