【正文】
92%以上的用戶(hù)查詢(xún)需求 普通頁(yè)面 查詢(xún)目標(biāo)頁(yè)面 訓(xùn)練集合 查詢(xún)目標(biāo)頁(yè)面 測(cè)試集合 算法判定出的低質(zhì)量頁(yè)面 % % % 算法判定出的高質(zhì)量頁(yè)面 % % % 基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法 ? 質(zhì)量評(píng)估算法效果的評(píng)價(jià)指標(biāo) – 高質(zhì)量頁(yè)面平均召回率( High Quality Page Average Recall, AR) )()()(1 D o c u m en tiR e c a l lARD oc u m e nti???0%10%20%30%40%50%60%70%80%90%100%0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%C l e a n s e d s e t s i z eRecallHigh Quality Recall 基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法 ? 與直接應(yīng)用 PageRank作為頁(yè)面質(zhì)量評(píng)估指標(biāo)的比較 H i g h Q u a l i t y P a g e A v e r a g e R e c a l l0 . 9 0 50 . 9 1 00 . 9 1 50 . 9 2 00 . 9 2 50 . 9 3 00 . 9 3 50 . 9 4 00 . 9 4 50 . 9 5 00 . 9 5 5P a g e R a n k O n l y W i t h o u t P a g e R a n k W i t h o u t I n l i n k A l l F e a t u r e比僅使用 PageRank 特征取得更好的效果 并不單獨(dú)依靠某個(gè)特征 實(shí)現(xiàn)評(píng)估任務(wù) 基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法 ? 算法分辨垃圾 /低質(zhì)量頁(yè)面的能力 ? 同時(shí)具有較好的篩選作弊頁(yè)面和低質(zhì)量頁(yè)面的作用 0%5%10%15%20%25%30%35%Page QualityEstimationPageRank Only Inlink OnlySpam Reduced Low Quality Reduced去偽存真 去粗取精 ? 問(wèn)題背景 ? 頁(yè)面質(zhì)量評(píng)估的相關(guān)工作概述 ? 高質(zhì)量頁(yè)面的查詢(xún)無(wú)關(guān)特征分析 ? 基于學(xué)習(xí)的頁(yè)面質(zhì)量評(píng)估算法 ? 應(yīng)用展望 應(yīng)用展望 ? 利用頁(yè)面質(zhì)量評(píng)估算法作為搜索引擎層次索引機(jī)制的基礎(chǔ) 普通頁(yè)面 高質(zhì)量 索引 質(zhì)量評(píng)價(jià)算法 搜索引擎系統(tǒng) 結(jié)果 查詢(xún) 反饋 應(yīng)用展望 ? 同 PageRank一樣作為 Ranking算法的依據(jù) – PageRank:用戶(hù)隨機(jī)訪(fǎng)問(wèn)到某個(gè)頁(yè)面的可能性 – 頁(yè)面質(zhì)量:某個(gè)頁(yè)面成為用戶(hù)查詢(xún)目標(biāo)的普適可能性 ? 具有明確的物理含義 ? 利用類(lèi)似方法進(jìn)行垃圾頁(yè)面清理工作 – 統(tǒng)計(jì)垃圾頁(yè)面的查詢(xún)無(wú)關(guān)特征 ? 比較查詢(xún)目標(biāo)頁(yè)面而言,這種特征應(yīng)當(dāng)更加明顯 – 利用機(jī)器學(xué)習(xí)方法構(gòu)建分類(lèi)器 – 計(jì)算某個(gè)頁(yè)面成為垃圾頁(yè)面的概率 應(yīng)用展望 ? 其它的可能應(yīng)用方向 – 用于提高搜索引擎 Spider的頁(yè)面抓取效率 – 提高個(gè)人化搜索( personalized search)質(zhì)量 – 更好的理解用戶(hù)使用搜索引擎的行為特點(diǎn) [摘自 ,定時(shí)被百度的抓取機(jī)器人抓到系統(tǒng)停止響應(yīng)。 拜托百度,不要這樣抓內(nèi)容了。就算抓,也應(yīng)該用 1個(gè)線(xiàn)程來(lái)抓,只抓更新的內(nèi)容,何必每天抓一次,而且用無(wú)數(shù)個(gè)線(xiàn)程,而且 每次都要抓全部?jī)?nèi)容,還不放過(guò)任何 wiki的歷史頁(yè)面,甚至連錯(cuò)誤信息都要原樣搬走。 這種抓取方法,誰(shuí)受得了? Thank you! Questions or ments?