【正文】
????基于學習的頁面質(zhì)量評估算法 ? 算法描述 [2] 多特征分析 在合理選取的基礎(chǔ)上,可以發(fā)現(xiàn)特征之間的近似獨立性關(guān)系 URL Format Encode PageRank Cluster DocLength URL Length Indegree URL Format Encode PageRank Cluster DocLength URL Length Indegree 基于學習的頁面質(zhì)量評估算法 ? 算法描述 [2] 多特征分析(續(xù)) ?? ??? n 1i in21 )|()|,...,( p a g eT a r g e tpAf e a tu r eh a spPp a g eT a r g e tpAAAf e a tu r eh a spP(樸素貝葉斯假設) ??? n 1i in21 )(),...,( Af e a t u r eh a spPAAAf e a t u r eh a spP (特征近似獨立) ?????????????n1iin1i iin21n21n21)|()()()|(),...,()()|,...,(),...,|(p a g eT a r g e tpAf e a t u r ehaspPAf e a t u r ehaspPp a g eT a r g e tpPp a g eT a r g e tpAf e a t u r ehaspPAAAf e a t u r ehaspPp a g eT a r g e tpPp a g eT a r g e tpAAAf e a t u r ehaspPAAAf e a t u r ehaspp a g eT a r g e tpP基于學習的頁面質(zhì)量評估算法 ? 比較 的相對大小 0%10%20%30%40%50%60%70%80%90%100%1 2 4 8 16 32 64 128 256 otherOrdinary HighQuality?? ??ni ii C OR P US Af e a t u r ehasps e ts a mp l epageT a r g e t s e ts a mp l epageT a r g e tpAf e a t u r ehasp1 ))( )()( )((基于學習的頁面質(zhì)量評估算法 ? 高質(zhì)量頁面的概率分布情況 基于學習的頁面質(zhì)量評估算法 ? 測試效果 – 測試集合: 17000多個查詢目標頁面(訓練集的 10倍) – 算法判定出的高質(zhì)量頁面僅占數(shù)據(jù)總量的 5%,但能夠滿足超過 92%以上的用戶查詢需求 普通頁面 查詢目標頁面 訓練集合 查詢目標頁面 測試集合 算法判定出的低質(zhì)量頁面 % % % 算法判定出的高質(zhì)量頁面 % % % 基于學習的頁面質(zhì)量評估算法 ? 質(zhì)量評估算法效果的評價指標 – 高質(zhì)量頁面平均召回率( High Quality Page Average Recall, AR) )()()(1 D o c u m en tiR e c a l lARD oc u m e nti???0%10%20%30%40%50%60%70%80%90%100%0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%C l e a n s e d s e t s i z eRecallHigh Quality Recall 基于學習的頁面質(zhì)量評估算法 ? 與直接應用 PageRank