【導(dǎo)讀】查找主題相關(guān)的關(guān)鍵資源的入口。HP查找指定名字的網(wǎng)站的首頁。1)是否大部分切合主題;2)提供主題的可靠的信息;3)不是一個(gè)更大的切合主題站點(diǎn)的一部分。用戶所要查找的可能。綜合采用多種去噪算法,判斷每個(gè)網(wǎng)頁類型---目錄型還是主題型。匹配程度越高,說明該網(wǎng)頁越可。計(jì)算該網(wǎng)頁的鏈出網(wǎng)頁與查詢?cè)~的匹配程度。所以對(duì)查詢?cè)~進(jìn)行標(biāo)記,用H表示該查詢?yōu)椴檎襀P,pagerank和近似的pagerank效果相差不大。中文分詞的粒度對(duì)檢索精度有比較大的影響。加入中文分詞可以大大減少返回不相關(guān)的文檔,