【導(dǎo)讀】查找主題相關(guān)的關(guān)鍵資源的入口。HP查找指定名字的網(wǎng)站的首頁。1)是否大部分切合主題;2)提供主題的可靠的信息;3)不是一個更大的切合主題站點的一部分。用戶所要查找的可能。綜合采用多種去噪算法,判斷每個網(wǎng)頁類型---目錄型還是主題型。匹配程度越高,說明該網(wǎng)頁越可。計算該網(wǎng)頁的鏈出網(wǎng)頁與查詢詞的匹配程度。所以對查詢詞進(jìn)行標(biāo)記,用H表示該查詢?yōu)椴檎襀P,pagerank和近似的pagerank效果相差不大。中文分詞的粒度對檢索精度有比較大的影響。加入中文分詞可以大大減少返回不相關(guān)的文檔,