【導讀】對URL、Title、Anchortext、Content進。加入中文分詞模塊;采用正向最大匹配算法。分別使用兩組詞庫,測試詞庫對檢索結(jié)果的影響。小詞庫:包含6萬個常用詞?;ヂ?lián)網(wǎng)詞庫來自于對搜狗搜索引擎所索引到的中。統(tǒng)計出的詞條數(shù)約為15萬條高頻詞,除。我們發(fā)現(xiàn),對于NPHP任務,Title域顯得。比其他url域和contont域更加重要。權(quán)值為10的時候效果最佳,權(quán)值為3次之。前面得到的結(jié)果的后面。級入口頁面查詢算法》??疾炝薚itle設置不同的權(quán)重對NPHP結(jié)果。使用百度相關(guān)搜索進行擴展查詢也存在問。題,很多相關(guān)查詢沒有結(jié)果,例如,“2020計算機等級考試”。嘗試將分類、聚類應用到檢索任務中,提