【導(dǎo)讀】木棉搜索引擎現(xiàn)狀。對URL、Title、Anchor、Content進(jìn)行索引;基于集群系統(tǒng)的并行化搜索引擎。綜合采用多種去噪算法,將3700萬網(wǎng)頁分成70個part進(jìn)行處理。用完整的WebDB更新每一個part的數(shù)據(jù)。–搜索相關(guān)主題的文章,主要查找入口頁面。用擴(kuò)展后的查詢詞搜索,每個查詢詞均返回300條結(jié)果;對這200條結(jié)果進(jìn)行站內(nèi)聚合,并將每個網(wǎng)站內(nèi)的ROOT、SUBROOT、url深度小于3的PATH的url提前;對所有被提前的網(wǎng)頁按照得分排序,并盡量保證前十條出現(xiàn)不。這一步驟主要是查詢優(yōu)化時使用;在要求不高的情況下,迭代計算5次即可??梢苑从尘W(wǎng)頁的重要程度。對網(wǎng)頁各組成部分進(jìn)行索引并賦予不同的權(quán)重可。以提高檢索精度;NPHP查詢結(jié)果好;TD查詢在一些情況下不能很。人工標(biāo)記和二次排序?qū)μ岣邫z索準(zhǔn)確率有很大的。查詢響應(yīng)時間相對較長。TD查詢時,采用合理的輔助機(jī)制,比如擴(kuò)展查詢,分類目錄等,將用戶引導(dǎo)到較好的結(jié)果頁面;自動判斷TD,NP,HP查詢詞,根據(jù)不同性質(zhì)的