freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎工作原理簡介-文庫吧資料

2024-12-01 21:53本頁面
  

【正文】 重” 去重的意義 提升用戶體驗(搜索引擎不喜歡重復(fù)性內(nèi)容) 去重方法: “去重”的基本方法是對 頁面特征關(guān)鍵詞計算指紋 ,也就是說從頁面主題內(nèi)容中選取最有代表性的一部分關(guān)鍵詞(經(jīng)常是出現(xiàn)頻率最高的關(guān)鍵詞),然后計算這些關(guān)鍵詞的數(shù)字指紋。 消噪的基本方法: 根據(jù) HTML標簽對頁面分塊,區(qū)分出頁頭,導(dǎo)航,正文,頁腳,關(guān)高等區(qū)域,在網(wǎng)站上大量重復(fù)出現(xiàn)的區(qū)塊旺旺屬于噪聲。 第二步:預(yù)處理 ? 消除噪聲 定義 :除了停止詞以外,對頁面主題沒有什么貢獻的因素被稱為頁面噪聲。 第二步:預(yù)處理 ? 去停止詞 停止詞 無論是英文還是中文,頁面內(nèi)容中都會出現(xiàn)頻率很高,卻對內(nèi)容沒有任何影響的詞,如“的”、“地”、“得”之類的助詞,“啊”、“哈”、“呀”之類的感嘆詞,“從而”、“以”、“卻”之類的副詞或介詞,這些詞被稱為停止詞。 分詞如:“ 減肥方法 ”將被分詞為“ 減肥 ”和“ 方法 ”兩個詞 中文分詞方法基本上有兩種: 基于詞典匹配 將待分析的一段漢字與一個事先造好的詞典中的詞條進行匹配,在待分析漢字串中掃描到詞典中已有的詞條則匹配成功,或者說切分出一個單詞。 ? 搜索引擎預(yù)處理工作內(nèi)容: 提取文字 除去 HTML代碼后,剩下的用于排名的文字只是這一行: 新浪首頁 備注: 除了可見文字,搜索引擎也會提取出一些特殊的包含文字信息的代碼,如: META標簽中的文字,圖片替代文字, Flash文件中的替代文字,鏈接錨文字等。 實踐情況:有的站長在自己網(wǎng)站日志中發(fā)現(xiàn)了蜘蛛,但是頁面從來沒有被真正的收錄過的原因。其中的頁面數(shù)據(jù)域用戶瀏覽器得到的 HTML是完全一樣的,每個 URL都有一個獨特的文件編號。
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1