正文內容

搜索引擎工作原理ppt課件(編輯修改稿)

2025-06-08 08:27 本頁面

　

【文章內容簡介】更新慢的網(wǎng)頁上，以使系統(tǒng)整體的時新性達到比較高的水平。n 最常見的是一種爬?。簩?Web上的網(wǎng)頁集合看成是一個有向圖，搜集過程從給定起始 URL集合 S（或者說種子）開始，沿著網(wǎng)頁中的鏈接，按照先深、先寬或者別的策略遍歷，不停地從 S中移除 URL，下載相應的網(wǎng)頁，解析出網(wǎng)頁中的超鏈接 URL，看是否已經(jīng)被訪問過，將未訪問的那些 URL加入集合 S。整個過程猶如蜘蛛（ spider）在蜘蛛網(wǎng)（ Web）中爬行（ crawl）。n 多個蜘蛛同時在爬。n 任何搜索引擎不可能將 Web上的網(wǎng)頁搜集完全（通常是在比如磁盤滿或者搜集時間已經(jīng)太長了），因此必須使搜索引擎搜集到比較重要的網(wǎng)頁。n 按照何種方式可以得到重要網(wǎng)頁？n 研究表明，按照先寬搜集方式得到的網(wǎng)頁集合要比先深搜集得到的網(wǎng)頁重要。n 為什么？n 保證每個網(wǎng)頁不被重復抓取。原因是一方面搜集程序沒有清楚記錄已經(jīng)訪問過的 URL，二是由于域名與 IP對應關系造成的。n 解決的辦法一是使用兩個表： unvisitedtable和 visitedtable，記錄未訪問、已訪問URL和網(wǎng)頁內容摘要信息。n 二是找出那些指向同一物理位置 URL的多個域名和 IP，這是一個逐漸積累的過程。n 其實域名和 IP的對應關系存在四種情況：一對一、一對多、多對一、多對多，前者不會造成重復搜集，后三者會造成重復搜集。n 所以首先要積累一定數(shù)量的域名和 IP，然后將這些域名和 IP對應的首頁和首頁鏈接出的最開始的幾個頁面抓取回來，如果比較結果一樣，則歸為一組，以后搜集時可以只選擇其中一個進行搜集。選擇時應該優(yōu)先選擇有域名的，有的網(wǎng)站對于直接用 IP訪問是被禁止的。n 例如： IP地址為：，，，，，，但是直接用。n Web上的信息具有異質性和動態(tài)性，由于受時間和儲存空間的限制，即使是最大的搜索引擎也不可能將全球所有的網(wǎng)頁全部搜集過來，一個好的搜索策略是優(yōu)先搜集重要的網(wǎng)頁，以便能夠在最短的時間內把最重要的網(wǎng)頁抓取過來，在此要求下，一方面要采用分布并行的體系結構來協(xié)調工作，一方面要優(yōu)先搜集重要網(wǎng)頁。n 體現(xiàn)網(wǎng)頁重要度的特征有哪些？體現(xiàn)網(wǎng)頁重要度的特征n ① 網(wǎng)頁的入度（？）大，表明被其它網(wǎng)頁引用的次數(shù)多n ② 某網(wǎng)頁的父網(wǎng)頁入度（？）大n ③ 網(wǎng)頁的鏡像度高，說明網(wǎng)頁內容比較熱門，從而顯得重要n ④ 網(wǎng)頁的目錄深度（？）小，易于用戶瀏覽到n 上述特征中哪些很容易被確定？n 網(wǎng)頁入度（ page indegree)，針對一個網(wǎng)頁，整個網(wǎng)絡中指向該網(wǎng)頁的超鏈接數(shù)目。n 網(wǎng)頁出度（ page outdegree)，針對一個網(wǎng)頁，該網(wǎng)頁指向其他網(wǎng)頁的超鏈接數(shù)目。n URL目錄深度：網(wǎng)頁對應的 url中除去域名部分的目錄層次，即 url為= localpath部分。如度為 0，錄深度為 1n 搜索引擎開始工作時，既不知道要搜的網(wǎng)頁入度大小，也不知道網(wǎng)頁的內容是什么，所以對于表征網(wǎng)頁重要性的第 ①、 ② 、 ③ 項特征在搜集工作開始時無法確定。這些因素只有在獲得網(wǎng)頁或幾乎所有的 Web鏈接結構之后才能夠知道。只有特征 ④ 是不需要網(wǎng)頁內容就可以確定的，因此對于搜集策略的確定，特征 ④是最值得考慮的指導因素。n 只有特征 ④ 是不需要網(wǎng)頁內容就可以確定的，因此對于搜集策略的確定，特征④ 是最值得考慮的指導因素。網(wǎng)頁的分布狀況n 整個 Web就像一個深不見底的海洋。將這個海洋分成兩個層次：表層和底層n 表層包含的主要是靜態(tài)網(wǎng)頁（ static Web page，不需要提交查詢信息即可獲得的頁面）n 底層包含的主要是動態(tài)網(wǎng)頁（ dynamic Web page，需要通過提交查詢信息獲得含有內容的網(wǎng)頁）n 目前搜索引擎主要集中在表層工作。n 在表層中重要網(wǎng)頁的分布或者更接近于海面，或者更接近于底層。對于網(wǎng)頁的搜集工作，就像一條捕魚的船行駛在海面上，目的是撒網(wǎng)捕捉盡可能多而且重要的網(wǎng)頁。n 實際搜集網(wǎng)頁經(jīng)驗表明，網(wǎng)站的首頁是漂浮在海面上的，網(wǎng)站數(shù)目遠小于網(wǎng)頁數(shù)，并且重要的網(wǎng)頁也必然是從這些網(wǎng)站首頁鏈接過去的，因此搜集工作應當優(yōu)先獲取盡可能多的網(wǎng)站首頁。因此寬度優(yōu)先搜集是盡快獲得重要網(wǎng)頁最好的辦法。n 采取寬度優(yōu)先搜集最直接有效的方法就是根據(jù)網(wǎng)頁的 URL的目錄深度確定優(yōu)先級，這樣既客觀有容易獲取所需。n 一般搜索引擎就根據(jù)網(wǎng)頁的 URL的目錄深度和鏈接關系設定權值，以決定網(wǎng)頁重要度，并優(yōu)先搜集權值大的網(wǎng)頁，實現(xiàn)類似于寬度優(yōu)先搜集的啟發(fā)式搜集策略。n 相對來說代價比較低的方法是面向主題（ focused）或話題（ topical）的信息采集。n 網(wǎng)絡爬蟲很難找到的站點統(tǒng)稱為深層網(wǎng)絡（ deep web），也被稱為隱藏網(wǎng)絡（hidden web）n Private siten Form resultn Scripted pagen 私人站點：傾向于隱私內容，沒有任何指向它的鏈接，或者在使用該站點之前，需要使用有效的賬戶進行注冊。n 表單結果：通常需要在表單中填寫數(shù)據(jù)才可以進入。如銷售機票的站點，通常在頁面的入口處會詢問旅行的信息。大多數(shù)爬蟲不可能越過這個表單獲取航班時刻表的信息。（參見：搜索引擎：信息檢索實踐 P25）n 腳本頁面：是使用 JavaScript、 Flash或其他客戶端語言的頁面。如果一個鏈接并不是以 HTML語言給出的，而是通過在瀏覽器中運行 JavaScript生成的，爬蟲需要在該網(wǎng)頁上執(zhí)行 JavaScript才能找到這個鏈接。技術上可行，但會影響速度，增加系統(tǒng)的復雜性。（二）預處理按照 “ 程序 =算法 +數(shù)據(jù)結構 ” 的觀點來考察程序，一個合適的數(shù)據(jù)結構是查詢子系統(tǒng)的核心 ?，F(xiàn)行最有效的數(shù)據(jù)結構是 “ 倒排文件 ” （inverted file） .（組織和索引文件、以便于檢索的一種方法。在該方法中，一個關鍵詞的集合是基礎，該集合中每一個關鍵詞對應一串記錄項，其中每一項包含一個文檔編號、該關鍵字在該文檔中出現(xiàn)的情況等信息）n 倒排優(yōu)點在于可支持快速的多途徑檢索，組配檢索尤為方便，多數(shù)聯(lián)機檢索都使用倒排檔進行檢索或輔助檢索。其缺點是建立倒排檔需要時間和空間，維護較困難。n 倒排文件是用文檔中所含關鍵詞作為索引、文檔作為索引目標的一種結構。n 預處理即網(wǎng)頁集合形成倒排文件過程的幾個主要問題：關鍵詞的提取、 “ 鏡像網(wǎng)頁 ” 的消除、鏈接分析和網(wǎng)頁重要程度的計算。n 一篇網(wǎng)頁的源文件（通過瀏覽器的 “ 查看源文件 ” 功能）的情況紛繁復雜。除了可以看見的文字內容外，還有大量的HTML標記。n 根據(jù)統(tǒng)計，網(wǎng)頁文檔源文件的大?。ㄗ止?jié)量）通常大約是其中內容大小的 4倍。此外，由于 HTML文檔產(chǎn)生來源的多樣性，許多網(wǎng)頁在內容上比較隨意，不僅文字不規(guī)范、完整，而且還可能包括許多和主要內容無關的信息，如廣告、導航條、版權說明等。n 為了支持后面的查詢服務，需要從網(wǎng)頁源文件中提取出能夠代表它的內容的一些特征。n 從認識和實踐來看，所含的關鍵詞是這種特征的最好代表。n 因此（文本）預處理的第一步就是提取網(wǎng)頁源

點擊復制文檔內容

教學課件相關推薦

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

搜索引擎工作原理ppt課件(編輯修改稿)

搜索引擎使用技巧ppt課件-資料下載頁

搜索引擎技術基礎ppt課件-資料下載頁

搜索引擎營銷基礎ppt課件-資料下載頁

搜索引擎工作原理概述-資料下載頁

[精選]搜索引擎營銷課件-資料下載頁

搜索引擎及搜索技巧-資料下載頁

網(wǎng)絡搜索引擎介紹-資料下載頁

搜索引擎的使用-資料下載頁

搜索引擎的使用-資料下載頁

搜索引擎行特點-資料下載頁

搜索引擎使用技巧-資料下載頁

多媒體搜索引擎-資料下載頁

搜索引擎使用方法ppt課件-資料下載頁

搜索引擎使用技巧-資料下載頁

搜索引擎優(yōu)化詳解-資料下載頁

搜索引擎工作原理ppt課件(專業(yè)版)

搜索引擎工作原理ppt課件(留存版)

搜索引擎工作原理ppt課件-文庫吧

搜索引擎工作原理ppt課件-wenkub