freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎工作原理ppt課件(編輯修改稿)

2025-06-08 08:27 本頁面
 

【文章內(nèi)容簡(jiǎn)介】 更新慢的網(wǎng)頁上,以使系統(tǒng)整體的時(shí)新性達(dá)到比較高的水平。n 最常見的是一種爬?。簩?Web上的網(wǎng)頁集合看成是一個(gè)有向圖,搜集過程從給定起始 URL集合 S(或者說種子)開始,沿著網(wǎng)頁中的鏈接,按照先深、先寬或者別的策略遍歷,不停地從 S中移除 URL,下載相應(yīng)的網(wǎng)頁,解析出網(wǎng)頁中的超鏈接 URL,看是否已經(jīng)被訪問過,將未訪問的那些 URL加入集合 S。整個(gè)過程猶如蜘蛛( spider)在蜘蛛網(wǎng)( Web)中爬行( crawl)。n 多個(gè)蜘蛛同時(shí)在爬。n 任何搜索引擎不可能將 Web上的網(wǎng)頁搜集完全(通常是在比如磁盤滿或者搜集時(shí)間已經(jīng)太長(zhǎng)了),因此必須使搜索引擎搜集到比較重要的網(wǎng)頁。n 按照何種方式可以得到重要網(wǎng)頁?n 研究表明,按照先寬搜集方式得到的網(wǎng)頁集合要比先深搜集得到的網(wǎng)頁重要。n 為什么?n 保證每個(gè)網(wǎng)頁不被重復(fù)抓取。原因是一方面搜集程序沒有清楚記錄已經(jīng)訪問過的 URL,二是由于域名與 IP對(duì)應(yīng)關(guān)系造成的。n 解決的辦法一是使用兩個(gè)表: unvisitedtable和 visitedtable,記錄未訪問、已訪問URL和網(wǎng)頁內(nèi)容摘要信息。n 二是找出那些指向同一物理位置 URL的多個(gè)域名和 IP,這是一個(gè)逐漸積累的過程。n 其實(shí)域名和 IP的對(duì)應(yīng)關(guān)系存在四種情況:一對(duì)一、一對(duì)多、多對(duì)一、多對(duì)多,前者不會(huì)造成重復(fù)搜集,后三者會(huì)造成重復(fù)搜集。n 所以首先要積累一定數(shù)量的域名和 IP,然后將這些域名和 IP對(duì)應(yīng)的首頁和首頁鏈接出的最開始的幾個(gè)頁面抓取回來,如果比較結(jié)果一樣,則歸為一組,以后搜集時(shí)可以只選擇其中一個(gè)進(jìn)行搜集。選擇時(shí)應(yīng)該優(yōu)先選擇有域名的,有的網(wǎng)站對(duì)于直接用 IP訪問是被禁止的。n 例如: IP地址為:, , , , , ,但是直接用 。n Web上的信息具有異質(zhì)性和動(dòng)態(tài)性,由于受時(shí)間和儲(chǔ)存空間的限制,即使是最大的搜索引擎也不可能將全球所有的網(wǎng)頁全部搜集過來,一個(gè)好的搜索策略是優(yōu)先搜集重要的網(wǎng)頁,以便能夠在最短的時(shí)間內(nèi)把最重要的網(wǎng)頁抓取過來,在此要求下,一方面要采用分布并行的體系結(jié)構(gòu)來協(xié)調(diào)工作,一方面要優(yōu)先搜集重要網(wǎng)頁。n 體現(xiàn)網(wǎng)頁重要度的特征有哪些?體現(xiàn)網(wǎng)頁重要度的特征n ① 網(wǎng)頁的 入度(?) 大,表明被其它網(wǎng)頁引用的次數(shù)多n ② 某網(wǎng)頁的父網(wǎng)頁入度(?)大n ③ 網(wǎng)頁的鏡像度高,說明網(wǎng)頁內(nèi)容比較熱門,從而顯得重要n ④ 網(wǎng)頁的 目錄深度(?) 小,易于用戶瀏覽到n 上述特征中哪些很容易被確定?n 網(wǎng)頁入度( page indegree),針對(duì)一個(gè)網(wǎng)頁,整個(gè)網(wǎng)絡(luò)中指向該網(wǎng)頁的超鏈接數(shù)目。n 網(wǎng)頁出度( page outdegree),針對(duì)一個(gè)網(wǎng)頁,該網(wǎng)頁指向其他網(wǎng)頁的超鏈接數(shù)目。n URL目錄深度:網(wǎng)頁對(duì)應(yīng)的 url中除去域名部分的目錄層次,即 url為= localpath部分。如 度為 0, 錄深度為 1n 搜索引擎開始工作時(shí),既不知道要搜的網(wǎng)頁入度大小,也不知道網(wǎng)頁的內(nèi)容是什么,所以對(duì)于表征網(wǎng)頁重要性的第 ①、 ② 、 ③ 項(xiàng)特征在搜集工作開始時(shí)無法確定。這些因素只有在獲得網(wǎng)頁或幾乎所有的 Web鏈接結(jié)構(gòu)之后才能夠知道。只有特征 ④ 是不需要網(wǎng)頁內(nèi)容就可以確定的,因此對(duì)于搜集策略的確定,特征 ④是最值得考慮的指導(dǎo)因素。n 只有特征 ④ 是不需要網(wǎng)頁內(nèi)容就可以確定的,因此對(duì)于搜集策略的確定,特征④ 是最值得考慮的指導(dǎo)因素。網(wǎng)頁的分布狀況n 整個(gè) Web就像一個(gè)深不見底的海洋。將這個(gè)海洋分成兩個(gè)層次:表層和底層n 表層包含的主要是靜態(tài)網(wǎng)頁( static Web page,不需要提交查詢信息即可獲得的頁面)n 底層包含的主要是動(dòng)態(tài)網(wǎng)頁( dynamic Web page,需要通過提交查詢信息獲得含有內(nèi)容的網(wǎng)頁)n 目前搜索引擎主要集中在表層工作。n 在表層中重要網(wǎng)頁的分布或者更接近于海面,或者更接近于底層。對(duì)于網(wǎng)頁的搜集工作,就像一條捕魚的船行駛在海面上,目的是撒網(wǎng)捕捉盡可能多而且重要的網(wǎng)頁。n 實(shí)際搜集網(wǎng)頁經(jīng)驗(yàn)表明,網(wǎng)站的首頁是漂浮在海面上的,網(wǎng)站數(shù)目遠(yuǎn)小于網(wǎng)頁數(shù),并且重要的網(wǎng)頁也必然是從這些網(wǎng)站首頁鏈接過去的,因此搜集工作應(yīng)當(dāng)優(yōu)先獲取盡可能多的網(wǎng)站首頁。因此寬度優(yōu)先搜集是盡快獲得重要網(wǎng)頁最好的辦法。n 采取寬度優(yōu)先搜集最直接有效的方法就是根據(jù)網(wǎng)頁的 URL的目錄深度確定優(yōu)先級(jí),這樣既客觀有容易獲取所需。n 一般搜索引擎就根據(jù)網(wǎng)頁的 URL的目錄深度和鏈接關(guān)系設(shè)定權(quán)值,以決定網(wǎng)頁重要度,并優(yōu)先搜集權(quán)值大的網(wǎng)頁,實(shí)現(xiàn)類似于寬度優(yōu)先搜集的啟發(fā)式搜集策略 。n 相對(duì)來說代價(jià)比較低的方法是面向主題( focused)或話題( topical)的信息采集。n 網(wǎng)絡(luò)爬蟲很難找到的站點(diǎn)統(tǒng)稱為深層網(wǎng)絡(luò)( deep web),也被稱為隱藏網(wǎng)絡(luò)(hidden web)n Private siten Form resultn Scripted pagen 私人站點(diǎn):傾向于隱私內(nèi)容,沒有任何指向它的鏈接,或者在使用該站點(diǎn)之前,需要使用有效的賬戶進(jìn)行注冊(cè)。n 表單結(jié)果:通常需要在表單中填寫數(shù)據(jù)才可以進(jìn)入。如銷售機(jī)票的站點(diǎn),通常在頁面的入口處會(huì)詢問旅行的信息。大多數(shù)爬蟲不可能越過這個(gè)表單獲取航班時(shí)刻表的信息。(參見:搜索引擎:信息檢索實(shí)踐 P25)n 腳本頁面:是使用 JavaScript、 Flash或其他客戶端語言的頁面。如果一個(gè)鏈接并不是以 HTML語言給出的,而是通過在瀏覽器中運(yùn)行 JavaScript生成的,爬蟲需要在該網(wǎng)頁上執(zhí)行 JavaScript才能找到這個(gè)鏈接。技術(shù)上可行,但會(huì)影響速度,增加系統(tǒng)的復(fù)雜性。(二)預(yù)處理按照 “ 程序 =算法 +數(shù)據(jù)結(jié)構(gòu) ” 的觀點(diǎn)來考察程序, 一個(gè)合適的數(shù)據(jù)結(jié)構(gòu)是查詢子系統(tǒng)的核心 。現(xiàn)行最有效的 數(shù)據(jù)結(jié)構(gòu)是 “ 倒排文件 ” (inverted file) .(組織和索引文件、以便于檢索的一種方法。在該方法中,一個(gè)關(guān)鍵詞的集合是基礎(chǔ),該集合中每一個(gè)關(guān)鍵詞對(duì)應(yīng)一串記錄項(xiàng),其中每一項(xiàng)包含一個(gè)文檔編號(hào)、該關(guān)鍵字在該文檔中出現(xiàn)的情況等信息)n 倒排 優(yōu)點(diǎn)在于可支持快速的多途徑檢索,組配檢索尤為方便,多數(shù)聯(lián)機(jī)檢索都使用倒排檔進(jìn)行檢索或輔助檢索。其缺點(diǎn)是建立倒排檔需要時(shí)間和空間,維護(hù)較困難。n 倒排文件是用文檔中所含關(guān)鍵詞作為索引、文檔作為索引目標(biāo)的一種結(jié)構(gòu)。n 預(yù)處理即網(wǎng)頁集合形成倒排文件過程的幾個(gè)主要問題:關(guān)鍵詞的提取、 “ 鏡像網(wǎng)頁 ” 的消除、鏈接分析和網(wǎng)頁重要程度的計(jì)算。n 一篇網(wǎng)頁的源文件(通過瀏覽器的 “ 查看源文件 ” 功能)的情況紛繁復(fù)雜。除了可以看見的文字內(nèi)容外,還有大量的HTML標(biāo)記。n 根據(jù)統(tǒng)計(jì),網(wǎng)頁文檔源文件的大小(字節(jié)量)通常大約是其中內(nèi)容大小的 4倍。此外,由于 HTML文檔產(chǎn)生來源的多樣性,許多網(wǎng)頁在內(nèi)容上比較隨意,不僅文字不規(guī)范、完整,而且還可能包括許多和主要內(nèi)容無關(guān)的信息,如廣告、導(dǎo)航條、版權(quán)說明等。n 為了支持后面的查詢服務(wù),需要從網(wǎng)頁源文件中提取出能夠代表它的內(nèi)容的一些特征。n 從認(rèn)識(shí)和實(shí)踐來看,所含的關(guān)鍵詞是這種特征的最好代表。n 因此(文本)預(yù)處理的第一步就是提取網(wǎng)頁源
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1