freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

《搜索引擎工作原理》ppt課件-全文預(yù)覽

2025-06-02 08:27 上一頁面

下一頁面
  

【正文】 頁,該網(wǎng)頁指向其他網(wǎng)頁的超鏈接數(shù)目。選擇時應(yīng)該優(yōu)先選擇有域名的,有的網(wǎng)站對于直接用 IP訪問是被禁止的。n 解決的辦法一是使用兩個表: unvisitedtable和 visitedtable,記錄未訪問、已訪問URL和網(wǎng)頁內(nèi)容摘要信息。n 任何搜索引擎不可能將 Web上的網(wǎng)頁搜集完全(通常是在比如磁盤滿或者搜集時間已經(jīng)太長了),因此必須使搜索引擎搜集到比較重要的網(wǎng)頁。 C、 優(yōu)化的網(wǎng)頁搜集策略:在系統(tǒng)能力一定的情況下,若有兩類網(wǎng)頁,其更新周期差別大,則系統(tǒng)應(yīng)該將注意力放在更新慢的網(wǎng)頁上,以使系統(tǒng)整體的時新性達到比較高的水平。優(yōu)缺點? 系統(tǒng)實現(xiàn)簡單,但開銷大、額外的寬帶消耗、時新性不高。n 網(wǎng)絡(luò)爬蟲的工作從一個種子( seed)集合開始,種子集合是作為參數(shù)傳遞給網(wǎng)絡(luò)爬蟲的一個 URL的集合。n 自動采集的優(yōu)點是信息處理量大、數(shù)據(jù)更新及時、一般不需人工干預(yù)。n 一是因為有許多網(wǎng)頁無法從其他網(wǎng)頁的鏈接中找到;n 二是因為存儲和處理技術(shù)方面的問題。這就涉及到 “ 序” ( rank)的問題。n 指的是網(wǎng)頁中以某種形式包含有查詢詞的內(nèi)容,其中最簡單、最常見的形式是查詢詞在其中直接出現(xiàn)。n 可以接受的時間:衡量搜索引擎可用性的一個基本指標(biāo),也是與傳統(tǒng)檢索系統(tǒng)的一個重要區(qū)別,通常在 “ 秒 ” 量級。n 尤其是搜索引擎必須處理一些文檔中的垃圾詞,這些詞會導(dǎo)致搜索引擎響應(yīng)一些熱門查詢時被檢索出來。n 響應(yīng)時間:n 查詢吞吐量:n 索引速度:n Coverage:n Recency或 freshness: 搜索應(yīng)用往往要處理動態(tài)持續(xù)變化的信息。n 從 20世紀(jì) 80年代中期開始,在描述用來比較查詢和文檔并生成文檔排序結(jié)果的軟件系統(tǒng)時,逐漸使用 “ 搜索引擎 ” 一詞,而不是 “ 信息檢索系統(tǒng) ” 。n 通用搜索引擎的運行出現(xiàn)了分工:專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商(如美國的 Inktomi,不是直接面向用戶的搜索引擎,而是為 Hotbot,Looksmart等搜索引擎提供全文網(wǎng)頁搜集服務(wù))n 搜索引擎在網(wǎng)絡(luò)信息服務(wù)中具有不可替代的地位。分別具有搜索結(jié)果準(zhǔn)確或全面的特點。n 現(xiàn)代搜索引擎的思路來源于 Wanderer,經(jīng)過不斷的改進, 1994年 7月, Michael Mauldin將 John leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了為人熟知的 Lycos,成為第一個現(xiàn)代意義的搜索引擎。剛開始是用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后發(fā)展為能夠通過它檢索網(wǎng)站域名。n 以 Web網(wǎng)頁為對象的搜索引擎和以 FTP文件為對象的檢索系統(tǒng)一個基本的不同點在于搜集信息的過程。n Archie通過定期搜集并分析 FTP系統(tǒng)中存在的文件名信息,提供查找分布在各個FTP主機中文件的服務(wù)。n 為了彌補這種差別,現(xiàn)代搜索引擎都保存網(wǎng)頁搜集過程中得到的網(wǎng)頁全文,并在返回結(jié)果列表中提供 “ 網(wǎng)頁快照 ” 或者 “ 歷史網(wǎng)頁 ” 鏈接,保證用戶能看到和摘要信息一致的內(nèi)容。(注意:鏈接的是網(wǎng)頁的原始出處)n 摘要:以某種方式得到的網(wǎng)頁內(nèi)容的摘要。(注意:在系統(tǒng)內(nèi)部搜索得到,而不是在 Web上搜索)列表中的每一條目代表一篇網(wǎng)頁,每個條目至少有三個元素:n 標(biāo)題:以某種方式得到的網(wǎng)頁標(biāo)題。此種方式適用于用戶需求較明確,但不知信息所在位置,所以搜索引擎給出一些相關(guān)內(nèi)容的網(wǎng)址及其相關(guān)內(nèi)容的列表,供用戶選擇。此種方式最有針對性。n 之二是評價問題。n enterprise search:是在散布在企業(yè)內(nèi)部網(wǎng)中的大量計算機文件中查找所需信息。n 對人們比較文本的過程進行理解和建模,并設(shè)計計算機算法以便精確地執(zhí)行這種比較,是信息檢索的核心 。n 賬號記錄中包含兩個典型屬性:賬號和當(dāng)前余額。n 所有這些文檔都有一定的結(jié)構(gòu),例如與科技期刊論文的內(nèi)容相關(guān)聯(lián)的標(biāo)題、作者、日期和摘要信息等。 (搜索和通信)n 許多人試圖改進搜索引擎,其實都是在信息檢索領(lǐng)域工作。n 目前,計算機最普遍的應(yīng)用是 、 。( text和 text documant,文本和文本形式的文檔 )n 網(wǎng)頁、電子郵件、學(xué)術(shù)論文、圖書和新聞報道只是文檔類型中的一部分。n 文檔中的大部分信息以文本形式存放,文本是沒有結(jié)構(gòu)。n 因此可以直接實現(xiàn)某個算法,識別出滿足某個查詢條件的記錄,例如: “ 找出賬號為 321456賬戶 ” 或者 “ 找出余額大于 5萬美金的賬戶 ”n 文本的比較容易?n 定義一個詞、句子、段落或者整個新聞報道的意義,比定義一個賬號要難得多。n Vertical search:是網(wǎng)絡(luò)搜索的特殊形式,搜索被限制在特殊的主題上。相關(guān)性 — 檢索模型。n 通過瀏覽器得到信息通常有三種方式:① 直接向瀏覽器輸入一個關(guān)心的網(wǎng)址(URL),瀏覽器返回所請求的網(wǎng)頁,根據(jù)該網(wǎng)頁的內(nèi)容及其包含的超鏈接文字的引導(dǎo),獲得所需的內(nèi)容。n ③ 登錄到某搜索引擎網(wǎng)站,輸入代表自己所關(guān)心信息的關(guān)鍵詞或者短語,依據(jù)所返回的相關(guān)信息列表、摘要和超鏈接引導(dǎo),尋找需要的信息。n 呈現(xiàn)在使用者面前的是一個網(wǎng)頁界面,使其通過瀏覽器提交一個詞語或者短語,然后很快返回一個可能和用戶輸入內(nèi)容相關(guān)的信息列表。有經(jīng)驗的用戶往往通過這個元素對網(wǎng)頁內(nèi)容的權(quán)威性進行判斷。(這是搜索引擎和傳統(tǒng)信息檢索的一個重要區(qū)別)。它們以計算機文件的形式存在,文字材料的編碼通常是 PostScript或者純文本(當(dāng)時還沒有 HTML)n 1990年,加拿大 University of McGill計算機學(xué)院的師生開發(fā)軟件 Archie,被認為現(xiàn)代搜索引擎的鼻祖。其工作方式與搜索引擎的基本相同:自動搜集分布在廣域網(wǎng)上的信息,建立索引,提供檢索服務(wù)。n 1993年, Matthew Gray開發(fā)了 World Wide Web Wanderer ,世界上第一個利用HTML網(wǎng)頁之間的鏈接關(guān)系來監(jiān)測 Web發(fā)展規(guī)模的機器人( robot)程序。在搜索引擎系統(tǒng)中,也稱為網(wǎng)頁搜集子系統(tǒng)。n 此外,還出現(xiàn)了基于目錄的信息服務(wù)網(wǎng)站,如 Yahoo,被成為目錄搜索引擎,以區(qū)別于前面的自動搜索引擎,或者被稱為網(wǎng)站搜索引擎,以區(qū)別于前面的網(wǎng)頁搜索引擎。n 隨著信息數(shù)量、信息種類的變化以及網(wǎng)民成分的變化,出現(xiàn)了多種的主題搜索引擎、個性化搜索引擎、問答式搜索引擎等的出現(xiàn),以滿足不同的信息需求?!?搜索引擎 ” 一詞原來是指為文本搜索服務(wù)的特殊的硬件。搜索引擎設(shè)計中的核心問題n 效能 — 有效的搜索和索引n 合并新數(shù)據(jù) 覆蓋率和新鮮度n 可擴充性 — 隨著數(shù)據(jù)量和用戶量而增長n 自適應(yīng) — 為適應(yīng)特定應(yīng)用而作調(diào)節(jié)n 特殊問題 — 如:垃圾信息n 評價指標(biāo)包括 response time,query throughput,indexing speed。n 為某種商業(yè)利益而制作的文檔中誤導(dǎo)的、不合適的或不相關(guān)的信息。第四節(jié) 搜索引擎工作原理n 網(wǎng)頁搜集n 預(yù)處理n 查詢服務(wù)一 .搜索引擎要達到的基本要求n 能夠接受用戶通過瀏覽器提交的查詢詞或者短語;在一個 可以接受的時間 內(nèi) 返回一個和該用戶查詢 匹 配 的網(wǎng)頁
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1