freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎工作原理ppt課件-資料下載頁(yè)

2025-05-12 08:27本頁(yè)面
  

【正文】 網(wǎng)頁(yè)的預(yù)處理步驟: ① 為原始網(wǎng)頁(yè)建立索引,實(shí)現(xiàn)索引數(shù)據(jù)庫(kù),有了索引就可以為搜索引擎提供網(wǎng)頁(yè)快照功能;n ② 針對(duì)索引網(wǎng)頁(yè)庫(kù)進(jìn)行網(wǎng)頁(yè)切分,將每一篇網(wǎng)頁(yè)轉(zhuǎn)化為一組詞的集合;n ③ 將網(wǎng)頁(yè)到索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁(yè)的映射,形成倒排文件(包括倒排表和索引詞表),同時(shí)將網(wǎng)頁(yè)中包含的不重復(fù)的索引詞匯聚成索引詞表。n 基于索引的檢索技術(shù)非常適應(yīng)于大規(guī)模、穩(wěn)定的或周期性變化的文本文檔庫(kù),如今絕大部分搜索引擎采用的都是基于索引的檢索技術(shù)n 網(wǎng)頁(yè)的預(yù)處理處于搜索引擎第三階段的中間,所產(chǎn)生的數(shù)據(jù)都是中間數(shù)據(jù),如果不提供必要的應(yīng)用程序接口,難以作為數(shù)據(jù)產(chǎn)品提供給其他程序使用。(三)查詢服務(wù)n 如上所述,從一個(gè)原始網(wǎng)頁(yè)集合 S開(kāi)始,預(yù)處理過(guò)程得到的是對(duì) S的一個(gè)子集的元素的某種內(nèi)容表示,這種表示構(gòu)成了查詢服務(wù)的直接基礎(chǔ)。n 對(duì)每個(gè)元素來(lái)說(shuō),這種表示至少包含:原始網(wǎng)頁(yè)文檔、 URL和標(biāo)題、編號(hào)、所含重要關(guān)鍵詞的集合(以及其在文檔中出現(xiàn)的位置信息)和其他一些指標(biāo)(如重要程度、分類代碼等)n 系統(tǒng)關(guān)鍵詞總體的集合和文檔的編號(hào)一起構(gòu)成了一個(gè)倒排文檔結(jié)構(gòu),使得一旦得到一個(gè)關(guān)鍵詞的輸入,系統(tǒng)能迅速給出相關(guān)文檔編號(hào)的集合輸出。n 但是呈現(xiàn)在用戶的目前是一個(gè)列表,而不是集合,所以如何從集合生成列表是服務(wù)子系統(tǒng)的主要工作。n 服務(wù)子系統(tǒng)是服務(wù)過(guò)程中涉及的相關(guān)軟件程序,其工作原理主要有以下三方面。n 用一個(gè)詞或短語(yǔ)來(lái)直接表達(dá)信息需求,希望網(wǎng)頁(yè)中含有該詞或該短語(yǔ)中的詞,是主流搜索引擎查詢方式。n 通過(guò)分詞或切詞將用戶的查詢?cè)级陶Z(yǔ)形成一個(gè)用于參加匹配的查詢?cè)~表,對(duì)應(yīng)倒排文件中的一個(gè)倒排表(文檔編號(hào)的集合),兩者的交集即為對(duì)應(yīng)查詢的結(jié)果文檔集合,從而實(shí)現(xiàn)查詢和文檔的匹配。n 在搜索引擎的早期采用傳統(tǒng)信息檢索領(lǐng)域成熟的基于詞匯出現(xiàn)頻率的方法。由于網(wǎng)頁(yè)編寫(xiě)的自發(fā)性、隨意性較強(qiáng),僅僅針對(duì)詞的出現(xiàn)來(lái)決定文檔的順序,在Web信息檢索上表現(xiàn)明顯的缺點(diǎn),需要其它技術(shù)補(bǔ)充,如 Pagerank技術(shù)n 即:通過(guò)在預(yù)處理階段為每篇網(wǎng)頁(yè)形成一個(gè)獨(dú)立于查詢?cè)~(和網(wǎng)頁(yè)內(nèi)容無(wú)關(guān))的重要性指標(biāo),將它和查詢過(guò)程中形成的相關(guān)性指標(biāo)結(jié)合形成一個(gè)最終的排序,是目前搜索引擎查詢結(jié)果排序的主要方法。n 搜索引擎給出的檢索結(jié)果是一個(gè)有序的結(jié)果列表,每一個(gè)條目有三個(gè)基本元素:標(biāo)題、網(wǎng)址和摘要。其中摘要需要從網(wǎng)頁(yè)正文中生成。n 從一篇文章中生成一個(gè)恰當(dāng)?shù)恼亲匀徽Z(yǔ)言理解領(lǐng)域的一個(gè)重要課題,已經(jīng)取得了不少成果。但是相關(guān)技術(shù)應(yīng)用到搜索引擎上有兩個(gè)基本困難:一是網(wǎng)頁(yè)的寫(xiě)作不規(guī)范,文字比較隨意,因此從語(yǔ)言理解的角度難以做好;二是復(fù)雜的語(yǔ)言理解算法耗時(shí)太多,不適應(yīng)搜索引擎高效處理海量網(wǎng)頁(yè)信息的需求。n 根據(jù)統(tǒng)計(jì),在高檔微機(jī)上每秒鐘只能完成 10篇左右網(wǎng)頁(yè)的分詞工作(基于文本理解的基礎(chǔ))。n 搜索引擎在生成摘要時(shí)要簡(jiǎn)便得多,基本上可以歸納為兩種方式:n 一是靜態(tài)方式,即獨(dú)立于查詢,按照某種規(guī)則,事先在預(yù)處理階段從網(wǎng)頁(yè)內(nèi)容提取出一些文字,如摘取網(wǎng)頁(yè)正文的開(kāi)頭 512個(gè)字符(對(duì)應(yīng) 256個(gè)漢字),或者將每一個(gè)段落的第一個(gè)句子拼起來(lái)等等。n 這種方式的優(yōu)點(diǎn)?n 動(dòng)態(tài)方式的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單,但是摘要和查詢有時(shí)無(wú)關(guān)。其實(shí)當(dāng)用戶輸入某個(gè)查詢?cè)~,他一般是希望摘要中能夠突出顯示和查詢直接對(duì)應(yīng)的文字,希望摘要中出現(xiàn)與其關(guān)心相關(guān)的句子,因此有第二種方式,即動(dòng)態(tài)摘要。n 二是動(dòng)態(tài)摘要。即在響應(yīng)用戶查詢的時(shí)候,根據(jù)查詢?cè)~在文檔中出現(xiàn)的位置,提取出查詢?cè)~周圍相關(guān)文字并返回給用戶,這是目前大多數(shù)搜索引擎采取的方式。缺點(diǎn)是?n 由于一篇文檔會(huì)含有不同的查詢?cè)~,因此動(dòng)態(tài)摘要技術(shù)可能把同一個(gè)文檔形成不同的摘要文字)為了保證查詢的效率,需要在預(yù)處理階段分詞的時(shí)候記住每個(gè)關(guān)鍵詞在文檔中出現(xiàn)的位置。信息查詢的系統(tǒng)結(jié)構(gòu)查詢代理 Web搜索記錄日志n 經(jīng)過(guò)預(yù)處理,傳遞到服務(wù)階段的數(shù)據(jù)包括索引網(wǎng)頁(yè)庫(kù)和倒排文件,倒排文件中包括倒排表和索引詞表。n 查詢代理接受用戶輸入的查詢?cè)~語(yǔ),切分后,從索引詞表和倒排文件中檢索獲得包含查詢短語(yǔ)的文檔并返回用戶。n 因?yàn)閮?nèi)存與外存(磁盤)的響應(yīng)時(shí)間差距很大,在實(shí)際使用的搜索引擎中,為了提高響應(yīng)時(shí)間,索引詞表是駐留在內(nèi)存中的,用戶近期查詢過(guò)的網(wǎng)頁(yè)結(jié)果信息也是緩存在內(nèi)存中的。如果內(nèi)存足夠大,所有倒排表項(xiàng)也可以駐留在內(nèi)存中。只有這樣,才能保證在大數(shù)據(jù)量和大訪問(wèn)量(如每秒 1000個(gè)查詢)的情況下,搜索引擎在秒級(jí)內(nèi)得到響應(yīng)。(四)搜索引擎總的體系結(jié)構(gòu)n 大規(guī)模的搜索引擎通常每天搜集上百萬(wàn)網(wǎng)頁(yè),而且是持續(xù)進(jìn)行,并且穩(wěn)定地提供網(wǎng)頁(yè)信息,其核心是要綜合 解決效率、質(zhì)量和 “ 禮貌 ” 問(wèn)題 ,即 “ 控制器 ”的作用。n 下圖為搜索引擎的體系結(jié)構(gòu)??刂破魉饕魉饕龜?shù)據(jù)庫(kù)搜集器日志分析器用戶行為日志數(shù)據(jù)庫(kù)用戶WWW原始數(shù)據(jù)庫(kù)檢索器用戶接口n 所謂效率,即利用盡量少的資源(計(jì)算機(jī)設(shè)備、網(wǎng)絡(luò)寬帶、時(shí)間)來(lái)完成預(yù)定的網(wǎng)頁(yè)搜集量。n ① 讓網(wǎng)絡(luò)通信時(shí)間和存放網(wǎng)頁(yè)的磁盤訪問(wèn)時(shí)間重疊起來(lái)。由于從網(wǎng)上抓取一篇網(wǎng)頁(yè)通常需要秒量級(jí)的等待網(wǎng)絡(luò)通信時(shí)間,同時(shí)啟動(dòng)多個(gè)抓取進(jìn)程 ∕ 線,或者利用操作系統(tǒng)提供的異步通信機(jī)制,讓多個(gè)網(wǎng)絡(luò)通信時(shí)間重疊起來(lái)。同時(shí)啟動(dòng)抓取進(jìn)程的數(shù)量取決于硬件條件和搜集軟件的設(shè)計(jì)。n ② 并不是設(shè)備越多越好,一般不超出 10臺(tái)計(jì)算機(jī)(寬帶瓶頸問(wèn)題)n ③ 網(wǎng)絡(luò)的服務(wù)器方,來(lái)不及提供所需的網(wǎng)頁(yè)。n 將對(duì)搜集活動(dòng)的關(guān)注過(guò)分集中在幾個(gè)網(wǎng)站上、或者一下段時(shí)間里從一個(gè)網(wǎng)站抓取太多的網(wǎng)頁(yè)還可能引起其它的嚴(yán)重后果,即所謂的 “ 禮貌 ” 問(wèn)題。n 一般網(wǎng)站希望其網(wǎng)頁(yè)被搜索引擎抓取,從而有可能得到更多的訪問(wèn)流量,但是另一方面網(wǎng)站也不希望由于搜索引擎的密集抓取活動(dòng)阻礙普通用戶通過(guò)瀏覽器的訪問(wèn),使那些用戶得到這個(gè)網(wǎng)站訪問(wèn)困難的印象。n 因此適當(dāng)?shù)匾?guī)劃網(wǎng)頁(yè)的抓取,限制單位時(shí)間內(nèi)對(duì)一個(gè)網(wǎng)站抓取網(wǎng)頁(yè)的數(shù)量(例如每天不超過(guò) 2萬(wàn)個(gè),或者至少每隔 30秒才對(duì)一個(gè)網(wǎng)站發(fā)出下一個(gè)網(wǎng)頁(yè)請(qǐng)求等等),是大規(guī)模搜索引擎必須認(rèn)真對(duì)待的問(wèn)題。n 在有限的時(shí)間,搜集有限的網(wǎng)頁(yè),希望是比較重要的網(wǎng)頁(yè)。一般來(lái)說(shuō),靠近主頁(yè)的網(wǎng)頁(yè)通常 PageRank值較高。所以,首先得到盡量多的主頁(yè),然后從主頁(yè)開(kāi)始的先寬搜索是較好的策略。(五) 搜索引擎的架構(gòu)n 軟件架構(gòu)n 基本的構(gòu)件n 組件及其功能軟件架構(gòu)n 軟件構(gòu)件通常包括軟件組件、組件提供的接口以及各組件之間的關(guān)系?;镜臉?gòu)建n 搜索引擎的組件主要提供兩種功能,即索引處理和查詢處理。n 索引處理建立可查找的數(shù)據(jù)結(jié)構(gòu),查詢處理使用這些數(shù)據(jù)結(jié)構(gòu)和用戶查詢生成一個(gè)排好序的文檔列表。n 索引處理包括文本采集、文本轉(zhuǎn)換和索引創(chuàng)建。n 查詢處理包括用戶交互、排序和評(píng)價(jià)。組件及功能n 文本采集(爬蟲(chóng)、信息源、轉(zhuǎn)換、文檔數(shù)據(jù)庫(kù))n 文本轉(zhuǎn)換(解析器、停用詞去除、詞干提取、超鏈接的抽取與分析、信息抽取、分類器)n 索引的創(chuàng)建(文檔統(tǒng)計(jì)、加權(quán)、倒排、索引分派)n 用戶交互(查詢輸入、查詢轉(zhuǎn)換、結(jié)果輸出)n 排序(打分機(jī)制、性能優(yōu)化、分布式)n 評(píng)價(jià)(日志、排序分析、性能分析
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1