正文內(nèi)容

搜索引擎工作原理ppt課件-資料下載頁(yè)

2025-05-12 08:27本頁(yè)面

　　

【正文】網(wǎng)頁(yè)的預(yù)處理步驟： ① 為原始網(wǎng)頁(yè)建立索引，實(shí)現(xiàn)索引數(shù)據(jù)庫(kù)，有了索引就可以為搜索引擎提供網(wǎng)頁(yè)快照功能；n ② 針對(duì)索引網(wǎng)頁(yè)庫(kù)進(jìn)行網(wǎng)頁(yè)切分，將每一篇網(wǎng)頁(yè)轉(zhuǎn)化為一組詞的集合；n ③ 將網(wǎng)頁(yè)到索引詞的映射轉(zhuǎn)化為索引詞到網(wǎng)頁(yè)的映射，形成倒排文件（包括倒排表和索引詞表），同時(shí)將網(wǎng)頁(yè)中包含的不重復(fù)的索引詞匯聚成索引詞表。n 基于索引的檢索技術(shù)非常適應(yīng)于大規(guī)模、穩(wěn)定的或周期性變化的文本文檔庫(kù)，如今絕大部分搜索引擎采用的都是基于索引的檢索技術(shù)n 網(wǎng)頁(yè)的預(yù)處理處于搜索引擎第三階段的中間，所產(chǎn)生的數(shù)據(jù)都是中間數(shù)據(jù)，如果不提供必要的應(yīng)用程序接口，難以作為數(shù)據(jù)產(chǎn)品提供給其他程序使用。（三）查詢服務(wù)n 如上所述，從一個(gè)原始網(wǎng)頁(yè)集合 S開(kāi)始，預(yù)處理過(guò)程得到的是對(duì) S的一個(gè)子集的元素的某種內(nèi)容表示，這種表示構(gòu)成了查詢服務(wù)的直接基礎(chǔ)。n 對(duì)每個(gè)元素來(lái)說(shuō)，這種表示至少包含：原始網(wǎng)頁(yè)文檔、 URL和標(biāo)題、編號(hào)、所含重要關(guān)鍵詞的集合（以及其在文檔中出現(xiàn)的位置信息）和其他一些指標(biāo)（如重要程度、分類代碼等）n 系統(tǒng)關(guān)鍵詞總體的集合和文檔的編號(hào)一起構(gòu)成了一個(gè)倒排文檔結(jié)構(gòu)，使得一旦得到一個(gè)關(guān)鍵詞的輸入，系統(tǒng)能迅速給出相關(guān)文檔編號(hào)的集合輸出。n 但是呈現(xiàn)在用戶的目前是一個(gè)列表，而不是集合，所以如何從集合生成列表是服務(wù)子系統(tǒng)的主要工作。n 服務(wù)子系統(tǒng)是服務(wù)過(guò)程中涉及的相關(guān)軟件程序，其工作原理主要有以下三方面。n 用一個(gè)詞或短語(yǔ)來(lái)直接表達(dá)信息需求，希望網(wǎng)頁(yè)中含有該詞或該短語(yǔ)中的詞，是主流搜索引擎查詢方式。n 通過(guò)分詞或切詞將用戶的查詢?cè)级陶Z(yǔ)形成一個(gè)用于參加匹配的查詢?cè)~表，對(duì)應(yīng)倒排文件中的一個(gè)倒排表（文檔編號(hào)的集合），兩者的交集即為對(duì)應(yīng)查詢的結(jié)果文檔集合，從而實(shí)現(xiàn)查詢和文檔的匹配。n 在搜索引擎的早期采用傳統(tǒng)信息檢索領(lǐng)域成熟的基于詞匯出現(xiàn)頻率的方法。由于網(wǎng)頁(yè)編寫(xiě)的自發(fā)性、隨意性較強(qiáng)，僅僅針對(duì)詞的出現(xiàn)來(lái)決定文檔的順序，在Web信息檢索上表現(xiàn)明顯的缺點(diǎn)，需要其它技術(shù)補(bǔ)充，如 Pagerank技術(shù)n 即：通過(guò)在預(yù)處理階段為每篇網(wǎng)頁(yè)形成一個(gè)獨(dú)立于查詢?cè)~（和網(wǎng)頁(yè)內(nèi)容無(wú)關(guān)）的重要性指標(biāo)，將它和查詢過(guò)程中形成的相關(guān)性指標(biāo)結(jié)合形成一個(gè)最終的排序，是目前搜索引擎查詢結(jié)果排序的主要方法。n 搜索引擎給出的檢索結(jié)果是一個(gè)有序的結(jié)果列表，每一個(gè)條目有三個(gè)基本元素：標(biāo)題、網(wǎng)址和摘要。其中摘要需要從網(wǎng)頁(yè)正文中生成。n 從一篇文章中生成一個(gè)恰當(dāng)?shù)恼亲匀徽Z(yǔ)言理解領(lǐng)域的一個(gè)重要課題，已經(jīng)取得了不少成果。但是相關(guān)技術(shù)應(yīng)用到搜索引擎上有兩個(gè)基本困難：一是網(wǎng)頁(yè)的寫(xiě)作不規(guī)范，文字比較隨意，因此從語(yǔ)言理解的角度難以做好；二是復(fù)雜的語(yǔ)言理解算法耗時(shí)太多，不適應(yīng)搜索引擎高效處理海量網(wǎng)頁(yè)信息的需求。n 根據(jù)統(tǒng)計(jì)，在高檔微機(jī)上每秒鐘只能完成 10篇左右網(wǎng)頁(yè)的分詞工作（基于文本理解的基礎(chǔ)）。n 搜索引擎在生成摘要時(shí)要簡(jiǎn)便得多，基本上可以歸納為兩種方式：n 一是靜態(tài)方式，即獨(dú)立于查詢，按照某種規(guī)則，事先在預(yù)處理階段從網(wǎng)頁(yè)內(nèi)容提取出一些文字，如摘取網(wǎng)頁(yè)正文的開(kāi)頭 512個(gè)字符（對(duì)應(yīng) 256個(gè)漢字），或者將每一個(gè)段落的第一個(gè)句子拼起來(lái)等等。n 這種方式的優(yōu)點(diǎn)？n 動(dòng)態(tài)方式的優(yōu)點(diǎn)是實(shí)現(xiàn)簡(jiǎn)單，但是摘要和查詢有時(shí)無(wú)關(guān)。其實(shí)當(dāng)用戶輸入某個(gè)查詢?cè)~，他一般是希望摘要中能夠突出顯示和查詢直接對(duì)應(yīng)的文字，希望摘要中出現(xiàn)與其關(guān)心相關(guān)的句子，因此有第二種方式，即動(dòng)態(tài)摘要。n 二是動(dòng)態(tài)摘要。即在響應(yīng)用戶查詢的時(shí)候，根據(jù)查詢?cè)~在文檔中出現(xiàn)的位置，提取出查詢?cè)~周圍相關(guān)文字并返回給用戶，這是目前大多數(shù)搜索引擎采取的方式。缺點(diǎn)是？n 由于一篇文檔會(huì)含有不同的查詢?cè)~，因此動(dòng)態(tài)摘要技術(shù)可能把同一個(gè)文檔形成不同的摘要文字）為了保證查詢的效率，需要在預(yù)處理階段分詞的時(shí)候記住每個(gè)關(guān)鍵詞在文檔中出現(xiàn)的位置。信息查詢的系統(tǒng)結(jié)構(gòu)查詢代理 Web搜索記錄日志n 經(jīng)過(guò)預(yù)處理，傳遞到服務(wù)階段的數(shù)據(jù)包括索引網(wǎng)頁(yè)庫(kù)和倒排文件，倒排文件中包括倒排表和索引詞表。n 查詢代理接受用戶輸入的查詢?cè)~語(yǔ)，切分后，從索引詞表和倒排文件中檢索獲得包含查詢短語(yǔ)的文檔并返回用戶。n 因?yàn)閮?nèi)存與外存（磁盤）的響應(yīng)時(shí)間差距很大，在實(shí)際使用的搜索引擎中，為了提高響應(yīng)時(shí)間，索引詞表是駐留在內(nèi)存中的，用戶近期查詢過(guò)的網(wǎng)頁(yè)結(jié)果信息也是緩存在內(nèi)存中的。如果內(nèi)存足夠大，所有倒排表項(xiàng)也可以駐留在內(nèi)存中。只有這樣，才能保證在大數(shù)據(jù)量和大訪問(wèn)量（如每秒 1000個(gè)查詢）的情況下，搜索引擎在秒級(jí)內(nèi)得到響應(yīng)。（四）搜索引擎總的體系結(jié)構(gòu)n 大規(guī)模的搜索引擎通常每天搜集上百萬(wàn)網(wǎng)頁(yè)，而且是持續(xù)進(jìn)行，并且穩(wěn)定地提供網(wǎng)頁(yè)信息，其核心是要綜合解決效率、質(zhì)量和 “ 禮貌 ” 問(wèn)題，即 “ 控制器 ”的作用。n 下圖為搜索引擎的體系結(jié)構(gòu)?？刂破魉饕魉饕龜?shù)據(jù)庫(kù)搜集器日志分析器用戶行為日志數(shù)據(jù)庫(kù)用戶WWW原始數(shù)據(jù)庫(kù)檢索器用戶接口n 所謂效率，即利用盡量少的資源（計(jì)算機(jī)設(shè)備、網(wǎng)絡(luò)寬帶、時(shí)間）來(lái)完成預(yù)定的網(wǎng)頁(yè)搜集量。n ① 讓網(wǎng)絡(luò)通信時(shí)間和存放網(wǎng)頁(yè)的磁盤訪問(wèn)時(shí)間重疊起來(lái)。由于從網(wǎng)上抓取一篇網(wǎng)頁(yè)通常需要秒量級(jí)的等待網(wǎng)絡(luò)通信時(shí)間，同時(shí)啟動(dòng)多個(gè)抓取進(jìn)程 ∕ 線，或者利用操作系統(tǒng)提供的異步通信機(jī)制，讓多個(gè)網(wǎng)絡(luò)通信時(shí)間重疊起來(lái)。同時(shí)啟動(dòng)抓取進(jìn)程的數(shù)量取決于硬件條件和搜集軟件的設(shè)計(jì)。n ② 并不是設(shè)備越多越好，一般不超出 10臺(tái)計(jì)算機(jī)（寬帶瓶頸問(wèn)題）n ③ 網(wǎng)絡(luò)的服務(wù)器方，來(lái)不及提供所需的網(wǎng)頁(yè)。n 將對(duì)搜集活動(dòng)的關(guān)注過(guò)分集中在幾個(gè)網(wǎng)站上、或者一下段時(shí)間里從一個(gè)網(wǎng)站抓取太多的網(wǎng)頁(yè)還可能引起其它的嚴(yán)重后果，即所謂的 “ 禮貌 ” 問(wèn)題。n 一般網(wǎng)站希望其網(wǎng)頁(yè)被搜索引擎抓取，從而有可能得到更多的訪問(wèn)流量，但是另一方面網(wǎng)站也不希望由于搜索引擎的密集抓取活動(dòng)阻礙普通用戶通過(guò)瀏覽器的訪問(wèn)，使那些用戶得到這個(gè)網(wǎng)站訪問(wèn)困難的印象。n 因此適當(dāng)?shù)匾?guī)劃網(wǎng)頁(yè)的抓取，限制單位時(shí)間內(nèi)對(duì)一個(gè)網(wǎng)站抓取網(wǎng)頁(yè)的數(shù)量（例如每天不超過(guò) 2萬(wàn)個(gè)，或者至少每隔 30秒才對(duì)一個(gè)網(wǎng)站發(fā)出下一個(gè)網(wǎng)頁(yè)請(qǐng)求等等），是大規(guī)模搜索引擎必須認(rèn)真對(duì)待的問(wèn)題。n 在有限的時(shí)間，搜集有限的網(wǎng)頁(yè)，希望是比較重要的網(wǎng)頁(yè)。一般來(lái)說(shuō)，靠近主頁(yè)的網(wǎng)頁(yè)通常 PageRank值較高。所以，首先得到盡量多的主頁(yè)，然后從主頁(yè)開(kāi)始的先寬搜索是較好的策略。（五）搜索引擎的架構(gòu)n 軟件架構(gòu)n 基本的構(gòu)件n 組件及其功能軟件架構(gòu)n 軟件構(gòu)件通常包括軟件組件、組件提供的接口以及各組件之間的關(guān)系?；镜臉?gòu)建n 搜索引擎的組件主要提供兩種功能，即索引處理和查詢處理。n 索引處理建立可查找的數(shù)據(jù)結(jié)構(gòu)，查詢處理使用這些數(shù)據(jù)結(jié)構(gòu)和用戶查詢生成一個(gè)排好序的文檔列表。n 索引處理包括文本采集、文本轉(zhuǎn)換和索引創(chuàng)建。n 查詢處理包括用戶交互、排序和評(píng)價(jià)。組件及功能n 文本采集（爬蟲(chóng)、信息源、轉(zhuǎn)換、文檔數(shù)據(jù)庫(kù)）n 文本轉(zhuǎn)換（解析器、停用詞去除、詞干提取、超鏈接的抽取與分析、信息抽取、分類器）n 索引的創(chuàng)建（文檔統(tǒng)計(jì)、加權(quán)、倒排、索引分派）n 用戶交互（查詢輸入、查詢轉(zhuǎn)換、結(jié)果輸出）n 排序（打分機(jī)制、性能優(yōu)化、分布式）n 評(píng)價(jià)（日志、排序分析、性能分析

點(diǎn)擊復(fù)制文檔內(nèi)容

教學(xué)課件相關(guān)推薦

nuwaaa搜索引擎-資料下載頁(yè)

【總結(jié)】信息檢索與分析利用第3章搜索引擎1第3章搜索引擎概述典型的搜索引擎搜索引擎的檢索技巧信息檢索與分析利用第3章搜索引擎2概述基本概念I(lǐng)nter的主要信息服務(wù)類型搜索引擎的類型信息檢索與分析利用第3章搜索引擎31．搜索引擎搜

2025-08-04 09:37

kegaaa搜索引擎-資料下載頁(yè)

【總結(jié)】所有搜索引擎的祖先，是1990年由Montreal的McGillUniversity三名學(xué)生（AlanEmtage、PeterDeutsch、BillWheelan）發(fā)明的Archie（ArchieFAQ）。AlanEmtage等想到了開(kāi)發(fā)一個(gè)可以用文件名查找文件的系統(tǒng)，于是便有了Archie。Archie是第一個(gè)自動(dòng)索引互聯(lián)網(wǎng)上匿名

2025-08-04 09:55

搜索引擎優(yōu)化-資料下載頁(yè)

【總結(jié)】搜索引擎優(yōu)化百度版影響搜索引擎優(yōu)化的因素?域名及空間?網(wǎng)站建設(shè)?網(wǎng)站運(yùn)營(yíng)域名及空間?域名盡量簡(jiǎn)短、與網(wǎng)站主題有關(guān)聯(lián)?域名后綴盡量常見(jiàn)如、、等?查看域名是否有被懲罰歷史?服務(wù)器空間要穩(wěn)定、訪問(wèn)速度要快?相同服務(wù)器要看有沒(méi)有相同IP的網(wǎng)站被懲罰網(wǎng)站建設(shè)?對(duì)用戶體

2025-08-04 15:47

搜索引擎(3)-資料下載頁(yè)

【總結(jié)】搜索引擎?1、什么是搜索引擎?2、搜索引擎的工作原理?3、搜索引擎的發(fā)展過(guò)程?4、搜索引擎的類型及使用技巧什么是搜索引擎(p54)?搜索引擎是指通過(guò)網(wǎng)絡(luò)機(jī)器人在網(wǎng)際某一空間、某一領(lǐng)域中尋找和發(fā)現(xiàn)有用或相關(guān)的信息，并在此基礎(chǔ)上建立檢索數(shù)據(jù)庫(kù)，通過(guò)簡(jiǎn)單友好的界面提供給用戶查詢的工具。

2025-08-04 17:13

外文搜索引擎-資料下載頁(yè)

【總結(jié)】SpringerLink新平臺(tái)使用指南徐州師范大學(xué)圖書(shū)館信息咨詢部2022-10-9LibraryofHenanNormalUniversityJuneSpringerLink簡(jiǎn)介?Springer出版社擁有165年的出版歷史?全球最大的學(xué)術(shù)與科技圖書(shū)出版社（每年出版4,000種新

2025-07-25 04:13

iqraaa搜索引擎-資料下載頁(yè)

【總結(jié)】獲取信息的方法1搜索引擎主流搜索引擎搜索引擎(searchengine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息，在對(duì)信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)的系統(tǒng)。搜索信息的機(jī)器2常用的檢索工具兩種檢索方法?目錄檢索?關(guān)鍵字檢索Contents3Cont

2025-08-04 09:44

搜索引擎使用技巧ppt課件-資料下載頁(yè)

【總結(jié)】搜索引擎使用技巧趙秀姣圖書(shū)館咨詢部電話：51688633使用搜索引擎是否遇到這樣的問(wèn)題：&信息量多、雜、針對(duì)性不強(qiáng)&學(xué)術(shù)資源的獲取常見(jiàn)

2025-04-30 18:08

搜索引擎技術(shù)基礎(chǔ)ppt課件-資料下載頁(yè)

【總結(jié)】搜索引擎原理目錄一、搜索引擎總體介紹二、爬蟲(chóng)技術(shù)介紹三、中文分詞和排序算法介紹四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹一、搜索引擎總體介紹(一)搜索引擎定義“搜索引擎”技術(shù)，完全來(lái)源于歷史悠久的全文檢索技術(shù)。“搜索引擎”從字面上可拆分為“搜”、“索”、“引擎”三個(gè)含義。“搜”就是大量信息的抓取，抓取回來(lái)后的

2025-04-30 18:22

搜索引擎營(yíng)銷基礎(chǔ)ppt課件-資料下載頁(yè)

【總結(jié)】第5章搜索引擎營(yíng)銷第5章目錄導(dǎo)航導(dǎo)入案例搜索引擎的網(wǎng)絡(luò)營(yíng)銷價(jià)值搜索引擎營(yíng)銷的基本原理搜索引擎營(yíng)銷的主要模式基于搜索引擎自然檢索的搜索引擎優(yōu)化搜索引擎廣告策略搜索引擎營(yíng)銷中的用戶行為研究導(dǎo)入案例：“汽車”的檢索結(jié)果?9頁(yè)10th比亞迪汽車銷售有限公司-BYD?10

2025-05-04 00:04

搜索引擎工作原理概述-資料下載頁(yè)

【總結(jié)】讓網(wǎng)絡(luò)營(yíng)銷管理簡(jiǎn)單、直接、有效、可視化Simple，direct，effeftive，andvisualization搜索引擎工作原理的幾個(gè)基本問(wèn)題解答搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息，在對(duì)信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)，將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。類型：（全文索引）（目錄索引）：名副其實(shí)的

2025-06-25 07:21

[精選]搜索引擎營(yíng)銷課件-資料下載頁(yè)

【總結(jié)】搜索引擎營(yíng)銷?在迕行了網(wǎng)站癿建設(shè)，網(wǎng)站癿宣傳，現(xiàn)在增加一種宣傳網(wǎng)站庖鋪癿方式，搜索引擎營(yíng)銷，利用網(wǎng)絡(luò)癿虧勱性癿特點(diǎn)，使?jié)撛诳蛻舫蔀檎嬲m客戶，幵丏最大限度癿宣傳網(wǎng)站和庖鋪。?前提：網(wǎng)站巫經(jīng)建設(shè)成功，幵丏迓沒(méi)有開(kāi)展搜索引擎營(yíng)銷。?關(guān)鍵和難點(diǎn)：關(guān)鍵字癿設(shè)置項(xiàng)目目標(biāo)?癿依賴和使用習(xí)慣，在人們檢索信息癿時(shí)候盡可能將營(yíng)銷信息傳遞給目標(biāo)客戶，追

2025-02-18 14:55

freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

搜索引擎工作原理ppt課件-資料下載頁(yè)

nuwaaa搜索引擎-資料下載頁(yè)

kegaaa搜索引擎-資料下載頁(yè)

搜索引擎優(yōu)化-資料下載頁(yè)

搜索引擎(3)-資料下載頁(yè)

外文搜索引擎-資料下載頁(yè)

iqraaa搜索引擎-資料下載頁(yè)

搜索引擎使用技巧ppt課件-資料下載頁(yè)

搜索引擎技術(shù)基礎(chǔ)ppt課件-資料下載頁(yè)

搜索引擎營(yíng)銷基礎(chǔ)ppt課件-資料下載頁(yè)

搜索引擎工作原理概述-資料下載頁(yè)

[精選]搜索引擎營(yíng)銷課件-資料下載頁(yè)

搜索引擎及搜索技巧-資料下載頁(yè)

網(wǎng)絡(luò)搜索引擎介紹-資料下載頁(yè)

搜索引擎的使用-資料下載頁(yè)

搜索引擎的使用-資料下載頁(yè)

搜索引擎工作原理ppt課件(完整版)

搜索引擎工作原理ppt課件(更新版)

搜索引擎工作原理ppt課件(專業(yè)版)

搜索引擎工作原理ppt課件(留存版)