freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[農(nóng)學(xué)]搜索引擎技術(shù)基礎(chǔ)-展示頁(yè)

2024-10-27 22:39本頁(yè)面
  

【正文】 起來(lái)過(guò)于復(fù)雜,所以以第一種和第三種算法為主。 下面的中文斷句,來(lái)自百度廣告宣傳片 : 「我知道你不知道我知道你不知道我知道你不知道」 三、中文分詞和排序算法介紹 (一 )中文分詞: 另外中文的具體含義,還必須放在具體的前后語(yǔ)言環(huán)境中去分析。 三、中文分詞和排序算法介紹 (一 )中文分詞: 中文本身存在著很大的歧義性,同樣一句話,不同的斷句,表達(dá)的意思就不一樣。 :由被抓取網(wǎng)站,提供可被抓取內(nèi)容的 sitemap網(wǎng)站地圖,雙方協(xié)議好,只抓取這些特定內(nèi)容,在抓取速度及時(shí)間上雙方前期進(jìn)行協(xié)商。 二、爬蟲技術(shù)介紹 (三 ) 抓取策略: 1. 深度優(yōu)先策略:對(duì)于一些大網(wǎng)站及靜態(tài)網(wǎng)頁(yè)為主的抓取內(nèi)容,采取深度策略抓取,便于在最短時(shí)間內(nèi)獲得最大量?jī)?nèi)容。 4. 文件對(duì)象:圖片, MP Flash、視頻等文件的抓取,都要特殊處理。 :比如 RSS、 XML數(shù)據(jù),情況特殊需特殊處理。 二、爬蟲技術(shù)介紹 (二 ) 抓取對(duì)象: 1. 靜態(tài)網(wǎng)頁(yè):爬蟲從一個(gè)或若干初始網(wǎng)頁(yè)的 URL開始,獲得初始網(wǎng)頁(yè)上的 URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列 ,直到滿足系統(tǒng)的一定停止條件。 網(wǎng)絡(luò)爬蟲 還要完成信息提取任務(wù),對(duì)于抓取回來(lái)的網(wǎng)頁(yè)提取出來(lái) :新聞、電子圖書、行業(yè)信息等。 一、搜索引擎總體介紹 (四 )系統(tǒng)圖: 二、爬蟲技術(shù)介紹 (一 )爬蟲技術(shù)總體介紹: 網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從 Inter網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。 ? 用戶接口 (USER INTERFACE)的作用是輸入用戶查詢 、 顯示查詢結(jié)果 、 提供用戶相關(guān)性反饋機(jī)制 。 ? 索引器 (INDEXER)的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于描述文檔以及生成文檔集的索引表。 “ 引擎 ”就是指系統(tǒng)不但能存儲(chǔ)億級(jí)的數(shù)據(jù),而且還能有巨大的并發(fā)處理能力,這樣的系統(tǒng)才有資格被叫著“引擎”。 “ 搜 ”就是大量信息的抓取,抓取回來(lái)后的信息進(jìn)行智能提取、排重、質(zhì)量分析等處理。搜索引擎原理 目錄 一、 搜索引擎總體介紹 二、爬蟲技術(shù)介紹 三、中文分詞和排序算法介紹 四、查詢 /存儲(chǔ)技術(shù)、 Cache Server介紹 一、搜索引擎總體介紹 (一 )搜索引擎定義 “搜索引擎”技術(shù),完全來(lái)源于歷史悠久的全文檢索技術(shù)。 “搜索引擎”從字面上可拆分為“ 搜 ”、“ 索 ”、“ 引擎 ”三個(gè)含義。 “ 索 ”就是大量處理后信息的存儲(chǔ)、信息排序、快速查詢等。 一、搜索引擎總體介紹 (二 )搜索引擎主要核心技術(shù): 搜索引擎主要核心技術(shù)為 : (1)中英文分詞語(yǔ)言處理; (2)排序算法; (3)網(wǎng)絡(luò)爬蟲; (4)查詢 /存儲(chǔ)技術(shù) ? ( 三 ) 搜索引擎的組成部分 搜索引擎一般包括四個(gè)組成部分: 搜索器、索引器、檢索器、用戶接口 ? 搜索器 ( 爬蟲 SPIDER) 的功能是在 Inter中漫游 , 發(fā)現(xiàn)和搜集信息 。 ? 檢索器 (SEARCHER)的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。 主要的目的是方便用戶使用搜索引擎 ,高效率 、 多方式地從搜索引擎中得到有效 、 及時(shí)的信息 。 網(wǎng)絡(luò)爬蟲 使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。對(duì)于MP圖片、 Flash等各種不同內(nèi)容,要實(shí)現(xiàn)自動(dòng)識(shí)別、自動(dòng)分類及相關(guān)屬性測(cè)試(例如: MP3文件要包含的文件大小,下載速度等屬性)。 :分析動(dòng)態(tài)網(wǎng)頁(yè)參數(shù),按照一定規(guī)章,“拼”出所有要被抓取內(nèi)容 URL,只抓取這些特定范圍內(nèi)動(dòng)態(tài)網(wǎng)頁(yè)。如新聞的滾動(dòng)新聞頁(yè)面,需要爬蟲不停地監(jiān)控掃描,發(fā)現(xiàn)新內(nèi)容馬上就進(jìn)行抓取。比如
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1