freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[農(nóng)學(xué)]搜索引擎技術(shù)基礎(chǔ)-預(yù)覽頁

2024-11-11 22:39 上一頁面

下一頁面
 

【正文】 高效率 、 多方式地從搜索引擎中得到有效 、 及時(shí)的信息 。對(duì)于MP圖片、 Flash等各種不同內(nèi)容,要實(shí)現(xiàn)自動(dòng)識(shí)別、自動(dòng)分類及相關(guān)屬性測(cè)試(例如: MP3文件要包含的文件大小,下載速度等屬性)。如新聞的滾動(dòng)新聞頁面,需要爬蟲不停地監(jiān)控掃描,發(fā)現(xiàn)新內(nèi)容馬上就進(jìn)行抓取。 :對(duì)于一些動(dòng)態(tài)網(wǎng)頁或小網(wǎng)站,采取廣度策略抓取,同時(shí)對(duì)多個(gè)網(wǎng)站進(jìn)行抓取,減小對(duì)各個(gè)小網(wǎng)站的壓力,避免造成惡意攻擊。這對(duì)于計(jì)算機(jī)去做機(jī)器分析,就帶來了巨大的困難。 三、中文分詞和排序算法介紹 (一 )中文分詞: 語言本身也是在不停的進(jìn)化和發(fā)展的,新的詞語層出不窮,一些老的詞語漸漸被棄用。新詞捕捉主要來源于新聞和網(wǎng)絡(luò) BBS論壇,主要機(jī)制是依靠統(tǒng)計(jì)程序,統(tǒng)計(jì)上升速度最高的詞。 “ PageRank”是 Google公司在排序算法上的專利技術(shù),也是 Google能從眾多搜索引擎公司中脫穎而出的最核心技術(shù),作為其搜索服務(wù)能夠超過其他競(jìng)爭(zhēng)對(duì)手最有力的武器。為此,搜索引擎排序算法一項(xiàng)重要改進(jìn):“聚類”,就被引進(jìn)來提高排序效果。 三、中文分詞和排序算法介紹 (二 )排序算法: 排序算法是決定了各個(gè)網(wǎng)頁的排序,但是對(duì)于一些特殊情況,也需要“人工干預(yù)”,畢竟一個(gè)通用算法并不能解決所有問題。 “人工干預(yù)”是排序算法,非常重要的一個(gè)補(bǔ)充,大大改進(jìn)了搜索結(jié)果。 Google 根據(jù)網(wǎng)頁被鏈接的數(shù)量來評(píng)定其重要性。 一個(gè)網(wǎng)頁的鏈出網(wǎng)頁越少 , 那么它對(duì)其中一個(gè)鏈出網(wǎng)頁的推薦程度就越高。 ? C (T i) 是指網(wǎng)頁 T i 的鏈出網(wǎng)頁的數(shù)量 ( i= 1, 2, .n) 。 ? (3) 該網(wǎng)頁的鏈入網(wǎng)頁本身的鏈出數(shù)量。 搜索引擎之所以能夠給同時(shí)給眾多用戶,在豪秒級(jí)的范圍內(nèi)就能提供搜索結(jié)果,其技術(shù)秘密就是絕大部分查詢結(jié)果都是提前完成運(yùn)算,搜索結(jié)果早已存儲(chǔ)在其服務(wù)器上。 第二部分:詞庫索引數(shù)據(jù),包含:中文詞庫中的字詞、英文單詞、每個(gè)字詞對(duì)應(yīng)網(wǎng)頁編號(hào)隊(duì)列等??捎上旅娼Y(jié)構(gòu)體來描述: (1)網(wǎng)頁編號(hào) char16 (2)URL char256 (3)標(biāo)題 char56 (4)內(nèi)容摘要 char256 (5)網(wǎng)頁大小 char8 這樣一來,每個(gè)網(wǎng)頁數(shù)據(jù)的存儲(chǔ)大小為 592字節(jié)。 (2)硬盤文件方式存儲(chǔ),把連續(xù)一定數(shù)量的網(wǎng)頁數(shù)據(jù)信息,寫入到一個(gè)文件中去,比如說 10萬條存儲(chǔ)為一個(gè)文件,然后把全部硬盤存儲(chǔ)的網(wǎng)頁數(shù)據(jù)都存儲(chǔ)到硬盤文件系統(tǒng)中去。 四、查詢 /存儲(chǔ)技術(shù)、 Cache Server介紹 (一 ) 查詢 /存儲(chǔ)技術(shù): “詞庫索引數(shù)據(jù)” 的存儲(chǔ)采用內(nèi)存存儲(chǔ)方式 : 對(duì)于每一篇網(wǎng)頁內(nèi)容,采用存儲(chǔ)的分詞算法進(jìn)行處理,分出來的詞為最多的分法,方便對(duì)各個(gè)相關(guān)字詞都能建立索引。 用戶查詢?cè)~ 北大搜索引擎 北大 +搜索引擎 查詢?cè)~分詞后 四、查詢 /存儲(chǔ)技術(shù)、 Cache Server介紹 (一 ) 查詢 /存儲(chǔ)技術(shù): 搜索引擎常規(guī)存儲(chǔ) /查詢步驟如下: (2)通過 Hash查找到步驟 (1)中各個(gè)字詞的網(wǎng)頁 ID隊(duì)列; 舉例說明: 系統(tǒng)得到“北大”和“搜索引擎”各自的 Hash值,比如說 Hash值“北大”為 256, “搜索引擎” 為 1024,然后找到這兩個(gè)詞各自的網(wǎng)頁 ID隊(duì)列,如下圖所示兩個(gè)隊(duì)列為“網(wǎng)頁 ID隊(duì)列 2”和“網(wǎng)頁 ID隊(duì)列 4”。 舉例說明: “北大”和“搜索引擎” 是用戶查詢?cè)~進(jìn)行分詞出來的兩個(gè)詞,在具體的網(wǎng)頁標(biāo)題和網(wǎng)頁內(nèi)容摘要中,分別對(duì)這兩個(gè)詞做紅色醒目標(biāo)記。 WebServer 用戶 CS 索引服務(wù)器 Index Server 網(wǎng)頁內(nèi)容服務(wù)器 Page Content Server 四、查詢 /存儲(chǔ)技術(shù)、 Cache Server介紹 (二 ) Cache Server: CS還可以部署在“索引服務(wù)器”、“網(wǎng)頁內(nèi)容服務(wù)器”和WebServer之間,提高這兩個(gè)后臺(tái)服務(wù)器的效率。
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1