freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

搜索引擎技術(shù)基礎(chǔ)ppt課件(完整版)

2025-06-05 18:22上一頁面

下一頁面
  

【正文】 S、 XML數(shù)據(jù),情況特殊需特殊處理。三、中文分詞和排序算法介紹(一 )中文分詞:中文本身存在著很大的歧義性,同樣一句話,不同的斷句,表達(dá)的意思就不一樣。 如何判斷那些詞是新詞,這就全部倚靠算法來實現(xiàn)。三、中文分詞和排序算法介紹(二 )排序算法: 排序算法部分參考指標(biāo):指 標(biāo) 加分 減分網(wǎng)站硬件指 標(biāo) 網(wǎng)站網(wǎng) 絡(luò) 好,系 統(tǒng)穩(wěn) 定 網(wǎng)站系 統(tǒng) 不 穩(wěn) 定,網(wǎng) 絡(luò) 不好網(wǎng)站包含網(wǎng) 頁 數(shù) 總 網(wǎng) 頁 數(shù)目多 總 網(wǎng) 頁 數(shù)目少網(wǎng) 頁 大小 網(wǎng) 頁 大小適中 網(wǎng) 頁 多大或 過 小其他網(wǎng) 頁鏈 到本網(wǎng) 頁 數(shù)目多 數(shù)目少網(wǎng) 頁 內(nèi) URL數(shù) 數(shù)目適中 過 多或 過 少網(wǎng) 頁 相關(guān)性 URL連 接網(wǎng) 頁 是相關(guān)內(nèi)容 URL連 接網(wǎng) 頁 不是相關(guān)內(nèi)容網(wǎng) 頁 更新 /生成日期 日期近的 日期 遠(yuǎn) 的網(wǎng) 頁類 型 靜 態(tài) 網(wǎng) 頁 動態(tài) 網(wǎng) 頁網(wǎng) 頁 內(nèi) 樣 式 網(wǎng) 頁設(shè)計樣 式中等 網(wǎng) 頁設(shè)計樣 式 過 于復(fù) 雜 或 簡單網(wǎng) 頁 具體內(nèi)容 分 詞 后,各個 詞權(quán) 重 總 和高 分 詞 后,各個 詞權(quán) 重 總 和低用 戶訪問 行 為 點 擊 多的網(wǎng) 頁 點 擊 少的網(wǎng) 頁三、中文分詞和排序算法介紹(二 )排序算法:排序算法雖然解決了網(wǎng)頁排序的問題,但是有時候有些搜索結(jié)果還是很難讓用戶滿意。以下是搜索結(jié)果:北京理工大學(xué)以工為主,包含理工、管理、法律、外語的多科性全國重點大學(xué)。? 一個網(wǎng)頁本身的 PageRank 值越高 , 則它對其鏈出網(wǎng)頁 (從某個網(wǎng)頁鏈出的網(wǎng)頁稱為該網(wǎng)頁的鏈出網(wǎng)頁 ) 的推薦能力就越大 。? (2) 該網(wǎng)頁的鏈入網(wǎng)頁本身的 PageRank 值 。四、查詢 /存儲技術(shù)、 Cache Server介紹(一 ) 查詢 /存儲技術(shù):搜索引擎的數(shù)據(jù)存儲主要分為兩部分:第一部分:網(wǎng)頁數(shù)據(jù),包含:網(wǎng)頁編號、 URL、標(biāo)題、內(nèi)容摘要、網(wǎng)頁大小等。 1G內(nèi)存大概能存儲 180萬條網(wǎng)頁信息(每條 592字節(jié))。 四、查詢 /存儲技術(shù)、 Cache Server介紹(一 ) 查詢 /存儲技術(shù):搜索引擎常規(guī)存儲 /查詢步驟如下:(1)對搜索詞進(jìn)行分詞處理,看能分出來多少個字詞;舉例說明: 比如說用戶的搜索詞為 “北大搜索引擎 ”,系統(tǒng)在接到這個查詢語句后,對其進(jìn)行查詢詞分詞處理,分詞后為 “北大 ”+“搜索引擎 ”。為此,設(shè)計出來 Cache Server(CS)用于存儲這些高頻詞的搜索結(jié)果,每當(dāng)后臺系統(tǒng)更新后,這些高頻詞先進(jìn)行查詢,然后把查詢結(jié)果放到 CS中,從而減少系統(tǒng)后臺壓力。 WebServer CS CS索引服務(wù)器Index Server網(wǎng)頁內(nèi)容服務(wù)器Page Content Server四、查詢 /存儲技術(shù)、 Cache Server介紹(二 ) Cache Server:CS自我定期更新策略 :CS在其設(shè)計中,重點考慮其攔截率,所以, CS的自我定期更新策略就特別重要。 北大 256 256 北京…………北大網(wǎng)頁 ID序列 1 網(wǎng)頁 ID序列 2……搜索引擎 1024 1024 搜索 搜索引擎網(wǎng)頁 ID序列 3 網(wǎng)頁 ID序列 4…………四、查詢 /存儲技術(shù)、 Cache Server介紹(一 ) 查詢 /存儲技術(shù):搜索引擎常規(guī)存儲 /查詢步驟如下:(3)對步驟 (2)中找到個各個網(wǎng)頁 ID隊列做 “與 ”、 “或 ”、 “非 ”的邏輯運 算;(4)獲得最后的搜索結(jié)果網(wǎng)頁 ID隊列。這樣一來,基于硬盤文件存儲的網(wǎng)頁數(shù)據(jù)在讀取時,就要先算出來網(wǎng)頁數(shù)據(jù)存儲在那個文件,然后打開文件讀去出來該網(wǎng)頁數(shù)據(jù)信息。網(wǎng)頁編號是唯一編號,不得重復(fù)。? 顯然 , 根據(jù)以上公式 , 一個網(wǎng)頁的鏈入數(shù)量越多、這些鏈入網(wǎng)頁的PageRank 值越高、這些鏈入網(wǎng)頁本身的鏈出數(shù)量越少 , 則該網(wǎng)頁的PageRank 值越高。?
點擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1