freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

[農(nóng)學(xué)]搜索引擎技術(shù)基礎(chǔ)(編輯修改稿)

2024-11-14 22:39 本頁(yè)面
 

【文章內(nèi)容簡(jiǎn)介】 特殊情況,也需要“人工干預(yù)”,畢竟一個(gè)通用算法并不能解決所有問(wèn)題。 比如說(shuō):查詢(xún)?cè)~為“北理”,其實(shí)含義是“北京理工大學(xué)”。在Google的搜索結(jié)果中,第一個(gè)就是“北京理工大學(xué)”,但在“北京理工大學(xué)”網(wǎng)頁(yè)中根本找不到“北理”兩個(gè)字。以下是搜索結(jié)果: 北京理工大學(xué) 以工為主,包含理工、管理、法律、外語(yǔ)的多科性全國(guó)重點(diǎn)大學(xué)。 “人工干預(yù)”是排序算法,非常重要的一個(gè)補(bǔ)充,大大改進(jìn)了搜索結(jié)果。搜索引擎公司的競(jìng)價(jià)排名和滾動(dòng)排名,也都是“人工干預(yù)”的范疇。 ? (二 )排序算法: ? GOOGLE的 PageRank技術(shù) ? PageRank 技術(shù)是 Google 檢索結(jié)果的一種排序算法 , 中文通常譯為頁(yè)面級(jí)別或頁(yè)面等級(jí) , 根據(jù)這個(gè)算法 , Google 認(rèn)為每個(gè)網(wǎng)頁(yè)都有一個(gè)反映其重要性的值 , 值越高表明其頁(yè)面級(jí)別越高 , 即網(wǎng)頁(yè)越重要 。 ? 網(wǎng)頁(yè)的質(zhì)量和重要性也可以通過(guò)其它網(wǎng)頁(yè)對(duì)其超文本鏈接的數(shù)量來(lái)衡量 , 具體來(lái)說(shuō) , 假如網(wǎng)頁(yè) A 有一個(gè)指向網(wǎng)頁(yè) B 的鏈接 , 則意味著網(wǎng)頁(yè) A 認(rèn)為網(wǎng)頁(yè) B 是重要的。 Google 根據(jù)網(wǎng)頁(yè)被鏈接的數(shù)量來(lái)評(píng)定其重要性。假如有 10 個(gè)網(wǎng)頁(yè)指向網(wǎng)頁(yè) A , 而指向網(wǎng)頁(yè) B 的鏈接卻只有 2 個(gè) , 則說(shuō)明網(wǎng)頁(yè) A 比網(wǎng)頁(yè) B更加重要。 ? (二 )排序算法: ? GOOGLE的 PageRank技術(shù) ? 事實(shí)上 , 在實(shí)際計(jì)算網(wǎng)頁(yè)的 PageRank 值時(shí) , Google 還考慮到網(wǎng)頁(yè) A 的所有鏈入網(wǎng)頁(yè) (鏈接到某網(wǎng)頁(yè)的其它網(wǎng)頁(yè)稱(chēng)為該網(wǎng)頁(yè)的鏈入網(wǎng)頁(yè) ) 對(duì)它的推薦能力 (即由于它們對(duì)網(wǎng)頁(yè) A的鏈接 , 使人們認(rèn)為網(wǎng)頁(yè) A 的重要程度 ) 和推薦程度 (即它們認(rèn)為網(wǎng)頁(yè) A 的重要程度 )。 ? 一個(gè)網(wǎng)頁(yè)本身的 PageRank 值越高 , 則它對(duì)其鏈出網(wǎng)頁(yè) (從某個(gè)網(wǎng)頁(yè)鏈出的網(wǎng)頁(yè)稱(chēng)為該網(wǎng)頁(yè)的鏈出網(wǎng)頁(yè) ) 的推薦能力就越大 。 一個(gè)網(wǎng)頁(yè)的鏈出網(wǎng)頁(yè)越少 , 那么它對(duì)其中一個(gè)鏈出網(wǎng)頁(yè)的推薦程度就越高。 ? 我們可以用以下公式來(lái)簡(jiǎn)要表達(dá) Google 關(guān)于網(wǎng)頁(yè) ? PageRank 值的計(jì)算 : ? PR (A ) = (1 d) + d[(PR (T1)/C (T1) + ..+ PR (Tn)/C (Tn) ] ? 其中 , ? PR (A ) 是指網(wǎng)頁(yè) A 的 PageRank 值 。 ? T1, T2, ., Tn 是網(wǎng)頁(yè) A 的鏈入網(wǎng)頁(yè) 。 ? PR (T i) 是指網(wǎng)頁(yè) T i 的 PageRank 值 ( i= 1, 2, .n) 。 ? C (T i) 是指網(wǎng)頁(yè) T i 的鏈出網(wǎng)頁(yè)的數(shù)量 ( i= 1, 2, .n) 。 ? d 是一個(gè)衰減因子 , 0 d 1, 通常取值為 0. 85。 ? (二 )排序算法: ? GOOGLE的 PageRank技術(shù) ? 可見(jiàn) , 一個(gè)網(wǎng)頁(yè)的 PageRank 值 , 主要取決于以下三個(gè)因素 : ? (1) 該網(wǎng)頁(yè)的鏈入數(shù)量 。 ? (2) 該網(wǎng)頁(yè)的鏈入網(wǎng)頁(yè)本身的 PageRank 值 。 ? (3) 該網(wǎng)頁(yè)的鏈入網(wǎng)頁(yè)本身的鏈出數(shù)量。 ? 顯然 , 根據(jù)以上公式 , 一個(gè)網(wǎng)頁(yè)的鏈入數(shù)量越多、這些鏈入網(wǎng)頁(yè)的PageRank 值越高、這些鏈入網(wǎng)頁(yè)本身的鏈出數(shù)量越少 , 則該網(wǎng)頁(yè)的PageRank 值越高。 ? (二 )排序算法: ? GOOGLE的超文本匹配分析技術(shù) (Hypertext Matching Analysis) 不僅僅關(guān)注關(guān)鍵詞在網(wǎng)頁(yè)上出現(xiàn)的次數(shù) , 它還對(duì)該網(wǎng)頁(yè)的內(nèi)容加以分析,如分析關(guān)鍵詞的字體、字號(hào)以及關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的精確位置 , 并且對(duì)該網(wǎng)頁(yè)以及該網(wǎng)頁(yè)所鏈接的內(nèi)容進(jìn)行全面檢查 , 從而判斷該網(wǎng)頁(yè)與檢索需求的匹配程度。 四、查詢(xún) /存儲(chǔ)技術(shù)、 Cache Server介紹 (一 ) 查詢(xún) /存儲(chǔ)技術(shù): 存儲(chǔ)技術(shù)是搜索引擎在提供搜索服務(wù)時(shí)的關(guān)鍵技術(shù),系統(tǒng)如何去存儲(chǔ)上百億的網(wǎng)頁(yè)數(shù)據(jù)
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖片鄂ICP備17016276號(hào)-1