freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

google-搜索原理(存儲版)

2025-09-03 09:43上一頁面

下一頁面
  

【正文】 設(shè)計依據(jù)是沒有某個因素對rank影響重大。我們計算countweight向量和typeweight向量的標(biāo)量積作為文檔的IR值。應(yīng)用某種debug mode所有這些數(shù)和矩陣與查詢結(jié)果一起顯示出來。雖然不是十全十美,但是它給出了一些思路,當(dāng)rank函數(shù)改變時對搜索結(jié)果的影響。這是相當(dāng)不對的。PageRank百分比用紅色線條表示。是所有要存儲數(shù)據(jù)的三分之一??偟膩碚f,大約需要9天時間下載26000000網(wǎng)頁(包括錯誤)。 。 6結(jié)論 Google設(shè)計成可伸縮的搜索引擎。我們必須有一個巧妙的算法來決定哪些舊網(wǎng)頁需要重新抓取,哪些新網(wǎng)頁需要被抓取。對于鏈接文本,我們正在試驗用鏈接周圍的文本加入到鏈接文本。Google還用到了相鄰性和字號信息。在一些操作中,已經(jīng)改進(jìn)的Google克服了一些瓶頸。我們希望Google是全世界研究者的資源,帶動搜索引擎技術(shù)的更新?lián)Q代。我們的磁盤和機(jī)器大概能處理這么多網(wǎng)頁。當(dāng)然帶寬需求高的其它應(yīng)用如視頻,越來越普遍。在系統(tǒng)中每個Hit用兩個字節(jié)(byte)存儲結(jié)構(gòu)表示:特殊索引項用1位(bit)表示大小寫,用二進(jìn)制代碼111(占3位)表示是特殊索引項,其余12位有4位表示特殊索引項的類型(即hit是出現(xiàn)在URL、標(biāo)題、鏈接結(jié)點還是標(biāo)簽中),剩下8位表示hit在網(wǎng)頁中的具體位置;普通索引項是用1位表示大小寫,3位表示字體大小,其余12位表示在網(wǎng)頁中的具體位置。 ⑥(a)將其錨文本(Anchor Text)所指向的URL轉(zhuǎn)換成網(wǎng)頁的docID;(b)將該docID與原網(wǎng)頁的docID形成“鏈接對”,存入Link數(shù)據(jù)庫中;(c)將Anchor Text指向的網(wǎng)頁的docID與順排檔特殊索引項Anchor Hits相連接。 在執(zhí)行檢索時,Google通常遵循以下步驟(以下所指的是單個檢索詞的情況): (1)將檢索詞轉(zhuǎn)化成相應(yīng)的wordID; (2)利用Lexicon,檢索出包含該wordID的網(wǎng)頁的docID; (3)根據(jù)與Lexicon相連的倒排檔索引,分析各網(wǎng)頁中的相關(guān)索引項的情況,計算各網(wǎng)頁和檢索詞的匹配程度,必要時調(diào)用順排檔索引; (4)根據(jù)各網(wǎng)頁的匹配程度,結(jié)合根據(jù)Link產(chǎn)生的相應(yīng)網(wǎng)頁的PageRank情況,對檢索結(jié)果進(jìn)行排序; (5)調(diào)用Document Index中的docID及其相應(yīng)的URL,將排序結(jié)果生成檢索結(jié)果的最終列表,提供給檢索用戶。而且把沒有分析的網(wǎng)頁傳給URL Server,以便在下一次工作流程中進(jìn)行索引分析。索引項列表被存入到數(shù)據(jù)桶(Barrels)中,并生成以文檔號(docID)部分排序的順排檔索引。我們認(rèn)為當(dāng)網(wǎng)頁數(shù)量大大超過10億網(wǎng)頁時,會大大增加系統(tǒng)復(fù)雜性。DARPA ,NASA,Interva研究,Stanford數(shù)字圖書館計劃的工業(yè)合作伙伴也為這項合作協(xié)議提供了資金。最近的研究,例如[Abiteboul 97],提出了Web查詢的局限性,不需要網(wǎng)絡(luò)就可以回答??臻g和時間必須高效,處理整個Web時固定的幾個因素非常重要。Google的 設(shè)計目標(biāo)是隨著Web的快速發(fā)展提供高質(zhì)量的搜索結(jié)果,容易找到信息。我們正在擴(kuò)大鏈接結(jié)構(gòu)和鏈接文本的應(yīng)用。一些簡單的改進(jìn)提高了效率包括請求緩沖區(qū),巧妙地分配磁盤空間,子索引。表2有幾個現(xiàn)在版本Google響應(yīng)查詢時間的例子。索引器每秒處理54個網(wǎng)頁。Google的主要操作是抓網(wǎng)頁,索引,排序。表1列出了一些統(tǒng)計數(shù)字的明細(xì)表和Google存儲的需求。所有這些結(jié)果質(zhì)量都很高,最后檢查沒有死鏈接。這對過濾結(jié)果集合相當(dāng)有幫助。保存反饋。不僅計算每類hit數(shù),而且要計算每種類型的相鄰度,每個類型相似度對,有一個類型相鄰度權(quán)typeproxweight。然后每個hit數(shù)轉(zhuǎn)換成countweight。另外,我們還考慮了鏈接描述文字。 4. 掃描doclist直到找到一篇匹配所有關(guān)鍵詞的文檔 5. 計算該文檔的rank 6. 如果我們在短barrel,并且在所有doclist的末尾,開始從全文barrel的doclist的開頭查找每個詞,goto 第四步 7. 如果不在任何doclist的結(jié)尾,返回第四步。然后排序器把每個籃子裝入主存進(jìn)行排序,并把它的內(nèi)容寫回到短反向barrel和全文反向barrel。一旦詞匯被轉(zhuǎn)換成wordID,它們在當(dāng)前文檔的出現(xiàn)就轉(zhuǎn)換成hitlist,被寫進(jìn)正向barrel。能夠訪問大部分Internet的系統(tǒng)必須精力充沛并精心測試過。因為網(wǎng)民眾多,總有些人不知道網(wǎng)絡(luò)爬行機(jī)器人是何物,這是他們看到的第一個網(wǎng)絡(luò)爬行機(jī)器人。最快時,用4個網(wǎng)絡(luò)爬行機(jī)器人每秒可以爬行100個網(wǎng)頁。 。最簡單的解決辦法是用doclish排序。如果一篇文檔中的詞落到某個barrel,它的docID將被記錄到這個barrel中,緊跟著那些詞(文檔中所有的詞匯,還是落入該barrel中的詞匯)對應(yīng)的hitlist。我們希望更新anchor hit的存儲方式,以便解決地址位和docIDhash域位數(shù)不足的問題。有兩種類型hit,特殊hit和普通hit。它執(zhí)行分兩部分—詞匯表(用null分隔的連續(xù)串)和指針的哈希表。要想知道某個URL的docID,需要計算URL的校驗和,然后在校驗和文件中執(zhí)行二進(jìn)制查找,找到它的docID。 。壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。任何時候Google系統(tǒng)的設(shè)計都盡可能地避免磁盤尋道。用docID分類后的barrels,送給排序器sorter,再根據(jù)wordID進(jìn)行分類,建立反向索引inverted index。Hits紀(jì)錄了詞,詞在文檔中的位置,最接近的字號,大小寫。 Google系統(tǒng)中,抓網(wǎng)頁(下載網(wǎng)頁)是由幾個分布式crawlers完成的。它關(guān)心的是元數(shù)據(jù)的努力,這在Web搜索引擎中卻不適用,因為網(wǎng)頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎??梢詮奈臋n中推斷出來,但并不包含在文檔中的信息稱為隱含信息。例如,查詢“Bill Clinton”,返回的網(wǎng)頁只包含“Bill Clinton Sucks”,這是我們從一個主要搜索引擎中看到的。在下面兩節(jié),我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。 3有關(guān)工作 Web檢索研究的歷史簡短。我們大量應(yīng)用鏈接描述文字,因為它有助于提高搜索結(jié)果的質(zhì)量。 第一,通常鏈接描述文字比網(wǎng)頁本身更精確地描述該網(wǎng)頁。直覺地,在Web中,一個網(wǎng)頁被很多網(wǎng)頁引用,那么這個網(wǎng)頁值得一看。 PageRank被看作用戶行為的模型。PageRank發(fā)展了這種思想,網(wǎng)頁間的鏈接是不平等的。 第二點,Google利用超鏈接改進(jìn)搜索結(jié)果。然而,得到這些數(shù)據(jù)卻非常困難,主要因為它們沒有商業(yè)價值。到1997年,超過了60%。因此,當(dāng)集合增大時,我們就需要工具使結(jié)果精確(在返回的前幾十個結(jié)果中,有關(guān)文檔的數(shù)量)。1994年,有人認(rèn)為建立全搜索索引(a plete search index)可以使查找任何數(shù)據(jù)都變得容易。 還有幾個值得注意的因素,如磁盤的尋道時間(disk seek time),操作系統(tǒng)的效率(operating system robustness)。我們系統(tǒng)的設(shè)計目標(biāo)要解決許多問題,包括質(zhì)量和可升級性,引入升級搜索引擎技術(shù)(scaling search engine technology),把它升級到如此大量的數(shù)據(jù)上。 —升級換代(scaling up):19942000 搜索引擎技術(shù)不得不快速升級(scale dramatically)跟上成倍增長的web數(shù)量。Web上的信息量快速增長,同時不斷有毫無經(jīng)驗的新用戶來體驗Web這門藝術(shù)。而且每天要回答成千上萬個查詢。Google的設(shè)計能夠高效地抓網(wǎng)頁并建立索引,它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。 本文詳細(xì)介紹了我們的大型搜索引擎,據(jù)我們所知,在公開發(fā)表的論文中,這是第一篇描述地如此詳細(xì)?;陉P(guān)鍵詞的自動搜索引擎通常返回太多的低質(zhì)量的匹配。可以預(yù)見到2000年,可檢索到的網(wǎng)頁將超過1‘000’000‘000。存儲索引和文檔的空間必須足夠大。它能夠有效地利用存儲空間來存儲索引。近來搜索引擎的用戶已經(jīng)證實索引的完整性不是評價搜索質(zhì)量的唯一標(biāo)準(zhǔn)。令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用[Marchiori 97] [Spertus 97] [Weiss 96] [Kleinberg 98]。這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做廣告(見附錄A)。設(shè)計google的目標(biāo)之一就是要建立一個環(huán)境使其他研究者能夠很快進(jìn)入這個領(lǐng)域,處理海量Web數(shù)據(jù),得到滿意的結(jié)果,而通過其它方法卻很難得到結(jié)果。這些圖能夠快速地計算網(wǎng)頁的PageRank值,它是一個客觀的標(biāo)準(zhǔn),較好的符合人們心目中對一個網(wǎng)頁重要程度的評價,建立
點擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1