freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

google-搜索原理(存儲(chǔ)版)

  

【正文】 設(shè)計(jì)依據(jù)是沒有某個(gè)因素對(duì)rank影響重大。我們計(jì)算countweight向量和typeweight向量的標(biāo)量積作為文檔的IR值。應(yīng)用某種debug mode所有這些數(shù)和矩陣與查詢結(jié)果一起顯示出來(lái)。雖然不是十全十美,但是它給出了一些思路,當(dāng)rank函數(shù)改變時(shí)對(duì)搜索結(jié)果的影響。這是相當(dāng)不對(duì)的。PageRank百分比用紅色線條表示。是所有要存儲(chǔ)數(shù)據(jù)的三分之一??偟膩?lái)說(shuō),大約需要9天時(shí)間下載26000000網(wǎng)頁(yè)(包括錯(cuò)誤)。 。 6結(jié)論 Google設(shè)計(jì)成可伸縮的搜索引擎。我們必須有一個(gè)巧妙的算法來(lái)決定哪些舊網(wǎng)頁(yè)需要重新抓取,哪些新網(wǎng)頁(yè)需要被抓取。對(duì)于鏈接文本,我們正在試驗(yàn)用鏈接周圍的文本加入到鏈接文本。Google還用到了相鄰性和字號(hào)信息。在一些操作中,已經(jīng)改進(jìn)的Google克服了一些瓶頸。我們希望Google是全世界研究者的資源,帶動(dòng)搜索引擎技術(shù)的更新?lián)Q代。我們的磁盤和機(jī)器大概能處理這么多網(wǎng)頁(yè)。當(dāng)然帶寬需求高的其它應(yīng)用如視頻,越來(lái)越普遍。在系統(tǒng)中每個(gè)Hit用兩個(gè)字節(jié)(byte)存儲(chǔ)結(jié)構(gòu)表示:特殊索引項(xiàng)用1位(bit)表示大小寫,用二進(jìn)制代碼111(占3位)表示是特殊索引項(xiàng),其余12位有4位表示特殊索引項(xiàng)的類型(即hit是出現(xiàn)在URL、標(biāo)題、鏈接結(jié)點(diǎn)還是標(biāo)簽中),剩下8位表示hit在網(wǎng)頁(yè)中的具體位置;普通索引項(xiàng)是用1位表示大小寫,3位表示字體大小,其余12位表示在網(wǎng)頁(yè)中的具體位置。 ⑥(a)將其錨文本(Anchor Text)所指向的URL轉(zhuǎn)換成網(wǎng)頁(yè)的docID;(b)將該docID與原網(wǎng)頁(yè)的docID形成“鏈接對(duì)”,存入Link數(shù)據(jù)庫(kù)中;(c)將Anchor Text指向的網(wǎng)頁(yè)的docID與順排檔特殊索引項(xiàng)Anchor Hits相連接。 在執(zhí)行檢索時(shí),Google通常遵循以下步驟(以下所指的是單個(gè)檢索詞的情況): (1)將檢索詞轉(zhuǎn)化成相應(yīng)的wordID; (2)利用Lexicon,檢索出包含該wordID的網(wǎng)頁(yè)的docID; (3)根據(jù)與Lexicon相連的倒排檔索引,分析各網(wǎng)頁(yè)中的相關(guān)索引項(xiàng)的情況,計(jì)算各網(wǎng)頁(yè)和檢索詞的匹配程度,必要時(shí)調(diào)用順排檔索引; (4)根據(jù)各網(wǎng)頁(yè)的匹配程度,結(jié)合根據(jù)Link產(chǎn)生的相應(yīng)網(wǎng)頁(yè)的PageRank情況,對(duì)檢索結(jié)果進(jìn)行排序; (5)調(diào)用Document Index中的docID及其相應(yīng)的URL,將排序結(jié)果生成檢索結(jié)果的最終列表,提供給檢索用戶。而且把沒有分析的網(wǎng)頁(yè)傳給URL Server,以便在下一次工作流程中進(jìn)行索引分析。索引項(xiàng)列表被存入到數(shù)據(jù)桶(Barrels)中,并生成以文檔號(hào)(docID)部分排序的順排檔索引。我們認(rèn)為當(dāng)網(wǎng)頁(yè)數(shù)量大大超過(guò)10億網(wǎng)頁(yè)時(shí),會(huì)大大增加系統(tǒng)復(fù)雜性。DARPA ,NASA,Interva研究,Stanford數(shù)字圖書館計(jì)劃的工業(yè)合作伙伴也為這項(xiàng)合作協(xié)議提供了資金。最近的研究,例如[Abiteboul 97],提出了Web查詢的局限性,不需要網(wǎng)絡(luò)就可以回答??臻g和時(shí)間必須高效,處理整個(gè)Web時(shí)固定的幾個(gè)因素非常重要。Google的 設(shè)計(jì)目標(biāo)是隨著Web的快速發(fā)展提供高質(zhì)量的搜索結(jié)果,容易找到信息。我們正在擴(kuò)大鏈接結(jié)構(gòu)和鏈接文本的應(yīng)用。一些簡(jiǎn)單的改進(jìn)提高了效率包括請(qǐng)求緩沖區(qū),巧妙地分配磁盤空間,子索引。表2有幾個(gè)現(xiàn)在版本Google響應(yīng)查詢時(shí)間的例子。索引器每秒處理54個(gè)網(wǎng)頁(yè)。Google的主要操作是抓網(wǎng)頁(yè),索引,排序。表1列出了一些統(tǒng)計(jì)數(shù)字的明細(xì)表和Google存儲(chǔ)的需求。所有這些結(jié)果質(zhì)量都很高,最后檢查沒有死鏈接。這對(duì)過(guò)濾結(jié)果集合相當(dāng)有幫助。保存反饋。不僅計(jì)算每類hit數(shù),而且要計(jì)算每種類型的相鄰度,每個(gè)類型相似度對(duì),有一個(gè)類型相鄰度權(quán)typeproxweight。然后每個(gè)hit數(shù)轉(zhuǎn)換成countweight。另外,我們還考慮了鏈接描述文字。 4. 掃描doclist直到找到一篇匹配所有關(guān)鍵詞的文檔 5. 計(jì)算該文檔的rank 6. 如果我們?cè)诙蘠arrel,并且在所有doclist的末尾,開始從全文barrel的doclist的開頭查找每個(gè)詞,goto 第四步 7. 如果不在任何doclist的結(jié)尾,返回第四步。然后排序器把每個(gè)籃子裝入主存進(jìn)行排序,并把它的內(nèi)容寫回到短反向barrel和全文反向barrel。一旦詞匯被轉(zhuǎn)換成wordID,它們?cè)诋?dāng)前文檔的出現(xiàn)就轉(zhuǎn)換成hitlist,被寫進(jìn)正向barrel。能夠訪問(wèn)大部分Internet的系統(tǒng)必須精力充沛并精心測(cè)試過(guò)。因?yàn)榫W(wǎng)民眾多,總有些人不知道網(wǎng)絡(luò)爬行機(jī)器人是何物,這是他們看到的第一個(gè)網(wǎng)絡(luò)爬行機(jī)器人。最快時(shí),用4個(gè)網(wǎng)絡(luò)爬行機(jī)器人每秒可以爬行100個(gè)網(wǎng)頁(yè)。 。最簡(jiǎn)單的解決辦法是用doclish排序。如果一篇文檔中的詞落到某個(gè)barrel,它的docID將被記錄到這個(gè)barrel中,緊跟著那些詞(文檔中所有的詞匯,還是落入該barrel中的詞匯)對(duì)應(yīng)的hitlist。我們希望更新anchor hit的存儲(chǔ)方式,以便解決地址位和docIDhash域位數(shù)不足的問(wèn)題。有兩種類型hit,特殊hit和普通hit。它執(zhí)行分兩部分—詞匯表(用null分隔的連續(xù)串)和指針的哈希表。要想知道某個(gè)URL的docID,需要計(jì)算URL的校驗(yàn)和,然后在校驗(yàn)和文件中執(zhí)行二進(jìn)制查找,找到它的docID。 。壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。任何時(shí)候Google系統(tǒng)的設(shè)計(jì)都盡可能地避免磁盤尋道。用docID分類后的barrels,送給排序器sorter,再根據(jù)wordID進(jìn)行分類,建立反向索引inverted index。Hits紀(jì)錄了詞,詞在文檔中的位置,最接近的字號(hào),大小寫。 Google系統(tǒng)中,抓網(wǎng)頁(yè)(下載網(wǎng)頁(yè))是由幾個(gè)分布式crawlers完成的。它關(guān)心的是元數(shù)據(jù)的努力,這在Web搜索引擎中卻不適用,因?yàn)榫W(wǎng)頁(yè)中的任何文本都不會(huì)向用戶聲稱企圖操縱搜索引擎??梢詮奈臋n中推斷出來(lái),但并不包含在文檔中的信息稱為隱含信息。例如,查詢“Bill Clinton”,返回的網(wǎng)頁(yè)只包含“Bill Clinton Sucks”,這是我們從一個(gè)主要搜索引擎中看到的。在下面兩節(jié),我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。 3有關(guān)工作 Web檢索研究的歷史簡(jiǎn)短。我們大量應(yīng)用鏈接描述文字,因?yàn)樗兄谔岣咚阉鹘Y(jié)果的質(zhì)量。 第一,通常鏈接描述文字比網(wǎng)頁(yè)本身更精確地描述該網(wǎng)頁(yè)。直覺地,在Web中,一個(gè)網(wǎng)頁(yè)被很多網(wǎng)頁(yè)引用,那么這個(gè)網(wǎng)頁(yè)值得一看。 PageRank被看作用戶行為的模型。PageRank發(fā)展了這種思想,網(wǎng)頁(yè)間的鏈接是不平等的。 第二點(diǎn),Google利用超鏈接改進(jìn)搜索結(jié)果。然而,得到這些數(shù)據(jù)卻非常困難,主要因?yàn)樗鼈儧]有商業(yè)價(jià)值。到1997年,超過(guò)了60%。因此,當(dāng)集合增大時(shí),我們就需要工具使結(jié)果精確(在返回的前幾十個(gè)結(jié)果中,有關(guān)文檔的數(shù)量)。1994年,有人認(rèn)為建立全搜索索引(a plete search index)可以使查找任何數(shù)據(jù)都變得容易。 還有幾個(gè)值得注意的因素,如磁盤的尋道時(shí)間(disk seek time),操作系統(tǒng)的效率(operating system robustness)。我們系統(tǒng)的設(shè)計(jì)目標(biāo)要解決許多問(wèn)題,包括質(zhì)量和可升級(jí)性,引入升級(jí)搜索引擎技術(shù)(scaling search engine technology),把它升級(jí)到如此大量的數(shù)據(jù)上。 —升級(jí)換代(scaling up):19942000 搜索引擎技術(shù)不得不快速升級(jí)(scale dramatically)跟上成倍增長(zhǎng)的web數(shù)量。Web上的信息量快速增長(zhǎng),同時(shí)不斷有毫無(wú)經(jīng)驗(yàn)的新用戶來(lái)體驗(yàn)Web這門藝術(shù)。而且每天要回答成千上萬(wàn)個(gè)查詢。Google的設(shè)計(jì)能夠高效地抓網(wǎng)頁(yè)并建立索引,它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。 本文詳細(xì)介紹了我們的大型搜索引擎,據(jù)我們所知,在公開發(fā)表的論文中,這是第一篇描述地如此詳細(xì)?;陉P(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配??梢灶A(yù)見到2000年,可檢索到的網(wǎng)頁(yè)將超過(guò)1‘000’000‘000。存儲(chǔ)索引和文檔的空間必須足夠大。它能夠有效地利用存儲(chǔ)空間來(lái)存儲(chǔ)索引。近來(lái)搜索引擎的用戶已經(jīng)證實(shí)索引的完整性不是評(píng)價(jià)搜索質(zhì)量的唯一標(biāo)準(zhǔn)。令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用[Marchiori 97] [Spertus 97] [Weiss 96] [Kleinberg 98]。這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做廣告(見附錄A)。設(shè)計(jì)google的目標(biāo)之一就是要建立一個(gè)環(huán)境使其他研究者能夠很快進(jìn)入這個(gè)領(lǐng)域,處理海量Web數(shù)據(jù),得到滿意的結(jié)果,而通過(guò)其它方法卻很難得到結(jié)果。這些圖能夠快速地計(jì)算網(wǎng)頁(yè)的PageRank值,它是一個(gè)客觀的標(biāo)準(zhǔn),較好的符合人們心目中對(duì)一個(gè)網(wǎng)頁(yè)重要程度的評(píng)價(jià),建立
點(diǎn)擊復(fù)制文檔內(nèi)容
規(guī)章制度相關(guān)推薦
文庫(kù)吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1