正文內(nèi)容

google-搜索原理(存儲版)

2025-09-03 09:43上一頁面

下一頁面

　　

【正文】設(shè)計依據(jù)是沒有某個因素對rank影響重大。我們計算countweight向量和typeweight向量的標(biāo)量積作為文檔的IR值。應(yīng)用某種debug mode所有這些數(shù)和矩陣與查詢結(jié)果一起顯示出來。雖然不是十全十美，但是它給出了一些思路，當(dāng)rank函數(shù)改變時對搜索結(jié)果的影響。這是相當(dāng)不對的。PageRank百分比用紅色線條表示。是所有要存儲數(shù)據(jù)的三分之一?？偟膩碚f，大約需要9天時間下載26000000網(wǎng)頁（包括錯誤）。。 6結(jié)論 Google設(shè)計成可伸縮的搜索引擎。我們必須有一個巧妙的算法來決定哪些舊網(wǎng)頁需要重新抓取，哪些新網(wǎng)頁需要被抓取。對于鏈接文本，我們正在試驗用鏈接周圍的文本加入到鏈接文本。Google還用到了相鄰性和字號信息。在一些操作中，已經(jīng)改進(jìn)的Google克服了一些瓶頸。我們希望Google是全世界研究者的資源，帶動搜索引擎技術(shù)的更新?lián)Q代。我們的磁盤和機(jī)器大概能處理這么多網(wǎng)頁。當(dāng)然帶寬需求高的其它應(yīng)用如視頻，越來越普遍。在系統(tǒng)中每個Hit用兩個字節(jié)(byte)存儲結(jié)構(gòu)表示：特殊索引項用1位(bit)表示大小寫，用二進(jìn)制代碼111(占3位)表示是特殊索引項，其余12位有4位表示特殊索引項的類型(即hit是出現(xiàn)在URL、標(biāo)題、鏈接結(jié)點還是標(biāo)簽中)，剩下8位表示hit在網(wǎng)頁中的具體位置；普通索引項是用1位表示大小寫，3位表示字體大小，其余12位表示在網(wǎng)頁中的具體位置。 ⑥(a)將其錨文本(Anchor Text)所指向的URL轉(zhuǎn)換成網(wǎng)頁的docID；(b)將該docID與原網(wǎng)頁的docID形成“鏈接對”，存入Link數(shù)據(jù)庫中；(c)將Anchor Text指向的網(wǎng)頁的docID與順排檔特殊索引項Anchor Hits相連接。在執(zhí)行檢索時，Google通常遵循以下步驟（以下所指的是單個檢索詞的情況）： (1)將檢索詞轉(zhuǎn)化成相應(yīng)的wordID； (2)利用Lexicon，檢索出包含該wordID的網(wǎng)頁的docID； (3)根據(jù)與Lexicon相連的倒排檔索引，分析各網(wǎng)頁中的相關(guān)索引項的情況，計算各網(wǎng)頁和檢索詞的匹配程度，必要時調(diào)用順排檔索引； (4)根據(jù)各網(wǎng)頁的匹配程度，結(jié)合根據(jù)Link產(chǎn)生的相應(yīng)網(wǎng)頁的PageRank情況，對檢索結(jié)果進(jìn)行排序； (5)調(diào)用Document Index中的docID及其相應(yīng)的URL，將排序結(jié)果生成檢索結(jié)果的最終列表，提供給檢索用戶。而且把沒有分析的網(wǎng)頁傳給URL Server，以便在下一次工作流程中進(jìn)行索引分析。索引項列表被存入到數(shù)據(jù)桶(Barrels)中，并生成以文檔號(docID)部分排序的順排檔索引。我們認(rèn)為當(dāng)網(wǎng)頁數(shù)量大大超過10億網(wǎng)頁時，會大大增加系統(tǒng)復(fù)雜性。DARPA ，NASA，Interva研究，Stanford數(shù)字圖書館計劃的工業(yè)合作伙伴也為這項合作協(xié)議提供了資金。最近的研究，例如[Abiteboul 97]，提出了Web查詢的局限性，不需要網(wǎng)絡(luò)就可以回答?？臻g和時間必須高效，處理整個Web時固定的幾個因素非常重要。Google的設(shè)計目標(biāo)是隨著Web的快速發(fā)展提供高質(zhì)量的搜索結(jié)果，容易找到信息。我們正在擴(kuò)大鏈接結(jié)構(gòu)和鏈接文本的應(yīng)用。一些簡單的改進(jìn)提高了效率包括請求緩沖區(qū)，巧妙地分配磁盤空間，子索引。表2有幾個現(xiàn)在版本Google響應(yīng)查詢時間的例子。索引器每秒處理54個網(wǎng)頁。Google的主要操作是抓網(wǎng)頁，索引，排序。表1列出了一些統(tǒng)計數(shù)字的明細(xì)表和Google存儲的需求。所有這些結(jié)果質(zhì)量都很高，最后檢查沒有死鏈接。這對過濾結(jié)果集合相當(dāng)有幫助。保存反饋。不僅計算每類hit數(shù)，而且要計算每種類型的相鄰度，每個類型相似度對，有一個類型相鄰度權(quán)typeproxweight。然后每個hit數(shù)轉(zhuǎn)換成countweight。另外，我們還考慮了鏈接描述文字。 4. 掃描doclist直到找到一篇匹配所有關(guān)鍵詞的文檔 5. 計算該文檔的rank 6. 如果我們在短barrel，并且在所有doclist的末尾，開始從全文barrel的doclist的開頭查找每個詞，goto 第四步 7. 如果不在任何doclist的結(jié)尾，返回第四步。然后排序器把每個籃子裝入主存進(jìn)行排序，并把它的內(nèi)容寫回到短反向barrel和全文反向barrel。一旦詞匯被轉(zhuǎn)換成wordID，它們在當(dāng)前文檔的出現(xiàn)就轉(zhuǎn)換成hitlist，被寫進(jìn)正向barrel。能夠訪問大部分Internet的系統(tǒng)必須精力充沛并精心測試過。因為網(wǎng)民眾多，總有些人不知道網(wǎng)絡(luò)爬行機(jī)器人是何物，這是他們看到的第一個網(wǎng)絡(luò)爬行機(jī)器人。最快時，用4個網(wǎng)絡(luò)爬行機(jī)器人每秒可以爬行100個網(wǎng)頁。。最簡單的解決辦法是用doclish排序。如果一篇文檔中的詞落到某個barrel，它的docID將被記錄到這個barrel中，緊跟著那些詞（文檔中所有的詞匯，還是落入該barrel中的詞匯）對應(yīng)的hitlist。我們希望更新anchor hit的存儲方式，以便解決地址位和docIDhash域位數(shù)不足的問題。有兩種類型hit，特殊hit和普通hit。它執(zhí)行分兩部分—詞匯表（用null分隔的連續(xù)串）和指針的哈希表。要想知道某個URL的docID，需要計算URL的校驗和，然后在校驗和文件中執(zhí)行二進(jìn)制查找，找到它的docID。。壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。任何時候Google系統(tǒng)的設(shè)計都盡可能地避免磁盤尋道。用docID分類后的barrels，送給排序器sorter，再根據(jù)wordID進(jìn)行分類，建立反向索引inverted index。Hits紀(jì)錄了詞，詞在文檔中的位置，最接近的字號，大小寫。 Google系統(tǒng)中，抓網(wǎng)頁（下載網(wǎng)頁）是由幾個分布式crawlers完成的。它關(guān)心的是元數(shù)據(jù)的努力，這在Web搜索引擎中卻不適用，因為網(wǎng)頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎?？梢詮奈臋n中推斷出來，但并不包含在文檔中的信息稱為隱含信息。例如，查詢“Bill Clinton”，返回的網(wǎng)頁只包含“Bill Clinton Sucks”，這是我們從一個主要搜索引擎中看到的。在下面兩節(jié)，我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。 3有關(guān)工作 Web檢索研究的歷史簡短。我們大量應(yīng)用鏈接描述文字，因為它有助于提高搜索結(jié)果的質(zhì)量。第一，通常鏈接描述文字比網(wǎng)頁本身更精確地描述該網(wǎng)頁。直覺地，在Web中，一個網(wǎng)頁被很多網(wǎng)頁引用，那么這個網(wǎng)頁值得一看。 PageRank被看作用戶行為的模型。PageRank發(fā)展了這種思想，網(wǎng)頁間的鏈接是不平等的。第二點，Google利用超鏈接改進(jìn)搜索結(jié)果。然而，得到這些數(shù)據(jù)卻非常困難，主要因為它們沒有商業(yè)價值。到1997年，超過了60%。因此，當(dāng)集合增大時，我們就需要工具使結(jié)果精確（在返回的前幾十個結(jié)果中，有關(guān)文檔的數(shù)量）。1994年，有人認(rèn)為建立全搜索索引（a plete search index）可以使查找任何數(shù)據(jù)都變得容易。還有幾個值得注意的因素，如磁盤的尋道時間（disk seek time），操作系統(tǒng)的效率（operating system robustness）。我們系統(tǒng)的設(shè)計目標(biāo)要解決許多問題，包括質(zhì)量和可升級性，引入升級搜索引擎技術(shù)（scaling search engine technology），把它升級到如此大量的數(shù)據(jù)上。 —升級換代（scaling up）：19942000 搜索引擎技術(shù)不得不快速升級（scale dramatically）跟上成倍增長的web數(shù)量。Web上的信息量快速增長，同時不斷有毫無經(jīng)驗的新用戶來體驗Web這門藝術(shù)。而且每天要回答成千上萬個查詢。Google的設(shè)計能夠高效地抓網(wǎng)頁并建立索引，它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。本文詳細(xì)介紹了我們的大型搜索引擎，據(jù)我們所知，在公開發(fā)表的論文中，這是第一篇描述地如此詳細(xì)?；陉P(guān)鍵詞的自動搜索引擎通常返回太多的低質(zhì)量的匹配。可以預(yù)見到2000年，可檢索到的網(wǎng)頁將超過1‘000’000‘000。存儲索引和文檔的空間必須足夠大。它能夠有效地利用存儲空間來存儲索引。近來搜索引擎的用戶已經(jīng)證實索引的完整性不是評價搜索質(zhì)量的唯一標(biāo)準(zhǔn)。令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用[Marchiori 97] [Spertus 97] [Weiss 96] [Kleinberg 98]。這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作，并傾向做廣告（見附錄A）。設(shè)計google的目標(biāo)之一就是要建立一個環(huán)境使其他研究者能夠很快進(jìn)入這個領(lǐng)域，處理海量Web數(shù)據(jù)，得到滿意的結(jié)果，而通過其它方法卻很難得到結(jié)果。這些圖能夠快速地計算網(wǎng)頁的PageRank值，它是一個客觀的標(biāo)準(zhǔn)，較好的符合人們心目中對一個網(wǎng)頁重要程度的評價，建立

點擊復(fù)制文檔內(nèi)容

規(guī)章制度相關(guān)推薦

試談google國內(nèi)推廣-資料下載頁

【摘要】一、簡介-----廣告特點介紹二、時代贏客簡介(資質(zhì)證明)三、時代贏客獨有的服務(wù)四、廣告費用報價五、附件：公司的客戶服務(wù)流程表可提供的服務(wù)列表：1、客戶所在行業(yè)分析2、GO

2025-05-16 08:56

google持續(xù)成長的秘密-資料下載頁

【摘要】搜主義-Google持續(xù)成長的秘密作者：張遠(yuǎn)昌??出版社:清華大學(xué)出版社名人推薦 2 2低調(diào)締造神話 2駕馭更聰明的人 6投資之王的慧眼 9神話的煉成 11Google的顛覆與創(chuàng)造 13世界報攤 13微軟最后的挑戰(zhàn)者？ 14Google式創(chuàng)業(yè)，最迷人的IT精神 14 14打破規(guī)則 14荷蘭式拍賣驚奇 1

2025-05-27 22:05

[精選]搜索引擎營銷基本原理(1)-資料下載頁

【摘要】目錄?第一篇網(wǎng)絡(luò)營銷的理論基礎(chǔ)o第1章網(wǎng)絡(luò)營銷的理論基礎(chǔ)?第二篇網(wǎng)絡(luò)營銷的方法體系o第2章網(wǎng)絡(luò)營銷的常用工具和方法o第3章網(wǎng)絡(luò)營銷導(dǎo)向的企業(yè)網(wǎng)站建設(shè)?第4章搜索引擎營銷o第5章許可Email營銷基礎(chǔ)o第6章網(wǎng)絡(luò)廣告基礎(chǔ)?第三篇網(wǎng)絡(luò)營銷實踐與管理o第

2025-02-18 11:03

google項目介紹1-資料下載頁

【摘要】什么是GoogleAdWords廣告？GoogleAdWords廣告，是一種按效果付費的網(wǎng)絡(luò)推廣方式。用少量的投入就可以給企業(yè)帶來大量潛在客戶，有效提升企業(yè)銷售額和品牌知名度?！　∶刻煊谐^30億人次在Google查找信息，企業(yè)在Google各地運營注冊中心注冊與產(chǎn)品相關(guān)的關(guān)鍵詞后，企業(yè)就會被查找這些產(chǎn)品的客戶找到?！　dWords廣告排名按照給企業(yè)帶來的潛在客戶的訪問

2025-06-25 06:48

公司google推廣-資料下載頁

【摘要】谷歌搜索引擎推廣方案深圳市時代贏客網(wǎng)絡(luò)有限公司廣州分公司深圳市時代贏客網(wǎng)絡(luò)有限公司2023年12月成立，是國家高新技術(shù)企業(yè)，深圳市政府重點扶持的高新技術(shù)企業(yè)與重點軟件企業(yè)，是國內(nèi)最大的網(wǎng)絡(luò)營銷服務(wù)商之一，是中國最專業(yè)的外貿(mào)電子商務(wù)全程服務(wù)提供商；我們以“通過網(wǎng)絡(luò)創(chuàng)造企業(yè)更廣闊的市場”為使命，為企業(yè)提供網(wǎng)絡(luò)營銷的解決方案與全球范圍的電子商務(wù)全程

2025-01-27 05:24

google文件介紹-資料下載頁

【摘要】Google文件介紹多媒體系一年級陳翰宣&魏敬浤Google有哪些用處?上載Word檔案、OpenOffice、RTF、HTML或文字(或從頭建立新文件)。?使用內(nèi)建編輯器線上編輯文件。?邀請其他人(透過電子郵件地址)編輯或檢視您的文件和試算表。?將你線

2025-09-20 21:07

google101技巧終極收集-資料下載頁

【摘要】Google101技巧終極收集:site_name這個修飾語可以返回關(guān)于某特定頁面的信息。，在普通搜索后點擊"相似網(wǎng)頁"可以鏈接到Google認(rèn)為相似的頁面結(jié)果。，可能用site:來實現(xiàn)，比如說searchtipssite:.這樣的目錄網(wǎng)站并動態(tài)地生成網(wǎng)址。GoogleDirector

2025-08-12 14:32

google管理模式word版-資料下載頁

【摘要】精品資料.為你而備Google經(jīng)營模式Google的經(jīng)營模式Google在十幾年之間,經(jīng)營模式已經(jīng)發(fā)展到了第五個階段了1.發(fā)明出一個超強(qiáng)的搜尋引擎2.搜尋技術(shù)傳達(dá)全世界且增加營收和使用者3.搜尋結(jié)果與廣告分離4.創(chuàng)造出AdSense5.利用廣告收益開發(fā)出更多新的服務(wù)第一代創(chuàng)造了一個網(wǎng)路搜尋引擎,

2025-07-21 17:18

google管理與工作環(huán)境-資料下載頁

【摘要】GOOGLE在中國的工作環(huán)境除了傲人的財報以及網(wǎng)絡(luò)技術(shù)，Google還以自由活潑、人性化的工作環(huán)境聞名業(yè)內(nèi)－－Google本月初便傳出消息，欲以3億余美元的價格購買下現(xiàn)有的GooglePlex－－Google總部所在地，為所有Googler創(chuàng)造一個完美的工作環(huán)境。作為Google在中國的分支，座落清華科技園的Google中國工程研究院亦“拿來”Google美國的“傳統(tǒng)”——保持與Goog

2025-04-16 04:38

google推廣資料國外-資料下載頁

【摘要】中企動力介紹公司背景：中企動力科技股份有限公司成立于1999年，是香港聯(lián)合交易所上市公司中國數(shù)碼信息有限公司旗下的一家大型股份制高新技術(shù)企業(yè)集團(tuán)。公司規(guī)模：1.現(xiàn)已在全國設(shè)立了70余家直屬分支機(jī)構(gòu)，員工總數(shù)逾8000人，擁有研發(fā)及運營工程師1200余人，成為規(guī)模龐大、實力雄厚的信息化運營商。，中企動力的“信

2025-05-07 18:07

google雇主品牌經(jīng)營-資料下載頁

【摘要】Google1月27日，在《財富》雜志日前評選的2008年度“美國100家最佳雇主”中，Google繼去年之后再度封王。為此，《財富》雜志記者親自前往Google總部，揭開了Google不為人所知的九個秘密。第一：自行車取代滑板車Google位于加州山景城的總部曾為員工準(zhǔn)備兩輪Segways電動車及滑板車作為代步工具。但是，由于segway經(jīng)常容易損壞，而滑板車又容易使員

2025-06-23 07:07

google的cis分析-資料下載頁

【摘要】Page?1Google的CIS分析LOGOPage?2content?、公司簡介?、名稱由來?、Google'SCIS?、關(guān)于LOGO的改變　　　　Page?3??、公司簡介、公司簡介Google（GoogleInc.，NASD

2025-02-08 14:10

google的領(lǐng)導(dǎo)哲學(xué)-資料下載頁

【摘要】領(lǐng)導(dǎo)與管理※Google一字來自於googol，「Googol」是一個數(shù)學(xué)上的術(shù)語，表示1後面接著100個0。此術(shù)語是由美國數(shù)學(xué)家EdwardKasner的侄子MiltonSarotta所創(chuàng)造。※Google使用此龐大的數(shù)字來反映出公司的任務(wù)：組織網(wǎng)路

2025-02-08 13:17

google培訓(xùn)ppt課件-資料下載頁

【摘要】2022年4月網(wǎng)絡(luò)營銷的概念利用互聯(lián)網(wǎng)為介質(zhì)開展的營銷活動，包括：信息發(fā)布、品牌傳播、產(chǎn)品促銷與推廣、客戶服務(wù)和市場調(diào)查等。。。網(wǎng)絡(luò)營銷利用網(wǎng)絡(luò)做生意過去與未來?寬帶網(wǎng)用戶?中國網(wǎng)民?Google?全球每年50億的搜索訪問條(+62%Y/Y,2/05);?(+51%Y/Y,CQ4);

2025-01-10 14:26