正文內(nèi)容

seo優(yōu)化大型超文本網(wǎng)絡(luò)搜索引擎的剖析(編輯修改稿)

2025-08-31 09:46 本頁面

　

【文章內(nèi)容簡介】了限制響應(yīng)時間，一旦某個數(shù)量(現(xiàn)在是40,000)的匹配文檔被找到，搜索器自動跳到圖4中的第8步。這意味著有可能返回次優(yōu)的結(jié)果。我們現(xiàn)在在研究新的方法來解決這個問題。在過去，我們根據(jù)PageRank值排序，有較好的效果。（Query）。，從每個單詞的全桶(full barrel)文檔列表開始查找，跳到第4步。，跳到第4步。，然后返回評分最高的k個。圖4 Google查詢評估Google比典型的搜索引擎維護了根多的web文檔的信息。每一個命中列表（hitlist）包含了位置，字體和大小寫信息。而且，我們綜合考慮了超鏈接文本命中和頁面的PageRank值。把所有的信息綜合成一個評分是很困難的。我們設(shè)計了評分函數(shù)保證沒有一個因素有太大的影響。首先，考慮簡單的情況——一個單詞的查詢。為了對一個單詞的查詢計算文檔的分值，Google首先為這個單詞查看這個文檔的命中列表。Google將命中分為不同類型（標(biāo)題，錨，URL，普通文本大字體，普通文本小字體，……），每一種類型都有自己的類型權(quán)重值（typeweight）。類型權(quán)重值構(gòu)成一個由類型尋址（indexed）的向量。Google數(shù)出命中列表中每種類型命中的數(shù)量。每個數(shù)量轉(zhuǎn)化成一個數(shù)量權(quán)重（countweight）。數(shù)量權(quán)重開始隨著數(shù)量線性增長，但是很快停止增長，以保證單詞命中數(shù)多于某個數(shù)量之后對權(quán)重不再有影響。我們通過數(shù)量權(quán)重向量和類型權(quán)重向量的點乘為一個文檔算出一個IR分數(shù)。最后這個IR分數(shù)與PageRank綜合產(chǎn)生這個文檔最終的評分。對于一個多詞搜索，情況要更復(fù)雜?，F(xiàn)在，多個命中列表必須一次掃描完，這樣一個文檔中較近的命中才能比相距較遠的命中有更高的評分。多個命中列表里的命中結(jié)合起來才能匹配出相鄰的命中。對每一個命中的匹配集(matched set)，會計算出一個接近度。接近度是基于兩個命中在文檔（或錨文本）中相隔多遠計算的，但是被分為10個等級從短語匹配到“一點都不近”。不光要為每一種類型的命中計數(shù)，還要為每一種類型和接近度都計數(shù)。每一個類型和接近度的組有一個類型接近度權(quán)重（typeproxweight）。數(shù)量被轉(zhuǎn)化成數(shù)量權(quán)重。我們通過對數(shù)量權(quán)重和類型接近度權(quán)重做點乘計算出IR分值。所有這些數(shù)字和矩陣都會在特殊的調(diào)試模式下與搜索結(jié)果一起顯示出來。這些顯示結(jié)果在開發(fā)評分系統(tǒng)的時候很有幫助反饋評分函數(shù)有很多參數(shù)比如類型權(quán)重和類型接近度權(quán)重。找出這些參數(shù)的權(quán)重值簡直就跟妖術(shù)一樣。為了調(diào)整這些參數(shù)，我們在搜索引擎里有一個用戶反饋機制。一個被信任的用戶可以選擇性地評價所有的返回結(jié)果。這個反饋被記錄下來。然后在我們改變評分系統(tǒng)的時候，我們能看到修改對之前評價過的搜索結(jié)果的影響。盡管這樣并不完美，但是這也給我們一些改變評分函數(shù)來影響搜索結(jié)果的想法。5結(jié)果與表現(xiàn)衡量一個搜索引擎最重要的標(biāo)準(zhǔn)是其搜索結(jié)果的質(zhì)量。雖然如何做一個完整的用戶評估超越了本文的范圍，但是我們在Google身上得到的經(jīng)驗，表明它提供結(jié)果，比主要商用搜索引擎對絕大多數(shù)搜索提供的結(jié)果更好。圖表4表示的Google對于搜索“”的結(jié)果，作為一個例子可以說明，對PageRank, anchor text（關(guān)鍵詞）,和proximity（相似度）的使用。這樣的搜索結(jié)果顯示了Google的特色。搜索結(jié)果被服務(wù)器串聯(lián)在一起。這樣的方法當(dāng)在需要對結(jié)果集篩選時非常有用。，有理由相信這個來源含有本次該搜索中被期望找到的結(jié)果。當(dāng)前，更不用說正確的結(jié)果。注意，第一個搜索到的連接沒有標(biāo)題，是因為它不是抓取得結(jié)果，而是Google基于anchor text決定這個結(jié)果是查詢所期望得到的好結(jié)果。同樣的，第15號結(jié)果是一個電子郵件地址，當(dāng)然這也是基于超鏈接的結(jié)果，而非可抓取得結(jié)果。所有結(jié)果都是合理的高質(zhì)量頁面，而且最后檢查，沒有壞連接。這主要歸功于他們有很高的PageRank。PageRank的百分比使用紅色條形圖表示。最后，這里的結(jié)果中，沒有只有Bill沒有Clinton或只有Clinton沒有Bill的，這是因為我們在關(guān)鍵詞出現(xiàn)時使用了非常重要的proximity。當(dāng)然對一個實際的對搜索引擎的質(zhì)量測試應(yīng)該包括廣泛的對用戶研究或者對搜索結(jié)果的分析，但是我們沒有時間做以上析。但是我們邀請讀者在自己測試Google。除搜索質(zhì)量外，Gooogle被設(shè)計為能夠消化互聯(lián)網(wǎng)規(guī)模不斷增長帶來的效能問題。一方面，使用高效存儲。表一是對Google的統(tǒng)計與存儲需求的詳細分類，由于壓縮后的存儲體積為53GB，為源數(shù)據(jù)的三分之一多一點。就當(dāng)前的硬盤價格來說可以為有用資源提供廉價的相關(guān)存儲設(shè)備。更重要的是，搜索引擎使用的所有數(shù)據(jù)的總合需要相應(yīng)的存儲大約為55GB。此外，大多數(shù)查詢能被要求充分使用短反向索引[short inverted index]，在更好的編碼與壓縮文檔索引后，一個高質(zhì)量的網(wǎng)絡(luò)搜索引擎可能只需要一臺有7GB存儲空間的新電腦。這對搜索引擎的抓取與索引來說很重要。這樣信息被轉(zhuǎn)化為數(shù)據(jù)的速度以及系統(tǒng)主要部分改變后被測試的速度都相對更快。就Google來說，主要操作包括：抓取，索引和排序。一旦硬盤被填滿、或命名服務(wù)器崩潰，或者其它問題導(dǎo)致系統(tǒng)停止，都很難度量抓取所需要化費的時間。全部花費在下載2千6百萬個頁面[包括錯誤頁面]的時間大概是9天。但是如果系統(tǒng)運行更為流暢，這個過程還可以更快，最后的1千1百個頁面只使用了63個小時，平均4百萬每天。索引的運行速度快于抓取速度的重要原因是我們花費了足夠的時間來優(yōu)化索引程序，使它不要成為瓶頸。優(yōu)化包括對本地硬盤上的文檔的索引進行大規(guī)模的升級和替換關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)。索引的速度達到大概54頁每秒。排序可以完全平行作業(yè)，使用四臺機器，整個處理時間花費近24個小時。提高搜索性能并不是本次我們研究的重點。當(dāng)前版本的Google返回多數(shù)查詢結(jié)果的時間是1到10秒。這個時間主要受到硬盤IO以及NFS[網(wǎng)絡(luò)文件系統(tǒng)，當(dāng)硬盤安置到許多機器上時使用]的限制。進一步說，Google沒有做任何優(yōu)化，例如查詢緩沖區(qū)，常用詞匯子索引，和其它常用的優(yōu)化技術(shù)。我們傾向于通過分布式，硬件，軟件，和算法的改進來提高Google的速度。我們的目標(biāo)是每秒能處理幾百個請求。表2有幾個現(xiàn)在版本Google響應(yīng)查詢時間的例子。它們說明IO緩沖區(qū)對再次搜索速度的影響。6結(jié)論Google設(shè)計成可伸縮的搜索引擎。主要目標(biāo)是在快速發(fā)展的World Wide Web上提供高質(zhì)量的搜索結(jié)果。Google應(yīng)用了一些技術(shù)改進搜索質(zhì)量包括PageRank，鏈接描述文字，相鄰信息。進一步說，Google是一個收集網(wǎng)頁，建立索引，執(zhí)行搜索請求的完整的體系結(jié)構(gòu)。未來的工作大型Web搜索引擎是個復(fù)雜的系統(tǒng)，還有很多事情要做。我們直接的目標(biāo)是提高搜索效率，覆蓋大約100000000個網(wǎng)頁。一些簡單的改進提高了效率包括請求緩沖區(qū)，巧妙地分配磁盤空間，子索引。另一個需要研究的領(lǐng)域是更新。我們必須有一個巧妙的算法來決定哪些舊網(wǎng)頁需要重新抓取，哪些新網(wǎng)頁需要被抓取。這個目標(biāo)已經(jīng)由實現(xiàn)了。受需求驅(qū)動，用代理cache創(chuàng)建搜索數(shù)據(jù)庫是一個有前途的研究領(lǐng)域。我們計劃加一些簡單的已經(jīng)被商業(yè)搜索引擎支持的特征，例如布爾算術(shù)符號，否定，填充。然而另外一些應(yīng)用剛剛開始探索，例如相關(guān)反饋，聚類（Google現(xiàn)在支持簡單的基于主機名的聚類）。我們還計劃支持用戶上下文（象用戶地址），結(jié)果摘要。我們正在擴大鏈接結(jié)構(gòu)和鏈接文本的應(yīng)用。簡單的實驗證明，通過增加用戶主頁的權(quán)重或書簽，PageRank可以個性化。對于鏈接文本，我們正在試驗用鏈接周圍的文本加入到鏈接文本。Web搜索引擎提供了豐富的研究課題。如此之多以至于我們不能在此一一列舉，因此在不久的將來，我們希望所做的工作不止本節(jié)提到的。高質(zhì)量搜索當(dāng)今Web搜索引擎用戶所面臨的最大問題是搜索結(jié)果的質(zhì)量。結(jié)果常常是好笑的，并且超出用戶的眼界，他們常常灰心喪氣浪費了寶貴的時間。例如，一個最流行的商業(yè)搜索引擎搜索“Bill Clillton”的結(jié)果是the Bill Clinton Joke of the Day: April 14, 1997。Google的設(shè)計目標(biāo)是隨著Web的快速發(fā)展提供高質(zhì)量的搜索結(jié)果，容易找到信息。為此，Google大量應(yīng)用超文本信息包括鏈接結(jié)構(gòu)和鏈接文本。Google還用到了相鄰性和字號信息。評價搜索引擎是困難的，我們主觀地發(fā)現(xiàn)Google的搜索質(zhì)量比當(dāng)今商業(yè)搜索引擎高。通過PageRank分析鏈接結(jié)構(gòu)使Google能夠評價網(wǎng)頁的質(zhì)量。用鏈接文本描述鏈接所指向的網(wǎng)頁有助于搜索引擎返回相關(guān)的結(jié)果（某種程度上提高了質(zhì)量）。最后，利用相鄰性信息大大提高了很多搜索的相關(guān)性。除了搜索質(zhì)量，Google設(shè)計成可升級的。空間和時間必須高效，處理整個Web時固定的幾個因素非常重要。實現(xiàn)Google系統(tǒng)，CPU、訪存、內(nèi)存容量、磁盤尋道時間、磁盤吞吐量、磁盤容量、網(wǎng)絡(luò)IO都是瓶頸。在一些操作中，已經(jīng)改進的Google克服了一些瓶頸。Google的主要數(shù)據(jù)結(jié)構(gòu)能夠有效利用存儲空間。進一步，網(wǎng)頁爬行，索引，排序已經(jīng)足夠建立大部分web索引，共2千四百萬個網(wǎng)頁，用時不到一星期。我們希望能在一個月內(nèi)建立一億網(wǎng)頁的索引。Google不僅是高質(zhì)量的搜索引擎，它還是研究工具。Google搜集的數(shù)據(jù)已經(jīng)用在許多其它論文中，提交給學(xué)術(shù)會議和許多其它方式。最近的研究，例如，提出了Web查詢的局限性，不需要網(wǎng)絡(luò)就可以回答。這說明Google不僅是重要的研究工具，而且必不可少，應(yīng)用廣泛。我們希望Google是全世界研究者的資源，帶動搜索引擎技術(shù)的更新?lián)Q代。7致謝Scott Hassan and Alan Steremberg評價Google的改進。他們的才智無可替代，作者由衷地感謝他們。感謝Hector GarciaMolina, Rajeev Motwani, Jeff Ullman, and Terry Winograd和全部WebBase開發(fā)組的支持和富有深刻見解的討論。最后感謝IBM，Intel，Sun和投資者的慷慨支持，為我們提供設(shè)備。這里所描述的研究是Stanford綜合數(shù)字圖書館計劃的一部分，由國家科學(xué)自然基金支持，合作協(xié)議號IRI9411306。DARPA，NASA，Interva研究，Stanford數(shù)字圖書館計劃的工業(yè)合作伙伴也為這項合作協(xié)議提供了資金。引用Best of the Web 1994 Navigators Bill Clinton Joke of the Day: April 14, 1997. ~cjburke/clinton/.Bzip2 Homepage Google Search Engine Harvest Mauldin, Michael L. Lycos Design Choices in an Internet Search Service, IEEE Expert Interview The Effect of Cellular Phone Use Upon Driver Attention Search Engine Watch RFC 1950 (zlib) ftp://Robots Exclusion Protocol: Web Growth Summary: Yahoo! [Abiteboul 97] Serge Abiteboul and Victor Vianu, Queries and Computation on the Web. Proceedings of the International Conference on Database Theory.Delphi,Greece1997.[Bagdikian 97] Ben H. Bagdikian. The Media Monopoly. 5th Edition. Publisher: Beacon, ISBN: 0807061557[Chakrabarti 98] , , , , P. Raghavan and S. Rajagopalan. Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text. Seventh International Web Conference (WWW 98).Brisbane,Australia, April 1418, 1998.[Cho 98] Junghoo Cho, Hector GarciaMolina,LawrencePage. Efficient Crawling Through URL Ordering. Seventh International Web Conference (WWW 98).Brisbane,Australia, April 1418, 1998.[Gravano 94] Luis Gravano, Hector GarciaMolina, and A. Tomasic. The Effectiveness of GlOSS for the TextDatabase Discovery Problem. Proc. of the 1994 ACM SIGMOD International Conference On Management Of Data, 1994.[Kleinberg 98] Jon Kleinberg, Authoritative Sources in a Hyperlinked Environment, Proc. ACMSIAM Symposium on Discrete Algorithms, 1998.[Marchiori 97] Massimo Marchiori. The Quest for Correct Information on the Web: Hyper

點擊復(fù)制文檔內(nèi)容

電大資料相關(guān)推薦

電子商務(wù)畢業(yè)設(shè)計-淺議seo搜索引擎優(yōu)化-資料下載頁

【總結(jié)】深圳高級技工學(xué)校畢業(yè)設(shè)計（論文）題目：淺議SEO搜索引擎優(yōu)化系別：信息技術(shù)系專業(yè)：電子商務(wù)年級：09電子商務(wù)G3（2021年1月）目錄摘要............................

2024-12-02 04:44

搜索引擎優(yōu)化培訓(xùn)教程-資料下載頁

【總結(jié)】搜索引擎優(yōu)化培訓(xùn)教程(2007-03-02)本內(nèi)容部分參照胡寶介的《搜索引擎優(yōu)化(SEO)知識完全手冊》，40％為原創(chuàng)。前言正確認識搜索引擎優(yōu)化第一部分：域名和主機對SEO的影響　　域名選擇與SEO　　主機選擇與SEO第二部分：搜索引擎優(yōu)化的核心：關(guān)鍵字策略　　關(guān)鍵字的選擇　　關(guān)鍵字密度　　關(guān)鍵字分布第三部分：對搜索引擎友好的網(wǎng)頁設(shè)計

2025-06-23 08:21

網(wǎng)絡(luò)搜索引擎介紹-資料下載頁

【總結(jié)】網(wǎng)絡(luò)搜索引擎介紹人民醫(yī)院圖書館2022年6月通用中英文搜索引擎列表新浪搜索新浪網(wǎng)搜索引擎是面向全球華人的網(wǎng)上資源查詢系統(tǒng)。網(wǎng)站收錄資源豐富，遵循中文用戶習(xí)慣。目前共有16大類目錄，一萬多個細目和二十余萬個網(wǎng)站，是互聯(lián)網(wǎng)上最大規(guī)模的中文搜索引擎之一。Yahoo!中國Yahoo!

2025-09-30 15:45

網(wǎng)站推廣方案之搜索引擎優(yōu)化seo全攻略-資料下載頁

【總結(jié)】網(wǎng)站推廣方案之搜索引擎優(yōu)化SEO全攻略成功的搜索引擎營銷策略應(yīng)該是在網(wǎng)站建設(shè)之初開始的，從域名的選擇到網(wǎng)頁的源代碼書寫開始。但目前的現(xiàn)狀是多數(shù)網(wǎng)站建設(shè)的分工和流程都是把針對搜索引擎的優(yōu)化工作放在最后——網(wǎng)站已經(jīng)建好了，向搜索引擎提交網(wǎng)站之前再做優(yōu)化。這時做優(yōu)化其實已經(jīng)相當(dāng)被動。所以，建議網(wǎng)站規(guī)劃者在網(wǎng)站建設(shè)之初就提交給網(wǎng)頁設(shè)計師、程序開發(fā)人員和內(nèi)容編輯一份有利于搜

2025-08-26 11:09

大工18春seo搜索引擎優(yōu)化在線作業(yè)2-資料下載頁

【總結(jié)】------------------------------------------------------------------------------------------------------------------------------(單選題)1:下列哪項不屬于鏈接誘餌的特點()A:

2025-08-04 14:42

seo-搜索引擎優(yōu)化培訓(xùn)教程(20xx版)-資料下載頁

【總結(jié)】SEO-搜索引擎優(yōu)化培訓(xùn)教程(2020版)前言:這段時間給一些新人做免費SEO培訓(xùn),一直沒找到好教材.偶然在網(wǎng)上發(fā)現(xiàn)這本書,看了下感覺很不錯.將其推薦給大家,希望對大家有所幫助.SEO菜鳥群:16167119,歡迎大家加入,共同提高---丘仕達本內(nèi)

2025-08-12 09:05

網(wǎng)絡(luò)營銷中的搜索引擎優(yōu)化研究-資料下載頁

【總結(jié)】密級：學(xué)號：本科生畢業(yè)設(shè)計（論文）網(wǎng)絡(luò)營銷中的搜索引擎優(yōu)化研究學(xué)院：信息工程學(xué)院專業(yè)：計算機網(wǎng)絡(luò)技術(shù)班級：

2025-06-28 20:52

搜索引擎優(yōu)化項目管理-資料下載頁

【總結(jié)】付必鵬?拆解SEO的工作?評估項目的難易程度?找出需要攻克的難點?資源的調(diào)用與合理的分配?流程的搭建與監(jiān)控體系的完善?準(zhǔn)備替代方案與應(yīng)急對策?目標(biāo)站點的分析?搜索引擎現(xiàn)狀的分析與競爭對手的識別?方案的制定，目標(biāo)站點的修正?執(zhí)行者的指定、執(zhí)行的標(biāo)準(zhǔn)（審核標(biāo)準(zhǔn)）?數(shù)據(jù)跟蹤以及報告的出具

2024-12-08 09:40

搜索引擎優(yōu)化(培訓(xùn)篇)-資料下載頁

【總結(jié)】RankingPPC如何通過SEO獲取流量一、SEO的產(chǎn)生一、關(guān)鍵詞分析?把握用戶搜索行為：熱門依然明顯、長尾查詢是趨勢、經(jīng)常使用錯別字?合理選擇關(guān)鍵詞：精準(zhǔn)匹配：關(guān)鍵詞競爭度、關(guān)鍵詞熱度?挑選關(guān)鍵詞的步驟?挑選關(guān)鍵詞的步驟：1、確定核心關(guān)鍵詞2、核心關(guān)鍵詞的擴展

2025-08-04 17:05

搜索引擎的具體優(yōu)化策略-資料下載頁

【總結(jié)】網(wǎng)站實訓(xùn)SEO制作:李贊課程內(nèi)容?搜索引擎優(yōu)化的相關(guān)基礎(chǔ)知識?搜索引擎的介紹及使用技巧?搜索引擎具體優(yōu)化技巧?搜索引擎具體優(yōu)化策略?第三方軟件的運用?注意事項基礎(chǔ)SEO概念知識?在你準(zhǔn)備了解或者使用SEO這項技術(shù)的時候，我希望你能先了解一下這些基礎(chǔ)的概念。?SEO英文全稱：

2025-03-08 00:55

搜索引擎課件介紹學(xué)習(xí)搜索引擎的人必看的-資料下載頁

【總結(jié)】WBIACourseProjectIntroductionPengBoNov12,2022What’sCourseProject??WBIA課程學(xué)習(xí)的一個環(huán)節(jié)?通過實現(xiàn)實際系統(tǒng)或者實驗，驗證解決一個問題的想法?Problem/Goal?與課程內(nèi)容相關(guān)(與Web信息處理技術(shù)相關(guān)的問題)?研究性題目、應(yīng)用型題目均可

2025-08-04 16:52

搜索引擎優(yōu)化專業(yè)營銷-資料下載頁

【總結(jié)】搜索引擎優(yōu)化專業(yè)營銷內(nèi)容提要?中國搜索引擎營銷的階段特征?搜索引擎營銷知識需求的演進?當(dāng)前搜索引擎營銷的幾個問題中國搜索引擎營銷的階段特征?2023年之前：免費推廣階段，主要為分類目錄免費登錄，以雅虎、搜狐為代表。?2023－2023年上半年：搜索引擎營銷從免費向收費過渡，分類

2025-02-09 00:17

搜索引擎優(yōu)化工作人員(seo)測試試卷-資料下載頁

【總結(jié)】SEO水平測試試卷這是一份初級SEO評測問卷，一共46題。在做問卷的時候可以拿一張紙，或者新建一個文本文件，邊做，邊記錄下你的答案，最后回復(fù)帖子后查看正確答案。答對28道題以上為及格，答對37到題以上為良好！記得要分享你的得分哦。一、單項選擇題1、搜索引擎營銷的簡稱是（）A、SEOB、SEMC、SECD、SERP2、Google和百度哪個能抓取Ifra

2025-03-25 02:40

搜索引擎優(yōu)化入門培訓(xùn)-資料下載頁

【總結(jié)】搜索引擎優(yōu)化(SEO)從入門到精通本書適合作為SEO的入門及提高的普及型閱讀材料。劉志軍網(wǎng)絡(luò)高級開發(fā)工程師，具有多年搜索引擎開發(fā)、搜索引擎優(yōu)化經(jīng)驗，對網(wǎng)站技術(shù)優(yōu)化有獨到的見解，并開發(fā)多款搜索引擎優(yōu)化工具。個人網(wǎng)站：非常代碼網(wǎng)(),天天收藏夾()。、、、、，，，及胡寶介《

2025-04-06 03:32

[精選]網(wǎng)絡(luò)營銷搜索引擎03-網(wǎng)絡(luò)營銷搜索引擎03-資料下載頁

【總結(jié)】Page1網(wǎng)絡(luò)營銷搜索引擎?來源：龍先生?旺旺：時尚人生風(fēng)格什么叫網(wǎng)絡(luò)營銷？網(wǎng)絡(luò)營銷和傳統(tǒng)銷售有哪些差區(qū)？為什么要學(xué)習(xí)網(wǎng)絡(luò)營？學(xué)了有哪些好處？要學(xué)哪些內(nèi)容？如何打

2025-01-14 15:08