freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

seo優(yōu)化大型超文本網(wǎng)絡(luò)搜索引擎的剖析(完整版)

2025-09-09 09:46上一頁面

下一頁面
  

【正文】 型。Lawrence在網(wǎng)絡(luò)中并沒有完整的中文譯本,現(xiàn)將原文和本人翻譯的寥寥幾句和網(wǎng)絡(luò)收集的片段(網(wǎng)友xfygx和雷聲大雨點大的無私貢獻(xiàn))整理和綜合到一起,因為是技術(shù)性的論文,文中有大量的合成的術(shù)語和較長的句子,有些進(jìn)行了意譯而非直譯。PageComputer Science DepartmentStanfordGoogle可以有效地對網(wǎng)絡(luò)資源進(jìn)行爬行搜索和索引,比目前已經(jīng)存在的系統(tǒng)有更令人滿意的搜索結(jié)果。搜索引擎索索引數(shù)以億計的不同類型的網(wǎng)頁并每天給出過千萬的查詢的答案。搜索引擎是三年前很大不同。完整版本提供在網(wǎng)絡(luò)上和會議的CDROM上)。基于關(guān)鍵詞的自動搜索引擎通常返回太多的低質(zhì)量的匹配??梢灶A(yù)見到2000年,可檢索到的網(wǎng)頁將超過10億。隨著網(wǎng)絡(luò)用戶的增長,可以預(yù)見到到2000年,自動搜索引擎每天將處理上億個查詢。然而硬件的性能和成本也在快速增長,可以部分抵消這些困難。1. 3設(shè)計目標(biāo)“最佳導(dǎo)航服務(wù)應(yīng)更容易找到幾乎任何在網(wǎng)絡(luò)上(已經(jīng)輸入的所有數(shù)據(jù))。因此,當(dāng)集合增大時,我們就需要高精確度的工具(在返回的前幾十個結(jié)果中,相關(guān)文檔的數(shù)量)。對于Google來講我們有一個的主要目標(biāo)是推動學(xué)術(shù)領(lǐng)域在此方面的發(fā)展和了解。為了支持新研究,Google以壓縮的形式保存了實際所抓到所有的文檔。 PageRank:帶來網(wǎng)頁排序網(wǎng)絡(luò)的引用(鏈接)圖形是重要的資源,這會反映了該網(wǎng)頁的重要性和質(zhì)量的近似值。PageRank值要花費幾小時。對單個網(wǎng)頁或一組網(wǎng)頁,一個重要的變量加入到制動因子d中。PageRank處理了這兩方面因素,并通過網(wǎng)絡(luò)鏈接遞歸地傳遞。例如圖像,程序和數(shù)據(jù)庫。我們大量應(yīng)用鏈接描述文字,因為它有助于提高搜索結(jié)果的質(zhì)量。3”雖然在搜索引擎的某些特點上做了大量工作。例如,主題相關(guān)的科學(xué)論文或新聞故事。我們強烈反對這種觀點。例如,文檔內(nèi)部就用了不同的語言(既有人類語言又有程序),詞匯(地址,鏈接,郵政編每天瀏覽數(shù)達(dá)到上百萬次,于此相比無名的歷史文章可能十年才被訪問一次。它關(guān)心的是元數(shù)據(jù)的努力,這在Web搜索引擎中卻不適用,因為網(wǎng)頁中的任何文本都不會向用戶聲稱企圖操縱搜索引擎。圖一個URL服務(wù)器負(fù)責(zé)向crawlers提供URL列表。Hits指向的docID關(guān)聯(lián)起來。個列表和由索引器產(chǎn)生的字典結(jié)合在一起,建立一個新的字典,供搜索器使用。任何時候Google系統(tǒng)的設(shè)計都盡可能地避免磁盤尋道。由于操縱系統(tǒng)不能滿足我們的需要,BigFiles也支持基本的壓縮選項。我們選擇zlib的速度而不是壓縮率很高的bzip。否則指針指向包含這個URL的URL列表。這種成批更新的模式是至關(guān)重要的,否則每個鏈接都需要一次查詢,假如用一塊磁盤,322百萬個鏈接的數(shù)據(jù)集合將不同的函數(shù)詞列表有一些輔助的信息,超出了本文以詳細(xì)解釋的范圍。特殊命中包括在URL,標(biāo)題,錨文本和meta標(biāo)簽上的命中。我們使用在一個文檔中的相對字體大小是因為在搜索時,你并不希望對于內(nèi)容相同的不同文檔,僅僅因為一個文檔字體比較大而有更高的評級(rank)。如果長度超過了這個范圍,會在這些比特中使用轉(zhuǎn)義碼,在接下來的兩個字節(jié)(byte)里才存放真正的長度。這樣我們只用到了24個比特,從而為命中列表長度(hit list length)留出了8個比特。一個簡單的方法是按照docID排序。一個單獨的URL服務(wù)器(URLserver)為多個爬蟲(crawler,一般是3個)提供URL列表。幾百個連接可能處于不同的狀態(tài):查詢DNS,連接主機,發(fā)送請求,接受響應(yīng)。比如,我們的系統(tǒng)試圖去抓取一個在線游戲。詞典哈希表新加的內(nèi)容都被記錄在一個文件里。因為桶并不能全部放在主存里面,排序器會根據(jù)wordID和docID將它們進(jìn)一步分割成可以放在內(nèi)存里面的桶(basket)。每一個命中列表(hitlist)包含了位置,字體和大小寫信息。Google數(shù)出命中列表中每種類型命中的數(shù)量。多個命中列表里的命中結(jié)合起來才能匹配出相鄰的命中。這些顯示結(jié)果在開發(fā)評分系統(tǒng)的時候很有幫助盡管這樣并不完美,但是這也給我們一些改變評分函數(shù)來影響搜索結(jié)果的想法。搜索結(jié)果被服務(wù)器串聯(lián)在一起。的,這是因為我們在關(guān)鍵詞出現(xiàn)時使用了非常重要的proximity。就當(dāng)前的硬盤價格來說可以為有用資源提供廉價的相關(guān)存儲設(shè)備。全部花費在下載2千6百萬個頁面[包括錯誤頁面]的時間大概是9天。這個時間主要受到硬盤IO以及NFS[網(wǎng)絡(luò)文件系統(tǒng),當(dāng)硬盤安置到許多機器上時使用]主要目標(biāo)是在快速發(fā)展的World Wide Web上提供高質(zhì)量的搜索結(jié)果。一些簡單的改進(jìn)提高了效率包括請算術(shù)符號,否定,填充。Web搜索引擎提供了豐富的研究課題。例如,一個最流行的商業(yè)搜索引擎搜索“Bill Clillton”的結(jié)果是the Bill Clinton Joke of the Day: April 14, 1997。最后,利用相鄰性信息大大提高了很多搜索的相關(guān)性。在一些操作中,已經(jīng)改進(jìn)的Google克服了一些瓶頸。Google搜集的數(shù)據(jù)已經(jīng)用在許多其它論文中,提交給學(xué)術(shù)會議和許多其它方式。最后感謝IBM,Intel,Sun和投資者的慷慨支持,為我們提供設(shè)備。1997.[Bagdikian 97] Ben H. Bagdikian. The Media Monopoly. 5th Edition. Publisher: Beacon, ISBN: 0807061557[Chakrabarti 98] , , , , P. Raghavan and S. Rajagopalan. Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text. Seventh International Web Conference (WWW 98).GenevaGaithersburg,Lawrence Page生于密歇根州東部的蘭辛市并于1995年獲得了密歇根大學(xué)計算機工程的工學(xué)學(xué)士學(xué)位。很明顯,這對于給手機做廣告的廣告商賺錢的搜索引擎來說比較困難,因為我們的系統(tǒng)返回的那些支付了廣告費的頁面。廣告收益的誘惑經(jīng)常導(dǎo)致低質(zhì)量的搜索結(jié)果。9附錄B但是,同生產(chǎn)成本較低的文本相比,媒體,如視頻文件,文本可能仍然非常普遍。他們寫每日平均10 k。如果我們假設(shè),摩爾定律在未來一直得到驗證,我們只需要10多倍,或15年才能達(dá)到我們索引的美國每個人一年中寫下的任何事的的目標(biāo)且價格是一個小公司可以承擔(dān)的。因為,計算機不斷的發(fā)展,人們受限于只能打字和說話,文本索引增加的比例比當(dāng)前會更多。[McBryan 94] However, the Web of 1997 is quite different. Anyone who has used a search engine recently, can readily testify that the pleteness of the index is not the only factor in the quality of search results. Junk results often wash out any results that a user is interested in. In fact, as of November 1997, only one of the top four mercial search engines finds itself (returns its own search page in response to its name in the top ten results). One of the main causes of this problem is that the number of documents in the indices has been increasing by many orders of magnitude, but the user39。Search Engine Watch). It is foreseeable that by the year 2000, a prehensive index of the Web will contain over a billion documents. At the same time, the number of queries search engines handle has grown incredibly too. In March and April 1994, the World Wide Web Worm received an average of about 1500 queries per day. In November 1997, Altavista claimed it handled roughly 20 million queries per day. With the increasing number of users on the web, and automated systems which query search engines, it is likely that top search engines will handle hundreds of millions of queries per day by the year 2000. The goal of our system is to address many of the problems, both in quality and scalability, introduced by scaling search engine technology to such extraordinary numbers.. Google: Scaling with the WebCreating a search engine which scales even to today39。Keywords: World Wide Web, Search Engines, Information Retrieval, PageRank, Google1. Introduction(Note: There are two versions of this paper a longer full version and a shorter printed version. The full version is available on the web and the conference CDROM.) To engineer a search engine is a challenging task. Search engines index tens to hundreds of millions of web pages involving a parable number of distinct terms. They answer tens of millions of queries every day. Despite the importance of largescale search engines on the web, very little academic research has been done on them. Furthermore, due to rapid advance in technology and web proliferation, creating a web search engine today is very different from three years ago. This paper provides an indepth description of our largescale web search engine the first such detailed public description we know of to date. In this paper, we present Google, a prototype of a largescale search engine which makes heavy use of the structure present in hypertext. Google is designed to crawl and index the Web efficiently and produce much more satisfying search results than existing systems. The prototype with a full text and hyperlink database of at least 24 million pages is available at當(dāng)然,一個分布式的系統(tǒng)比如這將花費空間850 TB。這一切為集中索引提供了令人驚異的可能性。我們目前得到了磁盤和機器所需的款額,我們也考慮了大部分?jǐn)?shù)據(jù)結(jié)構(gòu)的易擴展性。一個優(yōu)秀的搜索引擎不會把廣告當(dāng)做必需的雖然這可能導(dǎo)致它從航空公司獲得的收益受損。一個典型的例子是OpenText搜索引擎,據(jù)報道,它向公司出售使特定的查詢在搜索結(jié)果列表前面的權(quán)利。他的一些研究方向包括web鏈接結(jié)構(gòu)、人機交互、搜索引擎、可擴展性的信息訪問接口,個人數(shù)據(jù)挖掘方法。94] Ian H Witten, Alistair Moffat, and Timothy C. Bell. Managing Gigabytes: Compressing and Indexing Documents and Images.LawrenceAustralia, April 1418, 1998.[Cho 98] Junghoo Cho, Hector Garc
點擊復(fù)制文檔內(nèi)容
電大資料相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1