【正文】
rs continue to provide increasingly larger and more powerful machines. More recently, scaleout solutions,in the form of clusters of smaller machines, have gained increased acceptance for mercial puting. Scaleout solutions are particularly effective in highthroughput webcentric this paper, we investigate the behavior of two peting approaches to parallelism, scaleup and scaleout, in an emerging search application. Our conclusions show that a scaleout strategy can be the key to good performance even on a scaleup machine. Furthermore, scaleout solutions offer better price/performance, although at an increase in management plexity. 1 Introduction During the last 10 years of mercial puting,we have witnessed the plete replacement of uniprocessor puting systems by multiprocessor ones. The revolution that started in the early to mideighties in scientific and technical puting finally caught up with the bulk of the marketplace in the midniies. We can classify the different approaches to employmultiprocessor systems for puting (both mercial and technical/scientific) into two large groups: 每個(gè)文件返回 一個(gè)百分?jǐn)?shù)值 , 以此 量化 查詢匹配度 。MapReduce在 2020年出版了谷歌 網(wǎng)站 ,并迅速成為這 類 工作量 分析的 標(biāo)準(zhǔn)。 3 Nutch / Lucene的工作量 Nutch / Lucene是一種執(zhí)行搜索應(yīng)用 的框架 。 BladeCenter的刀片服務(wù)器 使用 和 機(jī)架式集群服務(wù)器 相似的能力 : 4處理器的配置, 1632培養(yǎng)基的最大內(nèi)存,內(nèi)置以太網(wǎng),并擴(kuò)展卡兩種光纖通道, Infiniband的 , Myri的,或 10Gbit/s以太網(wǎng)。第 3節(jié)介紹了 Nutch / Lucene在我們 的系統(tǒng)中 運(yùn)行 的工作量。對(duì)于許多新的以網(wǎng)絡(luò)產(chǎn)品為主的企業(yè)(例如谷歌、雅虎、 eBay、亞馬遜),使用向外擴(kuò)展是是解決必要計(jì)算能力唯一的辦法。 E. Moreira, Doron Shiloach, Robert W. Wisniewski IBM Thomas J. Watson Research Center Yorktown Heights, NY 105980218 向上向外 擴(kuò)展 :關(guān)于研究 Nutch/Lucene的互操作性 摘 要 在過去幾年 中 , 多處理系統(tǒng) 提高運(yùn)行能力 的解決方案 一直困擾著主流的商業(yè)計(jì)算。 多處理系統(tǒng)規(guī)模 的 增加,處理器時(shí)鐘速率 的 提高 , 提供 更高的 計(jì)算能力來處理 事物 的需要,即使是目前最大的 公司也面臨這 些問題 . 對(duì)稱多處理系統(tǒng) 是目前的主流商業(yè)計(jì)算。 向外擴(kuò)展系統(tǒng)需要使用 多個(gè)系統(tǒng)的圖像,因此, 可以有效方便的降低 管理成本。這是這個(gè)平臺(tái) 基于向外 擴(kuò)展方向 的一個(gè)自然 選擇 。在本文中 的結(jié)論報(bào)告中 ,我們 著重關(guān)注 這些 JS21刀片。 檢索的性能通常是被檢索系統(tǒng)和被檢索系統(tǒng)之間的網(wǎng)絡(luò)帶寬給制約著。查詢操作的方式如下:驅(qū)動(dòng)程序 提交特定查詢( 索引格式 )的 任意一個(gè)前臺(tái) 。 Scaleup: The deployment of applications on large sharedmemory servers (large SMPs). 每個(gè) 后臺(tái) 負(fù)責(zé)執(zhí) 行對(duì)數(shù)據(jù)段 的 查詢 并 返回 最 符合查詢要求的結(jié)果 文件列表(通常是 10個(gè) )。 MapReduce提供了一個(gè)方便的方式處理一個(gè)重要的(盡管有限)類 ,通過程序員在現(xiàn)實(shí)生活中 的商業(yè)應(yīng)用并行和容錯(cuò)性問題讓他們關(guān)注 問題域。 盡管 每個(gè) DS4100是搭配一個(gè) 專門 的BladeCenterH機(jī)架 , 但 由于我們 運(yùn)行的 光纖通道網(wǎng)絡(luò) ,集群中的 任何刀片 都可以 可以 查 看到存儲(chǔ)系統(tǒng) 的每個(gè)邏輯 單元 。 IBM BladeCenter,解決 方案 (和類似的系統(tǒng)公司,如惠普和戴爾) 引領(lǐng)著下一步 機(jī)架式集群 向外 擴(kuò)展系統(tǒng)的商業(yè)計(jì)算。 其余 部分 本文安排 如下 .Section 2敘述 了向上擴(kuò)展系統(tǒng)和向外擴(kuò)展系統(tǒng)榮在 我們的研究 中的配置 。 最 近,針對(duì)于商業(yè)計(jì)算的向外擴(kuò)展越來越被關(guān)注。 Scaleup x Scaleout: A Case Study using Nutch/Lucene Maged Michael, Jos233。 IBM 、 惠普和 Sun這樣的 公司每一代人 都 投入巨資 以 建設(shè)更大 、 更好 多處理系統(tǒng) 。 不同 情況 下 ,這 點(diǎn)或許能 改善性能。 第一種 在 商業(yè)計(jì)算成為流行的 向外擴(kuò)展系統(tǒng) 是機(jī)架式集群。 DS4100存儲(chǔ)子系統(tǒng)包括雙存儲(chǔ)控制器,每一個(gè) 都配有 2Gb/s的光纖通道接口,并且在主要抽屜中容納了 14個(gè) SATA驅(qū)動(dòng)器。 在 Nutch / Lucene的搜索框架 包含 一個(gè)使用 MapReduce編程模型 的 并行索引操作書面。 前 臺(tái)緊接著分派查詢?nèi)蝿?wù)給所有的后臺(tái) 。 Scaleout: The deployment of applications on multiple small interconnected servers (clusters). During the first phase of the multiprocessor revolution in mercial puting, the dominance of scaleup was clear. SMPs of increasing size, with processors of increasing clock rate, could offer ever more puting power to handle the needs of even the largest currently represent the mainstream of mercial puting. Companies like IBM, HP and Sun invest heavily in building bigger and better SMPs with each generation. More recently, there has been an increase in interest in scaleout for mercial puting. For many of the new webbased enterprises (., Google, Yahoo, eBay, Amazon), a scale out approach is the only way to deliver the necessary putational power. Also, puter manufacturers have made it easier to deploy scaleout solutions with rackoptimized and bladed servers. (Scaleout has been