【正文】
位列第五。CFD領(lǐng)域 ...................................................... 94 . 氣象領(lǐng)域 ......................................................... 97 . 生物領(lǐng)域 ........................................................ 100 . 動(dòng)漫渲染領(lǐng)域 .................................................... 101 8. 產(chǎn)品白皮書 ............................................................ 102 . 曙光刀片服務(wù)器 TC2600 ............................................ 102 . 曙光天闊 A850服務(wù)器 .............................................. 108 . 曙光天闊 A950服務(wù)器 .............................................. 111 . 曙光天闊 A620服務(wù)器 .............................................. 114 . 曙光 DS6310FE磁盤陣列 ............................................ 117 . Voltaire ISR9024高性能交換機(jī) .................................... 121 4 1. 曙光公司與中國(guó)高性能計(jì)算 曙光信息產(chǎn)業(yè)有限公司成立于 1995 年 6月,是一家在科技部、信息產(chǎn)業(yè)部、中科院大力推動(dòng)下,以國(guó)家 “863”計(jì)劃重大科研成果為基礎(chǔ)組建的高新技術(shù)企業(yè)。它以中科院計(jì)算所、國(guó)家智能計(jì)算機(jī)研究開發(fā)中心和國(guó)家高性能計(jì)算機(jī)工程中心為技術(shù)依托,擁有強(qiáng)大的技術(shù) 實(shí)力。曙光高性能計(jì)算機(jī)不僅代表著中國(guó)計(jì)算機(jī)最高水平,也為 “ ?兩彈一星 ?、載人航天、基因組研究 ” 等其他標(biāo)志性科技成就做出了重要貢獻(xiàn)。 曙光 高性能計(jì)算機(jī) 以技術(shù)先進(jìn)、性能卓越、 服務(wù)優(yōu)良見長(zhǎng),曾獲 “ 國(guó)家科技進(jìn)步一等獎(jiǎng)、二等獎(jiǎng) ” 、 “ 中科院科技創(chuàng)新特等獎(jiǎng) ” 、 “ 20xx、 20xx、 20xx 中國(guó)十大科技進(jìn)展 ” 等多項(xiàng)國(guó)家級(jí)殊榮。在由中國(guó)科學(xué)院院士工作局、中國(guó)工程院學(xué)部工作局和科學(xué)時(shí)報(bào)社共同主辦的“ 20xx 年中國(guó)十大科技進(jìn)展新聞”評(píng)選,及由科技日?qǐng)?bào)社組織,部分院士、多家中央新聞單位以及讀者參與評(píng)選的“ 20xx 年國(guó)內(nèi)十大科技新聞”評(píng)選中,曙光 5000A 憑借 230萬(wàn)億次強(qiáng)大的計(jì)算能力,與神七飛天、首顆中繼衛(wèi)星成功發(fā)射等入圍這兩大權(quán)威評(píng)選。SSI 由幾方面的內(nèi)容構(gòu)成,主要包括單一控制點(diǎn)( Single Control Point)、單一登錄點(diǎn)( Single Entry Point)、單一文件系統(tǒng)( Single File System)、單一內(nèi)存空間( Single Memory Space)和單一作業(yè)管理( Single Job Management),此外還有單一用戶界面( Single User Interface)、單一進(jìn)程空間( Single Process Space)等。對(duì)于需要多操作系統(tǒng)的用戶,使用曙光 5000A 混合平臺(tái)集群服務(wù)器的優(yōu)勢(shì)就可以得到充分體現(xiàn)。機(jī)器上電是集群應(yīng)用中很小的一個(gè)環(huán)節(jié),但是當(dāng)用電器通電時(shí),瞬間沖擊電流可以達(dá)到正常工作電流的 3倍之多,當(dāng)大規(guī)模集群上電時(shí)所有節(jié)點(diǎn)同時(shí)接通電流,如果不對(duì)此時(shí)的峰值電流進(jìn)行處理,將使當(dāng)?shù)仉娋W(wǎng)內(nèi)設(shè)備受到?jīng)_擊,更甚者會(huì)使電網(wǎng)崩潰。根據(jù)集群內(nèi)部節(jié)點(diǎn)的 ID號(hào)碼,間隔 50ms 依次上電,這樣就避免了對(duì)電網(wǎng)的沖擊,保證了設(shè)備的上電順序。曙光 5000A 服務(wù)器的監(jiān)控工具可以監(jiān)控到整個(gè)集群的軟硬 件運(yùn)行狀態(tài),如:整個(gè)系統(tǒng)工作環(huán)境,各節(jié)點(diǎn) CPU 和內(nèi)存的使用率,網(wǎng)絡(luò)流量,各節(jié)點(diǎn)硬盤溫度、環(huán)境溫度,機(jī)箱風(fēng)扇轉(zhuǎn)速、電源電壓等等,使系統(tǒng)管理員對(duì)各節(jié)點(diǎn)的情況一目了然。其 主要特點(diǎn)是,符合中國(guó)用戶的使用習(xí)慣,集成了一批具有中國(guó)特色的、自主知識(shí)產(chǎn)權(quán)的軟硬件產(chǎn)品。 系統(tǒng) 支持動(dòng)態(tài)擴(kuò)展: 曙光 5000A 的集群式架構(gòu)決定了其具有優(yōu)異的動(dòng)態(tài)擴(kuò)展性。系統(tǒng)更可以支持?jǐn)U展不同操作系統(tǒng)和硬件平臺(tái)的節(jié)點(diǎn),全方位滿足用戶未來應(yīng)用擴(kuò)充的需求。具體應(yīng)用涵蓋材料結(jié)構(gòu)與性能 分析、材料設(shè)計(jì)、材料加工過程中的力學(xué)性能仿真,圖像分析與處理、海量數(shù)據(jù)挖掘、制造過程仿真,運(yùn)動(dòng)動(dòng)力學(xué)仿真,復(fù)雜系統(tǒng)的機(jī) 電 液聯(lián)合仿真,大型復(fù)雜結(jié)構(gòu)間的設(shè)計(jì)、強(qiáng)度分析和有限元計(jì)算,實(shí)體造型, 9 電子設(shè)計(jì)綜合仿真,虛擬現(xiàn)實(shí)應(yīng)用以及并行算法的研究等。因此需要對(duì)應(yīng)用程序的特點(diǎn)進(jìn)行分析。 ? 共享內(nèi) 存并行程序 程序運(yùn)行中可以有多個(gè)進(jìn)程或多個(gè)線程,可以使用多個(gè)處理器進(jìn)行并行計(jì)算。 比如: 材料設(shè)計(jì)軟件 Material Studio、Jmatpro, 第一 性 原理計(jì)算軟件 Vasp、 Wien2K,生命科學(xué)類 軟件 GROMACS、MPIBLAST, 通用 CFD 軟件包 Fluent 等。 ? IO密集型 軟件在運(yùn)行過程中需要 訪問大量的磁盤數(shù)據(jù),同時(shí)會(huì)生成很多臨時(shí)文件,處理器的利用率很低,大量的時(shí)間花在等待 IO 通信的完成上。 刀片集群系統(tǒng)為系統(tǒng)未來的擴(kuò)容升級(jí)提供了良好的基礎(chǔ)。 高性能計(jì)算會(huì) 占用大量?jī)?nèi)存,同時(shí)處理器要不停地訪問內(nèi)存,對(duì)內(nèi)存讀寫帶寬的要求非常高。 系統(tǒng)的峰值運(yùn)算能力達(dá)到 10TFlops,Linpack 效率達(dá)到 78%以上。 2*AMD Opteron 2350HE 四核處理器 (); 16GB Registered ECC DDRII 667MHz; 2*450GB SAS(15000轉(zhuǎn) )硬盤 2*1000M以太網(wǎng)卡; 1*8Gb 光纖 HBA卡; 1*20Gb 4xDDR IB 網(wǎng)卡; CDRW/DVDROM Combo 冗余電源 ,風(fēng)扇 片 2 品目 4:登錄、管理系統(tǒng) 管理 /登陸節(jié)點(diǎn) 曙光A620FX 2U機(jī)架式 。 基于刀片的曙光 5000A 高性能集群系統(tǒng),不僅具有 Cluster 架構(gòu)的普適性優(yōu)點(diǎn),而且更加符合現(xiàn)代高性能計(jì)算機(jī)對(duì)計(jì)算密度、能耗、可靠性、易用性等方面的要求,是高性能計(jì)算的最佳平臺(tái)。 18 . 刀片集群系統(tǒng) 計(jì)算刀片為 四 路服務(wù)器,配置 4 個(gè) AMD Opteron GHz 四核處理器,即每個(gè)刀片有 16個(gè)處理核心。高效能刀片服務(wù)器設(shè)計(jì)包括架構(gòu)設(shè)計(jì)、散熱設(shè)計(jì)、節(jié)能設(shè)計(jì)、管理功能設(shè)計(jì)、交換設(shè)計(jì)、高速互聯(lián)設(shè)計(jì)、可重構(gòu)計(jì)算設(shè)計(jì)等等。 標(biāo)準(zhǔn) PCIE IO擴(kuò)展卡支持:給信號(hào)設(shè)計(jì)以及機(jī)構(gòu)設(shè)計(jì)提出挑戰(zhàn),曙光高速率先在刀片服務(wù)器產(chǎn)品支持了標(biāo)準(zhǔn) PCIE卡。 20 圖 高效能刀片服務(wù)器 (二)優(yōu)化散熱技術(shù) 刀片服務(wù)器設(shè)計(jì)的最大障礙之一 為散熱問題,大部分的刀片服務(wù)器項(xiàng)目的失敗主要是由于散熱效果不佳。 為降低噪音,并降低風(fēng)扇能耗,本項(xiàng)目預(yù)計(jì)采用復(fù)雜的風(fēng)扇控制策略,主要為: a、基于溫度區(qū)域的溫度控制策略 整個(gè)刀片系統(tǒng)中的每一個(gè) 溫度傳感器采用上行和下行兩套溫度區(qū)間劃分。對(duì)應(yīng)的 3 個(gè)溫度等級(jí)是:正常工作溫度區(qū)間、報(bào)警溫度區(qū)間和緊急關(guān)機(jī)溫度區(qū)間。當(dāng)溫度降低到該溫度閥值以下,管理子系統(tǒng)發(fā)送警報(bào)解除消息給管理模塊,在收到 該消息前系統(tǒng)一直處在上行溫度區(qū)間所設(shè)定的狀態(tài)。 對(duì)于系統(tǒng)中某一個(gè)傳感器的溫度,一旦進(jìn)入了報(bào)警溫度區(qū)域,管理模塊則控制所有的風(fēng)扇以全速運(yùn)行,同時(shí)發(fā)送報(bào)警信息給系統(tǒng)管理員??紤]到管理模塊不在線或者管理模塊出現(xiàn)故障的時(shí)候,對(duì)于這個(gè)十分緊急的情況,計(jì)算刀片并不需要等到管理模塊的確認(rèn)才能關(guān)閉計(jì)算刀片的 PTM 域,而是直接關(guān)閉再通知管理模塊。 b、 基于物理空間劃分溫度控制 根據(jù)系統(tǒng)風(fēng)扇擺放的物理位置,能夠得出被不同風(fēng)扇吸引主要?dú)饬鞯奈锢韰^(qū)域。基于物理空間劃分風(fēng)道控制示意圖如圖所示。 基于物理空間劃分的溫度控制方法基于這樣一種假設(shè),即風(fēng)扇在全速工作模式下能夠支持刀片最惡劣的情況,如果溫度還是不能降低,則由 CPU的 Tcase來控制溫度門限,選擇關(guān)機(jī)??紤]到以上兩個(gè)控制策略的優(yōu)點(diǎn)和不足,提出綜合考慮物理風(fēng)道空間和溫度區(qū)間的溫度控制策略。此外當(dāng)某組風(fēng)道中沒有刀片時(shí),該組的風(fēng)扇建議仍然采用不工作停轉(zhuǎn)的模式,當(dāng)然也可以根據(jù)實(shí)際情況進(jìn)行調(diào)整。在架構(gòu)設(shè)計(jì)中,創(chuàng)新地把 PCIE總線引入背板。高效能刀片服務(wù)器采用先進(jìn)的信號(hào)仿真技術(shù)來保證系統(tǒng)的信號(hào)完整性。 管理系統(tǒng)整合目前兩大監(jiān)控技術(shù),即 IPMI 技術(shù)以及 SKVM (支持 KVM Over IP),真正實(shí)現(xiàn)監(jiān)視控制一體化。 KVM over IP 技術(shù) 傳統(tǒng)的鍵盤、鼠標(biāo)、顯示器和存儲(chǔ)設(shè) 備需要一對(duì)一的物理連接在計(jì)算機(jī)上,隨著數(shù)據(jù)中心的不斷擴(kuò)大,龐大的節(jié)點(diǎn)數(shù)目使得在每臺(tái)計(jì)算機(jī)上配備一套鍵盤、鼠標(biāo)和顯示器變得非常困難。透過 Inter環(huán)境,以 TCP/IP網(wǎng)絡(luò)為 接口傳送視頻信息,支持遠(yuǎn)程異地單刀片 BIOS 級(jí) KVM監(jiān)控管理。為確保路由能力, KVM 系統(tǒng)必須使用真正的 IP 協(xié)議,而不是僅僅將 IP 網(wǎng)絡(luò)用來傳輸專用模擬信號(hào)。 (六 ) 自動(dòng)功率管理 高效能刀片式服務(wù)器具備自動(dòng)功率管理功能,主要體現(xiàn)在三個(gè)層面: 根據(jù)實(shí)時(shí)功耗確定工作電源個(gè)數(shù),使電源工作在最佳效率曲線上。 高效能刀片服務(wù)器采用 6顆電源,每顆電源額定功率為 1KW,在管理系統(tǒng)確定功耗后,進(jìn)行最佳電源效率判斷,然后確定是否需要關(guān)閉或者打開電源。 優(yōu)化操作系統(tǒng)內(nèi)核,通過優(yōu)化程序執(zhí)行隊(duì)列或者根據(jù)負(fù)載情況動(dòng)態(tài)調(diào)整 CPU頻率。 AMD Bacelona CPU 已經(jīng)內(nèi)置了 CPU 內(nèi)核負(fù)荷不均時(shí)自動(dòng)休眠或降低內(nèi)核性能的功能,但在現(xiàn)在的 Intel Xeon 中,只支持 CPU 整體降頻,不支持單個(gè) CPU 內(nèi)核降頻。為解決存儲(chǔ)設(shè)備的網(wǎng)絡(luò)共享問題,曙光高效能刀片服務(wù)器設(shè)計(jì)支持 USB 共享及虛擬。 4 8 5 B u sN o d e 1N o d e NU S B B u sU S B B u sU S B B u sC I ( C l i e n t I n t e r f a c e )C I ( C l i e n t I n t e r f a c e )S I ( S e r v e r I n t e r f a c e )M a s s S t o r a g e D e v i c e 圖 本地 USB存儲(chǔ)設(shè)備的遠(yuǎn)端共享 在刀片服務(wù)器特有的環(huán)境下,本地 USB 存儲(chǔ)設(shè)備共享技術(shù)被簡(jiǎn)化為 下 圖 所示 的情況,直接將計(jì)算刀片節(jié)點(diǎn)的 USB 總線連接到管理模塊上,由管理模塊控制 USB 存儲(chǔ)設(shè)備的切換,以達(dá)到共享的目的。如圖所示,由各個(gè)企業(yè)聯(lián)盟主導(dǎo)的刀片服務(wù)器規(guī)范。中國(guó)刀片式服務(wù)器標(biāo)準(zhǔn)擬從刀片式服務(wù)器基礎(chǔ)架構(gòu)、刀片式服務(wù)器監(jiān)控管理、計(jì)算刀片、刀片式服務(wù)器交換模塊、刀片式服務(wù)器存儲(chǔ)模塊等幾方面展開。共采用 4臺(tái)曙光 4way A850服務(wù)器、 16 顆 AMD 64 位 Opteron 四核 CPU 構(gòu)建胖計(jì)算節(jié)點(diǎn),提供 Tflops 的主頻峰值計(jì)算能力。 (三 ) 高擴(kuò)展性 ? 支持 AMD Opteron 四核處理器; ? 16 條 DIMM 插槽,可擴(kuò)展至 128GB 內(nèi)存; ? 支持 8 塊熱插拔硬盤,構(gòu)造大規(guī)模存儲(chǔ); ? 系統(tǒng)配置 1350W 3+1冗余電源,也可根據(jù)實(shí)際配置選擇不同數(shù)量的電源模塊而提供不同功率輸出。本方案的網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)從性能和可靠?jī)蓚€(gè)原則出發(fā),采用 2套網(wǎng)絡(luò)實(shí)現(xiàn)方式。 ? 計(jì)算 和存儲(chǔ) 網(wǎng)采用 Infiniband 高速網(wǎng)絡(luò),用 于并行計(jì)算時(shí)的數(shù)據(jù)交換和計(jì)算通訊 、 IO 讀寫等。不同于 PCI,Infiniband 允許多個(gè) I/O 外設(shè)無(wú)延遲、無(wú)擁塞地同時(shí)向處理器發(fā)出數(shù)據(jù)請(qǐng)求 。第一個(gè)交換機(jī)空余端口用來連接 4 臺(tái) A850,第二個(gè)交換機(jī)的空余端口用來連接 2 臺(tái) IO 節(jié)點(diǎn)和 2 臺(tái)管理節(jié)點(diǎn)。 本方案中采用 1臺(tái) H3C 510024 千兆以太網(wǎng)交換機(jī),計(jì)算刀片通過千 兆交換模塊連接到交換機(jī)上,可以滿足管理、監(jiān)控的需求。 光纖交換機(jī)采用 16 端口 的博科 BR310, 16個(gè) 8Gb 端口,其中 8 端口激活,留下了充足的擴(kuò)展余地。 35 . 系統(tǒng)軟件 方案 最終用戶的各種應(yīng)用的運(yùn)行具有如下的層次視圖,如圖所示。 DCJM 是是專門針對(duì)高性能計(jì)算領(lǐng)域而開發(fā)的高級(jí)功能。 DCJM 系統(tǒng)使用這些策略檢查校園計(jì)算機(jī)群內(nèi)可用的計(jì)算資源。作業(yè)的限期是時(shí)間限制的實(shí)例。作業(yè)是指用戶對(duì)計(jì)算機(jī)資源的請(qǐng)求。 ? 作業(yè)完成時(shí),將作業(yè)執(zhí)行記錄寫入日志。 ? 具有良好的穩(wěn)定性和高可用性,系統(tǒng)發(fā)生故障后可自 動(dòng)恢復(fù)對(duì)作業(yè)系統(tǒng)中已運(yùn)行、排隊(duì)作業(yè)的管理,不會(huì)丟失作業(yè)。 ? 支持多種硬、軟件平臺(tái)。 它不僅能夠編譯 C、 Objective C 和 C++程序,而且還能編譯 Fortran、 Pascal 等語(yǔ)言寫的程序。 卓著的單處理器性能,罕見的可靠性,支持幾乎所有常用的擴(kuò)展名,對(duì)附加到編譯器(服務(wù)于將 RISC/UNIX 工作站和服務(wù)器移植到基于