freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內容

中大理工學院hpc集群方案(編輯修改稿)

2025-05-23 04:31 本頁面
 

【文章內容簡介】 就可以很容易的推出運算的能力。HPL的測試值會受到很多因素的影響,但是主要的有兩個因素,一是網(wǎng)絡的性能,二是平均每個CPU獲得的內存大小。(一般針對于SMP來說)HPL與其前輩不同,因為,使用者可以選擇矩陣的規(guī)模(問題規(guī)模)。對于最好的系統(tǒng)性能,目標是使用能與內存匹配的最大的問題規(guī)模。為此,推薦接近內存總容量的80%的問題規(guī)模。如果問題規(guī)模太大,則可能出現(xiàn)(與磁盤的)交換而顯著降低性能。使用基準測試一般需要和收集的信息包括:R: 它是系統(tǒng)的最大的理論峰值性能,按GFLOPS表示。如10個Pentium III CPU的Rpeak值。 N: 給出有最高GFLOPS值的矩陣規(guī)?;騿栴}規(guī)模。正如拇指規(guī)則,對于最好的性能,此數(shù)一般不高于總內存的80%。 Rmax: 在Nmax規(guī)定的問題規(guī)模下,達到的最大GFLOPS。 NB: 對于數(shù)據(jù)分配和計算粒度,HPL使用的塊尺度NB。小心選擇NB尺度。從數(shù)據(jù)分配的角度看,最小的NB應是理想的;但太小的NB值也可以限制計算性能。雖然最好值取決于系統(tǒng)的計算/通信性能比,但有代表性的良好塊規(guī)模是32到256個間隔。 MPBench介紹 MPBench主要是測試MPI和PVM消息傳模塊的效能我們可以從這個測試中獲得以下一些信息:1. Bandwidth (BB/second) 帶寬2. Gap Time (time to launch a message and continue) (Us) MPI間隔時間3. Roundtrip or 2 * Latency (transactions/second) 往返延遲4. Asynchronous Bidirectional bandwidth (KB/second) 異步雙向帶寬5. Broadcast (KB/second) 廣播速率 6. Allreduce (KB/second) 測試系統(tǒng)最低點7. AlltoAll (KB/second) 全對稱帶寬在這個程序中又有七個子程式來完成不同的功能,以下我們就介紹以下這七個程式的功能:Bandwidth這個程式主要通過一個timer計數(shù)器和不停發(fā)送大小不同的包來測試我們的帶寬。在程式中使用了多次發(fā)送數(shù)據(jù)的方法來提高測試的可信度,它有兩重的循環(huán),外層改變包的大小,內層使用多次發(fā)送來完成平均值的計算。Bidirectional Bandwidth這個程式用于點對點的帶寬測試。測試兩端都使用nonblocking的方式來接收(無阻塞方式)和發(fā)送。在下一次重復發(fā)送數(shù)據(jù)之前程序會等待,直到這個循環(huán)完成才開始下一次的循環(huán)。通過多次的測試和改變包的大小我們就能得到平均數(shù)據(jù),以便來反映端到端的帶寬性能。Roundtrip 這是一個類似于pingpong的測試程式。它使用的方法和Bandwidth很類似,唯一不同的是在Roundtrip中slave進程收到消息后不再是發(fā)送4個位的數(shù)據(jù)給master,而是直接把接到的數(shù)據(jù)回傳回去。這種方式很適應于服務器和數(shù)據(jù)庫的應用。Application Latency應用延遲測試和Bandwith很類似,不同的是這里不回復4個位的數(shù)據(jù)來表示自己接收到了數(shù)據(jù),也不象Roundtrip一樣發(fā)送回原始數(shù)據(jù),而是不做任何的反映,這樣就測試出發(fā)送數(shù)據(jù)的延遲,也就是應用中發(fā)送一個數(shù)據(jù)包的延遲。Broadcast and Reduce這個程式使用廣播的方式來工作。它向每個節(jié)點發(fā)送一個數(shù)據(jù)鏡像,我們可以通過這個測試了解數(shù)據(jù)廣播包的發(fā)送性能AlltoAll 使用Broadcast方法來實現(xiàn)每個節(jié)點到每個結點之間的傳送數(shù)據(jù)。每次發(fā)送包的大小等于包的總大小除以我們MPI進程的個數(shù)。測試結果可以反映節(jié)點間大量數(shù)據(jù)分發(fā)時的性能。AllReduce這個程式是AlltoAll 的一個衍生程式,每個節(jié)點都有到其它節(jié)點的數(shù)據(jù),這樣就很容易出現(xiàn)系統(tǒng)的瓶頸。了解這個瓶頸有利于在設計MPI程序時避免這些開銷。 CacheBench介紹在我們程序當中經(jīng)常會出現(xiàn)一些需要重復讀寫的數(shù)據(jù),這些數(shù)據(jù)如果被放置在我們的高速緩存中,程序在讀取時就不需要很頻繁的去讀取內存數(shù)據(jù),這樣就減少了程序遠行的時間。高速緩存的大小對我們的性能是很總要的,所以在這里我們需要對我們的Cache進行一個詳細的測試。在LLCBench中它的Cache測試程序叫做CacheBench。它的目標是獲得系統(tǒng)的Cache性能的最優(yōu)參數(shù)。并且得到不同編譯器開關對我們系統(tǒng)Cache的影響。使用這些參數(shù)程序員可以有目的的修改自己的程序,以便能夠在不同的環(huán)境下使系統(tǒng)的整體性能有所提高。同樣的CacheBench也分8個基本的測試,這些測試包括:Cache Read這個程式通過指定的循環(huán)來讀取不同向量長度的包,以便測試出我們Cache讀取數(shù)據(jù)的帶寬。它通過讀取Cache中的數(shù)據(jù)到register中Cache Write這個程式和Read類似,它通過指定的循環(huán)寫入不同向量長度的包,以便測試我們的Cache寫入數(shù)據(jù)的帶寬。它通過把register中數(shù)據(jù)寫入Cache中實現(xiàn)。不同類型的儲存子系統(tǒng)對這個測試結果的影響很大。Cache Read/Modify/Write這個程式也是反映在不同的循環(huán)中我們使用不同向量長度的包讀/ 修改/寫的數(shù)據(jù)帶寬。在這個程式中會有兩次內存的操作,第一次是從memory/cache中讀取我們的數(shù)據(jù)到register中,第二次是將register的數(shù)據(jù)寫入到我們的cache中。Hand tuned Cache Read和CacheRead的使用方法類似,不過我們可以使用編譯優(yōu)化參數(shù)。這些參數(shù)分別為:1. Degree eight unroling 8等級優(yōu)化,每個循環(huán)使用1個內存元素被使用8個替代2. Dependency analysis  相關性分析,操作中每個元素都是獨立的3. Register reuser 寄存器重用,在任何時刻寄存器都可以重新使用Hand tuned Cache Write  和CacheWrite的方法類似,可以使用上述的編譯優(yōu)化參數(shù)Hand tuned Cache Read/Modify/Write和Cache Read/Modify/Write類似,可以使用上述的編譯優(yōu)化參數(shù)Memset() from C library這是一個C庫的標準函數(shù),它用于對內存區(qū)域的初始化。這個函數(shù)經(jīng)常被用到,甚至做到了硬件的支持。這個測試主要是得到我們C庫中執(zhí)行Memset()函數(shù)的效能。Memcpy() from C library同樣的,這是一個內存拷貝的程式,它也是一個標準的庫,使用它我們可以獲得在內存中做拷貝的效率。這個函數(shù)也是經(jīng)常需要使用的。其中前面的6個測試使用默認的雙精度類型的數(shù)據(jù)作為基本的數(shù)據(jù)類型數(shù)組。當然你也可以改變,你可以在Makefile文件里面修改。 BLASBench介紹LLBench中的最后一個測試就是BLASBench,它是一個測試基本線性代數(shù)子程序性能的基準測試。數(shù)學庫直接影響到我們的計算效能,這從上面的章節(jié)中已經(jīng)可以看出。BLAS中提供了基本的向量計算數(shù)學方法,其中就有向量與向量,向量與矩陣,矩陣與矩陣。其中矩陣與矩陣已經(jīng)在上面的LinPach測試中看見了。BLAS提供了標準的API供Fortran或者是C等語言調用。我們測試的目的是估計出BLAS程序的效能,并且再次的分析系統(tǒng)出現(xiàn)瓶頸時Cache的效能。BLASBench有三個主要的測試項目,它們是:AXPY 向量相加評定GEMV 矩陣與向量相乘評定GEMM 矩陣與矩陣相乘評定這些測試都可以選擇使用雙精度或者是單精度數(shù)據(jù)類型,這些都可以在Makefile里面定義。BLASBech是使用C語言來調用BLAS(使用Fortran寫的)的程序,并且它能夠動態(tài)的分配我們的內存。首先BLASBech分配足夠的內存來解決我們的問題規(guī)模,一旦內存分配完成就開始數(shù)組的初始化,最后循環(huán)的調用BLAS進行計算。在計算的過程中循環(huán)次數(shù)是動態(tài)的,它會根據(jù)當前的內存的狀況來確定循環(huán)的次數(shù)?!【唧w的測試結果請參閱正特科技提交的測試報告 五 產(chǎn)品配置與報價 主節(jié)點服務器(五舟HPC520R)基本性能處理器,支持雙路英特爾174。Xeon?-,采用800MHz前端總線,支持EM64T技術(64位內存擴展技術)二級緩存2MB全速二級緩存,集成于CPU內部內存標配2GB雙通道DDR2 RECC PC3200內存容量:6個或8個DIMM插槽,支持高達12 /16GB內存尋址空間內存(支持128MB到2GB DIMM;內存必須成對安裝)集成雙通道內存控制器,支持雙路交叉存取模式,類型:72位DDR2 533/400 ECC Registered SDRAM,240針DIMM插槽單個DIMM可支持容量:128MB,256MB,512MB,1GB, 2GBECC錯誤探測功能:修正單位錯誤,探測雙位錯誤存儲控制器集成雙通道Ultra320 SCSI控制器, 內建RAID0、1功能;集成雙通道IDE控制器集成雙通道SATA150控制器, 內建RAID0、1功能RAID控制器可選高性能Ultr
點擊復制文檔內容
規(guī)章制度相關推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1