freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

中大理工學(xué)院hpc集群方案(編輯修改稿)

2024-10-08 13:58 本頁面
 

【文章內(nèi)容簡介】 錄解決問題的時間,在每個 HPL問題的解決步驟是相同的,一旦步驟相同只需要知道解決問題的時間就可以很容易的推出運(yùn)算的能力。 HPL的測試值會受到很多因素的影響,但是主要的有兩個因素,一是網(wǎng)絡(luò)的性能,二是平均每個 CPU獲得的內(nèi)存大小。 (一般針對于SMP來說 ) HPL與其前輩不同,因?yàn)?,使用者可以選擇矩陣的規(guī)模(問題規(guī)模)。對于最好的系統(tǒng)性能,目標(biāo)是使用能與內(nèi)存匹配的最大的問題規(guī)模。為此,推薦接近內(nèi)存總?cè)萘康?80%的問題規(guī)模。如果問題規(guī)模 太大,則可能出現(xiàn)(與磁盤的)交換而顯著降低性能。 使用基準(zhǔn)測試一般需要和收集的信息包括: R: 它是系統(tǒng)的最大的理論峰值性能,按 GFLOPS表示。如 10個 Pentium III CPU 的 Rpeak值。 N: 給出有最高 GFLOPS值的矩陣規(guī)?;騿栴}規(guī)模。正如拇指規(guī)則,對于最好的性能,此數(shù)一般不高于總內(nèi)存的 80%。 Rmax: 在 Nmax規(guī)定的問題規(guī)模下,達(dá)到的最大 GFLOPS。 NB: 對于數(shù)據(jù)分配和計算粒度, HPL使用的塊尺度 NB。小心選擇 NB尺度。從數(shù)據(jù)分配的角度看,最小的 NB應(yīng)是理想的;但太小 的 NB值也可以限制計算性能。雖然最好值取決于系統(tǒng)的計算 /通信性能比,但有代表性的良好塊規(guī)模是 32到 256個間隔。 11 / 23 MPBench 介紹 MPBench 主要是測試 MPI和 PVM消息傳模塊的效能 我們可以從這個測試中獲得以下一些信息: 1. Bandwidth (BB/second) 帶寬 2. Gap Time (time to launch a message and continue) (Us) MPI 間隔時間 3. Roundtrip or 2 * Latency (transactions/second) 往 返延遲 4. Asynchronous Bidirectional bandwidth (KB/second) 異步雙向帶寬 5. Broadcast (KB/second) 廣播速率 6. Allreduce (KB/second) 測試系統(tǒng)最低點(diǎn) 7. AlltoAll (KB/second) 全對稱帶寬 在這個程序中又有七個子程式來完成不同的功能,以下我們就介紹以下這七個程式的功能: Bandwidth 這個程式主要通過一個 timer計數(shù)器和不停發(fā)送大小不同的包來測試我們的帶寬。在程式中使用了多次發(fā)送數(shù)據(jù)的方法來提高測試 的可信度,它有兩重的循環(huán),外層改變包的大小,內(nèi)層使用多次發(fā)送來完成平均值的計算。 Bidirectional Bandwidth 這個程式用于點(diǎn)對點(diǎn)的帶寬測試。測試兩端都使用 nonblocking的方式來接收(無阻塞方式)和發(fā)送。在下一次重復(fù)發(fā)送數(shù)據(jù)之前程序會等待,直到這個循環(huán)完成才開始 次的循環(huán)。通過多次的測試和改變包的大小我們就能得到平均數(shù)據(jù),以便來反映端到端的帶寬性能。 Roundtrip 這是一個類似于 pingpong的測試程式。它使用的方法和 Bandwidth 很類似,唯一不同的是在Roundtrip中 slave進(jìn)程收到消息后不再是發(fā)送 4個位的數(shù)據(jù)給 master,而是直接把接到的數(shù)據(jù)回傳回去。這種方式很適應(yīng)于服務(wù)器和數(shù)據(jù)庫的應(yīng)用。 Application Latency 應(yīng)用延遲測試和 Bandwith很類似,不同的是這里不回復(fù) 4個位的數(shù)據(jù)來表示自己接收到了數(shù)據(jù),也不象 Roundtrip一樣發(fā)送回原始數(shù)據(jù),而是不做任何的反映,這樣就測試出發(fā)送數(shù)據(jù)的延遲,也就是應(yīng)用中發(fā)送一個數(shù)據(jù)包的延遲。 Broadcast and Reduce 這個程式使用廣播的方式來工作。它向每個節(jié)點(diǎn)發(fā)送一個數(shù)據(jù)鏡像,我們可 以通過這個測試了解數(shù)據(jù)廣播包的發(fā)送性能 AlltoAll 使用 Broadcast 方法來實(shí)現(xiàn)每個節(jié)點(diǎn)到每個結(jié)點(diǎn)之間的傳送數(shù)據(jù)。每次發(fā)送包的大小等于包的總大小除以我們 MPI進(jìn)程的個數(shù)。測試結(jié)果可以反映節(jié)點(diǎn)間大量數(shù)據(jù)分發(fā)時的性能。 AllReduce 這個程式是 AlltoAll 的一個衍生程式,每個節(jié)點(diǎn)都有到其它節(jié)點(diǎn)的數(shù)據(jù),這樣就很容易出現(xiàn)系統(tǒng)的瓶頸。了解這個瓶頸有利于在設(shè)計 MPI程序時避免這些開銷。 CacheBench 介紹 在我們程序當(dāng)中經(jīng)常會出現(xiàn)一些需要重復(fù)讀寫的數(shù)據(jù),這些數(shù)據(jù)如果被放置在我們的 高速緩存中,程序在讀取時就不需要很頻繁的去讀取內(nèi)存數(shù)據(jù),這樣就減少了程序遠(yuǎn)行的時間。高速緩存的大小對我們的性能是很總要的,所以在這里我們需要對我們的 Cache進(jìn)行一個詳細(xì)的測試。 在 LLCBench中它的 Cache測試程序叫做 CacheBench。它的目標(biāo)是獲得系統(tǒng)的 Cache性能的最優(yōu)參數(shù)。并且得到不同編譯器開關(guān)對我們系統(tǒng) Cache的影響。使用這些參數(shù)程序員可以有目的的修改自己的程序,以便能夠在不同的環(huán)境下使系統(tǒng)的整體性能有所提高。同樣的 CacheBench也分 8個基本的測試,這些測試包括: 12 / 23 Cache Read 這個程式通過指定的循環(huán)來讀取不同向量長度的包,以便測試出我們 Cache讀取數(shù)據(jù)的帶寬。它通過讀取 Cache中的數(shù)據(jù)到 register中 Cache Write 這個程式和 Read類似,它通過指定的循環(huán)寫入不同向量長度的包,以便測試我們的 Cache寫入數(shù)據(jù)的帶寬。它通過把 register 中數(shù)據(jù)寫入 Cache中實(shí)現(xiàn)。不同類型的儲存子系統(tǒng)對這個測試結(jié)果的影響很大。 Cache Read/Modify/Write 這個程式也是反映在不同的循環(huán)中我們使用不同向量長度的包讀 / 修改 /寫的數(shù)據(jù)帶寬。在這個程式中 會有兩次內(nèi)存的操作,第一次是從 memory/cache 中讀取我們的數(shù)據(jù)到 register 中,第二次是將register的數(shù)據(jù)寫入到我們的 cache中。 Hand tuned Cache Read 和 CacheRead的使用方法類似,不過我們可以使用編譯優(yōu)化參數(shù)。這些參數(shù)分別為: 1. Degree eight unroling 8 等級優(yōu)化,每個循環(huán)使用 1個內(nèi)存元素被使用 8個替代 2. Dependency analysis 相關(guān)性分析,操作中每個元素都是獨(dú)立的 3. Register reuser 寄存器 重用,在任何時刻寄存器都可以重新使用 Hand tuned Cache Write 和 CacheWrite 的方法類似,可以使用上述的編譯優(yōu)化參數(shù) Hand tuned Cache Read/Modify/Write 和 Cache Read/Modify/Write 類似,可以使用上述的編譯優(yōu)化參數(shù) Memset() from C library 這是一個 C庫的標(biāo)準(zhǔn)函數(shù),它用于對內(nèi)存區(qū)域的初始化。這個函數(shù)經(jīng)常被用到,甚至做到了硬件的支持。這個測試主要是得到我們 C庫中執(zhí)行 Memset()函數(shù)的效能。 Memcpy() from C library 同樣的,這是一個內(nèi)存拷貝的程式,它也是一個標(biāo)準(zhǔn)的庫,使用它我們可以獲得在內(nèi)存中做拷貝的效率。這個函數(shù)也是經(jīng)常需要使用的。 其中前面的 6個測試使用默認(rèn)的雙精度類型的數(shù)據(jù)作為基本的數(shù)據(jù)類型數(shù)組。當(dāng)然你也可以改變,你可以在 Makefile文件里面修改。 BLASBench 介紹 LLBench中的最后一個測試就是 BLASBench,它是一個測試基本線性代數(shù)子程序性能的基準(zhǔn)測試。數(shù)學(xué)庫直接影響到我們的計算效能,這從上面的章節(jié)中已經(jīng)可以看出。 BLAS中提供了基本的向量計算數(shù)學(xué)方法 ,其中就有向量與向量,向量與矩陣,矩陣與矩陣。其中矩陣與矩陣已經(jīng)在上面的 LinPach測試中看見了。 BLAS提供了標(biāo)準(zhǔn)的 API供 Fortran 或者是 C等語言調(diào)用。 我們測試的目的是估計出 BLAS程序的效能,并且再次的分析系統(tǒng)出現(xiàn)瓶頸時 Cache的效能。BLASBench 有三個主要的測試項目,它們是: AXPY 向量相加評定 GEMV 矩陣與向量相乘評定 GEMM 矩陣與矩陣相乘評定 這些測試都可以選擇使用雙精度或者是單精度數(shù)據(jù)類型,這些都可以在 Makefile 里面定義。 BLASBech是使用 C語言來調(diào)用 BLAS(使用 Fortran 寫的)的程序,并且它能夠動態(tài)的分配我們的內(nèi)存。首先 BLASBech分配足夠的內(nèi)存來解決我們的問題規(guī)模,一旦內(nèi)存分配完成就開始數(shù)組的初始化,最后循環(huán)的調(diào)用 BLAS進(jìn)行計算。在計算的過程中循環(huán)次數(shù)是動態(tài)的,它會根據(jù)當(dāng)前的內(nèi)存的狀況來確定循環(huán)的次數(shù)。 具體的測試結(jié)果請參閱正特科技提交的測試報告 13 / 23 五 產(chǎn)品配置與報價 主節(jié)點(diǎn)服務(wù)器(五舟 HPC520R) 基本性能 處理器 標(biāo)配兩顆 ,支持雙路英特爾 174。Xeon?處理器 - 或更高,采用 800MHz 前端總線,支持 EM64T技術(shù)( 64 位內(nèi)存擴(kuò)展技術(shù)) 二級緩存 2MB 全速二級緩存,集成于 CPU內(nèi)部 內(nèi)存 標(biāo)配 2GB 雙通道 DDR2 RECC PC3200 內(nèi)存 容量: 6 個或 8 個 DIMM插槽,支持高達(dá) 12 /16GB 內(nèi)存尋址空間內(nèi)存(支持 128MB到 2GB DIMM;內(nèi)存必須成對安裝) 集成雙通道內(nèi)存控制器,支持雙路交叉存取模式,數(shù)據(jù)帶寬高達(dá) 類型: 72 位 DDR2 533/400 ECC Registered SDRAM,240 針 DIMM插槽 單個 DIMM可支持容量: 128MB,256MB,512MB,1GB, 2GB ECC 錯誤探測功能:修正單位錯誤,探測雙位錯誤 存儲控制器 集成雙通道 Ultra320 SCSI 控制器 , 內(nèi)建 RAID0、 1 功能; 集成雙通道 IDE 控制器 集成雙通道 SATA150 控制器 , 內(nèi)建 RAID0、 1 功能 RAID 控制器 可選高性能 Ultra320 SCSI RAID 卡,實(shí)現(xiàn) RAID0/1/5/50 等高級 RAID應(yīng)用 網(wǎng)絡(luò)環(huán)境 集成兩個 1000M 網(wǎng)卡(支持 10BASET、 100BASETX 和
點(diǎn)擊復(fù)制文檔內(nèi)容
黨政相關(guān)相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖片鄂ICP備17016276號-1