freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

高性能計(jì)算機(jī)的體系結(jié)構(gòu)與程序優(yōu)化(參考版)

2024-09-04 23:11本頁面
  

【正文】 處理機(jī)數(shù)不顯式地給出。 k++) c[i][j]+=a[i][k]*b[k][j]。 j++) for (k=0。 i++) for (j=0。 例子:矩陣乘法(并行 3) 一開始只有一個(gè)進(jìn)程在運(yùn)行 ?forall循環(huán)中的所有迭代均可并行執(zhí)行 forall (i=0。 kN。 jN。 iend。 iP。 k++) c[i][j]+=a[i][k]*b[k][j]。 j++) for (k=0。 i++) for (j=0。 for (i=begin。 例子:矩陣乘法(并行 1) 一開始就有 P個(gè)并行進(jìn)程 ?myid的值為 0,1,...,P1 begin=N*myid/P。 kN。 jN。 iN。 B稱為 分塊因子 Blocking Factor ? 不命中數(shù)從 2N3 + N2 降到 2N3/B +N2 ? 但還存在因沖突導(dǎo)致的不命中 減少因分塊導(dǎo)致的沖突不命中 ? 需要對(duì)分塊后形成的子矩陣進(jìn)行重新布置 B loc kin g Fa ct or Miss Rate00. 050. 10 50 100 150F ull y A ss oc i ative C ach e D ire ct M a pp ed Ca c he 分塊的性能提高 ? 矩陣乘法: N=500 ? 在 i860上 –分塊前 , 運(yùn)行時(shí)間為 –分塊后 , 運(yùn)行時(shí)間為 , 加速比 ? 在 Pentium 166MMX上 –分塊前 , 運(yùn)行時(shí)間為 –分塊后 , 運(yùn)行時(shí)間為 , 加速比 多體交叉并行存儲(chǔ)系統(tǒng) ? 提高主存帶寬的重要途徑 –多個(gè)獨(dú)立的存儲(chǔ)體,統(tǒng)一編址,同時(shí)工作 –訪問均勻地分布在所有體內(nèi)時(shí),帶寬線性提高 ? 地址分配方式: word interleave 000000 000001 000002 000003 000004 000005 000006 000007 FFFFFF FFFFFE FFFFFD FFFFFC M0 M1 M2 M3 并行存儲(chǔ)器中的訪問沖突 ? 基本條件:體數(shù)不小于訪存所需要的時(shí)鐘周期數(shù),以保證順序訪問時(shí)不會(huì)有體沖突 ? 體數(shù)增大時(shí),沖突的機(jī)會(huì)會(huì)少一些,但成本增加了 ? 體數(shù)正好等于訪存周期數(shù)時(shí),有下面的結(jié)論 ? 考慮固定步長的訪問序列 A, A+S, A+2S, A+3S, ... ? 若一共有 N個(gè)存儲(chǔ)模塊,則該訪問序列集中在 ? 若 GCD(N, S) = 1, 則沖突訪問的概率最小 ? 因?yàn)?N一般是 2的冪次,所以 S最好不是 2的冪次 N GCD(N, S) 個(gè)體內(nèi) 對(duì)數(shù)組元素的沖突訪問 ? 在 C語言中,數(shù)組元素按行存放,按列訪問時(shí)會(huì)產(chǎn)生沖突 ? 在 FORTRAN中,按列存放,按行訪問時(shí)會(huì)產(chǎn)生沖突 ? 其它導(dǎo)致沖突的情形 –矩陣中的一個(gè)長方形塊 – FFT算法中存取步長依次為 2i, i = 0, 1, 2, … ? 減少?zèng)_突的方法(與 cache優(yōu)化類似) –循環(huán)交換、數(shù)組加邊 并行處理概述 ? 利用多個(gè)部件完成同一個(gè)任務(wù) ? 并行處理的好處 –提高性能:縮短解題時(shí)間,擴(kuò)大解題規(guī)模 –降低成本:與同樣性能的單機(jī)相比 –容錯(cuò):更高的可用性 ? 并行處理的層次 –處理機(jī)內(nèi):指令級(jí)并行,多功能部件 –處理機(jī)間:多處理機(jī),多計(jì)算機(jī) 多機(jī)并行的基本形式 ? 按指令流與數(shù)據(jù)流的數(shù)量來劃分 –單指令流多數(shù)據(jù)流( SIMD) –多指令流多數(shù)據(jù)流( MIMD) ? 按機(jī)間的互連方式來劃分 –總線結(jié)構(gòu)、交叉開關(guān)、網(wǎng)格結(jié)構(gòu)、超立方體 –樹型結(jié)構(gòu)、星型結(jié)構(gòu) ? 按存儲(chǔ)器的組織方式來劃分 –集中式存儲(chǔ),通常是為多個(gè)處理機(jī)共享 –分布式存儲(chǔ),通常是各個(gè)處理機(jī)私有的 兩種基本的結(jié)構(gòu) 互連網(wǎng)絡(luò)(總線、開關(guān)等) P1 Pn M1 Mn 分布存儲(chǔ)的結(jié)構(gòu) 適合任務(wù)間并行 互連網(wǎng)絡(luò)(總線、開關(guān)等) P1 Pn M1 Mn 共享存儲(chǔ)的結(jié)構(gòu) 適合任務(wù)間、任務(wù)內(nèi)并行 并行處理的過程:矩陣乘法 ? A ? B = C的過程可分為四個(gè)獨(dú)立的部分: Ai ? B = Ci, i = 1, 2, 3, 4 ? 每部分包含的運(yùn)算可由一臺(tái)處理機(jī)單獨(dú)完成 ? 在集中存儲(chǔ)的系統(tǒng)中,同時(shí)訪問 B會(huì)導(dǎo)致沖突 ? 在分布存儲(chǔ)的系統(tǒng)中, B的分散存儲(chǔ)會(huì)導(dǎo)致通信 A B C X = A1 A2 A3 A4 C1 C2 C3 C4 并行處理的性能 ? 加速比:串行計(jì)算時(shí)間除以并行計(jì)算時(shí)間 ? 加速比小于處理單元數(shù)目的原因: –存在不可并行成分: Speedup 1/s –負(fù)載不均衡:有些處理機(jī)沒事做 –通信開銷:包括傳遞消息、訪存沖突等 –同步開銷:為了步調(diào)一致,必須相互等待 ? 極端的情況:并行后的性能比單機(jī)還差 ? 也可能出現(xiàn)超線性的加速比 并行粒度:在哪個(gè)級(jí)別上并行? ? 子任務(wù)級(jí)的并行(粗粒度) –例如:方位 FFT、距離 FFT、距離 IFFT、方位 IFFT各由一個(gè)處理機(jī)完成,形成宏觀流水 –子任務(wù)的運(yùn)算量差別較大時(shí),不易實(shí)現(xiàn)負(fù)載的平衡 ? 數(shù)據(jù)級(jí)的并行(中等粒度或細(xì)粒度) –對(duì)問題相關(guān)的數(shù)據(jù)場(chǎng)進(jìn)行
點(diǎn)擊復(fù)制文檔內(nèi)容
教學(xué)課件相關(guān)推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號(hào)-1