freepeople性欧美熟妇, 色戒完整版无删减158分钟hd, 无码精品国产vα在线观看DVD, 丰满少妇伦精品无码专区在线观看,艾栗栗与纹身男宾馆3p50分钟,国产AV片在线观看,黑人与美女高潮,18岁女RAPPERDISSSUBS,国产手机在机看影片

正文內(nèi)容

高性能計算機的體系結(jié)構(gòu)與程序優(yōu)化-全文預覽

2024-09-28 23:11 上一頁面

下一頁面
  

【正文】 for (k = 0。 }。 高速緩沖存儲器 (cache) ? 自然地利用局部性,對程序員“透明” –存放最近最常用的數(shù)據(jù)和指令 ? Cache的工作規(guī)則 –基本單位:塊 (block)、行 (line) –放置策略:直接映射、組相聯(lián)、全相聯(lián) ? 衡量 cache效果的主要指標:命中率 –若命中率為 90%, 不命中時需要另花 10個周期 –則平均訪存時間為: 1+10%*10 = 2 周期 –即存儲系統(tǒng)的速度是 cache速度的 1/2 Cache中塊 的放置策略 ? Block 12 placed in 8 block cache: –全相聯(lián)、直接映射、 2路組相聯(lián) –組號 = 塊號 % 組數(shù) Memory Cache 8路組相聯(lián) 1路組相聯(lián) 2路組相聯(lián) 只有 1個組 共有 8個組 共有 4個組 Cache不命中的三個原因 (3C) ? 首次訪問 Compulsory Cache中沒有這個塊,必須從內(nèi)存取入 – Misses in even an Infinite Cache ? 容量不足 Capacity 換出后又被取入 cache – Misses in Fully Associative Size X Cache ? 沖突 Conflict 組相聯(lián)或直接映射 cache中,映射到同一組的內(nèi)存塊數(shù)過多,導致某些塊換出后又被取入 – Misses in Nway Associative, Size X Cache 調(diào)整程序以提高 cache命中率 ? 代碼(指令) –重新安排程序中不同過程在內(nèi)存中的位置 –更適合編譯程序,在 profile的幫助下做 ? 數(shù)據(jù):程序設計者大有可為 –數(shù)組合并 : 利用塊長,改善空間局部性 –循環(huán)交換 : 改變嵌套循環(huán)中訪問內(nèi)存的次序 –循環(huán)合并 : 增強數(shù)據(jù)的可重用性(時間局部性) –分塊 : 集中訪問可取入 cache的塊狀矩陣,避免全行或全列的讀寫,以增強時間局部性 數(shù)組合并的例子 /* Before: 2 sequential arrays */ int val[SIZE]。k10。k10。j1000。 寄存器的使用 ? 根據(jù)運算過程 B的實際情況和并行環(huán)境的特點 , 可以拆分為以下兩種形式中的一種 。j1000。 ? …… 調(diào)整以后,先是整個的把數(shù)組 b[]計算出來,然后再計算數(shù)組 c[],此時,需要的 b[]數(shù)組中的數(shù)據(jù)都已經(jīng)計算出來了,就不會存在流水線停滯的問題 。 ? b[2]=a[2]*a[2]。 ? …… ? 是求一系列數(shù)的平方的倒數(shù)的操作 。 ? b[1]=a[1]*a[1]。 ? 這是很自然的思維習慣 , 但對于流水線則會造成麻煩 。Institute of Computing Technology, CAS 高性能計算機的 體系結(jié)構(gòu)與程序優(yōu)化 唐志敏 中國科學院計算技術研究所 提綱 ? 應用編程與體系結(jié)構(gòu)的關系 ? 高性能計算機體系結(jié)構(gòu)概述 ? CPU內(nèi)的并行結(jié)構(gòu)(指令級并行) ? 存儲器的層次結(jié)構(gòu) ? 多體交叉的并行存儲系統(tǒng) ? 分布存儲系統(tǒng)中的通信優(yōu)化 體系結(jié)構(gòu)的位置 H a r d w a r eS y s t e m S o f t w a r eA p p l i c a t i o n sP r o g r a m m i n gM o d e l sA r c h i t e c t u r e? 體系結(jié)構(gòu)是硬件和系統(tǒng)軟件之間的界面 – Enable High Performance – Support Ease Programming ? 編程模型是應用和計算機系統(tǒng)間的界面 –理想的模型 : 應用不必了解具體的結(jié)構(gòu)特征 體系結(jié)構(gòu)的主要研究內(nèi)容 ? 如何提高性能 ? –先進的工藝技術--純粹屬于硬件的范圍? ? 技術方面的缺點需要通過結(jié)構(gòu)來彌補 ? DRAM慢, SRAM?。?》 存儲器層次結(jié)構(gòu) –體系結(jié)構(gòu)方面的革新 ? 各個級別上并行性的開發(fā) ? 如何支持編程 ? –共享內(nèi)存 –承擔一些軟件較難完成的優(yōu)化工作 ? 如動態(tài)執(zhí)行 , 猜測執(zhí)行 , COMA等 三種類型的體系結(jié)構(gòu)技術 ? 保守的結(jié)構(gòu) –硬件僅提供必需的設施 , 如大量的寄存器 –高性能能否最終達到 , 完全依賴軟件 ? 折衷的結(jié)構(gòu) –硬件做一些動態(tài)的優(yōu)化 , 如高速緩存 –軟件仍有優(yōu)化的余地 ? 包攬式的結(jié)構(gòu) –硬件試圖做充分的動態(tài)優(yōu)化 , 如 COMA –認為軟件在動態(tài)分析和優(yōu)化方面能力有限 結(jié)點內(nèi)并行:超長指令字結(jié)構(gòu) ? 芯片面積主要用于功能部件和高速緩存 –完全依賴編譯程序開發(fā)指令級并行性 ? 分支預測 , 循環(huán)展開 , 軟件流水 , 蹤跡調(diào)度 –指令系統(tǒng)結(jié)構(gòu)不兼容 ? 顯式并行指令結(jié)構(gòu)( EPIC) – Explicitly Parallel Instruction Computer – 128位的 Group包括 3條指令 –設置專門的域指示指令間是否存在依賴關系 –可連接多個 Group以支持更大范圍內(nèi)的并行 結(jié)點內(nèi)并行:同時多線程結(jié)構(gòu) ? 由硬件提供快速的上下文切換機制 –引入了更多的指令級和線程級并行性 –容忍遠程訪問延遲和數(shù)據(jù)依賴的負面影響
點擊復制文檔內(nèi)容
教學課件相關推薦
文庫吧 www.dybbs8.com
備案圖鄂ICP備17016276號-1