正文內(nèi)容

第十章依賴于機器的優(yōu)化(更新版)

2025-09-09 13:28上一頁面

下一頁面

　　

【正文】支配 dst，被移動操作可利用空閑資源免費執(zhí)行，在控制流到達(dá) src時獲益 – 若 dst不支配 src，需要插入被移動操作的拷貝 dst src 全局代碼調(diào)度向下的代碼移動從塊 src向下移動到塊 dst，假定移動未違反數(shù)據(jù)相關(guān) ，并使得通過 dst到 src的路徑運行得較快 – 若 dst和 src等價，則被移動操作應(yīng)該被執(zhí)行時，它正好僅被執(zhí)行一次 src dst 全局代碼調(diào)度向下的代碼移動從塊 src向下移動到塊 dst，假定移動未違反數(shù)據(jù)相關(guān) ，并使得通過 dst到 src的路徑運行得較快 – 若 dst和 src等價，則被移動操作應(yīng)該被執(zhí)行時，它正好僅被執(zhí)行一次 – src未后支配 dst, 向下移動的代碼經(jīng)常是存儲操作 , 復(fù)制從 src到 dst路徑上的各塊，并把被移動操作僅放置在 dst的新拷貝中 src dst 全局代碼調(diào)度 B1 B2 B3 B4 a = b + c B5 B6 B7 d = b + c B1 B2 B3 B4 t = b + c a = t B4? B5 d = t d = b + c B6 B6? B7 全局代碼調(diào)度向下的代碼移動從塊 src向下移動到塊 dst，假定移動未違反數(shù)據(jù)相關(guān) ，并使得通過 dst到 src的路徑運行得較快 – 若 dst和 src等價，則被移動操作應(yīng)該被執(zhí)行時，它正好僅被執(zhí)行一次 – src未后支配 dst, 向下移動的代碼經(jīng)常是存儲操作 , 復(fù)制從 src到 dst路徑上的各塊，并把被移動操作僅放置在 dst的新拷貝中 – dst沒有后支配 src，插入補償代碼以保證被移動操作在不經(jīng) dst路徑上也執(zhí)行 src dst 全局代碼調(diào)度更新數(shù)據(jù)相關(guān) 代碼移動會改變操作之間的數(shù)據(jù)相關(guān)關(guān)系 – 兩個對 x的賦值之一可以移動到最上面的基本塊，該變換能維持原來程序中的所有相關(guān)性 – 一旦一個對 x的賦值被上移，另一個就不能移動了 – 移動使得 x在最上面塊的出口由不活躍變成活躍 – 一個變量在某個程序點活躍，則就不能把對它的投機定值移到該點的上面 x = 1 x = 2 全局代碼調(diào)度全局調(diào)度的其他問題 – 程序調(diào)度應(yīng)該使經(jīng)常執(zhí)行的路徑運行得快一些，不經(jīng)常執(zhí)行的路徑可能會因調(diào)度變得慢一些 – 編譯器可用來估計執(zhí)行頻率的技術(shù)有若干種 (1) 內(nèi)循環(huán)比外循環(huán)執(zhí)行得更頻繁 (2) 分支指令往回跳轉(zhuǎn)比不跳轉(zhuǎn)要更經(jīng)常 (3)看守程序出口或異常處理例程的分支語句很少被執(zhí)行 – 最好的頻率估計來自動態(tài)剖析，程序被靜態(tài)插樁以用來運行時記錄條件分支每次的走向全局代碼調(diào)度全局調(diào)度的其他問題 ? 最簡單的全局調(diào)度算法也相當(dāng)復(fù)雜，不介紹 ? 在一些全局調(diào)度算法中，循環(huán)迭代的邊界是代碼移動的一種屏障，需循環(huán)展開 for(i = 0。可以通過把值存在不同的單元來刪除反相關(guān) – 輸出相關(guān) 如果對同一個單元先后寫兩次。 i + 4 N。 i ++) { S(i)。 i n。 i N。 i ++) A[i] = B[i] + A[i ?2] 寫 A[i]和讀 A[i ?2]的依賴邊上標(biāo)記的迭代次數(shù)差是 2 并行性和數(shù)據(jù)局部性優(yōu)化概述 ? 并行編程模型 – 任務(wù)并行 – 數(shù)據(jù)并行 – 流水線并行（前面幾節(jié)涉及較多） ? 本節(jié)內(nèi)容圍繞任務(wù)并行和數(shù)據(jù)并行 – 介紹并行計算機系統(tǒng)結(jié)構(gòu)的概況 – 給出并行化的基本概念，程序循環(huán)的變換，還有對并行化有用的概念 – 類似的考慮怎樣用于優(yōu)化數(shù)據(jù)局部性 – 以矩陣乘算法的優(yōu)化為例并行性和數(shù)據(jù)局部性優(yōu)化概述多處理器 ? 對稱多處理器的體系結(jié)構(gòu) 二級緩存內(nèi)存總線二級緩存二級緩存二級緩存一級緩存一級緩存一級緩存一級緩存處理器處理器處理器處理器多個高性能處理器集成在一塊芯片上并行性和數(shù)據(jù)局部性優(yōu)化概述多處理器 ? 對稱多處理器的體系結(jié)構(gòu) 二級緩存內(nèi)存總線二級緩存二級緩存二級緩存一級緩存一級緩存一級緩存一級緩存處理器處理器處理器處理器多個高性能處理器集成在一塊芯片上通過共享內(nèi)存來進(jìn)行通信必須在處理器的緩存中找到它操作的大部分?jǐn)?shù) 據(jù)，以保證性能并行性和數(shù)據(jù)局部性優(yōu)化概述多處理器 ? 分布式內(nèi)存機器總線或其它互連二級緩存二級緩存二級緩存二級緩存一級緩存一級緩存一級緩存一級緩存處理器處理器處理器處理器局部內(nèi)存局部內(nèi)存局部內(nèi)存局部內(nèi)存在內(nèi)存分層中又引入一層處理器能迅速訪問自己的局部內(nèi)存并行性和數(shù)據(jù)局部性優(yōu)化概述多處理器 ? 分布式內(nèi)存機器總線或其它互連二級緩存二級緩存二級緩存二級緩存一級緩存一級緩存一級緩存一級緩存處理器處理器處理器處理器局部內(nèi)存局部內(nèi)存局部內(nèi)存局部內(nèi)存在內(nèi)存分層中又引入一層處理器能迅速訪問自己的局部內(nèi)存非均勻內(nèi)存訪問的機器和消息傳遞的機器；為獲得良好的性能軟件都必須有很好局部性并行性和數(shù)據(jù)局部性優(yōu)化概述應(yīng)用中的并行性 ? 并行應(yīng)用性能衡量的兩種標(biāo)準(zhǔn) – 并行覆蓋：整個計算中并行運行部分的百分比 – 并行粒度：處理器上無需和其它處理器同步或通信的計算量循環(huán)對并行化來說特別有吸引力，循環(huán)可以有許多次迭代計算，如果這些計算相互獨立，則它們是并行計算的主要來源許多控制結(jié)構(gòu)簡單、數(shù)據(jù)量大并且耗時長的科學(xué) 和工程應(yīng)用，很容易以較細(xì)粒度被并行化并行性和數(shù)據(jù)局部性優(yōu)化概述循環(huán)級并行耗時的應(yīng)用一般都使用大數(shù)組，導(dǎo)致程序中出現(xiàn) 有許多次迭代的循環(huán) ，這些迭代經(jīng)常相互獨立，可以把這類循環(huán)的大量迭代分到各處理器上并行性和數(shù)據(jù)局部性優(yōu)化概述循環(huán)級并行 for (i = 0。 Z[i] = Z[i] ? Z[i]。 i n。 i n。 i++) for (j = 0。 for (k = 0。 kk n。 b n 并行性和數(shù)據(jù)局部性優(yōu)化概述矩陣乘法算法的優(yōu)化 – 適當(dāng)選擇 b，使 3個矩陣都有一個塊可以裝到緩存 – 把 X或 Y一塊取到緩存，會出現(xiàn) b2/c次緩存未命中 – 對于 X和 Y的一對塊，第 4到 7行的程序完成 b3次乘加計算 – 由于整個矩陣乘法需要 n3次乘加計算，則取一對塊到緩存的總次數(shù)是 n3/b3 – 對于 X和 Y的一對塊會有 2b2/c次緩存未命中，因此緩存未命中的總次數(shù)是 2n3/bc – 和 O(n3/c)，甚至 O(n3)次緩存未命中相比，在 b較大時， 2n3/bc能體現(xiàn)出分開方法的好處習(xí) 題 ? 第一次： , ? 第二次： ,

點擊復(fù)制文檔內(nèi)容

教學(xué)教案相關(guān)推薦

第十章小結(jié)與復(fù)習(xí)-資料下載頁

【摘要】小結(jié)與復(fù)習(xí)第十章浮力優(yōu)翼課件八年級物理（RJ）教學(xué)課件浮力的概念浮力產(chǎn)生的原因阿基米德原理物體的浮沉條件知識結(jié)構(gòu)1．浮力的定義浸在液體中的物體受到液體對物體向上托的力。2．幾點討論（1）區(qū)分：浸在、浸入、浸沒、沒入（2）浮

2025-03-12 15:50

c語言--第十章文件-資料下載頁

【摘要】第十章?主要內(nèi)容Ｃ文件概述文件類型指針文件的打開與關(guān)閉文件的讀寫文件的定位C文件概述文件：文件指存儲在外部介質(zhì)(如磁盤磁帶)上數(shù)據(jù)的集合。文件的分類●按數(shù)據(jù)的組織形式:ASCII文件(文本文件):每一個字節(jié)放一個ASCII代碼二進(jìn)制文件:把內(nèi)存中的數(shù)據(jù)按其

2024-10-16 16:01

[工學(xué)]第十章--排隊論-資料下載頁

【摘要】1第十章排隊論(QueuingTheory)2第十章排隊論(QueuingTheory)排隊論（queuing),也稱隨機服務(wù)系統(tǒng)理論，是運籌學(xué)的一個主要分支。1909年，丹麥哥本哈根電子公司電話工程師A.K.Erlang的開創(chuàng)性論文“概率論和電話通訊理論”標(biāo)志此理論的誕生

2024-10-13 17:22

[經(jīng)管營銷]第十章央行-資料下載頁

【摘要】第十章金融機構(gòu)監(jiān)管所謂金融機構(gòu)監(jiān)管就是指一個國家的金融監(jiān)管當(dāng)局依照有關(guān)金融法律法規(guī)和政策，對金融機構(gòu)進(jìn)行監(jiān)督、檢查和指導(dǎo)的行為，其目的是為了確保金融機構(gòu)經(jīng)營的安全和取得贏利，它是金融監(jiān)管的主要內(nèi)容之一。第一節(jié)金融機構(gòu)的市場準(zhǔn)入與退出一金融機構(gòu)設(shè)置的原則1、經(jīng)濟發(fā)展需要的原則

2024-10-15 13:06

第十章卡方檢驗-資料下載頁

【摘要】第十章卡方檢驗教學(xué)目標(biāo)了解卡方檢驗的一般原理；掌握卡方檢驗的具體方法，例如配合度檢驗、獨立性檢驗和同質(zhì)性檢驗。卡方檢驗適用情況對計數(shù)數(shù)據(jù)進(jìn)行統(tǒng)計分析，應(yīng)該用卡方檢驗。如果測量數(shù)據(jù)的總體分布形態(tài)不清楚，也可以用卡方檢驗等非參數(shù)檢驗的方法進(jìn)行分析。主要內(nèi)容第一節(jié)卡方檢驗的原理

2025-08-01 13:32

第十章正交試驗設(shè)計-資料下載頁

【摘要】第十章正交試驗設(shè)計對于單因素或兩因素試驗，因其因素少，試驗的設(shè)計、實施與分析都比較簡單。但在實際工作中，常常需要同時考察3個或3個以上的試驗因素，若進(jìn)行全面試驗，則試驗的規(guī)模將很大，往往因試驗條件的限制而難于實施。正交試驗設(shè)計就是安排多因素試驗、尋求最優(yōu)水平組合的一種高效率試驗設(shè)計方法。下一張

2025-08-01 13:39

第十章行政法-資料下載頁

【摘要】第十章行政法一、行政法概述二、行政法法律關(guān)系主體三、行政行為四、行政復(fù)議一、行政法概述?（一）行政法的概念與特征?（二）行政法的地位與作用?（三）行政法的基本原則?1、行政合法性原則。?2、行政合理性原則。二、行政法律關(guān)系主體?（一）行政主體?行政主體是指依法享有行政權(quán)

2025-08-01 13:29

[工學(xué)]第十章齒輪傳動-資料下載頁

【摘要】退出下一頁上一頁§10-7標(biāo)準(zhǔn)斜齒圓柱齒輪傳動的強度計算一、輪齒的受力分析t?n??b?切向力軸向力徑向力法向力主動齒輪：與轉(zhuǎn)動方向相反從動齒輪：與轉(zhuǎn)動方向相同指向各自的齒輪中心主動輪左旋用左手，右旋用右手，握緊的四指表示主動輪的回轉(zhuǎn)方向，大拇指伸直的方向表示主動輪所受

2025-02-17 10:49

第十章通用表示法-資料下載頁

【摘要】第十章通用表示法張智星臺大資工系多媒體檢索實驗室JavaScript程式設(shè)計與應(yīng)用：用於網(wǎng)頁用戶端本章大綱?大綱?本章介紹通用表示法，使用強大的字串比對方式，可以在進(jìn)行JavaScript程式設(shè)計時，能夠有事半功倍的效果。?主題?10-1：資料驗證?10-2：資料修改

2025-09-19 12:41