正文內(nèi)容

第７章多處理機ppt課件(參考版)

2025-02-24 11:53本頁面

　　

【正文】多處理機實例。每塊對應(yīng)一個目錄項，每個目錄項包含其對應(yīng)存儲器塊的狀態(tài)信息和系統(tǒng)中各 Cache共享存儲情況的位向量，根據(jù)位向量可以知道本存儲器塊在哪些Cache中有拷貝。在 Origin的結(jié)點中，有一個存儲器和一個目錄存儲器。Origin系統(tǒng)的 Cache采用寫作廢協(xié)議。當(dāng)一個處理器初次讀取某一存儲單元數(shù)據(jù)時，該數(shù)據(jù)在提供給 CPU的同時也拷貝到本結(jié)點的 Cache中。 L2 Cache安裝在結(jié)點卡中，統(tǒng)一存放指令和數(shù)據(jù) ，由 SRAM組成。多處理機實例訪問存儲器的延遲時間：系統(tǒng) CPU數(shù) 最小延遲時間最大延遲時間平均延遲時間 2 318ns 343ns 343ns 4 318ns 554ns 441ns 8 318ns 759ns 623ns 16 318ns 759ns 691ns 32 318ns 836ns 764ns 64 318ns 1067ns 851ns 128 318ns 1169ns 959ns 多處理機實例系統(tǒng)頻帶寬度：處理器數(shù) 頻寬（無快速連線） * 頻寬（有快速連線） * 8 16 32 64 128 25Gb/s *相當(dāng)于虛線情況多處理機實例 Origin系統(tǒng)的存儲器層次結(jié)構(gòu)可分為寄存器、 L1 Cache、 L2 Cache和主存儲器，其中寄存器和 L1 Cache在 R10000微處理器中。在結(jié)點之間實現(xiàn)的是大規(guī)模并行處理結(jié)構(gòu) ，但又解決了共享存儲器問題。多處理機實例 4處理器系統(tǒng) 16處理器系統(tǒng) 128處理器系統(tǒng) 128處理器構(gòu)成的 Origin 2022系統(tǒng)由 4個立方體組成，在立方體之間傳送數(shù)據(jù)多經(jīng)過了一級路由器。 Origin的路由器和互連網(wǎng)絡(luò)是 ASIC芯片，通過芯片內(nèi)部的交叉開關(guān)選擇數(shù)據(jù)傳送路徑。多處理機實例第７章多處理機 ? Origin基于 NUMA體系結(jié)構(gòu) 的每個結(jié)點可安裝 1個或 2個 MIPS R10000微處理器、第二級高速緩存（ L2 Cache）、主存儲器、目錄存儲器及 Hub等， Hub用于連接微處理器、存儲器、 I／ O和路由器等。同時多線程 ? Origin 2022分布共享存儲器結(jié)構(gòu)的大規(guī)模并行多處理機系統(tǒng) ，采用超結(jié)點的模塊結(jié)構(gòu) ，可以從 1個處理器擴展到 128個處理器。 ? 同時多線程的能力也很強大，可以支持 8個線程，并為兩個線程同步取指。同時多線程同時多線程的性能 ? 圖 8個線程的同時多線程能力時獲得的性能提高 ? 圖 SMT與基本的超標(biāo)量處理器在主要內(nèi) 部指標(biāo)利用率和命中率上的對比同時多線程 ? 兩個特點 ? 超標(biāo)量處理器本身功能十分強大，它具有很大的一級 cache、二級 cache以及大量的功能單元。 ? 設(shè)置用來保存多個上下文所需的龐大的寄存器文件 ? 必須保持每個時鐘周期的低開銷特別是在關(guān)鍵步驟上 ? 需要保證由于并發(fā)執(zhí)行多個線程帶來的 cache沖突不會導(dǎo)致顯著的性能下降。 ? 當(dāng)有兩個優(yōu)先線程時，需要并發(fā)預(yù)取兩個指令流，這給取指部件和指令 cache的設(shè)置都增添了復(fù)雜度。 ? 從取指階段開始就優(yōu)先處理優(yōu)先線程只要優(yōu)先線程的指令預(yù)取緩沖區(qū)未滿，就為它優(yōu)先取指。所有的多線程處理器都必須在這里尋求一種折衷方案。同時多線程 ? 多個線程的混合執(zhí)行將不可避免地影響單個線程的執(zhí)行時間為提高單個線程的性能，應(yīng)該為指定的優(yōu)先線程盡可能多地向前取指，并且在分支預(yù)測失效和預(yù)取緩沖失效的情況下清空取指單元。 ? 多線程技術(shù)可以通過在一個亂序執(zhí)行的處理器上為每個線程設(shè)置重命名表、保留各自的 PC值、提供多個線程的指令結(jié)果提交的能力來實現(xiàn)。 ? 動態(tài)調(diào)度超標(biāo)量處理器有大量的虛擬寄存器組，可以用來保存每個獨立線程的寄存器狀態(tài)。理想情況下，流出槽的使用率只受限于多個線程對資源的需求和可用資源間的不平衡。由于在每個時鐘周期內(nèi)只流出一個線程的指令，指令級并行的限制仍然導(dǎo)致一個時鐘周期內(nèi)存在不少的空閑流出槽。由于只有當(dāng)發(fā)生阻塞時才進行線程切換，新線程還需要流水線建立時間，所以會產(chǎn)生一些完全空閑的時鐘周期。同時多線程 2. 一個超標(biāo)量處理器在以下幾種配置時其性能的差別 ? 支持多線程技術(shù)的超標(biāo)量處理器由于缺乏足夠的指令級并行而限制了流出槽的利用率。 1. 產(chǎn)生的主要原因 ? 現(xiàn)代多流出處理器通常含有多個并行的功能單元，而單個線程不能有效地利用這些功能單元。阻塞后切換的新的線程在指令執(zhí)行產(chǎn)生結(jié)果之前必須先填滿整個流水線。原因：由粗粒度多線程的流水線建立時間的開銷造成的。主要優(yōu)點：能夠隱藏由任何或長或短的阻塞帶來的吞吐率的損失主要缺點：減慢了每個獨立線程的執(zhí)行 ? 目前有兩種主要的多線程實現(xiàn)方法同時多線程 ? 第二種方法：粗粒度多線程技術(shù) 粗粒度多線程之間的切換只在發(fā)生代價較高、時間較長的阻塞出現(xiàn)時。線程的切換應(yīng)該比進程的切換要高效的多，進程的切換一般需要成百上千個處理器時鐘周期。同時多線程 ? 為實現(xiàn)共享，處理器必須保存各個線程的獨立狀態(tài)。當(dāng)然，實現(xiàn)組合樹柵欄時也可采用fetch_and_increment來降低樹中每個結(jié)點的串行競爭。對 10個處理器，總共需要 30個總線事務(wù)或 3000個時鐘周期。 (2) 柵欄實現(xiàn) 同步解下面的程序段給出柵欄的代碼。條件與前面假設(shè)相同，并設(shè)一次 fetch_and_increment操作也需 100個時鐘周期。使用 fetch_and_increment可以很好地改進柵欄的實現(xiàn)。 ? 最后，必須有硬件來回收鎖，因為請求加鎖的進程可能被切換時切出，并且有可能在同一處理器上不再被調(diào)度切入。同步 ? 首先，需要識別出對鎖進行初次訪問的進程，從而對其進行排隊操作。注意這里的總線事務(wù)總數(shù)隨處理器數(shù)量成線性增長，而不是前面旋轉(zhuǎn)鎖那樣成二次方增長。每一個后續(xù)的處理器需要 2個總線事務(wù)： 1個獲得鎖，另 1個釋放鎖。假設(shè)條件與前面例子相同。 ? 當(dāng)該鎖被釋放時，控制器從等待的進程排隊中選出一個使用鎖，這可以通過更新所選進程 Cache中的鎖變量來完成。同步控制器可集成在存儲控制器中 (基于總線的系統(tǒng) )或集成在目錄控制器中。 ? 在基于總線的機器中要將鎖從一個進程顯式地傳給另一個進程，軟件實現(xiàn)會更好一些。 ? 采用 sense_reversing技術(shù)來給出下面的基于同步 struct node ｛／ * * int counterlock； int count ； int parent；｝； struct node tree ［ 0..p1］；／ * * int local_sense； int release； barrier(int mynode) ｛ lock(tree[mynode].counterlock)；／ *保護計數(shù)器 * count++；／ * * unlock(tree[mynode].conterlock)；／ * * if(tree[mynode].count==k)｛／ *本結(jié)點全部到達 * if(tree[mynode].parent)=0｛ barrier(tree[mynode］ .parent) ｝ else｛ release=local_sense ｝ tree[mynode].count＝ 0；｝／ *為下次重用初始化 *／ else ｛ spin(release=local_sense)；｝；｝ local_sense= ! local_sense； barrier (mynode) 同步 2. 介紹兩種硬件同步原語： (1) 排隊鎖可以排隊記錄等待的進程，當(dāng)鎖釋放時送出一個已確定的等待進程。當(dāng) k個進程都到達樹的某個結(jié)點時，則發(fā) 信號進入樹的上一層。降低沖突的原因：將大沖突化解成為并行的多個小沖突。 ? 前面柵欄機制實現(xiàn)中，所有的進程必須讀取 release標(biāo)志，形成沖突。同步先討論采用數(shù)組進行的軟件實現(xiàn) 。同步大規(guī)模機器的同步所希望的同步機制：在無競爭的條件下延遲較小 1. ? 旋轉(zhuǎn)鎖 (1) 旋轉(zhuǎn)鎖實現(xiàn)的主要問題當(dāng)多個進程檢測并競爭鎖時引起的延遲 (2) 一種解決辦法 : 當(dāng)加鎖失敗時就人為地推延這些進程的等待時間。 ? 總線的使用是這個問題關(guān)鍵所在。 ? 同步操作最嚴(yán)重的問題：進程的串行性當(dāng)出現(xiàn)競爭時，就會出現(xiàn)串行性問題。基本的旋轉(zhuǎn)鎖操作可在兩個總線周期內(nèi)完成：一個讀鎖，一個寫鎖。設(shè)總線完全公平，整個過程需多長時間 ? 答：下表給出一個處理器通過柵欄發(fā)出的事件序列，設(shè)第一個獲得總線的進程并未擁有鎖。 ? 另一種解決辦法 sense_reversing柵欄，每個進程均使用一個私有變量 local_sense，初始化為 1。這樣所有的進程在這個柵欄的第二次使用中都處于無限等待狀態(tài)，因為進程的數(shù)目永達不到 total。 ? 實際情況中會出現(xiàn)的問題可能反復(fù)使用一個柵欄，柵欄釋放的進程運行一段后又會再次返回柵欄，這樣有可能出現(xiàn)某個進程永遠離不開柵欄的狀況 (它停在旋轉(zhuǎn)操作上 )。 ? 一種典型的實現(xiàn) ，其中 lock和 unlock提供基本的旋轉(zhuǎn)鎖， total是要到達柵欄的進程總數(shù) 。旋轉(zhuǎn)鎖的主要優(yōu)點 : 對于總線或網(wǎng)絡(luò)開銷較低同步 ? 并行循環(huán)的程序中另一個常用的同步操作 : 柵欄柵欄強制所有到達的進程進行等待，直到全部的進程到達柵欄，然后釋放全部的進程，從而形成同步。因此對 n個處理器，總線事務(wù)的總和為： n ∑ (2i+1)=n(n+1)+n=n2+2n i=1 對于 10個處理器有 120個總線事務(wù)，需要 12022個時鐘周期。設(shè)時間為 0時鎖已釋放并且所有處理器在旋轉(zhuǎn) ，求處理這 10個請求時間為多長 ?假設(shè)總線在新的請求到達之前已服務(wù)完掛起的所有請求，并且處理器速度相同。例：設(shè)總線上有 10個處理器同時準(zhǔn)備對同一變量加鎖。同步同步性能問題 ? 簡單旋轉(zhuǎn)鎖不能很好地適應(yīng)可伸縮性。 Ll不產(chǎn)生總線數(shù)據(jù)傳送，這使下面代碼與使用經(jīng) 過優(yōu)化交換的代碼具有相同的特點： lockit： ll R2， 0(R1) ； loadlinked bnez R2， lockit li R2,，＃ 1 sc R2， 0(R1) beqz R2， lockit ；如存失敗轉(zhuǎn)移第一個分支形成環(huán)繞的循環(huán)體，第二個分支解決了兩個同時請求鎖的處理器競爭問題。

點擊復(fù)制文檔內(nèi)容

教學(xué)課件相關(guān)推薦

第７章多處理機ppt課件(參考版)

【摘要】引言對稱式共享存儲器體系結(jié)構(gòu)分布式共享存儲器體系結(jié)構(gòu)互連網(wǎng)絡(luò)同步同時多線程多處理機實例第７章多處理機并行計算機體系結(jié)構(gòu)的分類1.按照Flynn分類法，可把計算機分成?單指令流單數(shù)據(jù)流（SISD）?單指令流多數(shù)據(jù)流（SIMD）?多指令流單數(shù)據(jù)流（

2025-02-24 11:53

[小學(xué)教育]第8章多處理機(參考版)

【摘要】第8章多處理機?內(nèi)容提要:本章首先介紹多處理機的基本結(jié)構(gòu)與類型，包括緊耦合多處理機、松耦合多處理機及多處理機中的Cache一致性問題。然后，講述并行多處理機中的關(guān)鍵技術(shù)，比如程序并行性分析、并行程序設(shè)計語言的基本概念、多處理機操作系統(tǒng)的基本特征及多處理機調(diào)度策略等。最后以具體示例闡述并行多處理機的發(fā)展趨勢。重點是緊耦合/松耦合多處理機的組成

2025-04-17 00:01

第七章多處理機(參考版)

【摘要】第七章多處理機?多處理機具有兩個以上的處理機，在操作系統(tǒng)控制下，通過共享的主存或輸入/輸出子系統(tǒng)或高速通信網(wǎng)絡(luò)進行通信。?多任務(wù)處理，協(xié)同求解，提高速度；?利用冗余，提高可靠性、適應(yīng)性、可用性。?分為：同構(gòu)型、異構(gòu)型、分布型目錄?多處理機的概念、問題和硬件結(jié)構(gòu)?緊耦合多處理機多Cache

2025-08-04 12:45

計算機系統(tǒng)結(jié)構(gòu)第7章-多處理機(參考版)

【摘要】第七章多處理機系統(tǒng)多處理機系統(tǒng)結(jié)構(gòu)多處理機的互連網(wǎng)絡(luò)多處理機的系統(tǒng)控制并行處理語言及算法多處理機的性能多處理機的系統(tǒng)實例第一節(jié)多處理機的系統(tǒng)結(jié)構(gòu)多處理機系統(tǒng)由多臺獨立的處理機組成，每臺處理機都能夠獨立執(zhí)行自己的程序和指令流，相互之間通過專門的網(wǎng)絡(luò)連接，實現(xiàn)數(shù)據(jù)的交換和通信，共同完成某項大的計算

2024-08-27 01:40

第九章多處理機(參考版)

【摘要】第九章多處理機多處理機系統(tǒng)由若干臺獨立的處理機組成，每臺處理機能夠獨立執(zhí)行自己的程序，處理機之間按某種形式互連，在統(tǒng)一的操作系統(tǒng)調(diào)度下，從而實現(xiàn)程序之間的數(shù)據(jù)交換和同步。Flynn稱這種結(jié)構(gòu)為多指令流多數(shù)據(jù)流（MIMD）結(jié)構(gòu)。并行性(parallelism)：指同一時刻或同一時間間隔內(nèi)完成兩種或兩種以上性質(zhì)相同或不同的工作。

2024-10-15 21:51

zhy第4章處理機調(diào)度(參考版)

【摘要】第4章處理機調(diào)度分級調(diào)度作業(yè)調(diào)度進程調(diào)度調(diào)度算法算法評價實時系統(tǒng)調(diào)度方法第4章處理機調(diào)度?CPU是計算機系統(tǒng)中一個十分重要的資源?不同的CPU管理方法將為用戶提供不同性能的操作系統(tǒng)?操作系統(tǒng)的要求不同，處理機管理的策略

2025-05-18 22:34

34多處理機系統(tǒng)中的調(diào)度(參考版)

【摘要】1多處理機系統(tǒng)中的調(diào)度流行的多處理器系統(tǒng)有：?松散耦合多處理器系統(tǒng)：?緊密耦合多處理器系統(tǒng)：現(xiàn)代操作系統(tǒng)往往采用進程調(diào)度與線程調(diào)度相結(jié)合的方式來完成多處理器調(diào)度。2?什么是多處理機系統(tǒng)?多處理機操作系統(tǒng)的分類?多處理機系統(tǒng)調(diào)度策略多處理機調(diào)度

2024-10-04 10:31

167;3多處理機的并行和性能(參考版)

【摘要】§3多處理機的并行和性能?并行算法?程序并行性分析?并行語言與并行編譯?多處理性能并行算法?并行算法的定義和分類?多處理機并行算法的研究思路并行算法的定義?算法規(guī)定了求解某一特定問題時的有窮的運算處理步驟?并行算法是指可同時執(zhí)行的多個進程的集合，各進

2024-10-03 19:09

第05章標(biāo)量處理機-eng(參考版)

【摘要】@centralsouthuniversity2022/8/31余臘生版權(quán)所有，違者必究5-1MultipleInstructionIssue?WehaveattemptedtolimitstallsfromhazardstolowertheaverageCPItotheidealCPIof1–Ca

2024-08-27 01:30

處理機調(diào)度ppt課件(參考版)

【摘要】操作系統(tǒng)OperatingSystem北方工業(yè)大學(xué)計算機系NorthChinaUniversityofTechnologyDepartmentofComputer授課教師：宋麗華Email：Tel:88803939五教1102為什么要管理處理機?★處理機是計算機中最寶貴的資源，處理機調(diào)度策略是否合

2025-05-01 22:58

處理機管理ppt課件(參考版)

【摘要】處理機管理?進程的概念?進程的控制?進程的調(diào)度?進程的互斥與同步?進程的通信?死鎖多道程序系統(tǒng)程序A程序BOS調(diào)度I/OAI/OBt1t2如何把CPU合理地分配給某個需要的程序，并在其用完后予以回收。合理利

2025-01-12 00:57

處理機管理ppt課件(2)(參考版)

【摘要】第3節(jié)處理機管理第3節(jié)處理機管理引言作業(yè)管理進程的引入和定義進程控制線程的基本概念進程調(diào)度進程通信死鎖問題開始第3節(jié)處理機管理引言處理機管理是操作系統(tǒng)的基本管理功能之一，它所關(guān)心的是處理機的分配問題。也就

2025-01-13 01:30

標(biāo)量處理機engppt課件(參考版)

【摘要】@centralsouthuniversity2022/6/1余臘生版權(quán)所有，違者必究5-1MultipleInstructionIssue?WehaveattemptedtolimitstallsfromhazardstolowertheaverageCPItotheidealCPIof1–Can

2025-05-15 03:32

處理機調(diào)度ppt課件(2)(參考版)

【摘要】處理機調(diào)用調(diào)度策略考慮：①周轉(zhuǎn)時間②吞吐率③相應(yīng)時間④設(shè)備利用率研究的內(nèi)容有：①作業(yè)與進程的關(guān)系②作業(yè)調(diào)度策略與算法③進程調(diào)度策略與算法本章主要討論處理機分配問題處理機調(diào)用①提交狀態(tài)：一個作業(yè)在其處于輸入設(shè)備進入外部存儲設(shè)備的過程稱為提交狀態(tài)②后備狀態(tài)（

2025-05-08 18:48

操作系統(tǒng)課程第3章處理機調(diào)度(參考版)

【摘要】Page12022/5/27Page22022/5/27第三章處理機調(diào)度與死鎖?處理機調(diào)度的基本概念?處理機調(diào)度的目標(biāo)充分有效地利用處理機（CPU）資源?調(diào)度算法?實時調(diào)度?產(chǎn)生死鎖的原因和必要條件?預(yù)防死鎖的方法?死鎖的檢測與解除Page32022/5/27處理機

2025-05-02 07:55