【正文】
ctive 命令將存儲 陣列中某個 Bank 中的某一行打開,因此執(zhí)行 Active 命令時需要指定 Bank 和行地址,而要激活同一個 Bank 中的 另 一行時,需要將目前位于緩沖器的信息寫回存儲陣列中 讀寫命令在 Active 命令之后進行,讀操作需要經(jīng)過 CAS Latency 的延遲時間才會將數(shù)據(jù)送到 DQ 總線上,而寫命令將 DQ 總線上的信息寫入行緩存器中。 SDRAM 內(nèi)部有一個行地址生成器用來自動依次生成行地址。 軟件預取 當代微處理器大都提供了預取指令來支持 基于 軟件的預取。 j100。 若預取指令插入過早,又可能在數(shù)據(jù)沒有被真正訪問以前就被替換出去。PrefetchonMiss 算法即發(fā)生缺失時才進行預取。假設存儲器指令 i 在三次連續(xù)的循環(huán)中訪問的地址為 a1, a2, a3,首先對步距進行計算: (a2a1) =δ。 k100。 預取的實質(zhì)也是從片外 SDRAM 取數(shù)據(jù),因此和 SDRAM 關(guān)系也很密切。需要如下硬件開銷: :這 一標志 位顯示訪存是否是由預取產(chǎn)生的。 具有更高優(yōu)先級 依次按照上述四項原則進行動態(tài)調(diào)度。 APD 監(jiān)視每個核的 預取請求 并將在 訪存請求緩存 中存在超過 閥。 關(guān)鍵請求 包括 常規(guī)訪存請求 以及 有效預取請求 。因此首先要衡量預取準確性。當指令 i 再次執(zhí)行的時候,若它仍然未 被替換出去,則利用 RPT 中的 先前地址 ,可以計算出兩次訪存地址的步距值。 j100。針對這類循環(huán)結(jié)構(gòu)的陣列訪問,文獻 [3134]提出了相應的預取方案。 OBL 方案根據(jù)訪問塊的不同,實施的方法也不相同。 j++){ prefetch(a[i][j+7]) a[i][j] = b[j][0] * b[j+1][0]。 i3。眾所周知,片上訪存速度要遠遠高于片外訪存。 刷新命令是對于 SDRAM 中的數(shù)據(jù)進行刷新,避免因為漏電造成存儲信息丟上海交通大學碩士學位論文 15 失。 載入模式寄存器命令是在初始化階段將設定的配置讀入 SDRAM 的模式寄存器中。如圖 210 所示,突發(fā)讀取模式下,制定起始列地址和突發(fā)長度,尋址和讀取將自動進行。定義 CAS 與讀取命令發(fā)出到數(shù)據(jù)輸出的時間為 CL( CAS Latency, CAS 潛伏期)。讀寫時序如圖 27 所示。因此地址線上的數(shù)據(jù)表示行地址。 SDRAM 讀寫操作 SDRAM 相對于 SRAM 的讀寫操作來說較為復雜,需要經(jīng)過多個步驟才能完成操作。對于每一個 Bank 中基本存儲單元的容量是若干 bit,對于 SDRAM 而言這就是芯片的位寬。 如圖 25 所示, SDRAM 內(nèi)部為一個二維的存儲陣列。寫操作時行選通線置 1,晶體管 T 處于導通狀態(tài),數(shù)據(jù)由列選通線存入電容 CS中。本文第三章將著重解決分布式寄存器文件結(jié)構(gòu)造成的分處理通道 流水線寫回控制問題。根據(jù) Scott Rixner 進一步的研究,集中式寄存器和分布式寄存器文件在功耗方面的特性也與之類似。 單指令多數(shù)據(jù)( SIMD)方式執(zhí)行的多核陣列處理器將總共 有 N 個運算單元( ALU)分成 C個分組,每個分組稱為一個運算簇( Cluster),每個運算簇包含 N/C 個 ALU。 如圖 21 所示,越靠近處理器的存儲器速度越快 ,容量越小。 SRAM 速度要比 DRAM 快。按照功能可以分為可編程只讀存儲器( PROM)、可擦除可編程只讀存儲器( EPROM)以及電子可擦除可編程只讀存儲器( EEPROM)。因此針對片外 SDRAM 和片上高速緩存間采用預取方案,能極大地提升系統(tǒng)整體性能,減少為了訪問存儲器而造成的等待延遲。因此存儲系統(tǒng) 呈現(xiàn)出 分層次的結(jié)構(gòu),主要想法是將速度較快的存儲單元靠近處理器,將速度較慢但是容量較大的存儲單元放在較遠的位置。 第三章提出了簇狀高性能運算陣列設計方案。設計方案充分考慮多媒體應用以及大規(guī)模數(shù)字信號處理應用的特點,將片上預取高 性能緩沖存儲系統(tǒng) 與片外存儲器控制器相結(jié)合,通過預取將片外存儲器中數(shù)據(jù)預先載入片上預取 緩沖存儲 ,將大量的訪存片外存儲器時間隱藏在運算簇進行運算時間內(nèi)。Chang Joo Lee 就提出了一種針對預取 優(yōu)化的 DRAM 控制器 [2225]。 Xiaotong Zhuang 和HsienHsim S. Lee 提出了一種基于硬件的高速緩存污染過濾機制 [1819]?;镜能浖A取方式可以分為簡單預取,循環(huán)展開以及軟件流水作業(yè)。 數(shù)據(jù)預取技術(shù)旨在將片外存儲器內(nèi)的數(shù)據(jù)預先取到片上Cache 中,在處理器需要用到這些數(shù)據(jù)的時候可以直接從 Cache 中取數(shù)據(jù),而不需要從片外 的 SDRAM 中取。主要思想是將向量處理器和 DRAM 存儲器都做到片上 。流處理的主要思想是將相關(guān)數(shù)據(jù)構(gòu)成一個集合稱之為記錄,有序的記錄構(gòu)成流。在處理器發(fā)出訪存請求之前,將主存中未來可能實用的數(shù)據(jù)取入 Cache。如果高速緩存 (Cache)沒有命中,則需要訪問下一級存儲 器 來尋找數(shù)據(jù)。越來越多的數(shù)字信號處理器開始面向多核方向發(fā)展,開始出現(xiàn)多個 功能 單元的并行運算結(jié)構(gòu)。 22 表 3 1 LRF 規(guī)格說明 21 圖 3 2 運算簇內(nèi)部結(jié)構(gòu)圖 19 圖 3 1 VLIW 數(shù)字信號處理器整體結(jié)構(gòu) 36 圖 4 9 片上片外存儲交互機制 33 圖 4 4 數(shù)據(jù)預取緩沖存儲系統(tǒng)狀態(tài)轉(zhuǎn)換圖 14 圖 2 11 軟件預取算法 12 圖 2 7 列有效時序圖 51 上海交通大學碩士學位論文 VI 參 考 文 獻 45 分布式寄存器文件性能 41 一維快速傅里葉變換 19 第三章 簇狀高性能運算陣列設計方案 11 SDRAM 控制器基本功能 7 集中式與分布式寄存器 3 研究目標與主要內(nèi)容 2 數(shù)字信號處理器 I 摘 要 其中包括指令執(zhí)行周期的產(chǎn)生,寫回信號緩存以及寫回控制單元。 學位論文作者簽名: 日期: 年 月 日 上海交通大學 學位論文版權(quán)使用授權(quán)書 本學位論文作者完全了解學校有關(guān)保留、使用學位論文的規(guī)定,同意學校保留并向國家有關(guān)部門或機構(gòu)送交 論文的復印件和電子版,允許論文被查閱和借閱。本人完全意識到本聲明的法律結(jié)果由本人承擔。 針 對陣列內(nèi)采用的 分布式寄存器文件造成的分處理通道 流水線與寫回控制信號的同步問題,提出了一種面向分布式本地寄存器文件的寫回設計方案。s highspeed putation needs efficient access to offchip memory to match. Based on the high performance digital signal processor project we designed a high performance putation array with 16 clusters. We present a design of write back strategy for distributed register file in VLIW digital signal processor to solve the synchronization problem of branch pipeline and write back signals. The design includes generating execution cycles, write back signal register and write back control unit. We present a design of hardware data prefetching method based on memory access step to solve the problem of less efficient access to the shared offchip SDRAM. The design includes onchip level2 prefetching buffer storage system, offchip SDRAM controller and hand shaking scheme between onchip and offchip memory. We assess the area and power of the design. The proposed write back strategy can fully implement the advantage of distributed register file, will save % in power pared with central register file, and will save % in area pared with traditional write back control method. The proposed prefetching method will save time to access SDRAM which is covered in the putation cycles. It will reduce at least 25% memory access cycles pared with nonprefetching system. 上海交通大學碩士學位論文 III KEY WORDS: DSP, distributed register, write back, prefetching, SDRAM controller 上海交通大學碩士學位論文 IV 目 錄 簇狀高性能數(shù)字信號處理器控制與存取關(guān)鍵技 術(shù)研究 5 第二章 存儲系統(tǒng)與預取技術(shù) 6 存儲層次結(jié)構(gòu) 20 簇狀運算陣列結(jié)構(gòu) 45 預取存儲系統(tǒng)性