【正文】
6 存儲層次結(jié)構(gòu) 5 第二章 存儲系統(tǒng)與預(yù)取技術(shù) I ABSTRACT s highspeed putation needs efficient access to offchip memory to match. Based on the high performance digital signal processor project we designed a high performance putation array with 16 clusters. We present a design of write back strategy for distributed register file in VLIW digital signal processor to solve the synchronization problem of branch pipeline and write back signals. The design includes generating execution cycles, write back signal register and write back control unit. We present a design of hardware data prefetching method based on memory access step to solve the problem of less efficient access to the shared offchip SDRAM. The design includes onchip level2 prefetching buffer storage system, offchip SDRAM controller and hand shaking scheme between onchip and offchip memory. We assess the area and power of the design. The proposed write back strategy can fully implement the advantage of distributed register file, will save % in power pared with central register file, and will save % in area pared with traditional write back control method. The proposed prefetching method will save time to access SDRAM which is covered in the putation cycles. It will reduce at least 25% memory access cycles pared with nonprefetching system. 上海交通大學(xué)碩士學(xué)位論文 III KEY WORDS: DSP, distributed register, write back, prefetching, SDRAM controller 上海交通大學(xué)碩士學(xué)位論文 IV 目 錄 簇狀高性能數(shù)字信號處理器控制與存取關(guān)鍵技 術(shù)研究 本課題 采用了面積功耗性能評估方法,結(jié)果證明了 寫回控制 設(shè)計方案能充分發(fā)揮分布式寄存器文件在功耗方面的優(yōu)勢,相對于運用集中式寄存器文件可以減少 %的功耗,同時對于傳統(tǒng)流水線寫回控制方法可以節(jié)省 %的面積開銷。 針 對陣列內(nèi)采用的 分布式寄存器文件造成的分處理通道 流水線與寫回控制信號的同步問題,提出了一種面向分布式本地寄存器文件的寫回設(shè)計方案。 本學(xué)位論文屬于 不保密 □。本人完全意識到本聲明的法律結(jié)果由本人承擔(dān)。 上海交通大學(xué)碩士學(xué)位論文 簇狀 高性能數(shù)字信號處理器 控制與存取 關(guān)鍵技術(shù)研究 碩 士 研 究 生 : 邵錚 學(xué)號 : 1102109043 導(dǎo) 師 : 王琴副 教授 副 導(dǎo) 師 : 謝憬 ( 助理研究員 ) 專業(yè) : 集成電路工程 所 在 單 位 : 微電子學(xué)院 答 辯 日 期 : 2021 年 12 月 授予學(xué)位單位 : 上海交通大學(xué) Dissertation Submitted to Shanghai Jiao Tong University for the Degree of Master CONTROL AND MEMORY ACCESS RESEARCH FOR CLUSTERED HIGH PERFORMANCE DIGITAL SIGNAL PROCESSOR Candidate: Shao Zheng Student ID: 1102109043 Supervisor: . Wang Qin Assistant Supervisor: Research Assistant Xie Jing Speciality: Integrated Circuit Engineering Affiliation: School of Microelectronics Date of Defence: Dec, 2021 DegreeConferringInstitution: Shanghai Jiao Tong University 上海交通大學(xué) 學(xué)位論文原創(chuàng)性聲明 本人鄭重聲明:所呈交的學(xué)位論文 《 簇狀高性能數(shù)字信號處理器控制與存取關(guān)鍵技術(shù)研究 》 ,是本人在導(dǎo)師的指導(dǎo)下,獨立進行研究工作所取得的成果。 學(xué)位論文作者簽名: 日期: 年 月 日 上海交通大學(xué) 學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者完全了解學(xué)校有關(guān)保留、使用學(xué)位論文的規(guī)定,同意學(xué)校保留并向國家有關(guān)部門或機構(gòu)送交 論文的復(fù)印件和電子版,允許論文被查閱和借閱。 (請在以上方框內(nèi)打“ √ ”) 學(xué)位論文作者簽名: 指導(dǎo)教師簽名: 日期: 年 月 日 日期: 年 月 日 上海交通大學(xué)碩士學(xué)位論文 I 簇狀高性能數(shù) 字信號處理器控制與存取關(guān)鍵技術(shù)研究 摘 要 高性能數(shù)字信號處理運算密集對于處理器運算能力要求很高,簇狀運算陣列具有峰值運算量大,并行度高的優(yōu)勢。其中包括指令執(zhí)行周期的產(chǎn)生,寫回信號緩存以及寫回控制單元。 預(yù)取設(shè)計方案能充分改善訪問片外 SDRAM 較為低效的現(xiàn)狀,盡可能的將訪問片外存儲器的時間隱藏在運算時間內(nèi)。 I 摘 要 2 數(shù)字信號處理器 3 研究目標與主要內(nèi)容 7 集中式與分布式寄存器 11 SDRAM 控制器基本功能 15 軟件預(yù)取 15 硬件預(yù)取 16 預(yù)取相關(guān)的主存控制器 19 第三章 簇狀高性能運算陣列設(shè)計方案 25 分布式寄存器寫回設(shè)計方案 26 寫回控制設(shè)計 37 整體結(jié)構(gòu) 37 異步 FIFO 設(shè)計 38 本章小結(jié) 40 實系數(shù)矩陣乘法 41 一維快速傅里葉變換 45 分布式寄存器文件性能 47 本章小結(jié) 51 上海交通大學(xué)碩士學(xué)位論文 VI 參 考 文 獻 錯誤 !未定義書簽。 12 圖 2 7 列有效時序圖 13 圖 2 9 CL=3 時序圖 13 圖 2 10 突發(fā)傳輸模式 14 圖 2 11 軟件預(yù)取算法 31 圖 4 3 基于訪存地址索引的預(yù)取表 33 圖 4 4 數(shù)據(jù)預(yù)取緩沖存儲系統(tǒng)狀態(tài)轉(zhuǎn)換圖 36 圖 4 9 片上片外存儲交互機制 38 圖 5 1 直接型 FIR 濾波器 40 圖 5 2 8 點快速傅里葉變換 16 圖 2 13 RPT 的組織結(jié)構(gòu)圖 19 圖 3 1 VLIW 數(shù)字信號處理器整體結(jié)構(gòu) 21 圖 3 2 運算簇內(nèi)部結(jié)構(gòu)圖 22 表 3 1 LRF 規(guī)格說明 45 表 5 3 寄存器時序面積性能 47 表 5 6 實系數(shù)矩陣乘法算法訪存周期數(shù) 越來越多的數(shù)字信號處理器開始面向多核方向發(fā)展,開始出現(xiàn)多個 功能 單元的并行運算結(jié)構(gòu)。圖 11是根據(jù)摩爾定律計算出的 CPU 和存儲器發(fā)展速度情況示意圖,可以看出 處理器和存儲器 的速度差異仍然在不斷擴大。如果高速緩存 (Cache)沒有命中,則需要訪問下一級存儲 器 來尋找數(shù)據(jù)。程序訪問的空間局部性是指空間上存儲在一起的數(shù)據(jù)或指令容易一起被訪問的特性。在處理器發(fā)出訪存請求之前,將主存中未來可能實用的數(shù)據(jù)取入 Cache。 數(shù)字信號處理是利用專用或者通用數(shù)字信號處理芯片通過數(shù)字計算方法對信號進行處理。流處理的主要思想是將相關(guān)數(shù)據(jù)構(gòu)成一個集合稱之為記錄,有序的記錄構(gòu)成流。每個 Tile 都有獨立的微處理器、數(shù)據(jù)緩存、存儲器以及同 其他 Tile 互聯(lián)的網(wǎng)絡(luò)接口。主要思想是將向量處理器和 DRAM 存儲器都做到片上 。計算機的主 存儲器不能同時滿足容量大、速度快和成本低的要求。 數(shù)據(jù)預(yù)取技術(shù)旨在將片外存儲器內(nèi)的數(shù)據(jù)預(yù)先取到片上Cache 中,在處理器需要用到這些數(shù)據(jù)的時候可以直接從 Cache 中取數(shù)據(jù),而不需要從片外 的 SDRAM 中取。預(yù)取的本質(zhì)也是取數(shù)據(jù),軟件預(yù)取是通過插入 L