劉帥,蔣林,李遠成,山蕊,朱育琳,王欣
(1.西安科技大學 通信與信息工程學院,西安 710054; 2.西安科技大學 計算機科學與技術學院,西安 710054;3.西安郵電大學 電子工程學院,西安 710121; 4.西安科技大學電氣 與控制工程學院,西安 710054)(?通信作者電子郵箱jianglin@xust.edu.cn)
基于陣列處理器的最小均方誤差檢測算法并行設計與實現
劉帥1,蔣林2*,李遠成2,山蕊3,朱育琳4,王欣4
(1.西安科技大學 通信與信息工程學院,西安 710054; 2.西安科技大學 計算機科學與技術學院,西安 710054;3.西安郵電大學 電子工程學院,西安 710121; 4.西安科技大學電氣 與控制工程學院,西安 710054)(?通信作者電子郵箱jianglin@xust.edu.cn)
針對大規(guī)模多輸入多輸出(MIMO)系統(tǒng)中,最小均方誤差(MMSE)檢測算法在可重構陣列結構上適應性差、計算復雜度高和運算效率低的問題,基于項目組開發(fā)的可重構陣列處理器,提出了一種基于MMSE算法的并行映射方法。首先,利用Gram矩陣計算時較為簡單的數據依賴關系,設計時間上和空間上可以高度并行的流水線加速方案;其次,根據MMSE算法中Gram矩陣計算和匹配濾波計算模塊相對獨立的特點,設計模塊化并行映射方案;最后,基于Xilinx Virtex-6開發(fā)板對映射方案進行實現并統(tǒng)計其性能。實驗結果表明,該方法在MIMO規(guī)模為、和的正交相移鍵控(QPSK)上行鏈路中,加速比分別2.80、4.04和5.57;在的大規(guī)模MIMO系統(tǒng)中,可重構陣列處理器比專用硬件減少了42.6%的資源消耗。
大規(guī)模多輸入多輸出;最小均方誤差算法;并行映射;陣列處理器;可重構
大規(guī)模多輸入多輸出(Multiple-Input Multiple-Output, MIMO)技術是未來移動通信的關鍵技術之一[1]。隨著基站端天線數持續(xù)上漲,上行鏈路信號檢測面臨巨大挑戰(zhàn),信號檢測器對計算精度、硬件復雜度和算法并行性提出了更高要求。因為信道矩陣向量在多用戶理想傳播條件下會表現出漸進正交性,所以最小均方誤差(Minimum Mean Square Error, MMSE)算法就可以達到較為理想的信號檢測精度,它在實際大規(guī)模MIMO系統(tǒng)中具有很大的應用潛力[2]。可重構是一種使用軟件編程去改變重構信息,最終使硬件功能得到改變的技術[3],其兼具通用處理器的靈活性和專用集成電路(Application Specific Integrated Circuit, ASIC)的高性能??芍貥嬯嚵薪Y構能較好地平衡資源消耗與計算效率的關系,因此基于該結構的信號檢測器具有光明的發(fā)展前景。
然而,基于可重構結構的大規(guī)模MIMO信號檢測算法的實現還存在一些問題。
一方面,目前基于可重構結構的信號檢測器大部分面向傳統(tǒng)規(guī)模的MIMO系統(tǒng),架構擴展性不足。文獻[4]中提出了一種由20個運算單元(Process Element, PE)和1個Center Alpha單元構建的粗粒度可重構架構(Coarse Grained Reconfigurable Architecture,CGRA),雖然該結構可以通過處理器集成的指令靈活地實現多種算法,但是固定的PE陣列限制了MIMO規(guī)模擴展;文獻[5]中基于動態(tài)可重構處理器架構,實現了線性最小均方誤差(Linear Minimum Mean Square Error, LMMSE)信道估計算法,其處理速度達到了通用微處理器的8.8~14.6倍,但僅支持的矩陣規(guī)模;文獻[6]中采用一種異構可重構陣列處理器實現了高效率和低能耗的信號檢測,但是該陣列結構只支持的MIMO規(guī)模,無法滿足當前大規(guī)模MIMO的檢測需求。
另一方面,基于現場可編程門陣列(Field Programmable Gate Array, FPGA)的大規(guī)模MIMO檢測架構會造成較高的硬件開銷。文獻[7]中使用并行切比雪夫算法實現了的大規(guī)模MIMO信號檢測,雖然該算法通過迭代將矩陣乘法轉化為矩陣和向量相乘,降低了計算復雜度,但是復雜的迭代控制增加了FPGA實現難度,并消耗了過多資源;文獻[8]中提出了一種遞推共軛梯度迭代方法進行信號檢測,并設計了基于該方法的、64正交幅度調制(Quadrature Amplitude Modulation, QAM)大規(guī)模MIMO系統(tǒng)硬件架構,但是該架構中包含了6種不同結構的PE,對硬件資源消耗和設計復雜度有較大挑戰(zhàn)。
為了使大規(guī)模MIMO系統(tǒng)中MMSE檢測算法適應可重構結構,解決MMSE算法中矩陣計算復雜度高、運算效率低的問題,本文基于項目組開發(fā)的同構輕核可重構陣列處理器平臺[9],設計了MMSE算法在可重構陣列處理器上并行映射的方案,最終以較高的計算效率和較低資源消耗實現了大規(guī)模MIMO信號檢測。
對于復雜大規(guī)模MIMO信道條件,MMSE算法考慮到了噪聲影響,于是估計的發(fā)送信號計算式如式(2)所示:
圖1 MMSE檢測算法運算流程Fig. 1 Calculation flow of MMSE detection algorithm
表1 不同下的特征Tab. 1 Characteristics of at different
表1 不同下的特征Tab. 1 Characteristics of at different
的計算結果運算復雜度123
本文方案采用項目組提出的基于H型傳輸網絡的可重構陣列處理器實現。該處理器使用FPGA架構設計,由主機接口、全局控制器、可重構處理單元、輸入存儲器和輸出存儲器五部分構成,其結構如圖2所示。
圖2 陣列處理器結構Fig. 2 Structure of array processor
可重構處理單元是陣列處理器的核心,由1 024個PE構成,每一組的PE陣列構成一個處理單元簇(Process Element Group, PEG),簡稱為簇。圖2中只展示出了4個簇,其余簇可以在該架構上進行擴展。每個PE包含了1個數據和1個指令存儲單元。數據存儲單元有512行,每行位寬為16 b;指令存儲單元也有512行,但指令位寬為32 b。相鄰PE之間可采用鄰接互連方式傳遞數據,相鄰簇間可通過路由方式傳遞數據。主機接口負責將上位機下發(fā)的命令傳輸到全局控制器;全局控制器將主機接口接收的信息分為數據流和指令流,通過H樹網絡進行調度,并合理分配到每個PE中;輸入存儲器用于存儲計算時的輸入數據;輸出存儲器用來把計算結果進行輸出。因為PE功能會根據配置信息的不同而發(fā)生改變,所以可重構陣列處理器具有高靈活性[15]。
2.2.1 Gram矩陣并行計算方案設計
則有式(4)成立:
在式(4)中,只需計算上三角元素和對角元素,便可得到全部矩陣元素。觀察矩陣中每一個元素,發(fā)現每行均有相同行向量,每列均有相同列向量,此數據特征非常適合采用流水線結構設計復數矩陣乘法。
陣列處理器中一個簇有16個PE,考慮到MIMO規(guī)模的擴展性,首先在的MIMO規(guī)模下使用4個PE完成Gram矩陣并行計算。具體映射方案如下:
2)數據傳輸。PE00為最先開始數據傳輸的PE,當指令讀取到的第1個元素后,將共軛變化為的第1個元素,并把依次傳輸到PE10、PE20和PE30中。
圖3中,每一列為Gram矩陣一個元素的計算周期,每一行為每個PE需要執(zhí)行的操作,每一個方格代表了不同計算周期內PE中的一個操作。由圖3可以看出,在不考慮數據流動延遲的情況下,采用流水線模式計算Gram矩陣,僅僅需要4個計算周期就可以完成全部計算。然而采用串行方式逐個計算Gram矩陣元素時,即使考慮到埃爾米特矩陣共軛轉置特性,也需要依次計算4個對角元素和6個非對角元素,這會消耗10個計算周期。所以從理論上來講,在的MIMO規(guī)模下,并行Gram矩陣計算相較于串行計算能夠取得加速比為2.5。在一個簇中,、和的Gram矩陣并行計算映射分別如圖4所示。
圖3 流水線結構映射Fig. 3 Pipeline structure mapping
圖4 Gram矩陣并行計算映射Fig. 4 Mapping of Gram matrix parallel computing
在圖4中,為了降低數據傳輸延遲、減少計算時數據等待時間,于是在相鄰PE之間采用了鄰接互連的蛇形數據傳輸方式。各個PE的計算模式相同,唯一不同的是計算量,從箭頭指向的第一個PE到最后一個PE,計算量依次遞增。每個PE按箭頭指向順序依次存儲矩陣的列向量。如在128×4的MIMO規(guī)模下,PE00、PE10、PE20和PE30中分別存儲、、和的數據,并在這4個PE中完成矩陣計算。
為了統(tǒng)計矩陣計算時間,規(guī)定一個計算周期即為完成Gram矩陣中一個元素計算所需時間,該時間由兩組擁有128個復數的數組對應完成乘累加組成。采用流水線結構加速計算時,并行計算周期數取決于Gram矩陣對角線元素個數。串行計算周期數由對角線元素個數和上三角元素個數相加組成。在的MIMO規(guī)模下,Gram矩陣有8個對角線元素和28個上三角元素,所以并行計算周期是8,串行計算周期是36。圖4(c)中,在的MIMO規(guī)模下使用了16個PE完成了Gram矩陣計算,因為Gram矩陣有16個對角線元素和120個上三角元素,所以并行計算周期是16,串行計算周期是136。在不同MIMO規(guī)模下,Gram矩陣對應的計算周期和理論加速比如表2所示。
從表2可以看出,隨著MIMO規(guī)模增加,無論是串行還是并行方案,Gram矩陣的計算周期都會增長。串行方案全部使用1個PE完成計算,并行方案下使用的PE數量與Gram矩陣中對角線元素數量保持一致,且與MIMO規(guī)模中用戶端天線數相同。矩陣計算的理論加速比會隨著MIMO規(guī)模增大而提高,此特點有利于更大規(guī)模的MIMO系統(tǒng)中信號檢測算法高效執(zhí)行。
表2 Gram矩陣計算的理論值Tab. 2 Theoretical value of Gram matrix calculation
2.2.2 模塊化并行方案設計
根據圖1運算流程,如果把Gram矩陣計算替換為并行計算,可得并行映射方案①。由于Gram矩陣計算和匹配濾波計算不具備數據依賴關系,所以在執(zhí)行Gram矩陣并行計算時,讓匹配濾波計算同時開始執(zhí)行,完成模塊化并行,則可得并行映射方案②。
表3 Gram矩陣和匹配濾波計算的理論值Tab. 3 Theoretical values of Gram matrix and matched filter calculation
與表2相比,表3中方案①的計算周期只是在表2中并行計算周期的基礎上加上了的計算周期。方案②中模塊化并行會使加速比提高至方案①的2倍。因為在理想狀況下,與的計算周期相同,并行計算時這兩個矩陣計算同時開始、同時結束,只占用了個計算周期;所以模塊化并行會進一步降低計算耗時,提高計算效率。
2.2.3 PE功能設計
雖然矩陣求逆時使用紐曼級數近似算法能夠降低求逆復雜度,但是紐曼級數法各個計算步驟之間有很強的數據相關性,故只能逐步順序執(zhí)行。通過表1可知,當時,紐曼級數法兼顧了計算復雜度與準確性的要求,于是有式(5):
把式(5)中各個計算單元重新命名,可得式(6)、式(7)和式(8)分別如下:
對算法進行實現時,方案中用戶端天線數分別設計為4、8和16。當等于16時,由于矩陣每個元素的實部和虛部各占用一行存儲單元,故存儲一個矩陣需要512行存儲單元,即一個PE。雖然PE中可以同時存儲指令與數據,但是為了在計算時避免地址沖突,與矩陣大小相同的矩陣、、的數據必須單獨存儲在一個PE中。于是,Gram矩陣串行計算、匹配濾波計算、矩陣求逆和信道均衡的任務只能把指令和數據劃分給不同PE進行存儲。因為在的MIMO規(guī)模下,Gram矩陣并行計算在一個簇中PE的使用率為100%,故選取其展現完整的MMSE檢測算法并行映射方案如圖5所示。
圖5中,PEG00完成Gram矩陣計算的任務,PEG01完成匹配濾波、矩陣求逆和信道均衡的任務,陰影部分為存儲數據的PE,非陰影部分為執(zhí)行計算功能的PE。在PEG00中,與圖4(c)相比,PE03增加了把計算完成的Gram矩陣元素傳輸給PEG01的任務。
圖5 MMSE算法并行映射Fig. 5 Parallel mapping of MMSE algorithm
本文先使用Matlab建模生成實驗數據:首先,產生一組隨機的二進制比特流,經過QPSK調制后得到發(fā)送信號;其次,隨機生成一組矩陣元素獨立同分布,且實部與虛部都服從零均值和單位方差高斯分布的信道矩陣;然后,生成加性高斯白噪聲向量,由控制生成噪聲功率譜密度;最后,根據式(1)計算接收信號。
實驗數據生成以后,使用BEEcube公司BEE4開發(fā)平臺上的Xilinx Virtex-6 XC6VLX550T FPGA搭建的陣列處理器原型系統(tǒng)進行FPGA驗證和測試。具體實現步驟如下:
2)使用專用指令集完成算法的代碼級描述,并通過翻譯器將指令翻譯為二進制,輸入到指令存儲單元。
3)利用QuestaSim 10.1d仿真軟件在陣列處理器上對串并行映射方案進行仿真,驗證算法映射的正確性。
4)采用ISE 14.7開發(fā)環(huán)境對設計進行邏輯綜合,根據綜合實現結果分析性能。
5)在BEE4平臺上進行FPGA硬件實現,驗證實驗結果的合理性。
首先,對Gram矩陣計算的串行和并行方案進行仿真,計算實際加速比。MIMO規(guī)模分別為、和,結果如表4所示。
從表4可以看出,Gram矩陣計算的實際加速比與理論加速比大致相當,表明Gram矩陣計算的映射方案可行。然而,隨著MIMO規(guī)模中用戶端天線數增加,理論加速比與實際加速比的差值會越來越大。出現此現象的主要原因是,使用流水線方式加速計算時,用戶端天線數的增加導致并行計算使用的PE數量增加,首個PE下發(fā)的數據會經過更長時間才能傳輸到最后一個PE中,所以更多的數據傳輸時延將會導致并行計算時間增加,進而降低實際加速比。
表4 Gram矩陣計算仿真結果Tab. 4 Simulation results of Gram matrix calculation
其次,統(tǒng)計分別在方案①和方案②下完成Gram矩陣計算和匹配濾波計算后的實際加速比,實驗結果如表5所示。通過表5可以發(fā)現,方案①中完成前兩個模塊計算的實際加速比很接近理論值,理論與實際的誤差僅在0.2以內。方案②中由于數據傳輸延遲,導致Gram矩陣計算時間多于匹配濾波計算時間,進而延長了模塊化并行時間,于是實際加速比下降過大。但是從整體上來說,方案②的加速性能優(yōu)于方案①。上述結果表明,在模塊化并行映射方案下,MMSE算法能夠獲得更高的運行效率。
表5 Gram矩陣和匹配濾波計算仿真結果Tab. 5 Simulation results of Gram matrix and matched filter calculation
最后,對整個MMSE算法進行仿真。統(tǒng)計方案①和方案②的加速比,結果如圖6所示。從圖6可以看出,方案②的加速比在、和的MIMO規(guī)模下分別為2.80、4.04和5.57,平均提升至方案①的1.64倍。該性能提升對低時延要求的大規(guī)模MIMO系統(tǒng)具有重大意義。
圖6 并行映射加速比Fig. 6 Acceleration ratio of parallel mapping
圖7 不同MIMO規(guī)模下的相對誤差Fig. 7 Relative errors under different MIMO scales
表6 不同方法FPGA實現結果比較Tab. 6 Comparison of FPGA implementation results by different methods
文獻[7]方法在MIMO規(guī)模與本文實驗相同的條件下,雖然工作頻率獲得了提升,但是本文方法的硬件資源消耗,即查找表(Look-Up Table, LUT)和觸發(fā)器(Flip-Flop, FF)資源之和卻比文獻[7]方法降低了42.6%。在文獻[11]方法和文獻[16]方法中,MIMO規(guī)模為,遠小于本文方法的MIMO規(guī)模,但是本文方法相較文獻[11]方法和文獻[16]方法方法分別節(jié)約了77.7%和63.9%的硬件資源。因為MIMO規(guī)模越大,需要執(zhí)行的計算越復雜,消耗的資源越多,所以如果將文獻[11]方法和文獻[16]方法中MIMO規(guī)模擴大為,資源消耗量還會提高。根據本文中可重構陣列處理器指令集的特點,乘法運算會分解為基本的加法和移位操作進行處理,這會極大降低硬件資源消耗,所以本文方法在資源消耗量方面具有優(yōu)勢。
綜合上述實驗結果可以看出,本文提出的基于可重構陣列處理器的并行映射方法能夠有效減少MMSE算法的執(zhí)行時間,雖然輸出結果會有部分精度損失,但是該方法具有靈活的映射結構和較小的資源消耗。
本文提出了一種基于陣列處理器的MMSE算法并行映射方法,在QPSK調制方式的上行鏈路中,實現了大規(guī)模MIMO信號檢測。該并行映射方法將MMSE算法執(zhí)行分為計算并行和模塊化并行,在計算并行中設計了流水線結構的Gram矩陣計算方式,在模塊化并行中設計了匹配濾波計算和Gram矩陣計算同步執(zhí)行的方案。實驗結果表明,在、和的MIMO規(guī)模下,MMSE算法的加速比分別達到了2.80、4.04和5.57;與文獻[7]方法相比,本文方法資源消耗降低了42.6%。本文方法不僅體現了陣列結構的靈活性,而且還驗證了該結構在硬件資源消耗量方面占有優(yōu)勢。后續(xù)研究將對硬件結構進行優(yōu)化,以進一步提高信號檢測算法的計算精度和執(zhí)行效率。
[1] HARRIS P, MALKOWSKY S, VIEIRA J, et al. Performance characterization of a real-time massive MIMO system with LOS mobile channels [J]. IEEE Journal on Selected Areas in Communications, 2017, 35(6): 1244-1253.
[2] PENG G Q, LIU L B, ZHOU S, et al. A 1.58 Gb/s/W 0.40 Gb/s/mm2ASIC implementation of MMSE detection for64-QAM massive MIMO in 64 nm CMOS [J]. IEEE Transactions on Circuits amp; Systems I: Regular Papers, 2018, 65(5): 1717-1730.
[3] 魏少軍,李兆石,朱建峰,等.可重構計算:軟件可定義的計算引擎[J].中國科學:信息科學,2020,50(9):1407-1426.(WEI S J, LI Z S, ZHU J F, et al. Reconfifigurable computing: toward software defifined chips [J]. SCIENTIA SINICA Informationis, 2020, 50(9): 1407-1426.)
[4] CHEN X L, MINWEGEN A, HUSSAIN S B, et al. Flexible, efficient multimode MIMO detection by using reconfigurable ASIP[J]. IEEE Transactions on Very Large Scale Integration Systems, 2015,23(10): 2173-2186.
[5] 趙燦坤,王自強.基于動態(tài)可重構處理器的信道估計算法實現[J].微電子學與計算機,2020,37(7):1-5,11.(ZHAO C K, WANG Z Q. Implementation of channel estimation algorithms based on dynamic reconfigurable processor [J]. Microelectronics and Computer, 2020, 37(7): 1-5, 11.)
[6] ZHANG C X, LIU L, MARKOVIC D, et al. A heterogeneous reconfigurable cell array for MIMO signal processing [J]. IEEE Transactions on Circuits amp; Systems I: Regular Papers, 2015, 62(3): 733-742.
[7] PENG G Q, LIU B L, ZHANG P, et al. Low-computing-load, high-parallelism detection method based on Chebyshev iteration for massive MIMO systems with VLSI architecture [J]. IEEE Transactions on Signal Processing,2017, 65(14): 3775-3788.
[8] LIU L B, PENG G Q, WANG P, et al. Energy- and area-efficient recursive-conjugate-gradient-based MMSE detector for massive MIMO systems [J]. IEEE Transactions on Signal Processing, 2020, 68: 573-588.
[9] 蔣林,賀飛龍,山蕊,等.可重構視頻陣列處理器測試平臺設計與實現[J].系統(tǒng)仿真學報,2020,32(5):792-800.(JIANG L, HE F L,SHAN R, et al. Design and implementation of reconfigurable video array processor test platform [J]. Journal of System Simulation, 2020, 32(5): 792-800.)
[10] GAO X, DAI L, MA Y, et al. Low-complexity near-optimal signal detection for uplink large-scale MIMO systems [J]. Electronics Letters, 2014, 50(18): 1326-1328.
[11] WU M, YIN B, WANG G H, et al. Large-scale MIMO detection for 3GPP LTE: algorithms and FPGA implementations [J]. IEEE Journal of Selected Topics in Signal Processing, 2014, 8(5): 916-929.
[12] 金鳳,唐宏,張進彥,等.基于壓縮感知的大規(guī)模MIMO系統(tǒng)導頻優(yōu)化及信道估計算法[J].計算機應用,2018,38(5):1447-1452.(JIN F,TANG H, ZHANG J Y, et al. Pilot optimization and channel estimation in massive multiple-input multiple-output systems based on compressive sensing [J]. Journal of Computer Applications, 2018, 38(5): 1447-1452.)
[13] YIN B, WU M, WANG G H, et al. A 3.8Gb/s large-scale MIMO detector for 3GPP LTE-Advanced [C]// Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2014:3879-3883.
[14] 馮雙雙.基于Massive MIMO的矩陣求逆算法研究[D].成都:電子科技大學,2016:33-51.(FENG S S. Research on matrix inversion in massive MIMO systems [D]. Chengdu:University of Electronic Science and Technology of China, 2016: 33-51.)
[15] 楊坤,蔣林,謝曉燕,等.HEVC中率失真優(yōu)化算法的動態(tài)可重構實現[J].計算機工程與科學,2021,43(2):354-361.(YANG K, JIANG L, XIE X Y, et al. Dynamic reconfigurable implementation of rate distortion optimization algorithm in HEVC [J]. Computer Engineering and Science, 2021, 43(2): 354-361.)
[16] CHEN J N, ZHANG Z B, LU H, et al. An intra-iterative interference cancellation detector for large-scale MIMO communications based on convex optimization [J]. IEEE Transactions on Circuits amp; Systems I: Regular Papers, 2016, 63(11): 2062-2072.
Parallel design and implementation of minimum mean square error detection algorithm based on array processor
LIU Shuai1, JIANG Lin2*, LI Yuancheng2, SHAN Rui3, ZHU Yulin4, WANG Xin4
(1.College of Communication and Information Engineering,Xi’an University of Science and Technology,Xi’an Shaanxi710054China;2.College of Computer Science and Technology,Xi’an University of Science and Technology,Xi’an Shaanxi710054,China;3.School of Electronic Engineering,Xi’an University of Posts and Telecommunications,Xi’an Shaanxi710121,China;4.College of Electrical and Control Engineering,Xi’an University of Science and Technology,Xi’an Shaanxi710054,China)
In massive Multiple-Input Multiple-Output (MIMO) systems, Minimum Mean Square Error (MMSE) detection algorithm has the problems of poor adaptability, high computational complexity and low efficiency on the reconfigurable array structure. Based on the reconfigurable array processor developed by the project team, a parallel mapping method based on MMSE algorithm was proposed. Firstly, a pipeline acceleration scheme which could be highly parallel in time and space was designed based on the relatively simple data dependency of Gram matrix calculation. Secondly, according to the relatively independent characteristic of Gram matrix calculation and matched filter calculation module in MMSE algorithm, a modular parallel mapping scheme was designed. Finally, the mapping scheme was implemented based on Xilinx Virtex-6 development board, and the statistics of its performance were performed. Experimental results show that, the proposed method achieves the acceleration ratio of 2.80, 4.04 and 5.57 in Quadrature Phase Shift Keying (QPSK)uplink with the MIMO scale of,and, respectively, and the reconfigurable array processor reduces the resource consumption by 42.6% compared with the dedicated hardware in themassive MIMO system.
massive Multiple-Input Multiple-Output (MIMO); Minimum Mean Square Error (MMSE) algorithm; parallel mapping; array processor; reconfigurable
TP302
A
1001-9081(2022)05-1524-07
10.11772/j.issn.1001-9081.2021030460
2021?03?26;
2021?06?25;
2021?06?28。
國家自然科學基金資助項目(61834005,61772417);陜西省自然科學基金資助項目(2020JM?525)。
劉帥(1998—),男,陜西延安人,碩士研究生,主要研究方向:計算機體系結構; 蔣林(1970—),男,陜西楊凌人,教授,博士,主要研究方向:專用集成電路設計、計算機體系結構、計算機圖形圖像處理; 李遠成(1981—),男,河南開封人,講師,博士,CCF會員,主要研究方向:計算機體系結構、并行計算、機器學習; 山蕊(1986—),女,陜西咸陽人,副教授,博士,主要研究方向:集成電路設計; 朱育琳(1996—),女,陜西西安人,碩士研究生,主要研究方向:計算機體系結構; 王欣(1995—),女,陜西咸陽人,碩士研究生,主要研究方向:可重構存儲結構。
This work is partially supported by National Natural Science Foundation of China (61834005, 61772417),Natural Science Foundation of Shaanxi Province (2020JM-525).
LIU Shuai, born in 1998, M. S. candidate. His research interests include computer architecture.
JIANG Lin, born in 1970, Ph. D., professor. His research interests include application specific integrated circuit design, computer architecture, computer graphics and image processing.
LI Yuancheng, born in 1981, Ph. D., lecturer. His research interests include computer architecture,parallel computing, machine learning.
SHAN Rui, born in 1986, Ph. D., associate professor. Her research interests include integrated circuit design.
ZHU Yulin, born in 1996, M. S. candidate. Her research interests include computer architecture.
WANG Xin, born in 1995, M. S. candidate. Her research interests include reconfigurable storage structure.