趙 香
一種復(fù)雜指令系統(tǒng)譯碼器設(shè)計方法
趙香
(中國電子科技集團公司第三十八研究所集成電路設(shè)計中心,合肥230088)
介紹一種面向處理器復(fù)雜指令系統(tǒng)的譯碼器軟件模型設(shè)計方法,該設(shè)計采用平衡二叉樹的數(shù)據(jù)結(jié)構(gòu)存儲譯碼表,加入指令緩存,提高指令譯碼速度,詳細(xì)描述譯碼器的設(shè)計過程。
指令集模擬器;譯碼器
每款處理器都有各自配套的指令系統(tǒng)[1],處理器功能越強大對應(yīng)的指令系統(tǒng)也越復(fù)雜。指令系統(tǒng)的發(fā)展是一個從簡單到復(fù)雜的過程。早期的處理器由于硬件設(shè)計成本的原因,其指令系統(tǒng)相對結(jié)構(gòu)簡單,所支持的指令也相對較少。后來伴隨著超大規(guī)模集成電路技術(shù)的迅速發(fā)展,在設(shè)計高性能處理器時,為提升處理器的運行效率,設(shè)計師采用的方法是不斷地增加可實現(xiàn)復(fù)雜功能的指令和多種靈活的編址方式,致使處理器的指令系統(tǒng)變大復(fù)雜、龐大,給硬件和軟件的譯碼器設(shè)計帶來很多困難[2]。譯碼器[3~4]是指令集模擬器的關(guān)鍵模塊(如圖1),它是指令運行之前的準(zhǔn)備工作,其功能是從一個二進(jìn)制的機器碼中提取出指令運行的信息或相關(guān)的程序控制信息。面對復(fù)雜指令系統(tǒng),如何快速譯碼[4]是本文要解決的問題。
圖1 指令集模擬器工作流程
本文所設(shè)計的譯碼器是基于中國第一款自主研發(fā)高性能通用DSP“魂芯一號”[5],該處理器一款32位浮點DSP,同時兼容16位和32位定點數(shù)據(jù)格式,采用VLIW架構(gòu),具有強大的并行處理能力,能較好地滿足高速實時信號處理的應(yīng)用要求。其核內(nèi)部包含4個基本執(zhí)行宏,每個執(zhí)行宏由8個算術(shù)邏輯單元(ALU)、4個乘法器(MUL)、2個移位器(SHF)、1個超算器(SPU)以及1個通用寄存組組成。
BWDSP100提供了十分豐富的指令系統(tǒng),從功能上可以分為算術(shù)指令、邏輯指令、程序控制指令等3大類,共200多條基本指令,由于操作數(shù)的尋址方式不同,基于這些基本指令可以派生出更多的指令。BWDSP100指令系統(tǒng)的指令按指令字長度分為單字指令和雙字指令,其單字指令字長32位,雙字指令字長64位,大多算術(shù)類、邏輯運算類指令為單字指令,少量算術(shù)類和控制類指令為雙字指令。
指令字格式如圖2、圖3所示,對各字段說明如下:
指令前綴:表示單/雙字信息和運算宏信息,即該指令是單字指令還是雙字指令,及該指令是在哪個宏上運算;
Opcode:是該指令的唯一標(biāo)識,在譯碼器設(shè)計中,其作為譯碼表中的索引;
指令后綴:表示控制字、尋址方式、立即數(shù)等,例如該指令是有符號運算還是無符號運算,操作數(shù)是從何處讀取,可以是立即數(shù),也可以從通用寄存器讀取。
圖2 單字指令結(jié)構(gòu)
圖3 雙字指令結(jié)構(gòu)
一般譯碼器的設(shè)計采用if-else語句的多層嵌套結(jié)構(gòu)或者switch-case多分支選擇語句結(jié)構(gòu)等,其特點是運行方向是向前的,結(jié)果只能是眾多分支當(dāng)中的1支。switch-case結(jié)構(gòu)是對if-else結(jié)構(gòu)的一個優(yōu)化,但效率并無明顯提高。查找每條指令都需要經(jīng)過多次條件比較,若按順序排列指令,排在后面的指令搜索的時間明顯長于排在前面的指令。
為提高芯片的運行效率,結(jié)合處理器使用Cache的設(shè)計思想[4],在設(shè)計時采用譯碼緩存DecodeCache策略和平衡二叉樹[6]的結(jié)構(gòu)構(gòu)件譯碼表,對同一指令減少譯碼次數(shù),縮短指令搜索時間,提高譯碼效率。譯碼器的設(shè)計流程圖如圖4所示。
(1)建立譯碼表,為提高指令的搜索速度,減少不同指令之間的搜索時間差距,采用平衡二叉樹的數(shù)據(jù)結(jié)構(gòu),以opcode作為索引建立譯碼表,每個opcode對應(yīng)一個譯碼的函數(shù)接口。整理指令系統(tǒng),將所有指令按照指令字格式進(jìn)行分類,對指令字格式相同的指令可以使用同一函數(shù)接口。
(2)建立譯碼緩存DecodeCache,大小定義為1024,可根據(jù)實際需要調(diào)整。實現(xiàn)時譯碼緩存DecodeCache可以定義為一組無符號的整型數(shù),其定義如下。
圖4 譯碼器流程圖
typedef struct
{
unsigned int UnitsUseCalc;//運算宏信息
unsigned int ALUNum;//ALUNum中的每一位表示對應(yīng)ALU的索引
unsigned int MULNum;//MULNum中的每一位表示對應(yīng)乘法器的索引
unsigned int SHFNum;//SHFNum中的每一位表示對應(yīng)移位器的索引
unsigned int SPUNum;//SPUNum中的每一位表示對應(yīng)特定運算單元的索引
}INT_RES_USED;
typedef struct
{
unsigned long DecodeInfo[MAX_PARA_NUM];//用于存放通用寄存器索引、立即數(shù)等
unsigned long Opcode;
unsigned long Inst0;//單字指令字或雙字指令的第一個指令字
unsigned long Inst1;//雙字指令的第二個指令字INT_RES_USED InstReSource;//指令所占用的資源信息}INST_DEC_INFO;
INST_DEC_INFO DecodeCache[1024];
(3)在DecodeCache中找尋是否已經(jīng)對該指令字譯碼,如存在,則直接進(jìn)入下一級模塊取操作數(shù)執(zhí)行指令,否則對指令字進(jìn)行譯碼。
(4)對指令進(jìn)行譯碼,對于運算類指令和邏輯類指令,從32位/64位指令字中獲取運算宏信息、尋址方式(立即數(shù)或者通用寄存器索引);對于程序控制類指令,產(chǎn)生相關(guān)控制信號。
(5)分配資源,對運算類指令和邏輯類指令分配運算部件,分配的結(jié)果保存于InstReSource數(shù)據(jù)項中。運算部件分配的基本原則是:首先,若指令需要指定的運算部件,則優(yōu)先分配;其次,其余的運算部件,按順序由低到高分配。
(6)將譯碼結(jié)果存入DecodeCache中,準(zhǔn)備讀取操作數(shù)執(zhí)行指令。譯碼緩存DecodeCache的維護(hù)可以采用LRU算法對緩存中各條記錄進(jìn)行替換。
隨意選取BWDSP100指令系統(tǒng)中9條指令做譯碼,如表1,具體BWDSP100指令系統(tǒng)可以參照BWDSP100軟件用戶手冊[5]。在構(gòu)建譯碼表時按順序構(gòu)建一般的表,那么搜索到最后一條Sin指令需要查找9次。按照本文中設(shè)計方法構(gòu)建譯碼表,如圖5,該表的查找深度是4,查找Sin指令只需要3次,若查找1000條指令最差的查找次數(shù)是10。
本文針對復(fù)雜指令系統(tǒng)的譯碼器設(shè)計提出了一種設(shè)計方法,詳細(xì)講述了譯碼器設(shè)計流程,給出了主要的數(shù)據(jù)結(jié)構(gòu),適用于各種處理器的指令系統(tǒng),有效提高了指令譯碼的速度,進(jìn)而提升了指令集模擬器的工作效率。鑒于指令集模擬器的快速建模技術(shù)在DSP開發(fā)中的重要性,若能將譯碼器設(shè)計為一個可重用的構(gòu)件,直接應(yīng)用于指令集模擬器的快速建模,那么可以為設(shè)計者減少很多工作量,因此進(jìn)一步對譯碼器的可復(fù)用性研究具有重要的意義。
表1 BWDSP100指令
圖5 四層譯碼表
[1]王元元.基于VLIW的指令格式的研究設(shè)計.計算機工程與應(yīng)用,2003,3(72-74)
[2]沈斌,張多利.周期精確的指令集模擬器的建模與封裝方法.中國集成電路,2007,11:60~64
[3]孫立宏.高性能通用DSP譯碼器設(shè)計.中國集成電路,2014,06:(29-31)
[4]Nohl A,Braun G,Schliebusch O,et al.A Universal Technique for Fast and Flexible Instruction Set Architecture Simulation.DAC.2002
[5]中國電子科技集團公司第三十八研究所.BWDSP100軟件用戶手冊[M].合肥,2011:1~20
[6]解晨.AVL樹研究與實現(xiàn).電腦知識與技術(shù),2013,07期(1532~1536)
Instruction Set Simulator(ISS);Decoder
A Design Method of Complex Instruction System Decoder
ZHAO Xiang
(IC Design Center,No.38 Research Institute of CETC,Hefei 230088)
Introduces a design method of complex instruction system decoder.Adopts balanced binary tree to store information in decoder table and use instruction cache for improving decode speed of instruction in the design.Describes the design method of decoder particularly.
1007-1423(2015)12-0080-04
10.3969/j.issn.1007-1423.2015.12.019
趙香(1983-),女,工程師,研究方向為集成電路軟件設(shè)計
2015-03-10
2015-04-07