基于分布式存儲(chǔ)的高性能嵌入式并行處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2017-09-30 02:58:26江海職業(yè)技術(shù)學(xué)院安長(zhǎng)俊周家婕

電子世界 2017年18期

江海職業(yè)技術(shù)學(xué)院安長(zhǎng)俊周家婕魏斌高明

江海職業(yè)技術(shù)學(xué)院安長(zhǎng)俊周家婕魏斌高明

本文在對(duì)嵌入式高性能并行處理系統(tǒng)加速比的數(shù)學(xué)模型拓展分析的基礎(chǔ)上，提出了一種當(dāng)今更適于高性能信號(hào)處理算法的基于分布式存儲(chǔ)的并行處理架構(gòu)，并在此基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了基于TMS320C6678的多片多核DSP互聯(lián)的通用大容量存儲(chǔ)實(shí)時(shí)信號(hào)處理卡，使用該板卡構(gòu)建了某實(shí)時(shí)信號(hào)處理系統(tǒng)。驗(yàn)證了該架構(gòu)具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)的特點(diǎn)。驗(yàn)證了該系統(tǒng)強(qiáng)大的并行處理性能。

加速比；分布式存儲(chǔ)；多層次互聯(lián)；TMS320C6678

1 引言

隨著VLSI技術(shù)的進(jìn)步，嵌入式并行處理系統(tǒng)得到了飛速的發(fā)展。廣泛應(yīng)用于航天、通信、醫(yī)療電子等領(lǐng)域。隨著應(yīng)用需求的不斷調(diào)高，對(duì)系統(tǒng)處理能力、存儲(chǔ)容量、傳輸帶寬的要求越來(lái)越高。采用更高性能處理器、更大存儲(chǔ)容量與更快讀寫(xiě)速度存儲(chǔ)器的設(shè)計(jì)方法已成為硬件系統(tǒng)設(shè)計(jì)的必然選擇[1]。而傳統(tǒng)的基于共享總線存儲(chǔ)的多處理器并行處理架構(gòu)受制于總線的負(fù)載能力有限、總線時(shí)鐘頻率無(wú)法進(jìn)一步提升以及總線訪問(wèn)競(jìng)爭(zhēng)等問(wèn)題，使得并行處理加速比無(wú)法隨著處理器數(shù)量增加而進(jìn)一步提高，大大限制了并行處理系統(tǒng)處理效率的發(fā)揮。因此本文在詳細(xì)分析了加速比及效率的數(shù)學(xué)模型的基礎(chǔ)上，提出了一種基于高速串行總線互聯(lián)的分布式存儲(chǔ)的并行處理架構(gòu)，并基于TI公司新一代多核DSP——TMS320C6678，設(shè)計(jì)實(shí)現(xiàn)了多片多核DSP互聯(lián)的并行處理單板，可實(shí)現(xiàn)根據(jù)系統(tǒng)處理能力需求靈活擴(kuò)展處理節(jié)點(diǎn)，增縮系統(tǒng)規(guī)模，具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)等優(yōu)點(diǎn)。最后，使用該模塊構(gòu)建了高性能的信號(hào)處理系統(tǒng)，充分驗(yàn)證了系統(tǒng)強(qiáng)大的并行處理性能[2-4]。

2 加速比模型分析

加速比是反映系統(tǒng)并行處理能力發(fā)揮程度的指標(biāo)?？紤]固定大小的加速比模型即Amdahl定律，如公式（1）所示，其中T(1)為單獨(dú)使用1個(gè)處理器進(jìn)行處理所需的時(shí)間，T(N)為使用P個(gè)處理并行處理所需的時(shí)間：

結(jié)合典型處理算法的固有特點(diǎn)，對(duì)（1）式進(jìn)行擴(kuò)展性分析?？紤]并行處理過(guò)程中的主要時(shí)間開(kāi)銷包括同步時(shí)間Tsync以及數(shù)據(jù)傳輸時(shí)間Tcom，可得因此擴(kuò)展后的加速比模型如式公式（2）所示：

設(shè)某算法總的運(yùn)算浮點(diǎn)數(shù)為I，系統(tǒng)內(nèi)處理器的處理速度為P；

該算法的串行瓶頸為δ，即算法中只能串行運(yùn)算的部分，那么并行運(yùn)算的部分即為1—δ；

整個(gè)算法所需的同步次數(shù)為M，且每次同步時(shí)間為tsync；

每個(gè)處理器每次同步需要交互的數(shù)據(jù)量為W，互聯(lián)總線帶寬為B。

數(shù)據(jù)傳輸?shù)牟⑿卸葹棣粒?/p>

則：

帶入（2）式中可得：

并行效率：

如（6）式所示，對(duì)于一個(gè)并行度一定的算法，其同步和數(shù)據(jù)交互的時(shí)間開(kāi)銷將會(huì)嚴(yán)重影響并行系統(tǒng)的加速比。若忽略同步開(kāi)銷的影響，對(duì)于傳統(tǒng)的共享總線的并行架構(gòu)，因共享總線，因此各個(gè)處理器的數(shù)據(jù)存儲(chǔ)及傳輸只能串行執(zhí)行，因此α=0，可得共享總線其加速比：

由（8）（9）兩式可以看出隨著著并行互聯(lián)的處理器數(shù)量的增加，受制于總線帶負(fù)載能力，總線帶寬必定減小，因此數(shù)據(jù)傳輸?shù)拈_(kāi)銷將嚴(yán)重影響系統(tǒng)加速比及效率。而且，可并行擴(kuò)展的處理器數(shù)目有限，構(gòu)建大型處理系統(tǒng)時(shí)比較困難。因此，共享總線的并行處理架構(gòu)越來(lái)越不能滿系統(tǒng)需求。

根據(jù)公式（6）為進(jìn)一步增大并行處理系統(tǒng)的加速比提高其并行處理效率，充分發(fā)揮處理系統(tǒng)性能，我們必須：

（1）盡可能減小串行瓶頸因子δ，主要依靠算法架構(gòu)設(shè)計(jì)優(yōu)化實(shí)現(xiàn)；

（2）增大數(shù)據(jù)傳輸并行度α；

（3）增大數(shù)據(jù)傳輸帶寬B；

（4）減小同步時(shí)間開(kāi)銷。

因此，構(gòu)建如圖1的分布式存儲(chǔ)的并行處理架構(gòu)。采用基于包交換的高速串行總線如SRIO、PCIE等作為處理器間的數(shù)據(jù)傳輸通路以增大數(shù)據(jù)并行傳輸因數(shù)α，增大數(shù)據(jù)傳輸帶寬B；增加專門(mén)SYNC總線以減小同步時(shí)間開(kāi)銷。

圖1 基于高速串行總線的分布式存儲(chǔ)并行互聯(lián)架構(gòu)

3 分布式存儲(chǔ)并行處理系統(tǒng)設(shè)計(jì)

3.1 總體架構(gòu)設(shè)計(jì)

基于以上分布式存儲(chǔ)并行處理架構(gòu)的分析，構(gòu)建基于模塊化的高性能嵌入式并行處理系統(tǒng)，系統(tǒng)總體設(shè)計(jì)如圖2所示：

圖2 系統(tǒng)總體架構(gòu)圖

系統(tǒng)主要包括IO模塊、網(wǎng)絡(luò)交換模塊、處理模塊、主控模塊。

1）主控模塊：該模塊是由單板計(jì)算機(jī)（SBC）構(gòu)建。主要用來(lái)完成系統(tǒng)內(nèi)PCIE EP設(shè)備的枚舉，實(shí)現(xiàn)系統(tǒng)PCIE網(wǎng)絡(luò)的組建。提供人家接口、圖形化界面，通過(guò)PCIE網(wǎng)絡(luò)或以太網(wǎng)實(shí)現(xiàn)對(duì)系統(tǒng)內(nèi)設(shè)備進(jìn)行管理與維護(hù)。同時(shí)負(fù)責(zé)完成系統(tǒng)任務(wù)分配、參數(shù)初始化等功能。另外，還可使用主控模塊進(jìn)行特定的輔助數(shù)據(jù)處理。

2）I/O模塊：該模塊主要主要完成處理系統(tǒng)與外部其系統(tǒng)互聯(lián)。一般由大型FPGA構(gòu)建，主要由包括IO接口單元和IO控制單元。IO接口單元實(shí)現(xiàn)各類傳輸接口如ADC、DAC、光纖輸入輸出接口等；IO控制單元實(shí)現(xiàn)數(shù)據(jù)的分發(fā)以及同步定時(shí)功能。

3）網(wǎng)絡(luò)交換模塊：該模塊主要實(shí)現(xiàn)第三代基于包交換的高速串行總線的數(shù)據(jù)交換，例如SRIO、PCIE和千兆以太網(wǎng)。為系統(tǒng)內(nèi)各個(gè)處理節(jié)點(diǎn)提供高速無(wú)阻塞的數(shù)據(jù)傳輸通道。

4）處理模塊：處理模塊為該嵌入式高性能并行處理系統(tǒng)的核心。由若干基于分布式存儲(chǔ)的高性能處理器互聯(lián)組成。處理器一般為適于嵌入式系統(tǒng)處理的DSP、FPGA等。多處理器間通過(guò)基于包交換的第三代高速串行總線（如SRIO）實(shí)現(xiàn)互聯(lián)，可輕松實(shí)現(xiàn)多處理器的擴(kuò)展。同時(shí)，還可根據(jù)具體處理器外圍接口的不同構(gòu)建處理器間LINKs，為多處理器間的數(shù)據(jù)交互提供通路。

如上所述的基于模塊化構(gòu)建的高性能并行處理系統(tǒng)，具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)的特點(diǎn)。系統(tǒng)可根據(jù)各類應(yīng)用的具體需求靈活增減各個(gè)模塊規(guī)模以構(gòu)建不同性能的系統(tǒng)。

3.2 架構(gòu)特點(diǎn)分析

3．2．1 多層次的互聯(lián)網(wǎng)絡(luò)

系統(tǒng)中引入了三種不同特性的互聯(lián)方式實(shí)現(xiàn)系統(tǒng)內(nèi)各個(gè)單元的互聯(lián)，包括：

（1）基于點(diǎn)對(duì)點(diǎn)互聯(lián)的高速串行總線互聯(lián)（如SRIO、PCIE）為各個(gè)處理節(jié)點(diǎn)提供大帶寬的數(shù)據(jù)傳輸通道；

（2）千兆以太網(wǎng)互聯(lián)，實(shí)現(xiàn)系統(tǒng)低速、非實(shí)時(shí)的控制數(shù)據(jù)流傳輸；

（3）同步定時(shí)總線實(shí)現(xiàn)系統(tǒng)內(nèi)各個(gè)處理節(jié)點(diǎn)的同步定時(shí)。不同的互聯(lián)方式實(shí)現(xiàn)不同類型數(shù)據(jù)傳輸?shù)男枨螅ㄟ^(guò)三種不同層次的互聯(lián)網(wǎng)絡(luò)實(shí)現(xiàn)系統(tǒng)中無(wú)阻塞的數(shù)據(jù)交換[5-7]。

圖3 多種類的SRIO互聯(lián)拓?fù)涫疽鈭D

3．2．2 靈活多變的互聯(lián)拓?fù)?/p>

使用SRIO互聯(lián)網(wǎng)絡(luò)作為主要的數(shù)據(jù)傳輸通道可實(shí)現(xiàn)系統(tǒng)中處理節(jié)點(diǎn)的靈活擴(kuò)展。借助于專用SRIO交換模塊，通過(guò)配置交換芯片的轉(zhuǎn)發(fā)ID可使處理節(jié)點(diǎn)間實(shí)現(xiàn)如圖3所示的不同的互聯(lián)拓?fù)?。通過(guò)SRIO switch可實(shí)現(xiàn)分布式處理節(jié)點(diǎn)的靈活擴(kuò)展，擴(kuò)展后的處理節(jié)點(diǎn)可實(shí)現(xiàn)處理能力、傳輸能力、儲(chǔ)存能力同比增加，因此基于SRIO網(wǎng)絡(luò)的互聯(lián)，使得該處理模塊具有很強(qiáng)的可擴(kuò)展性、可重構(gòu)性。

3．2．3 大容量的數(shù)據(jù)緩存

系統(tǒng)為分布式存儲(chǔ)系統(tǒng)，每個(gè)處理器通過(guò)自己的SDRAM控制器掛載獨(dú)立的SDRAM存儲(chǔ)。因此系統(tǒng)的數(shù)據(jù)緩存隨著處理器數(shù)目的增加成線性增長(zhǎng)。當(dāng)今的高性能處理器一般支持DDR3的控制器，而且隨著DDR3顆?？臻g的不斷增長(zhǎng)，處理器支持存儲(chǔ)空間也越來(lái)越來(lái)大（如TMS320C6678最多可以掛載8GB的DDR3 SDRAM），因此基于分布式存儲(chǔ)的多處理器并行處理系統(tǒng)可以輕松實(shí)現(xiàn)超大容量的數(shù)據(jù)緩存。

4 硬件設(shè)計(jì)實(shí)現(xiàn)

4.1 基于TMS320C6678的處理單元硬件設(shè)計(jì)實(shí)現(xiàn)

處理模塊為嵌入式高性能并行處理系統(tǒng)的核心。本文結(jié)合TI公司最新一代多核DSP—— TMS320C6678設(shè)計(jì)實(shí)現(xiàn)了多片多核DSP互聯(lián)的通用大容量存儲(chǔ)實(shí)時(shí)信號(hào)處理單元。

TMS320C6678是TI公司基于KeyStone多核處理器架構(gòu)的新一代多核DSP，也是目前處理性能最高的定點(diǎn)/浮點(diǎn)DSP。芯片集成了8個(gè)C66x? DSP內(nèi)核，內(nèi)核速率可達(dá)1.25GHz，單核定點(diǎn)運(yùn)算能力為40 GMAC @ 1.25 GHz，單核浮點(diǎn)運(yùn)算能力為20 GFLOP。Keystone架構(gòu)將RISC、DSP內(nèi)核以及協(xié)處理器和高速I(mǎi)O接口高效的集成在一起，同時(shí)，首次實(shí)現(xiàn)了處理器內(nèi)核、外設(shè)、協(xié)處理器以及IO接口的無(wú)阻塞訪問(wèn)。其實(shí)現(xiàn)高效集成和無(wú)阻塞訪問(wèn)主要基于四個(gè)主要的硬件單元：多核資源調(diào)度器，TeraNet交換器，多核共享內(nèi)存控制器以及最高速率可達(dá)50GBaud用于芯片級(jí)聯(lián)的Hyperlink接口。

基于多片C6678互聯(lián)的通用并行處理模塊板卡總體設(shè)計(jì)如圖4所示。板載4片C6678，每片DSP下掛8GB DDR3內(nèi)存，構(gòu)成高速處理單元。每片DSP分別與PCI-e交換芯片和Rapid IO交換芯片連接X(jué)2的PICe和X4的SRIO，兩片交換芯片與背板分別連接2個(gè)X4的PCIE和4個(gè)X4的SRIO。兩片DSP之間通過(guò)高速的Hyperlink實(shí)現(xiàn)互聯(lián)，為C6678提供高速數(shù)據(jù)傳輸通道。

由FPGA作為接口轉(zhuǎn)換器件，實(shí)現(xiàn)背板Link接口，RocketIO以及板內(nèi)RapidIO和PCIe總線之間的接口轉(zhuǎn)換，并編程實(shí)現(xiàn)FPDP和同步定時(shí)總線。同時(shí)，在實(shí)際應(yīng)用中，還可作為DSP的協(xié)處理器，對(duì)于一些復(fù)雜度較低，并行性要求較高的算法可先由FPGA進(jìn)行預(yù)處理，可大大提高板卡的處理速度。CPLD主要實(shí)現(xiàn)板卡電源監(jiān)控管理，復(fù)位管理，雜散邏輯控制等功能[8-9]。

圖4 板卡總體設(shè)計(jì)框圖

4.2 某實(shí)時(shí)信號(hào)處理系統(tǒng)硬件實(shí)現(xiàn)

基于TMS320C6678處理板卡，構(gòu)建了如圖5所示的某高性能嵌入式實(shí)時(shí)信號(hào)處理系統(tǒng)，系統(tǒng)由一塊IO板卡、10快4DSP處理板卡、一塊PowerPC主控板卡以及一塊SRIO交換板卡構(gòu)成。IO板卡通過(guò)多路光纖接受系統(tǒng)其他分機(jī)的數(shù)據(jù)后通過(guò)SRIO交換卡實(shí)現(xiàn)數(shù)據(jù)的分發(fā)，10塊4DSP處理板卡完成信號(hào)處理算法并行運(yùn)算。

系統(tǒng)主要采用基于包交換的高速串行Rapid IO作為主要的數(shù)據(jù)傳輸、交換通道，選用PCI Express、以太網(wǎng)作為主要的配置、管理通道，并且增加專門(mén)的同步定時(shí)總線(SYNC)用以系統(tǒng)內(nèi)同步定時(shí)。

處理模塊由10塊4DSP處理單板構(gòu)建，實(shí)現(xiàn)復(fù)雜的信號(hào)處理算法的高速并行運(yùn)算。處理模塊峰值處理能力達(dá)到6.4TFLOPs，總的數(shù)據(jù)緩存達(dá)到320GB DDR3 SDRAM。經(jīng)過(guò)典型SAR成像Specan算法驗(yàn)證，在該系統(tǒng)成功進(jìn)行并行算法映射后，算法中每步處理獲得的加速比都達(dá)到3.6以上，效率在90%以上，充分驗(yàn)證了該處理系統(tǒng)強(qiáng)大的并行處理能力。

圖5 高性能嵌入式實(shí)時(shí)信號(hào)處理系統(tǒng)總線互聯(lián)圖

5 總結(jié)

本文結(jié)合業(yè)界嵌入式并行處理系統(tǒng)的發(fā)展，對(duì)加速比擴(kuò)展分析的基礎(chǔ)上，提出一種分布式存儲(chǔ)的嵌入式高性能并行處理架構(gòu)，并基于該架構(gòu)在OpenVPX 6U平臺(tái)上開(kāi)發(fā)了基于TMS320C6678的多DSP的并行處理板，使用該板卡構(gòu)建了某高性能嵌入式實(shí)時(shí)信號(hào)處理系統(tǒng)。滿足大帶寬、大容量存儲(chǔ)、高處理性能的系統(tǒng)需求，能較好的適應(yīng)各種實(shí)時(shí)信號(hào)處理算法。充分驗(yàn)證了本文提出的基于分布式存儲(chǔ)的嵌入式高性能并行處理架構(gòu)具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)的特點(diǎn)。

[1]李方慧,王飛,何佩琨．TMS320C6000系列DSPs原理與應(yīng)用[M]．電子工業(yè)出版社,2005．

[2]Sam Fuller等著,王勇,林粵偉,吳冰冰等譯． RapidIO嵌入式系統(tǒng)互連[M]．電子工業(yè)出版社,2006．

[3]丁云霞,胡善清,龍騰．典型SAR算法在多核處理器上并行處理映射實(shí)現(xiàn)[J]．計(jì)算機(jī)工程與應(yīng)用,2012,48(S2)．

[4]楊俊,杜金榜,王躍科．基于FPGA和多DSP并行處理的可擴(kuò)展數(shù)字處理終端設(shè)計(jì)[J]．國(guó)防科技工業(yè)試驗(yàn)技術(shù)高層論壇,2007．

[5]TMS320C6678 Multicore Fixed and Floating-point Digital Signal Processor Data Manual，Novembwer 2010．

[6]DDR3 Design Requirements for KeyStone Devices，April 2011．

[7]KeyStone Architecture Peripheral Component Interconnect Express User Guide，December 2010．

[8]KeyStone Architecture Multicore Navigator User Guide，F(xiàn)ebruary 2011．

[9]Virtex-6 FPGA SelectIOResouces User Guide,August16,2010．

Design and Implementation of High-Performance Embedded Processing System Based on DSM

AnChangjun，ZhouJiajie，WeiBin，Gao Ming
（Jianghai Polytechnic College, Jiangsu.Yangzhou 225000）

In this paper, on the basis of detailed analysis about an extended speedupof the high-performance embedded parallel processing system, we propose a new parallel processingarchitecturebased on distributed storage, and then design a generic real-time signal processing card with multi DSPs of TMS320C6678. Finally, we construct a real-time signal processing system with multi cards. It validates the proposed architecture has standardized,modular, scalable, reconf i gurable features.

Speedup; distributed storage; multi-level interconnect; TMS320C6678

安長(zhǎng)?。?983—），男，江蘇揚(yáng)州人，碩士，江海職業(yè)技術(shù)學(xué)院講師，從事電氣自動(dòng)化技術(shù)教學(xué)與研究。