• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于分布式存儲(chǔ)的高性能嵌入式并行處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      2017-09-30 02:58:26江海職業(yè)技術(shù)學(xué)院安長(zhǎng)俊周家婕
      電子世界 2017年18期
      關(guān)鍵詞:板卡高性能嵌入式

      江海職業(yè)技術(shù)學(xué)院 安長(zhǎng)俊 周家婕 魏 斌 高 明

      基于分布式存儲(chǔ)的高性能嵌入式并行處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

      江海職業(yè)技術(shù)學(xué)院 安長(zhǎng)俊 周家婕 魏 斌 高 明

      本文在對(duì)嵌入式高性能并行處理系統(tǒng)加速比的數(shù)學(xué)模型拓展分析的基礎(chǔ)上,提出了一種當(dāng)今更適于高性能信號(hào)處理算法的基于分布式存儲(chǔ)的并行處理架構(gòu),并在此基礎(chǔ)上設(shè)計(jì)實(shí)現(xiàn)了基于TMS320C6678的多片多核DSP互聯(lián)的通用大容量存儲(chǔ)實(shí)時(shí)信號(hào)處理卡,使用該板卡構(gòu)建了某實(shí)時(shí)信號(hào)處理系統(tǒng)。驗(yàn)證了該架構(gòu)具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)的特點(diǎn)。驗(yàn)證了該系統(tǒng)強(qiáng)大的并行處理性能。

      加速比;分布式存儲(chǔ);多層次互聯(lián);TMS320C6678

      1 引言

      隨著VLSI技術(shù)的進(jìn)步,嵌入式并行處理系統(tǒng)得到了飛速的發(fā)展。廣泛應(yīng)用于航天、通信、醫(yī)療電子等領(lǐng)域。隨著應(yīng)用需求的不斷調(diào)高,對(duì)系統(tǒng)處理能力、存儲(chǔ)容量、傳輸帶寬的要求越來(lái)越高。采用更高性能處理器、更大存儲(chǔ)容量與更快讀寫(xiě)速度存儲(chǔ)器的設(shè)計(jì)方法已成為硬件系統(tǒng)設(shè)計(jì)的必然選擇[1]。而傳統(tǒng)的基于共享總線存儲(chǔ)的多處理器并行處理架構(gòu)受制于總線的負(fù)載能力有限、總線時(shí)鐘頻率無(wú)法進(jìn)一步提升以及總線訪問(wèn)競(jìng)爭(zhēng)等問(wèn)題,使得并行處理加速比無(wú)法隨著處理器數(shù)量增加而進(jìn)一步提高,大大限制了并行處理系統(tǒng)處理效率的發(fā)揮。因此本文在詳細(xì)分析了加速比及效率的數(shù)學(xué)模型的基礎(chǔ)上,提出了一種基于高速串行總線互聯(lián)的分布式存儲(chǔ)的并行處理架構(gòu),并基于TI公司新一代多核DSP——TMS320C6678,設(shè)計(jì)實(shí)現(xiàn)了多片多核DSP互聯(lián)的并行處理單板,可實(shí)現(xiàn)根據(jù)系統(tǒng)處理能力需求靈活擴(kuò)展處理節(jié)點(diǎn),增縮系統(tǒng)規(guī)模,具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)等優(yōu)點(diǎn)。最后,使用該模塊構(gòu)建了高性能的信號(hào)處理系統(tǒng),充分驗(yàn)證了系統(tǒng)強(qiáng)大的并行處理性能[2-4]。

      2 加速比模型分析

      加速比是反映系統(tǒng)并行處理能力發(fā)揮程度的指標(biāo)??紤]固定大小的加速比模型即Amdahl定律,如公式(1)所示,其中T(1)為單獨(dú)使用1個(gè)處理器進(jìn)行處理所需的時(shí)間,T(N)為使用P個(gè)處理并行處理所需的時(shí)間:

      結(jié)合典型處理算法的固有特點(diǎn),對(duì)(1)式進(jìn)行擴(kuò)展性分析??紤]并行處理過(guò)程中的主要時(shí)間開(kāi)銷包括同步時(shí)間Tsync以及數(shù)據(jù)傳輸時(shí)間Tcom,可得因此擴(kuò)展后的加速比模型如式公式(2)所示:

      設(shè)某算法總的運(yùn)算浮點(diǎn)數(shù)為I,系統(tǒng)內(nèi)處理器的處理速度為P;

      該算法的串行瓶頸為δ,即算法中只能串行運(yùn)算的部分,那么并行運(yùn)算的部分即為1—δ;

      整個(gè)算法所需的同步次數(shù)為M,且每次同步時(shí)間為tsync;

      每個(gè)處理器每次同步需要交互的數(shù)據(jù)量為W,互聯(lián)總線帶寬為B。

      數(shù)據(jù)傳輸?shù)牟⑿卸葹棣粒?/p>

      則:

      帶入(2)式中可得:

      并行效率:

      如(6)式所示,對(duì)于一個(gè)并行度一定的算法,其同步和數(shù)據(jù)交互的時(shí)間開(kāi)銷將會(huì)嚴(yán)重影響并行系統(tǒng)的加速比。若忽略同步開(kāi)銷的影響,對(duì)于傳統(tǒng)的共享總線的并行架構(gòu),因共享總線,因此各個(gè)處理器的數(shù)據(jù)存儲(chǔ)及傳輸只能串行執(zhí)行,因此α=0,可得共享總線其加速比:

      由(8)(9)兩式可以看出隨著著并行互聯(lián)的處理器數(shù)量的增加,受制于總線帶負(fù)載能力,總線帶寬必定減小,因此數(shù)據(jù)傳輸?shù)拈_(kāi)銷將嚴(yán)重影響系統(tǒng)加速比及效率。而且,可并行擴(kuò)展的處理器數(shù)目有限,構(gòu)建大型處理系統(tǒng)時(shí)比較困難。因此,共享總線的并行處理架構(gòu)越來(lái)越不能滿系統(tǒng)需求。

      根據(jù)公式(6)為進(jìn)一步增大并行處理系統(tǒng)的加速比提高其并行處理效率,充分發(fā)揮處理系統(tǒng)性能,我們必須:

      (1)盡可能減小串行瓶頸因子δ,主要依靠算法架構(gòu)設(shè)計(jì)優(yōu)化實(shí)現(xiàn);

      (2)增大數(shù)據(jù)傳輸并行度α;

      (3)增大數(shù)據(jù)傳輸帶寬B;

      (4)減小同步時(shí)間開(kāi)銷。

      因此,構(gòu)建如圖1的分布式存儲(chǔ)的并行處理架構(gòu)。采用基于包交換的高速串行總線如SRIO、PCIE等作為處理器間的數(shù)據(jù)傳輸通路以增大數(shù)據(jù)并行傳輸因數(shù)α,增大數(shù)據(jù)傳輸帶寬B;增加專門(mén)SYNC總線以減小同步時(shí)間開(kāi)銷。

      圖1 基于高速串行總線的分布式存儲(chǔ)并行互聯(lián)架構(gòu)

      3 分布式存儲(chǔ)并行處理系統(tǒng)設(shè)計(jì)

      3.1 總體架構(gòu)設(shè)計(jì)

      基于以上分布式存儲(chǔ)并行處理架構(gòu)的分析,構(gòu)建基于模塊化的高性能嵌入式并行處理系統(tǒng),系統(tǒng)總體設(shè)計(jì)如圖2所示:

      圖2 系統(tǒng)總體架構(gòu)圖

      系統(tǒng)主要包括IO模塊、網(wǎng)絡(luò)交換模塊、處理模塊、主控模塊。

      1)主控模塊:該模塊是由單板計(jì)算機(jī)(SBC)構(gòu)建。主要用來(lái)完成系統(tǒng)內(nèi)PCIE EP設(shè)備的枚舉,實(shí)現(xiàn)系統(tǒng)PCIE網(wǎng)絡(luò)的組建。提供人家接口、圖形化界面,通過(guò)PCIE網(wǎng)絡(luò)或以太網(wǎng)實(shí)現(xiàn)對(duì)系統(tǒng)內(nèi)設(shè)備進(jìn)行管理與維護(hù)。同時(shí)負(fù)責(zé)完成系統(tǒng)任務(wù)分配、參數(shù)初始化等功能。另外, 還可使用主控模塊進(jìn)行特定的輔助數(shù)據(jù)處理。

      2)I/O模塊:該模塊主要主要完成處理系統(tǒng)與外部其系統(tǒng)互聯(lián)。一般由大型FPGA構(gòu)建,主要由包括IO接口單元和IO控制單元。IO接口單元實(shí)現(xiàn)各類傳輸接口如ADC、DAC、光纖輸入輸出接口等;IO控制單元實(shí)現(xiàn)數(shù)據(jù)的分發(fā)以及同步定時(shí)功能。

      3)網(wǎng)絡(luò)交換模塊:該模塊主要實(shí)現(xiàn)第三代基于包交換的高速串行總線的數(shù)據(jù)交換,例如SRIO、PCIE和千兆以太網(wǎng)。為系統(tǒng)內(nèi)各個(gè)處理節(jié)點(diǎn)提供高速無(wú)阻塞的數(shù)據(jù)傳輸通道。

      4)處理模塊:處理模塊為該嵌入式高性能并行處理系統(tǒng)的核心。由若干基于分布式存儲(chǔ)的高性能處理器互聯(lián)組成。處理器一般為適于嵌入式系統(tǒng)處理的DSP、FPGA等。多處理器間通過(guò)基于包交換的第三代高速串行總線(如SRIO)實(shí)現(xiàn)互聯(lián),可輕松實(shí)現(xiàn)多處理器的擴(kuò)展。同時(shí),還可根據(jù)具體處理器外圍接口的不同構(gòu)建處理器間LINKs,為多處理器間的數(shù)據(jù)交互提供通路。

      如上所述的基于模塊化構(gòu)建的高性能并行處理系統(tǒng),具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)的特點(diǎn)。系統(tǒng)可根據(jù)各類應(yīng)用的具體需求靈活增減各個(gè)模塊規(guī)模以構(gòu)建不同性能的系統(tǒng)。

      3.2 架構(gòu)特點(diǎn)分析

      3.2.1 多層次的互聯(lián)網(wǎng)絡(luò)

      系統(tǒng)中引入了三種不同特性的互聯(lián)方式實(shí)現(xiàn)系統(tǒng)內(nèi)各個(gè)單元的互聯(lián),包括:

      (1)基于點(diǎn)對(duì)點(diǎn)互聯(lián)的高速串行總線互聯(lián)(如SRIO、PCIE)為各個(gè)處理節(jié)點(diǎn)提供大帶寬的數(shù)據(jù)傳輸通道;

      (2)千兆以太網(wǎng)互聯(lián),實(shí)現(xiàn)系統(tǒng)低速、非實(shí)時(shí)的控制數(shù)據(jù)流傳輸;

      (3)同步定時(shí)總線實(shí)現(xiàn)系統(tǒng)內(nèi)各個(gè)處理節(jié)點(diǎn)的同步定時(shí)。不同的互聯(lián)方式實(shí)現(xiàn)不同類型數(shù)據(jù)傳輸?shù)男枨螅ㄟ^(guò)三種不同層次的互聯(lián)網(wǎng)絡(luò)實(shí)現(xiàn)系統(tǒng)中無(wú)阻塞的數(shù)據(jù)交換[5-7]。

      圖3 多種類的SRIO互聯(lián)拓?fù)涫疽鈭D

      3.2.2 靈活多變的互聯(lián)拓?fù)?/p>

      使用SRIO互聯(lián)網(wǎng)絡(luò)作為主要的數(shù)據(jù)傳輸通道可實(shí)現(xiàn)系統(tǒng)中處理節(jié)點(diǎn)的靈活擴(kuò)展。借助于專用SRIO交換模塊,通過(guò)配置交換芯片的轉(zhuǎn)發(fā)ID可使處理節(jié)點(diǎn)間實(shí)現(xiàn)如圖3所示的不同的互聯(lián)拓?fù)?。通過(guò)SRIO switch可實(shí)現(xiàn)分布式處理節(jié)點(diǎn)的靈活擴(kuò)展,擴(kuò)展后的處理節(jié)點(diǎn)可實(shí)現(xiàn)處理能力、傳輸能力、儲(chǔ)存能力同比增加,因此基于SRIO網(wǎng)絡(luò)的互聯(lián),使得該處理模塊具有很強(qiáng)的可擴(kuò)展性、可重構(gòu)性。

      3.2.3 大容量的數(shù)據(jù)緩存

      系統(tǒng)為分布式存儲(chǔ)系統(tǒng),每個(gè)處理器通過(guò)自己的SDRAM控制器掛載獨(dú)立的SDRAM存儲(chǔ)。因此系統(tǒng)的數(shù)據(jù)緩存隨著處理器數(shù)目的增加成線性增長(zhǎng)。當(dāng)今的高性能處理器一般支持DDR3的控制器,而且隨著DDR3顆??臻g的不斷增長(zhǎng),處理器支持存儲(chǔ)空間也越來(lái)越來(lái)大(如TMS320C6678最多可以掛載8GB的DDR3 SDRAM),因此基于分布式存儲(chǔ)的多處理器并行處理系統(tǒng)可以輕松實(shí)現(xiàn)超大容量的數(shù)據(jù)緩存。

      4 硬件設(shè)計(jì)實(shí)現(xiàn)

      4.1 基于TMS320C6678的處理單元硬件設(shè)計(jì)實(shí)現(xiàn)

      處理模塊為嵌入式高性能并行處理系統(tǒng)的核心。本文結(jié)合TI公司最新一代多核DSP—— TMS320C6678設(shè)計(jì)實(shí)現(xiàn)了多片多核DSP互聯(lián)的通用大容量存儲(chǔ)實(shí)時(shí)信號(hào)處理單元。

      TMS320C6678是TI公司基于KeyStone多核處理器架構(gòu)的新一代多核DSP,也是目前處理性能最高的定點(diǎn)/浮點(diǎn)DSP。芯片集成了8個(gè)C66x? DSP內(nèi)核,內(nèi)核速率可達(dá)1.25GHz,單核定點(diǎn)運(yùn)算能力為40 GMAC @ 1.25 GHz,單核浮點(diǎn)運(yùn)算能力為20 GFLOP。Keystone架構(gòu)將RISC、DSP內(nèi)核以及協(xié)處理器和高速I(mǎi)O接口高效的集成在一起,同時(shí),首次實(shí)現(xiàn)了處理器內(nèi)核、外設(shè)、協(xié)處理器以及IO接口的無(wú)阻塞訪問(wèn)。其實(shí)現(xiàn)高效集成和無(wú)阻塞訪問(wèn)主要基于四個(gè)主要的硬件單元:多核資源調(diào)度器,TeraNet交換器,多核共享內(nèi)存控制器以及最高速率可達(dá)50GBaud用于芯片級(jí)聯(lián)的Hyperlink接口。

      基于多片C6678互聯(lián)的通用并行處理模塊板卡總體設(shè)計(jì)如圖4所示。板載4片C6678,每片DSP下掛8GB DDR3內(nèi)存,構(gòu)成高速處理單元。每片DSP分別與PCI-e交換芯片和Rapid IO交換芯片連接X(jué)2的PICe和X4的SRIO,兩片交換芯片與背板分別連接2個(gè)X4的PCIE和4個(gè)X4的SRIO。兩片DSP之間通過(guò)高速的Hyperlink實(shí)現(xiàn)互聯(lián),為C6678提供高速數(shù)據(jù)傳輸通道。

      由FPGA作為接口轉(zhuǎn)換器件,實(shí)現(xiàn)背板Link接口,RocketIO以及板內(nèi)RapidIO和PCIe總線之間的接口轉(zhuǎn)換,并編程實(shí)現(xiàn)FPDP和同步定時(shí)總線。同時(shí),在實(shí)際應(yīng)用中,還可作為DSP的協(xié)處理器,對(duì)于一些復(fù)雜度較低,并行性要求較高的算法可先由FPGA進(jìn)行預(yù)處理,可大大提高板卡的處理速度。CPLD主要實(shí)現(xiàn)板卡電源監(jiān)控管理,復(fù)位管理,雜散邏輯控制等功能[8-9]。

      圖4 板卡總體設(shè)計(jì)框圖

      4.2 某實(shí)時(shí)信號(hào)處理系統(tǒng)硬件實(shí)現(xiàn)

      基于TMS320C6678處理板卡,構(gòu)建了如圖5所示的某高性能嵌入式實(shí)時(shí)信號(hào)處理系統(tǒng),系統(tǒng)由一塊IO板卡、10快4DSP處理板卡、一塊PowerPC主控板卡以及一塊SRIO交換板卡構(gòu)成。IO板卡通過(guò)多路光纖接受系統(tǒng)其他分機(jī)的數(shù)據(jù)后通過(guò)SRIO交換卡實(shí)現(xiàn)數(shù)據(jù)的分發(fā),10塊4DSP處理板卡完成信號(hào)處理算法并行運(yùn)算。

      系統(tǒng)主要采用基于包交換的高速串行Rapid IO作為主要的數(shù)據(jù)傳輸、交換通道,選用PCI Express、以太網(wǎng)作為主要的配置、管理通道,并且增加專門(mén)的同步定時(shí)總線(SYNC)用以系統(tǒng)內(nèi)同步定時(shí)。

      處理模塊由10塊4DSP處理單板構(gòu)建,實(shí)現(xiàn)復(fù)雜的信號(hào)處理算法的高速并行運(yùn)算。處理模塊峰值處理能力達(dá)到6.4TFLOPs,總的數(shù)據(jù)緩存達(dá)到320GB DDR3 SDRAM。經(jīng)過(guò)典型SAR成像Specan算法驗(yàn)證,在該系統(tǒng)成功進(jìn)行并行算法映射后,算法中每步處理獲得的加速比都達(dá)到3.6以上,效率在90%以上,充分驗(yàn)證了該處理系統(tǒng)強(qiáng)大的并行處理能力。

      圖5 高性能嵌入式實(shí)時(shí)信號(hào)處理系統(tǒng)總線互聯(lián)圖

      5 總結(jié)

      本文結(jié)合業(yè)界嵌入式并行處理系統(tǒng)的發(fā)展,對(duì)加速比擴(kuò)展分析的基礎(chǔ)上,提出一種分布式存儲(chǔ)的嵌入式高性能并行處理架構(gòu),并基于該架構(gòu)在OpenVPX 6U平臺(tái)上開(kāi)發(fā)了基于TMS320C6678的多DSP的并行處理板,使用該板卡構(gòu)建了某高性能嵌入式實(shí)時(shí)信號(hào)處理系統(tǒng)。滿足大帶寬、大容量存儲(chǔ)、高處理性能的系統(tǒng)需求,能較好的適應(yīng)各種實(shí)時(shí)信號(hào)處理算法。充分驗(yàn)證了本文提出的基于分布式存儲(chǔ)的嵌入式高性能并行處理架構(gòu)具有標(biāo)準(zhǔn)化、模塊化、可擴(kuò)展、可重構(gòu)的特點(diǎn)。

      [1]李方慧,王飛,何佩琨.TMS320C6000系列DSPs原理與應(yīng)用[M].電子工業(yè)出版社,2005.

      [2]Sam Fuller等著,王勇,林粵偉,吳冰冰等譯. RapidIO嵌入式系統(tǒng)互連[M].電子工業(yè)出版社,2006.

      [3]丁云霞,胡善清,龍騰.典型SAR算法在多核處理器上并行處理映射實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(S2).

      [4]楊俊,杜金榜,王躍科.基于FPGA和多DSP并行處理的可擴(kuò)展數(shù)字處理終端設(shè)計(jì)[J].國(guó)防科技工業(yè)試驗(yàn)技術(shù)高層論壇,2007.

      [5]TMS320C6678 Multicore Fixed and Floating-point Digital Signal Processor Data Manual,Novembwer 2010.

      [6]DDR3 Design Requirements for KeyStone Devices,April 2011.

      [7]KeyStone Architecture Peripheral Component Interconnect Express User Guide,December 2010.

      [8]KeyStone Architecture Multicore Navigator User Guide,F(xiàn)ebruary 2011.

      [9]Virtex-6 FPGA SelectIOResouces User Guide,August16,2010.

      Design and Implementation of High-Performance Embedded Processing System Based on DSM

      AnChangjun,ZhouJiajie,WeiBin,Gao Ming
      (Jianghai Polytechnic College, Jiangsu.Yangzhou 225000)

      In this paper, on the basis of detailed analysis about an extended speedupof the high-performance embedded parallel processing system, we propose a new parallel processingarchitecturebased on distributed storage, and then design a generic real-time signal processing card with multi DSPs of TMS320C6678. Finally, we construct a real-time signal processing system with multi cards. It validates the proposed architecture has standardized,modular, scalable, reconf i gurable features.

      Speedup; distributed storage; multi-level interconnect; TMS320C6678

      安長(zhǎng)?。?983—),男,江蘇揚(yáng)州人,碩士,江海職業(yè)技術(shù)學(xué)院講師,從事電氣自動(dòng)化技術(shù)教學(xué)與研究。

      猜你喜歡
      板卡高性能嵌入式
      基于PCI9054的多總線通信板卡的研制
      基于FPGA的多通道模擬量采集/輸出PCI板卡的研制
      搭建基于Qt的嵌入式開(kāi)發(fā)平臺(tái)
      一款高性能BGO探測(cè)器的研發(fā)
      電子制作(2017年19期)2017-02-02 07:08:49
      嵌入式軟PLC在電鍍生產(chǎn)流程控制系統(tǒng)中的應(yīng)用
      高性能砼在橋梁中的應(yīng)用
      一種基于光纖數(shù)據(jù)傳輸?shù)亩喟蹇ㄜ浖绦驘龑?xiě)技術(shù)
      SATA推出全新高性能噴槍SATAjet 5000 B
      高性能可變進(jìn)氣岐管降低二氧化碳排放
      汽車零部件(2014年8期)2014-12-28 02:03:03
      Altera加入嵌入式視覺(jué)聯(lián)盟
      句容市| 蒙城县| 鄂温| 思茅市| 青田县| 桂平市| 论坛| 揭西县| 元朗区| 萝北县| 桐柏县| 咸阳市| 隆林| 靖西县| 会同县| 和田县| 金平| 荣成市| 天台县| 治县。| 巨鹿县| 炎陵县| 石阡县| 襄城县| 股票| 寻乌县| 汽车| 新野县| 磐石市| 漠河县| 自治县| 黔南| 定西市| 呈贡县| 金堂县| 德江县| 湘潭县| 青浦区| 渑池县| 高邑县| 颍上县|