高分辨率滑動(dòng)聚束SAR BP成像及其異構(gòu)并行實(shí)現(xiàn)

2017-09-15 08:58:14唐江文鄧云凱王宇趙碩李

雷達(dá)學(xué)報(bào) 2017年4期

關(guān)鍵詞：高分辨率線程異構(gòu)

唐江文鄧云凱王宇趙碩李寧*

①(中國(guó)科學(xué)院電子學(xué)研究所北京 100190)

②(中國(guó)科學(xué)院大學(xué) 北京 100049)

高分辨率滑動(dòng)聚束SAR BP成像及其異構(gòu)并行實(shí)現(xiàn)

唐江文①②鄧云凱①王宇①趙碩①②李寧*①

①(中國(guó)科學(xué)院電子學(xué)研究所北京 100190)

②(中國(guó)科學(xué)院大學(xué) 北京 100049)

當(dāng)前高分辨率合成孔徑雷達(dá)對(duì)成像算法以及計(jì)算能力都提出了巨大挑戰(zhàn)，滑動(dòng)聚束是實(shí)現(xiàn)高分辨率的一種重要模式，它能夠同時(shí)兼顧高分辨率和方位向?qū)挏y(cè)繪帶。在滑動(dòng)聚束模式下，受軌道彎曲、調(diào)頻率時(shí)變等影響，傳統(tǒng)的頻域成像算法的聚焦性能會(huì)下降，為突破這種局限性，該文采用BP(Back-Projection)算法進(jìn)行精確成像，并針對(duì)BP算法O()的高計(jì)算復(fù)雜度提出了一種基于CPU/GPU異構(gòu)計(jì)算平臺(tái)的高效并行算法，充分利用了計(jì)算機(jī)的計(jì)算資源，提高了成像效率，其中調(diào)度線程的設(shè)計(jì)，也提高了成像的靈活性。

合成孔徑雷達(dá)；滑動(dòng)聚束；后向投影算法；異構(gòu)并行計(jì)算

1 引言

合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)是一種通過(guò)孔徑合成實(shí)現(xiàn)方位向高分辨率的雷達(dá)遙感技術(shù)。盡管SAR的概念自提出至今已經(jīng)幾十年，但由于涉及到了微波、電子、信號(hào)處理、地球物理、地形測(cè)繪、航空航天等多個(gè)領(lǐng)域，學(xué)術(shù)界對(duì)SAR的研究一直熱情不減。不同于傳統(tǒng)光學(xué)遙感，SAR一般工作在微波頻段，具備全天時(shí)、全天候的測(cè)繪能力，在軍事領(lǐng)域和民用領(lǐng)域均有廣泛應(yīng)用。隨著近些年來(lái)計(jì)算機(jī)技術(shù)的飛速發(fā)展，信號(hào)處理能力持續(xù)增強(qiáng)，SAR在朝著更高分辨率更寬測(cè)繪帶不斷發(fā)展[1]。

滑動(dòng)聚束(Slide Spotlight)模式是一種兼顧方位向高分辨率和方位向幅寬的工作模式。這種模式在雷達(dá)平臺(tái)飛行過(guò)程中通過(guò)不斷地調(diào)整雷達(dá)波束指向(機(jī)械轉(zhuǎn)動(dòng)或者饋電掃描)，來(lái)增大方位向多普勒合成帶寬，從而提升SAR的方位向分辨率。當(dāng)前眾多SAR系統(tǒng)已經(jīng)采用了滑動(dòng)聚束模式，比如TerraSARX[2,3]。滑動(dòng)聚束模式的成像一般先進(jìn)行一步去斜(Deramp)操作，然后用常用的頻域成像算法進(jìn)行聚焦[4,5]。然而，當(dāng)成像要求的分辨率不斷提高，方位向幅寬不斷增大時(shí)，頻域成像方法難以保證可靠的成像性能，尤其是在邊緣區(qū)域，目標(biāo)性能會(huì)惡化得更為嚴(yán)重。

BP(Back-Projection，后向投影)成像算法[6,7]，是一種適用于多種SAR工作模式的時(shí)域成像方法。這種成像方法源自于計(jì)算機(jī)層析成像技術(shù)(Computed Tomography)，它可以綜合不同角度對(duì)一個(gè)物體的X射線掃描結(jié)果，反演物體的內(nèi)部結(jié)構(gòu)。當(dāng)BP算法應(yīng)用于SAR成像時(shí)，由于它是時(shí)域的，所以可以適應(yīng)方位向多普勒中心的時(shí)變性，適用于包括滑動(dòng)聚束在內(nèi)的多種SAR工作模式，除此之外，BP算法可以通過(guò)增大減小方位向的累加區(qū)間方便地調(diào)整方位向處理帶寬，還可以靈活地選取成像區(qū)域的像素間隔。不過(guò)，由于BP算法是逐像素處理算法，因此算法復(fù)雜度較高，為O(N3)，而一般頻域算法的算法復(fù)雜度為O(N2logN)，較高的計(jì)算負(fù)擔(dān)成為了BP算法廣泛應(yīng)用的障礙。

近些年來(lái)，GPU(Graphics Processing Unit,圖形處理器)[8]作為一種高性能的并行浮點(diǎn)處理器，實(shí)現(xiàn)了從傳統(tǒng)單一的3D圖形處理到圖形處理、通用計(jì)算兼?zhèn)涞闹卮筠D(zhuǎn)變，大大推進(jìn)了GPGPU (General-Purpose computing on Graphics Processing Units,GPU通用計(jì)算)的發(fā)展，降低了GPGPU的使用門(mén)檻。得益于海量的核心數(shù)目，GPU通常擁有十幾倍到數(shù)十倍于CPU的浮點(diǎn)計(jì)算能力，應(yīng)用于不同領(lǐng)域的越來(lái)越多的程序，比如電磁仿真、計(jì)算化學(xué)、機(jī)器學(xué)習(xí)等[9,10]，被遷移到GPU平臺(tái)以實(shí)現(xiàn)算法加速，同樣BP成像算法的GPU實(shí)現(xiàn)也被多次提出[11,12]。目前，隨著GPU使用越發(fā)廣泛，更多的注意力轉(zhuǎn)移到如何實(shí)現(xiàn)CPU和GPU的異構(gòu)并行程序設(shè)計(jì)，在SAR成像相關(guān)領(lǐng)域已經(jīng)有了一些嘗試，并取得了不錯(cuò)的效果[13,14]。

本文主要內(nèi)容有兩點(diǎn)：一是，利用BP成像算法克服頻域成像算法的局限性，實(shí)現(xiàn)滑動(dòng)聚束方位向?qū)挏y(cè)繪帶情況下，中心區(qū)域以及場(chǎng)景邊緣區(qū)域的良好聚焦；二是，當(dāng)前CPU仍然是不可忽視的計(jì)算力量，通過(guò)線程協(xié)調(diào)，給GPU和CPU合理分配計(jì)算任務(wù)，發(fā)揮GPU強(qiáng)大計(jì)算能力的同時(shí)，不閑置CPU的計(jì)算能力，本文設(shè)計(jì)并實(shí)現(xiàn)了CPU/GPU異構(gòu)平臺(tái)的BP成像算法，使計(jì)算資源得到充分利用，并提高了成像靈活性。

2 滑動(dòng)聚束模式

滑動(dòng)聚束模式是一種介于條帶SAR和聚束SAR的工作模式，它同時(shí)兼顧了方位向高分辨率和方位向幅寬，圖1是滑動(dòng)聚束模式SAR斜距平面的幾何關(guān)系圖，雷達(dá)平臺(tái)沿x正方向飛行，起點(diǎn)為x1，終點(diǎn)為x2，場(chǎng)景中心目標(biāo)位于軸，x軸與軸的零點(diǎn)對(duì)齊，并且雷達(dá)波束中心凝視點(diǎn)A在兩個(gè)零點(diǎn)連線的延長(zhǎng)線上。x軸和軸的垂直距離為r,A點(diǎn)到x軸的垂直距離為R，當(dāng)R=r時(shí)，該示意圖表示的就是聚束模式SAR，當(dāng)R=+時(shí)，該示意圖表示的就是條帶模式SAR。雷達(dá)平臺(tái)運(yùn)動(dòng)過(guò)程中，波束視線和OA的夾角為q(又稱掃描角)，雷達(dá)天線3 dB波束寬度為qw。

滑動(dòng)聚束SAR一般先進(jìn)行一步Deramp操作，實(shí)現(xiàn)方位向各目標(biāo)多普勒中心的一致化，同時(shí)Deramp操作也降低了滑動(dòng)聚束SAR對(duì)PRF的要求。在方位向幅寬不大或者說(shuō)滑動(dòng)聚束模式的掃描角變化不大的情況下，Deramp結(jié)合常規(guī)成像算法可以很好地實(shí)現(xiàn)聚焦，但當(dāng)掃描角變化較大時(shí)，尤其是在星載情形下，上述處理方案就很難保證在整個(gè)方位向幅寬范圍達(dá)成一致的良好聚焦效果。比如TerraSAR-X的滑動(dòng)聚束模式[15]，它的掃描角控制在–2.2°～2.2°范圍之間，如果范圍過(guò)大，邊緣處的聚焦效果就會(huì)惡化。這是因?yàn)?，?dāng)掃描角過(guò)大時(shí)，一方面會(huì)遇到類(lèi)似于大斜視角成像的問(wèn)題，即距離徙動(dòng)變大，距離徙動(dòng)矯正比較困難，且方位向和距離向耦合強(qiáng)烈，加劇了成像處理的復(fù)雜性；另一方面，由于數(shù)據(jù)獲取時(shí)間內(nèi)軌道彎曲及地球自轉(zhuǎn)效應(yīng)會(huì)更明顯，將導(dǎo)致成像參數(shù)如方位向調(diào)頻率等發(fā)生變化，也加劇了成像的困難性[16]。

3 BP成像算法

BP成像算法是一種適用性很強(qiáng)的時(shí)域成像算法。假設(shè)s(t,u)為距離向壓縮后的回波信號(hào)，t為距離向時(shí)間，u為方位向時(shí)間，R(u)為成像目標(biāo)位置x到SAR天線相位中心xorbit(u)的斜距，x處的成像結(jié)果g(x)如式(1)所示。

從公式可以看出BP成像的基本步驟如下：

步驟1 對(duì)回波進(jìn)行距離向壓縮，通過(guò)卷積相應(yīng)的匹配濾波器，實(shí)現(xiàn)回波的距離向聚焦。在文獻(xiàn)[7]中也給出了2維的BP成像方法，即不進(jìn)行距離向壓縮，對(duì)距離向和方位向都進(jìn)行后向投影操作，但是2維的計(jì)算復(fù)雜度過(guò)高，為O(N4)，一般不采用這種方法。

步驟2 對(duì)于一個(gè)成像目標(biāo)，計(jì)算其到每一個(gè)PRF時(shí)刻雷達(dá)天線相位中心的斜距，并根據(jù)該斜距在相應(yīng)的回波數(shù)據(jù)中進(jìn)行插值。一般常用的插值操作有兩種，一是利用FFT作升采樣后取值，另一種是利用sinc函數(shù)進(jìn)行插值，本文采用FFT升采樣的方法，這樣就可以使用現(xiàn)有的FFT數(shù)學(xué)庫(kù)進(jìn)行快速計(jì)算[17]。

步驟3 對(duì)每一個(gè)插值得到的數(shù)據(jù)，根據(jù)其斜距補(bǔ)償相應(yīng)的相位。由于回波數(shù)據(jù)接收過(guò)程中進(jìn)行了混頻操作，混頻之后，數(shù)據(jù)中殘留了沿方位向變化的相位，因此需要對(duì)該相位進(jìn)行相應(yīng)的補(bǔ)償。

步驟4 將補(bǔ)償后的值進(jìn)行累加，就完成了該目標(biāo)的成像，重復(fù)以上步驟，就可以實(shí)現(xiàn)對(duì)成像區(qū)域每個(gè)像素點(diǎn)的成像。

將BP算法用流程圖表示，即如圖2所示。

圖2 BP算法流程圖Fig.2 BP algorithm flowchart

由于BP算法是時(shí)域算法，它很好地避免了頻域成像算法遇到的一些問(wèn)題。

(1) 距離徙動(dòng)問(wèn)題：BP算法不需要將數(shù)據(jù)變換到頻域，因此可以根據(jù)目標(biāo)各個(gè)時(shí)刻的斜距精確確定目標(biāo)的徙動(dòng)軌跡，圖3展示了BP成像算法通過(guò)對(duì)斜距的計(jì)算可以很好地適應(yīng)目標(biāo)的徙動(dòng)軌跡。

(2) 方位向調(diào)頻率問(wèn)題：方位向調(diào)頻率沿方位向和距離向都是時(shí)變的，頻域算法很難適應(yīng)時(shí)變信號(hào)的處理。而B(niǎo)P算法是時(shí)域算法，它針對(duì)每個(gè)像素的斜距計(jì)算，本質(zhì)上就是在適應(yīng)方位向調(diào)頻率的時(shí)變性。

(3) 方位向和距離向耦合：耦合的出現(xiàn)，本身來(lái)自于處理域的變換，BP本身在時(shí)域進(jìn)行處理，不需要進(jìn)行處理域的變換，因此也不存在頻域算法所遇到的耦合問(wèn)題。

綜上可知，BP成像算法理論上可以在更大的方位向幅寬內(nèi)實(shí)現(xiàn)一致的點(diǎn)目標(biāo)聚焦性能。然而B(niǎo)P成像算法的最大障礙來(lái)自于其算法復(fù)雜度。對(duì)于N×N個(gè)像素的成像區(qū)域，假設(shè)其合成孔徑的點(diǎn)數(shù)也是N，那么每一個(gè)像素需要進(jìn)行N次斜距計(jì)算，N次插值，N次相位補(bǔ)償，最后需要將得到的N個(gè)值進(jìn)行累加。所以，算法的整體計(jì)算復(fù)雜度為O(N3)。而頻域算法一般使用FFT進(jìn)行計(jì)算，其算法復(fù)雜度為O(N2logN)，相比而言，BP算法的算法復(fù)雜度更高，其運(yùn)算速度成為研究領(lǐng)域廣泛關(guān)注的問(wèn)題。

圖3 BP算法精確沿徙動(dòng)軌跡相干累加Fig.3 BP algorithm adds values coherently along the accurate trajectory of range migration

4 CPU/GPU異構(gòu)計(jì)算平臺(tái)

近些年來(lái)，GPU以及基于GPU平臺(tái)提出的GPGPU技術(shù)得到了研究人員的廣泛關(guān)注。GPU本是3D圖形處理器，用來(lái)進(jìn)行3D場(chǎng)景的加速渲染，早期其內(nèi)部指令是固定的，被稱作固定管線，只能實(shí)現(xiàn)3D圖形的頂點(diǎn)、深度、紋理、柵格化等固定渲染功能。后來(lái)，固定管線發(fā)展成為可編程管線，管線的處理功能可以通過(guò)相應(yīng)的著色語(yǔ)言(如GLSL,HLSL)進(jìn)行著色編程，之后Nvidia公司還開(kāi)發(fā)了CG語(yǔ)言，簡(jiǎn)化了著色程序的編程負(fù)擔(dān)。這個(gè)時(shí)期，GPU通用計(jì)算的概念GPGPU已經(jīng)初步提出，很多通用計(jì)算程序?qū)?shù)據(jù)等效為3D圖形處理中的頂點(diǎn)信息，配合著色編程，實(shí)現(xiàn)通用計(jì)算的目的[18]。

隨著越來(lái)越多通用計(jì)算的需求被提出，GPU生產(chǎn)廠商在可編程管線的通用計(jì)算方面投入了大量精力。其中Nvidia公司的CUDA(Compute Unified Device Architecture)架構(gòu)無(wú)疑是最受矚目的劃時(shí)代產(chǎn)品，隨之推出的CUDA C語(yǔ)言，引起大規(guī)模并行計(jì)算相關(guān)領(lǐng)域的強(qiáng)烈反響。CUDA C使得GPGPU編程徹底擺脫了3D圖形的束縛，極大降低了GPGPU的編程門(mén)檻[19]。

GPU強(qiáng)大的計(jì)算能力源自于幾個(gè)方面，最主要的兩點(diǎn)，一是海量的計(jì)算核心，一般CPU只有幾個(gè)或者十幾個(gè)計(jì)算核心，而GPU的計(jì)算核心可以達(dá)到上千個(gè)，雖然主頻不及CPU，但上千核心并行工作的計(jì)算能力也遠(yuǎn)在CPU之上；二是，GPU的顯存吞吐能力驚人，現(xiàn)在的GPU普遍采用GDDR5顯存，其時(shí)鐘頻率數(shù)倍于CPU用的內(nèi)存時(shí)鐘頻率，而且GPU使用的顯存位寬很大，保證了與GPU計(jì)算能力相匹配的存取能力。表1給出了Nvidia一款專(zhuān)業(yè)計(jì)算卡Tesla K20c的主要參數(shù)。

表1 Nvidia Tesla K20c及Intel Xeon E5620主要參數(shù)Tab.1 Parameters of Nvidia Tesla K20c and Intel Xeon E5620

盡管，GPU的計(jì)算能力超出CPU很多，但CPU的計(jì)算能力依然不可忽視，表1中給出了后面仿真中使用的Intel Xeon E5620的主要參數(shù)，其雙精度浮點(diǎn)性能為85.12 Gflops，工作站中配備了兩顆CPU，那么約有GPU雙精度浮點(diǎn)性能的7.3%。而且，GPU在計(jì)算機(jī)中一般是通過(guò)PCIE2.0或者3.0總線和CPU及內(nèi)存進(jìn)行數(shù)據(jù)傳輸，因此GPU一般很難達(dá)到計(jì)算能力的峰值，另外，相比于動(dòng)輒幾十甚至上百個(gè)GB的主機(jī)內(nèi)存，GPU的顯存容量要小很多，當(dāng)處理大規(guī)模數(shù)據(jù)的時(shí)候，頻繁的數(shù)據(jù)傳輸使得GPU的計(jì)算能力打了折扣。總之，需要將計(jì)算任務(wù)合理分配給CPU和GPU，使得CPU和GPU并行工作，最大可能地挖掘工作站的計(jì)算能力，一般將這種計(jì)算平臺(tái)稱為CPU/GPU異構(gòu)計(jì)算平臺(tái)。

5 異構(gòu)平臺(tái)下的BP算法

異構(gòu)平臺(tái)的BP算法需要解決的問(wèn)題是CPU和GPU的協(xié)同工作問(wèn)題。根據(jù)前面對(duì)于BP算法的討論可知，成像平面內(nèi)各個(gè)像素的成像過(guò)程是彼此獨(dú)立的，因此可以實(shí)現(xiàn)以像素為單位的并行計(jì)算，如此一來(lái)，可以將成像平面內(nèi)所有像素的成像看成待分配的計(jì)算任務(wù)的集合，CPU和GPU的協(xié)同工作就是將這些需要成像的像素合理地分配給CPU和GPU進(jìn)行計(jì)算。

若每個(gè)像素是一項(xiàng)計(jì)算任務(wù)，那么每個(gè)線程就是CPU和GPU進(jìn)行計(jì)算的一個(gè)實(shí)體，所有任務(wù)都要落實(shí)到線程才能完成相應(yīng)的計(jì)算。這里將異構(gòu)BP涉及到的線程分為以下幾種：

(1) 調(diào)度線程，此線程用于給CPU和GPU分配若干像素，分配的像素個(gè)數(shù)依賴于CPU和GPU的計(jì)算能力，調(diào)度線程可以控制只使用CPU或GPU，或者二者同時(shí)參與計(jì)算，提高了成像的靈活性，另外對(duì)于GPU顯存的有限性，調(diào)度線程也可以控制傳遞給GPU的數(shù)據(jù)量，提高程序的穩(wěn)健性；

(2) GPU控制線程，GPU的控制獨(dú)占一個(gè)CPU線程，如果有多個(gè)GPU，那么就占據(jù)多個(gè)CPU線程，雖然此線程可以和GPU實(shí)現(xiàn)異步操作，但是在GPU計(jì)算過(guò)程中需要多次和GPU進(jìn)行數(shù)據(jù)交換與同步，因此不適合進(jìn)行成像計(jì)算，這里只用做GPU的控制，負(fù)責(zé)和GPU相互傳輸數(shù)據(jù)以及啟動(dòng)GPU計(jì)算核函數(shù)?？紤]到此線程并不參與計(jì)算，所以圖4中并沒(méi)有展示出GPU控制線程；

(3) CPU計(jì)算線程，除卻一個(gè)調(diào)度線程和若干GPU控制線程，剩余的CPU核心可以開(kāi)辟線程參與成像計(jì)算任務(wù)；

(4) GPU計(jì)算線程，該線程由GPU控制線程通過(guò)調(diào)用計(jì)算核函數(shù)啟動(dòng)，可以同時(shí)啟動(dòng)數(shù)百或上千GPU線程進(jìn)行成像計(jì)算。

異構(gòu)BP的算法流程如圖4所示，其基本步驟為，調(diào)度線程根據(jù)CPU和GPU的計(jì)算能力，分配數(shù)目與之匹配的像素，此外還需要考慮GPU的顯存大小。像素分配完成后，調(diào)度線程一方面通知CPU計(jì)算線程進(jìn)行成像計(jì)算，另一方面通知GPU控制線程啟動(dòng)GPU成像核函數(shù)。CPU和GPU的成像計(jì)算過(guò)程基本一致，即將調(diào)度線程分配進(jìn)來(lái)的像素分配給各自的計(jì)算線程，計(jì)算線程依次進(jìn)行計(jì)算斜距、升采樣數(shù)據(jù)取值、相位補(bǔ)償、相干累加4個(gè)步驟完成像素的成像，其中升采樣這一步，CPU和GPU可以調(diào)用各自相應(yīng)的FFT庫(kù)函數(shù)，最后將成像結(jié)果放置到成像平面中的正確位置，并向調(diào)度線程請(qǐng)求新的計(jì)算任務(wù)。不斷地重復(fù)以上過(guò)程，直到成像平面內(nèi)的所有像素都計(jì)算完畢，至此成像結(jié)束。

相比于僅使用CPU或者僅使用GPU計(jì)算，異構(gòu)平臺(tái)BP成像算法可以讓二者并行執(zhí)行，互不干擾，充分挖掘了計(jì)算資源，提高了成像效率。

圖4 CPU/GPU異構(gòu)平臺(tái)BP算法流程圖Fig.4 BP algorithm flowchart on a CPU/GPU heterogeneous platform

6 實(shí)驗(yàn)結(jié)果

6.1 成像有效性

為了對(duì)BP算法在高分寬測(cè)滑動(dòng)聚束模式下的有效性進(jìn)行驗(yàn)證，這里設(shè)計(jì)了一組X波段星載滑動(dòng)聚束模式的參數(shù)，并進(jìn)行了仿真，參數(shù)如表2所示。

表2 星載滑動(dòng)聚束SAR仿真參數(shù)Tab.2 Spaceborne slide spotlight SAR simulation parameters

圖5 星載滑動(dòng)聚束SAR仿真模型Fig.5 Spaceborne slide spotlight SAR simulation model

仿真場(chǎng)景的方位向中心和兩端位置共設(shè)置了3個(gè)點(diǎn)目標(biāo)A,B,C，如圖5所示，從A到C，雷達(dá)波束從前側(cè)視、正側(cè)視逐步過(guò)渡到后側(cè)視，由于方位向0.3 m的分辨率比較高，點(diǎn)目標(biāo)的方位向合成孔徑的點(diǎn)數(shù)很多，達(dá)到了24000個(gè)點(diǎn)。我們分別采用Deramp-CS算法以及BP算法對(duì)仿真數(shù)據(jù)進(jìn)行了成像，圖6給出了各點(diǎn)目標(biāo)的成像結(jié)果，圖6(a)，圖6(b)，圖6(c)分別為使用Deramp-CS算法處理的A,B,C3點(diǎn)的點(diǎn)目標(biāo)結(jié)果，圖6(d)，圖6(e)，圖6(f)分別為使用BP算法處理的A,B,C3點(diǎn)的點(diǎn)目標(biāo)結(jié)果，很直觀地可以看出Deramp-CS算法沒(méi)有能夠很好地實(shí)現(xiàn)方位向聚焦，而B(niǎo)P算法聚焦效果很好。進(jìn)一步，圖7給出了各點(diǎn)目標(biāo)方位向的幅度剖面圖，圖7(a)，圖7(b)，圖7(c)分別為使用Deramp-CS算法處理的A,B,C3點(diǎn)的方位向幅度剖面，圖7(d)，圖7(e)，圖7(f) 分別為使用BP算法處理的A,B,C3點(diǎn)的方位向幅度剖面。仿真中使用的方位向的天線方向圖為矩形窗，因此方位向的第1旁瓣應(yīng)該在–13.2 dB附近，可以看出Deramp-CS算法成的點(diǎn)目標(biāo)旁瓣過(guò)高而且嚴(yán)重不對(duì)稱，無(wú)法達(dá)到成像要求，而B(niǎo)P算法所成的3個(gè)位置的點(diǎn)目標(biāo)均能滿足成像要求。

6.2 異構(gòu)并行BP算法的具體實(shí)現(xiàn)及分析

以上滑動(dòng)聚束仿真的BP成像部分使用了本文提出的異構(gòu)并行BP算法，表1給出了成像所使用的工作站CPU和GPU的主要參數(shù)：兩顆Intel Xeon E5620 CPU，工作主頻2.66 GHz,4核8線程，兩顆可同時(shí)運(yùn)行16個(gè)線程；GPU型號(hào)為Nvidia Tesla K20c,2496個(gè)CUDA核心，雙精度峰值計(jì)算能力1.17 Tflops。在算法的實(shí)際運(yùn)行中，包含一個(gè)調(diào)度線程，一個(gè)GPU控制線程，剩余的閑置線程作為CPU計(jì)算線程參與成像計(jì)算，由于CPU的計(jì)算速度慢于GPU，為了平衡CPU和GPU的計(jì)算負(fù)載，盡量避免GPU任務(wù)完成后等待 CPU的情況出現(xiàn)，我們按每次10:1的比例將像素分配給GPU和CPU，這是在CPU和GPU多次計(jì)算任務(wù)中得出的比較合適的分配比例。

圖6 分別使用Deramp-CS和BP算法的點(diǎn)目標(biāo)成像結(jié)果Fig.6 Point targets processed with Deramp-CS and BP algorithm

在算法的具體實(shí)現(xiàn)中，我們選取的回波尺寸為方位向24000個(gè)點(diǎn)，距離向25550個(gè)點(diǎn)，該數(shù)據(jù)為雙精度復(fù)數(shù)據(jù)，需要存儲(chǔ)空間9.14 GB，而且數(shù)據(jù)在GPU中需要使用CUFFT進(jìn)行16倍的升采樣，這樣一來(lái)數(shù)據(jù)量達(dá)到了146 GB，遠(yuǎn)超出了Tesla K20c的5 GB顯存空間，因此，回波數(shù)據(jù)只能分批多次進(jìn)入GPU，數(shù)據(jù)的傳輸一定程度上造成了GPU計(jì)算效率的下降。另一方面，對(duì)于距離向25550個(gè)點(diǎn)且需要升采樣16倍的回波來(lái)說(shuō)，顯存中同時(shí)最多能夠存儲(chǔ)800條左右的回波，除去成像點(diǎn)需要占用的空間則會(huì)更少一些。在GPU內(nèi)部存儲(chǔ)的使用上，CUFFT之后將升采樣數(shù)據(jù)綁定到紋理內(nèi)存，這樣在取值插值過(guò)程中，就可以使用GPU自帶的紋理拾取函數(shù)，提高插值效率。在線程網(wǎng)格分配上，由于調(diào)度線程已經(jīng)將2維成像平面中的像素進(jìn)行了1維線性化處理，因此降低了線程網(wǎng)格分配難度，只需要將足夠多的像素線性地分配到線程網(wǎng)格上，使得GPU盡可能地滿載運(yùn)行即可。圖8給出了GPU各部分時(shí)間所占用的比例，綜合來(lái)看，GPU的計(jì)算瓶頸在于其顯存容量有限，無(wú)法容納高分辨率下升采樣的回波數(shù)據(jù)。目前Nvidia已經(jīng)推出了具有更大顯存的專(zhuān)業(yè)計(jì)算卡，相信今后會(huì)有很大改觀。

圖8 GPU時(shí)間各部分所占比例Fig.8 GPU time propotions of each part

對(duì)于CPU計(jì)算部分，內(nèi)存容量達(dá)到192 GB，相對(duì)于GPU來(lái)說(shuō)寬松很多，在僅使用CPU的情況下，可以實(shí)現(xiàn)全部核心滿載運(yùn)行，當(dāng)CPU和GPU進(jìn)行聯(lián)合異構(gòu)計(jì)算時(shí)，GPU需要占用一個(gè)控制線程，此時(shí)CPU無(wú)法滿載運(yùn)行，但仍然可以達(dá)到95%左右。

我們對(duì)成像速度進(jìn)行了統(tǒng)計(jì)對(duì)比，選取的成像平面的點(diǎn)數(shù)分別為128×128,256×256,512×512,1024×1024，成像所用的時(shí)間、加速比以及滿載情況如表3所示，單獨(dú)使用GPU的成像速度約為單獨(dú)使用CPU的9.07倍，而CPU和GPU同時(shí)使用的成像速度約為單獨(dú)使用CPU的9.90倍，可見(jiàn)，CPU已經(jīng)參與到了成像計(jì)算當(dāng)中，發(fā)揮了閑置核心的計(jì)算能力。在本實(shí)驗(yàn)中CPU發(fā)揮的作用較小，這是因?yàn)楣ぷ髡静捎玫腉PU是Nvidia專(zhuān)業(yè)計(jì)算卡，CPU和該卡的計(jì)算能力相差較為懸殊(可以參考表1)，當(dāng)使用一些普通消費(fèi)級(jí)的GPU，比如Nvidia Geforce系列，CPU的計(jì)算能力就會(huì)占據(jù)更大的比重了。

表3 不同尺寸SAR圖像在不同平臺(tái)下的成像時(shí)間Tab.3 The imaging time of different size on different platforms

7 結(jié)論

本文對(duì)方位向?qū)挏y(cè)繪帶滑動(dòng)聚束模式的成像方法進(jìn)行了討論，由于在高分辨率寬測(cè)繪帶情況下存在調(diào)頻率時(shí)變、距離徙動(dòng)較大、距離向和方位向耦合強(qiáng)烈的問(wèn)題，導(dǎo)致頻域算法難以實(shí)現(xiàn)良好聚焦。而B(niǎo)P成像算法作為時(shí)域算法可以很好地避免以上3個(gè)問(wèn)題，因此在場(chǎng)景中心及邊緣區(qū)域均可以實(shí)現(xiàn)良好聚焦，實(shí)驗(yàn)結(jié)果也對(duì)此進(jìn)行了驗(yàn)證。然而，BP算法的算法復(fù)雜度為O(N3)，再加上滑動(dòng)聚束模式分辨率高，合成孔徑長(zhǎng)度長(zhǎng)，數(shù)據(jù)量大，對(duì)計(jì)算能力提出了巨大挑戰(zhàn)。為此，本文提出了一種基于CPU/GPU異構(gòu)平臺(tái)的并行BP算法，這種算法相比于只運(yùn)行在CPU或GPU上的算法來(lái)說(shuō)，充分利用了計(jì)算資源，提高了成像效率，另一方面，調(diào)度線程的存在使得成像更加靈活，既可以讓CPU和GPU同時(shí)工作，也可以單獨(dú)只使用CPU或GPU，另外調(diào)度線程的設(shè)計(jì)也充分考慮了當(dāng)前GPU顯存較為有限的現(xiàn)狀，合理分配計(jì)算任務(wù)，提高了程序的實(shí)用性。

[1]鄧云凱,趙鳳軍,王宇.星載SAR技術(shù)的發(fā)展趨勢(shì)及應(yīng)用淺析[J].雷達(dá)學(xué)報(bào),2012,1(1): 1–10.Deng Yun-kai,Zhao Feng-jun,and Wang Yu.Brief analysis on the development and application of spaceborne SAR[J].Journal of Radars,2012,1(1): 1–10.

[2]Werninghaus R.TerraSAR-X mission[C].SAR Image Analysis,Modeling,and Techniques VI,Barcelona,Spain,2003: 9–16.

[3]Mittermayer J,Lord R,and Borner E.Sliding spotlight SAR processing for TerraSAR-X using a new formulation of the extended chirp scaling algorithm[C].2003 IEEEInternational Geoscience and Remote Sensing Symposium,2003,3: 1462–1464.

[4]Lanari R,Tesauro M,Sansosti E,et al..Spotlight SAR data focusing based on a two-step processing approach[J].IEEE Transactions on Geoscience and Remote Sensing,2001,39(9): 1993–2004.

[5]Xu Wei,Huang Ping-ping,and Deng Yun-kai.TOPSAR data focusing based on azimuth scaling preprocessing[J].Advances in Space Research,2011,48(2): 270–277.

[6]Desai M D and Jenkins W K.Convolution backprojection image reconstruction for spotlight mode synthetic aperture radar[J].IEEE Transactions on Image Processing,1992,1(4): 505–517.

[7]Ozdemir C.Inverse Synthetic Aperture Radar Imaging with MATLAB Algorithms[M].John Wiley & Sons,2012.

[8]Owens J D,Houston M,Luebke D,et al..GPU computing[J].Proceedings of the IEEE,2008,96(5):879–899.

[9]Krakiwsky S E,Turner L E,and Okoniewski M M.Acceleration of Finite-Difference Time-Domain (FDTD)using Graphics Processor Units (GPU)[C].2004 IEEE MTT-S International Microwave Symposium Digest,2004,2: 1033–1036.

[10]Cire?an D,Meier U,Masci J,et al..Multi-column deep neural network for traffic sign classification[J].Neural Networks,2012,32: 333–338.

[11]Fasih A and Hartley T.GPU-accelerated synthetic aperture radar backprojection in CUDA[C].2010 IEEE Radar Conference,Washington,DC,2010: 1408–1413.

[12]Capozzoli A,Curcio C,and Liseno A.Fast GPU-based interpolation for SAR backprojection[J].Progress In Electromagnetics Research,2013,133: 259–283.

[13]丁金閃,Otmar L,Holger N,等.異構(gòu)平臺(tái)雙基SAR成像的RD算法[J].電子學(xué)報(bào),2009,37(6): 1170–1173.Ding Jin-shan,Otmar L,Holger N,et al..Focusing bistatic SAR data from herterogeneous platforms using the range Doppler algorithm[J].Acta Electronica Sinica,2009,37(6):1170–1173.

[14]Song Ming-cong,Liu Ya-bo,Zhao Feng-jun,et al..Processing of SAR data based on the heterogeneous architecture of GPU and CPU[C].2013 IET International Radar Conference,Xi’an,China,2013: 1–5.

[15]Mittermayer J,Wollstadt S,Prats-Iraola P,et al..The TerraSAR-X staring spotlight mode concept[J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(6): 3695–3706.

[16]Cumming I G and Wong F H.Digital Processing of Synthetic Aperture Radar Data: Algorithms and Implementation[M].Artech House,2005.

[17]Gorham L R A and Moore L J.SAR image formation toolbox for MATLAB[C].Algorithms for Synthetic Aperture Radar Imagery XVII,Orlando,USA,2010: 769906.

[18]Nickolls J and Dally W J.The GPU computing era[J].IEEE Micro,2010,30(2): 56–69.

[19]Kirk D.NVIDIA CUDA software and GPU parallel computing architecture[C].Proceedings of the 6th International Symposium on Memory Management,New York,USA,2007,7: 103–104.

High-resolution Slide Spotlight SAR Imaging by BP Algorithm and Heterogeneous Parallel Implementation

Tang Jiangwen①②Deng Yunkai①Wang Robert①Zhao Shuo①②Li Ning①

①(Institute of Electronics,Chinese Academy of Sciences,Beijing100190,China)

②(University of Chinese Academy of Sciences,Beijing100049,China)

High-resolution synthetic aperture radar presents a significant challenge to imaging algorithms and computing power.Slide spotlight is an important mode that has both high resolution and wide azimuth swath.Generally,in the slide spotlight mode,the performance of conventional frequency domain imaging algorithms degrades because of orbit curvature,the time-variant azimuth chirp rate,and other factors.We adopt the Back-Projection (BP) algorithm in this study to counteract this limitation.We also propose a CPU/GPU heterogeneous BP algorithm to deal with the high computing complexity O() of the BP algorithm.This heterogeneous BP algorithm makes full use of computing resources and accelerates imaging progress,and the design of a scheduling thread improves the flexibility of the algorithm.

Synthetic Aperture Radar (SAR); Slide spotlight; Back-Projection (BP) algorithm; Heterogeneous parallel computing

s: The National Natural Science Foundation of China (61172122),One Hundred Person Project of the Chinese Academy of Sciences (61422113)

TN957

2095-283X(2017)04-0368-08

10.12000/JR16053

唐江文,鄧云凱,王宇,等.高分辨率滑動(dòng)聚束SAR BP成像及其異構(gòu)并行實(shí)現(xiàn)[J].雷達(dá)學(xué)報(bào),2017,6(4):368–375.

10.12000/JR16053.

Reference format:Tang Jiangwen,Deng Yunkai,Wang Robert,et al..High-resolution slide spotlight SAR imaging by BP algorithm and heterogeneous parallel implementation[J].Journal of Radars,2017,6(4): 368–375.DOI: 10.12000/JR16053.

唐江文(1988–)，男，籍貫山東聊城，本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)，現(xiàn)于中國(guó)科學(xué)院電子學(xué)研究所攻讀博士學(xué)位，主要研究方向?yàn)楹铣煽讖嚼走_(dá)時(shí)域成像算法以及大規(guī)模并行計(jì)算。

E-mail: jiangwen@mail.ustc.edu.cn

鄧云凱(1962–)，男，研究員，博士生導(dǎo)師，研究方向?yàn)樾禽dSAR系統(tǒng)設(shè)計(jì)、成像及微波遙感理論。

王宇(1979–)，男，研究員，博士生導(dǎo)師，研究方向?yàn)樾禽dSAR系統(tǒng)設(shè)計(jì)及信號(hào)處理。

2016-03-09；改回日期：2016-05-04；網(wǎng)絡(luò)出版：2016-06-06

*通信作者：李寧 lining_nuaa@163.com

國(guó)家自然科學(xué)基金(61172122)，中國(guó)科學(xué)院“百人計(jì)劃”(61422113)