屠新雅
【摘 要】LC1860平臺芯片作為國產(chǎn)化芯片的代表,其架構(gòu)和配置與目前移動通信領(lǐng)域主流的2G\3G\4G標(biāo)準(zhǔn)具有綁定關(guān)系,因而該芯片在通用性方面具有一定的限制。本文從該芯片的架構(gòu)和軟件模塊部署出發(fā),針對該平臺通信處理單元的數(shù)據(jù)處理性能、存儲空間和硬件資源等方面進行研究,并提供物理層算法實現(xiàn)的優(yōu)化方案,為其他通用波形的設(shè)計和實現(xiàn)提供依據(jù)。
【關(guān)鍵詞】LC1860平臺;通用性;數(shù)據(jù)處理性能;波形設(shè)計
0 前言
LC1860平臺芯片是大唐聯(lián)芯科技有限公司研制的一款通信處理芯片。該芯片在設(shè)計之初是基于目前民用通信領(lǐng)域流行的2G、3G、4G標(biāo)準(zhǔn),因而其基帶和射頻的配置、數(shù)字信號處理資源均與2G、3G、4G標(biāo)準(zhǔn)存在綁定關(guān)系,從而造成該芯片在通用性方面具有一定的限制。近年來隨著各領(lǐng)域國產(chǎn)化需求的不斷提高,該芯片的使用場景不再僅限于原有的2G、3G、4G標(biāo)準(zhǔn),更擴展到某些特定應(yīng)用場景下的波形。因而在該平臺進行其他物理波形的設(shè)計和移植之前,必須對該平臺的處理性能、驅(qū)動配置等方面進行充分研究。本文從該芯片的架構(gòu)出發(fā),針對該平臺通信處理單元的數(shù)據(jù)處理性能、存儲空間和硬件資源等方面進行充分研究,并提出物理層算法實現(xiàn)的優(yōu)化方案,為其他通信系統(tǒng)的設(shè)計和實現(xiàn)提供依據(jù)。
1 LC1860平臺概述和軟件部署
LC1860芯片整體分為 AP、CP和頂層3個部分,其中CP為通信處理單元。CP端包含3個核心,即CP_A7、X1643和XC4210等。由于X1643具有低功耗和高密度軟件的特點,同時可訪問RF等其他子系統(tǒng)及其存儲空間,因而可用于收發(fā)流程控制和各類外設(shè)驅(qū)動;而XC4210含有較多的片內(nèi)存儲資源,同時集成了矢量運算單元和8個硬加速器模塊,適合用于各類數(shù)學(xué)運算和通信信號處理?;谝陨咸攸c,通信信號處理軟件模塊部署可按照圖1的方式。
按照以上部署,XC4210核心將承擔(dān)大量數(shù)據(jù)流交互和運算工作,因而設(shè)計過程中對于該核心的存儲訪問速度和運算效率具有較高的要求。根據(jù)芯片使用手冊,XC4210不僅可以直接訪問核心內(nèi)存儲子系統(tǒng)的存儲空間(TCM),還可通過總線等訪問核心外的DDR空間和核心間的共享RAM空間(SHARERAM)。
2 XC4210性能研究
2.1 存儲訪問速度
XC4210對于核內(nèi)存儲空間可直接訪問,而核外空間則需要通過總線進行訪問,因此XC4210訪問核內(nèi)存儲空間的速度明顯優(yōu)于片外空間。對于各存儲空間的訪問延遲和空間如表1所示。
2.2 標(biāo)量運算速度
由于訪問延遲存在差異,系統(tǒng)對于不同存儲空間的變量處理速度必然存在差距。以固定次數(shù)的單種運算所需的時間作為評估標(biāo)準(zhǔn),同時選擇TI公司的C64x+系列DSP芯片作為參照系,對XC4210芯片的不同存儲空間的處理速度進行分析,評估結(jié)果如表2所示。
根據(jù)對比測試結(jié)果,可以得出以下結(jié)論:
1)變量的存儲位置對于XC4210運算效率有顯著的影響,其中,存儲于DTCM最快,SHARERAM其次, DRAM最慢(每兩種運算之間的運行時間呈2~4倍關(guān)系)。因此,XC4210的運算數(shù)據(jù)存放在片上的DTCM空間時運算速度最快。
2)當(dāng)指令和數(shù)據(jù)都存儲于片內(nèi)的TCM空間時,XC4210的標(biāo)量運算速度比DM6446慢60%,因此XC4210的標(biāo)量運算速度低于同等級別的TI芯片。
2.3 矢量運算速度
XC4210核心包含2個矢量運算單元,該單元采用并行運算操作的方式來提升總體的運算速度。每條指令都可以支持處理16個16bit數(shù)(或者8個32bit數(shù))的操作。運算操作包含載入、載出、加、減、乘、除等,可以利用該矢量單元實現(xiàn)相關(guān)、頻偏估計等眾多的向量類運算。
采用標(biāo)量和矢量兩種方式實現(xiàn)多種數(shù)據(jù)點數(shù)M和相關(guān)長度N的卷積計算(卷積計算中包含(N-1)*M次加法和N*M次復(fù)數(shù)乘法),比較二者的運算時間(-o3優(yōu)化)如下表所示。通過比較可以發(fā)現(xiàn):矢量運算在數(shù)據(jù)流處理中可以將運算時間降低至原來的1/10。
3 物理層算法優(yōu)化方案
傳統(tǒng)的信號處理流程包含收發(fā)兩個子流程。發(fā)送流程包括編碼、交織、擴頻、調(diào)制等過程;接收流程包括頻偏校正、均衡、解交織、解交織、譯碼等過程。每個過程的運算處理時間決定了信息處理速度,因而在實現(xiàn)過程中應(yīng)在保證系統(tǒng)正常運行的基礎(chǔ)上,充分利用核心資源,提高算法處理效率。
依據(jù)對XC4210核心內(nèi)資源的評估結(jié)論,在算法實現(xiàn)過程中,針對不同的處理模塊可選擇以下三種優(yōu)化方式:
1)對于使用過于頻繁的操作選擇片內(nèi)空間處理使用;
2)可并行處理的操作采用矢量處理方式;
3)采用硬件加速器,實現(xiàn)FFT/IFFT/NCO和TURBO譯碼。
通過這三種優(yōu)化方式對收發(fā)流程中的各個關(guān)鍵模塊進行優(yōu)化,信號處理的效率可顯著提高。信息原長度固定為32768時,各模塊優(yōu)化前后的處理時間如表4所示。
【參考文獻】
[1]張磊.LC1860平臺芯片在無人機中的應(yīng)用[J].中國集成電路,2016.10(209)18-20.
[責(zé)任編輯:朱麗娜]endprint