• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于異構(gòu)計算平臺的卷積神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計?

      2024-01-29 02:23:46周賢中
      電子器件 2023年6期
      關(guān)鍵詞:延時消耗卷積

      王 帥,楊 帆,周賢中

      (廣東工業(yè)大學(xué)信息工程學(xué)院,廣東 廣州 510006)

      近年來深度學(xué)習(xí)發(fā)展迅速,并在圖像分類、目標(biāo)檢測、語義分割、語音識別等[1-4]領(lǐng)域取得成功。然而,深度學(xué)習(xí)的模型檢測精度在不斷提升的同時,對計算性能和內(nèi)存的要求也在不斷提升。當(dāng)前云端GPU 部署復(fù)雜的深度學(xué)習(xí)模型面臨高帶寬消耗、高延遲性、網(wǎng)絡(luò)可靠性不足、用戶數(shù)據(jù)隱私難以保證等問題,因此在嵌入式邊緣計算平臺上推理復(fù)雜的深度學(xué)習(xí)模型已經(jīng)成為當(dāng)前的研究熱點[5]。

      面對上述問題,部分學(xué)者從神經(jīng)網(wǎng)絡(luò)本身的結(jié)構(gòu)入手,優(yōu)化算法模型,降低模型的運算量,如Mobilenet[6]、ShuffleNet[7]、Xception[8]等輕量級網(wǎng)絡(luò)。還有部分學(xué)者使用數(shù)據(jù)位寬為2~16 位的精度來代替全精度的浮點數(shù)[9-10],進一步壓縮模型。以上研究的關(guān)注點是網(wǎng)絡(luò)模型本身的優(yōu)化,而在實際的網(wǎng)絡(luò)部署過程中,還需考慮硬件資源利用的合理性,系統(tǒng)的整體功耗以及數(shù)據(jù)傳輸吞吐率等問題。

      FPGA 具有可編程性、可重構(gòu)性、低延遲和低功耗等優(yōu)點。若使用FPGA 加速神經(jīng)網(wǎng)絡(luò)模型,可根據(jù)算法模型來設(shè)計硬件結(jié)構(gòu)[11]。Nguyen 等[12]為了避免頻繁訪問片外存儲數(shù)據(jù)所造成的過多延時,設(shè)計了一種高效的Tera-OPS 流架構(gòu)。這種架構(gòu)下,網(wǎng)絡(luò)中所有模塊的權(quán)重數(shù)據(jù)存儲在芯片上,以最大限度地減少片外數(shù)據(jù)傳輸,提高數(shù)據(jù)的復(fù)用次數(shù),這導(dǎo)致最后設(shè)計的系統(tǒng)對硬件資源要求較高。Yu 等[13]設(shè)計了一個參數(shù)化架構(gòu),建立資源消耗和系統(tǒng)時延模型,對加速器資源空間進行探索,以確定優(yōu)化系統(tǒng)延遲的設(shè)計點,同時滿足資源約束,但是網(wǎng)絡(luò)模型的量化,沒有動態(tài)分配小數(shù)位。Adiono 等[14]用通用矩陣乘法的方式來加速卷積模塊,該方法將基于滑動窗的卷積乘法形式轉(zhuǎn)換為基于二維矩陣卷積乘法的形式,提高了訪存的連續(xù)性和計算效率。Chen等[15]設(shè)計了數(shù)據(jù)流水化的結(jié)構(gòu),與文獻[12]的流水化設(shè)計區(qū)別在于它只將卷積層和池化層數(shù)據(jù)流在FPGA 片上進行流水化計算。

      針對上述研究現(xiàn)狀,本文以YOLO-FASTEST 輕量級的網(wǎng)絡(luò)結(jié)構(gòu)為模型,在ZYNQ7020 平臺上進行部署加速。主要工作如下:①對加速器的數(shù)據(jù)緩存單元與計算單元進行參數(shù)化設(shè)置。②調(diào)整卷積循環(huán)嵌套的次序,實現(xiàn)輸出特征圖復(fù)用,對Bottleneck 模塊實現(xiàn)多層的片上流水運算。③使用16 位定點量化以及層融合的方法,將網(wǎng)絡(luò)模型進一步壓縮,降低硬件資源消耗和推理時間。

      1 YOLO-FASTEST 算法模型

      YOLO-FASTEST 是YOLO 系列改進的輕量級目標(biāo)檢測網(wǎng)絡(luò)。網(wǎng)絡(luò)模型的設(shè)計思路借鑒了Mobilenet[6]的方法,引用了Bottlenecks 模塊對傳統(tǒng)卷積進行替代。同時使用SPP 模塊實現(xiàn)局部特征和全局特征的融合,豐富最終特征圖的表達能力,網(wǎng)絡(luò)模型的大小為3.5 MB,算法模型的復(fù)雜度為2.2 Bflops(billion float operations),在PSCAL VOC 2017數(shù)據(jù)集的mAP(Mean Average Precision)為69.43%。

      YOLO-FASTEST 模型如圖1 所示,由主干網(wǎng)絡(luò)(backbone)和特征金字塔網(wǎng)絡(luò)(Feature Pyramid)組成。Bottlenecks 由3 個卷積層組成,當(dāng)輸入特征圖與輸出特征的尺寸相等時帶有一個shortcut 層,為Res-Bottlenecks。SPP 模塊是由3 個尺寸為3×3、5×5 以及9×9 的最大池化層組成。模型共由84 個卷積層、3 個最大池化層、1 個上采樣層、18 個shortcut 層、2 個YOLO 層以及5 個路由層組成。最終輸出特征圖分辨率大小有13×13 和26×26 兩種,分別負責(zé)大目標(biāo)和小目標(biāo)的檢測。

      圖1 YOLO-FSATEST 網(wǎng)絡(luò)結(jié)構(gòu)

      2 系統(tǒng)設(shè)計

      系統(tǒng)的整體架構(gòu)如圖2 所示,由PL 端FPGA 搭建的加速器與PS 端CPU 構(gòu)成。PL 端加速器的架構(gòu)以單指令多數(shù)據(jù)流的形式,由控制器、計算單元和數(shù)據(jù)緩存單元三部分組成。

      當(dāng)需要計算任務(wù)時,PS 端通過AXI-lite 將任務(wù)指令傳輸至PL 端的控制器中進行解析并以參數(shù)的形式傳輸至計算單元和數(shù)據(jù)緩沖單元。計算單元和數(shù)據(jù)緩沖單元分批次通過AXI 總線從外部存儲器中讀取數(shù)據(jù)、計算加速以及寫回數(shù)據(jù)。

      Bottlenecks 模塊在PL 端上多層流水加速,最大池化層、上采樣層、shortcut 層使用PL 端單層流水加速。路由層引用前面層的特征圖,不涉及計算,通過PS 端的調(diào)度來完成。YOLO 層涉及復(fù)雜的指數(shù)計算以及sigmod 激活函數(shù),使用PL 端計算將耗費大量資源,因此將YOLO 層的運算放入PS 端內(nèi)。

      PL 端內(nèi)計算單元的計算能力以及數(shù)據(jù)緩存單元的數(shù)據(jù)吞吐量受FPGA 內(nèi)部的資源約束,需要設(shè)計合理的優(yōu)化方案,在有限的資源下,構(gòu)建性能良好的加速器。

      2.1 數(shù)據(jù)緩存單元

      數(shù)據(jù)緩存單元的設(shè)計如圖3 所示,單元中包含行緩存、輸入數(shù)據(jù)緩存、輸出數(shù)據(jù)緩存。數(shù)據(jù)在PL端內(nèi)傳輸使用雙緩存乒乓傳輸,每個緩存區(qū)在循環(huán)的周期內(nèi)交替執(zhí)行兩項指令:1、存儲上一個緩存或外部存儲傳來的數(shù)據(jù)。2、將存儲的數(shù)據(jù)傳輸?shù)较聜€緩存或外部存儲。例如當(dāng)一個周期內(nèi)行緩存1 執(zhí)行指令1 時,此時行緩存2 則執(zhí)行指令2。同理,輸入緩存1 執(zhí)行指令1 時,此時輸入緩存2 則執(zhí)行指令2。這種數(shù)據(jù)傳輸模式以空間換時間,用數(shù)據(jù)傳輸?shù)臅r間來掩蓋計算時間。

      PL 端的片內(nèi)BRAM 資源無法容下整個特征圖的數(shù)據(jù),采取對輸入特征圖進行切割分塊送入片上緩存進行運算,權(quán)重根據(jù)輸入特征圖做對應(yīng)的分割。設(shè)置Si、So、Sr、Sc 四個切割參數(shù)分別對特征圖的輸入通道、輸出通道、輸出行數(shù)、輸出列數(shù)進行切割。由上述切割參數(shù)得到的PL 端數(shù)據(jù)緩存設(shè)置及BRAM 資源消耗,如表1 所示。

      表1 PL 端數(shù)據(jù)緩存配置以及BRAM 資源消耗

      數(shù)據(jù)緩存配置中的S為步距,K為卷積核的寬,Nin為PL 端輸入接口的數(shù)量,Nout為PL 端輸出接口的數(shù)量。中間特征圖緩存用來存儲Bottlenecks 內(nèi)DW(Depthwise Convolution)層的輸入特征圖以及shortcut 層另一個輸入特征圖。

      CBRAM為單個BRAM 的存儲容量18 k,bitwidth為數(shù)據(jù)位寬。以上緩存均乘以2 表示使用雙緩存。權(quán)重緩存的數(shù)據(jù)量較少,因此使用LUT 存儲,不消耗BRAM 資源。表1 中所有緩存消耗BRAM 總和應(yīng)小于等于片上BRAM 總量。

      給定以上數(shù)據(jù)緩存配置,PL 端時鐘頻率f,使用雙緩存乒乓傳輸,從片外讀取數(shù)據(jù)到輸入緩存需循環(huán)((Sr-1)×S+K+1)×次,從輸出緩存到片外存儲需循環(huán)(次,輸入輸出緩存延時表達式如下:

      設(shè)某層需使用PL 端循環(huán)計算N次,計算單元的時延設(shè)為Tcom,雙緩存乒乓傳輸下PL 端單層運算的總時延為:

      2.2 計算單元

      計算單元內(nèi)部根據(jù)層類別劃分,構(gòu)建類別不同的計算電路,利用時分復(fù)用的思想,在每個時鐘周期不間斷地計算來自數(shù)據(jù)緩存單元傳輸?shù)臄?shù)據(jù)。

      卷積計算單元如圖4 所示,由乘法器陣列和累加器構(gòu)成。對輸入通道和輸出通道的維度進行并行乘法計算,不同輸入通道上的同一坐標(biāo)像素值與權(quán)重進行乘積,經(jīng)累加器后將部分和暫存至寄存器中,等待與下一計算周期的部分和相加。直至權(quán)重滑動窗內(nèi)的值都乘完后,將寄存器內(nèi)的值通過多個輸出通道維度保存至輸出緩存中。

      圖4 卷積計算單元

      在實際評估中,需要考慮計算并行度與資源約束之間的關(guān)系,DSP48e1 是FPGA 內(nèi)部的專用硬件資源,用DSP48e1 構(gòu)建乘法器陣列應(yīng)滿足式(4)的要求,其中NMul是乘法器的數(shù)量,Pi和Po分別表示輸入通道和輸出通道計算并行度參數(shù),NDSP表示一個乘法器消耗的DSP48e1 的資源,與數(shù)據(jù)位寬bitwidth 有關(guān)。

      給定時鐘頻率f、計算并行度參數(shù)Pi和Po以及片上數(shù)據(jù)緩存配置,單次卷積計算單元的處理時延Tconv為:

      其他模塊的計算單元如圖5 所示,圖5(a)所示是最大池化層計算單元,將用于輸出的寄存器賦最小初始值,每個循環(huán)周期與輸入的寄存器進行比較,將最大值保存至輸出寄存器,當(dāng)滑動窗內(nèi)的值都比較完后,輸出寄存器內(nèi)的值保存至輸出緩存中。圖5(b)所示是上采樣層,上采樣層是將特征圖的長和寬擴展,上采樣單元使用寄存器取出輸入緩存的值暫存后,根據(jù)擴展的比例大小循環(huán)存入輸出緩存中。圖5(c)所示為shortcut 層,將來自兩個不同層的特征圖進行相加。

      圖5 其他模塊計算單元

      這三類模塊由于輸入輸出通道的維度相等,計算單元的并行度Pi=Po。給定時鐘頻率f,三類模塊處理時延Tmax、Tshortcut、Tupsample為:

      3 優(yōu)化方法

      3.1 卷積層輸出特征圖復(fù)用

      PL 端的卷積運算由四層循環(huán)嵌套組成。傳統(tǒng)的權(quán)重窗口復(fù)用模式,將輸出特征圖的行和列的循環(huán)放入最內(nèi)層,每輪循環(huán)復(fù)用權(quán)重數(shù)據(jù),優(yōu)先計算出完整的輸出特征圖,然后對輸出通道進行循環(huán)。這種方法適用于PL 端對單個層的計算加速。

      對于PL 端上連續(xù)多層流水運算,若使用權(quán)重復(fù)用的方法,優(yōu)先計算出完整的輸出特征圖,會造成較大的延時。調(diào)整循環(huán)嵌套順序,每次只計算出部分輸出特征圖就傳遞給下一層,無需等待完整的輸出特征圖。如圖6 所示,循環(huán)嵌套由內(nèi)到外按照LOOP1 至LOOP4 的順序分別對輸入特征圖通道、輸出特征圖的通道、輸出特征圖行和列進行計算。每次循環(huán)的部分和暫存至輸出緩存內(nèi),待下一輪循環(huán)的時候再復(fù)用。當(dāng)LOOP1 循環(huán)結(jié)束后,所有部分和累加后的最終結(jié)果從輸出緩存寫回至片外存儲或者傳遞至下一層。每層的循環(huán)間隔等于設(shè)置的4 個切割參數(shù)Si、So、Sc 和Sr。

      圖6 輸出特征圖復(fù)用

      使用輸出特征圖復(fù)用模式,設(shè)In 為輸入特征圖通道數(shù),Out 為輸出特征圖通道數(shù),則「In/Si?個循環(huán)周期后,即可將輸出緩存內(nèi)的數(shù)據(jù)傳至下一層的計算單元中。

      3.2 PL 端多層流水

      PL 端連續(xù)多層流水相比于單層流水,可減少PL 端與外部存儲器數(shù)據(jù)交互的次數(shù),網(wǎng)絡(luò)結(jié)構(gòu)中的Bottleneck 由三層卷積組成,且結(jié)構(gòu)固定,適合于整個模塊放入FPGA 片上緩存進行多層流水計算,模塊結(jié)構(gòu)如圖7 所示。輸入特征圖緩存首先經(jīng)過第一層PW(pointwise)卷積,卷積結(jié)果存儲在中間緩存內(nèi),中間緩存經(jīng)過第二層DW(depthwise)卷積后,將結(jié)果覆蓋至輸入特征圖緩存,最后再經(jīng)過第三層PW(pointwise)卷積后,將計算結(jié)果存入輸出緩存內(nèi)。DW 卷積的卷積核無輸入通道維度,卷積單元只對輸出通道進行并行度為Po的并行運算。

      使用輸出特征圖復(fù)用的模式,給定時鐘頻率f,第一層PW1 輸入輸出特征通道為In1 和Out1,使用雙緩存乒乓傳輸,輸入緩存延時Tinput與計算延時Tconv1重疊「In1/Si?次,取二者最大值。PW1 的延時表達式TPW1如下:

      PW1 層的計算結(jié)果送入DW 層的進行運算,DW 計算單元延時Tconv2,DW 層的延時表達式TDW如下:

      DW 層計算完后,緊接著進行PW2 層的計算。In2、Out2 為PW2 層的輸入通道數(shù)和輸出通道數(shù),PW2 層「In2/Si?次的循環(huán)后,將結(jié)果通過輸出緩存寫回至外部存儲中,PW2 層的延時表達式TPW2如下:

      使用雙緩沖乒乓傳輸后,輸出緩存延時Tout與PW2 層的延時TPW2重疊(「Out2/So?-1)次,取二者最大值。Bottleneck 輸出部分特征圖的延時TBneck的表達式如下:

      3.3 模型量化

      模型的量化是指權(quán)重、偏置、特征圖的數(shù)據(jù)由32 位浮點數(shù),映射為16 位、8 位等低位寬數(shù)。使用低位寬數(shù)據(jù)在PL 端上進行存儲和計算可以節(jié)約BRAM 和DSP 的資源,但模型的精度也有所下降。

      本文使用一種逐層定點16 位量化的方法[10],16 位的定點數(shù)中使用1 位符號位,Q位小數(shù)位,剩下位表示整數(shù)位。量化過程中浮點數(shù)xfloat與定點數(shù)xfixed之間相互映射的關(guān)系式如下:

      L表示定點數(shù)位寬,式(13)將浮點數(shù)的小數(shù)位在定點數(shù)中使用Q位表示,Q取值越大,定點數(shù)的精度就越高。式(14)將定點數(shù)還原成浮點數(shù)。模型每層根據(jù)參數(shù)的取值范圍的不同,用不同的Q值來量化該層。

      對84 層卷積的權(quán)重使用定點8 bit 和16 bit 的量化方法,利用式(15)計算總誤差和平均每層的誤差,根據(jù)表2 結(jié)果顯示,本文將使用16 bit 的量化方案。

      表2 定點量化權(quán)重誤差

      3.4 卷積層與批量歸一化層融合

      批量歸一化層(Batch Normalization)能提高網(wǎng)絡(luò)的訓(xùn)練速度,在模型推理階段BN 層的計算固定,可以將其融合進卷積運算之中,加速推理時間,節(jié)約硬件資源。卷積層的計算式(16)和BN 層的計算式(17)如下:

      式(16)和式(17)中X與Y都表示輸入特征圖和輸出特征圖,式(16)中W和B表示卷積層的權(quán)重和偏置。式(17)中γ為尺度參數(shù),β為偏置參數(shù),μ為輸入樣本的均值,δ為輸入樣本的標(biāo)準(zhǔn)差,這四個參數(shù)是在訓(xùn)練后已學(xué)習(xí)到的。ε通常設(shè)定為一個極小的值(如0.000 001),以防止分母為0 的情況。卷積層與BN 層的融合如式(18)所示:

      化簡:

      融合后的新權(quán)重值Wmerged=,新偏置,預(yù)先計算出新的權(quán)重值和新的偏置,在FPGA 中直接進行融合后卷積運算,提高推理速度。

      4 實驗結(jié)果及評估

      系統(tǒng)開發(fā)平臺使用Xilinx 的Vivado 設(shè)計套件,使用高層次綜合工具Vivado HLS 2019.1 設(shè)計YOLO-FASTEST 加速器IP 核,然后將設(shè)計好的IP核與ARM9 以及片外DDR3 在Vivado 2019.1 上進行綜合、布局布線。最后,使用Vivado SDK 2019.1對ARM CPU 進行開發(fā)。

      PL 端內(nèi)的硬件資源包含630 KB 的BRAM、220個DSP48E、53 200 個LUT、106 400 個FF。PS 端主要使用的是雙核ARM Cortex-A9 硬核處理器和一個存儲大小為512 MB 的DRAM。特征圖和權(quán)重數(shù)據(jù)均存儲在片外DRAM 中的。在PL 端內(nèi)的AXI_DMA IP 核為四通道的AXI_HP 存儲映射接口和AXI-Stream 接口之間提供高帶寬的直接存儲訪問。PS 端發(fā)出的控制指令則由AXI_GP 接口以及PL 端內(nèi)部的AXI interconnect IP 核進行傳輸。

      4.1 資源消耗與時延評估

      在雙緩存流水機制下,數(shù)據(jù)緩存單元中切割因子設(shè)置為Si =12、So =12、Sr =26、Sc =26,輸入輸出接口Nin=Nout=4,步距S=2,卷積核尺寸K=3,數(shù)據(jù)位寬bitwidth 為16 位定點數(shù)。以上參數(shù)確定后結(jié)合表1,預(yù)估需消耗184 個BRAM。

      Bottelneck 模塊內(nèi)有PW 卷積和DW 卷積,需設(shè)置不同的卷積計算單元。PW 卷積計算單元的并行度參數(shù)Pi=Po=12,DW 卷積計算單元的并行度參數(shù)Po=12。FPGA 內(nèi)部兩個16 位數(shù)的乘法運算消耗NDSP=1,依據(jù)式(4),PW 和DW 卷積預(yù)估需消耗共156 個DSP48e1。

      Vivado 系統(tǒng)綜合后消耗的實際資源如表3 所示,實際消耗BRAM 比預(yù)估多消耗19 個,可能用于PL 端輸入輸出接口緩存。實際消耗的DSP48e1 比預(yù)估多消耗16 個,可能用于其他計算單元的消耗。

      表3 PL 端資源消耗

      給定數(shù)據(jù)緩存單元的配置以及優(yōu)化方法,PL 端的時鐘頻率為150 MHz,根據(jù)各模塊延時表達式(3)和式(12),展示部分模塊時延預(yù)估,選擇圖1 中Id =3 的Bottleneck 和shortcut 模塊、SPP 中三個Max pooling 以及Upsample,如表4 所示,實際時延與預(yù)估時延的誤差可能來自各模塊的初始化延時以及BRAM 中數(shù)據(jù)讀取和存儲的延時。

      表4 PL 端加速器部分模塊時延 單位:ms

      4.2 不同平臺性能對比

      將本文在不同的平臺對同一目標(biāo)檢測網(wǎng)絡(luò)YOLO-FASTEST 進行推理,對功耗、檢測精度、計算性能、能耗比和單幀延時進行評估。在服務(wù)器端的CPU(I5-8300H)以及GPU(GTX1050ti) 上使用Darknet 框架進行模型推理,數(shù)據(jù)類型為浮點數(shù)。在嵌入式端分為僅ARM-A9 推理以及ARM-A9+FPGA聯(lián)合推理,數(shù)據(jù)類型為16 位定點數(shù)。

      結(jié)果如表5 所示,檢測精度方面,在PSCAL VOC 2017 的數(shù)據(jù)集上,嵌入式端數(shù)據(jù)量化后的檢測精度相比服務(wù)器端的檢測精度僅降低1.3%。在性能表現(xiàn)方面,嵌入式端的功耗要遠低于服務(wù)器端,但是僅ARM9 推理模型的單幀延時較高,無法滿足目標(biāo)檢測實時性的需要。本文設(shè)計的ARM-A9+FPGA的推理框架,能耗比達到5.27 GFLOPS/W,約為嵌入式端ARM-A9 的48 倍,服務(wù)器端CPU 的55 倍,GPU 的20 倍。單幀延時為163 ms,滿足目標(biāo)檢測的實時性。

      表5 不同平臺的參數(shù)對比

      將本文的設(shè)計與前人的工作進行對比,如表6 所示,文獻[12]提出的體系結(jié)構(gòu)側(cè)重于最大限度地提高系統(tǒng)的吞吐量,因此,網(wǎng)絡(luò)的每一層都映射到一個專用的硬件塊。特征圖、權(quán)重、偏置都存儲在片上緩存中,以盡量減少片外的數(shù)據(jù)傳輸延時,取得了極高計算性能。但其對片上存儲資源的要求較高且可重構(gòu)性較差。文獻[14]使用了通用矩陣乘法來加速卷積層,需將輸入特征圖轉(zhuǎn)換為通用矩陣的形式,此過程需消耗較多的BRAM 與DSP 資源。文獻[15]使用層間流水的方式,內(nèi)部硬件控制器使卷積層的數(shù)據(jù)流直接與池化層進行連接,可降低數(shù)據(jù)與片外存儲傳輸?shù)拇螖?shù)。這種方法的卷積計算使用的是滑動窗口的方式,且僅適合卷積層后緊跟池化層的情況。

      表6 與文獻設(shè)計的系統(tǒng)對比

      5 總結(jié)

      本文提出一種將目標(biāo)檢測網(wǎng)絡(luò)YOLO-FASTEST在低成本的異構(gòu)計算平臺上運行推理的方法。針對網(wǎng)絡(luò)結(jié)構(gòu)中的Bottleneck 模塊,本文使用特征圖復(fù)用的運算模式,降低多層片上流水延時。同時本文建立數(shù)據(jù)單元和計算單元與PL 端的資源約束關(guān)系式,使設(shè)計方案滿足低成本計算平臺的資源約束。設(shè)計的系統(tǒng)根據(jù)參數(shù)調(diào)節(jié)可移植至任意資源的FPGA 計算平臺。未來的改進工作將集中在算法加速方面,例如使用Winograd 快速矩陣乘法對3×3 大小的卷積層進行加速。

      猜你喜歡
      延時消耗卷積
      如此消耗卡路里
      意林(2023年7期)2023-06-13 14:18:52
      玉鋼燒結(jié)降低固體燃料消耗實踐
      昆鋼科技(2022年4期)2022-12-30 11:23:46
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      降低鋼鐵料消耗的生產(chǎn)實踐
      昆鋼科技(2021年6期)2021-03-09 06:10:18
      基于級聯(lián)步進延時的順序等效采樣方法及實現(xiàn)
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      我們消耗很多能源
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      Two-dimensional Eulerian-Lagrangian Modeling of Shocks on an Electronic Package Embedded in a Projectile with Ultra-high Acceleration
      一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
      河北区| 晴隆县| 察哈| 酉阳| 鄱阳县| 庆云县| 怀宁县| 监利县| 台州市| 时尚| 固镇县| 连平县| 龙岩市| 永嘉县| 卢湾区| 白朗县| 汉川市| 门头沟区| 哈巴河县| 健康| 镇康县| 徐水县| 神农架林区| 沈阳市| 阿拉善右旗| 乐至县| 碌曲县| 嘉禾县| 金坛市| 简阳市| 洪洞县| 拜城县| 大足县| 郴州市| 新密市| 乐昌市| 余庆县| 辰溪县| 霞浦县| 仙桃市| 慈利县|