• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合半波高斯量化與交替更新的神經(jīng)網(wǎng)絡(luò)壓縮方法

      2021-05-17 05:30:42張紅梅嚴(yán)海兵張向利
      計(jì)算機(jī)工程 2021年5期
      關(guān)鍵詞:半波二值高斯

      張紅梅,嚴(yán)海兵,張向利

      (桂林電子科技大學(xué)廣西高校云計(jì)算與復(fù)雜系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廣西桂林 541004)

      0 概述

      近年來(lái),邊緣計(jì)算技術(shù)發(fā)展迅速,而體積普遍龐大且計(jì)算復(fù)雜的卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)模型仍難以在實(shí)時(shí)性要求較高但內(nèi)存容量受限的邊緣設(shè)備上部署使用,因此卷積神經(jīng)網(wǎng)絡(luò)模型壓縮與加速成為了學(xué)術(shù)界和工業(yè)界均重點(diǎn)關(guān)注的研究領(lǐng)域。隨著卷積神經(jīng)網(wǎng)絡(luò)模型壓縮與加速研究的不斷深入,其中的網(wǎng)絡(luò)量化方法得到了廣泛應(yīng)用。網(wǎng)絡(luò)量化的核心思想是使用較少的位(bit)代替原始浮點(diǎn)型(32 bit)參數(shù),進(jìn)而減少模型存儲(chǔ)空間。文獻(xiàn)[1]將全精度浮點(diǎn)型參數(shù)量化到16 bit 固定長(zhǎng)度表示,并在訓(xùn)練過(guò)程中使用隨機(jī)約束技術(shù),從而縮減網(wǎng)絡(luò)存儲(chǔ)和浮點(diǎn)計(jì)算次數(shù),但壓縮程度不高且浮點(diǎn)計(jì)算依舊復(fù)雜。文獻(xiàn)[2]在模型訓(xùn)練過(guò)程中直接將全精度權(quán)值量化為+1 或-1 并用1 bit 表示,理論上能把模型壓縮至原有的1/32,同時(shí)將卷積計(jì)算中的乘加運(yùn)算轉(zhuǎn)換為加減運(yùn)算,達(dá)到加速的目的,但因激活值為全精度,無(wú)法大幅度加速網(wǎng)絡(luò)計(jì)算。文獻(xiàn)[3]提出BNN 網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)把權(quán)值和激活值量化為+1 和-1,將原始的卷積計(jì)算變成同或和位計(jì)數(shù)運(yùn)算,大幅壓縮和加速深度網(wǎng)絡(luò),但此類簡(jiǎn)單量化的方式導(dǎo)致了較嚴(yán)重的精度損失。為此,文獻(xiàn)[4]提出XNOR-Net 和BWN 兩個(gè)網(wǎng)絡(luò),對(duì)權(quán)值和激活值分別引入縮放因子,減少量化誤差并提高訓(xùn)練精度,但在訓(xùn)練過(guò)程中會(huì)出現(xiàn)梯度不匹配問(wèn)題,影響精度的進(jìn)一步提升。針對(duì)該問(wèn)題,文獻(xiàn)[5]提出HWGQNet,有效地解決了訓(xùn)練過(guò)程中的梯度不匹配問(wèn)題,但加速效果不明顯。為減少BWN 網(wǎng)絡(luò)的量化誤差,文獻(xiàn)[6]提出TWN 網(wǎng)絡(luò),將權(quán)值量化到三元網(wǎng)絡(luò),即-w、0、+w,相比BWN 網(wǎng)絡(luò)具有更強(qiáng)的表達(dá)能力以及更高的訓(xùn)練精度,文獻(xiàn)[7]在TWN 網(wǎng)絡(luò)基礎(chǔ)上引入不同的縮放因子,相比TWN 網(wǎng)絡(luò)精度得到進(jìn)一步提升。文獻(xiàn)[6-7]通過(guò)引入量化值0,減少了精度損失,但模型壓縮比僅為BWN 網(wǎng)絡(luò)的一半。文獻(xiàn)[8]通過(guò)對(duì)梯度值進(jìn)行量化,達(dá)到訓(xùn)練加速的目的,卻導(dǎo)致訓(xùn)練精度的下降。文獻(xiàn)[9]提出漸進(jìn)式量化方法,減少了量化損失,但分組、量化和再訓(xùn)練方式導(dǎo)致了較高的計(jì)算復(fù)雜度。

      本文設(shè)計(jì)一種結(jié)合半波高斯量化(Half-Wave Gaussian Quantization,HWGQ)和交替更新的神經(jīng)網(wǎng)絡(luò)模型壓縮方法,改進(jìn)2 bit 均勻半波高斯量化器,使量化后的值分解為帶有縮放因子的+1、0和-1 的組合值,當(dāng)與采用BWN 量化的權(quán)值進(jìn)行卷積運(yùn)算時(shí),可將浮點(diǎn)型卷積運(yùn)算轉(zhuǎn)化為僅有+1和-1 參與的同或和位計(jì)數(shù)運(yùn)算(數(shù)值0 可看作沒(méi)有參與運(yùn)算)加速訓(xùn)練過(guò)程,并使用交替更新方法[10]對(duì)已訓(xùn)練的二值模型進(jìn)行逐層微調(diào)進(jìn)一步提高模型測(cè)試精度。

      1 混合壓縮方法

      本文提出的混合壓縮框架如圖1 所示,首先對(duì)模型輸入部分進(jìn)行2 bit 均勻半波高斯量化,然后將值輸入到帶有縮放因子的二值網(wǎng)絡(luò)中進(jìn)行訓(xùn)練得到一個(gè)初始的二值模型,再使用交替更新方法對(duì)模型進(jìn)行微調(diào),最終得到優(yōu)化后的二值模型。在圖1 中,X是上一層經(jīng)過(guò)卷積運(yùn)算(卷積層)或者矩陣運(yùn)算(全連接層)的輸出,是X經(jīng)過(guò)2 bit 均勻半波高斯量化器的激活量化值,其中q1、q2、q3分別代表3 個(gè)量化值,且滿足等式q2-q1=q3-q2,t1和t2分別代表量化值q1和q2對(duì)應(yīng)的量化間隔點(diǎn),A和B分別是縮放因子矩陣和二元權(quán)值矩陣,若是經(jīng)過(guò)維度變換后的卷積核,則W=BA,其中,B∈{+1,是對(duì)角矩陣,且每個(gè)對(duì)角元素αi與一一對(duì)應(yīng),Bi是B的列向量,i=1,2,…,cout。

      圖1 混合壓縮框架Fig.1 Hybrid compression framework

      1.1 半波高斯量化

      在BNN 和XNOR 網(wǎng)絡(luò)中,在前向傳播階段采用sign 作為激活值量化函數(shù),在反向傳播階段采用替代sign,以避免梯度全為0 的情況發(fā)生,影響梯度下降算法的更新,其中,sign 和函數(shù)定義如圖2所示。

      圖2 sign 和的函數(shù)曲線圖Fig.2 sign andfunction curve graph

      為解決上述問(wèn)題,本文在前向傳播階段采用近似ReLU[12]的Q(x)作為量化函數(shù),在反向傳播階段為解決梯度全為0 的問(wèn)題,采用近似ReLU 的作為Q(x)的替代函數(shù),其中ReLU 也稱為半波整流器,定義為:

      其中:當(dāng)自變量x小于0 時(shí),h(x)值等于0;當(dāng)自變量x大于等于0 時(shí),h(x)值等于自變量x。

      1.1.1 前向近似

      考慮到ReLU 的半波整流性,前向近似ReLU 的量化函數(shù)Q(x)定義如下:

      其中,qi∈?+,ti∈?+,i=1,2,…,m,t0=0,tm=∞。本文采用最小化均方誤差的方法得到最優(yōu)解Q*(x),p(x)是x的概率密度函數(shù),假設(shè)x的數(shù)學(xué)期望為E(x)、y=g(x),且絕對(duì)收斂,因此有E(y)=,在(-∞,0)區(qū)間內(nèi)Q(x)與h(x)均為0,在(0,+∞)區(qū)間內(nèi)h(x)=x,于是得到式(3):

      本文采用文獻(xiàn)[13]中提出的Lloyd 算法對(duì)Q*(x)進(jìn)行求解。雖然Lloyd 算法是一種迭代算法,但輸入分布一般沒(méi)有規(guī)律,導(dǎo)致概率密度函數(shù)p(x)難以確定,并且不同層輸入分布一般不同,會(huì)隨著反向傳播參數(shù)的迭代更新而不斷改變。上述情況使得Lloyd算法很難得到最優(yōu)解Q*(x)。通過(guò)在量化器Q(x)前加入批量標(biāo)準(zhǔn)化(Batch Normalization,BN)[14]操作解決上述問(wèn)題,批量標(biāo)準(zhǔn)化使得每層輸入變成均值為0、方差為1 的標(biāo)準(zhǔn)高斯分布。此時(shí),每層具有相同的輸入分布,概率密度函數(shù)能唯一確定,并且只需要應(yīng)用一次Lloyd 算法,加入批量標(biāo)準(zhǔn)化操作的量化器Q(x)稱為半波高斯量化器。

      1.1.2 反向近似

      為解決Q(x)在反向傳播過(guò)程中的梯度消失問(wèn)題,需要尋找一個(gè)近似ReLU 的連續(xù)函數(shù),考慮到量化函數(shù)Q(x)前面加入批標(biāo)準(zhǔn)化后的輸入分布變?yōu)闃?biāo)準(zhǔn)高斯分布,輸入越接近0 出現(xiàn)的概率越高,假設(shè)大于qm的x值出現(xiàn)的概率很低,因此超出qm的部分x值實(shí)際上是離群值。本文選擇Clipped ReLU 作為,定義如下:

      本文選擇Clipped ReLU 作為ReLU 的反向近似,主要原因?yàn)椋?)避免在尾部出現(xiàn)與Q(x)不匹配的現(xiàn)象,減少了兩者之間的誤差;2)大部分輸入值集中于小于qm的部分,因此截?cái)嗟腞eLU 不僅能很好地近似ReLU,而且易于梯度計(jì)算;3)Clipped ReLU 能夠保證穩(wěn)定優(yōu)化,與文獻(xiàn)[15]中裁剪的梯度能夠增強(qiáng)深層網(wǎng)絡(luò)的學(xué)習(xí)性能類似。

      1.2 BWN 方法

      本文采用文獻(xiàn)[4]中的BWN 方法對(duì)網(wǎng)絡(luò)權(quán)重部分進(jìn)行量化。假設(shè)網(wǎng)絡(luò)有L層,第l層的卷積核個(gè)數(shù)為Kl,其中,1≤l≤L,1≤k≤Kl,令第l層的輸入,第l層的第k個(gè)卷積核,cin為輸入通道數(shù),win和hin均為輸入特征圖,w為卷積核寬度,h為卷積核高度,且w≤win、h≤hin。第l層的卷積運(yùn)算如式(5)所示:

      1.3 基于HWGQ+BWN 的二值模型訓(xùn)練

      對(duì)于半波高斯量化器,本文令m=3、qi+1-qi=Δ。由于此時(shí)其量化值只能取0、β-Δ、β、β+Δ這4 個(gè)值并用2 bit 進(jìn)行表示,因此也可稱為2 bit 均勻半波高斯量化器。圖3 為對(duì)輸入部分和權(quán)重部分分別采用改進(jìn)后的2 bit 均勻半波高斯量化器和BWN 方法量化后的卷積計(jì)算過(guò)程,其中,*表示卷積運(yùn)算,?表示只有同或和位計(jì)數(shù)操作的卷積運(yùn)算??梢钥闯?,經(jīng)過(guò)HWGQ 量化后的值被分解為兩部分,每部分均是帶有縮放因子-1、0 和+1 的組合,最終浮點(diǎn)型的卷積運(yùn)算轉(zhuǎn)化為僅有-1 和+1 參與的同或和位計(jì)數(shù)操作的卷積運(yùn)算(數(shù)值0 可看作沒(méi)有參與運(yùn)算),從而實(shí)現(xiàn)模型的訓(xùn)練加速。

      圖3 具有加速作用的HWGQ+BWN 卷積計(jì)算過(guò)程Fig.3 Accelerated HWGQ+BWN convolution calculation process

      本文對(duì)第一層和最后一層保留全精度,只對(duì)中間層進(jìn)行量化處理,在前向階段和反向階段使用量化的權(quán)值,在權(quán)值更新階段使用全精度值。

      算法1基于HWGQ+BWN 的二值模型訓(xùn)練算法

      1.4 二值模型微調(diào)

      針對(duì)輸入部分和權(quán)重部分同時(shí)量化而導(dǎo)致精度損失較大的問(wèn)題,本文采用文獻(xiàn)[10]中的交替更新方法對(duì)二值模型進(jìn)行微調(diào)。交替更新方法主要是對(duì)已經(jīng)訓(xùn)練好的模型進(jìn)行微調(diào),并且考慮了對(duì)輸入部分和權(quán)重部分同時(shí)進(jìn)行量化的情況,而文獻(xiàn)[10]僅考慮了對(duì)權(quán)重部分的量化。

      1.4.1 維度變換

      若要運(yùn)用交替更新方法,則需對(duì)卷積層的輸入和輸出以及卷積核作維度變換。從文獻(xiàn)[16]得到啟發(fā),假定卷積層輸入,卷積核W∈,那么卷積層輸出,若對(duì)卷積層的輸入X、卷積核W和輸出Y進(jìn)行維度變換轉(zhuǎn)換為二維矩陣和,其中下標(biāo)r表示張量經(jīng)過(guò)維度變換后由多維變成二維,其中wout=(win+2×p-w)/s+1,hout=(hin+2×p-h)/s+1,p和s分別表示填充值(padding)和步長(zhǎng)(stride),此時(shí)可將卷積運(yùn)算轉(zhuǎn)變?yōu)榫仃囘\(yùn)算Yr=(Xr)TWr,具體過(guò)程如圖4 所示。

      圖4 卷積層上的卷積運(yùn)算轉(zhuǎn)變?yōu)榫仃囘\(yùn)算的過(guò)程Fig.4 The process of transforming convolution operation into matrix operation on convolution layer

      1.4.2 逐層微調(diào)

      由于對(duì)輸入部分和權(quán)重部分同時(shí)進(jìn)行量化會(huì)產(chǎn)生一定的誤差,該誤差會(huì)逐層進(jìn)行積累,因此本文采用交替更新方法對(duì)二值模型進(jìn)行逐層微調(diào)解決以上問(wèn)題。受文獻(xiàn)[17]啟發(fā),假設(shè)一個(gè)CNN 網(wǎng)絡(luò)有L層,記未對(duì)輸入部分和權(quán)重部分進(jìn)行量化和訓(xùn)練的模型為全精度模型,若由維度變換得到的第l(1≤l≤L)層全精度模型和二值模型的輸入分別為Xl和,為使得量化誤差最小,需要優(yōu)化的目標(biāo)函數(shù)為:

      對(duì)式(7)進(jìn)一步展開,目標(biāo)函數(shù)變?yōu)椋?/p>

      式(8)的求解過(guò)程具體如下:

      2 實(shí)驗(yàn)與結(jié)果分析

      本文使用CIFAR-10 和ImageNet[19]這兩種經(jīng)典數(shù)據(jù)集驗(yàn)證混合壓縮方法的有效性。CIFAR-10 數(shù)據(jù)集對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)為VGG14,共有10 個(gè)類的60 000 張RGB 三通道圖片,其中,訓(xùn)練集有50 000 張,測(cè)試集有10 000 張。ImageNet 對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)為AlexNet[20],共有1 000 個(gè)類的1.25×106張GRB 三通道圖片,其中,訓(xùn)練集有1.2×106張,驗(yàn)證集有5×104張。

      VGG14 的網(wǎng)絡(luò)結(jié)構(gòu)為(2×64C3)-MP2-(2×128C3)-MP2-(3×256C3)-MP2-(3×256C3)-MP2-(3×512C3)-MP2-10FC-Softmax,其中:“64C3”代表64 個(gè)大小為3×3 的卷積核,步長(zhǎng)和填充值都為1;“MP2”代表采樣核為2×2,步長(zhǎng)為2 的最大池化層。AlexNet 包括5 個(gè)卷積層和3 個(gè)全連接層。VGG14和AlexNet 的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 和如圖6 所示,其中:C3=3×3 filter,s=p=1,C 代表卷積(Convolution)操作,filter 代表卷積核(濾波器);MP3=2×2,s=2,MP 代表最大池化(Max Pooling);FC 代表全卷積(Fully Convolution)。

      圖5 VGG14 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 VGG14 network structure

      圖6 AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 AlexNet network structure

      本文實(shí)驗(yàn)硬件環(huán)境為8 核Intel?XeonTMCPU E5-2620 V4@2.10 GHz,磁盤容量為3.7 TB,總內(nèi)存為31 GB,可用內(nèi)存為22 GB;GPU 型號(hào)為GeForce GTX 1080Ti 的工作站1 個(gè),專用GPU 內(nèi)存為11 GB,共享GPU 內(nèi)存為16 GB。軟件環(huán)境為64 位的Ubuntu 16.04 LTS,CUDA10.0,Pytorch0.3.1,Python 3.5和gcc 5.4。

      2.1 數(shù)據(jù)預(yù)處理

      2.1.1 半波高斯量化器參數(shù)設(shè)置

      本文利用Lloyd 算法[13]可以得到半波高斯量化器的參數(shù)值,2 bit 均勻半波高斯量化器參數(shù)設(shè)置如表1 所示。

      表1 2 bit 均勻半波高斯量化器參數(shù)設(shè)置Table 1 Parameters setting of 2 bit uniform half-wave Gaussian quantizer

      2.1.2 ImageNet 數(shù)據(jù)集預(yù)處理

      針對(duì)ImageNet 數(shù)據(jù)集大、分辨率高和訓(xùn)練占用內(nèi)存大的特點(diǎn),為提高訓(xùn)練速度和方便實(shí)驗(yàn)調(diào)試,本文對(duì)原始的ImageNet數(shù)據(jù)集進(jìn)行預(yù)處理。在對(duì)訓(xùn)練集進(jìn)行Resize、隨機(jī)裁剪和隨機(jī)翻轉(zhuǎn)后,數(shù)據(jù)規(guī)模由原來(lái)的167 GB 變成13.5 GB;在對(duì)驗(yàn)證集進(jìn)行Resize和中心裁剪之后,數(shù)據(jù)規(guī)模由原來(lái)的6.7 GB 變成543.8 MB。預(yù)處理后每張圖片分辨率為227 像素×227 像素。表2 為ImageNet 數(shù)據(jù)集預(yù)處理前后數(shù)據(jù)規(guī)模對(duì)比結(jié)果,可以看出預(yù)處理前后的數(shù)據(jù)規(guī)模壓縮比約為12.5,通過(guò)預(yù)處理加快了訓(xùn)練和測(cè)試的速度。

      表2 ImageNet 數(shù)據(jù)集預(yù)處理前后的數(shù)據(jù)規(guī)模對(duì)比Table 2 Comparison of data scale before and after ImageNet dataset preprocessing

      2.2 壓縮比分析

      本文使用HWGQ+BWN 方法的壓縮效果較明顯,表3 為壓縮前和壓縮后的模型規(guī)模對(duì)比結(jié)果,可以看出,本文提出的混合壓縮方法在VGG14 和AlexNet 網(wǎng)絡(luò)結(jié)構(gòu)上的壓縮比分別為29.5 和30.8,接近理論值32。

      表3 網(wǎng)絡(luò)壓縮前后模型規(guī)模對(duì)比Table 3 Comparison of model scale before and after network compression

      2.3 測(cè)試精度分析

      對(duì)于小型數(shù)據(jù)集CIFAR-10 以及對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)VGG14,超參數(shù)設(shè)置具體如下:L2 正則化的權(quán)重衰減系數(shù)為1×10-5,迭代次數(shù)(epoch)為300,初始學(xué)習(xí)率為0.1,epoch 從150 開始,每隔50 個(gè)epoch 學(xué)習(xí)率降低10 倍,batch-size 為128,使用帶有momentum的SGD 作為參數(shù)優(yōu)化器,其中momentum 值為0.9,采用L2 正則化防止訓(xùn)練時(shí)產(chǎn)生過(guò)擬合現(xiàn)象,提高網(wǎng)絡(luò)泛化能力,選擇交叉熵作為損失函數(shù)。

      對(duì)于VGG14 網(wǎng)絡(luò)結(jié)構(gòu),HWGQ+BWN 方法得到的二值模型測(cè)試精度為91.3%,如圖7 所示,其中Full-Precision 表示未使用量化方法的原始網(wǎng)絡(luò)。在此基礎(chǔ)上,對(duì)二值模型進(jìn)行微調(diào)(HWGQ+BWN+Fine-tune),微調(diào)結(jié)果如圖8 所示??梢钥闯觯?dāng)最大迭代次數(shù)為10 時(shí),測(cè)試精度約穩(wěn)定于92.1%。

      圖7 3 種壓縮方法在VGG14 上的測(cè)試精度Fig.7 Test accuracy of three compression methods on VGG14

      圖8 HWGQ+BWN 方法的二值模型在VGG14 上的微調(diào)結(jié)果Fig.8 Fine-tune results of binary model of HWGQ+BWN method on VGG14

      基于CIFAR-10 數(shù)據(jù)集的4 種壓縮方法在VGG14 中的測(cè)試精度對(duì)比結(jié)果如表4 所示,可以看出本文所提的HWGQ+BWN+Fine-tune 方法相比HWGQ-Net 方法在壓縮模型規(guī)模保持不變的前提下,測(cè)試精度提高了0.8 個(gè)百分點(diǎn)。

      表4 CIFAR-10 數(shù)據(jù)集在VGG14 中的測(cè)試精度對(duì)比Table 4 Comparison of test accuracy of CIFAR-10 dataset in VGG14

      對(duì)于大型數(shù)據(jù)集ImageNet 以及對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)AlexNet,超參數(shù)設(shè)置具體如下:L2 正則化的權(quán)重衰減系數(shù)為1×10-5,epoch 為20,初始學(xué)習(xí)率為0.001,每隔5 個(gè)epoch 學(xué)習(xí)率降低10 倍,batch-size 為512,使用Adam[21]作為參數(shù)優(yōu)化器,選擇交叉熵作為損失函數(shù)。對(duì)于AlexNet 網(wǎng)絡(luò)結(jié)構(gòu),HWGQ+BWN 最終訓(xùn)練得到的二值模型Top-1 測(cè)試精度和Top-5 測(cè)試精度為50.7%和74.8%,如圖9 所示。在此基礎(chǔ)上,對(duì)二值模型進(jìn)行微調(diào)(HWGQ+BWN+Fine-tune),微調(diào)結(jié)果如圖10 和圖11 所示,可以看出在最大迭代次數(shù)約為20 時(shí),Top-1 測(cè)試精度和Top-5 測(cè)試精度約穩(wěn)定于52.7%和76.8%?;贗mageNet 數(shù)據(jù)集的4 種壓縮方法在AlexNet 中的測(cè)試精度對(duì)比結(jié)果如表5 所示,可以看出對(duì)于ImageNet 數(shù)據(jù)集,本文所提的HWGQ+BWN+Fine-tune 方法與相比HWGQNet 方法在壓縮模型規(guī)模保持不變的前提下,Top-1測(cè)試精度和Top-5 測(cè)試精度分別提高了2.0 和1.6 個(gè)百分點(diǎn)。

      圖9 3 種壓縮方法在AlexNet 上的測(cè)試精度Fig.9 Test accuracy of three compression methods on AlexNet

      圖10 HWGQ+BWN 方法的二值模型在AlexNet 上的Top-1微調(diào)結(jié)果Fig.10 Top-1 fine-tune results of binary model of HWGQ+BWN method on AlexNet

      圖11 HWGQ+BWN 方法的二值模型在AlexNet 上的Top-5微調(diào)結(jié)果Fig.11 Top-5 fine-tune results of binary model of HWGQ+BWN method on AlexNet

      表5 ImageNet 數(shù)據(jù)集在AlexNet 中的測(cè)試精度對(duì)比Table 5 Comparison of test accuracy of ImageNet dataset in AlexNet

      2.4 加速效果分析

      本文設(shè)計(jì)了一個(gè)具有加速作用的2 bit 均勻量化半波高斯量化器,能將浮點(diǎn)型卷積運(yùn)算轉(zhuǎn)化為簡(jiǎn)單的位運(yùn)算和同或運(yùn)算。如表6 所示,本文所提的HWGQ+BWN 方法通過(guò)對(duì)半波高斯量化器的改進(jìn),相比HWGQ-Net 方法實(shí)現(xiàn)了10 倍的訓(xùn)練加速,相比Full-Precision 方法實(shí)現(xiàn)了30 倍的訓(xùn)練加速。

      表6 3 種壓縮方法在訓(xùn)練過(guò)程中的加速比對(duì)比Table 6 Comparison of speedup ratio of three compression methods in the training process

      3 結(jié)束語(yǔ)

      本文提出一種神經(jīng)網(wǎng)絡(luò)壓縮方法,采用近似ReLU 的半波高斯量化器對(duì)輸入部分進(jìn)行量化,在反向傳播階段利用ReLU 函數(shù)解決梯度不匹配問(wèn)題。在此基礎(chǔ)上,通過(guò)改進(jìn)的2 bit 均勻半波高斯量化器加速訓(xùn)練過(guò)程,并采用交替更新方法對(duì)已訓(xùn)練的二值模型進(jìn)行縮放因子和二元權(quán)值微調(diào),進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)模型測(cè)試精度。實(shí)驗(yàn)結(jié)果表明,在神經(jīng)網(wǎng)絡(luò)模型規(guī)模保持不變的情況下,該方法能明顯提高模型測(cè)試精度并加快訓(xùn)練速度。下一步將研究不同稀疏度的半波高斯量化器對(duì)神經(jīng)網(wǎng)絡(luò)模型測(cè)試精度和加速效果的影響,并在滿足模型壓縮規(guī)模的條件下,將該半波高斯量化器與三值模型相結(jié)合進(jìn)一步提高測(cè)試精度。

      猜你喜歡
      半波二值高斯
      小高斯的大發(fā)現(xiàn)
      混沌偽隨機(jī)二值序列的性能分析方法研究綜述
      Y 分支光學(xué)調(diào)制器的半波電壓特性研究
      支持CNN與LSTM的二值權(quán)重神經(jīng)網(wǎng)絡(luò)芯片
      天才數(shù)學(xué)家——高斯
      磁各向異性媒質(zhì)中半波天線的輻射功率
      基于二值形態(tài)學(xué)算子的軌道圖像分割新算法
      半波帶法研究夫瑯禾費(fèi)單縫衍射的局限性分析*
      視頻圖像文字的二值化
      用半波帶法推導(dǎo)單縫夫瑯禾費(fèi)衍射暗紋條件的相關(guān)討論
      罗平县| 昌黎县| 南郑县| 南安市| 永州市| 富川| 金乡县| 定南县| 娄底市| 手游| 威信县| 平远县| 海晏县| 栾川县| 定安县| 天峨县| 惠州市| 柘城县| 兴仁县| 万年县| 铜梁县| 正蓝旗| 万宁市| 彝良县| 江川县| 湖北省| 宣武区| 平顶山市| 府谷县| 城口县| 新安县| 建瓯市| 南平市| 寿阳县| 赫章县| 宣威市| 曲靖市| 平谷区| 沾益县| 竹山县| 赤水市|