楊云航,閔連權(quán)
(中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450001)
草圖自古以來(lái)就是人與人溝通交流的重要手段。隨著電子技術(shù)的發(fā)展以及智能化水平的提高,人們通過(guò)草圖與電子設(shè)備進(jìn)行交互的需求也越來(lái)越高,草圖識(shí)別[1]逐漸成為計(jì)算機(jī)應(yīng)用領(lǐng)域的研究熱點(diǎn)。草圖識(shí)別就是將手繪草圖從筆觸端到空間認(rèn)知端的概念轉(zhuǎn)換,即在特定的草圖應(yīng)用領(lǐng)域背景下,將草圖圖像的非結(jié)構(gòu)化信息賦予具體的形狀語(yǔ)義解析[2]。傳統(tǒng)的草圖識(shí)別依靠尺度不變特征變換算子(Scale-Invariant Feature Transform,SIFT)和方向梯度直方圖(Histogram of Oriented Gradient,HOG)等手工特征提取器提取特征并進(jìn)行標(biāo)注分類(lèi),但手工提取特征方法需要對(duì)圖像進(jìn)行復(fù)雜的預(yù)處理,識(shí)別效果也一般。而深度學(xué)習(xí)在圖像識(shí)別、目標(biāo)檢測(cè)[3]以及圖像分割等領(lǐng)域展現(xiàn)出巨大的潛力。但手繪草圖不同于一般的彩色圖像,它具有高度的語(yǔ)義抽象性和結(jié)構(gòu)多樣性,以及特有的筆畫(huà)稀疏性,且缺少紋理和亮度信息。目前用于圖像識(shí)別的深度學(xué)習(xí)模型主要以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為基礎(chǔ),但大多數(shù)CNN模型均是針對(duì)一般自然圖像的特點(diǎn)而設(shè)計(jì),并不完全適用于具有筆畫(huà)稀疏性的手繪草圖識(shí)別工作。
文獻(xiàn)[4]提出了基于深度學(xué)習(xí)的草圖識(shí)別網(wǎng)絡(luò)Sketch-a-Net。在文獻(xiàn)[4]的基礎(chǔ)上,越來(lái)越多以深度學(xué)習(xí)方法為基礎(chǔ)的草圖識(shí)別模型不斷涌現(xiàn)。例如文獻(xiàn)[5]針對(duì)手繪草圖的形狀和結(jié)構(gòu)特點(diǎn),提出了以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的草圖識(shí)別深度網(wǎng)絡(luò)模型;文獻(xiàn)[6]又在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了基于特征融合草圖識(shí)別方法;文獻(xiàn)[7]借助基于BPSO的反向傳播網(wǎng)絡(luò)來(lái)對(duì)草圖進(jìn)行特征處理,進(jìn)而實(shí)現(xiàn)草圖識(shí)別;文獻(xiàn)[8]將語(yǔ)義樹(shù)與深度學(xué)習(xí)相融合以實(shí)現(xiàn)手繪草圖的識(shí)別;也有借助于基循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[9-10]和遞歸神經(jīng)網(wǎng)絡(luò)[11]來(lái)進(jìn)行草圖特征的提取工作,除了考慮草圖本身的結(jié)構(gòu)特征,還利用草圖筆畫(huà)的時(shí)序信息對(duì)草圖進(jìn)行初步分類(lèi)。
然而,大多數(shù)主流的基于深度學(xué)習(xí)的草圖識(shí)別模型都是依靠傳統(tǒng)的卷積方式來(lái)提取草圖特征,而忽略了草圖對(duì)象的筆畫(huà)結(jié)構(gòu),將其直接當(dāng)作自然圖像來(lái)獲取具有判別力的特征[8]。手繪草圖在二維空間中主要以曲線(xiàn)形式進(jìn)行信息傳遞[12],而圖像的其他區(qū)域都是由空白信息組成,如果用較小尺寸的卷積核來(lái)對(duì)草圖特征進(jìn)行提取,勢(shì)必導(dǎo)致曲線(xiàn)之間的空白區(qū)域的無(wú)效信息直接被提取,于是大多數(shù)基于深度學(xué)習(xí)的草圖特征提取模型,都在首層卷積層中使用較大的卷積核,以保證卷積核的感受野足夠大,進(jìn)而能夠提取到更多、更加完整的有效特征信息。
在普通的卷積操作過(guò)程中,卷積核都是由相鄰的若干個(gè)權(quán)重不為0的卷積單位組成的,一方面,為了更好提取手繪草圖的形狀特征而增大卷積核大小的方式會(huì)造成計(jì)算量的增加;另一方面,大的卷積核也會(huì)提取到曲線(xiàn)包圍范圍內(nèi)的空白無(wú)效特征,對(duì)于有效特征信息的提取和傳遞也會(huì)起到一定的干擾??紤]到這一情況,筆者將空洞卷積[13]引入到草圖識(shí)別中,利用空洞卷積不增加卷積核有效單元數(shù)量而擴(kuò)大感受野的特性,來(lái)實(shí)現(xiàn)對(duì)草圖結(jié)構(gòu)特征的提取,并將空洞卷積與普通卷積融合,以彌補(bǔ)空洞卷積提取特征過(guò)程中遠(yuǎn)距離卷積得到的信息相關(guān)性弱的問(wèn)題,通過(guò)這種多尺度融合特征提取方式來(lái)獲取更加完整的草圖特征信息。在此基礎(chǔ)上,筆者提出了基于空洞卷積的多尺度特征融合草圖識(shí)別模型(Dilated Convolution Sketch Net,DCSNet)。
在圖像分割領(lǐng)域,通常使用卷積和池化操作來(lái)增加感受野,同時(shí)也縮小了特征圖尺寸,然后再利用上采樣還原特征圖尺寸。特征圖縮小再放大的過(guò)程造成了分辨率的損失,空洞卷積的特點(diǎn)就是可以在增加感受野的同時(shí)保持輸出特征圖的大小不變,從而代替下采樣和上采樣操作??斩淳矸e與普通卷積的不同之處在于“擴(kuò)張率(dilation rate)”的引入,該參數(shù)定義了卷積核處理數(shù)據(jù)時(shí)各值的間距,具體含義就是在卷積核中填充了(dilation rate-1)個(gè)權(quán)重為0的卷積單元。相比原來(lái)的普通卷積,空洞卷積多了一個(gè)超參數(shù),即有效卷積單位的間隔數(shù)量,而普通卷積核的擴(kuò)張率為1,無(wú)0填充。當(dāng)使用多個(gè)擁有不同擴(kuò)張率的卷積核進(jìn)行組合的時(shí)候,相當(dāng)于將擁有不同的感受野卷積核進(jìn)行組合,即可獲取多尺度上下文信息。
空洞卷積的工作原理就是將卷積核的擴(kuò)張率設(shè)置為非1正整數(shù),即在標(biāo)準(zhǔn)的卷積核里間隔注入(dilation rate-1)個(gè)權(quán)重為0的空洞,以此來(lái)增加卷積操作的感受野。實(shí)際上,大多數(shù)手繪草圖圖像包含的實(shí)際有效信息十分有限,草圖大多數(shù)區(qū)域都是由空白信息所填充,雖然大的首層卷積核能更好地提取草圖的形狀特征,但是相對(duì)于草圖識(shí)別模型,過(guò)大的卷積核不僅會(huì)增加大量的計(jì)算量,也會(huì)影響整個(gè)網(wǎng)絡(luò)模型的識(shí)別精度。故在文中提出的DCSNet模型中,考慮到實(shí)驗(yàn)中使用的手繪草圖的實(shí)際尺寸,將基礎(chǔ)卷積核大小為 5×5、擴(kuò)張率為2的空洞卷積作為草圖特征提取的首層卷積層中的部分卷積核。
因?yàn)檩敵鎏卣鞯某叽绾涂斩磾?shù)無(wú)關(guān),因此可以利用空洞卷積不增加有效卷積單元數(shù)量而增大感受野,且輸出特征的尺寸保持不變的特性來(lái)進(jìn)行特征提取??斩淳矸e的卷積計(jì)算方式與普通卷積基本一致,對(duì)于輸入草圖數(shù)據(jù)F∈RH×W×m,生成的n個(gè)特征圖的任意卷積層的表達(dá)式為
Y′=Y×f′+b,
(1)
其中,Y′∈RH×W×n;f′∈Rm×k×k×n×d;b為偏置參數(shù);m為輸入通道數(shù),由于手繪草圖是單通道圖像,故m=1;n為輸出通道數(shù);d表示卷積核的擴(kuò)張率;k×k表示基礎(chǔ)卷積核的尺寸大小。例如,在文中構(gòu)建的DCSNet模型的首層卷積層中,令k=5,d=2,其等效的普通卷積核大小為k1*k1,k1的計(jì)算公式可表示為
k1=k+(k-1)(d-1) 。
(2)
使用的卷積操作的具體運(yùn)算過(guò)程為
(3)
空洞卷積提取草圖特征的具體操作過(guò)程如圖1所示。圖中左上角部分對(duì)應(yīng)的是空洞卷積與草圖空白區(qū)域的卷積過(guò)程。與同等大小的普通卷積核相比,最終的結(jié)果都是提取到無(wú)效的特征信息,但是空洞卷積的計(jì)算量卻大大降低了(與權(quán)重為0的卷積單元發(fā)生的卷積可視為無(wú)效)。左下角對(duì)應(yīng)的是空洞卷積與草圖中帶有筆畫(huà)信息的區(qū)域卷積的過(guò)程,因?yàn)椴輬D的稀疏性特性,由筆畫(huà)包圍的大部分區(qū)域也是由空白信息填充的,空洞卷積不僅能有效的提取到筆畫(huà)信息,也能將筆畫(huà)包圍的無(wú)效信息忽略,做到不遺漏特征信息的同時(shí)降低網(wǎng)絡(luò)參數(shù)。
圖1 空洞卷積提取草圖特征詳細(xì)過(guò)程
由空洞卷積操作得到的某一層的結(jié)果中,鄰近的像素是從相互獨(dú)立的子集中卷積得到的,相互之間缺少依賴(lài),故會(huì)存在局部信息丟失等問(wèn)題。而空洞卷積的稀疏采樣方式,也使得遠(yuǎn)距離卷積得到的信息之間沒(méi)有相關(guān)性,對(duì)分類(lèi)結(jié)果也有一定影響。為了解決以上問(wèn)題,在DCSNet模型的部分卷積采樣層中,將空洞卷積和普通卷積組合進(jìn)行使用,卷積層的輸出特征由兩部分組成。以首層卷積層輸出特征為例,一部分由擴(kuò)張率為2的5×5空洞卷積與輸入草圖卷積操作后的特征組成,另一部分則由普通9×9卷積核與輸入草圖卷積后特征組成,兩部分特征在通道上進(jìn)行拼接后,作為該層卷積層的輸出特征。這樣做的好處是:一方面解決了提取的特征信息相關(guān)性問(wèn)題,同時(shí)也保留了對(duì)草圖形狀特征的稀疏采樣操作;另一方面,使用不同擴(kuò)張率的卷積核,意味著可以擁有不同尺寸的感受野,即獲取了多尺度信息,充分利用了上下文多尺度信息在視覺(jué)任務(wù)中的優(yōu)勢(shì),且這樣的操作不會(huì)影響輸出特征的尺寸。經(jīng)過(guò)多尺度融合采樣輸出特征的計(jì)算過(guò)程為
YC=Y1⊕Y2,
(4)
Y1=max{Y*f1+b1,0} ,
(5)
Y2=max{Y*f2+b2,0} ,
(6)
其中,YC為該層卷積層的最終輸出,YC∈RH×W×2n,Y是草圖輸入數(shù)據(jù),Y1和Y2分別為空洞卷積和普通卷積操作的輸出結(jié)果,Y1∈RH×W×n,Y2∈RH×W×n,f1∈Rm×k×k×n×d,f2∈Rm×k×k×n。
為了對(duì)經(jīng)過(guò)卷積處理的特征進(jìn)行壓縮,并去除冗余信息,需要對(duì)其進(jìn)行池化降維處理,這是一種非線(xiàn)性降采樣的信息傳遞方法。下采樣層也稱(chēng)為池化層。池化層一般夾在連續(xù)的卷積層之間,用于壓縮上一層特征圖的參數(shù)量,過(guò)濾上層特征信息且保持輸出特征近似平移不變。最大池化、平均池化和隨機(jī)池化等都是常用的池化方法。在DCSNet模型中,選擇將最大池化和平均池化交替使用,對(duì)經(jīng)過(guò)卷積處理的特征進(jìn)行降維處理。使用的最大池化和平均池化的計(jì)算過(guò)程如式(7)和式(8)所示:
Mc=max(Ic(i,j)),i∈(1,H),j∈(1,W) ,
(7)
(8)
其中c表示第c個(gè)特征圖,Mc表示第c個(gè)特征圖經(jīng)過(guò)最大池化操作的輸出;m表示第m個(gè)特征圖,Am表示第m個(gè)特征圖經(jīng)過(guò)平均池化操作的輸出。
模型的全連接層一共3層,除了最后一層以外,其他層后都緊接著Dropout層。Dropout率為0.5,即舍棄50%輸出單元參數(shù)。然后通過(guò)Softmax函數(shù)得到輸入草圖樣本所屬種類(lèi)的概率分布輸出,設(shè)網(wǎng)絡(luò)原始輸出為yi(y1,y2,…,yn),經(jīng)過(guò)Softmax回歸函數(shù)處理之后的輸出可表示為
(9)
其中,c是分類(lèi)數(shù)量,yc*表示c的訓(xùn)練函數(shù)。Softmax對(duì)應(yīng)的損失函數(shù)為
(10)
其中,yk的取值為0或者1,草圖訓(xùn)練樣本的輸出為第i類(lèi),yi=1,其余的j≠i都有yj=0。
DCSNet模型主要包括8層,輸入數(shù)據(jù)由224×224像素大小的草圖圖像組成,其中采樣層由5層卷積層和5層池化層組成,模型結(jié)構(gòu)和模型參數(shù)如圖2和表1所示。與主流的基于卷積神經(jīng)網(wǎng)絡(luò)的草圖識(shí)別模型使用大尺度首層卷積核不同,在DCSNet模型的首層卷積層中,考慮到實(shí)際草圖的尺寸大小,使用的是k=9、d=1和k=5、d=2兩種卷積核,兩種卷積核的尺寸都相對(duì)較小。模型第2層和第4層使用的都是k=5、d=1和k=3、d=2組合卷積核,第3層和第5層分別使用k=5、d=2和k=5、d=1的卷積核。模型中所有卷積操作的步長(zhǎng)都為1,每次卷積操作后面接著使用ReLU激活函數(shù)進(jìn)行去線(xiàn)性化處理,卷積層后交替使用步長(zhǎng)為2的最大池化和平均池化對(duì)輸出特征進(jìn)行降維處理,縮小圖像的尺寸,并在最后去掉了局部相應(yīng)歸一化(Local Response Normalization,LRN)操作。DCSNet模型各階段的輸入與輸出數(shù)據(jù)參數(shù)如表1所示,其中Conv-DC表示空洞卷積,Conv-C表示普通卷積。
圖2 DCSNet網(wǎng)絡(luò)模型結(jié)構(gòu)
表1 DCSNet模型部分參數(shù)
實(shí)驗(yàn)中選擇自適應(yīng)學(xué)習(xí)率作為模型的優(yōu)化算法。設(shè)全局學(xué)習(xí)率為λ,衰減速率為ρ,初始參數(shù)為θ,小常數(shù)δ=10-6,初始化累積變量r=0;從訓(xùn)練集中采集m個(gè)樣本{x(1),…,x(m)}的小批量,x(i)對(duì)應(yīng)y(i)。梯度、累計(jì)平方梯度、參數(shù)更新量的計(jì)算方法如下:
(11)
r←ρr+(1-ρ)g⊙g,
(12)
(13)
文獻(xiàn)[1]組織收集整理的手繪草圖集TU-Berlin Sketch,是目前草圖識(shí)別領(lǐng)域應(yīng)用最廣泛的數(shù)據(jù)集之一,故將其作為有效性驗(yàn)證的實(shí)驗(yàn)數(shù)據(jù)。數(shù)據(jù)集包含250類(lèi)常見(jiàn)的手繪草圖,每類(lèi)草圖包含80幅由不同人群手繪完成的草圖,總計(jì)20 000幅。文中選擇PNG圖片格式的數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,草圖的原始像素大小為1 111×1 111,數(shù)據(jù)集部分草圖如圖3所示。
圖3 TU-Berlin SKetch草圖樣例
由于深度學(xué)習(xí)方法需要大量數(shù)據(jù)支撐,訓(xùn)練樣本數(shù)量過(guò)少模型可能會(huì)出現(xiàn)過(guò)擬合的問(wèn)題,故文中采用旋轉(zhuǎn)、圖像平移、加噪、鏡像翻轉(zhuǎn)、隨機(jī)切割、尾部移除等數(shù)據(jù)增強(qiáng)方法對(duì)TU-Berlin SKetch數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)增。以上數(shù)據(jù)擴(kuò)增策略讓草圖數(shù)據(jù)集的圖像數(shù)量擴(kuò)增為原來(lái)的6倍。數(shù)據(jù)擴(kuò)增的方法不僅可以增加訓(xùn)練樣本數(shù)量,同時(shí)可以在一定程度上緩解模型過(guò)擬合,提高模型的泛化能力,也提升了實(shí)驗(yàn)過(guò)程的穩(wěn)定性以及實(shí)驗(yàn)結(jié)果的魯棒性。例如,圖像平移的方法可以使得網(wǎng)絡(luò)學(xué)習(xí)到平移不變的特征;圖像旋轉(zhuǎn)的方法可以讓網(wǎng)絡(luò)學(xué)習(xí)旋轉(zhuǎn)不變的特征,在實(shí)際應(yīng)用中,草圖可能有多種不同的姿態(tài),旋轉(zhuǎn)正好可以彌補(bǔ)樣本中姿態(tài)較少的問(wèn)題;而圖像鏡像和旋轉(zhuǎn)的功能類(lèi)似;加噪、隨機(jī)切割、尾部移除都是草圖應(yīng)用領(lǐng)域的常用數(shù)據(jù)擴(kuò)增策略。
實(shí)驗(yàn)中使用的深度學(xué)習(xí)框架為谷歌推出的Tensorflow,算法采用python編程語(yǔ)言實(shí)現(xiàn),開(kāi)發(fā)平臺(tái)為Pycharm。在CPU環(huán)境(Intel(R)Core(TM)i7-8750H CPU @2.20 GHZ CPU)和GPU環(huán)境(NVIDIA GeForce GTX 1660 Ti GPU)下進(jìn)行訓(xùn)練。實(shí)驗(yàn)中使用的草圖數(shù)據(jù)集一共有120 000張草圖圖像,并按照3∶1∶1的比例將其劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,三者的數(shù)量分別為72 000、24 000和24 000。為了減少實(shí)驗(yàn)運(yùn)算量,將所有圖像降維到224×224像素,訓(xùn)練結(jié)果采用驗(yàn)證集上的平均識(shí)別準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)使用的度量標(biāo)準(zhǔn)為網(wǎng)絡(luò)的驗(yàn)證集樣本的識(shí)別準(zhǔn)確率(Top1準(zhǔn)確率)。準(zhǔn)確率是指正確分類(lèi)樣本的圖像數(shù)量在所有樣本中的比例:racc=a/y,racc代表驗(yàn)證集中圖像識(shí)別準(zhǔn)確率,a表示驗(yàn)證集中識(shí)別結(jié)果正確的樣本數(shù)量,y表示驗(yàn)證集總樣本數(shù)量。
實(shí)驗(yàn)中,將筆者提出的方法與傳統(tǒng)手工特征提取再進(jìn)行標(biāo)注分類(lèi)的草圖識(shí)別方法以及基于深度學(xué)習(xí)的識(shí)別方法進(jìn)行對(duì)比分析。對(duì)比方法包括HOG-SVM[1]、SIFT-Fisher Vector[14]、AlexNet[15]、Sketch-a-Net[4]、Sketch-Net[16]、deep-CRNN-sketch[11]和DCSN[5],不同方法在TU-Berlin SKetch數(shù)據(jù)集上的最終識(shí)別準(zhǔn)確率結(jié)果如表2所示。
表2 不同方法對(duì)應(yīng)草圖識(shí)別準(zhǔn)確率結(jié)果對(duì)比 %
與傳統(tǒng)的非深度學(xué)習(xí)方法HOG-SVM、SIFT-Fisher Vector相比,文中方法在TU-Berlin SKetch數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別提升了16.6%和11.1%;與經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet相比,文中方法的識(shí)別準(zhǔn)確率提升了6.7%;與主流基于深度學(xué)習(xí)的草圖識(shí)別模型Sketch-a-Net、Sketch-Net、DCSN、deep-CRNN-sketch相比,文中方法的識(shí)別準(zhǔn)確率分別提升了3.0%、2.2%、2.1%和0.8%。實(shí)驗(yàn)結(jié)果表明:①基于深度學(xué)習(xí)的草圖識(shí)別方法在TU-Berlin SKetch數(shù)據(jù)集上的識(shí)別效果整體上都優(yōu)于傳統(tǒng)的非深度學(xué)習(xí)方法;②針對(duì)草圖識(shí)別而專(zhuān)門(mén)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型的性能又優(yōu)于針對(duì)自然圖片識(shí)別任務(wù)的神經(jīng)網(wǎng)絡(luò)模型;③引入空洞卷積來(lái)進(jìn)行草圖的形狀特征提取的方法是有效的,將空洞卷積和普通卷積組合的方式也能進(jìn)一步提升模型在TU-Berlin SKetch數(shù)據(jù)集上的識(shí)別準(zhǔn)確率。
為了探究空洞卷積對(duì)草圖形狀特征提取的有效性,將文中的模型的首層卷積核作為變量,做了以下3組對(duì)照實(shí)驗(yàn)。第1組對(duì)照實(shí)驗(yàn)是將首層卷積核尺寸設(shè)置為5×5,擴(kuò)張率為1;第2組對(duì)照實(shí)驗(yàn)是將首層卷積核尺寸設(shè)置為9×9,擴(kuò)張率為1;第3組對(duì)照實(shí)驗(yàn)是將首層卷積核尺寸設(shè)置為5×5,擴(kuò)張率為2。3組對(duì)照實(shí)驗(yàn)除了首層卷積核參數(shù)與DCSNet模型不同以外,其余部分與DCSNet模型一致。第1組對(duì)照實(shí)驗(yàn)是為了驗(yàn)證大尺寸首層卷積核與小尺寸空洞卷積核的性能差異,第2組對(duì)照實(shí)驗(yàn)是為了驗(yàn)證感受野相同的普通卷積核與空洞卷積核的性能差異,第3組對(duì)照實(shí)驗(yàn)是為了驗(yàn)證只使用空洞卷積和將空洞卷積與普通卷積組合使用兩種方式對(duì)草圖特征提取的影響程度。對(duì)照實(shí)驗(yàn)是為了探究首層卷積核參數(shù)對(duì)模型的識(shí)別準(zhǔn)確率的影響規(guī)律,不同首層卷積核參數(shù)對(duì)應(yīng)的模型識(shí)別準(zhǔn)確率隨迭代次數(shù)變化趨勢(shì)如圖4所示。表3是不同首層卷積核參數(shù)對(duì)應(yīng)的最終草圖識(shí)別正確率對(duì)比,表中k表示卷積核實(shí)際有效尺寸,d表示擴(kuò)張率大小。
表3 不同首層卷積核參數(shù)對(duì)應(yīng)的草圖識(shí)別正確率
圖4 對(duì)照組實(shí)驗(yàn)對(duì)應(yīng)模型識(shí)別準(zhǔn)確率
實(shí)驗(yàn)結(jié)果表明,首層卷積核尺寸為5×5、擴(kuò)張率為2的空洞卷積與卷積核尺寸為9×9、擴(kuò)張率為1的普通卷積的組合方式,比首層卷積核大小為5×5、擴(kuò)張率為1和卷積核大小為9×9、擴(kuò)張率為1以及卷積核大小為5×5、擴(kuò)張率為2的方式識(shí)別準(zhǔn)確率分別提高了3.7%、2.3%和1.1%??梢缘贸觯孩?在首層卷積核中,使用空洞卷積和普通卷積融合的方式對(duì)草圖特征的提取效果優(yōu)于對(duì)照實(shí)驗(yàn)中的其它方式。② 對(duì)于擁有相同大小感受野的空洞卷積和普通卷積,空洞卷積能更好地提取草圖形狀特征。出現(xiàn)這種現(xiàn)象的原因有兩點(diǎn),一是將空洞卷積和普通卷積融合,意味著可以擁有不同尺寸的感受野,即獲取了多尺度信息,提高了卷積核對(duì)草圖特征的提取能力;二是空洞卷積對(duì)于草圖的稀疏性特性擁有更好的適應(yīng)能力,能更有效地提取到草圖的形狀特征。此外,空洞卷積的擴(kuò)張率大小可能也會(huì)對(duì)草圖特征的提取效率產(chǎn)生影響,這也是下一步將要深入研究的方向。
筆者將空洞卷積引入手繪草圖的形狀特征提取中,并以經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型AlexNet為基礎(chǔ),構(gòu)建了采用空洞卷積的多尺度融合草圖識(shí)別模型。通過(guò)空洞卷積和普通卷積的組合,提高網(wǎng)絡(luò)對(duì)草圖形狀結(jié)構(gòu)特征的提取能力,進(jìn)而提高模型的草圖識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,筆者提出的DCSNet模型相較于文獻(xiàn)中的草圖識(shí)別方法和模型,在TU-Berlin SKetch數(shù)據(jù)集上擁有更高的識(shí)別準(zhǔn)確率。
在未來(lái)的工作中,將進(jìn)一步擴(kuò)展空洞卷積對(duì)草圖圖像結(jié)構(gòu)特征的處理機(jī)制,探討卷積核尺寸以及擴(kuò)張率大小對(duì)草圖特征提取能力的影響程度。