趙 琛,朱 明,顧飛楊
(安徽大學(xué) 集成電路學(xué)院,合肥 230601)
草圖作為一種簡(jiǎn)單的交流和記錄工具,一直被人們廣泛使用.近年來,隨著各種觸摸設(shè)備的普及和分類技術(shù)的發(fā)展,草圖分類問題受到了研究人員的廣泛關(guān)注,相關(guān)的研究取得了很大的進(jìn)展.
與普通圖像不同,草圖僅由稀疏線條組成.由于不同的人有不同的繪畫習(xí)慣,即使是同一個(gè)物體也可能被繪制出完全不同的風(fēng)格.有的繪畫風(fēng)格相對(duì)簡(jiǎn)單,只畫最具代表性的部分,而有的則習(xí)慣于把所有的細(xì)節(jié)都描繪出來.此外,一些不同類別的草圖具有很大的相似性,例如香蕉和月亮,很難區(qū)分它們.因此,草圖分類是一個(gè)具有挑戰(zhàn)性的問題.
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,許多基于卷積神經(jīng)網(wǎng)絡(luò)的方法被運(yùn)用于草圖分類[1-16],并取得了較好的效果.但是大多數(shù)現(xiàn)有方法僅使用一種或兩種特征,對(duì)特征的利用不夠充分,分類準(zhǔn)確率不高.本文希望利用更多的特征來表征草圖,提高分類效果.基于上述原因,本文提出了一種基于多特征的雙階段草圖分類方法,該方法分兩個(gè)階段進(jìn)行訓(xùn)練,初訓(xùn)練階段,分別獲得草圖的粗粒度特征、細(xì)粒度特征與輪廓特征的單特征分類結(jié)果;再訓(xùn)練階段,通過融合模塊將各特征的分類結(jié)果進(jìn)行融合,得到最終的分類結(jié)果.雙階段訓(xùn)練使得各特征的提取更加充分,融合模塊使得各特征的分類結(jié)果更好地融合,最終得到更好的分類效果.本文的主要貢獻(xiàn)如下:
1)建立了一個(gè)基于多特征的雙階段草圖分類框架,通過雙階段訓(xùn)練更好地提取草圖的每種特征.
2)引入雙線性池化以獲得更具有辨別力的細(xì)粒度特征,通過草圖的輪廓圖像獲得草圖的輪廓特征.
3)提出了一種分類結(jié)果融合模塊,將草圖的粗粒度特征、細(xì)粒度特征與輪廓特征的分類結(jié)果進(jìn)行動(dòng)態(tài)地融合,得到更好的分類效果;同時(shí)提出了一個(gè)正則化項(xiàng),減緩該融合模塊的過擬合.
草圖具有直觀、簡(jiǎn)單的特點(diǎn),受到許多研究者的廣泛關(guān)注.以草圖為研究對(duì)象,出現(xiàn)了很多研究方向,如草圖分類[1-17]、草圖檢索和草圖分割等,草圖分類是其中一個(gè)重要的研究方向.與草圖相關(guān)的研究最開始都面臨一個(gè)共同的問題,即缺乏數(shù)據(jù)集.Eitz等人[17]收集了第一個(gè)大型草圖數(shù)據(jù)集TUBerlin,每個(gè)草圖都是由非專業(yè)畫家完成的.該數(shù)據(jù)集是該領(lǐng)域常用的基準(zhǔn)數(shù)據(jù)集,人類對(duì)于該數(shù)據(jù)集的平均識(shí)別準(zhǔn)確率為73.1%.
從特征提取方法的角度來看,草圖分類的研究可分為兩類:基于手工特征的方法和基于深度學(xué)習(xí)的方法.基于手工特征的方法是從草圖中提取某些手工特征,如SIFT(Scale-Invariant Feature Transform)特征、HOG(Histogram of Oriented Gradient)特征和形狀上下文特征等,利用這些特征對(duì)草圖進(jìn)行分類.盡管這些特征可以從不同角度對(duì)草圖進(jìn)行有效地描述,但它們的分類準(zhǔn)確率相對(duì)較低,遠(yuǎn)低于人類的平均識(shí)別準(zhǔn)確率.隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,各種神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域取得了顯著的成效,尤其是卷積神經(jīng)網(wǎng)絡(luò),被廣泛應(yīng)用于圖像特征的提取.近年來,受卷積神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域成功應(yīng)用的啟發(fā),許多用于草圖分類的卷積神經(jīng)網(wǎng)絡(luò)被提出.
Yu等人[1]設(shè)計(jì)了一個(gè)名為sketch-a-net的多通道卷積神經(jīng)網(wǎng)絡(luò),將草圖分成多個(gè)部分,以提取更多的特征,該方法的分類準(zhǔn)確率首次超過了人類的平均識(shí)別準(zhǔn)確率;隨后,Yu等人[2]又提出了一種改進(jìn)的草圖分類網(wǎng)絡(luò)“sketch-a-net2”,通過幾種適合草圖的數(shù)據(jù)增廣方法對(duì)草圖進(jìn)行了數(shù)據(jù)增廣;Sarvavavabhatla等人[3]提出了一種基于深度特征的草圖識(shí)別框架;Yang 等人[4]設(shè)計(jì)了一個(gè)具有超大卷積核的神經(jīng)網(wǎng)絡(luò)用于草圖分類;Sert等人[5]提出了一種基于遷移學(xué)習(xí)與特征融合的手繪草圖識(shí)別方法;Zhang等人[6]提出了一種動(dòng)態(tài)獲取草圖關(guān)鍵點(diǎn)的草圖分類方法,以解決在特征提取過程中計(jì)算方式被完全固化的問題.Shi等人[7]提出了一種可變形卷積神經(jīng)網(wǎng)絡(luò),能夠識(shí)別草圖的形變,從而在草圖數(shù)據(jù)集上獲得更高的分類精度;Zhang等人[8]提出了一種表親網(wǎng)絡(luò),將從自然圖像中學(xué)習(xí)到的知識(shí)轉(zhuǎn)移到草圖中以提取更多的相關(guān)特征;He等人[9]提出了DVSF(Deep Visual-Sequential Fusion)模型,以獲得草圖的視覺特征和序列特征.Zhang等人[10]設(shè)計(jì)了一個(gè)由a-Net和S-Net組成的混合卷積神經(jīng)網(wǎng)絡(luò)以獲得草圖的外觀特征和形狀特征.Kong等人[11]提出了一種采用深度可分離卷積的輕量級(jí)神經(jīng)網(wǎng)絡(luò),在減少參數(shù)的同時(shí),可針對(duì)草圖的稀疏性對(duì)網(wǎng)絡(luò)進(jìn)行有效地調(diào)整.
以前的方法大多基于單一特征或者兩種特征,本文提出的方法與以往文獻(xiàn)中的方法有較大的不同,采用了更豐富的特征.此外,融合模塊和雙階段訓(xùn)練方式使得特征的提取與利用更加充分.
本節(jié)將介紹用于草圖分類的多特征聯(lián)合模型總體結(jié)構(gòu)與雙階段訓(xùn)練方法.如圖1所示,該模型由輪廓提取模塊、4個(gè)分支網(wǎng)絡(luò)及分類結(jié)果融合模塊構(gòu)成.其中,輪廓提取模塊用于提取草圖的輪廓;細(xì)粒度特征分支網(wǎng)絡(luò)1與細(xì)粒度特征分支網(wǎng)絡(luò)2用于獲得草圖的細(xì)粒度特征分類結(jié)果;輪廓特征分支網(wǎng)絡(luò)用于獲得草圖的輪廓特征分類結(jié)果;粗粒度特征分支網(wǎng)絡(luò)用于獲得草圖的粗粒度特征分類結(jié)果;分類結(jié)果融合模塊是一個(gè)可訓(xùn)練的模塊,將各特征分類結(jié)果進(jìn)行融合,得到最終的分類結(jié)果.
圖1 多特征聯(lián)合模型與雙階段訓(xùn)練結(jié)構(gòu)圖Fig.1 Structure diagram of multi-feature joint model and two-stage training
4個(gè)分支網(wǎng)絡(luò)的主干網(wǎng)絡(luò)為Resnet18或Resnet18的一部分.Resnet18是Resnet網(wǎng)絡(luò)[18]的一種,包含4個(gè)殘差塊集合,具體如圖2所示.殘差塊通過短路連接實(shí)現(xiàn),短路連接大大加快了模型的訓(xùn)練速度,并且可以抑制梯度消失與梯度爆炸.
圖2 Resnet18結(jié)構(gòu)圖Fig.2 Resnet18 structure diagram
對(duì)草圖進(jìn)行分類時(shí),粗粒度特征、細(xì)粒度特征以及輪廓特征的結(jié)合可以極大地提高草圖的分類準(zhǔn)確率.在模型訓(xùn)練時(shí),如果各分支網(wǎng)絡(luò)一起進(jìn)行訓(xùn)練,模型只會(huì)重點(diǎn)關(guān)注某類特征,并不能充分提取各類特征.因此,本文將每一個(gè)分支網(wǎng)絡(luò)單獨(dú)進(jìn)行訓(xùn)練,分類結(jié)果融合模塊的訓(xùn)練在分支網(wǎng)絡(luò)全部訓(xùn)練完畢后進(jìn)行.總體來說,本文采用一種雙訓(xùn)練模式,在初訓(xùn)練階段,對(duì)各分支網(wǎng)絡(luò)分別進(jìn)行訓(xùn)練得到各類特征的分類結(jié)果;在再訓(xùn)練階段,固定初訓(xùn)練階段所得的各分支網(wǎng)絡(luò)參數(shù),通過可訓(xùn)練的分類結(jié)果融合模塊將各特征分類結(jié)果進(jìn)行融合,得到最終的分類結(jié)果.雙階段訓(xùn)練方式將每種特征的提取分開進(jìn)行,使得模型盡可能地提取該類特征,而不受其他特征的影響.融合模塊將各特征的分類結(jié)果進(jìn)行動(dòng)態(tài)地調(diào)整及合并,可以充分利用不同特征的分類結(jié)果.
將草圖圖像作為輸入送入Resnet18中,通過全局平均池化可以直接得到草圖的粗粒度特征,然后通過分類模塊得到該特征的分類結(jié)果,具體如圖4所示.其中分類模塊由一個(gè)全連接層組成,將特征映射為分類結(jié)果.
草圖的顏色單調(diào),表達(dá)能力有限,某些不同類別的草圖紋理極其相似,但是其輪廓依然有很大的差別;同時(shí),卷積神經(jīng)網(wǎng)絡(luò)在某種程度上更關(guān)注于紋理特征,而忽略對(duì)草圖輪廓特征的提取.如圖3所示,籃子、羽毛球拍及汽車都具有一些相似的紋理,神經(jīng)網(wǎng)絡(luò)可能會(huì)出現(xiàn)誤判,但是它們的輪廓具有明顯的不同,將紋理進(jìn)行剔除,通過輪廓圖像更容易對(duì)它們進(jìn)行區(qū)分.類似文獻(xiàn)[23],本文通過設(shè)計(jì)的草圖輪廓提取程序?qū)Σ輬D進(jìn)行輪廓提取,再將草圖輪廓圖像送入Resnet18,通過全局平均池化獲得草圖的輪廓特征,最后通過分類模塊得到輪廓特征的分類結(jié)果,具體如圖4所示.
圖3 輪廓提取示意圖Fig.3 Schematic diagram of contour extraction
圖4 輪廓特征分支網(wǎng)絡(luò)與粗粒度特征分支網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Structure diagram of contour feature branch network and coarse-grained feature branch network
由于手繪草圖缺少色彩,僅靠線條表示物體,含有的信息較少,因此一些不同類別的草圖具有很高的相似性,很難區(qū)分它們.比如香蕉與月亮,它們之間僅僅有些細(xì)節(jié)方面的不同,若想?yún)^(qū)分它們就需要提取更多的細(xì)節(jié)信息.為了解決這個(gè)問題,本文引入了細(xì)粒度特征分支網(wǎng)絡(luò).
由于細(xì)粒度特征屬于局部特征,主要分布在淺層網(wǎng)絡(luò),而本文的主干網(wǎng)絡(luò)為Resnet18,因此在Resnet18的前幾層網(wǎng)絡(luò)中提取細(xì)粒度特征,可以在Resnet18的第1層大尺度卷積池化層及殘差塊集合1、2、3進(jìn)行細(xì)粒度特征的提取.由于第1層大尺度卷積池化層及殘差塊集合1的層數(shù)過淺,一些局部信息還沒有被充分地提取,因此本文分別取Resnet18的第2個(gè)殘差塊及其前面的網(wǎng)絡(luò)與第3個(gè)殘差塊及其前面的網(wǎng)絡(luò)作為兩個(gè)細(xì)粒度特征分支網(wǎng)絡(luò)主干.此外,為了更好地在淺層網(wǎng)絡(luò)中提取特征,引入了雙線性池化[19]化,它是Lin等人提出的一種被廣泛應(yīng)用于細(xì)粒度圖像分類的方法,可以簡(jiǎn)單理解為將兩個(gè)特征通過外乘進(jìn)行融合以獲得更具有辨別力的特征,或者將單個(gè)特征通過外乘從一階特征推廣到表征能力更強(qiáng)的二階特征,雙線性池化在細(xì)粒度圖像分類領(lǐng)域的有效性已經(jīng)被證明,并被廣泛應(yīng)用.本文在細(xì)粒度特征分支網(wǎng)絡(luò)中加入雙線性池化以提取豐富的細(xì)粒度特征用于草圖分類,具體如圖5所示.
圖5 細(xì)粒度特征分支網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 fine-grained characteristic branch network structure diagram
雙線性池化可由表示B=(gA,gB,P),其中g(shù)A,gB分別表示兩個(gè)特征提取器,P表示池化方式.如果gA和gB不相同,則被稱為多模雙線性池化,如果相同,則被稱為同源雙線性池化,池化方式又分為求和池化和最大池化.雙線性池化通過將gA,gB兩個(gè)特征提取器所提取的特征進(jìn)行雙線性融合與池化實(shí)現(xiàn).
本文采用同源雙線性池化,即gn與gB相同,將Resnet18的部分網(wǎng)絡(luò)當(dāng)作特征提取器,池化方式采用求和池化,具體實(shí)現(xiàn)方式如式(1)~式(5)所示:
bilinear(l,G,gA,gB)=gAT(l,G)gB(l,G) ∈RM×N
(1)
(2)
w=vec(ξ(G)) ∈RMN×1
(3)
(4)
z=y/‖y‖2∈RMN×1
(5)
式(1)中,gA(l,G)與gB(l,G)表示特征提取器gA,gB在圖片G,位置l處提取的特征,維度分別為C×M與C×N;bilinear(l,G,gA,gB)表示將通過特征提取器gA,gB在圖片G位置l處提取的特征進(jìn)行雙線性融合,融合通過外乘實(shí)現(xiàn),融合后的特征維度為M×N.式(2)中,ξ(G)表示將所有位置L處的特征通過雙線性融合并求和池化后得到的輸出特征,維度為M×N.式(3)中,vec表示將池化后的特征ξ(G)拉伸為一維,w表示拉伸后的特征,維度為MN×1.式(4)表示矩歸一化操作,式(5)表示L2歸一化操作,z為最終的輸出特征,維度為MN×1.
在深度學(xué)習(xí)領(lǐng)域,分類器大多采用全連接層實(shí)現(xiàn),可分為線性分類器和非線性分類器,在本文中采用的分類器為一個(gè)線性分類器,由一個(gè)全連接層實(shí)現(xiàn),具體如式(6)所示:
t=z×W+B
(6)
其中z為輸入的特征W,B為全連接層的參數(shù).如果z的特征為m維,分類類別為n類,那么全連接層的參數(shù)W為m×n為維,B為n維.輸入特征通過該分類器,輸出一個(gè)n維向量t,對(duì)應(yīng)于n類的分類類別,可通過softmax獲得輸入屬于每類的概率,某一維的數(shù)值越大表明輸入屬于該類的可能性越高,數(shù)值最大的維度對(duì)應(yīng)的類別即為分類結(jié)果.
由于本文采用雙階段訓(xùn)練模式,在初訓(xùn)練階段,已對(duì)各分支網(wǎng)絡(luò)分別訓(xùn)練得到了各類特征的分類結(jié)果.為了在再訓(xùn)練階段,更好地將各特征的分類結(jié)果進(jìn)行融合,本文提出了一種可訓(xùn)練的分類結(jié)果融合模塊.該模塊可以動(dòng)態(tài)地調(diào)整不同特征的分類結(jié)果在最終分類時(shí)所占的比重,提高分類準(zhǔn)確率.分類結(jié)果融合示意圖如圖6所示.
圖6 分類結(jié)果融合示意圖Fig.6 Schematic diagram of classification result fusion
分類結(jié)果融合模塊可由式(7)表示:
fuse(f0,f1,f2,f3)=sum(cat(f0,f1,f2,f3)⊙S)
(7)
式(7)中f0,f1,f2,f3分別表示粗粒度特征、輪廓特征及兩個(gè)細(xì)粒度特征的分類結(jié)果,cat表示拼接,S是一個(gè)可訓(xùn)練的融合矩陣,⊙表示點(diǎn)乘,sum表示求和.將f0,f1,f2,f3進(jìn)行拼接產(chǎn)生一個(gè)合并矩陣,先將該矩陣與融合矩陣S進(jìn)行點(diǎn)乘,然后按類別將預(yù)測(cè)結(jié)果進(jìn)行求和,產(chǎn)生最終的分類輸出.點(diǎn)乘⊙的具體過程如式(8)所示:
(8)
式(8)中,n為草圖的類別數(shù),fi,j表示第i個(gè)特征對(duì)草圖是否屬于第j類的判斷值,與該特征對(duì)他類別的判斷值相比,該值越大,草圖屬于第j類的概率越大.Si,j表示對(duì)fi,j的權(quán)重,可調(diào)整fi,j在最終判定時(shí)所占的比重,Fi,j是調(diào)整后的結(jié)果.
交叉熵?fù)p失函數(shù)經(jīng)常被用于分類問題,如式(9)所示:
(9)
式(9)中,D是樣本總數(shù),n是類別數(shù),tk的維度為n,表示第k個(gè)樣本在分類器(全連接層)后的輸出或分類結(jié)果融合后的輸出,yk表示第k個(gè)樣本的真實(shí)類別.
本文在初訓(xùn)練階段時(shí),直接采用交叉熵?fù)p失函數(shù);在再訓(xùn)練階段時(shí),為了減緩分類結(jié)果融合模塊的過擬合,提出了一個(gè)正則化項(xiàng),如式(10)所示,將其與交叉熵?fù)p失函數(shù)同時(shí)使用.
LM=∑j∈Jmax(std(Sj)-m,0)
(10)
式(10)中,std表示取方差,m為一個(gè)可設(shè)置的閾值,使得融合矩陣對(duì)每個(gè)特征分類結(jié)果的加權(quán)參數(shù)(每一列)保持方差穩(wěn)定.在再訓(xùn)練階段時(shí),損失函數(shù)如式(11)所示:
(11)
本文在TUBerlin數(shù)據(jù)集[17]上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集包含250個(gè)類別.每個(gè)類別包含80個(gè)草圖,數(shù)據(jù)集中的樣本總數(shù)為20000個(gè).圖7為TUBerlin數(shù)據(jù)集中的某些示例.
圖7 TUBerlin數(shù)據(jù)集示例圖Fig.7 Sample diagram of Tuberlin dataset
本文使用pytorch框架實(shí)現(xiàn)了該模型.在訓(xùn)練階段,兩次訓(xùn)練分別采用了Adam優(yōu)化器與SGD優(yōu)化器,學(xué)習(xí)率分別設(shè)置為0.0001與0.01,批次大小分別設(shè)置為32和50,并采用了水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增廣.在實(shí)驗(yàn)部分,將訓(xùn)練集和測(cè)試集按2∶1的比例劃分,同時(shí)將訓(xùn)練集按9∶1的比例再次分成兩部分,一部分用于初訓(xùn)練階段各分支網(wǎng)絡(luò)的訓(xùn)練,另一部分用于再訓(xùn)練階段分類結(jié)果融合模塊的訓(xùn)練.因此,初訓(xùn)練階段訓(xùn)練集、再訓(xùn)練階段訓(xùn)練集與測(cè)試集比例為9∶1∶5.為了便于同其他方法做對(duì)比,也進(jìn)行了訓(xùn)練集和測(cè)試集其他比例的實(shí)驗(yàn).此外,本文使用了在imagenet大型數(shù)據(jù)集上的預(yù)訓(xùn)練參數(shù)初始化網(wǎng)絡(luò).
為了驗(yàn)證不同特征分類結(jié)果融合的有效性,本文比較了不同數(shù)量的特征分類結(jié)果融合的效果,如表1所示.其中f0f1f2f3分別表示粗粒度特征、輪廓特征及兩個(gè)細(xì)粒度特征的分類結(jié)果.
表1 不同特征分類結(jié)果及相互間不同融合的對(duì)比Table 1 Comparison of different feature classification results and different fusion between them
從實(shí)驗(yàn)結(jié)果可以看出,多個(gè)特征的分類結(jié)果融合比單個(gè)特征的分類效果更好,當(dāng)采用4個(gè)特征的分類結(jié)果融合時(shí),效果最好.這是因?yàn)槎鄠€(gè)特征分類結(jié)果的融合可以更好地利用草圖的輪廓特征,細(xì)粒度特征和粗粒度特征,識(shí)別出一些難以區(qū)分的草圖.
為了比較從不同淺層網(wǎng)絡(luò)提取的細(xì)粒度特征的分類效果,本文比較了使用主干網(wǎng)絡(luò)Resnet18中第1層大尺度卷積池化層后的特征分類結(jié)果ffirst conv,第1個(gè)殘差塊集合后的特征分類結(jié)果ffirst res,第2個(gè)殘差塊集合后的特征分類結(jié)果f2及第3個(gè)殘差塊集合后的特征分類結(jié)果f3,實(shí)驗(yàn)結(jié)果如表2所示.
表2 不同網(wǎng)絡(luò)層提取細(xì)粒度特征的分類效果對(duì)比Table 2 Comparison of classification effects of fine-grained features from different layers
從表2可以看出f2與f3的準(zhǔn)確率明顯優(yōu)于ffirst conv與ffirst res.這是因?yàn)榈?層大尺度卷積池化層與第1個(gè)殘差塊集合在網(wǎng)絡(luò)中的層數(shù)過淺,特征還未充分提取.因此選擇f2與f3作為細(xì)粒度特征的分類結(jié)果,從表1中也可以看出這種選擇的有效性.
此外,本文也做了在已選擇f2與f3作為細(xì)粒度特征分類結(jié)果的情況下繼續(xù)增加ffirst conv與ffirst res的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示.完整模型表示同時(shí)使用細(xì)粒度特征分類結(jié)果f2、f3,粗粒度特征分類結(jié)果f0、輪廓特征分類結(jié)果f1.
表3 向完整模型繼續(xù)添加其他特征分類結(jié)果的影響Table 3 Influence of add other features′ classification result to the complete model
從表3中可以看出,向完整模型繼續(xù)添加第1層大尺度卷積池化層后的特征分類結(jié)果ffirst conv與第1個(gè)殘差塊集合后的特征分類結(jié)果ffirst res后,效果反而下降,這是因?yàn)樗鼈儗?duì)原有特征造成了干擾.
為了探究雙線性池化與其他細(xì)粒度特征表征對(duì)分類效果的影響,本文比較了采用原始特征,及分別使用雙線性池化,CBP[20],LBP[21],HBP[22]提取細(xì)粒度特征的分類效果.CBP與LBP相對(duì)于雙線性池化,對(duì)原始特征進(jìn)行了映射,精簡(jiǎn)了計(jì)算方法,HBP采用了跨層的特征融合,可以利用兩層特征相互間的聯(lián)系.實(shí)驗(yàn)結(jié)果如表4所示.其中,f2與f3表示單個(gè)細(xì)粒度特征分類結(jié)果,完整模型表示將細(xì)粒度特征的分類結(jié)果與其他特征的分類結(jié)果相結(jié)合后的最終分類結(jié)果.
表4 不同細(xì)粒度特征表征的影響Table 4 Influence of different fine-grained feature representation
從表4中可以看出,對(duì)于細(xì)粒度特征表征,雙線性池化的分類準(zhǔn)確率高于其他方法,因?yàn)镃BP與LBP方法在精簡(jiǎn)計(jì)算方式時(shí)對(duì)特征進(jìn)行了映射,不能很好地反映原特征.而HBP方法在跨層融合時(shí),由于草圖在不同網(wǎng)絡(luò)層間的信息相差過大,導(dǎo)致了部分有用信息的丟失.
為了驗(yàn)證本文提出的正則化項(xiàng)的有效性,做了對(duì)比實(shí)驗(yàn),LS為交叉熵?fù)p失,LS+LM為加入正則化的交叉熵?fù)p失,比較了在進(jìn)行分類結(jié)果融合時(shí),兩種損失的不同效果,實(shí)驗(yàn)結(jié)果如表5所示.
表5 加入正則化項(xiàng)的對(duì)比Table 5 Comparison of adding regularization parameters
從實(shí)驗(yàn)結(jié)果可以看出在損失函數(shù)中加入正則化項(xiàng)后,分類準(zhǔn)確率提升.這是由于正則化項(xiàng)可以有效地減緩融合模塊的過擬合.
為了驗(yàn)證本文提出的分類融合模塊的有效性,將該模塊和現(xiàn)有的一些類似的方法進(jìn)行了比較.將不同特征的分類結(jié)果進(jìn)行拼接放入支持向量機(jī)(SVM)、邏輯回歸、決策樹、隨機(jī)森林進(jìn)行分類訓(xùn)練,實(shí)驗(yàn)結(jié)果如表6所示.
表6 不同融合方法的對(duì)比Table 6 Comparison of different fusion methods
從實(shí)驗(yàn)結(jié)果可以看出,本文的融合方法優(yōu)于其他方法.主要因?yàn)樵撊诤戏椒梢詣?dòng)態(tài)地調(diào)整不同特征的分類結(jié)果在最終分類時(shí)所占的比重,更好地利用每一種特征的分類結(jié)果.
為了驗(yàn)證雙階段訓(xùn)練的有效性,本文做了共同訓(xùn)練與雙階段訓(xùn)練的對(duì)比實(shí)驗(yàn),共同訓(xùn)練是將各分支網(wǎng)絡(luò)與融合模塊作為一個(gè)整體一起進(jìn)行訓(xùn)練,訓(xùn)練集與測(cè)試集的比例設(shè)置相同為2∶1(雙階段訓(xùn)練的訓(xùn)練集被二次劃分用于兩個(gè)階段的訓(xùn)練),實(shí)驗(yàn)結(jié)果如表7所示.
表7 不同訓(xùn)練方式的對(duì)比Table 7 Comparison of different training methods
從實(shí)驗(yàn)結(jié)果可以看出,雙階段訓(xùn)練的分類準(zhǔn)確率明顯高于共同訓(xùn)練.在雙階段訓(xùn)練中,每一個(gè)分支網(wǎng)絡(luò)單獨(dú)進(jìn)行訓(xùn)練,模型對(duì)每部分的特征都會(huì)盡力提取,不會(huì)受到其他分支網(wǎng)絡(luò)的影響.而在共同訓(xùn)練時(shí),模型對(duì)各個(gè)分支網(wǎng)絡(luò)的重視程度不同,導(dǎo)致特征的提取不充分.因此,雙階段訓(xùn)練優(yōu)于共同訓(xùn)練.
將本文方法與其他的草圖分類方法做了比較,人類識(shí)別率[17]表示TUBerlin數(shù)據(jù)集上人類識(shí)別的平均準(zhǔn)確率.HOG-SVM[17](Histogram of Oriented Gradient -support vector machines)和FV-SP[12](Fisher Vector-Spatial Pyramid)是基于手工特征的方法,HOG-SVM使用了BOF(Bag of Features)特征和支持向量機(jī)結(jié)合的方法,FV-SP使用了SIFT特征和Fisher特征相混合的方法.Sketch-a-Net1[1]、Sketch-a-Net2[2]、Transfer Learning[5]、Dynamic Landmarks[6]、Deformable-CNN[7]、CNG-SCN[8](Cousin Network Guided-Sketch Classification Network)、 Hybrid-CNN[10]、DeepSketch1[13]、DeepSketch2[14]、MAD[16](Mixed attention densenet)、SketchPointNet[15]和Double-Channel CNN[23]是基于深度學(xué)習(xí)的12種方法.為了便于公平比較,本文將訓(xùn)練集測(cè)試集的比例設(shè)置與其他方法相同,括號(hào)內(nèi)為訓(xùn)練集與測(cè)試集的比例.MFRF(multi-feature result fusion )為本文所提出的方法,實(shí)驗(yàn)結(jié)果如表8所示.
表8 不同方法的對(duì)比Table 8 Comparison with different methods
由實(shí)驗(yàn)結(jié)果可以看出,使用手動(dòng)特征的HOG-SVM、FV-SP方法分類準(zhǔn)確率較低,沒有超過人類的識(shí)別準(zhǔn)確率.深度學(xué)習(xí)方法的分類準(zhǔn)確率更接近人類的識(shí)別準(zhǔn)確率或比人類的識(shí)別準(zhǔn)確率高.本文方法在訓(xùn)練集、測(cè)試集的比例為2∶1、3∶1、4∶1時(shí)分別取得了81.92%、82.56%、84.20的分類準(zhǔn)確率.在訓(xùn)練集、測(cè)試集同等比例的情況下,較DeepSketch1,DeepSketch2,Sketch-a-Net1,Sketch-a-Net2,Transfer Learning,Dynamic Landmarks,Deformable-CNN,Hybrid-CNN,CNG-SCN、MAD和SketchPointNet方法提高了7.02%,6.50%,4.23%,3.97%,4.50%,9.42%,3.67%,3.46%,1.25%,4.10%,5.20%.這是因?yàn)楸疚姆椒ú捎昧烁嗟奶卣?而其他方法僅采用了一種特征或兩種特征,同時(shí)雙階段訓(xùn)練與融合模塊的使用使得多特征的提取與利用比其他方法更加充分.
本文提出了一種基于多特征的雙階段草圖分類方法,旨在減緩草圖特征不能充分利用的問題.該方法分兩個(gè)階段進(jìn)行訓(xùn)練,在初訓(xùn)練階段,通過Resnet18網(wǎng)絡(luò)獲得草圖的粗粒度特征分類結(jié)果;引入雙線性池化獲得草圖的細(xì)粒度特征分類結(jié)果;提取草圖的輪廓以獲得草圖的輪廓特征分類結(jié)果.在再訓(xùn)練階段,提出了一種可訓(xùn)練的分類結(jié)果融合模塊,將草圖的粗粒度特征、細(xì)粒度特征與輪廓特征的各分類結(jié)果進(jìn)行融合,并提出了一個(gè)正則化項(xiàng),以減緩該模塊的過擬合,進(jìn)一步提高了分類性能.雙階段訓(xùn)練使得草圖的粗粒度特征、細(xì)粒度特征與輪廓特征提取更加充分,融合模塊使得各特征的分類結(jié)果可以更好地融合,極大地提高了草圖的分類準(zhǔn)確率.在與其他方法的比較中,也可以看出本文方法明顯優(yōu)于其他方法.本文也存在一些不足之處,由于各分支網(wǎng)絡(luò)較多,模型的運(yùn)行速度較慢,時(shí)間效率不高,因此下一步工作將考慮如何精簡(jiǎn)模型結(jié)構(gòu),提高模型的運(yùn)行速度.