張艷 吳洛天 王年? 孟樹林 胡飛然 魯璽龍
(1.安徽大學(xué) 電子信息工程學(xué)院,安徽 合肥 230601;2.公安部物證鑒定中心,北京 100038)
足跡的形成是由身體各器官協(xié)調(diào)運(yùn)作與接觸面形成痕跡的結(jié)果,具有穩(wěn)定性與特定性。足跡的特定性不僅能夠反映出人的身高、年齡等信息,而且通過分析足跡的壓力分布特征還能反映出人的身體健康狀況。目前,足跡已在多個領(lǐng)域得到了廣泛地研究[1],如刑偵領(lǐng)域通過構(gòu)建足跡分析比對系統(tǒng)提高辦案效率;醫(yī)學(xué)領(lǐng)域通過將病人的步態(tài)與足底壓力相結(jié)合來跟蹤病人的病情并進(jìn)行輔助治療。
足跡分類是足跡研究的難點之一,主要有以下兩點原因:一是足跡的樣本量較少;二是足跡的特征具有高度相似性。為了解決這些問題,文獻(xiàn)[2]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的足跡圖像檢索與匹配方法,通過VGG(Visual Geometry Group Network)提取足跡數(shù)據(jù)集特征,建立足跡特征向量索引庫,然后計算測試足跡圖像特征與足跡特征向量索引庫中特征的歐氏矩離。文獻(xiàn)[3]開展了足跡圖片檢索中基于Sift算法的匹配研究,該方法采用Sift算法得到足跡圖像關(guān)鍵點,將源圖像關(guān)鍵點與目標(biāo)圖像關(guān)鍵點進(jìn)行歐氏距離度量,實現(xiàn)源圖像與目標(biāo)圖像的匹配;因為歐氏距離度量是人為設(shè)計的固定度量方式,不具有普遍性。文獻(xiàn)[4]針對足跡壓力數(shù)據(jù)提出一種基于多模特征的足跡識別算法,該方法首先通過Lenet網(wǎng)絡(luò)提取卷積特征,然后將該特征與具有物理意義的足跡特征融合,接著使用支持向量機(jī)(SVM)分類器進(jìn)行足跡分類,從而得到了較好的實驗結(jié)果;該算法的特點是采用大量的足跡數(shù)據(jù)進(jìn)行訓(xùn)練,而實際應(yīng)用中每個實驗對象僅有少量足跡數(shù)據(jù),所以該方法可能會出現(xiàn)過擬合現(xiàn)象。
關(guān)系網(wǎng)絡(luò)[5]是小樣本學(xué)習(xí)中較為經(jīng)典的分類方法,該方法借助元學(xué)習(xí)在任務(wù)空間進(jìn)行大量的任務(wù)學(xué)習(xí),以獲取一定的元知識用于新任務(wù)分類。注意力機(jī)制[6]類似于人的視覺神經(jīng)系統(tǒng),通過將注意力逐漸集中到受關(guān)注區(qū)域以獲得物體區(qū)分性特征信息,進(jìn)而識別相應(yīng)類別。分類任務(wù)中常用的注意力機(jī)制有通道注意力機(jī)制與空間注意力機(jī)制,其中通道注意力機(jī)制用于關(guān)注通道維度中受關(guān)注度較高的特征圖,而空間注意力機(jī)制則關(guān)注于單通道特征圖中受關(guān)注度較高的區(qū)域特征信息。GoogLeNet中的Inception模塊采用了一種多分支結(jié)構(gòu),通過1×1的卷積來實現(xiàn)升維降維,并在多個尺寸上同時進(jìn)行卷積再聚合。RFB(Receptive Field Block)[7]借鑒了Inception的思想,在多分支基礎(chǔ)上引入了空洞卷積層,有效地增加了感受野,并通過將各分支的輸出進(jìn)行級聯(lián)而達(dá)到不同特征的融合。針對足跡分類中每類對象可能只有少量的樣本,且足跡的特征具有高度相似性等客觀情況,文中基于關(guān)系網(wǎng)絡(luò)并結(jié)合注意力機(jī)制以及多分支模塊提出了一種基于小樣本學(xué)習(xí)的多模塊網(wǎng)絡(luò)算法(MulRN算法)。
文中的MulRN算法結(jié)構(gòu)主要由嵌入單元與關(guān)系單元組成(嵌入單元用于提取足跡圖像特征,關(guān)系單元則是用來計算足跡圖像特征之間的關(guān)系得分),并且在嵌入單元與關(guān)系單元使用了多個模塊來提高特征的提取能力與度量能力;該算法通過構(gòu)建足跡輔助集以學(xué)習(xí)大量的任務(wù)分布,從而將學(xué)習(xí)到的元知識快速應(yīng)用到新的足跡分類任務(wù)中去。
元學(xué)習(xí)又稱為“學(xué)會學(xué)習(xí)”,通過大量的任務(wù)訓(xùn)練,學(xué)習(xí)到任務(wù)內(nèi)在的元知識,并且能將學(xué)習(xí)到的元知識快速運(yùn)用到新任務(wù)中;目前該方法在小樣本學(xué)習(xí)中得到廣泛應(yīng)用。關(guān)系網(wǎng)絡(luò)是一種簡單、快捷、端到端的小樣本學(xué)習(xí)網(wǎng)絡(luò),它由嵌入單元和關(guān)系單元構(gòu)成,關(guān)系網(wǎng)絡(luò)示意圖如圖1所示。
圖1的嵌入單元的輸入是5張支持樣本圖像與1張查詢圖像,它們經(jīng)由相同的嵌入單元來獲得各自圖像的特征表示(不同的顏色代表不同的圖像特征),然后將提取的支持樣本圖像特征與查詢圖像特征依次級聯(lián),再輸入到關(guān)系單元中計算樣本圖像特征與查詢圖像特征之間的關(guān)系得分,從而得出查詢圖像的歸屬類別。
圖1 關(guān)系網(wǎng)絡(luò)示意圖
注意力機(jī)制是模擬生物觀察行為的一種內(nèi)部過程,觀察的重點更傾向于比較顯眼的區(qū)域,對于某個場景來說,該場景內(nèi)每一處空間位置上的注意力分布是不一樣的。本研究將空間注意力與通道注意力應(yīng)用到足跡的雙模態(tài)分類任務(wù)中。
1.2.1 通道注意力
通道注意力關(guān)注于特征圖中的通道維度,使受關(guān)注度較高的特征圖發(fā)揮更重要的作用,文中使用的通道注意力模塊如圖2所示。
圖2 通道注意力模塊
輸入的特征圖X(X×H×W)先進(jìn)入到平均池化層,生成一個C×1×1的特征圖,生成的特征圖再經(jīng)由兩個全連接層(第一個全連接層(Fc1)使用了relu函數(shù)激活,第二個全連接層(Fc2)使用了Sigmoid函數(shù))得到特征圖的權(quán)重值α(α∈XC×1×1),α可以突出通道維度中重要特征圖并弱化那些不必要的部分,通道注意力的公式如式(1)所示,其中,Sig代表Sigmoid函數(shù),它可以避免有用功能的過度衰減;Fc1和Fc2代表全連接層;Avgpool代表平均池化層;θ1、θ2分別代表全連接層Fc1、Fc2中的參數(shù)。最后將特征圖X與特征圖的權(quán)重α相乘,得到經(jīng)過通道注意力模塊的輸出X′,如式(2)所示:
α=Sig(Fc2(relu(Fc1(Avgpool(X);θ1)));θ2)
(1)
X′=α?X
(2)
1.2.2 空間注意力
通道注意力模塊是為了在眾多特征圖當(dāng)中尋找出比較重要的特征圖,而空間注意力模塊則是要突出特征圖中的重要區(qū)域??臻g注意力模塊可自適應(yīng)地調(diào)整特征圖中不同區(qū)域的特征權(quán)值,從而來強(qiáng)調(diào)每個特征圖中的關(guān)鍵區(qū)域,文中的空間注意力模塊如圖3所示。
圖3 空間注意力模塊
輸入的特征圖X(C×H×W)先經(jīng)過一個大小為1×1、通道數(shù)也為1的卷積層,卷積操作為C1,形成初始空間注意力特征圖f(f∈X1×h×ω),f的表達(dá)式如式(3)所示(θ3表示卷積層中的參數(shù));再對初始的空間注意力特征圖進(jìn)行維度調(diào)整并經(jīng)由Sigmoid函數(shù)輸出,得到最終空間注意力權(quán)重φ,其表達(dá)式如式(4)所示;最后將輸入的特征圖X與空間注意力權(quán)重φ相乘,得到特征圖X經(jīng)空間注意力模塊的輸出X′,X′表達(dá)式如式(5):
f=C1(X;θ3)
(3)
(4)
X′=φ?X
(5)
為了獲取更加強(qiáng)大的特征表達(dá),通常會使用多尺度的模型架構(gòu)來獲取不同尺度的特征信息。文中構(gòu)建的Inception模塊是一種并行多分支結(jié)構(gòu),其示意圖如圖4所示。
圖4 Inception模塊示意圖
Inception模塊擁有3個并行分支,第1個分支由3層卷積構(gòu)成,卷積后的特征可獲得更加抽象的語義信息;第2個分支由1層卷積構(gòu)成,卷積后的特征可獲得更多的表層信息;第3個分支是最大池化層,池化操作可以保留更多的紋理信息。3個分支提取的特征信息各自具有不同的特點,將3個分支提取的不同尺度特征進(jìn)行融合,從而提高網(wǎng)絡(luò)的特征表達(dá)能力。
RFB[7]是一個類似Inception模塊的多分支卷積結(jié)構(gòu),它由多分支卷積層以及隨后的空洞卷積構(gòu)成。因為RFB中增加了空洞卷積層,使得感受野有效增大,并且多分支結(jié)構(gòu)能捕獲到多尺度的上下文信息。將RFB應(yīng)用于關(guān)系單元能夠提高模型的性能,但是就RFB的結(jié)構(gòu)來說對于小目標(biāo)的分類任務(wù)有些過于復(fù)雜。文中MRFB模塊的設(shè)計受到RFB結(jié)構(gòu)的啟發(fā),并在此基礎(chǔ)上進(jìn)行了一些優(yōu)化,不僅簡化了模型結(jié)構(gòu),而且還能提高模型的性能。MRFB的結(jié)構(gòu)如圖5所示。
圖5 MRFB模塊示意圖
傳統(tǒng)的深度學(xué)習(xí)算法通常需要大量的標(biāo)注數(shù)據(jù),然而大量的標(biāo)注數(shù)據(jù)需要花費(fèi)較多的時間和精力,特別是一些獲取困難的場景圖像。因此,利用少量的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練十分具有挑戰(zhàn)性。本研究結(jié)合小樣本學(xué)習(xí)相關(guān)知識設(shè)計了MulRN網(wǎng)絡(luò),該方法可以應(yīng)用到每類只有少量樣本的任務(wù)中,從而解決雙模態(tài)足跡新任務(wù)的分類問題。
MulRN網(wǎng)絡(luò)結(jié)構(gòu)圖如圖6所示,該網(wǎng)絡(luò)結(jié)構(gòu)主要由嵌入單元、關(guān)系單元兩部分組成。相比于關(guān)系網(wǎng)絡(luò)[5],該結(jié)構(gòu)的嵌入單元采用了2個通道注意力模塊以及1個Inception模塊用于提高圖像的特征提取能力,而在關(guān)系單元則添加了1個MRFB模塊以及1個空間注意力模塊來提升網(wǎng)絡(luò)的特征度量能力。
圖6 MulRN網(wǎng)絡(luò)結(jié)構(gòu)示意圖
2.2.1 嵌入單元
在一些常用的小樣本學(xué)習(xí)模型當(dāng)中,嵌入單元大都由4個卷積塊構(gòu)成,如關(guān)系網(wǎng)絡(luò)[5]、原型網(wǎng)絡(luò)[8]等。因為不同對象的足跡十分相似,這對模型的細(xì)節(jié)特征提取能力有了更高的要求,為了使網(wǎng)絡(luò)能夠提取到更加豐富的特征信息,本研究采用Inception模塊替換原有的第3層卷積,并在第2層與第4層卷積后各增加1個通道注意力模塊,本研究設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)中的嵌入單元結(jié)構(gòu)如圖7所示。
圖7 嵌入單元結(jié)構(gòu)圖
嵌入單元包括3個卷積塊,卷積核大小都為3×3,通道數(shù)分別為64、64、128,3個卷積均包含批量歸一化與relu激活函數(shù),其中批量歸一化可以防止梯度消失,也可加快模型的收斂速度,而relu激活函數(shù)則可以減少模型的過擬合,并且它的計算量小,可降低模型的運(yùn)算壓力。通道注意力模塊關(guān)注于通道維度,自適應(yīng)調(diào)整各通道維度的特征圖權(quán)值,使其對輸入特征圖的重要部分進(jìn)行重點關(guān)注。而Inception模塊擁有多分支結(jié)構(gòu),可以對通道注意力模塊的輸出特征圖進(jìn)行不同維度的特征提取并進(jìn)行融合,從而提高模型的特征提取能力。
2.2.2 關(guān)系單元
本研究設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)中的關(guān)系單元受小樣本學(xué)習(xí)中關(guān)系網(wǎng)絡(luò)的啟發(fā),關(guān)系網(wǎng)絡(luò)中關(guān)系單元由2個卷積塊以及全連接層組成。本研究在參考了該關(guān)系單元后,為了進(jìn)一步提高網(wǎng)絡(luò)的特征度量性能,增加了1個MRFB模塊與1個空間注意力模塊,本研究設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)中的關(guān)系單元的結(jié)構(gòu)如圖8所示。
圖8 關(guān)系單元結(jié)構(gòu)圖
該單元含有MRFB模塊、2個卷積塊、空間注意力模塊以及全連接層。MRFB模塊具有多分支結(jié)構(gòu),且使用了空洞卷積層,擴(kuò)大了感受野,同時還能獲取多尺度的上下文信息,級聯(lián)后特征送入MRFB模塊,MRFB模塊的輸出再送入至兩個大小為3×3、通道數(shù)為64的卷積核當(dāng)中,并進(jìn)行最大池化操作。為防止梯度消失、緩解過擬合的發(fā)生,2個卷積塊都使用了批量歸一化與relu激活函數(shù)。卷積后的輸出經(jīng)由空間注意力模塊,能夠使關(guān)注焦點集中于特征圖中的關(guān)鍵區(qū)域,從而提取到更加豐富的語義特征,提高網(wǎng)絡(luò)的表達(dá)能力。最后將輸出的特征圖進(jìn)行維度調(diào)整并輸入到全連接層中,得到支持樣本足跡圖像與查詢足跡圖像之間的關(guān)系得分。
本研究的相關(guān)實驗均在GPU型號為 NVIDIA 1080Ti、CPU型號為Inter i7-8700的機(jī)器上運(yùn)行。在訓(xùn)練過程中將均方誤差(MSE)作為損失函數(shù)進(jìn)行訓(xùn)練,并使用了Adam優(yōu)化器,初始學(xué)習(xí)率為0.001,并且每迭代105次后學(xué)習(xí)率衰減一半。在驗證階段,每迭代5 000次,進(jìn)行一次驗證,每次驗證過程會隨機(jī)在驗證集上構(gòu)建600個任務(wù),計算600個任務(wù)迭代的平均準(zhǔn)確率,如果驗證的平均準(zhǔn)確率高于上一次驗證的平均準(zhǔn)確率,則進(jìn)行參數(shù)保存。在測試階段,需要進(jìn)行10次迭代,每次迭代過程會在測試集上隨機(jī)構(gòu)建600個任務(wù)進(jìn)行測試,最后計算 10 次迭代的平均準(zhǔn)確率進(jìn)行輸出。
為了評估模型的性能,本研究首先在miniImageNet、Caltech-UCSD Birds 200(CUB-200)、Omniglot 3個常用于小樣本學(xué)習(xí)任務(wù)的數(shù)據(jù)集上進(jìn)行了相關(guān)實驗。同時為了驗證模型的雙模態(tài)2D足跡分類能力,本研究在右腳雙模態(tài)足跡數(shù)據(jù)集、左腳雙模態(tài)足跡數(shù)據(jù)集、雙向雙模態(tài)足跡數(shù)據(jù)集上進(jìn)行了實驗。
3.2.1 小樣本數(shù)據(jù)集及訓(xùn)練方式
Omniglot數(shù)據(jù)集來自50種不同語言,一共包含1 623類不同的手寫字符,每類字符有20張圖像,每張字符圖像的尺寸大小皆為28像素×28像素,在訓(xùn)練過程中將字符旋轉(zhuǎn)90°、180°、270°來進(jìn)行數(shù)據(jù)增強(qiáng)。1 623類不同的手寫字符分為訓(xùn)練集和測試集,訓(xùn)練集包含1 200類手寫字符,測試集包含423類手寫字符。本研究在Omniglot數(shù)據(jù)集上進(jìn)行了5-way 1-shot、5-way 5-shot、20-way 1-shot和20-way 5-shot實驗。訓(xùn)練方式與關(guān)系網(wǎng)絡(luò)在Omniglot數(shù)據(jù)集上的訓(xùn)練方式相同,如在5-way 1-shot實驗中,每次從訓(xùn)練集中隨機(jī)抽取5類,每類數(shù)據(jù)隨機(jī)抽取1張圖像作為支持樣本圖像,再從剩下的每類圖像中隨機(jī)抽取19張圖像作為查詢圖像進(jìn)行訓(xùn)練。
miniImageNet是由Imagenet數(shù)據(jù)集中的100個類別組成,每個類別包含600張圖像,每張圖像的尺寸大小都是84像素×84像素。100類圖像可劃分為3個部分:第1部分是訓(xùn)練集,包含64個類別;第2部分是驗證集,包含16個類別;第3部分是測試集,包含20個類別。本研究在miniImageNet數(shù)據(jù)集上進(jìn)行了5-way 1-shot與5-way 5-shot實驗;在5-way 1-shot實驗中,每次從訓(xùn)練集中隨機(jī)抽取5類,每類抽取1張圖像作為支持樣本圖像,并在剩下的每類圖像中隨機(jī)抽取15張圖像作為查詢圖像進(jìn)行訓(xùn)練;在5-way 5-shot 實驗中,每次從訓(xùn)練集中隨機(jī)抽取5類,每類抽取5張圖像作為支持樣本圖像,并在剩下的每類圖像中隨機(jī)抽取10張圖像作為查詢圖像進(jìn)行訓(xùn)練。
Caltech-UCSD Birds 200(CUB-200)是鳥類細(xì)粒度數(shù)據(jù)集,擁有200種鳥類,每種鳥類大約有60張圖像,每張圖像的尺寸大小都是84像素×84像素。200種鳥類可劃分為3個部分,第1部分是訓(xùn)練集,由100種鳥類構(gòu)成;第2部分是驗證集,由50種鳥類構(gòu)成;第3部分是測試集,由剩余的50種鳥類構(gòu)成。本研究在CUB-200數(shù)據(jù)集上進(jìn)行了5-way 1-shot與5-way 5-shot實驗,其5-way 1-shot、5-way 5-shot訓(xùn)練方式與miniImageNet數(shù)據(jù)集上的訓(xùn)練方式相同。
3.2.2 雙模態(tài)2D足跡數(shù)據(jù)集及訓(xùn)練方式
文中的雙模態(tài)2D足跡數(shù)據(jù)均由“足跡感知與分析實驗室”采集構(gòu)建。雙模態(tài)2D足跡數(shù)據(jù)包括壓力足跡數(shù)據(jù)和光學(xué)足跡數(shù)據(jù)兩種模態(tài),如圖9所示。
圖9 雙模態(tài)足跡圖像示意圖
光學(xué)足跡數(shù)據(jù)由杭州創(chuàng)恒電子技術(shù)開發(fā)公司提供的第四代足跡采集儀器FMC500 IV根據(jù)光學(xué)成像原理采集而來,采集的原始光學(xué)足跡圖像尺寸大小為1 362像素×2 871像素。壓力足跡數(shù)據(jù)是由杭州創(chuàng)恒電子技術(shù)開發(fā)公司提供的壓力足跡采集儀器FP5030采集而來,其每平方厘米均勻分布了25個壓力傳感器,高精度采集使得足跡壓力信息量十分豐富,采集的原始壓力足跡圖像尺寸大小為250像素×150像素。為了保證光學(xué)、壓力數(shù)據(jù)的一致性,首先對光學(xué)足跡圖像去標(biāo)尺并進(jìn)行旋轉(zhuǎn),從而與壓力足跡圖像保持方向一致,再將壓力、光學(xué)足跡圖像尺寸大小統(tǒng)一調(diào)整為84像素×84像素進(jìn)行訓(xùn)練。
雙模態(tài)2D足跡數(shù)據(jù)集包含140人的足跡數(shù)據(jù),其中每人擁有10張左腳光學(xué)足跡圖像、10張右腳光學(xué)足跡圖像、10張左腳壓力足跡圖像和10張右腳壓力足跡圖像。本研究針對這批雙模態(tài)2D足跡數(shù)據(jù)構(gòu)建了3種類型的雙模態(tài)2D足跡數(shù)據(jù)集:第1類是雙向雙模態(tài)足跡數(shù)據(jù)集,每類包含同一個人的左腳光學(xué)足跡圖像、左腳壓力足跡圖像、右腳光學(xué)足跡圖像、右腳壓力足跡圖像,每類有40張足跡數(shù)據(jù);第2類是左腳雙模態(tài)足跡數(shù)據(jù)集,每類包含同一個人的左腳光學(xué)足跡圖像、左腳壓力足跡圖像,每一類有20張足跡數(shù)據(jù);第3類是右腳雙模態(tài)足跡數(shù)據(jù)集,每類包含同一個人的右腳光學(xué)足跡圖像、右腳壓力足跡圖像,每一類有20張足跡數(shù)據(jù)。文中按照100∶20∶20的比例將雙模態(tài)足跡數(shù)據(jù)集劃分為訓(xùn)練集、驗證集、測試集3個部分。本研究在3類雙模態(tài)足跡數(shù)據(jù)集上分別進(jìn)行了5-way 1-shot、5-way 5-shot實驗,其5-way 1-shot、5-way 5-shot訓(xùn)練方式與miniImageNet數(shù)據(jù)集上的訓(xùn)練方式相同。文中數(shù)據(jù)集相關(guān)介紹如表1所示。
表1 文中數(shù)據(jù)集相關(guān)介紹
3.3.1 常用小樣本數(shù)據(jù)集實驗結(jié)果
本研究在Omniglot數(shù)據(jù)集上進(jìn)行了相關(guān)實驗,并與匹配網(wǎng)絡(luò)、關(guān)系網(wǎng)絡(luò)等小樣本學(xué)習(xí)方法進(jìn)行了比較,結(jié)果如表2所示。
表2 不同方法在Omniglot數(shù)據(jù)集上的分類準(zhǔn)確率
由表2可見,在5-way 1-shot實驗中,文中算法的分類準(zhǔn)確率達(dá)到了99.6%,和表中表現(xiàn)最好的關(guān)系網(wǎng)絡(luò)的準(zhǔn)確率相同;在20-way 1-shot的實驗中,文中算法的分類準(zhǔn)確率達(dá)到了98.1%,較關(guān)系網(wǎng)絡(luò)提升了0.5個百分點;文中算法在5-way 5-shot、20-way 5-shot實驗上與表現(xiàn)最好的SNAIL、APL方法相比準(zhǔn)確率相差0.1個百分點,但是在20-way 1-shot實驗上相比SNAIL、APL方法卻分別提升了0.9和0.5個百分點,總體效果略有提升;此外,文中算法與GNN、匹配網(wǎng)絡(luò)等方法相比,分類準(zhǔn)確率也有提高。所以綜合實驗結(jié)果來看,文中算法在Omniglot數(shù)據(jù)集上取得了不錯的效果。
本研究在miniImageNet數(shù)據(jù)集上的實驗結(jié)果如表3所示。由表3可見,在5-way 1-shot實驗上文中算法的分類準(zhǔn)確率達(dá)到了53.91%,在5-way 5-shot實驗上達(dá)到了68.32%的準(zhǔn)確率;與結(jié)構(gòu)相近的關(guān)系網(wǎng)絡(luò)相比,在5-way 1-shot和5-way 5-shot實驗上的分類準(zhǔn)確率分別提高了3.47個百分點和3.0個百分點。與文中算法相比,關(guān)系網(wǎng)絡(luò)在結(jié)構(gòu)上過于簡單,在嵌入單元中僅使用了4層卷積用于提取輸入圖像的特征,對于一些復(fù)雜場景圖像易造成重要信息的缺失,并且級聯(lián)后的特征維度很深,包含的信息豐富,關(guān)系單元只使用了2層卷積以及2層全連接層,使得特征度量能力有限,從而影響了模型的性能。本研究在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上應(yīng)用了多個模塊,其中通道注意力模塊與空間注意力模塊能夠使特征圖中的關(guān)鍵部分被重點關(guān)注,而Inception模塊與MRFB模塊的多分支結(jié)構(gòu)也能幫助網(wǎng)絡(luò)提取到多尺度信息,使得本研究在特征提取、特征度量性能上獲得了一定的提高。同時文中算法的性能相比于GNN、C-SAM也有一定的提升。
表3 miniImageNet數(shù)據(jù)集上的分類準(zhǔn)確率
本研究在CUB-200數(shù)據(jù)集上得到的實驗結(jié)果如表4所示。由表4可見,文中算法在5-way 1-shot與5-way 5-shot實驗上的分類準(zhǔn)確率均高于關(guān)系網(wǎng)絡(luò),說明文中算法在細(xì)粒度數(shù)據(jù)集上的分類效果優(yōu)于關(guān)系網(wǎng)絡(luò)。C-SAM算法將通道、空間注意力相結(jié)合可以使網(wǎng)絡(luò)聚焦于細(xì)微區(qū)域,因此在提取細(xì)節(jié)特征上達(dá)到了不錯的效果。相較該方法文中算法分開使用通道、空間注意力模塊并結(jié)合多分支模塊,使得在細(xì)微特征提取方面以及特征度量方面更具優(yōu)勢,文中算法在5-way 1-shot與5-way 5-shot實驗上的分類準(zhǔn)確率相比于C-SAM分別提高了1.53個百分點與0.92個百分點。同時,文中算法相比其它方法(如GNN、MAML)也具有一定的優(yōu)勢。實驗結(jié)果表明,即使對于各類十分相似的鳥類場景,文中算法也能達(dá)到良好的分類效果。
表4 CUB-200數(shù)據(jù)集上的分類準(zhǔn)確率
3.3.2 消融實驗分析
為了驗證各模塊對網(wǎng)絡(luò)的整體影響,本研究在miniImageNet數(shù)據(jù)集上對網(wǎng)絡(luò)結(jié)構(gòu)中的通道注意力模塊、空間注意力模塊、Inception模塊、MRFB模塊進(jìn)行了消融實驗,結(jié)果如表5所示。
表5 miniImageNet數(shù)據(jù)集上的消融實驗結(jié)果
由表5可看出,無通道注意力模塊模型與無MRFB模塊模型,在5-way 1-shot實驗上的分類準(zhǔn)確率相比于MulRN分別下降了1.59、1.02個百分點,在5-way 5-shot實驗上的分類準(zhǔn)確率相比于MulRN分別下降了0.73、1.61個百分點;無空間注意力模塊模型與無Inception模塊雖然在5-way 5-shot實驗上的分類準(zhǔn)確率分別達(dá)到了69.08%與68.43%,但是在5-way 1-shot實驗上的分類準(zhǔn)確率卻只有52.63%與52.03%,總體性能還是有所下降。實驗結(jié)果表明這些模塊都對整體網(wǎng)絡(luò)結(jié)構(gòu)有著非常重要的影響,只有各個模塊之間協(xié)同作用,才能使得網(wǎng)絡(luò)產(chǎn)生比較優(yōu)秀的結(jié)果。
同時為了驗證文中算法的嵌入單元、關(guān)系單元整體的有效性,本研究將關(guān)系網(wǎng)絡(luò)的嵌入單元與關(guān)系單元分別替換為文中算法的嵌入單元與關(guān)系單元。如表5中的MulRN+RN實驗表示的是將關(guān)系網(wǎng)絡(luò)(RN)中的嵌入單元替換為文中算法(MulRN)的嵌入單元;RN+MulRN實驗,表示的是將關(guān)系網(wǎng)絡(luò)(RN)的關(guān)系單元替換為文中算法(MulRN)的關(guān)系單元。由表5可看出,兩個替換后的模型的性能相比于關(guān)系網(wǎng)絡(luò)都有提升,特別是替換了嵌入單元后(MulRN+RN),相比于關(guān)系網(wǎng)絡(luò)在5-way 1-shot與5-way 5-shot實驗上的分類準(zhǔn)確率分別提升了1.66、1.35個百分點。實驗結(jié)果表明文中算法對嵌入單元與關(guān)系單元的改進(jìn)是有效的。當(dāng)改進(jìn)的嵌入單元與關(guān)系單元相結(jié)合時效果提升更加明顯,當(dāng)改進(jìn)的嵌入單元與關(guān)系單元共同作用時更能充分發(fā)揮兩個單元的性能。此外,本研究還在整體結(jié)構(gòu)上將MRFB替換成RFB進(jìn)行了實驗,結(jié)果表明替換后的分類準(zhǔn)確率反而出現(xiàn)了一定程度的下降,MRFB在擁有更簡潔的結(jié)構(gòu)的同時還提高了準(zhǔn)確率,所以相比之下MRFB更適合文中算法的網(wǎng)絡(luò)結(jié)構(gòu)。
模型參數(shù)量越多時,訓(xùn)練模型所需的數(shù)據(jù)量也越多,對于少量的訓(xùn)練樣本,易導(dǎo)致訓(xùn)練出的模型極不穩(wěn)定。為了研究在降低模型的參數(shù)量與運(yùn)算量的同時是否會影響模型性能,本研究還進(jìn)行了模型通道數(shù)裁剪實驗。由于本研究所使用的卷積核大小已經(jīng)足夠小(3×3),故不通過降低卷積核大小的方式來減少參數(shù)量。本研究在不影響模型整體框架的條件下將嵌入單元第3層卷積的通道數(shù)從128依次降低為112、96、80、64,并在miniImageNet數(shù)據(jù)集上進(jìn)行了相關(guān)實驗,結(jié)果如表6所示,其中MFLOPs[16]表示每秒百萬次浮點操作數(shù),該值可衡量模型的復(fù)雜度。
表6 不同通道數(shù)下的實驗結(jié)果
表6所示實驗結(jié)果表明,減少模型的通道數(shù),雖然會降低參數(shù)量以及MFLOPs,但是會給模型性能帶來一定影響;在5-way 1-shot實驗中,通道數(shù)降低后,模型的性能都出現(xiàn)了一定程度的下降,當(dāng)通道數(shù)為112時,模型的性能下降最為明顯,分類準(zhǔn)確率下降了0.56個百分點,當(dāng)通道數(shù)繼續(xù)下降時,模型的性能下降幅度逐漸變小,當(dāng)通道數(shù)為64時,模型的分類準(zhǔn)確率只下降了0.16個百分點。因此對于文中算法的網(wǎng)絡(luò)模型而言,當(dāng)通道數(shù)降低參數(shù)量減少時,模型的性能會受到一定的影響且在一定程度范圍內(nèi)波動。
3.3.3 雙模態(tài)2D足跡數(shù)據(jù)集實驗結(jié)果
由于不同對象間的足跡數(shù)據(jù)差異較小,這對于網(wǎng)絡(luò)的細(xì)節(jié)特征提取能力是一個很大的挑戰(zhàn)。在5-way 1-shot實驗中,因為每次迭代每類只有一個足跡樣本,若網(wǎng)絡(luò)的細(xì)節(jié)特征提取能力不佳,將會對模型的性能產(chǎn)生一定的影響。并且在左右腳雙模態(tài)數(shù)據(jù)集上,因為左、右腳足跡數(shù)據(jù)的朝向不同(如圖6所示),要想很好地提取左、右腳足跡數(shù)據(jù)的共性特征并達(dá)到很好的分類效果需要更好的網(wǎng)絡(luò)綜合性能。雙模態(tài)足跡數(shù)據(jù)集的實驗結(jié)果如表7所示。
表7 雙模態(tài)足跡數(shù)據(jù)集的分類準(zhǔn)確率
由表7可知,無論是在左腳、右腳還是雙向雙模態(tài)足跡數(shù)據(jù)集上,文中算法的性能相比于關(guān)系網(wǎng)絡(luò)、C-SAM都有明顯地提升。C-SAM在雙向雙模態(tài)足跡數(shù)據(jù)集上的實驗取得了不錯的效果,在5-way 1-shot與5-way 5-shot實驗上的分類準(zhǔn)確率分別達(dá)到了79.93%、90.87%,但是在左腳與右腳雙模態(tài)數(shù)據(jù)集上相比關(guān)系網(wǎng)絡(luò)的分類準(zhǔn)確率提升不夠明顯。關(guān)系網(wǎng)絡(luò)在雙模態(tài)足跡數(shù)據(jù)集上的5-way 5-shot實驗中都取得了不錯的效果,但在5-way 1-shot實驗上的效果與5-way 5-shot實驗相差明顯,如在左腳雙模態(tài)數(shù)據(jù)集上,關(guān)系網(wǎng)絡(luò)的5-way 1-shot與5-way 5-shot實驗結(jié)果相差了14.51個百分點,這主要由于關(guān)系網(wǎng)絡(luò)對單個足跡樣本提取的特征信息不足,導(dǎo)致了模型性能表現(xiàn)不佳。若將關(guān)系網(wǎng)絡(luò)的嵌入單元替換為文中算法的嵌入單元(如MulRN+RN實驗結(jié)果所示),則在各個數(shù)據(jù)集上的5-way 1-shot實驗結(jié)果明顯提升,特別是在左腳雙模態(tài)數(shù)據(jù)集上提升了7.35個百分點,主要是由于替換后的嵌入單元擁有更強(qiáng)的特征提取能力;如果將關(guān)系網(wǎng)絡(luò)的關(guān)系單元替換為文中算法的關(guān)系單元(如RN+MulRN實驗結(jié)果所示),在5-way 1-shot與5-way 5-shot實驗上的結(jié)果都有提升,特別在5-way 5-shot實驗上提升顯著,在右腳雙模態(tài)數(shù)據(jù)集上的5-way 5-shot實驗更是達(dá)到了95.29%的準(zhǔn)確率,可見在嵌入單元不變的條件下,更換的關(guān)系單元有效地提高了網(wǎng)絡(luò)的特征度量能力。文中算法將注意力機(jī)制與多分支模塊相結(jié)合,在關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上加強(qiáng)了特征提取能力與特征度量能力,使該算法在雙模態(tài)2D足跡數(shù)據(jù)集上達(dá)到了較好的效果。文中還對嵌入單元的關(guān)鍵輸出層進(jìn)行了可視化,如圖10所示。其中圖10(a)為輸入的4張足跡樣本,經(jīng)由第一個通道注意力模塊后,網(wǎng)絡(luò)分離出足跡圖像的背景與輪廓,再經(jīng)由Inception模塊,網(wǎng)絡(luò)對足跡的腳趾與腳跟區(qū)域擁有更高的關(guān)注度,最后經(jīng)第二個通道注意力模塊輸出后,提取的足跡特征變得抽象,包含的語義信息越多表達(dá)能力越強(qiáng)。
圖10 足跡特征可視化示意圖
針對足跡分類任務(wù)中樣本量較少,深度學(xué)習(xí)相關(guān)算法很難有效應(yīng)用等問題,文中提出了一種基于多模塊關(guān)系網(wǎng)絡(luò)的2D足跡分類方法,該方法以關(guān)系網(wǎng)絡(luò)為基礎(chǔ),在嵌入單元應(yīng)用了通道注意力模塊與Inception模塊,在關(guān)系單元應(yīng)用了MRFB模塊與空間注意力模塊,這種注意力模塊與多分支模塊的搭配有效地提高了網(wǎng)絡(luò)的特征提取能力與特征度量能力,使該方法在雙模態(tài)2D足跡數(shù)據(jù)集上的分類任務(wù)達(dá)到了令人滿意的效果。同時文中方法在小樣本數(shù)據(jù)集上也表現(xiàn)出色;根據(jù)文中在小樣本數(shù)據(jù)集與雙模態(tài)2D足跡數(shù)據(jù)集上的實驗結(jié)果可以看出,文中方法的性能相比于關(guān)系網(wǎng)絡(luò)提升明顯,并且對于不同的數(shù)據(jù)集,文中方法表現(xiàn)均十分穩(wěn)定。在接下來的研究中,將在保證精度的同時著重從輕量化模型的角度對模型進(jìn)行優(yōu)化,來降低模型的參數(shù)量以及運(yùn)算量,從而使模型能夠更好地得以應(yīng)用。