呂 伏,韓曉天,馮永安,項 梁
(1.遼寧工程技術(shù)大學(xué)鄂爾多斯研究院,內(nèi)蒙古 鄂爾多斯 017000;2.遼寧工程技術(shù)大學(xué)軟件學(xué)院,遼寧 葫蘆島 125105)
在自然界(生物、地理和煤巖等)的諸多領(lǐng)域以及工業(yè)制造領(lǐng)域中,紋理是各種物質(zhì)所共同具有的一種本質(zhì)特征。它不受物體形狀、顏色和溫度等因素影響,是描述許多類型圖像特征的視覺線索,在分析圖像的視覺內(nèi)容方面發(fā)揮著重要作用。因此,紋理特征被廣泛用來描述物體或材料表面的視覺特征,它所具有的獨特性和穩(wěn)健性在物體識別過程中起到了重要作用,是多種數(shù)據(jù)探索的關(guān)鍵信息。依靠紋理特征對圖像進行處理在很多領(lǐng)域都有應(yīng)用,如工業(yè)檢查、醫(yī)學(xué)成像、遙感、物體表面和面部識別等,都可以依賴于其物體表面的特異性紋理特征。對具有紋理特征的圖像進行分析和識別一直是計算機工程應(yīng)用背景下具有提挑戰(zhàn)性的研究課題。
圍繞紋理特征的研究主要集中于2個主題:一是提取高質(zhì)量的紋理描述符,二是構(gòu)建準確、高效、低成本的計算模型。
對高質(zhì)量紋理描述符的研究目的是提取一種紋理描述符,能夠減少因比例、照明和旋轉(zhuǎn)等變化引起的同類圖像視覺差異變化大或異類圖像類間差異微小的問題,這要求紋理表示具有高魯棒性和獨特性,能夠在無序的圖像中找到規(guī)則的重復(fù)紋理信息。其中,工程領(lǐng)域中使用最為普遍和有效的是:局部二進制LBP(Local Binary Pattern)方法及其變體[1]、基于灰度共生矩陣GLCM(Gray Level Co-occurrence Matrix)的表示[2]和基于濾波器的方法[3]等。
自O(shè)jala等[1]2002年提出LBP方法以來,在其基礎(chǔ)上進行補充,出現(xiàn)了LBP的諸多變體。Zhang等[4]提出了局部Gabor二進制模式LGBP(Local Gabor Binary Pattern),從不同尺度和方向的Gabor濾波器過濾的圖像中提取LBP特征,以增強紋理表示能力。Liu等[5]提出了中值魯棒擴展局部二進制模式MRELBP(Median Robust Extended Local Binary Pattern)方法,它具有高獨特性以及低計算復(fù)雜性,同時表現(xiàn)了對圖像旋轉(zhuǎn)和噪聲的高魯棒性。
LBP方法推進了緊湊高效的二進制描述符的提出,其中最值得注意的描述符包括Calonder等[6]人提出的二進制的魯棒獨立基本特征BRIEF(Binary Robust Independent Elementary Features)特征描述符和Rublee等[7]提出的面向BRIEF描述符的ORB (ORiented BRIEF) 描述符。這些描述符表現(xiàn)了與廣泛使用的區(qū)域描述符如尺度不變特征變換SIFT(Scale-Invariant Feature Transform)[8]和加速穩(wěn)健特征SURF (Speeded Up Robust Features)[9]相當?shù)男阅鼙憩F(xiàn)??偟膩碚f,對于具有旋轉(zhuǎn)變化且沒有顯著照明變化的大型數(shù)據(jù)集,LBP及其變體可以作為一種高效的紋理分類策略。但是,在存在顯著照明變化、仿射變幻以及噪聲損壞的情況下,LBP無法達到預(yù)期的性能水平。
基于統(tǒng)計方法的灰度共生矩陣法GLCM,是一種基于二階統(tǒng)計量的紋理提取方法,通過計算圖像中2個像素之間的關(guān)系來獲取紋理信息[10],能夠獲取多類不同紋理特征的參數(shù),較好地體現(xiàn)圖像紋理在對比度、相關(guān)性、均勻性和熵等測量參數(shù)上的表現(xiàn)。近年,由于GLCM能夠提取類間差異性紋理特征的特點,其紋理特征提取方法在工程類紋理表征分析方向的應(yīng)用越來越多。歐利國等[11]將采用GLCM方法提取的紋理信息作為分類的特異性依據(jù),進行了魚類表型紋理分析研究。劉濤等[12]采集疲勞損傷金屬表面形貌特征圖像,構(gòu)建三維形貌信息并轉(zhuǎn)化為灰度圖,采用灰度共生矩陣描述粗糙度子圖紋理特征,得到紋理信息的變化規(guī)律,基于反差度、能量和逆矩差構(gòu)建支持向量機模型,用于構(gòu)建疲勞損傷狀態(tài)評估。包姣等[13]在沖擊圖像超高速沖擊HVI(Hypervelocity Impact)源識別和定位算法的研究中,為了更好地描述HVI信號,采用GLCM和圖像熵值反映HVI信號時頻統(tǒng)計特征。由于灰度共生矩陣在工程領(lǐng)域的廣泛應(yīng)用,以及其能夠提取最大類間差異紋理特征的優(yōu)點,本文提出了基于灰度共生矩陣的紋理描述特征,采用改進的神經(jīng)網(wǎng)絡(luò)架構(gòu)來補充特征描述的復(fù)雜環(huán)境識別能力,從而進行類別廣泛的復(fù)雜紋理圖像分類。
在對紋理的高效深度學(xué)習(xí)模型的探索方面,自2012年破紀錄的圖像分類結(jié)果實現(xiàn)以來,近年來研究人員提出了大量基于卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)的紋理表示法,CNN成功的關(guān)鍵是它能夠利用大型標記數(shù)據(jù)集來學(xué)習(xí)高質(zhì)量的特征。Krizhevsky等[14]提出了AlexNet模型,該模型在圖像細粒度分類領(lǐng)域取得了巨大成效,使用預(yù)訓(xùn)練的AlexNet模型對紋理數(shù)據(jù)集進行分類,取得了突破性的進展,實現(xiàn)了特征表示從手工制作到CNN提取的轉(zhuǎn)折。Cimpoi等[15]提出了VGGM模型,該模型與AlexNet具有相似的復(fù)雜性,但在紋理分類效果上表現(xiàn)更好。Simonyan等[16]提出了VGGVD模型,該模型具有比AlexNet更高的深度,模型參數(shù)規(guī)模較AlexNet和VGGM的更大。Szegedy等[17]提出了GoogleNet模型,由于其深度過大,不常用于紋理分類。Lin等[18,19]提出了雙線性神經(jīng)網(wǎng)絡(luò)BCNN(Bilinear CNN),該網(wǎng)絡(luò)模型在紋理識別中具有較好表現(xiàn),獲得了比費舍爾向量卷積神經(jīng)網(wǎng)絡(luò)FVCNN(Fisher Vector-CNN)更好的結(jié)果,這表明雙線性池化相比Fisher向量具有更好的表征能力。與傳統(tǒng)神經(jīng)模型相比,該描述符更適用于紋理建模,但是具有維數(shù)過高的缺點,易導(dǎo)致小型數(shù)據(jù)集模型訓(xùn)練過程中出現(xiàn)過擬合問題。
針對現(xiàn)有分類方法對紋理屬性圖像分類精度不足以及魯棒性不強的問題,提出一種基于自適應(yīng)紋理特征融合的圖像分類神經(jīng)網(wǎng)絡(luò)模型。該模型使用決策融合方法,將類間差異性較大的紋理特征作為可靠的補充性判別依據(jù),與RGB圖像特征聯(lián)合實現(xiàn)圖像的類別判斷。本文的主要工作如下:(1)基于灰度共生矩陣構(gòu)建最大類間差異性紋理特征,產(chǎn)生具有類間互異性的紋理圖像集;(2)構(gòu)建獨立并行的改進雙線性神經(jīng)網(wǎng)絡(luò)架構(gòu)對紋理圖像與原始圖像進行特征提取;(3)基于多模態(tài)特征融合中的決策融合方法,根據(jù)最優(yōu)融合的準則,構(gòu)建多層神經(jīng)網(wǎng)絡(luò)架構(gòu),自適應(yīng)學(xué)習(xí)聯(lián)合特征信息的通道權(quán)重,重構(gòu)分類特征向量,提升模型識別準確度。
灰度共生矩陣表示圖像中一定距離和特定角度處出現(xiàn)一對灰度的相對頻率。設(shè)給定圖像I的尺寸為M×N,灰度為I,則從該圖像中位置為(k,l),灰度為i的像素點出發(fā),計算與其距離為d=(m-k,n-l),灰度為j的點(m,n)出現(xiàn)的概率p,并將其表示為p=(i,j,d,θ)。其中,d表示2點間相對距離,θ表示2點間的相對角度。d的范圍為1到圖像像素尺寸,θ的取值范圍為0°,45°,90°和135° 4個不同的方向。將得到的矩陣除以所有概率的和得到歸一化矩陣。不同角度和距離生成的GLCM具有不同特征值。在具有高度方向性特征的圖像中提取信息主要依賴于正確角度的選擇,通常使用4個方向上灰度共生矩陣的特征均值。但在取均值的過程中,會導(dǎo)致紋理圖像的方向信息丟失,分類均度不高。在本文的分類中,公開數(shù)據(jù)集圖像來源于多種材料物質(zhì),不具有過高方向性特征,因此在同類數(shù)據(jù)集的灰度共生矩陣計算中,以同一種方向0°作為標準進行分類,保持在類間標準的統(tǒng)一性。在灰度共生矩陣中使用了13個Haralick特征的4個信息不交叉的4個特征進行對比選擇,分別是對比度(Contrast)、相關(guān)性(Correlation)、能量(Energy)和同質(zhì)性(Homogeneity)。
下面為從灰度共生矩陣中提取的4個常用紋理特征定義,使用這些紋理特征值可以將GLCM值表示為不同的特征向量,他們對圖像紋理特征具有不同角度的表達特性。
(1)對比度(Contrast):能夠反映圖像中灰度溝紋的深度與厚度,體現(xiàn)圖像灰度對比度的差異情況。
(1)
(2)相關(guān)性(Correlation):表示矩陣中一個像素與其相鄰像素的相關(guān)性。
(2)
其中,μx,μy,σx,σy分別定義如式(3)~式(6)所示:
(3)
(4)
(5)
(6)
(3)能量(Energy):度量圖像的紋理均勻性、像素對的重復(fù)特性和紋理粗細程度。
(7)
(4)同質(zhì)性(Homogeneity):評估矩陣中非零項的均勻性。
(8)
根據(jù)紋理特征參數(shù)計算式(1)~式(8),計算提取各類圖像樣本中的圖像表面紋理特征。以KTH-TIPS數(shù)據(jù)集的特征分析選取為例,在該數(shù)據(jù)集中提取樣本圖像,對其表面紋理特征取均值進行分析。如圖1a中origin和圖1b中origin,其在不同紋理特征參數(shù)下生成的紋理特征圖像如圖1所示。根據(jù)紋理特征圖計算得到10類圖像的4個特征量變化情況如表1所示。
Figure 1 KTH-TIPS examples of two types of image texture features圖1 KTH-TIPS 2類圖像不同紋理特征示例
Table 1 Image texture feature parameters of different categories
表2中VARPA函數(shù)能夠計算出所給樣本的總體方差,其計算如式(9)所示。AVEDEV函數(shù)用于描述所給出數(shù)據(jù)與其數(shù)據(jù)均值的絕對偏差的平均值,能夠描述數(shù)據(jù)的離散程度,其計算如式(10)所示。
(9)
(10)
如表2所示,為了找出KTH-TIPS數(shù)據(jù)集中最易于分類的紋理特征,采用離散程度最大的Contrast特征參數(shù)作為提取圖像紋理特征的主要參考。在KTH-TIPS-2b、UIUC和DTD數(shù)據(jù)集中,采用與KTH-TIPS中相同的采樣方法,計算尋找差異性最大且分布最為均勻的紋理特征,分別為Contrast、Energy和Homogeneity。
Table 2 Dispersion degree of four feature parameters in different categories of images表2 4種特征參數(shù)在不同類別圖像的離散程度
由Lin等[18]在2015年提出的雙線性卷積神經(jīng)網(wǎng)絡(luò)BCNN模型,在紋理和場景識別中優(yōu)于其他深度學(xué)習(xí)模型。該模型的具體實例化中,使用2個基于CNN的特征提取器CNN-A和CNN-B作為部件檢測器和部件特征提取器來對圖像進行特征提取,得到2幅特征圖fA和fB,然后使用雙線性池化函數(shù)將子模型抽取的2組特征進行特征交互得到最終的圖像描述算子,通過分類模型進行分類。該模型的具體結(jié)構(gòu)如圖2a所示。
其中特征圖在每個位置上的矩陣外積得到雙線性特征的計算過程如式(11)所示:
B(l,I,fA,fB)=fA(l,I)TfB(l,I)
(11)
其中,l為圖像位置信息,I為輸入圖像,fA(l,I)和fB(l,I)分別代表圖像在l位置處的特征向量。
根據(jù)以上雙線性特征的計算方法,BCNN模型通過對圖像2組特征圖的外積聚合,獲得了捕獲圖像特征通道相關(guān)性的能力,但同時產(chǎn)生了特征向量維度過高和參數(shù)冗余的風(fēng)險。為了解決這一問題,對CNN-A和CNN-B進行參數(shù)共享,即只計算單卷積神經(jīng)網(wǎng)絡(luò)分支的參數(shù),對該卷積神經(jīng)網(wǎng)絡(luò)的輸出特征進行外積相乘。參考網(wǎng)絡(luò)深度和計算量,本文模型采用的參數(shù)更少,能夠解決網(wǎng)絡(luò)“退化”問題,并且以擬合效果更好的ResNet-18作為子模型構(gòu)建雙線性神經(jīng)網(wǎng)絡(luò),模型結(jié)構(gòu)如圖2b所示。
結(jié)合遷移學(xué)習(xí),本文將使用ImageNet數(shù)據(jù)集訓(xùn)練過的ResNet-18作為B-ResNet18的底層特征提取網(wǎng)絡(luò),將ImageNet中學(xué)習(xí)到的底層特征遷移到圖像識別網(wǎng)絡(luò)中,作為網(wǎng)絡(luò)的初始化參數(shù),對模型進行學(xué)習(xí)構(gòu)建。
Figure 2 BCNN network structure and improved B-ResNet network structure圖2 BCNN網(wǎng)絡(luò)結(jié)構(gòu)與改進的B-ResNet網(wǎng)絡(luò)結(jié)構(gòu)
決策融合法是復(fù)雜圖像環(huán)境下所使用的多模態(tài)特征融合方法中一種典型的后期融合方法,它將不同模態(tài)信息作為網(wǎng)絡(luò)輸入分別進行分類后,在決策級別進行信息融合。其底層思想是了解多分支模型的重要性與相關(guān)性,對信息進行強調(diào)和補充,在識別過程中,對不同通道予以不同權(quán)重,從多個角度對典型特征進行優(yōu)化。與輸入級融合相比,后期的決策融合可以學(xué)習(xí)到更多復(fù)雜和互補的特征信息,因此可以獲得更好的性能[20]。
Figure 3 Structure of feature fusion model圖3 特征融合模型結(jié)構(gòu)
本文采用決策融合的方法,將數(shù)據(jù)圖像包含光影、空間等變化的信息與提取的紋理特征信息進行融合,以補充和強調(diào)紋理信息。構(gòu)建的分類模型可分為特征提取的B-ResNet18模型和特征融合子模型,特征融合子模型結(jié)構(gòu)如圖3所示。
將B-ResNet18中最后一個卷積層的特征向量進行平均池化(AVG Pooling),通過平均池化操作聚合特征圖的空間信息,每個通道中的H×W個像素被壓縮為一個實數(shù),表示平均池化特征,此平均池化層的特征輸出Xc及其計算過程如式(12)所示。根據(jù)式(12),計算原始圖像和紋理圖像的平均池化層輸出,并命名為Xorigin和Xfeature進行水平方向上的連接,其特征向量輸出尺寸分別為512×1×1。
(12)
連接后的特征向量表示為Xin,特征圖尺寸為1024×1×1。
Xin=Xorigin+Xfeature
(13)
將Xin輸入到2個結(jié)構(gòu)相同的卷積注意力建議子網(wǎng)絡(luò),通過2個全連接層FC(Fully Connected layer)的多層感知器模塊進行訓(xùn)練;最后經(jīng)過激勵層Sigmoid歸一化為一組代表通道權(quán)重的0~1的實數(shù)Worigin和Wfeature。將通道權(quán)重與雙線性神經(jīng)網(wǎng)絡(luò)的分類輸出層特征在對應(yīng)通道上相乘表示如式(14)~式(15)所示:
Decisionorigin=Forigin×Worigin
(14)
Decisionfeature=Ffeature×Wfeature
(15)
根據(jù)以上計算方法,使用基于元素求和的方法來合并輸出特征向量,最終融合特征的分類器輸出如式(16)所示:
Decision=σ(Decisionorigin+Decisionfeature)
(16)
其中,Decision為最終融合分類向量,Decisionorigin和Decisionfeature為原始圖和紋理圖的分類函數(shù)輸出向量,σ(·)表示Sigmoid激活操作。
本實驗在一臺CPU型號為12th Gen Intel?CoreTMi9-12900K,GPU為RTX 3090,內(nèi)存(RAM)為64 GB的服務(wù)器上進行,所有實驗基于深度學(xué)習(xí)的PyTorch框架完成,Python版本為3.9。在實驗過程中,對每張圖像進行隨機旋轉(zhuǎn)和隨機裁剪,得到224×224像素大小的圖像。模型訓(xùn)練階段采用ImageNet預(yù)訓(xùn)練的B-ResNet18神經(jīng)網(wǎng)絡(luò)作為特征提取器。初始學(xué)習(xí)率設(shè)置為0.000 1。每經(jīng)過20個Epoch將學(xué)習(xí)率衰減為原來的0.8倍。采用Adam算法進行參數(shù)優(yōu)化,交叉熵作為損失函數(shù)。
為了展示所提出的融合紋理模型在紋理圖像上的適用性和自適應(yīng)融合方法的先進性,在4個與紋理相關(guān)的公共數(shù)據(jù)集:KTH-TIPS[21],KTH-TIPS-2b[22],UIUC[23]和DTD(Describoble Textures Dataset)數(shù)據(jù)集[24]上進行實驗分析,并與經(jīng)典分類算法及最近幾年先進的算法進行比較。
數(shù)據(jù)庫的基本信息如表3所示。數(shù)據(jù)集樣本如圖4所示。
Table 3 Description of four public datasets表3 4個公開數(shù)據(jù)集的信息描述
Figure 4 Samples of:KTH-TIPS,KTH-TIPS-2b, UIUC and DTD datasets圖4 KTH-TIPS、KTH-TIPS-2b、UIUC和DTD數(shù)據(jù)集示例
對分類模型的單次性能評估通常采用混淆矩陣,精確率(Precision)、召回率(Recall)、F1分數(shù)(F1-Score)和準確率(Accuracy)作為評價標準。以二分類問題為例,樣本分為正、負2種類別,模型對樣本的預(yù)測存在表4中的4種情況。
(1)混淆矩陣是對分類性能進行評估的重要標準,矩陣中列為模型預(yù)測得到的類別,行為樣本的實際類別。
(2)精確率(Precision)定義為預(yù)測為正的樣本中實際上正樣本的比例。Precision的計算如式
Table 4 Prediction results of binary model表4 二分類模型預(yù)測結(jié)果
(17)所示:
(17)
(3)召回率(Recall)定義為實際正例樣本中被預(yù)測正確的樣本比例。Recall計算如式(18)所示:
(18)
(4)F1分數(shù)(F1-Score)能夠?qū)δP途_率和召回率做出綜合評價,是對Precision和Recall的加權(quán)平均。計算如式(19)所示:
(19)
(5)在多次重復(fù)實驗,取測試準確率的平均值時,平均分類準確率mA(mean-Accuracy)的計算如式(20)所示:
(20)
其中,N表示進行N次重復(fù)實驗,i表示第i次實驗,Accuracyi表示第i次實驗的測試準確率。
為避免樣本分布不均勻?qū)δP托Чu估的影響,采用以上評價標準在樣本所有標簽下表現(xiàn)的加權(quán)平均作為總體評價指標。同時,考慮到模型訓(xùn)練的不穩(wěn)定性和偶然性因素影響,在每個數(shù)據(jù)集上做重復(fù)實驗,對多次實驗測試結(jié)果取平均分類準確率mA作為綜合衡量指標。根據(jù)以上5個評價標準對所提模型的分類性能做出評估和分析。
為顯示本文模型分類的有效性和穩(wěn)定性,首先在4個公共實驗紋理數(shù)據(jù)集上與較為主流和先進的模型進行平均準確率的比較。由于參考模型所使用的數(shù)據(jù)集存在一定差異,因此4個數(shù)據(jù)集上的對比模型不完全統(tǒng)一,但能夠基本實現(xiàn)算法對比的目的。表5~表8顯示了不同模型在這4個數(shù)據(jù)集上的分類精度。其中一些模型在相應(yīng)的原始出版物或相關(guān)出版物中缺乏標準偏差,因此列出了這些模型的平均分類準確率作為參考。
Table 5 Experimental results on KTH-TIPS表5 數(shù)據(jù)集KTH-TIPS上的實驗結(jié)果
Table 6 Experimental results on KTH-TIPS-2b表6 數(shù)據(jù)集KTH-TIPS-2b上的實驗結(jié)果
Table 7 Experimental results on UIUC表7 數(shù)據(jù)集UIUC上的實驗結(jié)果
表5是經(jīng)典模型、近年的先進模型與本文模型在KTH-TIPS上的運行結(jié)果。本文模型在該數(shù)據(jù)集測試混淆矩陣如圖5a所示。KTH-TIPS數(shù)據(jù)集包含10類生活中的紋理特征實體圖像,每類包含81幅圖像,數(shù)據(jù)集規(guī)模較小。在該數(shù)據(jù)集上,本文所提模型平均獲得了99.98%的分類精度,展現(xiàn)了本文模型在小規(guī)模數(shù)據(jù)集上優(yōu)越的分類能力。在表5所列的模型中,基于排序隨機投影特征描述子SRP(Sorted Random Projections)模型的分類準確率達99.30%,也具有較好的分類能力。SRP方法相較于其他模型的典型特征是其旋轉(zhuǎn)不變性,因此它可以提高對旋轉(zhuǎn)紋理的識別準確率。本文的模型能夠取得比采用SRP特征描述符方法更優(yōu)的效果,證明本文模型具備對旋轉(zhuǎn)紋理的識別能力。
Table 8 Experimental results on DTD表8 數(shù)據(jù)集DTD上的實驗結(jié)果
表6中是不同模型在KTH-TIP-2b數(shù)據(jù)集上的運行結(jié)果。KTH-TIPS-2b數(shù)據(jù)集包含11個數(shù)據(jù)類別,每個類別有432幅不同比例和照度的圖像。由于圖像的多樣性和復(fù)雜性,使得KTH-TIPS-2b數(shù)據(jù)集的識別更具挑戰(zhàn)性。對比分類結(jié)果顯示,基于遺傳編程的紋理簽名方法GTS(1-NN) (Genetic Texture Signature)方法的分類準確率相對其他方法較高,為94.30%,而本文提出的模型比其準確率高5.65%,達到了99.95%。GTS(1-NN)提出了更先進的本地邊緣簽名紋理描述符LES(Local Edge Signature),LES基于邊緣像素在特定局部區(qū)域的排列和方向的統(tǒng)計信息進行計算,它對旋轉(zhuǎn)和比例變化不敏感。但是,在紋理數(shù)據(jù)的分類性能方面,GTS(1-NN)的性能狀況與數(shù)據(jù)集的大小直接相關(guān)。例如,在小型數(shù)據(jù)集KTH-TIPS上,GTS(1-NN)表現(xiàn)明顯較差。本文模型比GTS(1-NN)方法高5.65%的準確率,具有明顯優(yōu)勢。本文模型在該數(shù)據(jù)集上的測試混淆矩陣如圖5b所示。
Figure 5 Confusion matrices generated by the model on the common datasets圖5 本文模型在4個公共數(shù)據(jù)集上生成的混淆矩陣
表7中的UIUC的數(shù)據(jù)集包含25個圖像類別。每個類別包括40張分辨率為640×480的紋理圖像,在不同的角度、光照變化和尺寸下拍攝,變化幅度很大,且不同類別所包含圖像規(guī)模較小。按照實驗的標準化要求,本文模型在該數(shù)據(jù)集上的單次測試混淆矩陣如圖5c所示,最終的平均準確率為99.99%,相比FV-VGGVD(SVM)模型的高0.19%,是比較模型中性能最優(yōu)的模型,因此本文模型在光照、角度、尺寸以及數(shù)據(jù)集規(guī)模性小的影響下,仍能達到理想程度。
表8為本文模型與其他先進模型在DTD數(shù)據(jù)集上的測試結(jié)果。DTD數(shù)據(jù)集包含47個圖像類別,每個類別有120幅圖像,是紋理數(shù)據(jù)集中類別較多,規(guī)模較大的數(shù)據(jù)集。本文模型在該數(shù)據(jù)集上的測試混淆矩陣如圖5d所示,平均分類準確率為67.09%。由于DTD數(shù)據(jù)集的圖像類別和數(shù)據(jù)較多,因此混淆矩陣中未顯示具體數(shù)字,通過矩陣顏色深淺程度表示測試誤差。與經(jīng)典的滑動盒方法GBM(Gliding-Box Method)和多重分形譜估計MFS (Multifractal Spectrum of Fractures)模型相比,本文模型的高21.09%~24.09%,優(yōu)勢明顯。此外,對于改進的深度學(xué)習(xí)識別算法,表現(xiàn)最好的是Wavelet CNN,它提出了一種新型的CNN架構(gòu),改進了CNN的紋理特征,將頻譜分析整合到CNN中。這種架構(gòu)利用CNN中容易丟失的頻譜信息來實現(xiàn)紋理識別的相關(guān)性和有效性,在紋理相關(guān)的神經(jīng)網(wǎng)絡(luò)架構(gòu)中具有明顯的優(yōu)勢。但本文模型的平均分類準確率高于Wavelet CNN模型的6.39%,體現(xiàn)了本文模型在深度學(xué)習(xí)模型方向與紋理結(jié)合方向的正確性,也體現(xiàn)了深度學(xué)習(xí)網(wǎng)絡(luò)的改進優(yōu)勢,避免了增加深度學(xué)習(xí)參數(shù)對識別效果的不利影響。在本文數(shù)據(jù)集中,本文模型的識別效果僅略差于PRC方法的。PRC方法計算圖像中任何單元的最小和最大像素強度之間的范圍,具有穩(wěn)健性,是一種通過改進圖像紋理特征描述符增加圖像分類準確率的傳統(tǒng)改進方法。這種方法需要在每張圖像的分類階段做出重復(fù)計算,與本文在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)做出改進相比,增強了特征描述符的描述性能,因此,這種方法在圖像描述上具有顯著優(yōu)勢。因此,下一步的工作,將繼續(xù)改進模型中所使用的紋理描述符,在深度學(xué)習(xí)的基礎(chǔ)上,融合更準確的紋理描述符,以便在紋理描述中獲得更好的效果,達到增強特征的目的??偟膩碚f,在更為復(fù)雜多樣的DTD數(shù)據(jù)集上,與基于深度學(xué)習(xí)的模型相比,該模型的識別效果仍處于較高水平,反映了本文模型在復(fù)雜數(shù)據(jù)集上的綜合性能和魯棒性。
綜合分析,本文提出的模型可以在不同程度上提高與紋理相關(guān)公共數(shù)據(jù)集的分類精度。與大多數(shù)先進和經(jīng)典的模型相比,它具有可比性及算法上的優(yōu)勢。這證明了本文模型在紋理相關(guān)公共數(shù)據(jù)集上的優(yōu)勢,以及模型的普遍高效性。
為驗證本文模型的有效性和模型中各子結(jié)構(gòu)對模型的貢獻度,以傳統(tǒng)雙線性卷積神經(jīng)網(wǎng)絡(luò)作為基本網(wǎng)絡(luò)在各公開數(shù)據(jù)集上進行消融實驗,重復(fù)測試并取平均測試結(jié)果。同時,使用FLOPs浮點運算次數(shù)作為模型復(fù)雜度衡量標準,衡量模型的綜合復(fù)雜度,其值越大,說明模型復(fù)雜度越高。實驗結(jié)果如表9所示。
Table 9 Results of ablation experiments表9 消融實驗結(jié)果
表9中,BCNN(vgg16)代表基于VGG16構(gòu)建的雙線性網(wǎng)絡(luò),使用RGB原始圖像訓(xùn)練模型。為減少參數(shù)規(guī)模與降低模型計算復(fù)雜度,基于ResNet18構(gòu)建改進的雙線性神經(jīng)網(wǎng)絡(luò)B-ResNet18,僅使用原始RGB圖像訓(xùn)練。為進一步提升類間紋理特征差異,在B-ResNet18模型基礎(chǔ)上,使用紋理圖像和RGB原圖并行訓(xùn)練并進行決策融合。首先,B-ResNet18(0.5add)模型采用1∶1的簡單權(quán)重融合。最后,根據(jù)自適應(yīng)決策融合方式提出本文模型,對類間紋理特征進行最優(yōu)融合策略的改進。
在分類精度上,相比于未改進的神經(jīng)網(wǎng)絡(luò)BCNN(vgg16),B-ResNet18在4個數(shù)據(jù)集上的分類準確率分別提升了5.79%~11.54%,證明使用規(guī)模更小的ResNet網(wǎng)絡(luò)對模型進行改進的必要性,能夠在一定程度上避免數(shù)據(jù)集規(guī)模小,模型過擬合帶來的準確率衰減的問題。基于B-ResNet18模型,進一步將RGB圖像特征與類間差異性紋理特征融合,通過2個分支網(wǎng)絡(luò)作為特征提取器對圖像紋理細節(jié)進行補充和加強,捕捉輔助判別性特征,將類間差異性信息引入圖像分類判別中做出最終決策。在該部分針對雙通道意義的對比中,表10對比了僅采用RGB圖像訓(xùn)練的B-ResNet模型與本文融合模型在4個數(shù)據(jù)集上測試的不同評價指標。相較于B-ResNet模型,本文模型在4個綜合評價標準中均具有穩(wěn)定提升,平均分類準確率提升了1.04%~2.24%,實現(xiàn)了更優(yōu)的分類效果,并保持了一定的穩(wěn)定性,說明了雙通道融合對于分類效果具有實際意義。在分類時間上,因為測試集數(shù)目相同,取模型測試消耗時間來比較4個公共數(shù)據(jù)集上測試集完成的效率。由分類時間數(shù)據(jù)分析可見,本文融合模型相較于單通道B-ResNet18模型,測試時間提升了0.88~3.29 s。說明雙通道融合后模型在測試圖像效率上也得到了提高,進一步體現(xiàn)了雙通道融合對于紋理圖像分類的綜合價值。
在紋理特征圖與原始圖的特征融合決策方法上對比2種融合方式:B-ResNet18(0.5add)模型對各通道采取等同權(quán)重,相較于未融合前提升了0.89%~0.95%;本文模型采用自適應(yīng)融合方法,相較于未融合前提升了1.04%~2.24%,提升效果更加顯著。綜合分析,采用自適應(yīng)的紋理特征融合方式能夠?qū)崿F(xiàn)分類精度的進一步提升,證明雙通道特征提取后的自適應(yīng)決策融合方式對紋理圖像分類具有更優(yōu)的表現(xiàn),提升效果更為顯著和穩(wěn)定。
在模型復(fù)雜度上,表9數(shù)據(jù)表明,原始BCNN(vgg16)模型具有最高的模型復(fù)雜度,其參數(shù)規(guī)模較大。由于KTH-TIPS,KTH-TIPS-2b和UIUC數(shù)據(jù)集規(guī)模較小,容易導(dǎo)致模型的過擬合,分類精度較低。為了避免模型過擬合帶來的影響,采用參數(shù)規(guī)模更小的ResNet18對雙線性網(wǎng)絡(luò)進行改進,模型復(fù)雜度得到了很大程度上的降低。同時,實驗驗證本文模型在小型數(shù)據(jù)集上的分類效果具有明顯的提升作用。在基于紋理融合的改進模型中,由于采用雙線性訓(xùn)練,模型計算量具有一定程度的提升,可以避免過擬合的影響,實現(xiàn)分類精度的提升。相較于B-ResNet18(0.5add)模型,本文模型增加了自適應(yīng)融合模型,計算復(fù)雜度提升較少,為0.12 GFLOPs,但由于自適應(yīng)融合策略的改進,分類精度仍能實現(xiàn)不同程度的提升。
綜上,本文針對雙線性模型的改進和雙通道融合策略的改進,能夠在分類效果以及分類效率上起到有不同程度的提升作用。
Table 10 Weighted average evaluation index of model on common datasets表10 模型測試公共數(shù)據(jù)集的加權(quán)平均評價指標
本文對復(fù)雜情境下的紋理圖像分類方法進行了2方面的改進。一方面是將原始圖像與類間最大差異性紋理特征圖像進行通道方向的融合,采用紋理特征圖像的原圖信息進行補充和加強,提高捕獲信息的全面性。另一方面,在融合方法上進行改進,采用決策融合方法,構(gòu)建多層的分類子網(wǎng)絡(luò),賦予模型自適應(yīng)調(diào)整通道權(quán)重的能力,達到最優(yōu)融合效果。將本文模型在4個公開數(shù)據(jù)集上進行實驗,與其他主流模型相比,本文模型識別效果有明顯提升,達到的平均識別效果更好,證明了本文模型在不同規(guī)模和方向的紋理數(shù)據(jù)集上都能取得穩(wěn)定的分類效果。下一步改進方向是提升紋理描述符的特征表述能力,能夠捕獲更完善的紋理信息,提高模型的綜合能力。另一方面,將本文模型在醫(yī)學(xué)、工業(yè)檢測等方面進行應(yīng)用,在工程領(lǐng)域?qū)ふ腋哌m應(yīng)性的特征改進方向,針對性地對本文模型進行改進。