段明月,李爽,鐘小宇,李麗紅
(1. 華北理工大學(xué) 理學(xué)院,河北 唐山 063210;2. 河北省數(shù)據(jù)科學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210;3. 唐山市工程計(jì)算重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210)
隱寫術(shù)與隱寫分析是信息安全領(lǐng)域中一個(gè)重要分支,二者一直在對(duì)抗中發(fā)展,其中基于圖像的隱寫術(shù)與隱寫分析是目前研究的重點(diǎn)之一。圖像隱寫主要分為自適應(yīng)隱寫算法和非自適應(yīng)隱寫算法:非自適應(yīng)隱寫算法對(duì)背景知識(shí)要求較高,通過(guò)人工選擇隱寫位置,是對(duì)圖像無(wú)差別的修改,該思想可能會(huì)導(dǎo)致圖像肉眼可見的失真;自適應(yīng)隱寫算法通過(guò)尋找最小失真代價(jià)函數(shù)來(lái)實(shí)現(xiàn)隱寫位置的選擇,使用這種隱寫算法的圖像不能被肉眼識(shí)別,對(duì)背景知識(shí)要求不高,是目前廣泛使用的隱寫算法,經(jīng)典代表算法有S-UNIWARD[1]、WOW[2]、HUGO[3]。
針對(duì)自適應(yīng)圖像隱寫算法,學(xué)者們提出了基于深度神經(jīng)網(wǎng)絡(luò)的隱寫分析模型,通過(guò)訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型提取圖像特征,學(xué)習(xí)隱寫算法嵌入位置,最終判別圖像是否被隱寫,該算法能有效識(shí)別多種隱寫算法,對(duì)未知算法也能起到有效的檢測(cè)效果,是目前圖像隱寫分析的研究重點(diǎn)。2016年,Xu等人[4]提出的Xu-Net模型采用固定權(quán)重的KV核對(duì)圖像做預(yù)處理,通過(guò)搭建5個(gè)卷積層和1個(gè)全連接層的神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行訓(xùn)練,該模型是第一個(gè)識(shí)別效果超過(guò)SRM模型的深度神經(jīng)網(wǎng)絡(luò)。2017年,Ye等人[5]提出Ye-Net,預(yù)處理層使用SRM中的30個(gè)高通濾波器,使用了新的激活函數(shù)TLU。同年,劉明明等[6]提出了一個(gè)基于淺層神經(jīng)網(wǎng)絡(luò)的圖像隱寫分析模型,該模型僅使用3個(gè)卷積層,1個(gè)全連接層,就可以與前文五層以上的模型達(dá)到相近的準(zhǔn)確率。2018年,GAO等人[7]提出了SCNN,使用2個(gè)3*3的卷積核代替一個(gè)5*5的卷積核,在感受野不變的同時(shí)減小計(jì)算量,提高了識(shí)別準(zhǔn)確率。同年,高培賢等人[8]將密集連接模塊引入,實(shí)現(xiàn)了原始特征的保留和多次利用。Zhu等人[9]提出了Zhu-Net,將殘差模塊與SPP引入模型中,進(jìn)一步提高了準(zhǔn)確率,減小了損失函數(shù)。2019年,魏立線等人[10]提出S-CNN模型,該模型只有2個(gè)卷積層和2個(gè)全連接層,減少訓(xùn)練層數(shù)的同時(shí)提升檢測(cè)準(zhǔn)確率。2021年,黃思遠(yuǎn)等人[11]提出了一種基于顯著性檢測(cè)的圖像隱寫分析方法,對(duì)圖像的復(fù)雜區(qū)域做重點(diǎn)監(jiān)測(cè),用BASNet將圖像的顯著性區(qū)域提取出來(lái)并進(jìn)行特征學(xué)習(xí),該方法的優(yōu)點(diǎn)是空域與JPEG通用,將圖像分割融合到了隱寫分析領(lǐng)域,但在低嵌入率情況下檢測(cè)效果不好。2021年,賀麗莎等人[12]提出了一種基于殘差網(wǎng)絡(luò)與注意力機(jī)制結(jié)合的圖像隱寫分析模型,將注意力機(jī)制和深度殘差網(wǎng)絡(luò)相結(jié)合,加速模型收斂,提升模型檢測(cè)準(zhǔn)確率。2021年,沈軍等人[13]提出了一種針對(duì)低嵌入率情況的輕量級(jí)圖像隱寫分析模型,通過(guò)訓(xùn)練該模型并使用逐步遷移的遷移學(xué)習(xí)方法,提高了檢測(cè)的準(zhǔn)確率。LIN等人[14]提出了一種多頻殘差深度卷積神經(jīng)網(wǎng)絡(luò),能夠同時(shí)學(xué)習(xí)隱寫噪聲的不同頻率成分,結(jié)合殘差模塊同時(shí)計(jì)算不同尺度的噪聲殘差,有效控制模型深度的同時(shí)也取得了良好的檢測(cè)性能。2022年,羅維薇等人[15]提出了一種利用融合特征的方法,更加全面地學(xué)習(xí)隱寫算法引起的統(tǒng)計(jì)特征變化,結(jié)合PCA特征映射,有效提高了檢測(cè)準(zhǔn)確率。
但是隨著模型越發(fā)復(fù)雜,模型的準(zhǔn)確率雖然得到了提升,但參數(shù)量過(guò)大和訓(xùn)練時(shí)間過(guò)長(zhǎng)造成了訓(xùn)練瓶頸,所以研究者們開始思考使用淺層神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)圖像隱寫分析。
針對(duì)輕量級(jí)圖像隱寫分析模型較少,檢測(cè)效果還有提高空間的情況,為了進(jìn)一步提高淺層模型檢測(cè)準(zhǔn)確率,依據(jù)劉明明等人[6]提出的SCNN,提出一個(gè)基于注意力機(jī)制的淺層圖像隱寫分析模型。
隨著神經(jīng)網(wǎng)絡(luò)的提出,以深度學(xué)習(xí)為基礎(chǔ)的端到端的圖像隱寫分析模型開始成為研究重點(diǎn),與空域富模型(SpatialRichModel, SRM)最大的不同是,圖像隱寫分析模型對(duì)研究者的背景知識(shí)要求降低了,只要設(shè)置好相應(yīng)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就可以使模型自主學(xué)習(xí)圖像特征,通過(guò)不斷地更新迭代提高特征提取的有效性。
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要包括卷積層、批量標(biāo)準(zhǔn)化層、激活函數(shù)層、池化層、全連接層和輸出層。
卷積層(Conv)是用于特征提取的主要部分,預(yù)先設(shè)置卷積核大小和數(shù)量,通過(guò)卷積核與圖像進(jìn)行卷積操作可以提取到多樣化的圖像特征,通過(guò)改變卷積核的大小可以改變卷積感受野,卷積核越小,感受野越小,計(jì)算量越小,得到的特征更加具體;卷積核越大,感受野越大,計(jì)算量越大,得到的特征更加抽象。卷積操作示例如圖1所示,圖1中卷積核為3*3,步長(zhǎng)為1。
圖1 卷積操作示例圖
批量標(biāo)準(zhǔn)化層(BN)用于標(biāo)準(zhǔn)化數(shù)據(jù),模型的訓(xùn)練過(guò)程中利用小批量的均值和方差調(diào)整神經(jīng)網(wǎng)絡(luò)中間的輸出,使得各層之間的輸出都符合均值、方差相同的高斯分布,使得數(shù)據(jù)更加穩(wěn)定,無(wú)論隱藏層的參數(shù)如何變化,可以確定的是前一層網(wǎng)絡(luò)輸出數(shù)據(jù)的均值和方差都是已知的,以此解決了數(shù)據(jù)分布不斷改變帶來(lái)的訓(xùn)練緩慢、學(xué)習(xí)率較小等問(wèn)題。
激活函數(shù)層主要作用是非線性化數(shù)據(jù),增強(qiáng)模型表達(dá)力。根據(jù)卷積操作示例圖可以發(fā)現(xiàn)卷積層的操作是一種線性運(yùn)算,如果不使用激活函數(shù)將2個(gè)卷積層隔離開,那么這2個(gè)卷積層實(shí)際和一個(gè)卷積操作的作用是一樣,多層卷積就會(huì)失去意義,引入激活函數(shù)后將數(shù)據(jù)進(jìn)行非線性化,就可以完美規(guī)避上述問(wèn)題。
池化層(Pooling)首要作用是下采樣,能夠降低特征圖維度、去除冗余信息、壓縮特征圖的大小、減小計(jì)算量,但是也存在一些弊端,下采樣會(huì)導(dǎo)致細(xì)節(jié)特征丟失,具體使用情況可以根據(jù)任務(wù)目標(biāo)調(diào)整。池化操作示例如圖2所示,圖2中為大小為2,步長(zhǎng)為2的最大池化操作。
圖2 池化操作示例圖
全連接層(FC)將得到的特征圖展平成一個(gè)通道數(shù)為1的向量,由此實(shí)現(xiàn)端到端的學(xué)習(xí)過(guò)程。
輸出層一般使用softmax函數(shù)計(jì)算屬于各類別的概率,該函數(shù)主要用于分類問(wèn)題。
注意力機(jī)制[16]是基于人類視覺(jué)研究基礎(chǔ)上產(chǎn)生的,人類在觀察圖像時(shí),會(huì)選擇性的關(guān)注一部分信息,而忽略其他信息,這是由于信息處理瓶頸導(dǎo)致的,根據(jù)以上現(xiàn)象提出了注意力機(jī)制,本文使用了2種注意力機(jī)制,分別為通道注意力機(jī)制和空間注意力機(jī)制,將2種機(jī)制相結(jié)合形成一個(gè)大的注意力模塊(Convoltional Block Attention Model, CBAM)。
通道注意力機(jī)制是通過(guò)對(duì)輸入的特征圖的多通道特性給予權(quán)重的方式實(shí)現(xiàn)的注意力機(jī)制,通過(guò)網(wǎng)絡(luò)對(duì)參數(shù)訓(xùn)練,對(duì)與預(yù)測(cè)結(jié)果相關(guān)性高的通道給與高權(quán)重,對(duì)與預(yù)測(cè)結(jié)果相關(guān)性低的通道給與低權(quán)重,以此實(shí)現(xiàn)模型的加速收斂。對(duì)于彩色圖像來(lái)說(shuō),輸入的圖像分為紅、綠、藍(lán)3個(gè)通道,通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)可以實(shí)現(xiàn)對(duì)特定通道的重點(diǎn)關(guān)注;對(duì)于灰度圖像來(lái)說(shuō),通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)多層提取特征,得到一組高維特征,通過(guò)使用通道注意力給予重點(diǎn)特征高的權(quán)重,以達(dá)到更好的結(jié)果,通道注意力模塊結(jié)構(gòu)如圖3所示。
圖3 通道注意力模塊
空間注意力機(jī)制通過(guò)一個(gè)7*7卷積核參數(shù)訓(xùn)練實(shí)現(xiàn)對(duì)重點(diǎn)區(qū)域的權(quán)重調(diào)整。在圖像處理的大多數(shù)任務(wù)中,并不是所有的區(qū)域?qū)Y(jié)果的影響都是同等重要的,只有相關(guān)的任務(wù)區(qū)域需要重點(diǎn)關(guān)注,空間注意力通過(guò)學(xué)習(xí)圖像特征,對(duì)重點(diǎn)區(qū)域給予大權(quán)重的方式實(shí)現(xiàn)模型對(duì)重點(diǎn)的關(guān)注,加速模型收斂。空間注意力模塊結(jié)構(gòu)如圖4所示。
圖4 空間注意力模塊
將通道注意力與空間注意力相結(jié)合形成CBAM,結(jié)構(gòu)如圖5所示。
圖5 CBAM結(jié)構(gòu)圖
目前圖像分析模型大多是使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行深度疊加,通過(guò)多層級(jí)和大量參數(shù)實(shí)現(xiàn)模型效率提升,這樣的方式使得模型在訓(xùn)練階段時(shí)間長(zhǎng)、參數(shù)多、模型大,不利于訓(xùn)練和使用,該研究構(gòu)建了一種基于注意力機(jī)制的淺層圖像隱寫分析模型。模型結(jié)構(gòu)如圖6所示。
圖6 基于注意力機(jī)制的淺層圖像隱寫分析模型
該模型包含1個(gè)預(yù)處理層、3個(gè)卷積層、1個(gè)注意力模塊、1個(gè)全連接層和1個(gè)輸出層。開始模型訓(xùn)練之前先經(jīng)過(guò)高通濾波器層(HPF)對(duì)圖像進(jìn)行預(yù)處理,其作用在于忽略圖像背景信息的同時(shí)放大圖像中的噪聲,該研究使用的是SRM的30個(gè)線性高通濾波器,由于其大小不一,為了統(tǒng)一處理,全部補(bǔ)全為5*5大小。經(jīng)過(guò)處理后的特征圖通道為30,大小為256,將預(yù)處理后的30維特征圖輸入到卷積層中,每個(gè)卷積層都包含三部分,分別為卷積層、批量標(biāo)準(zhǔn)化層和激活函數(shù)層,只有第一個(gè)卷積層包含絕對(duì)值層(ABS),其它卷積層中沒(méi)有,絕對(duì)值層主要用于控制數(shù)據(jù)的波動(dòng)范圍,使各層的中間輸出數(shù)值更加穩(wěn)定,整個(gè)模型使用的激活函數(shù)均為線性整流函數(shù)(Rectified Linear Unit, ReLU),相比Sigmoid和Tanh計(jì)算速度更快,模型收斂速度更快。整個(gè)網(wǎng)絡(luò)中沒(méi)有使用池化層,由于池化層在使用中會(huì)產(chǎn)生過(guò)度采樣問(wèn)題,導(dǎo)致信息丟失,對(duì)于圖像隱寫分析任務(wù)的實(shí)現(xiàn)起到相反作用,使用步長(zhǎng)為2代替池化層降低特征圖尺寸。
BOSSbase v1.01數(shù)據(jù)庫(kù)包含10000張512*512張灰度圖像,分別通過(guò)S-UNIWARD、WOW、HUGO 3種隱寫算法,以0.2 bpp和0.4 bpp進(jìn)行嵌入,共得到60000張隱寫圖像,按照7:3的比例將所有圖像分為訓(xùn)練集和驗(yàn)證集,且訓(xùn)練集和驗(yàn)證集無(wú)交集。
實(shí)驗(yàn)的軟硬件環(huán)境如下:操作系統(tǒng):Ubuntu18.04,內(nèi)存:16G,GPU:RTX3060,顯存:12G,深度學(xué)習(xí)框架:pytorch1.8。根據(jù)服務(wù)器的GPU顯存,模型在訓(xùn)練過(guò)程中的批處理大小設(shè)為32,即原始圖像與隱寫圖像各16張,使用Adam優(yōu)化器和交叉熵?fù)p失函數(shù),初始學(xué)習(xí)率設(shè)置為0.01,50個(gè)epochs后學(xué)習(xí)率衰減為原來(lái)的10%,實(shí)驗(yàn)共設(shè)置200個(gè)epochs。
將BOSSbase v1.01數(shù)據(jù)集經(jīng)過(guò)0.4 bpp的S-UNIWARD嵌入后作為下述實(shí)驗(yàn)的含密數(shù)據(jù)集,在同樣的軟硬件環(huán)境下,迭代次數(shù)均為200,在相同條件下將本文新模型與實(shí)驗(yàn)?zāi)P偷臏?zhǔn)確率進(jìn)行對(duì)比。Xu-Net、Ye-Net、Zhu-Net、SCNN與該研究新模型的準(zhǔn)確率對(duì)比結(jié)果如圖7所示。
圖7 檢測(cè)準(zhǔn)確率對(duì)比圖
觀察圖7可以發(fā)現(xiàn),與未使用注意力模塊的SCNN模型相比,使用注意力模塊的淺層隱寫分析模型收斂速度更快,其收斂平穩(wěn)度在前期較低,后期逐漸提高,且SCNN在后期平穩(wěn)度不如新模型,研究提出的新模型在識(shí)別率上比SCNN平均高出1.5%。Ye-Net與Zhu-Net均使用了更深層的神經(jīng)網(wǎng)絡(luò),在200輪的迭代次數(shù)下不能穩(wěn)定收斂,通過(guò)對(duì)比可以發(fā)現(xiàn)研究提出的淺層隱寫模型在200輪訓(xùn)練下收斂效果較好,檢測(cè)準(zhǔn)確率有明顯提升。Xu-Net是一個(gè)五層神經(jīng)網(wǎng)絡(luò),通過(guò)與該神經(jīng)網(wǎng)絡(luò)對(duì)比可以發(fā)現(xiàn)缺少注意力機(jī)制幫助的神經(jīng)網(wǎng)絡(luò)收斂較慢,并且收斂穩(wěn)定性較低,圖7中可見100輪過(guò)后其波動(dòng)效果比新模型更加劇烈。
實(shí)驗(yàn)過(guò)程中由于低嵌入率對(duì)于圖像的修改較少,不利于模型訓(xùn)練和收斂,在0.2 bpp的實(shí)驗(yàn)中直接使用遷移學(xué)習(xí)將該隱寫算法的0.4bpp的模型遷移并進(jìn)行初始化,經(jīng)過(guò)遷移學(xué)習(xí)的模型再經(jīng)過(guò)少量訓(xùn)練后快速收斂。
使用WOW隱寫算法,隱寫量為0.4bpp和0.2bpp的準(zhǔn)確率和變化量對(duì)比數(shù)據(jù)如表1所示。隱寫量設(shè)置為0.2 bpp時(shí),Xu-Net、Ye-Net、Zhu-Net、SCNN與該研究新模型的準(zhǔn)確率分別為70.04%、68.97%、72.45%、73.75%、79.32%。當(dāng)隱寫量設(shè)置為0.4 bpp時(shí),Xu-Net、Ye-Net、Zhu-Net、SCNN與該研究新模型的準(zhǔn)確率分別為83.64%、81.23%、87.13%、90.78%、92.09%。由各模型準(zhǔn)確率變化量可以看出同等迭代次數(shù)下,較深層的模型訓(xùn)練效果不佳,這是由于深層網(wǎng)絡(luò)需要更高的迭代次數(shù),在低迭代次數(shù)下收斂沒(méi)有達(dá)到最佳狀態(tài),模型由高嵌入率遷移至低嵌入率后檢測(cè)準(zhǔn)確率均產(chǎn)生大于10%的下降,其中由于新模型使用了注意力機(jī)制在遷移后下降量相對(duì)較小,可見注意力機(jī)制在遷移學(xué)習(xí)后仍然能對(duì)模型保持正向作用,并且與對(duì)比模型相比,檢測(cè)準(zhǔn)確率仍保持優(yōu)勢(shì)。
表1 各模型在0.2 bpp與0.4 bpp準(zhǔn)確率和變化量對(duì)比/%
在WOW隱寫算法相同嵌入率下各模型的準(zhǔn)確率表現(xiàn)如圖8所示。
圖8 各模型在0.2 bpp與0.4 bpp準(zhǔn)確率對(duì)比圖
觀察圖8可以發(fā)現(xiàn),新模型在2種嵌入率下均優(yōu)于其他模型,在0.4 bpp下新模型的識(shí)別準(zhǔn)確率分別比Xu-Net、Ye-Net、Zhu-Net、SCNN提高8.45%、10.86%、4.96%、1.31%,在0.2 bpp下本章新模型識(shí)別率分別比Xu-Net、Ye-Net、Zhu-Net、SCNN高9.28%、10.35%、6.87%、5.57%,在2種嵌入率下與Ye-Net的差距均達(dá)到最大,均大于10%,由圖中數(shù)據(jù)可以發(fā)現(xiàn)本文新模型在0.2 bpp嵌入下優(yōu)勢(shì)更大,這是由于淺層神經(jīng)網(wǎng)絡(luò)對(duì)特征沒(méi)有高度抽象,更容易提取到圖像噪聲的細(xì)節(jié)信息,而其他較深層模型的特征高度抽象,不利于學(xué)習(xí)到微弱噪聲,在0.4 bpp嵌入下噪聲量增大一倍,高度抽象的特征中也能包含更多的噪聲信息,所以在相對(duì)較大的嵌入率下,淺層模型的優(yōu)勢(shì)被縮小。
在S-UNIWARD和HUGO隱寫算法下的0.4bpp與0.2 bpp嵌入率下檢測(cè)準(zhǔn)確率如表2所示。
表2 各模型在0.2 bpp與0.4 bpp準(zhǔn)確率變化對(duì)比表/%
對(duì)于性能方面的考量主要是隱寫模型涉及到的訓(xùn)練時(shí)間和參數(shù)量,統(tǒng)計(jì)結(jié)果均是在0.4 bpp的WOW圖像數(shù)據(jù)上進(jìn)行模型訓(xùn)練時(shí)間和參數(shù)量統(tǒng)計(jì)的,在這部分實(shí)驗(yàn)中,所有模型的訓(xùn)練輪數(shù)都設(shè)置成200以體現(xiàn)各個(gè)模型的收斂效果。其中SCNN以其輕量級(jí)結(jié)構(gòu)在訓(xùn)練時(shí)間和參數(shù)量上取得最大優(yōu)勢(shì),而本文提出的新模型由于加入了注意力機(jī)制,在參數(shù)量上略高于前者,但是收斂速度更快,準(zhǔn)確率表現(xiàn)更好,Xu-Net因其其預(yù)處理層僅使用一個(gè)濾波核且網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單,訓(xùn)練參數(shù)量為1.4萬(wàn),而Ye-Net、Zhu-Net均使用了較深層的神經(jīng)網(wǎng)絡(luò),訓(xùn)練參數(shù)量均高于十萬(wàn),且未能穩(wěn)定收斂,可見深層網(wǎng)絡(luò)需要的訓(xùn)練時(shí)間更長(zhǎng)。
(1)提出一種基于注意力機(jī)制的淺層圖像隱寫分析模型,通過(guò)實(shí)驗(yàn)數(shù)據(jù)的對(duì)比,該模型通過(guò)使用注意力機(jī)制加速網(wǎng)絡(luò)收斂,提高檢測(cè)準(zhǔn)確率。
(2)針對(duì)3種常用的自適應(yīng)隱寫算法檢測(cè)效果上均有提高,與SCNN對(duì)比最高可提升5.5%,與Xu-Net對(duì)比最高提升10%,未來(lái)可以將此模塊與更加深層的神經(jīng)網(wǎng)絡(luò)相結(jié)合,以便進(jìn)一步提高檢測(cè)準(zhǔn)確率。