孫子文,李 慧
江南大學 物聯(lián)網(wǎng)工程學院,江蘇 無錫 214122
采用SVR模型進行嵌入率估計的隱寫分析方法
孫子文,李 慧
江南大學 物聯(lián)網(wǎng)工程學院,江蘇 無錫 214122
隨著信息技術(shù)的快速發(fā)展,隱寫術(shù)作為信息隱藏的重要分支,得到了快速的發(fā)展和廣泛的應用。隱寫分析是隱寫術(shù)的對抗技術(shù),并成為了信息隱藏領域的一個研究熱點。目前有多種隱寫分析算法能夠有效地檢測出隱寫圖像[1-3],但研究不止于此,隱寫分析進一步檢測嵌入信息的長度,最終提取隱寫信息。目前只有少數(shù)文獻[4-9]提出了能估計嵌入信息才長度的隱寫分析算法,而且多數(shù)是針對專用隱寫術(shù)的專用隱寫分析算法[4-7]。
針對±k隱寫算法,F(xiàn)ridrich等采用建模思想,應用高通濾波器和最大似然準則法估計秘密信息的長度[4]。結(jié)果顯示該方法能準確估計JPEG隱寫圖的秘密信息長度。Jena等提出了針對LSB隱寫的隱寫分析算法[5],根據(jù)改進的差分圖像直方圖的統(tǒng)計結(jié)果建立方程,進一步計算LSB隱寫圖像的嵌入率,結(jié)果表明該方法比RS分析法和其他一般差分圖像直方圖方法更有效。Yu等研究了基于QIM的隱寫算法,發(fā)現(xiàn)隱寫圖像的直方圖跳躍點隨著嵌入量變化,跳躍點間的間距隨著量化步長變化,據(jù)此提出能檢測隱寫算法和估計隱寫信息長度的方程[6]。Yang等針對MLSB隱寫算法提出了新的能估計嵌入信息長度的隱寫分析算法,根據(jù)位平面的重要性的優(yōu)先級依次對隱寫圖的每層位平面用SPA算法估計信息嵌入改變率,得到的估計值比典型的SPA算法更準確[7]。
Fridrich等采用辨別統(tǒng)計函數(shù)估計秘密長度的思想[8]提出了能估計嵌入率的通用隱寫分析方法。根據(jù)隱寫圖的極值點:凈圖s(0)和最大嵌入量的隱寫圖s(mmax)等求得辨別統(tǒng)計函數(shù)s(m)的相關參數(shù),用s(m)的值估計嵌入信息的長度。Fridrich等結(jié)合文獻[2]中的特征,利用線性最小二乘回歸(Ordinary Least Square Regression,OLSR)和支持向量回歸(Support Vector Regression,SVR)分別學習圖像特征和相關嵌入改變率之間的映射關系并建立模型[9],并得到隱寫長度。
為提高建模效率和估計值準確性,本文提出了采用新的特征提取方法和應用多重交叉驗證法,改進文獻[9]算法,得到新的可估計嵌入信息長度的通用隱寫分析算法。從隱寫圖中提取全面反映分塊離散余弦變換(Block Discrete Cosine Transform,BDCT)系數(shù)矩陣的塊內(nèi)、塊間系數(shù)相關性的特征作為輸入自變量,相關隱寫圖的嵌入改變率作為輸出變量;結(jié)合SVR訓練隱寫圖的特征和嵌入改變率,并利用多重交叉驗證法尋找SVR的最優(yōu)參數(shù),建立隱寫圖特征和嵌入改變率的最佳映射模型。仿真結(jié)果顯示:改進的隱寫分析方法能準確估計不同容量的F5、outguess和MB隱寫的信息嵌入改變率;特征的提取速度快、維數(shù)少,節(jié)省了建模時間。
隱寫圖的有效特征隨嵌入改變率的變化而變化,從而可根據(jù)圖像特征估算隱寫圖的信息嵌入改變率。本文通過SVR建立圖像統(tǒng)計特征和嵌入改變率之間的映射模型實現(xiàn)隱寫分析。
1.1 SVR模型用于隱寫分析原理
SVR的目標是尋找一個能準確預測目標變量分布的平面[10]。設有一組訓練數(shù)據(jù):S={(x1,y1),(x2,y2),…,(xm,ym),xi∈Rn,yi∈R},其中xi表示輸入特征,yi表示特征所對應的目標回歸值,m為樣本數(shù)目。將訓練數(shù)據(jù)輸入SVR,得到線性映射函數(shù):
對每個xi而言,如果φ(xi)和 yi的值相近則認為函數(shù)φ(x)能從x預測y值,此w即為SVR所要尋找的預測平面。
本文隱寫分析方法的主要思想是:利用SVR找到一個滿足隱寫圖樣本特征和嵌入改變率之間映射關系的函數(shù)。其中 xi=f(ci)表示第i個隱寫圖樣本ci的特征,yi為ci的嵌入改變率,yi∈[0,1],SVR尋找滿足式(2)的映射函數(shù):
其中,e是損失函數(shù),描述預測值和真實值誤差的一個度量,F(xiàn)是關于φ的函數(shù)組。
ε-SVR是一種最常用的支持向量回歸,它將問題(2)轉(zhuǎn)化為下列問題:
其中ε≥0,用來表示允許SVR預測值與實際值最大的差距值。
SVR將圖像特征從Rd空間模型映射到更高維向量空間Γ,將特征與嵌入改變率之間的非線性關系映射成線性關系,但樣本內(nèi)積計算繁瑣,核函數(shù)能巧妙避免維數(shù)災難,有效地解決這個問題。
假設驗證所得的最優(yōu)化函數(shù)組為:F={φ(x)=w·φ(x)-b|w∈Γ,b∈R},那么核函數(shù)k(x,x′),φ(x)和空間Γ滿足:對于?x,x′∈Rd,k(x,x′)=φ(x),φ(x′)Γ成立,其中<·,·>Γ是指在Γ空間的點積運算。高斯核函數(shù)(4)是常用的核函數(shù)之一:
為簡單求得式(4)的優(yōu)化函數(shù),誤差函數(shù)必須是凸函數(shù),ε-insensitive損失函數(shù)(5)和Huber損失函數(shù)(6)是常用的誤差函數(shù):
經(jīng)測試,ε-insensitive損失函數(shù)和Huber損失函數(shù)的結(jié)果接近,選擇其中之一即可。特征的有效性和參數(shù)的選取決定SVR回歸預測的效果。
1.2 特征提取
典型的JPEG隱寫算法會造成對DCT系數(shù)之間相關性的破壞,因此提取DCT系數(shù)相關性的特征能有效反映隱寫帶來的變化。DCT系數(shù)的塊內(nèi)和塊間三向差分數(shù)組分別描述塊內(nèi)塊間的系數(shù)相關性作為特征和建模的輸入變量[1]。特征提取方法步驟如下:
(1)將JPEG圖像從RGB模型轉(zhuǎn)換到Y(jié)cBCr模型,讀取Y分量并進行8×8分塊DCT變換,對各系數(shù)取絕對值。
(2)每個8×8DCT系數(shù)分塊取前21個低頻AC系數(shù)的絕對值分別沿橫向、縱向和zigzag方向掃描生成3個一維數(shù)組,由一維數(shù)組生成差分數(shù)組,得到3個二維差分數(shù)組。
(3)分別采用水平光柵、垂直光柵和zigzag掃描的方式掃描各BDCT塊系數(shù)絕對值,生成水平塊間、垂直塊間和zigzag方向塊間的二維差分數(shù)組。
(4)對各方向的塊內(nèi)和塊間的二維差分數(shù)組進行閾值處理,并求狀態(tài)轉(zhuǎn)移矩陣,取狀態(tài)轉(zhuǎn)移矩陣的下三角作為特征。
1.3 參數(shù)選取
ε-SVR準確地預測目標值,要求調(diào)節(jié)好兩個參數(shù):懲罰因子C和高斯核函數(shù)的核寬度g。關于參數(shù)的優(yōu)化選取,目前還沒公認的最好方法,常用的方法是讓C和g分別用網(wǎng)格法在一定范圍內(nèi)按步長取值,用多重交叉驗證法驗證訓練集的預測值,選取均方誤差(MSE)最小時的參數(shù)作為最優(yōu)參數(shù)。
網(wǎng)格法的表達式如式(7)所示:
其中cbase,gbase分別表示網(wǎng)格選值的基數(shù),[cmin,cmax],[gmin,gmax]分別用于限定C和g的取值范圍。
多重交叉驗證法能有效避免SVR欠學習和過學習的發(fā)生。它將原始訓練數(shù)據(jù)平均分成K組,每一組都分別做一次驗證集,其余K-1組則作為訓練集。
1.4 性能指標
為從數(shù)據(jù)上獲知預測值的準確度,三個誤差函數(shù):絕對值誤差(8)、方差(9)和絕對中值偏差(10)作為衡量預測值準確性的指標。
1.5 算法步驟
本文提出的實現(xiàn)能估計嵌入率的隱寫分析方法主要包括建立模型和測試兩部分,步驟如圖1所示。
圖1 隱寫分析器的建模和測試過程圖
(1)提取特征。根據(jù)1.2節(jié)的特征提取方法提取訓練圖像特征和測試圖像特征。
(2)預測模型。將訓練特征進行歸一化預處理,并將其作為自變量,相關訓練圖像的嵌入改變率作為因變量,輸入到SVR中用多重交叉驗證法尋找最優(yōu)參數(shù)C和g并進行回歸建模,得到隱寫分析模型。
(3)檢驗模型。將歸一化后的測試圖像特征輸入模型中,得到預測結(jié)果φ(x),用1.4節(jié)的準則計算φ(x)與真實值Y之間的誤差,判斷估計值是否準確。
從Jpeg-testing庫[11]隨機選取選取200幅凈圖作為載體圖像,利用F5、outguess和MB隱寫工具[12-14]將不同長度的信息嵌入到凈圖中,得到隱寫圖作為測試對象。對于F5 和MB隱寫算法,本文采用的嵌入改變率為 p1={0.05,0.10,…,0.50},對于outguess隱寫算法,p2={0.05,0.10,0.15},共得到13組隱寫圖像,并對每組圖像提取塊內(nèi)塊間相關性特征[1],一半特征用作訓練數(shù)據(jù),另一半特征用作測試數(shù)據(jù)。
利用libsvm工具箱[14]實現(xiàn)基于SVR的隱寫分析。歸一化的訓練特征作為輸入變量,高斯核函數(shù)作為核函數(shù),ε-insensitive為誤差函數(shù),C和g的基數(shù)和范圍:gbase=10,cbase=2,[cmin,cmax]=[-5,5],[gmin,gmax]=[-10,10],步長為0.1。
2.1 參數(shù)有效性
仿真結(jié)果證明,提出的隱寫分析算法能準確估計隱寫圖的嵌入改變率。如F5隱寫圖的嵌入改變率為0.15,訓練和測試樣本數(shù)量均為50時,交叉驗證法選擇最佳參數(shù)時二維和三維變化曲線分別如圖2和圖3所示,得到最佳參數(shù)C=0.630 96,g=0.535 89,此時所得的最小交叉驗證均方誤差CVmse=0.076 268。
圖2 參數(shù)選擇平面圖
圖3 參數(shù)選擇3D圖
經(jīng)過測試,在最佳參數(shù)條件下的估計值比隨機選取參數(shù)時所得的估計值效果好。利用嵌入改變率為0.15的F5隱寫圖訓練樣本建立隱寫分析模型,然后分別估計訓練樣本和測試樣本的嵌入改變率,預測結(jié)果如圖4所示。
圖4 F5訓練集和測試集的預測回歸曲線
由于最佳參數(shù)(C,g)在訓練集的多重交叉驗證回歸預測中選定,測試集中的特征未參與建模,參數(shù)(C,g)的“最佳”是相對于訓練集而言的,所以測試集的預測估計值不如訓練集的效果好。如圖4所示,訓練集關于嵌入改變率的回歸預測值曲線和實際嵌入改變率的曲線相對擬合度高、相關性強,測試集的回歸預測值曲線和實際值的曲線擬合度不如訓練集的高,但預測值都在真實值的附近。
2.2 檢測性能
本文13組隱寫圖的訓練樣本和測試樣本均為100,根據(jù)本文方法分別對13組隱寫圖進行建模和測試,用1.4節(jié)的性能指標驗證F5、outguess和MB測試樣本的估計值,所得誤差值分別如表1、表2和表3所示。
分析表1中數(shù)據(jù)可知,對于F5隱寫圖,隨著其嵌入改變率的增加,絕對誤差和方差兩種誤差值未呈現(xiàn)遞增反而減少,預測值的準確率增加。
表1 F5測試樣本的估計誤差值
表2 outguess測試樣本的估計誤差值
表3 MB測試樣本的估計誤差值
由表1至表3的數(shù)據(jù)可知,各組測試樣本預測值的三種誤差值都低于10-3階,文獻[9]得到的絕對誤差是10-3階,兩種方法得到的估計準確率接近。
本文提出的改進的量隱寫分析算法仿真速度快。本文采用的馬爾可夫特征提取較快、維數(shù)較少、減少了運算量,文獻[9]中結(jié)合文獻[2]的特征采用SVR建模仿真需要一天的運行時間,采用本文的特征只需兩小時,大幅度縮短了運算時間。
能估計隱寫圖中嵌入信息長度的通用隱寫分析是隱寫分析領域一個較新的思想,本文提出的隱寫分析算法有以下優(yōu)點:(1)該分析算法通過圖像特征和嵌入改變率之間的映射模型估計新隱寫圖的嵌入改變率,而且不針對某一種隱寫算法,實現(xiàn)了隱寫分析的通用性;(2)用于隱寫分析的特征提取快,而且用該特征得到的估計值與真實值基本擬合,誤差??;(3)算法模式簡單,較直觀,易于實現(xiàn),而且已證實基于SVR的回歸分析是一種有效的預測方法。
[1]孫子文,紀志成.基于離散余弦變換域的塊相關性和馬爾可夫模型的圖像隱寫分析[J].信息與控制,2009,38(5):602-607.
[2]Pevny T,F(xiàn)ridrich J.Merging Markov and DCT features for multi-class JPEG steganalysis[C]//Proc SPIE Electronic Imaging,Security,Steganography,and Watermarking of Multimedia Contents IX.San Jose,CA,USA:SPIE,2007:1-13.
[3]馮帆,王嘉禎,劉會英,等.基于PCA和希伯特包絡分析的盲隱寫分析算法[J].計算機工程與應用,2011,47(4):93-96.
[4]Fridrich J,Soukal D,Goljan M.Maximum likelihood estimation of length of secret message embedded using±K steganography in spatial domain[C]//Proc of Electronic Imaging,Security,Steganography,and Watermarking ofMultimedia Contents VII.San Jose,CA:SPIE,2005:328-340.
[5]Jena S K,Krishna G V V.Blind steganalysis:estimation of hidden messagelength[J].International Journal of Computers,Communications&Control,2007:149-158.
[6]Yu Xiaoyi,Wang Aiming.Detection of quantization data hiding[C]//Proc of 2009 International Conference on Multimedia Information Networking and Security(MINES'09).Hubei:IEEE,2009:45-47.
[7]Yang Chunfang,Luo Xiangyang,Liu Fenlin.Embedding ratio estimating foreach bitplaneofImage[C]//LNCS 5806:Proc of Information Hiding.Heidelberg:Springer,2009:59-72.
[8]Fridrich J,Goljan M,Hogea D,et al.Quantitative steganalysis of digital images:estimating the secret message length[J]. ACM Multimedia Systems Journal,Special Issue on Multimedia Security,2003,9(3):288-302.
[9]Pevny T,F(xiàn)ridrich J,Ker A D.From blind to quantitative steganalysis[C]//Proc SPIE,Electronic Imaging,Media Forensics and Security XI.San Jose,CA:SPIE,2009:1-14.
[10]Smola A J,Sch?lkopf B.A tutorial on support vector regression[J].Statistics and Computing,2004,14(3):199-222.
[11]Rocha A,Goldenstein S,Scheirer W,et al.The Unseen challenge data sets[C]//CVPRW'08.Anchorage,AK:[s.n.],2008:1-8.
[12]Westfeld A.F5-a steganographic algorithm high capacity despite better steganalysis[EB/OL].(2001-05-10).http://www.inf. tu-dresden.de/~aw4/publikationen.html.
[13]Provos N.OutGuess universal stegano-graphy[EB/OL].(2001-10-12).http://www.outguess.-org/.
[14]Sallee P.Model-based steganography[C]//LNCS 2939:International Workshop on Digital Watermarking.Berlin:Springer,2004.
[15]Chang C C,Lin C J.LIBSVM:a library for support vector machines[EB/OL].[2010-09-02].http://www.csie.ntu.edu.tw/~cjlin/ libsvm.
SUN Ziwen,LI Hui
School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 214122,China
In order to solve the problem that the majority of general steganalysis methods cannot estimate the secret message length,this paper proposes an improved general quantitative steg-analysis method that can estimate secret message length.132 dimensional features describing the correlations between DCT coefficients are extracted from stego images.Support vector regression is used to learn the mapping between feature vectors and the relative embedding change rates and construct steganalyzer model.Embedding rates are estimated through new feature sets and steganalyzer model.Simulation is performed on stego images embedded with F5,MB and outguess steganographic algorithms.The results of simulation reveal that the proposed quantitative steganalysis is feasible to estimate the embedding ratio of stego images in practice.
quantitative steganalysis;support vector regression;loss function;kernel function
為解決大多數(shù)通用隱寫分析算法不能檢測秘密信息長度的問題,提出了一種改進的能估計秘密信息長度的通用隱寫分析方法。從隱寫圖中提取描述DCT域系數(shù)相關性的132維特征,用支持向量回歸機學習圖像特征和相應嵌入改變率之間的映射關系并建立模型,根據(jù)映射模型估計測試隱寫圖的嵌入改變率。使用典型的嵌入算法:F5、outguess與MB進行測驗,仿真結(jié)果顯示提出的秘密信息長度估計算法是切實可行的。
通用隱寫分析;支持向量回歸;損失函數(shù);核函數(shù)
A
TP391
10.3778/j.issn.1002-8331.1107-0388
SUN Ziwen,LI Hui.SVR-based steganalysis method used for estimating embedding rate.Computer Engineering and Applications,2013,49(5):84-87.
中央高?;究蒲袠I(yè)務費專項資金資助(No.JUSRP21131)。
孫子文(1968—),女,博士,副教授,主要研究領域為無線傳感器網(wǎng)絡技術(shù)及應用、信息安全、圖像處理與模式識別;李慧(1986—),女,碩士。E-mail:sunziwen@jiangnan.edu.cn
2011-07-18
2011-08-30
1002-8331(2013)05-0084-04
CNKI出版日期:2011-11-14 http://www.cnki.net/kcms/detail/11.2127.TP.20111114.0947.042.html