黃 曜,許華虎,歐陽(yáng)杰臣,高 玨
(1.上海大學(xué),上海 200444;2.上海上大海潤(rùn)信息系統(tǒng)有限公司,上海 200444)
基于混合特征提取的圖像來(lái)源鑒別算法
黃 曜1,許華虎2,歐陽(yáng)杰臣1,高 玨1
(1.上海大學(xué),上海 200444;2.上海上大海潤(rùn)信息系統(tǒng)有限公司,上海 200444)
隨著數(shù)碼圖像的普及,圖像盲取證成為時(shí)下的研究熱點(diǎn)之一。如何識(shí)別圖像來(lái)源是其中主要的研究?jī)?nèi)容。特征提取是對(duì)圖像進(jìn)行鑒別的前提。文中通過(guò)對(duì)現(xiàn)有的特征提取方法進(jìn)行研究,針對(duì)現(xiàn)有單一特征提取不能完全反映圖像特質(zhì)導(dǎo)致識(shí)別出錯(cuò)的問(wèn)題,提出混合特征提取的概念,依次提取圖像的顏色特征、紋理特征以及統(tǒng)計(jì)特征,從而提高圖像來(lái)源的識(shí)別率。通過(guò)實(shí)驗(yàn)對(duì)文中提出的算法進(jìn)行了驗(yàn)證。結(jié)果表明,文中提出的混合特征提取算法較任一單一特征提取算法都能取得更好的圖像來(lái)源鑒別率。
圖像盲取證;單一特征提??;混合特征提??;圖像來(lái)源鑒別率
隨著現(xiàn)代數(shù)字技術(shù)的發(fā)展,以及數(shù)碼相機(jī)的普及,數(shù)字圖像在日常生活和工作中得到了廣泛的使用。相應(yīng)地,篡改圖像內(nèi)容并使得人眼難以覺(jué)察出偽造的痕跡變得越來(lái)越頻繁與容易,由此帶來(lái)的影響輕則干擾人們的正常生活,重則影響國(guó)家、社會(huì)和政治穩(wěn)定[1]。因此,鑒別圖像的真實(shí)性顯得日益迫切,圖像盲取證技術(shù)作為研究要點(diǎn)被提出并成為時(shí)下熱點(diǎn)之一。
圖像盲取證技術(shù)主要涉及四個(gè)方面的問(wèn)題[2-3],其中之一便是如何確認(rèn)圖片是由相機(jī)、手機(jī)等設(shè)備所拍攝的自然圖像,還是經(jīng)過(guò)計(jì)算機(jī)制作的圖像,抑或是掃描儀直接掃描生成的圖像。傳統(tǒng)的圖像來(lái)源鑒別算法主要包括特征提取、特征選擇以及構(gòu)造分類(lèi)器等多項(xiàng)技術(shù)。特征提取作為前期的重要部分,所做的工作是如何高效地提取對(duì)最終鑒別有利的特征。針對(duì)特征集維數(shù)過(guò)大的問(wèn)題,現(xiàn)有的圖像盲取證大多采用單一特征提取。Lyu等對(duì)攝影圖像和計(jì)算機(jī)生成圖像進(jìn)行分類(lèi)時(shí)采用基于金字塔分解的自然圖像統(tǒng)計(jì)模型的方法[4]。其主要方法便是對(duì)圖像的統(tǒng)計(jì)特征加以分析,最終區(qū)分這兩種不同來(lái)源的圖像。Khanna等對(duì)掃描圖像進(jìn)行研究,先對(duì)待測(cè)圖像進(jìn)行不同的去噪操作,從而獲得不同的噪聲信息,然后通過(guò)提取圖像的殘余噪聲行以及列平均值的統(tǒng)計(jì)信息等一系列相關(guān)性特征,成功鑒別由掃描儀生成的圖像[5]。Binghamton大學(xué)的J.Fridrich在對(duì)自然圖像的研究中,提出將由自然圖像提取的模式噪聲作為“相機(jī)指紋”來(lái)進(jìn)行數(shù)碼相機(jī)的個(gè)體識(shí)別,并最終將該理論擴(kuò)展到打印圖片的來(lái)源辨識(shí)中[6]。
這些算法大多都是對(duì)圖像的某個(gè)特征進(jìn)行提取并分類(lèi)以達(dá)到特定的鑒別效果,也取得了一定的鑒別率。但是,圖像的信息量其實(shí)是非常豐富的,如果僅用某種單一的特征進(jìn)行鑒別,那么所能獲取的關(guān)于圖像的來(lái)源信息則相當(dāng)有限,甚至無(wú)法反映圖像的特質(zhì),這將直接影響最終鑒別的效果。所以,找到一種高效而又盡可能地反映圖像特征的特征提取方法意義重大。
因?yàn)閭鹘y(tǒng)的單一特征提取算法從圖像中獲取的信息非常有限,不能全面地概括圖像的個(gè)性特征,導(dǎo)致了圖像來(lái)源鑒別率不高。所以,文中提出有關(guān)混合特征提取的理論,希望通過(guò)提取包括圖像的顏色特征、紋理特征以及統(tǒng)計(jì)特征的混合特征以達(dá)到提高鑒別率的目的。
1.1 基于HSV顏色直方圖的顏色特征提取
通常來(lái)說(shuō),掃描儀的色純受燈管的工藝限制影響,使得掃描而成的圖像有一定的偏色現(xiàn)象[7]。所以,顏色特征可以用來(lái)鑒別自然圖像與掃描圖像。因此,文中將顏色特征作為要提取的混合特征之一。另外,為避免可能出現(xiàn)的“維數(shù)災(zāi)難”問(wèn)題,文中采取可量化的HSV顏色空間進(jìn)行顏色特征提取。
1.1.1 顏色模型轉(zhuǎn)換
在實(shí)際應(yīng)用中,通常選取RGB顏色模型來(lái)表述圖像的顏色空間。所以,為得到HSV顏色空間,首先應(yīng)進(jìn)行從RGB空間到HSV空間的顏色模型轉(zhuǎn)換。
令
則有:
h=
(1)
(2)
v=max(r,g,b)
(3)
其中,r,g,b∈[0,1],h∈[0,60],s,v∈[0,1]。
1.1.2HSV空間的量化
通常來(lái)說(shuō),采用模式分類(lèi)的思想鑒別圖像來(lái)源,問(wèn)題之一是如何避免維數(shù)災(zāi)難[8]。設(shè)計(jì)分類(lèi)器的時(shí)候,如果特征維數(shù)過(guò)大,會(huì)導(dǎo)致出現(xiàn)計(jì)算量過(guò)大、復(fù)雜性高、效率低的情況。而一幅彩色圖像所含的顏色信息非常豐富,這導(dǎo)致了圖像的特征向量維數(shù)非常高。因此,縮減特征維數(shù)是非常必要的。
對(duì)于HSV顏色空間中的顏色特征來(lái)說(shuō),量化包括非等間隔與等間隔兩種方式[9]。 由于等間隔量化后的顏色空間可能會(huì)出現(xiàn)信息集中于少數(shù)顏色中,還有可能會(huì)使得相同的顏色中包含完全不同的信息,這顯然會(huì)影響最后識(shí)別的效率,所以文中采用非等間隔量化。
文中選擇降低到72維矢量,即把色調(diào)H空間分成8份,飽和度S和亮度V空間分別分成3份,進(jìn)行非等間隔量化。則有:
(4)
(5)
(6)
其中,H的不同取值表示色調(diào)的種類(lèi)。
為便于計(jì)算,先對(duì)H、S、V取不同的權(quán)值,再根據(jù)H、S、V的量化級(jí)數(shù)和頻帶寬度,進(jìn)而得到組合后的一維矢量L:
L=HQsQv+SQv+V
(7)
其中,Qs,Qv表示S和V的量化級(jí)數(shù),Qs=3,Qv=3。
因此,式(7)可表示為:
L=9H+3S+V
(8)
則L的取值范圍為[0,71],這樣計(jì)算L可獲得72柄的一維直方圖。通過(guò)提高色調(diào)H的權(quán)重,相對(duì)降低飽和度S以及亮度V的權(quán)重,這樣便能充分提取圖像中的顏色信息,為最終的鑒別做好準(zhǔn)備。
1.2 基于灰度共生矩陣的紋理特征提取
在計(jì)算機(jī)制作生成圖像的過(guò)程中,設(shè)備以及自然光線(xiàn)沒(méi)有起到任何作用[10],所以最終生成的圖像與自然圖像在統(tǒng)計(jì)與紋理特征方面都有顯著的差別。因此,文中將紋理特征與統(tǒng)計(jì)特征作為混合特征中的另外兩個(gè)特征用以鑒別自然圖像與計(jì)算機(jī)生成圖像。
文中采用灰度共生矩陣[11]的方法來(lái)提取圖像的紋理特征。除了不用考慮顏色信息外,灰度共生矩陣的方法計(jì)算量以及復(fù)雜程度相對(duì)較低,并且提取出的特征向量維數(shù)相對(duì)較少,這對(duì)鑒別是非常有利的。
1.2.1 計(jì)算共生矩陣
假設(shè)圖像在水平和垂直方向上分別有Nx和Ny個(gè)像素。水平空間域表示為Zx={1,2,…,Nx},垂直空間域表示為Zy={1,2,…,Ny}。給定距離d和方向角度θ后,就可以計(jì)算相應(yīng)的共生矩陣元素p(i,j|d,θ)值。一般取d=1,θ分別為0°、45°、90°、135°。則有相應(yīng)公式:
(9)
(10)
(11)
(12)
其中:k、m和l、n表示所選窗口中的變動(dòng);#表示集合中的像素對(duì)數(shù)。
1.2.2 紋理特征的提取
(1)RGB圖像轉(zhuǎn)換成灰度圖像。
N=0.299×r+0.587×g+0.114×b
(13)
(2)共生矩陣的歸一化。
(14)
其中,R為歸一化常數(shù),R=
(3)計(jì)算特征向量。
實(shí)際應(yīng)用中,還需要通過(guò)得到的共生矩陣計(jì)算二次統(tǒng)計(jì)量作為紋理狀況的表征。Haralick等[12]發(fā)現(xiàn)了多個(gè)灰度共生矩陣特征參數(shù)用于分析圖像的紋理狀況。Ulaby等[13]研究發(fā)現(xiàn):在這些參數(shù)中,只有4個(gè)特征是不相關(guān)的,而且這4個(gè)特征相對(duì)地更加方便計(jì)算,所以文中也選取這4個(gè)特征。
①角二階矩或能量。
(15)
角二階矩是考量圖像灰度變化是否均一的特征參數(shù)。由式(15)可知,對(duì)于均勻性較好的紋理,其大多數(shù)元素大多集中在共生矩陣的主對(duì)角線(xiàn)上,所以角二階矩值較大,而對(duì)于均勻性較差的紋理,其元素多分散于對(duì)角線(xiàn)兩邊,所以角二階矩值較小。
②對(duì)比度。
(16)
對(duì)比度描述了圖像的灰度變化情況,反映了紋理的強(qiáng)弱和圖像的清晰度。對(duì)比度越大,紋理就越明顯;反之,紋理就越不明顯。對(duì)比度為0表示圖像沒(méi)有紋理。
③熵。
(17)
熵是考量圖像信息量的特征參數(shù),用來(lái)表示圖像灰度級(jí)的混亂程度。圖像灰度級(jí)的混亂程度高,圖像熵值較大;混亂程度低,圖像熵值較小。同樣地,圖像沒(méi)有紋理時(shí),熵值為0。
④相關(guān)性。
(18)
相關(guān)性是考量圖像灰度線(xiàn)性關(guān)系的特征參數(shù),用來(lái)表示灰度共生矩陣中行或列元素之間的相似程度。若灰度值沿某些方向延伸得越長(zhǎng),相關(guān)性的值就越大。
1.3 基于相對(duì)頻率的統(tǒng)計(jì)特征提取
對(duì)于圖像來(lái)說(shuō),不同的成像模型以及光線(xiàn)傳遞方式會(huì)導(dǎo)致不同的內(nèi)在屬性[14]。而圖像的統(tǒng)計(jì)特征可以用來(lái)表示圖像信息的變化情況和內(nèi)在屬性,故文中將圖像的統(tǒng)計(jì)特征作為識(shí)別成像設(shè)備所提取的特征之一。同樣地,因?yàn)榛叶葓D像的直方圖與RGB三通道直方圖分布相似[15],為了減少計(jì)算量,降低特征維數(shù),本節(jié)還是對(duì)灰度圖像進(jìn)行統(tǒng)計(jì)特征提取。
1.3.1 計(jì)算相對(duì)頻率
假設(shè)給定的彩色圖像大小為M×N,則其相應(yīng)灰度圖像的滑塊總數(shù)Ng可由下式計(jì)算得出:
Ng=?M/b」×?N/b」
(19)
其中,b為滑窗操作的窗口大小。
由于自然圖像與計(jì)算機(jī)生成圖像的灰度級(jí)數(shù)大多不同[16],所以本節(jié)引入相對(duì)頻率來(lái)表征圖像的統(tǒng)計(jì)特征。每個(gè)圖像塊中每個(gè)像素的相對(duì)頻率的計(jì)算公式如下:
(20)
1.3.2 計(jì)算相對(duì)頻率均值與方差
對(duì)于數(shù)字圖像而言,每個(gè)像素點(diǎn)的相對(duì)頻率從某種程度上反映了圖像的像素統(tǒng)計(jì)特征。均值能夠反映統(tǒng)計(jì)總體的平均特征,所以文中計(jì)算相對(duì)頻率均值(MRF),用以表征圖像相對(duì)頻率總體的平均特征。MRF計(jì)算公式如下:
(21)
方差能夠從某種程度上反映統(tǒng)計(jì)總體的信息和能量梯度[17]。圖像的方差越大,則圖像的信息越豐富。因此,文中計(jì)算相對(duì)頻率方差(VRF),用以表征圖像相對(duì)頻率的統(tǒng)計(jì)信息和能量梯度。VRF計(jì)算公式如下:
(22)
相對(duì)于普通的成像設(shè)備鑒別算法,文中擬提取顏色特征、紋理特征、統(tǒng)計(jì)特征的混合特征以提高鑒別準(zhǔn)確率,具體算法步驟如下:
(1)按照上文所述方法依次提取圖像的顏色特征、紋理特征以及統(tǒng)計(jì)特征。
(2)訓(xùn)練和測(cè)試。對(duì)于最終的鑒別,文中采用的是模式識(shí)別的方法。即使用SVM分類(lèi)器對(duì)待測(cè)圖像進(jìn)行分類(lèi)以鑒別圖像由哪種成像設(shè)備生成。首先,從圖像庫(kù)里選取一定數(shù)量的自然圖像、掃描儀生成圖像以及計(jì)算機(jī)生成圖像,然后將所有圖像分成訓(xùn)練組與測(cè)試組。訓(xùn)練組用來(lái)訓(xùn)練分類(lèi)器得到分類(lèi)模型,測(cè)試組用來(lái)最后的鑒別。鑒別的具體步驟與流程如圖1所示。
圖1 混合特征提取算法流程
首先,從圖像庫(kù)中隨機(jī)選取300張自然圖像,300張計(jì)算機(jī)生成圖像以及300張掃描圖像作為訓(xùn)練組,再選取200張自然圖像,200張計(jì)算機(jī)生成圖像以及200張掃描圖像作為測(cè)試組。同時(shí),為了驗(yàn)證混合特征提取對(duì)最終鑒別效果的提升作用,文中利用傳統(tǒng)的單一顏色特征提取、紋理特征提取以及統(tǒng)計(jì)特征提取分別進(jìn)行了實(shí)驗(yàn),并對(duì)比了文中提出的混合特征提取算法的實(shí)驗(yàn)效果,結(jié)果如表1所示。
由表1可得:首先,傳統(tǒng)的單一顏色特征提取算法對(duì)掃描圖像有良好的鑒別效果,而紋理特征提取與統(tǒng)計(jì)特征提取算法對(duì)計(jì)算機(jī)生成圖像有更好的鑒別效果。所以,選取這三個(gè)特征用以鑒別自然圖像、計(jì)算機(jī)生成圖像與掃描儀生成的圖像是正確的。其次,文中算法相對(duì)于任一單一特征提取算法,在鑒別效率上都有一定的提高,從而驗(yàn)證了文中起初的設(shè)想,混合特征提取能提高圖像來(lái)源鑒別的效率。
表1 文中算法與傳統(tǒng)單一特征提取算法鑒別效果比較 %
為避免單一特征提取算法所造成的圖像來(lái)源鑒別率不高的問(wèn)題,文中提出了基于混合特征提取的圖像來(lái)源鑒別算法。文種依次提取了圖像的顏色特征、紋理特征以及統(tǒng)計(jì)特征,并使用模式分類(lèi)的方法,實(shí)現(xiàn)了圖像的來(lái)源識(shí)別。最后的實(shí)驗(yàn)結(jié)果表明,相比任一單一特征提取算法,文中提出的混合特征提取算法在圖像來(lái)源鑒別率上都有一定的提高,能較好地區(qū)分自然圖像、計(jì)算機(jī)生成圖像以及掃描儀生成圖像,達(dá)到了預(yù)期效果。但是,混合特征提取的算法使得特征維數(shù)有相應(yīng)增加,導(dǎo)致計(jì)算量增大以及在最終的鑒別階段,如何決定所選擇的各個(gè)特征的權(quán)重都是文中亟待解決的問(wèn)題。
[1]YongIY.Detectionofdigitalforgeriesusinganimageinterpolationfromdigitalimages[C]//ProcofIEEEinternationalsymposiumonconsumerelectronics.[s.l.]:IEEE,2008:1-4.
[2]SencarHT,MemonN.Overviewofstate-of-the-artindigitalimageforensics[C]//ProcofWSPC.[s.l.]:WorldScientificPress,2008.
[3]KhannaN,MikkilineniAK,MartoneAF,etal.Asurveyofforensiccharacterizationmethodsforphysicaldevices[J].DigitalInvestigation,2006,3:17-28.
[4]LyuSW,FaridH.Howrealisticisphotorealistic?[J].IEEETransactionsonSignalProcessing,2005,53(2):845-850.
[5]MikkilineniKN,ChiuAK,AllebachGTC,etal.Scanneridentificationusingsensorpatternnoise[C]//ProcofSPIE.[s.l.]:[s.n.],2007.
[6]LukasJ,GoljanM.Cameraidentificationfromprintedimages[C]//ProcofSPIE.SanJose,CA:[s.n.],2008.
[7] 張桂蘭,齊愛(ài)軍.掃描儀實(shí)用指南[M].北京:印刷工業(yè)出版社,2007:30-75.
[8] 宋楓溪,高秀梅,劉樹(shù)海,等.統(tǒng)計(jì)模式識(shí)別中的維數(shù)削減與低損降維[J].計(jì)算機(jī)學(xué)報(bào),2005,28(11):1915-1922.
[9] 荊仁杰.計(jì)算機(jī)圖像處理[M].杭州:浙江大學(xué)出版社,1990.
[10]SwaminathanA,WuM,LiuKJR.Digitalimageforensicsviaintrinsicfingerprints[J].IEEETransactionsonInformationForensicsandSecurity,2008,3(1):101-117.
[11]HaralickRM.Statisticalandstructuralapproachestotexture[J].ProcofIEEE,1979,67(5):786-804.
[12]HaralickRM,ShanmugamK.Texturefeaturesforimageclassification[J].IEEETransactionsonSystems,Man,andCybernetics,1973,3(6):610-621.
[13]UlabyFT,KouyateF,BriscoB,etal.TexturalinformationinSARimages[J].IEEETransactionsonGeoscienceandRemoteSensing,1986,24(2):235-245.
[14] 譚碧濤,景春元,張 新,等.光電系統(tǒng)對(duì)空間目標(biāo)成像建模仿真研究[J].計(jì)算機(jī)仿真,2009,26(5):240-243.
[15] 張恒博,歐宗瑛.一種基于色彩和灰度直方圖的圖像檢索方法[J].計(jì)算機(jī)工程,2004,30(10):20-22.
[16] 王學(xué)良,李生紅,金 波,等.一種用于計(jì)算機(jī)生成圖像與自然圖像鑒別的改進(jìn)方法[J].光電子·激光,2010,21(5):783-785.
[17] 姚 權(quán),吳曉紅,何小海,等.基于能量、梯度與方差的多聚焦圖像融合[J].信息與電子工程,2012,10(1):93-97.
Image Source Identification Algorithm Based on Mixed Feature Extraction
HUANG Yao1,XU Hua-hu2,OUYANG Jie-chen1,GAO Jue1
(1.Shanghai University,Shanghai 200444,China; 2.Shang Da Hai Run Information System Co.,Ltd.,Shanghai 200444,China)
With the popularity of digital images,blind image forensics has become one of the hotspots nowadays.The main research content of blind image forensics is how to identify the image source.Feature extraction is a prerequisite to identify the image.By studying the existing feature extraction methods,aiming at the problem that the single feature extraction may not fully reflect the image characteristics to lead to the recognition error,the concept of mixed feature extraction is proposed,extraction of the features of color,texture and statistics to improve the recognition rate for image source.The algorithm proposed in this paper is validated through the experiment.The results show that the mixed feature extraction algorithm proposed can achieve better image source identification rate compared with any single feature extraction algorithm.
blind image forensics;single feature extraction;mixed feature extraction;image source identification rate
2015-07-15
2015-10-21
時(shí)間:2016-03-22
國(guó)家重大科技專(zhuān)項(xiàng)課題(2009ZX04001-111)
黃 曜(1991-),男,碩士,研究方向?yàn)閳D像多媒體技術(shù);許華虎,教授,博士生導(dǎo)師,CCF高級(jí)會(huì)員,研究方向?yàn)槿藱C(jī)交互、圖像處理、多媒體網(wǎng)絡(luò)技術(shù)等。
http://www.cnki.net/kcms/detail/61.1450.TP.20160322.1521.076.html
TP301.6
A
1673-629X(2016)04-0011-05
10.3969/j.issn.1673-629X.2016.04.003