基于EVD變換的魯棒音頻水印算法

2016-10-20 03:31:50童人婷程航張新鵬

上海大學(xué)學(xué)報(bào)(自然科學(xué)版) 2016年4期

關(guān)鍵詞：數(shù)字音頻二值方陣

童人婷，程航，2，張新鵬

（1.上海大學(xué)通信與信息工程學(xué)院，上海 200444；

2.福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，福州 350108）

基于EVD變換的魯棒音頻水印算法

童人婷1，程航1，2，張新鵬1

（1.上海大學(xué)通信與信息工程學(xué)院，上海 200444；

2.福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，福州 350108）

常見的數(shù)字信號(hào)處理往往會(huì)改變音頻信號(hào)的高頻分量并引入隨機(jī)噪聲,并且易造成數(shù)字水印信息的位置改變.提出了一種新的數(shù)字音頻水印算法.在該算法中,原始音頻被分為兩部分：①運(yùn)用量化索引調(diào)制來(lái)嵌入偽隨機(jī)序列生成的二值同步碼；②利用特征值分解（eigenvalue decomposition,EVD）方法先對(duì)離散小波變換（discrete wavelet transform,DWT）低頻系數(shù)進(jìn)行變換,然后在生成的對(duì)角陣中用量化索引調(diào)制嵌入水印信息.實(shí)驗(yàn)結(jié)果表明,在確保不可感知性和較強(qiáng)魯棒性的前提下,可大幅度提高水印嵌入容量,達(dá)到172 bit/s.

音頻水?。惶卣髦捣纸?；魯棒；高容量

隨著計(jì)算機(jī)網(wǎng)絡(luò)和多媒體信息處理技術(shù)的發(fā)展，方便快捷地制作、編輯、復(fù)制和傳輸各種無(wú)失真的數(shù)字化產(chǎn)品成為可能，如數(shù)字化的圖像、視頻、音頻、軟件、圖形、動(dòng)畫和文本等.這給人們帶來(lái)便利的同時(shí)也帶來(lái)了許多需重視的安全問(wèn)題，如數(shù)字媒體產(chǎn)品的版權(quán)保護(hù)、軟件產(chǎn)品的盜版、數(shù)字文檔的非法拷貝和各種數(shù)字信息的篡改等.

針對(duì)上述問(wèn)題，能夠有效實(shí)現(xiàn)版權(quán)保護(hù)的數(shù)字水?。╠igital watermarking）技術(shù)應(yīng)運(yùn)而生.音頻水印是一種嵌入到強(qiáng)背景上的特殊的弱信號(hào)，是通過(guò)檢測(cè)裝置或水印解碼器來(lái)進(jìn)行提取的.通常要求音頻水印是不可察覺(jué)的，而不可察覺(jué)性是建立在人類聽覺(jué)系統(tǒng)之上的.由于人耳非常敏感，因此設(shè)計(jì)一個(gè)滿意的音頻水印系統(tǒng)需要滿足一些特定的要求，其中魯棒性、不可察覺(jué)性和嵌入容量是數(shù)字音頻水印中的3個(gè)基本要求，這些要求相互矛盾，也相輔相成［1］.

除了將音頻水印算法歸類為時(shí)域算法、變換域算法、壓縮域算法外［2］，根據(jù)嵌入方案的不同，可以把近年來(lái)數(shù)字音頻水印的研究成果分為5類：擴(kuò)頻水印方案［3］、利用樣本或系數(shù)之間的關(guān)系來(lái)嵌入的集合關(guān)系水印方案［4］、自我復(fù)制水印方案［5］、不變水印方案［6］、量化水印方案［7］等.Kirovski等［3］提出的擴(kuò)頻水印是在原始音頻中嵌入偽隨機(jī)序列，通過(guò)計(jì)算含水印音頻與偽隨機(jī)序列之間的相關(guān)性來(lái)檢測(cè)水印，擴(kuò)頻水印要求一個(gè)耗時(shí)的心理聲學(xué)模型整形過(guò)程來(lái)減少可感知噪聲，且對(duì)時(shí)間軸縮放攻擊十分敏感；集合關(guān)系水印通過(guò)兩個(gè)或多個(gè)樣本集或變換系數(shù)集之間的相互關(guān)系來(lái)嵌入信息［4］；自我復(fù)制水印的基本思想是通過(guò)利用原始音頻自己來(lái)構(gòu)成水印，典型的方法有回聲隱藏，由于其通常是時(shí)域算法，魯棒性較弱；而不變水印則利用對(duì)特定攻擊的一些不變特征來(lái)嵌入，這種算法嵌入容量不大［5］；由Chen等［7］提出的基于量化音頻水印方案是通過(guò)量化器量化音頻樣本或變換域系數(shù)來(lái)嵌入信息，不需要原始音頻即能成功提取水印，完全實(shí)現(xiàn)了水印的盲提取.

本研究為了實(shí)現(xiàn)盲提取，選取了量化水印方案作為水印的嵌入方法，并引入了特征值分解（eigen-value decomposition，EVD）變換以達(dá)到更好的魯棒性，在離散小波變換域?qū)嵤┧〉那度肱c提取，這種靈活的水印方案不僅使水印在魯棒性和容量上達(dá)到了平衡，同時(shí)也兼顧了不可感知性.實(shí)驗(yàn)結(jié)果表明，在兼顧魯棒性和不可感知性的前提下，其嵌入容量可達(dá)172 bit/s.

1 高容量音頻水印算法

一個(gè)有效的音頻數(shù)字水印系統(tǒng)必須滿足不可感知性和魯棒性.為了提高水印的魯棒性，本研究中將同步碼嵌在時(shí)域里，通過(guò)量化索引調(diào)制（quantization index modulation，QIM）修改原始音頻信號(hào)時(shí)域的幅值以形成同步段（見圖1）.而水印嵌在離散小波變換（discrete wavelet transform，DWT）低頻系數(shù)中，以提高算法的魯棒性.嵌入時(shí)先把原始音頻分為兩部分：①嵌入同步碼作為提取水印的依據(jù)；②在頻域中嵌入水印信息.提取時(shí)先逐點(diǎn)查找同步段，再根據(jù)同步段的定位分段進(jìn)行DWT以提取水?。ㄒ妶D2）.

圖1 原始音頻分段Fig.1 Segmentation of original audio

圖2 水印置亂前后Fig.2 Binary and scrambled watermark image

1.1 EVD變換

任意方陣的EVD可用于數(shù)字音頻水印，從而增強(qiáng)其魯棒性.如任意一個(gè)n階方陣X可以分解為

式中，D為X的特征值對(duì)角陣，di,j為其元素；V為X的特征向量矩陣，vi,j為其元素.

對(duì)于基于EVD的數(shù)字音頻水印，一段音頻被視為一個(gè)方陣通過(guò)EVD變換分解為3個(gè)方陣，通過(guò)修改對(duì)角陣中元素達(dá)到水印嵌入的目的，較一般方法更能提高其魯棒性.

1.2 水印預(yù)處理

Arnold變換是俄羅斯數(shù)學(xué)家Arnold提出的一種變換.基于Arnold變換的簡(jiǎn)便和周期性，本研究選取它完成對(duì)水印圖像的預(yù)處理，以達(dá)到消除圖像像素空間的相關(guān)性，并加密水印圖像提高安全性的目的.假設(shè)水印二值圖像大小為M×M，Arnold變換為

式中，x和y分別表示變換前像素的行與列的位置.二值水印圖像經(jīng)過(guò)Arnold變換后，圖像像素的位置重新排列，完成了對(duì)圖像的置亂加密，然后將置亂后的像素矩陣轉(zhuǎn)換成一維二進(jìn)制數(shù)組.

Arnold變換只是改變圖像像素點(diǎn)的位置并對(duì)總像素變更.每一次Arnold變換都使得圖像混沌，如果持續(xù)變換一定周期就又能得到原始圖像.

1.3 同步碼的生成

同步碼的使用是為了找到隱藏的信息位的位置，從而避免隨機(jī)剪裁，抵抗移位攻擊.本研究將混沌序列作為同步碼［8］，在時(shí)域中嵌入.

生成長(zhǎng)為L(zhǎng)syn的混沌序列y：

式中，3.57＜λ 6 4,k為任意正整數(shù).

利用混沌序列y生成長(zhǎng)為L(zhǎng)syn的二值同步碼｛Syn（k）｝：

假設(shè)｛Seq（k）｝是與同步碼｛Syn（k）｝等長(zhǎng)的未知序列，對(duì)｛Seq（k）｝與｛Syn（k）｝逐一進(jìn)行比特比較，當(dāng)二者的漢明距離小于等于設(shè)定閾值t時(shí)，即認(rèn)為｛Seq（k）｝是同步碼.

1.4 同步碼嵌入

在時(shí)域中嵌入同步碼的優(yōu)點(diǎn)是查找的時(shí)間較少，計(jì)算成本較低，因此用長(zhǎng)為L(zhǎng)syn二值同步碼y修改原始音頻并作為同步段的時(shí)域樣點(diǎn)，以達(dá)到同步碼的嵌入.嵌入遵循如下形式進(jìn)行：

式中，q為同步碼對(duì)應(yīng)的量化強(qiáng)度.

1.5 水印嵌入

進(jìn)行水印嵌入的步驟如下（見圖3）.

（1）把原始音頻s（長(zhǎng)為L(zhǎng)s）分為n大段，每大段分為兩部分.

（2）第一部分長(zhǎng)為L(zhǎng)syn作為嵌同步碼的時(shí)域部分，第二部分作為嵌水印的頻域部分.

（3）對(duì)每大段的第二部分進(jìn)行分為4 096個(gè)（采樣頻率為44.1 kHz，每幀約93 ms）樣點(diǎn)的幀，對(duì)每幀進(jìn)行二層DWT，選取每幀DWT低頻系數(shù)（1 024個(gè)樣點(diǎn)）分為若干小段（實(shí)驗(yàn)中小段為64或者256個(gè)樣點(diǎn)），每小段形成方陣（8×8方陣或者16×16方陣）.

（4）對(duì)步驟（3）形成的方陣S進(jìn)行EVD變換.

（5）對(duì)變換所得的對(duì)角陣的第一個(gè)值即最大值x=Λ（1，1）進(jìn)行修改：

式中，Q為水印對(duì)應(yīng)的量化步長(zhǎng)，Q值越大則音質(zhì)損傷越大而魯棒性越好，Q值越小則音質(zhì)損傷越小而魯棒性越差.因此，通過(guò)調(diào)整嵌入強(qiáng)度Q的大小來(lái)保持音質(zhì)的損失不被察覺(jué)并兼顧魯棒性，實(shí)驗(yàn)表明Q=0.3時(shí)最佳.用修改后的值替換在原來(lái)的D（1，1）位置，并進(jìn)行EVD逆變換，其中每個(gè)方陣嵌1 bit秘密信息.

圖3 水印的嵌入Fig.3 Watermark embedding

（6）對(duì)修改后的方陣生成的一維向量進(jìn)行離散小波逆變換（inverse discrete wavelet transform，IDWT），再把生成的小段合并，合成大段后與同步段合并最終生成嵌水印音頻.

1.6 同步碼提取

（2）以長(zhǎng)為L(zhǎng)syn的窗口對(duì)進(jìn)行逐點(diǎn)滑動(dòng)計(jì)算與同步碼 es的相似度，若相似度大于設(shè)定的相似閾值t，則認(rèn)為該段與同步碼相匹配，即為同步段；否則繼續(xù)滑動(dòng)直至匹配.

同步碼的提取如下述形式進(jìn)行：

1.7 水印提取

水印提取遵循如下步驟進(jìn)行（見圖4）.

（2）對(duì)每大段的第二部分進(jìn)行分為4 096個(gè)（采樣頻率為44.1 kHz，每幀約93 ms［9］）樣點(diǎn)的幀，對(duì)每幀進(jìn)行二層DWT，將選取的每幀DWT低頻系數(shù)（1 024個(gè)樣點(diǎn)）分為若干小段，每小段形成方陣式中為特征向量矩陣.

圖4 水印的提取Fig.4 Watermark extracting

2 實(shí)驗(yàn)結(jié)果分析討論

本實(shí)驗(yàn)平臺(tái)采用Windows7下的Matlab2014a，并將單聲道、16位量化、采樣率為44.1 kHz的6組不同類型的WAV音頻片段作為原始的數(shù)字音頻信號(hào)；一幅M×M= 64×64=4 096的二值圖像“Min.bmp”（見圖2）和二值向量作為兩種待嵌水印.

2.1 不可感知性

常用的語(yǔ)音質(zhì)量評(píng)價(jià)方法分為主觀評(píng)價(jià)和客觀評(píng)價(jià).1996年國(guó)際ITU組織在ITUTP.800和P.830建議書中開始制訂相關(guān)的評(píng)測(cè)標(biāo)準(zhǔn)：MOS（mean opinion score）測(cè)試.MOS具體分值對(duì)照如表1所示.本研究用到的P.862-PESQ（perceptual evaluation of speech quality，主觀語(yǔ)音質(zhì)量評(píng)估）算法是ITU組織在2001年2月發(fā)布的目前最新的語(yǔ)音傳輸質(zhì)量測(cè)量標(biāo)準(zhǔn).

表1 ODG分值對(duì)照Table 1 ODG score

PESQ算法是模仿人耳的聽覺(jué)系統(tǒng)，對(duì)參考信號(hào)和測(cè)試信號(hào)進(jìn)行對(duì)比分析得出對(duì)應(yīng)于音頻質(zhì)量的客觀差異等級(jí)（objective difference grade，ODG）（見表1），范圍為［-4，0］，分?jǐn)?shù)越接近于0表示音頻可察覺(jué)的損傷越?。?0］.

信噪比（signal noise ratio，SNR）是評(píng)估音頻質(zhì)量的一種通用的客觀測(cè)量方法［11］，建立在度量均方誤差的基礎(chǔ)上：

式中，s為音頻信號(hào)，n為正整數(shù).

表2 ODG和SNRTable 2 ODG and SNR

近十年來(lái)的研究成果表明，SNR在20 dB以上被認(rèn)為音質(zhì)良好.由表2可知，本實(shí)驗(yàn)中6組測(cè)試音頻的SNR值都在20 dB以上的良好范圍內(nèi)（見圖2）.ODG值也都處于［-1，0］的良好等級(jí)，含水印的音頻信號(hào)與原始音頻信號(hào)的音質(zhì)非常接近.而由圖5和6可知，嵌水印前后音頻在時(shí)域和頻域都改變不大.因此，本研究提出的音頻水印算法具有良好的不可感知性.

2.2 魯棒性

評(píng)測(cè)音頻水印算法是否魯棒，本研究用歸一化互相關(guān)系數(shù)（normalized cross-correlation，NCC）和誤碼率（bit error rate，BER）來(lái)判定.

圖5 原始音頻與嵌水印音頻Fig.5 Original audio and watermarked audio

圖6 原始音頻與嵌水印音頻的局部比較Fig.6 Local comparison of original audio and watermarked audio

歸一化互相關(guān)系數(shù)是評(píng)測(cè)原始信號(hào)與嵌水印信號(hào)相似度的指標(biāo)，其值越接近于1則原始信號(hào)與嵌水印信號(hào)越相似，其定義如下：

誤碼率是評(píng)測(cè)水印檢測(cè)精度的指標(biāo)，其值越接近于0說(shuō)明該算法的水印檢測(cè)精度越高，定義如下：

本實(shí)驗(yàn)用如下攻擊來(lái)評(píng)測(cè)水印算法的魯棒性：①噪聲干擾.對(duì)嵌水印音頻加SNR為55 dB的高斯白噪聲，其均值為0.②低通濾波.對(duì)嵌水印音頻用截止頻率為4 kHz的低通濾波器濾波.③重采樣.將嵌水印音頻采樣頻率下降為22.05 kHz，再利用插值將采樣頻率還原為44.1 kHz.④重量化.將嵌水印音頻量化位由16 bit變?yōu)? bit，再恢復(fù)16 bit量化.⑤MP3壓縮.對(duì)嵌水印音頻以320 kbit/s的壓縮率壓縮.實(shí)驗(yàn)結(jié)果如表3（Q=0.3）、圖7和8所示.

表3 魯棒性評(píng)測(cè)結(jié)果Table 3 Robustness results

圖7 重采樣前后提取的水印Fig.7 Extracted watermark before and after resampling

圖8 MP3壓縮前后提取的水印Fig.8 Extracted watermark before and after MP3 compression

從上述實(shí)驗(yàn)結(jié)果可以看出，本研究中提出的算法對(duì)噪聲攻擊、低通濾波攻擊、重采樣、重量化、MP3壓縮等操作具有很強(qiáng)的魯棒性.

2.3 水印容量

未攻擊時(shí)確保誤碼率為0和歸一化互相關(guān)系數(shù)為1的狀態(tài)下，嵌入容量均值可高達(dá)172 bit/s（見表4）.

另外，實(shí)驗(yàn)結(jié)果就不可感知性、水印容量?jī)蓚€(gè)方面與近期的兩個(gè)方法比較（見表5）.

表4 不同音頻的嵌入容量Table 4 Capacity of different audio

表5 不同算法的比較Table 5 Comparison of different methods

由表5可得出，在相似的SNR條件下，同樣使用近兩年提出的盲音頻水印算法，在ODG均值最低時(shí)可得本研究提出的算法不可感知性更低，且嵌入容量可達(dá)172 bit/s，而文獻(xiàn)［6］中的嵌入容量只有46.9 bit/s，文獻(xiàn)［12］中的嵌入容量只有88 bit/s，文獻(xiàn)［13］中的嵌入容量只有102.4 bit/s.

3 結(jié)束語(yǔ)

本研究就一種新穎的基于EVD的高容量音頻水印算法進(jìn)行了詳細(xì)闡述.本算法引入了EVD變換，為音頻水印嵌入過(guò)程中不可感知性和魯棒性的平衡提供了一種解決方法.實(shí)驗(yàn)結(jié)果表明，與已有的算法相比，在確保不可感知性和魯棒性的基礎(chǔ)上本算法可達(dá)到平均嵌入容量172 bit/s.

［1］孫圣和.數(shù)字水印技術(shù)及應(yīng)用［M］.北京：科學(xué)出版社,2004：388-452.

［2］李偉,袁一群.數(shù)字音頻水印技術(shù)綜述［J］.通信學(xué)報(bào),2005,26（2）：100-111.

［3］KIROVSKI D,MALVAR H S.Spread spectrum watermarking of audio signals［J］.IEEE Transactions on Signal Processing,2003,51（4）：1020-1033.

［4］BHAT V,SENGUPTA I.An adaptive audio watermarking based on the singular value decomposition in the wavelet domain［J］.Digital Signal Processing,2010,20（6）：1547-1558.

［5］KO B S,NISHIMURA R.Time-spread echo method for digital audio watermarking［J］.IEEE Transactions on Multimedia,2005,7（2）：212-221.

［6］KHALDI K,BOUDRAA A O.Audio watermarking via EMD［J］.IEEE Transactions on Audio, Speech,and Language Processing,2013,21（3）：675-680.

［7］CHEN B,WORNELL G W.Quantization index modulation：a class of provably good methods for digital watermarking and information embedding［J］.IEEE Transactions on Information Theory, 2001,47（4）：1423-1443.

［8］LEI B Y,SOON I Y.Blind and robust audio watermarking scheme based on SVD—DCT［J］. Signal Processing,2011,91（8）：1973-1984.

［9］HWAI T H,LING Y H.Variable-dimensional vector modulation for perceptual-based DWT blind audio watermarking with adjust able payload capacity［J］.Digital Signal Processing,2014,31：115-123.

［10］ERFANI Y,SIAHPOUSH S.Robust audio watermarking using improved TS echo hiding［J］.Digital Signal Processing,2009,19（5）：809-814.

［11］POHLMANN K C.數(shù)字音頻原理與應(yīng)用［M］.4版.北京：電子工業(yè)出版社,2002：213-218.

［12］ZHANG J Q,WANG H X.Audio watermarking scheme resistant to both random cropping and lowpass filtering,communications［C］//2013 International Conference on Communication,Circuits and Systems.2013：292-295.

［13］WANG X K,WANG P J.A norm-space,adaptive,and blind audio watermarking algorithm by discrete wavelet transform［J］.Signal Processing,2013,93（4）：913-922.

本文彩色版可登陸本刊網(wǎng)站查詢：http：//www.journal.shu.edu.cn

Robust audio watermarking based on eigen-value decomposition

TONG Renting1，CHENG Hang1,2，ZHANG Xinpeng1
（1.School of Communication and Information Engineering，Shanghai University，Shanghai 200444，China；
2.College of Mathematics and Computer Science，F(xiàn)uzhou University，F(xiàn)uzhou 350108，China）

Common digital signal processing often introduces noise into audio signals and cause high-frequency distort.Meanwhile,both signal processing operations and malicious attacks may change location of watermark information.By making use of robustness of eigen-value decomposition（EVD）,a blind audio watermarking algorithm is proposed.The original audio signal is divided into two parts.Binary codes for synchronization are embedded into the first part using quantization index modulation（QIM）.The approximation components of discrete wavelet transform（DWT）of the second part is transformed using EVD to generate a diagonal matrix,and the watermark information is embedded into the matrix entries with QIM.Experimental results show that embedding capacity of the proposed method is as high as 172 bit/s,and it still maintains good audio quality and can tolerate a wide range of common attacks.

audio watermarking；eigen-value decomposition（EVD）；robust；high capacity

TP 391

1007-2861（2016）04-0388-10

10.3969/j.issn.1007-2861.2014.05.017

2014-11-26

國(guó)家自然科學(xué)基金資助項(xiàng)目（61472235）

張新鵬（1975—），男，教授，博士生導(dǎo)師，博士，研究方向?yàn)槎嗝襟w信息安全.E-mail：xzhang@shu.edu.cn