劉 影,陳 怡,高 戈,呂 冰,張 康
(1.華中師范大學 計算機學院,湖北 武漢 430000;2.武漢大學 計算機學院 國家多媒體軟件工程技術研究中心,湖北 武漢 430000)
不同于以往音頻水印技術在版權保護、拷貝控制和廣播監(jiān)控等領域的應用[1-4],移動互聯(lián)網(wǎng)絡應用中要求水印算法必須具有更強的魯棒性,必須更加具備抵抗這種特定情境下產(chǎn)生的不利因素(如背景噪音、麥克風的自噪聲)的能力[5],因為這些不利因素很可能對水印的提取造成困難。同時,水印算法能夠易于檢測并且具有較小的水印檢測錯誤率以達到電視節(jié)目與觀眾實時互動的要求。
Huang X等提出了一種基于LSB的用于聲學隱寫的高容量音頻水印算法[6],但是該算法易受到一些常見信號攻擊的影響,例如加噪聲、重采樣等;Wodecki等提出了一種較好的聲傳輸音頻水印方案[7],但是其文章缺少該水印算法對于常見信號攻擊以及背景噪聲抵抗性的討論;Arnold M等針對聲學傳輸提出了一種基于相位的音頻水印系統(tǒng)[8],但是在相位旋轉(zhuǎn)的情形下該算法不能得到較好應用;Alexiou V等提出的水印算法解決了音頻傳輸過程中的延遲問題[9]。除了以上方法之外,擴頻水印技術(SS)[10]是魯棒的音頻水印算法之一,該方法被廣泛的應用于數(shù)字版權保護之中。然而,在解碼過程中原始音頻信號會成為影響水印提取的干擾因素是傳統(tǒng)擴頻技術的一大缺點。Malvar等提出了一種改進的擴頻水印算法(ISS)[11],ISS可以有效降低原始音頻信號的干擾,顯著提高了水印系統(tǒng)的解碼性能。受到ISS的啟發(fā),Valizadeh等將相關感知和嵌入信息位感知的概念與擴頻水印方案結(jié)合,提出了一種基于相關感知的擴頻(CAISS)信息隱藏方案[12]。仿真結(jié)果顯示,對于載體信號的干擾,CAISS方案具有比傳統(tǒng)擴頻方案更強的魯棒性和更大的有效載荷。
以上研究算法大都是針對版權保護等方面的應用,水印技術在移動互聯(lián)網(wǎng)絡中的應用,在保證信號音質(zhì)具有不可感知性的同時,更加強調(diào)水印必須具有的較強的魯棒性,更夠抵抗包括移動終端的移動、環(huán)境噪聲等的各種干擾攻擊,并且要求檢測效率高,可以滿足用戶在短時間內(nèi)完成信息交互的要求。本文基于擴頻水印技術,利用連續(xù)音頻幀之間的高度相關性提出的交叉擴頻水印算法(CSS)正是針對移動互聯(lián)網(wǎng)絡中對水印技術的要求,降低了水印檢測
統(tǒng)計量的方差,減小了水印檢測錯誤率。受到改進的擴頻水印技術的啟發(fā),通過結(jié)合交叉擴頻和改進的擴頻水印技術兩種方案,繼而提出了一種改進的交叉擴頻水印算法(ICSS),進一步增強了音頻水印的魯棒性,降低了水印檢測的錯誤率,即使是在存在環(huán)境背景噪音的情況下,也可以達到能夠讓用戶實時準確的提取出互動信息(水印)的目的。
圖1 傳統(tǒng)擴頻水印算法結(jié)構(gòu)
在分析傳統(tǒng)擴頻水印算法解碼錯誤率之前,首先給出內(nèi)積的定義公式如下
(1)
其中,N代表向量x, u, s,以及y的長度。
在解碼端,水印檢測的第一步是計算檢測統(tǒng)計量r
(2)
(3)
因此,可以由如下公式計算水印檢測錯誤率p
(4)
其中,erfc(·)是余誤差函數(shù)。
s=x+(αb-λx)u
(5)
其中,α和λ分別用來控制嵌入失真以及去除原始音頻信號對檢驗統(tǒng)計量的干擾。在與傳統(tǒng)擴頻水印技術嵌入失真水平相同的情況下,參數(shù)α給定為
(6)
在基于相關性的解碼器端,檢測統(tǒng)計量r可由如下公式計算
(7)
其均值和方差分別表示如下
(8)
由此可以得到改進的擴頻水印算法的檢測錯誤率為
(9)
本章節(jié)將重點介紹文章提出的能夠用來提高水印魯棒性的新的水印方案。該水印算法基于傳統(tǒng)加性擴頻水印技術,在水印嵌入過程中利用音頻信號高度相關的相鄰點來嵌入水印信息從而有效減小方差。
在水印嵌入之前,我們必須在音頻文件中選擇出合適的水印嵌入?yún)^(qū)域。水印嵌入?yún)^(qū)域必須滿足以下條件:
(10)
如果一個幀的能量滿足
(max{E[0],…,E[K-1]}/min{E[0],…,E[K-1]})>τ1
(11)
那么該幀就被判定為是含有預回聲的幀,將不允許嵌入水印信息。在這里,閾值τ1由經(jīng)驗得出,本文實驗τ1的取值為150。
(2)水印不能嵌入到靜音區(qū)。否則,要么會產(chǎn)生噪聲,要么水印的檢測將不具意義。因此,水印嵌入?yún)^(qū)域的能量應該超過一個給定的閾值τ2(本實驗取值為音頻信號靜音區(qū)的平均能量2.086dB),在嵌入過程中水印信息將自動跳過能量低于這個閾值的音頻區(qū)域
(12)
(3)水印不應該嵌入到音頻文件感知不明顯的區(qū)域,因為音頻中感知不明顯的區(qū)域容易受到一些常見信號攻擊以及信號處理的影響。在本文算法中,我們只在音頻文件頻率系數(shù)為1kHz-8kHz的范圍內(nèi)嵌入水印,經(jīng)驗表明人耳對該頻率范圍內(nèi)的音頻感知較為明顯。
從式(4)可以發(fā)現(xiàn)x的方差會對檢測錯誤率產(chǎn)生影響:x的方差越小水印的檢測錯誤率越小。所以我們提出了交叉擴頻水印算法(CSS),利用音頻信號高度相關的相鄰點來嵌入水印信息從而有效的減小方差。
交叉擴頻水印算法的步驟可以簡單概括如下:水印嵌入時,首先將時域音頻信號分幀后轉(zhuǎn)換為頻域信號,然后將信號分成交叉幀(奇數(shù)幀和偶數(shù)幀),利用傳統(tǒng)的加性擴頻水印嵌入公式對音頻信號奇偶幀分別進行正負水印比特的嵌入,最后將嵌入水印信號后的奇偶幀合成一幀音頻信號;檢測水印時,將接收到的信號同樣的分成奇偶交叉幀,分別對其進行相關檢測,將得到的奇偶決策統(tǒng)計量做差得到最終的決策統(tǒng)計量,以此進行水印的提取。交叉擴頻水印算法結(jié)構(gòu)圖如圖2所示。
圖2 交叉擴頻水印算法結(jié)構(gòu)
為了提高水印的魯棒性,我們將一個水印比特嵌入到兩個連續(xù)的幀中
x=[xo1,xe1,…,xoN,xeN]
(13)
這樣不僅僅要增加音頻樣本的長度,還需要通過區(qū)分兩個連續(xù)的幀所包含的樣本將其劃分成兩個交叉幀,即包含奇數(shù)點的幀和包含偶數(shù)點的幀
xodd=[xo1,xo2,…,xoN], xeven=[xe1,xe2,…,xeN]
(14)
因為大多數(shù)音頻信號都是短時平穩(wěn)信號,兩個相鄰的頻率點之間是高度相關的。這也充分說明了我們所提出的交叉幀之間的高度相關性。劃分好交叉幀之后,水印信息b將被嵌入到這兩個幀中。在我們提出的算法中,每兩個幀嵌入兩個極性相反的水印比特。即奇數(shù)幀嵌入b,偶數(shù)幀嵌入-b。所以水印嵌入公式可以表示為
sodd=xodd+bu,seven=xeven-bu
(15)
在與傳統(tǒng)擴頻水印算法及其改進算法相同的聲道背景下,交叉擴頻水印方案接收到的音頻信號可以表示為
yodd=sodd+nodd,yeven=seven+neven
(16)
在解碼端,為準確獲得添加了水印的音頻信號,接收到的信號y=[yo1,ye1,…,yoN,yeN]同樣需要被劃分成奇數(shù)幀和偶數(shù)幀。相應于奇偶幀的檢測統(tǒng)計量分別以如下公式計算
(17)
(18)
(19)
(20)
因此,檢測統(tǒng)計量r的最終方差可以表示為
(21)
其中,ρ是奇偶幀之間的相關性系數(shù)。通過以上分析,式(4)可以改寫為
(22)
比較式(22)與式(4),可以發(fā)現(xiàn)交叉擴頻水印算法的水印檢測錯誤率明顯低于傳統(tǒng)擴頻水印算法的錯誤率。圖3展示了檢測錯誤率作為相關性系數(shù)ρ的一個函數(shù)隨著ρ的大小改變而變化的趨勢。相關性系數(shù)ρ越接近于1,就越能得到較小的水印檢測錯誤率。
圖3 檢測錯誤率作為相關性系數(shù)ρ的函數(shù)的變化趨勢
這一小結(jié)我們提出了改進的交叉擴頻水印算法(ICSS)。通過上面章節(jié)的分析發(fā)現(xiàn),改進的擴頻水印算法可以有效降低原始音頻信號對水印信息的干擾,而我們在上一小結(jié)提出的交叉擴頻水印方案可以有效減小檢測統(tǒng)計量的方差,兩種方法都可以降低水印的檢測錯誤率,從而在一定程度上提高水印的解碼性能。這促使我們通過將改進的擴頻水印算法與交叉擴頻水印算法進行有效的結(jié)合來充分利用兩種方案的優(yōu)勢。于是,改進的交叉擴頻水印方案應運而生。由此,式(15)可以修改為
(23)
結(jié)合式(7)以及式(17),在解碼端,奇偶幀的檢測統(tǒng)計量可以分別由如下公式得出
(24)
所以改進的交叉擴頻水印方案最終的檢測統(tǒng)計量r的計算公式如下
(25)
其均值為mr=E[r]=2αb,方差為
(26)
由此得出檢測統(tǒng)計量的方差為
(27)
所以改進的交叉擴頻水印方案的檢測錯誤率可以表示為
(28)
比較式(28)與式(22)可以發(fā)現(xiàn),水印檢測錯誤率有了明顯的降低。更多的比較細節(jié)將在接下來的章節(jié)中進行詳細討論。
本文提出的交叉擴頻水印算法是將一個水印比特信息嵌入到兩個音頻幀中,傳統(tǒng)擴頻水印算法及其改進方案同樣也可以在兩個音頻幀中嵌入一個水印比特信息,所以可以將傳統(tǒng)擴頻水印算法的檢測錯誤率公式改寫為
(29)
改進的擴頻水印算法的水印錯誤率計算公式可以改寫為
(30)
圖4為展示了在10dB和20dB的信噪比的攻擊下傳統(tǒng)擴頻、改進的擴頻、交叉擴頻以及改進的交叉擴頻幾種水印算法的檢測錯誤率。從圖4能很容易的發(fā)現(xiàn),在相同的信噪比攻擊下,交叉擴頻水印檢測錯誤率的值在允許的范圍內(nèi),而改進的交叉擴頻水印方案的檢測錯誤率是最小的;在同等錯誤概率下,改進的交叉擴頻水印方案在遭受攻擊時所損耗的水印能量最少。
圖4 信噪比分別為10 dB,20 dB時ICSS與SS,ISS,CSS之間錯誤率大小比較
(31)
MalvarHS在他的文章中給出了ISS水印算法的噪聲水平[11]
(32)
對于交叉擴頻水印方案,我們將其噪聲水平表示為
(33)
進而我們得出改進的交叉擴頻水印方案的噪聲水平為
(34)
圖5 各方案相較于直接擴頻的增益值(增益值為SNR的函數(shù))
為了證明以上對各水印算法性能分析的正確性以及所提方案的實際可行性,我們做了如下有關音頻質(zhì)量和水印魯棒性的實驗。為此,我們從MPEG標準的音頻測試庫中選擇了12個標準音頻測試序列,所有測試序列都是采樣頻率為44.1KHz、量化格式為16比特、音頻長度為1分鐘的單聲道音頻文件。測試序列包含了大多數(shù)的音頻類型,比如語音,各種樂器演奏、聲音混合等。
為了測評添加了水印信息后的音頻文件質(zhì)量,我們分別進行了主觀聽力測試和客觀質(zhì)量測試兩個實驗。其中,主觀測試由平均評價得分(MOS)[14]得出結(jié)論,客觀評價實驗以PEAQ音頻質(zhì)量評價算法[15]為標準。
我們選擇了20個從事工作或者學習經(jīng)歷與音頻相關的被試者參與了音頻質(zhì)量主觀性測試實驗,主觀實驗的統(tǒng)計結(jié)果以及客觀測試的實驗結(jié)果由圖6給出。觀察圖6可以發(fā)現(xiàn),以上水印算法的平均得分在同一質(zhì)量水平上大致相等,水印均處于不可感知的范圍內(nèi),人耳對其感知均不明顯,這也驗證了我們提出方法的可行性。
為了評估所提方法的魯棒性,我們選擇了StirMarkBenchmark軟件來對添加了水印的音頻信號進行魯棒性測試。StirMarkBenchmark是一款用來測試音頻文件對于抵抗各種攻擊的魯棒性水平的軟件。該軟件已經(jīng)集成了50多種具有代表性的針對音頻文件的攻擊類型,本文采用了其中最具代表性的18種攻擊來對音頻文件進行測試。對音頻文件進行各種攻擊之后,各水印算法的平均檢測誤碼率(BER)(%)結(jié)果見表1。
圖6 音頻質(zhì)量測試結(jié)果
BER/%SSISSCSSICSSnoattack1.18560.01030.08780write_addnoise_1001.18560.01030.08780write_addnoise_5001.18560.01030.08780write_addnoise_9001.18560.01030.08780write_addbrumm_1001.18560.01030.08780write_addbrumm_11001.18560.01030.08780write_addbrumm_101001.18560.01030.08780write_extrastereo_501.18560.01030.08780write_extrastereo_701.18560.01030.08780write_amplify6.83560.86583.04330.7667write_compressor1.75560.01350.16670.0135write_lsbzero1.18560.01030.08780write_rc_highpass1.18560.010300write_rc_lowpass6.07631.35562.07110.8667write_addsinus1.18560.01030.08780write_dynnoise1.18560.010300write_fft_real_reverse1.18560.01030.08780write_flippsample2.59980.51031.03330.1944write_normalize3.16670.18921.09610.0633
在聲傳輸過程中,背景噪音會對音頻文件質(zhì)量產(chǎn)生影響。為了模擬聲學傳輸,我們在裝有空調(diào)的房間里利用adobe audition軟件收集了一段背景噪聲。該噪聲的頻譜值如圖7所示。眾所周知,如果我們在這樣的房間里錄制添加了水印的音頻信號,那么房間里的噪音一定會對水印的檢測起到一定程度的影響,因此我們需找到一種能夠有效抵抗這種影響的水印方案。另外,為了驗證所提算法的普遍適用性,我們也將MP3編碼以及高斯白噪聲(AWGN)攻擊對算法檢測性能的影響考慮在內(nèi),在這些攻擊下水印檢測的平均誤碼率見表2。
圖7 房間內(nèi)收集的噪聲
BER/%SSISSCSSICSSMP3(128kbps)1.18560.01030.08780MP3(64kbps)1.18560.01030.08780MP3(32kbps)1.23750.01140.10910.0088Roomnoise1.66380.24140.82320.0901AWGN(5dB)3.29770.83671.08890.3778AWGN(10dB)1.70110.34760.86670.1062
從表1和表2中我們可以發(fā)現(xiàn),在各種攻擊處理下,交叉擴頻水印嵌入方案的檢測錯誤率大小在我們可接受的范圍內(nèi),而改進的交叉擴頻方案的水印檢測錯誤率明顯低于傳統(tǒng)擴頻、改進的擴頻以及交叉擴頻水印算法,并且在多數(shù)情況下水印檢測錯誤率為0。也就是說,改進的交叉擴頻水印方案對于各種常見的信號攻擊、信號處理以及室內(nèi)背景噪音的魯棒性更強,改進的交叉擴頻水印嵌入方案適用于移動互聯(lián)網(wǎng)絡中的聲學傳輸過程。
本文提出了一種基于擴頻音頻水印算法的聲學數(shù)據(jù)傳輸方案。首先,利用相鄰的交叉幀之間的高度相關性提出了交叉擴頻水印算法(CSS),然后在改進的擴頻水印方案的啟發(fā)下對交叉擴頻水印機制進行改進,進而提出了一種能夠減小檢測統(tǒng)計量的方差、降低原始音頻信號對水印檢測的影響,從而有效提高水印檢測性能的改進的交叉擴頻(ICSS)水印算法。理論分析證明改進的交叉擴頻水印方案在水印檢測錯誤率和抵抗噪聲干擾度方面的優(yōu)越性。音頻質(zhì)量的檢測實驗證明了所提方法的可行性。魯棒性實驗結(jié)果表明,改進的交叉擴頻水印算法抵抗各種常見信號攻擊的能力明顯優(yōu)于文中提到的其它幾個算法,并且該算法不僅可以抵抗Stirmark Benchmark音頻軟件模擬的常見攻擊以及MP3壓縮處理、高斯白噪聲等攻擊,并且對室內(nèi)的背景噪聲也具有較強的魯棒性。因此,該算法可以在聲數(shù)據(jù)傳輸過程中發(fā)揮有效作用,滿足移動互聯(lián)網(wǎng)絡中廣播電視節(jié)目與觀眾的互動要求。接下來我們將繼續(xù)針對檢測端揚聲器與移動設備之間的距離對檢測結(jié)果的影響做進一步研究。
[1]Cho K,Choi J,Kim NS.An acoustic data transmission system based on audio data hiding:Method and performance eva-luation[J].EURASIP Journal on Audio,Speech,and Music Processing,2015(1):1-14.
[2]Chang D,Zhang X,Liu Q,et al.Location based robust audio watermarking algorithm for social TV system[M]//Advances in Multimedia Information Processing.Berlin:Springer Berlin Heidelberg,2012:726-738.
[3]Calixto GM,Angeluci ACB,Kurashima CS,et al.Effectiveness analysis of audio watermark tags for IPTV second screen applications and synchronization[C]//International Telecommunications Symposium.IEEE,2014:1-5.
[4]Chauhan SPS,Rizvi SAM.A survey:Digital audio watermarking techniques and applications[C]//4th International Conference on Computer and Communication Technology.IEEE,2013:185-192.
[5]Arnold M,Chen XM,Baum P,et al.A phase-based audio watermarking system robust to acoustic path propagation[J].IEEE Transactions on Information Forensics and Security,2014,9(3): 411-425.
[6]Huang X,Abe Y,Echizen I.Capacity adaptive synchronized acoustic steganography scheme[J].Journal of Information Hiding and Multimedia Signal Processing,2010,1(2):72-90.
[7]Wodecki K,Piotrowski Z,Wojtun J.Acoustic steganographic transmission algorithm using signal coherent averaging[C]//Communications and Information Systems Conference.IEEE,2012:1-5.
[8]Arnold M,Chen XM,Baum P,et al.A phase-based audio watermarking system robust to acoustic path propagation[J].IEEE Transactions on Information Forensics and Security,2014,9(3):411-425.
[9]Alexiou V,Eleftheriadis A.Real-time high-resolution delay estimation in audio communication using inaudible pilot signals[C]//6th International Symposium on Communications,Control and Signal Processing.IEEE,2014:290-293.
[10]Xiang Y,Natgunanathan I,Rong Y,et al.Spread spectrum-based high embedding capacity watermarking method for audio signals[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2015,23(12):2228-2237.
[11]Malvar HS,Florêncio DAF.Improved spread spectrum:A new modulation technique for robust watermarking[J].IEEE Transactions on Signal Processing,2003,51(4):898-905.
[12]Valizadeh A,Wang ZJ.Correlation-and-bit-aware spread spectrum embedding for data hiding[J].IEEE Transactions on Information Forensics and Security,2011,6(2):267-282.
[13]Valizadeh A,Wang ZJ.An improved multiplicative spread spectrum embedding scheme for data hiding[J].IEEE Tran-sactions on Information Forensics and Security,2012,7(4):1127-1143.
[14]Waidyanatha N,Wilfred T,Perera K,et al.Mean opinion score performance in classifying voice-enabled emergency communication systems[C]//International Conference on Computer & Information Science.IEEE,2012:676-682.