郝 歡 陳 亮 張翼鵬
(1.解放軍理工大學(xué)通信工程學(xué)院,南京,210007;2.南京炮兵學(xué)院作戰(zhàn)實(shí)驗(yàn)中心,南京,211132)
隨著多媒體技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,數(shù)字音像制品在網(wǎng)絡(luò)上廣泛傳播,版權(quán)保護(hù)問(wèn)題越來(lái)越嚴(yán)峻。數(shù)字水印技術(shù)作為信息隱藏技術(shù)領(lǐng)域的重要分支[1-2],是在不影響原始載體感知質(zhì)量的條件下,利用視覺(jué)或者聽(tīng)覺(jué)冗余向載體中嵌入具有特定信息的過(guò)程[3]。
目前,絕大多數(shù)的水印算法都是通過(guò)對(duì)宿主的時(shí)域或者變換域的數(shù)值進(jìn)行修改來(lái)實(shí)現(xiàn)水印信息的嵌入[4-6]。BP神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用較為廣泛的一種前向型人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)形式,有很強(qiáng)的非線(xiàn)性擬合能力,具有大規(guī)模并行信息處理、自適應(yīng)、自組織和實(shí)時(shí)學(xué)習(xí)的特點(diǎn)[7]。利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的泛化能力找出水印嵌入前后的潛在關(guān)系,能夠有效對(duì)抗信道中的各種攻擊。文獻(xiàn)[8]提出了一種基于LMS準(zhǔn)則的神經(jīng)網(wǎng)絡(luò)水印算法,以預(yù)測(cè)值與目標(biāo)值之間的誤差平方和最小為準(zhǔn)則,神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)無(wú)法對(duì)較小值進(jìn)行充分訓(xùn)練,容易受到信道中各種干擾而產(chǎn)生誤碼,因此應(yīng)用范圍受到一定的限制。
采用LRMS準(zhǔn)則的神經(jīng)網(wǎng)絡(luò)以目標(biāo)值和輸出值之間的相對(duì)誤差最小為收斂準(zhǔn)則,輸出值與目標(biāo)值之間的相對(duì)偏差較小,十分適合于通過(guò)修改空域或者變換域系數(shù)實(shí)現(xiàn)水印嵌入的語(yǔ)音水印系統(tǒng)。然而,在清音或者能量較小的濁音信號(hào)中嵌入水印容易受到噪聲或?yàn)V波攻擊的干擾,攻擊前后的相對(duì)變化超過(guò)神經(jīng)網(wǎng)絡(luò)的泛化能力產(chǎn)生誤碼。因而需要在宿主語(yǔ)音中找出那些能量較大的,適合水印嵌入的語(yǔ)音幀進(jìn)行水印信息的嵌入。
語(yǔ)音信號(hào)的能量隨時(shí)間而變化,清音和濁音之間的能量差別相當(dāng)顯著[9]。通過(guò)計(jì)算語(yǔ)音的短時(shí)能量,可以方便地描述出語(yǔ)音的這種特征變化情況。短時(shí)能量常用于清濁音判決和語(yǔ)音識(shí)別,在信噪比較高的情況下,短時(shí)能量還可以作為區(qū)分有聲和無(wú)聲的依據(jù)[10]。定義短時(shí)能量為
式中:N為窗長(zhǎng),即短時(shí)能量是一幀語(yǔ)音樣點(diǎn)值的加權(quán)平方和。當(dāng)采用矩形窗時(shí),式(1)簡(jiǎn)化為
由式(2)可知,En越大,該幀語(yǔ)音的平均幅度越大,受攻擊特別是噪聲攻擊的影響越小。因而選擇的語(yǔ)音幀能量閾值越大,水印的魯棒性越強(qiáng),但整個(gè)語(yǔ)音段中可以選擇的語(yǔ)音幀越小,水印容量也越小,通過(guò)合理設(shè)置閾值可以獲得水印容量和魯棒性的平衡。對(duì)于一段測(cè)試語(yǔ)音,基于LMS準(zhǔn)則的神經(jīng)網(wǎng)絡(luò)在不同短時(shí)能量閾值條件下的抗噪性能如圖1所示。
圖1 不同閾值條件下水印提取正確率Fig.1 BAR of different thresholds
由圖1可知,隨著閾值的增大水印的抗噪性能也越來(lái)越好,然而相應(yīng)的水印容量也越來(lái)越小,分別為327,227和212b,因而需要綜合考慮系統(tǒng)對(duì)水印容量和魯棒性的要求來(lái)設(shè)定一個(gè)合適的短時(shí)能量閾值。
基于短時(shí)能量和LRMS準(zhǔn)則的神經(jīng)網(wǎng)絡(luò)水印算法首先在第一幀語(yǔ)音中嵌入同步序列對(duì)水印信息進(jìn)行定位,然后設(shè)定短時(shí)能量閾值找出適合水印嵌入的語(yǔ)音幀,利用語(yǔ)音的短時(shí)相關(guān)性和神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線(xiàn)性映射能力建立小波變換重要低頻系數(shù)之間的隱含關(guān)系,通過(guò)修改重要低頻系數(shù)實(shí)現(xiàn)水印的嵌入,利用數(shù)據(jù)之間的隱含關(guān)系完成水印信息的提取。整個(gè)水印嵌入和提取框圖如圖2所示。
圖2 水印的嵌入和提取框圖Fig.2 Block diagram of embedding and extracting watermark
人工神經(jīng)網(wǎng)絡(luò)有很多種模型,其中誤差反向傳播BP神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最為廣泛的網(wǎng)絡(luò)之一,一般包括輸入層、隱層和輸出層。雖然隱層可以有多層,但是Hornik等的研究表明具有單隱層的神經(jīng)網(wǎng)絡(luò)就可以以任意精度逼近任一函數(shù)[11]。一個(gè)單隱層的BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型如圖3所示。
圖3 三層BP神經(jīng)網(wǎng)絡(luò)Fig.3 BP neural network with three layers
網(wǎng)絡(luò)的訓(xùn)練采用LRMS收斂準(zhǔn)則,對(duì)于每一個(gè)輸入樣本,計(jì)算網(wǎng)絡(luò)輸出t與目標(biāo)輸出T的相對(duì)偏差。通過(guò)LM算法[12]調(diào)整網(wǎng)絡(luò)參數(shù),使得網(wǎng)絡(luò)輸出與目標(biāo)輸出的相對(duì)均方誤差最小化,即
相對(duì)于LMS準(zhǔn)則,LRMS準(zhǔn)則的誤差函數(shù)多除了一個(gè)目標(biāo)輸出項(xiàng),計(jì)算復(fù)雜度只是多了一次除法操作。為了使網(wǎng)絡(luò)對(duì)各種常見(jiàn)攻擊有很好的魯棒性,采用LMS準(zhǔn)則的神經(jīng)網(wǎng)絡(luò)需要設(shè)置很小的目標(biāo)收斂誤差,而一個(gè)較大的目標(biāo)相對(duì)收斂誤差就可以使采用LRMS準(zhǔn)則的神經(jīng)網(wǎng)絡(luò)有很好的性能。在沒(méi)有明顯增加計(jì)算復(fù)雜度的情況下,只需很少的迭代步數(shù)就達(dá)到設(shè)置的目標(biāo)輸出相對(duì)誤差,訓(xùn)練時(shí)間更短。較小值在攻擊特別是噪聲攻擊中容易產(chǎn)生誤碼,每個(gè)數(shù)據(jù)經(jīng)過(guò)LRMS準(zhǔn)則訓(xùn)練后,網(wǎng)絡(luò)輸出與目標(biāo)輸出的偏差分布較均勻,較小值得到充分訓(xùn)練,在各種常見(jiàn)攻擊中魯棒性也就更強(qiáng)。
水印嵌入算法如下:
(1)對(duì)宿主語(yǔ)音S進(jìn)行分幀,S=[S1,S2…],為便于水印信息的定位,在第一幀語(yǔ)音中嵌入一段偽隨機(jī)序列m作為同步序列,然后計(jì)算每幀的短時(shí)能量并找出大于設(shè)定閾值的語(yǔ)音,對(duì)相應(yīng)位置{Mi}的語(yǔ)音幀進(jìn)行離散小波變換,[CAi,CDi]=DWT(Si),其中CAi為每幀的低頻分量。
(3)修改實(shí)現(xiàn)水印信息的嵌入,具體方法如式(4)所示
式中,α為水印的嵌入強(qiáng)度,wi為第i比特的水印信息。
(4)利用修改后的低頻分量和高頻分量CDi進(jìn)行小波逆變換,=IDWT(CAi′,CDi),完成水印信息的嵌入。
水印檢測(cè)算法如下。
(1)對(duì)于接收端收到的語(yǔ)音,首先利用同步序列m定位出水印的嵌入位置,然后根據(jù){Mi}找出嵌入水印的語(yǔ)音幀。對(duì)每幀語(yǔ)音進(jìn)行離散小波變換
(3)提取出水印,具體方法如式(5)所示
本文實(shí)驗(yàn)中采用標(biāo)準(zhǔn)語(yǔ)音庫(kù)中8kHz,16位量化,長(zhǎng)度為21s的國(guó)內(nèi)外男女聲各5段作為載體,每幀語(yǔ)音長(zhǎng)度為512,三級(jí)小波分解,小波基為“haar”,短時(shí)能量的閾值θ=0.8,單隱層神經(jīng)網(wǎng)絡(luò),輸入神經(jīng)元個(gè)數(shù)為8,隱層神經(jīng)元個(gè)數(shù)為12,輸出神經(jīng)元個(gè)數(shù)為1,嵌入強(qiáng)度α=0.3,攻擊噪聲采用高斯白噪聲,加噪實(shí)驗(yàn)為50次求平均值。
語(yǔ)音質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)包括主觀(guān)評(píng)價(jià)和客觀(guān)評(píng)價(jià)兩種,本文采用ITU-TP.862語(yǔ)音質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)(Perceptual evaluation of speech quality,PESQ)計(jì)算出的MOS分和SNR來(lái)測(cè)試水印性能,SNR由式(6)得到
式中:Num為語(yǔ)音長(zhǎng)度,s(n)為原始語(yǔ)音,s′(n)為攜密語(yǔ)音。一段漢語(yǔ)女聲嵌入水印前后的波形圖如圖4所示。
圖4 嵌入水印前后語(yǔ)音波形比較Fig.4 Waveform comparison before and after embedding watermark
由圖4可以看出:水印嵌入前后幾乎看不出波形失真。經(jīng)過(guò)試聽(tīng)也察覺(jué)不到嵌入水印前后的語(yǔ)音變化,證明水印嵌入算法有良好的不可感知性,具體的測(cè)試結(jié)果如表1所示。
表1 水印算法透明性測(cè)試Table 1 Transparency test for watermark algorithm
為了測(cè)試算法對(duì)各種信道攻擊的性能,對(duì)攜密語(yǔ)音進(jìn)行了加噪、低通濾波、重采樣、重量化等操作。本文算法與文獻(xiàn)[8]算法在引入短時(shí)能量閾值前后對(duì)不同噪聲的平均性能如圖5所示。
從圖5可以看出采用LRMS準(zhǔn)則的算法對(duì)強(qiáng)噪聲有更好的魯棒性,這是因?yàn)榛贚RMS準(zhǔn)則的神經(jīng)網(wǎng)絡(luò)以預(yù)測(cè)值和目標(biāo)值的相對(duì)誤差最小為收斂目標(biāo),較小目標(biāo)值得到充分訓(xùn)練,從而有更強(qiáng)的擬合能力,對(duì)噪聲的魯棒性也就更強(qiáng)。短時(shí)能量閾值引入后,水印不會(huì)嵌入到能量較小的語(yǔ)音幀,減小了噪聲的干擾,降低了誤碼率。文獻(xiàn)[8]的神經(jīng)網(wǎng)絡(luò)水印算法在網(wǎng)絡(luò)訓(xùn)練過(guò)程中偏好收斂于較大值而忽略較小值,即便引入短時(shí)能量閾值去掉能量較小的語(yǔ)音幀也只在高信噪比條件下才獲得了較低的誤碼率。相比而言,本文算法對(duì)噪聲有很好的魯棒性。即便在15dB情況下也獲得了93.6%的正確率。在不同濾波器截止頻率下算法平均性能如表2所示。
圖5 兩種準(zhǔn)則在引入短時(shí)能量閾值前后水印提取正確率Fig.5 BAR of two criterions before and after introducing short-time energy threshold
表2 不同濾波器截止頻率下算法性能比較Table 2 Performance comparison for different filters cut off frequency
從表2可以看出本文算法較文獻(xiàn)[8]對(duì)濾波攻擊有更好的性能。在信道條件較惡劣,低通濾波截止頻率為1kHz情況下仍然獲得了很低的誤碼率。算法對(duì)重采樣、重量化的平均性能如表3所示。
表3 對(duì)重采樣、重量化算法性能比較Table 3 Performance comparison for resampling and requantization
由表3可知,算法對(duì)于重采樣都有很好的魯棒性,對(duì)于重量化本文算法優(yōu)于文獻(xiàn)[8]算法。由于重量化過(guò)程中引入了量化噪聲,那些較小值在重量化前后的相對(duì)變化較大,本文算法采用的是短時(shí)能量閾值和LRMS準(zhǔn)則,確保了水印不會(huì)嵌入到能量較小的語(yǔ)音幀中,每一個(gè)目標(biāo)值都得到了充分訓(xùn)練,較好的抵抗了這種干擾。
本文結(jié)合短時(shí)能量和神經(jīng)網(wǎng)絡(luò),提出了一種基于短時(shí)能量和LRMS準(zhǔn)則的神經(jīng)網(wǎng)絡(luò)水印方法。算法利用短時(shí)能量閾值找出適合嵌入水印的語(yǔ)音幀,以L(fǎng)RMS為收斂準(zhǔn)則,采用LM訓(xùn)練算法的神經(jīng)網(wǎng)絡(luò)嵌入和提取水印。仿真結(jié)果表明,算法能夠?qū)崿F(xiàn)水印信息的盲提取,與文獻(xiàn)[8]相比,本文算法在沒(méi)有明顯增加計(jì)算復(fù)雜度的情況下網(wǎng)絡(luò)訓(xùn)練時(shí)間更短,對(duì)于噪聲、低通濾波和重量化攻擊,性能平均提高了5%。
[1] 孫建國(guó),門(mén)朝光,姚愛(ài)紅,等.基于量子糾錯(cuò)理論的數(shù)字水印技術(shù)[J].高技術(shù)通訊,2010,20(6):585-589.
Sun Jianguo,Men Chaoguang,Yao Aihong,et al.Digital watermarking based on quantum error correction coding[J].Chinese High Technology Letters,2010,20(6):585-589.
[2] 謝春輝,程義民,陳揚(yáng)坤.數(shù)字圖像中擴(kuò)頻水印的盲提取方法[J].數(shù)據(jù)采集與處理,2011,26(1):26-30.
Xie Chunhui,Cheng Yimin,Chen Yangkun.Blind extraction method for spread-spectrum watermark on digital image[J].Journal of Data Acquisition and Processing,2011,26(1):26-30.
[3] Koz A,Alatan A A.Oblivious spatio-temporal watermarking of digital video by exploiting the human visual system[J].Circuits and Systems for Video Technology,IEEE Transactions on,2008,18(3):326-337.
[4] Zhang Yongmei,Ma Li,Xing Xiujuan.A multi-purpose video watermarking algorithm based on wavelet transform and image partition[C]//Second International Conference on Intelligent System Design and Engineering Application.[S.l.]:IEEE,2012:76-79.
[5] Mansouri A,Aznaveh A M,Torkamani-Azar F,et al.Low complexity video watermarking in H.264 compressed domain[J].Information Forensics and Security,IEEE Transactions on,2010,5(4):649-657.
[6] ValizadehA,Wang Z J.An improved multiplicative spread spectrum embedding scheme for data hiding[J].Information Forensics and Security,IEEE Transactions on,2012,7(4):1127-1143.
[7] 余華,黃程韋,金赟,等.基于粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別[J].數(shù)據(jù)采集與處理,2011,26(1):57-62.
Yu Hua,Huang Chengwei,Jin Bin,et al.Speech emotion recognition based on particle swarm optimizer neural network[J].Journal of Data Acquisition and Processing,2011,26(1):57-62.
[8] Chen Liang,Hao Huan,Zheng Guohong.An audio watermarking of wavelet domain based on BP neural network[C]//Proceeding of the WCSP,International Conference on Wireless Communication and Signal Processing.Nanjing,China:[s.n.],2011:1-5.
[9] 張雄偉,陳亮,楊吉斌.現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003:8-9.
Zhang Xiongwei,Chen Liang,Yang jibin.Modern audio processing technology and application[M].Beijing:China Machine Press,2003:8-9.
[10]胡光銳,韋曉東.基于倒譜特征的帶噪語(yǔ)音端點(diǎn)檢測(cè)[J].電子學(xué)報(bào),2000,28(10):1-3.
Hu Guangrui,Wei Xiaodong.Endpoint detection of noisy speech based on cepstrum[J].Acta Electronica Sinica,2000,28(10):1-3.
[11]Cybenko G.Approximation by superposition of a sigmoidal function[J].Mathematics of Control,Signals,Systems,1989,2(4):303-314.
[12]Hagan M T,Menhaj M B.Training feedforward networks with the marquardt algorithm[J].Neural Networks,IEEE Transactions on,1994,5(6):989-993.