陳瑩 朱益多
【摘要】數(shù)字文本水印技術主要用于保護各種數(shù)字化產品的版權,防止產品被篡改、假冒和盜用,本文從抗攻擊性角度對數(shù)字文本水印進行分類,簡要介紹了魯棒性水印的兩種算法。
【關鍵詞】數(shù)字文本水印技術;魯棒性水印
中圖分類號:TP35文獻標識碼A文章編號1006-0278(2015)07-152-01
數(shù)字文本水印技術是指在不影響數(shù)字文本內容的使用價值和欣賞價值的前提下,利用人體視覺系統(tǒng)的掩蔽特性,將與文本內容相關或不相關的一些標記信息(水印)直接嵌入在文檔中。它可以用來證明創(chuàng)作者對其作品的所有權,也可以作為鑒定、起訴非法侵權的證據(jù),同時還可以通過對水印的檢測和分析來保證數(shù)字文檔的完整性和可靠性。因為文本文件沒有太多的冗余信息,且在文本文件中嵌入信息極易被閱讀者發(fā)現(xiàn),同時一些字處理軟件在有意無意間也會破壞原始文件,因而在其中嵌入數(shù)字水印比較困難。因此,文本數(shù)字水印研究與其它媒體水印技術相比有了滯后。
按照不同的分類標準,數(shù)字文本水印具有以下不同的分類方式:1.根據(jù)實現(xiàn)方法的不同,可分為空間域數(shù)字水印和變換域數(shù)字水印兩大類。前者是在空間域中直接將水印信息嵌入到宿主文檔中;后者是將待處理文檔當作數(shù)字圖像,先對該圖像進行變換,然后在變換域中嵌入水印信息。2.按照抗攻擊性的不同,可分為魯棒性水印、半脆弱性水印和脆弱性水印。
魯棒性文本水印是指在經歷多種無意或有意的信號處理過程后,數(shù)字水印仍能保持部分完整性并能被準確鑒別??赡艿男盘柼幚磉^程包括信道噪聲、濾波、數(shù)/模與模/數(shù)轉換、重采樣、剪切、位移、尺度變化以及有損壓縮編碼等。用于版權保護的數(shù)字水印易損水印,主要用于完整性保護,這種水印同樣是在內容數(shù)據(jù)中嵌入不可見的信息。當內容發(fā)生改變時,這些水印信息會發(fā)生相應的改變,從而可以鑒定原始數(shù)據(jù)是否被篡改。
目前針對基于文本的魯棒性水印算法研究很多,這里羅列兩種較有價值的算法。
第一種算法是基于內容的水印生成方案,該方案消除了已有的數(shù)字水印方案的致命缺陷,任何不破壞文件內容完整性的攻擊同樣也不能影響文件的數(shù)字水印。這些特性使得該水印方案能夠用于各種文本文件。
在講述算法前先給出三個相關定義:
定義1字母表是稱作符號的對象的有窮非空集合A={S1, S2,…, SN} (可以包括標點符號),A中符號的元組稱作上的n(n≥1)字或字符串,記作a1,a2,…,an。字母A表上的所有字的集合記作A*·A*的任何子集稱為A上的語言或字母表為A的語言。例如英語就是字母表{a,b,c,…,z}上的語言,漢語可以看作是字母表等多個字母的字母表上的語言。
定義2字符串的連接運算,設有字符串u1,u2,…,un∈A*,定義遞歸函數(shù)如下:
CONCAT1m(u)=u
CONCATn+1m(u1,…,un,un+1)=zun+1
這里z=CONCATnm(u1,…,un),于是,對于給定的字符串u1, u2,…,un∈A*,CONCATnm(u1,…,un)就是把字符串一個接一個連接起來所得到的字符串。
定義3文本文件是某一個字母表上的字或字符串序列M = m1, m2,…, mi(mi(1≤i≤)∈A*)。對字母語言是字符串序列,對漢語等就是字序列。
文本文件的存儲與表示:我們可以用一個字符數(shù)組Char來表示與存儲文本文件M=m1,m2,…,mi這可以很容易用C語言的語句for(i=1;<=;++)Char[i]=mi來實現(xiàn)。同樣一個l段×m行×n列的文本文件,可以用一個l×m×n的三維矩陣 D來表示,其元素D(i ,j,k)就是該文件中第i段第j行第k個字符。
下面給出具體算法:
設有利用l×m×n矩陣表示的文本文件D,從文本文件中隨機地找出t個詞,這t個詞的首字位置分別為(i1,j1,k1),(i2,j2,k2),…,(it,jt,kt)。當?shù)趇個合法用戶提供一個副本時,利用任意隨機數(shù)生成算法生成一個隨機整數(shù)數(shù)組Ri=(r(i1),r(i2),…, r(is))(1≤r(ij)≤t,1≤j≤s),數(shù)組Ri確定這t個×詞的一個子集,將這個子集(ir(i1) , jr(i1) , kr(i1)),…,(ir(is) , jr(is) , kr(is))所確定的詞用它們的同義詞代替(比如將狗用犬代替),得到新的文本文件Di。計算:
WMi=CONCATtN(Di(i1,j1,k1)),…,(Di(it,jt,kt))
則WMi就是該副本的水印,將該水印與數(shù)組Ri關聯(lián)起來。
一旦發(fā)現(xiàn)文本D的某個副本D被非法復制或非法發(fā)行,可以通過計算:
WM=CONCATtN(Di(i1,j1,k1)),…,(D(it,jt,kt))
得到該副本的水印與數(shù)據(jù)庫中存儲的水印進行比較,如果有某個WMj使得WMj=WM,可以很容易找到該文件的第j個接受者,從而確定非法使用文件的來源,并決定采用什么手段對他進行懲罰。
另一種算法是根據(jù)水印序列和同義詞替換評價模型,將水印不可感知地嵌入到文本的重要內容中。這種算法分析了文本的特征,提出了文本主題詞集概念并得出以下性質:一個重要的句子是包含重要詞的句子;一個重要的詞就是經常出現(xiàn)在重要句子中的詞。給出同義詞替換評價模型,通過分類投票表決原則和同義詞替換將水印嵌入到文本的重要內容中,從而使該算法既具有一定的擴展性、良好的不可見性和抗檢測性的特點,又能提高水印的魯棒性和安全性。其算法思想是:首先對文本載體進行分詞和詞性標注,根據(jù)主題詞集定義,找出主題詞,然后找出包含有主題詞的主題句集(CS),再通過同義詞特征過濾句子,得出子主題句集(subCS),再分類得子集(as),通過同義詞替換將水印嵌入其中。與其他水印算法比較,有以下優(yōu)點:1.具有較好的不可見性,根據(jù)同義詞替換評價模型和水印嵌入方式,提高了文本水印的不可見性;2.具有較好的魯棒性,利用了水印作用在實詞上且與文本載體重要內容綁定和投票原則的使用,增強了本文算法的魯棒性、安全性和降低了誤檢率,利用混沌序列調制水印及文本載體進行偽隨機分類,從水印和載體兩方面,進一步增強了本文算法的安全性;3.在提取水印時,既不需要原始文本載體,也不需要原始水印,增強了算法的實際應用能力。
水印在數(shù)字文本中的生存能力體現(xiàn)在水印的魯棒性和安全性,目前多數(shù)文本水印算法存在抗攻擊能力不強、魯棒性較差的問題,尋找更加魯棒、安全的水印算法在解決版權爭端和防止文件篡改方面將會起到重要作用,是一個有很大潛力的研究領域,具有廣闊的應用前景。
參考文獻:
[1]姜傳賢,陳孝威等.基于文本重要內容的魯棒水印算法[J].自動化學報,2010(9).
[2]文昌.魯棒性數(shù)字水印和脆弱性數(shù)字水印的研究[D].武漢:華中師范大學,2013.