張 娜 張 琨 張先國(guó) 張佳慧 蔣彤彤 方 悅
(1.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)(2.中國(guó)科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 合肥 230022)(3.中電科網(wǎng)絡(luò)空間安全研究院有限公司安全驗(yàn)證所 北京 100071)
隨著互聯(lián)網(wǎng)的發(fā)展與數(shù)字媒體的普及,大量信息以電子文本的形式出現(xiàn)在網(wǎng)絡(luò)上,其易復(fù)制、易修改的特性使得非法復(fù)制與盜版問(wèn)題日趨嚴(yán)重,數(shù)字媒體的版權(quán)保護(hù)問(wèn)題亟待解決。數(shù)字水印技術(shù)被公認(rèn)為數(shù)字產(chǎn)品版權(quán)保護(hù)、認(rèn)證的有效技術(shù)。目前針對(duì)電子文本類的數(shù)字水印研究成果[1],大多集中于嵌入式水印,主要包括字間距、行距的移動(dòng)[2~3],字體顏色改變[4],添加不可見(jiàn)字符[5]等方式實(shí)現(xiàn)。而嵌入式水印需要對(duì)原文檔進(jìn)行一定的修改,使得水印的魯棒性與不可感知性產(chǎn)生沖突,而不改變載體信息的零水印方案正好解決了這些問(wèn)題。
零水印通過(guò)從載體文本中提取具有代表性的特征,來(lái)構(gòu)造載體的水印。現(xiàn)有研究中大多使用文中關(guān)鍵詞代表文章語(yǔ)義特性構(gòu)造水印,卻欠缺對(duì)文章組織結(jié)構(gòu)的考慮;部分研究通過(guò)統(tǒng)計(jì)分析,找出文中關(guān)鍵句子的位置等特性來(lái)構(gòu)造水印,卻忽略了文章的語(yǔ)義信息。
本文在現(xiàn)有技術(shù)的基礎(chǔ)上,提出了基于主題詞抽取與文本信息熵[6]編碼的零水印算法。算法通過(guò)主題詞獲取文本的語(yǔ)義特性,通過(guò)語(yǔ)句信息熵獲取文本統(tǒng)計(jì)特性,融合后的水印信息高度提煉了文本特征,可作為文章的標(biāo)識(shí),且具有完全的隱蔽性,能夠抵抗各種常見(jiàn)格式變換與內(nèi)容攻擊。為驗(yàn)證本文算法效果,在收集了大量文本的數(shù)據(jù)集的上進(jìn)行了語(yǔ)句刪減、同義詞替換、句型轉(zhuǎn)換等攻擊實(shí)驗(yàn),并選取了相似算法進(jìn)行對(duì)比,結(jié)果顯示本文算法易實(shí)現(xiàn),時(shí)間復(fù)雜度低,且抗攻擊性均優(yōu)于現(xiàn)有算法。
零水印技術(shù)在不改變?cè)谋拘畔⒌幕A(chǔ)上,提取出能代表該文本的特征信息,如主題詞、句,中心思想等來(lái)構(gòu)造載體的水印。現(xiàn)有研究中大多使用文本的詞語(yǔ)級(jí)特性,如:文獻(xiàn)[7~8]通過(guò)統(tǒng)計(jì)不同詞性的詞語(yǔ)的頻率信息,作為特征以構(gòu)造水?。晃墨I(xiàn)[9]通過(guò)隨機(jī)選擇詞性標(biāo)記串中對(duì)應(yīng)的單詞,構(gòu)成水印序列;文獻(xiàn)[10]通過(guò)獲取漢字的拼音信息的頻率統(tǒng)計(jì)構(gòu)造文本水印,更詳細(xì)地統(tǒng)計(jì)了全文字詞,文獻(xiàn)[11]針對(duì)散文類文章的特性,選取重要詞匯及形容詞比例等信息形成水印,但這些方法都僅考慮了詞語(yǔ)本身,未考慮詞語(yǔ)的位置、作用等。為將詞語(yǔ)與文章聯(lián)系起來(lái),文獻(xiàn)[12~13]統(tǒng)計(jì)了主謂語(yǔ)信息與不同語(yǔ)義角色的位置信息等生成水??;文獻(xiàn)[14]通過(guò)指代消解技術(shù),根據(jù)代詞指代的原詞語(yǔ)進(jìn)行水印構(gòu)造;以及通過(guò)詞語(yǔ)間的關(guān)聯(lián)詞匯鏈[15]、關(guān)鍵詞語(yǔ)的分布位置信息[16]生成文本水印等,此類算法通過(guò)關(guān)鍵詞的上下文關(guān)系形成文本特征,卻沒(méi)有考慮到詞語(yǔ)原本的語(yǔ)義信息。因此一些研究轉(zhuǎn)向文本的語(yǔ)句級(jí)特性,如通過(guò)關(guān)鍵句子的位置信息[6,17]或段落中心句本身及文章邏輯關(guān)系[18]等信息構(gòu)造水印,但當(dāng)部分關(guān)鍵句子被刪除時(shí),水印也會(huì)被大幅度破壞,抗攻擊性難以保障;文獻(xiàn)[19]使用主題詞、句子相關(guān)度等計(jì)算出關(guān)鍵句子,并用句子中的關(guān)鍵詞語(yǔ)生成水印信息,此算法充分考慮了詞語(yǔ)語(yǔ)義及文本統(tǒng)計(jì)特性,但不易于實(shí)現(xiàn),時(shí)間復(fù)雜度極高。
因此,文本零水印技術(shù)雖取得了極大的發(fā)展,但仍存在許多亟待解決的問(wèn)題。
通常文本零水印技術(shù)中需要用到主題詞抽取技術(shù),本文在主題詞權(quán)重計(jì)算時(shí),使用了TF-IDF[20](詞頻-逆文件頻率)算法。TF-IDF是用于資訊檢索與文本挖掘的常用加權(quán)技術(shù),用以評(píng)估某一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中某一份文件的重要程度。詞頻(TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的頻率。設(shè)單詞w在全文中出現(xiàn)的次數(shù)為nw,全文詞總數(shù)為N,則w的詞頻TFw可以表示為
詞語(yǔ)權(quán)重的設(shè)置依賴于該詞預(yù)測(cè)主題的能力,詞語(yǔ)預(yù)測(cè)主題的能力越強(qiáng),權(quán)重越大,反之越小。往往一些詞頻很高的通用詞語(yǔ)對(duì)于主題作用不大,而一些頻率較低的詞,在所有文件集或語(yǔ)料庫(kù)中,只有很少幾篇文章中出現(xiàn)過(guò),這樣的詞對(duì)文章主題的作用往往很大,因此引入逆向文件頻率(IDF)的概念。
IDF是一個(gè)詞語(yǔ)普遍重要性的度量。主要思想是:如果語(yǔ)料庫(kù)中包含詞語(yǔ)w的文檔越少,則w的IDF越大,說(shuō)明詞語(yǔ)w具有很好的類別區(qū)分能力。設(shè)語(yǔ)料庫(kù)總共包含Ndoc個(gè)文件,其中有Mw個(gè)文件包含詞語(yǔ)w,則詞語(yǔ)w的IDFw可以表示為
式(2)中分母加1是為了避免分母為0。某一文件內(nèi)的高頻率詞語(yǔ),以及該詞語(yǔ)在整個(gè)文件集中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過(guò)濾掉常見(jiàn)的詞語(yǔ),保留重要的詞語(yǔ)。計(jì)算公式為
基于自然語(yǔ)言技術(shù)的文本水印技術(shù)中,同義詞詞典是一個(gè)必不可少的工具。本文使用了哈工大信息檢索研究室開(kāi)發(fā)的《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》。
同義詞詞林中把所有的詞語(yǔ)按照樹(shù)狀的結(jié)構(gòu)組織在一起,構(gòu)成一個(gè)五層的樹(shù)狀結(jié)構(gòu),如圖1所示。詞林中的詞語(yǔ)分成大、中、小三類,大類有12個(gè),中類有97個(gè),小類有1400個(gè)。每個(gè)小類里中含有若干個(gè)詞群,這些詞群又可以分成若干個(gè)原子詞群。在樹(shù)形結(jié)構(gòu)中,每個(gè)原子詞群中的詞語(yǔ)語(yǔ)義上關(guān)聯(lián)度最高,兩個(gè)原子詞群之間的距離越長(zhǎng),則屬于這兩個(gè)原子詞群的詞語(yǔ)之間關(guān)聯(lián)度就越低。
圖1 同義詞詞林結(jié)構(gòu)
信息熵是對(duì)信息的量化度量,表達(dá)了信源的不確定性。信息熵一般和信息度呈負(fù)相關(guān),即信息度越高,信息熵越低。在文本分析領(lǐng)域,信息熵可以用來(lái)描述文本內(nèi)容所含信息量的多少。信息熵的計(jì)算公式如下(其中信息熵用符號(hào)H表示,X為隨機(jī)變量,p(xi)表示事件xi發(fā)生的概率,n表示所有可能發(fā)生事件的總數(shù)):
通常來(lái)說(shuō),需要計(jì)算文本中某個(gè)句子的信息熵的時(shí)候,式(4)同樣適用,只是這時(shí)X表示需要求信息熵的句子,p(xi)指X中第i個(gè)詞語(yǔ)在全文出現(xiàn)的頻率(詞頻)。
本文提出了一種基于主題詞抽取與文本信息熵編碼的中文文本水印算法。通過(guò)TF-IDF算法對(duì)文本的主題詞進(jìn)行抽取,并從同義詞詞林中獲取主題詞的編碼,作為水印的第一部分。再通過(guò)主題詞計(jì)算文本中每條語(yǔ)句的信息熵,并對(duì)信息熵進(jìn)行統(tǒng)計(jì)分析,獲取不同信息熵值區(qū)間內(nèi)的語(yǔ)句頻率,再對(duì)語(yǔ)句頻率的統(tǒng)計(jì)結(jié)果進(jìn)行信息編碼,形成水印信息的第二部分。將主題詞編碼與信息熵編碼進(jìn)行拼接后進(jìn)行加密,并添加時(shí)間戳信息,生成最終的文本水印,并發(fā)送至第三方機(jī)構(gòu)進(jìn)行注冊(cè)保存。
當(dāng)爭(zhēng)議文本出現(xiàn)時(shí),使用水印構(gòu)造算法獲取爭(zhēng)議文本的水印信息。并通過(guò)水印相似度算法,計(jì)算爭(zhēng)議文本的水印與第三方機(jī)構(gòu)保存的原文本水印之間的相似度,當(dāng)相似度超過(guò)閾值,則爭(zhēng)議文本存在抄襲行為,否則不存在抄襲行為。
3.1.1 水印構(gòu)造算法設(shè)計(jì)
零水印構(gòu)造的流程如圖2所示,具體步驟如下。
圖2 水印構(gòu)造流程圖
1)首先對(duì)文本進(jìn)行預(yù)處理,包括去掉文本格式信息,并進(jìn)行分句、分詞、去除停用詞等操作。
2)計(jì)算文本預(yù)處理后所有詞的權(quán)重,并根據(jù)權(quán)重抽取文章的主題詞。
3)根據(jù)《同義詞詞林(第二版)》,獲取所有主題詞的編碼。
4)根據(jù)詞頻計(jì)算文章中每條語(yǔ)句的信息熵。
5)將[0,1]以某個(gè)差值進(jìn)行等分,作為信息熵區(qū)間。統(tǒng)計(jì)各區(qū)間內(nèi)包含的句子數(shù)目直方圖,歸一化處理后生成每個(gè)信息熵區(qū)間內(nèi)的頻率值。
6)將[0,1]以某個(gè)差值進(jìn)行等分,生成頻率區(qū)間,并定義一個(gè)編碼表與之對(duì)應(yīng)(如區(qū)間[0,0.1]對(duì)應(yīng)字母a,則區(qū)間(0.1,0.2]對(duì)應(yīng)字母b……)。依次判斷步驟5)中生成的頻率值所在的頻率區(qū)間,并記錄區(qū)間對(duì)應(yīng)的編碼字符,即為全文的信息熵編碼。
7)將步驟3)與步驟5)中得到的主題詞編碼與信息熵編碼融合后,進(jìn)行加密,并加入時(shí)間戳傳入第三方注冊(cè)機(jī)構(gòu)進(jìn)行注冊(cè)。
3.1.2 水印構(gòu)造算法實(shí)現(xiàn)
1)獲取主題詞編碼
文本預(yù)處理。首先讀取文本、去除格式等干擾后獲取其純文本信息,并進(jìn)行分句、去除停用詞、分詞等操作。
采用TF-IDF算法對(duì)預(yù)處理后的文本進(jìn)行主題詞抽取,依據(jù)式(3)計(jì)算詞語(yǔ)權(quán)重,并排序,選出權(quán)重最高的n個(gè)詞作為主題詞,組成全文的主題詞集:K={k1,k2,…,kn},其中ki為文本的第i個(gè)主題詞。權(quán)重對(duì)應(yīng)為W={w1,w2,…,wn},根據(jù)同義詞詞林獲取所有主題詞的編碼,最終獲取所有主題詞編碼集CW={cw1,cw2,…,cwn},其中cwi為文本的第i個(gè)主題詞的編碼。
2)獲取信息熵編碼
對(duì)預(yù)處理后的文本進(jìn)行分句,獲取文本句子集:T={t1,t2,…,tm},其中ti為文本分句后的第i個(gè)句子。對(duì)每條語(yǔ)句進(jìn)行分詞,并依據(jù)各詞語(yǔ)的詞頻信息計(jì)算句子的信息熵,進(jìn)而統(tǒng)計(jì)直方圖,獲得信息熵編碼,具體步驟如下。
(1)依據(jù)式(4)獲取所有語(yǔ)句的信息熵,并對(duì)熵值進(jìn)行歸一化處理。設(shè)第i條語(yǔ)句信息熵為hi,所有語(yǔ)句中信息熵最大的語(yǔ)句的信息熵為max H,信息熵最小的語(yǔ)句的信息熵為min H,則對(duì)hi的歸一化公式為
(3)直方圖歸一化,計(jì)算縱坐標(biāo)與語(yǔ)句總數(shù)的比值,結(jié)果為信息熵落在橫軸對(duì)應(yīng)區(qū)間內(nèi)的語(yǔ)句的頻率。
(4)獲取(3)中每個(gè)區(qū)間對(duì)應(yīng)的頻率值,得到頻率集F={f1,f2,…,ft}。之后以σ為步長(zhǎng),將[0,1]區(qū)間等分成s個(gè)子區(qū)間,建立s個(gè)子區(qū)間到編碼表的一一映射,即每個(gè)子區(qū)間對(duì)應(yīng)編碼表中唯一的一個(gè)編碼。
(5)依據(jù)s個(gè)子區(qū)間到編碼表的映射關(guān)系對(duì)頻率集F進(jìn)行編碼。根據(jù)F中每一個(gè)值fi,依據(jù)其處在的頻率區(qū)間,獲得對(duì)應(yīng)的編碼。將F中的頻率轉(zhuǎn)化為編碼后,即獲得信息熵編碼集CF={cf1,cf2,…,cft}。
3)獲取水印信息
將主題詞編碼集CW,與信息熵編碼集CF進(jìn)行拼接,生成文本的原始水印信息,并進(jìn)行加密。將加密后的文本水印加入時(shí)間戳信息,傳入第三方可信機(jī)構(gòu)注冊(cè)保存。
3.2.1 水印檢測(cè)算法設(shè)計(jì)
當(dāng)出現(xiàn)文本版權(quán)爭(zhēng)議時(shí),先獲取爭(zhēng)議文本及原文本第三方注冊(cè)的水印信息,再依據(jù)圖3所示流程進(jìn)行判定,具體步驟如下。
圖3 水印檢測(cè)過(guò)程
1)根據(jù)本文水印構(gòu)造算法,獲取有爭(zhēng)議文本的主題詞編碼與信息熵編碼。同時(shí)對(duì)第三方注冊(cè)的文本水印信息進(jìn)行解密,獲取原文本的主題詞編碼與信息熵編碼。
2)計(jì)算爭(zhēng)議文本主題詞編碼和原文本的主題詞編碼之間的相似度。
3)計(jì)算爭(zhēng)議文本信息熵編碼和原文本的信息熵編碼之間的相似度。
4)將步驟2)、3)的結(jié)果進(jìn)行加權(quán)求和,作為最終水印相似度,將該值不低于預(yù)定的相似度閾值,則認(rèn)為爭(zhēng)議文本與原文本相似度過(guò)高,可能存在抄襲行為。
3.2.2 水印檢測(cè)算法實(shí)現(xiàn)
1)當(dāng)出現(xiàn)版權(quán)問(wèn)題時(shí),對(duì)第三方保存的水印信息進(jìn)行解密,獲取文本水印WM1,包括主題詞編碼CW1與信息熵編碼CF1。
2)通過(guò)水印構(gòu)造算法,獲取有爭(zhēng)議文本的水印信息WM2,包括主題詞編碼信息CW2與信息熵編碼信息CF2。
3)計(jì)算CW1與CW2的相似度。設(shè)每個(gè)主題詞編碼包含n個(gè)編碼,CW1和CW2編碼相同的字符數(shù)為m,則主題詞編碼相似度為
4)計(jì)算信息熵編碼。信息熵編碼CF1和CF2的相似度為
其中xi、yi分別表示CF1、CF2中下標(biāo)為i的字符的ASCII碼(i∈{1,2,…,t},t為每個(gè)信息熵編碼字符數(shù))。
5)計(jì)算最終相似度。文本水印WM1和WM2總的相似度R(WM1,WM2)可以表示為
其中p和q分別表示主題詞編碼相似度和信息熵編碼相似度在總相似度中的權(quán)重,p∈[0,1],q∈[0,1],且p+q=1。
6)版權(quán)判斷,若最終相似度不低于相似度閾值ф,則爭(zhēng)議文本存在抄襲嫌疑。
基于本文提出的算法,在Windows10系統(tǒng)下使用python語(yǔ)言進(jìn)行開(kāi)發(fā)實(shí)現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)集為從搜狗實(shí)驗(yàn)室數(shù)據(jù)中隨機(jī)獲取的100篇新聞文章;從《朱自清文集》中隨機(jī)獲取的12篇散文;以及網(wǎng)絡(luò)中隨機(jī)獲取的6篇小說(shuō)與記敘文等。
對(duì)信息熵劃分間隔δ與頻率劃分間隔σ進(jìn)行確定。取δ,σ區(qū)間為[0.01-0.1]進(jìn)行實(shí)驗(yàn),選取數(shù)據(jù)集中部分文章進(jìn)行隨機(jī)刪減,計(jì)算刪減后水印與原文本水印間相似度,部分結(jié)果如表1所示,δ,σ值均為0.05時(shí),不同刪減率下的文章(即相似文章)水印與原文章水印相似度最大。因此確定δ=0.05,σ=0.05。
表1 δ與σ在各刪減率下對(duì)相似度的影響
從文本刪減攻擊、同義詞替換攻擊以及句型轉(zhuǎn)換攻擊三個(gè)方面進(jìn)行抗攻擊性實(shí)驗(yàn),其中相似度計(jì)算中主題詞相似度權(quán)重p=0.5,信息熵編碼相似度權(quán)重q=0.5。
為了綜合評(píng)估算法的有效性,復(fù)現(xiàn)了相似中文零水印算法:文芳等人[6]與劉等人[19]提出的算法,并基于本文數(shù)據(jù)集進(jìn)行了對(duì)比試驗(yàn)。
4.2.1 相似度閾值ф的確定
在搜狗實(shí)驗(yàn)室新聞數(shù)據(jù)中隨機(jī)獲取200篇文章,以兩篇為一組,分別計(jì)算相似度,結(jié)果如圖4所示。不同文章的相似度均不高于0.65,因此本文選取相似度閾值為ф=0.7。即相似度大于0.7則認(rèn)為可能存在抄襲嫌疑。
圖4 不同文章的水印相似度
4.2.2 文本刪減攻擊
通過(guò)隨機(jī)刪除特定比例的句子實(shí)現(xiàn)刪減攻擊。實(shí)驗(yàn)中刪減率選取0.05~0.5,對(duì)文本進(jìn)行刪減,計(jì)算每篇文章刪減后生成的水印,與原文本水印的相似度。通過(guò)對(duì)數(shù)據(jù)集中所有文本進(jìn)行該操作后,以各刪減率下,每篇文章與原文章的相似度的平均值作為實(shí)驗(yàn)結(jié)果。與文獻(xiàn)[6]、文獻(xiàn)[19]算法的對(duì)比試驗(yàn)結(jié)果如圖5所示。本文算法在應(yīng)對(duì)刪減攻擊時(shí)具有很強(qiáng)的穩(wěn)定性。相似度-刪減率曲線整體斜率最小,對(duì)同一文本的識(shí)別率最高。
圖5 不同刪減度下水印相似度結(jié)果對(duì)比
4.2.3 同義詞替換攻擊
從數(shù)據(jù)集中選取部分文章,并對(duì)每篇文章進(jìn)行一定比例的同義詞替換,來(lái)模擬同義詞替換攻擊。替換操作使用“飛魯達(dá)”替換工具與人工修改相結(jié)合的方式。計(jì)算替換后文章的水印與原文本水印的相似度,結(jié)果如圖6所示。
圖6 同義詞替換攻擊下水印相似度結(jié)果對(duì)比
結(jié)果顯示本文算法對(duì)于同義詞替換攻擊,具有很強(qiáng)的魯棒性。這是由于本文考慮到同義詞對(duì)水印的影響,主題詞部分使用同義詞詞林進(jìn)行編碼,計(jì)算詞頻時(shí)也進(jìn)行了同義詞消歧。因此同義詞替換攻擊對(duì)主題詞編碼與信息熵編碼影響都很小。
4.2.4 句型轉(zhuǎn)換攻擊
通過(guò)人工修改的方式,對(duì)實(shí)驗(yàn)文章進(jìn)行了不同程度的句型轉(zhuǎn)換,將句型轉(zhuǎn)換后的文本水印與原文本水印對(duì)比,計(jì)算相似度,結(jié)果如圖7所示,其中橫坐標(biāo)為句型轉(zhuǎn)換率,縱坐標(biāo)為句型轉(zhuǎn)換后生成的水印與原文本的水印的相似度。
圖7 句型轉(zhuǎn)換攻擊下水印相似度結(jié)果對(duì)比
結(jié)果顯示,在不同程度的句型轉(zhuǎn)換攻擊下,本文算法都表現(xiàn)出了較好的性能和較強(qiáng)的穩(wěn)定性。這是由于句型轉(zhuǎn)換對(duì)詞影響較小,對(duì)句長(zhǎng)和句子中的詞頻影響也很小。因此在句型轉(zhuǎn)換攻擊下,本文算法與其他算法相比具有更好的魯棒性。
4.3.1 算法時(shí)間復(fù)雜度
本文算法在充分考慮并獲取了能代表文本的特征的前提下,簡(jiǎn)單易實(shí)現(xiàn)。假設(shè)一篇文本總共有m個(gè)句子,其中平均每個(gè)句子有n個(gè)詞語(yǔ),計(jì)算每句話熵值的時(shí)間消耗為O(mn),則統(tǒng)計(jì)句長(zhǎng)與熵值以及編碼部分的的時(shí)間均為:O(m)。本文算法最終時(shí)間復(fù)雜度約為O(mn)。
文獻(xiàn)[6]時(shí)間開(kāi)銷主要用于計(jì)算句子信息熵,時(shí)間復(fù)雜度為O(mn)。文獻(xiàn)[19]的算法時(shí)間開(kāi)銷主要用于計(jì)算句子相關(guān)性上,該方法的時(shí)間復(fù)雜度約為O(m2n2)。
4.3.2 魯棒性
本文提出的文本水印算法為零水印算法,因此具有完全的隱蔽性。且由于算法僅獲取純文本內(nèi)容作為水印生成的原始信息,因此完全不受字移、行移、字體轉(zhuǎn)換、顏色變換、重新編輯等攻擊的影響,同樣對(duì)于打印、掃描、截屏等攻擊的影響具有抵抗性。對(duì)于改變文章內(nèi)容的常規(guī)文本內(nèi)容攻擊,具有很強(qiáng)的抗攻擊性。
為解決電子文檔的版權(quán)保護(hù)問(wèn)題,本文結(jié)合自然語(yǔ)言處理技術(shù),提出了一種新的中文文本零水印算法。通過(guò)提取主題詞獲取文本的語(yǔ)義特性。通過(guò)詞頻與語(yǔ)句長(zhǎng)度計(jì)算全文語(yǔ)句信息熵,并對(duì)統(tǒng)計(jì)后的信息熵進(jìn)行編碼以獲取文本的統(tǒng)計(jì)特性。相對(duì)于目前研究較多的以詞語(yǔ)代表文本特征的方案,算法使用的句子特性更好地表示了文本特征,具有更高的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果顯示本文提出的水印算法具有較好的魯棒性。下一步的主要工作是研究如何獲取更優(yōu)的文本特征來(lái)表示文本,生成水印信息。