• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于字體的中文信息隱藏算法

      2013-09-10 01:16:56孫新梅黃劉生
      關(guān)鍵詞:混用繁體字比特

      孫新梅,孟 朋,黃劉生,3

      (1.淮北職業(yè)技術(shù)學(xué)院 機(jī)電工程系,安徽 淮北235000;2.中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院國(guó)家高性能計(jì)算中心,安徽 合肥230026;3.中國(guó)科學(xué)技術(shù)大學(xué) 蘇州研究院,江蘇 蘇州215123)

      0 引 言

      目前以文本為載體的信息隱藏大體可以分為三類:基于排版,基于語(yǔ)法和基于語(yǔ)義。而基于排版的信息隱藏算法不抗重寫攻擊,如果隱藏文本被重新排版或重寫一遍,那么隱藏信息也隨之消失;基于語(yǔ)法的信息隱藏算法通過(guò)模仿自然語(yǔ)言的語(yǔ)法結(jié)構(gòu),生成類似自然語(yǔ)言的文本,在生成文本的過(guò)程中隱藏進(jìn)秘密信息。這類算法主要有基于Markov鏈的隱藏方法[1],基于句子模板的隱藏方法[2]和基于文章樣式的隱藏方法[3]等。這類算法雖然可以抵抗重寫攻擊,但是算法生成的文本沒有完整的意義,并且可以通過(guò)統(tǒng)計(jì)分析等方法對(duì)載體文本實(shí)現(xiàn)自動(dòng)化的檢測(cè)[4-6]?;谡Z(yǔ)義的信息隱藏算法通過(guò)對(duì)載體文本的部分單詞進(jìn)行同義詞替換[7-8]、部分或全部句子進(jìn)行同義轉(zhuǎn)換等方式,雖然目標(biāo)是盡量保持載體文本語(yǔ)義不變,但實(shí)現(xiàn)起來(lái)非常困難;所以有必要進(jìn)一步設(shè)計(jì)新的信息隱藏算法,以增強(qiáng)信息安全性。本文以經(jīng)常被混用的繁體字、簡(jiǎn)化字為例,設(shè)計(jì)了一種新的中文信息隱藏算法,并研究了算法的嵌入率以及安全性等問(wèn)題。這種算法主要具有以下優(yōu)點(diǎn):一是嵌入方式多樣,可以根據(jù)需要選擇不同的嵌入方式;二是這種算法保證了載體文本的語(yǔ)義完全不變,實(shí)現(xiàn)起來(lái)簡(jiǎn)單;三是這種算法對(duì)電子文本,打印文本,手寫文本等全部適用。

      1 背景介紹

      漢字的歷史悠久,在漢字的演進(jìn)過(guò)程中很多時(shí)期同一漢字存在著兩種或兩種以上的書寫形式。就今天來(lái)說(shuō),日常使用的文字約1/3存在兩種或兩種以上的書寫形式[9]。1964年國(guó)務(wù)院公布的 《簡(jiǎn)化字總表》,共包含2236個(gè)簡(jiǎn)化字,是大陸通行的簡(jiǎn)化字,這2236個(gè)簡(jiǎn)化字有至少兩種書寫形式:簡(jiǎn)化字和繁體字。由于特殊的歷史和政治原因,當(dāng)前簡(jiǎn)化字主要在大陸地區(qū)使用,而繁體字主要在臺(tái)港澳以及海外繼續(xù)使用。近年來(lái),隨著兩岸交流的密切展開以及兩岸文字統(tǒng)一的需要,大陸民眾對(duì)繁體字產(chǎn)生了很大的熱情,而在臺(tái)灣等地區(qū)學(xué)習(xí)和使用簡(jiǎn)化字的人數(shù)也不斷增多,因此繁體字和簡(jiǎn)化字混用的顯現(xiàn)普遍存在并且有增多趨勢(shì)。根據(jù) “中國(guó)語(yǔ)言文字使用情況調(diào)查”的結(jié)果,截至上世紀(jì)末,有3.84%的人是繁體字和簡(jiǎn)化字并用[10]。圖1顯示大陸地區(qū)平時(shí)使用簡(jiǎn)化字和繁體字的比例。從網(wǎng)上也可以看到,大量的網(wǎng)頁(yè)是繁簡(jiǎn)并用,特別像網(wǎng)絡(luò)論壇、網(wǎng)上聊天室等對(duì)文字格式?jīng)]有嚴(yán)格要求的網(wǎng)站。

      在海外華人地區(qū),繁簡(jiǎn)混用現(xiàn)象則更加普遍。例如針對(duì)新加坡餐館菜單統(tǒng)計(jì),繁簡(jiǎn)混用現(xiàn)象約占所有中文菜單的17%[11],如圖2所示。

      圖2 新加坡菜單繁體字和簡(jiǎn)體字使用比例[11]

      隨著不同地區(qū)的華人交流日益頻繁以及互聯(lián)網(wǎng)的廣泛使用,繁簡(jiǎn)混用的現(xiàn)象很難在短時(shí)間內(nèi)消除,甚至有日益增多的趨勢(shì)。隨著漢字編碼方式以及輸入方式的進(jìn)步,采用一種輸入法輸入簡(jiǎn)化字和繁體字幾乎同樣簡(jiǎn)單,同時(shí)輸入以及顯示簡(jiǎn)化字和繁體字已經(jīng)沒有任何困難,這為繁體字和簡(jiǎn)化字的混用提供了便利的條件。這種不規(guī)范的繁簡(jiǎn)混用現(xiàn)象很有可能被用來(lái)進(jìn)行信息以藏。

      2 算法描述

      我們的目標(biāo)是對(duì)一篇載體文本 (只含簡(jiǎn)化字或繁體字的普通文本,本文中提到的載體文本假設(shè)只含簡(jiǎn)化字),通過(guò)將部分簡(jiǎn)化字替換為繁體字來(lái)實(shí)現(xiàn)信息隱藏。

      首先構(gòu)造一個(gè)替換字典SD,SD包含經(jīng)?;煊玫暮?jiǎn)化字和繁體字。即SD是一個(gè)二元組的集合,每個(gè)二元組包括一個(gè)經(jīng)常混用的簡(jiǎn)化字和其對(duì)應(yīng)的繁體字。

      2.1 簡(jiǎn)單替換的嵌入算法 (SSE)

      將待隱藏信息轉(zhuǎn)化為 “0”和 “1”的比特序列,假設(shè)規(guī)定簡(jiǎn)化字代表 “0”,繁體字代表 “1”,SSE方式執(zhí)行過(guò)程描述如下:

      隱藏過(guò)程:對(duì)載體文本中每個(gè)SD中的文字,根據(jù)當(dāng)前需要隱藏的信息進(jìn)行替換。如果需要嵌入 “0”,則保持簡(jiǎn)化字不變;如果需要嵌入 “1”,那么將簡(jiǎn)化字替換為相應(yīng)的繁體字;不在SD中的文字保持不變。進(jìn)行替換后的文本就是一篇含有隱藏信息的載密文本。

      提取過(guò)程:從載密文本中依次讀取文字,如果文字為SD中的簡(jiǎn)化字則提取 “0”,為SD中的繁體字則提取 “1”,不在SD中的字直接讀取下一個(gè)字。

      例如對(duì)字符串 “GB2312碼是中華人民共和國(guó)國(guó)家漢字信息交換用編碼”進(jìn)行信息隱藏,假設(shè)需要隱藏的秘密信息為 “01010110”,那么采用簡(jiǎn)單替換方式隱藏后的載密文本為:“GB2312碼是中華人民共和國(guó)國(guó)家漢字信息交換用編碼”。

      這種嵌入方式的好處是嵌入率比較高,弊端是嵌入簡(jiǎn)單,比較容易辨認(rèn)。例如相鄰的 “國(guó)國(guó)”一個(gè)簡(jiǎn)化字,一個(gè)繁體字,生活中很難發(fā)生這種情況,因此這種嵌入方式安全性較低。

      2.2 高效替換的嵌入算法 (ESE)

      對(duì)進(jìn)行保密通信的雙方來(lái)說(shuō),字符串 “GB2312碼是中華人民共和國(guó)國(guó)家漢字信息交換用編碼”,可以認(rèn)為其代表字符串本身表達(dá)的信息,也可以認(rèn)為其代表 “26”(因?yàn)槠淇偣埠?6個(gè)字符),當(dāng)然也可以認(rèn)為其代表其它的數(shù)字或者符號(hào)。只要發(fā)送方和接收方采用相同的解釋方式,就可以通過(guò)對(duì)載體文本進(jìn)行 “解釋”達(dá)到傳遞秘密信息的目的。

      將一篇載體文本完全不做修改,而只靠 “解釋”來(lái)實(shí)現(xiàn)秘密通信,在通信量很小的情況下,完全可以實(shí)現(xiàn)。假設(shè)要進(jìn)行最大通信量為20比特的秘密通信,最簡(jiǎn)單的解釋方式可以用220個(gè)不同的載體文本,其中每個(gè)載體文本代表一種信息,那么就可以實(shí)現(xiàn)對(duì)載體文本完全不用修改來(lái)傳遞秘密信息。但是當(dāng)通信量大的時(shí)候,很難只用 “解釋”的辦法來(lái)實(shí)現(xiàn)信息隱藏。

      下面提出一種折中的方法,首先將待隱藏的信息分解為固定長(zhǎng)度的信息段,然后對(duì)每個(gè)信息段采用 “解釋”的辦法進(jìn)行隱藏,以實(shí)現(xiàn)在修改盡量少的文本的前提下嵌入秘密信息。

      假設(shè)待隱藏的信息正好可以分解為n個(gè)長(zhǎng)為L(zhǎng)的分組,“解釋”隱藏的方法如下:將隱藏信息的每個(gè)分組轉(zhuǎn)化為一個(gè)十進(jìn)制數(shù)Di(0<i<n+1),對(duì)載體文本從開始位置進(jìn)行搜索,每經(jīng)過(guò)Di個(gè)SD中的簡(jiǎn)化字,將第Di+1個(gè)簡(jiǎn)化字替換為繁體字。

      隱藏算法和還原算法的描述如下所示 (算法假設(shè)載體文本足夠長(zhǎng),可以容納秘密信息),圖3和圖4分別是隱藏算法和還原算法的流程圖。

      隱藏算法描述:

      步驟1 從載體文本開始位置搜索,置P等于-1。

      步驟2 從載體文本當(dāng)前位置開始,找到下一個(gè)SD中的字C,并置P等于P+1。

      步驟3 如果P等于當(dāng)前待隱藏的信息Di(0<i<n+1)。那么將C替換為繁體字,否則轉(zhuǎn)步驟2。

      步驟4 如果信息隱藏完畢,則算法終止,否則P=-1,轉(zhuǎn)步驟2。

      還原算法描述:

      步驟1 從載體文本開始位置搜索,置P等于-1。

      步驟2 從載體文本當(dāng)前位置開始,找到下一個(gè)SD中的字C,并置P等于P+1。

      步驟3 如果C是繁體字,那么將P保存為提取信息,否則轉(zhuǎn)步驟2。

      步驟4 如果提取完畢,則算法終止,否則P=-1,轉(zhuǎn)步驟2。

      高效替換算法的最大優(yōu)點(diǎn)就是每替換一個(gè)字符,可以隱藏L比特的信息,而且L可以根據(jù)需要靈活選擇,L越大,載體文本被替換的文字越稀少,載密文本的隱蔽性也越強(qiáng);L越小,嵌入率越高。

      2.3 基于模板的嵌入算法 (TBE)

      在SSE算法中,每個(gè)字符嵌入一個(gè)比特信息,而在ESE算法中,一個(gè)字符嵌入多個(gè)比特信息。在TBE算法中,我們使用多個(gè)字符來(lái)嵌入多個(gè)比特信息。

      首先,假設(shè)將載體文本中出現(xiàn)在SD中的字符按順序分組,每組N個(gè)字符。從N個(gè)字符中任取m個(gè),則共有種選取方式,每種選取方式可以看成一種模板,如果將這些模板編碼,則每個(gè)模板對(duì)應(yīng)一種隱藏信息。每N個(gè)字符通過(guò)替換其中m個(gè)至少可以嵌入比特信息,這種嵌入方式記做TBE(N,m)。

      例如TBE(5,2)的一種編碼方式見表1。

      3 嵌入率和安全性分析

      3.1 嵌入率分析

      假設(shè)一篇載體文本共含有A個(gè)SD中的字符,嵌入S比特信息后,修改了其中C個(gè)字符,定義嵌入率 (ER),嵌入效率 (EE)如下

      表1 基于模板的嵌入方式編碼

      假設(shè)嵌入比特串 “0”和 “1”均勻分布,則SSE的嵌入率為1,平均嵌入效率為2;假設(shè)ESE嵌入信息分段長(zhǎng)度為L(zhǎng),則其嵌入率為嵌入效率為L(zhǎng)。當(dāng)L大于1時(shí),ESE的嵌入效率高于SSE,但其嵌入率遠(yuǎn)遠(yuǎn)低于SSE,并且隨L增大嵌入率以指數(shù)方式下降。

      一個(gè)好的嵌入方式,應(yīng)該既有比較高的嵌入率,又有比較高的嵌入效率,因此給出嵌入能力 (EC)的定義如下

      一般來(lái)說(shuō),希望在嵌入率一定的條件下,有比較高的嵌入效率,或者嵌入效率一定的條件下,有比較高的嵌入率。因此,使用EC可以較好的描述算法的嵌入能力。

      下面來(lái)分析3種算法的嵌入能力 (EC)。

      SSE算法的嵌入率為1,和平均嵌入效率為2,因此

      假設(shè)TBE算法的模板長(zhǎng)度為N,從中選取m個(gè)字符進(jìn)行替換嵌入信息,因?yàn)槊總€(gè)模板最后的 “0”比特?zé)o需嵌入,則

      ESE和TBE的嵌入率、嵌入效率和嵌入能力見表2和表3。

      表2 ESE的嵌入率,嵌入效率和嵌入能力數(shù)據(jù)

      表3 TBE的嵌入率,嵌入效率和嵌入能力數(shù)據(jù)

      對(duì)比表2和表3,可以看出,適當(dāng)?shù)倪x取N和m,TBE會(huì)比ESE有更高的嵌入能力,例如當(dāng)ESE的嵌入效率為3時(shí),其嵌入率為0.67;而當(dāng)N等于100,m等于26時(shí),TBE的嵌入效率為3.08,嵌入率為0.79,嵌入效果明顯好于ESE。

      3.2 安全性分析

      本文所設(shè)計(jì)算法優(yōu)點(diǎn)是保證載體文本語(yǔ)義完全不變,嵌入率可靈活調(diào)整,抗重寫攻擊,因此傳統(tǒng)的攻擊方法對(duì)本算法是完全無(wú)效的。當(dāng)然,本文的算法使用了兩種字體,在對(duì)文本字體要求嚴(yán)格的環(huán)境,本文的算法并不適用。另外,對(duì)本文算法檢測(cè)的唯一依據(jù)是文本是否同時(shí)使用了簡(jiǎn)化字和繁體字,但是由于相當(dāng)一部分人同時(shí)使用兩種字體,因此僅根據(jù)使用兩種字體檢測(cè)會(huì)導(dǎo)致大量正常文本被誤判為載密文本,仍然無(wú)法準(zhǔn)確區(qū)分正常文本和載密文本。

      為了增加算法安全性,替換辭典 (SD)可以僅選擇經(jīng)常混用的繁體字和簡(jiǎn)化字,這樣載密文本傳輸過(guò)程中如果被修改了部分字符,如果這部分字符并不在SD之中,并不會(huì)影響秘密信息的安全。另外采用基于模板的嵌入方式,可以僅對(duì)部分模板進(jìn)行編碼,這樣僅有部分模板是有效模板,如果載密文本被攻擊并修改,這樣可能會(huì)導(dǎo)致提取過(guò)程出現(xiàn)無(wú)效模板,從而可以判斷載密文本被攻擊,并且能判斷攻擊的位置。

      由于文本的冗余空間少,嵌入率低,當(dāng)前基于文本的隱藏算法很少,文本信息隱藏很少引起大家注意,因此基于文本的信息隱藏成功率也較高。

      4 結(jié)束語(yǔ)

      相對(duì)加密技術(shù)來(lái)說(shuō),信息隱藏是一個(gè)比較新的研究領(lǐng)域。本文分析了目前文本信息隱藏的研究現(xiàn)狀和存在的不足,設(shè)計(jì)了一種基于中文字體的信息隱藏算法。算法保證了載體文本的語(yǔ)義完全不變,具有實(shí)現(xiàn)起來(lái)簡(jiǎn)單、信息傳輸存儲(chǔ)安全、嵌入率高的特點(diǎn)。根據(jù)不同的應(yīng)用需求,作者給出了3種隱秘信息的嵌入算法,并且通過(guò)數(shù)學(xué)計(jì)算,對(duì)每一種嵌入算法的嵌入率和嵌入效率等進(jìn)行了分析比較。最后對(duì)算法的安全性進(jìn)行了分析,并給出了增強(qiáng)安全性的手段。

      [1]Meng Peng,Huang Liusheng,Chen Zhili.STBS:A statistical algorithm for steganalysis of translation-based steganography [C ]//Proceedings of the Information Hiding Conference,2010.

      [2]MaherK. TEXTO. URL: ftp://ftp.funet.fi/pub/crypt/steganography/texto.tar.gz [S].2012-06-05.

      [3]Liu T Y,Tsai W H.A new steganographic method for data hiding in microsoft word documents by a change tracking technique [J].IEEE Transactions on Information Forensics and Security,2007,2 (1):24-30.

      [4]Chen Zhili,Huang Liusheng,Yu Zhenshan,et al.Linguistic steganography detection using statistical characteristics of correlations between words [G].LNCS 5284:USA:Information Hiding,2008:224-235.

      [5]Chen Zhili,Huang Liusheng,Yu Zhenshan,et al.A statistical algorithm for linguistic steganography detection based on distribution of words [C]//Spain, Mar: ARES,2008:558-563.

      [6]Chen Zhili,Huang Liusheng,Yu Zhenshan,et al.Effective linguistic steganography detection [C]//Australia:CIT Workshops,2008:224-229.

      [7]Ryan Stutsman,Mikhail Atallah,Christian Grothoff,et al.Lost in just the translation [C]//Proceedings of the ACM Symposium on Applied Computing.New York:ACM,2006:338-345.

      [8]Meng Peng,Shi Yunqing,Huang Liusheng.LinL:Lost in n-best list [C]//Proceedings of the Information Hiding Conference,2011.

      [9]GUO Shulun.Dynamic analysis and comparison of stroke number of simplified Chinese characters and traditional Chinese characters [J].Journal of Beihua University,2009,10 (2):50-56 (in Chinese).[郭曙綸.簡(jiǎn)化字與繁體字筆畫數(shù)的動(dòng)態(tài)統(tǒng)計(jì)與比較 [J].北華大學(xué)學(xué)報(bào),2009,10 (2):50-56.]

      [10]Chinese Languages Investigation Leading Group Office.The survey data of chinese press about chinese language [M].Beijing:The Chinese Press,2006 (in Chinese).[中國(guó)語(yǔ)言文字使用情況調(diào)查領(lǐng)導(dǎo)小組辦公室.中國(guó)語(yǔ)言文字使用情況調(diào)查資料 [M].北京:語(yǔ)文出版社,2006]

      [11]WANG Hui.The simplified and traditional Chinese characters coexist,use simplified character and know traditional character [D].National University of Singapore,2008 (in Chinese). [王惠.繁簡(jiǎn)共存,用簡(jiǎn)識(shí)繁 [D].新加坡國(guó)立大學(xué),2008.]

      猜你喜歡
      混用繁體字比特
      哈哈鏡
      比特幣還能投資嗎
      海峽姐妹(2017年10期)2017-12-19 12:26:20
      比特幣分裂
      比特幣一年漲135%重回5530元
      銀行家(2017年1期)2017-02-15 20:27:20
      蔬菜病蟲害防治的農(nóng)藥配制和混用
      不能在一起混用的東西還有哪些
      樂活老年(2016年10期)2016-02-28 09:30:32
      臺(tái)網(wǎng)友鼓動(dòng)“繁體字申遺”
      馮小剛建議讓繁體字回歸課本
      眼藥水混用致一過(guò)性全盲一例
      潔廁液和消毒液不可混用
      高陵县| 南康市| 蛟河市| 资兴市| 四子王旗| 邹平县| 庆阳市| 水城县| 丁青县| 特克斯县| 米泉市| 花莲县| 郧西县| 广南县| 清镇市| 龙海市| 武夷山市| 晋江市| 台安县| 津南区| 花莲县| 从化市| 蓬安县| 庆云县| 安乡县| 莒南县| 岳阳县| 辉县市| 桐柏县| 蒙城县| 陵水| 资溪县| 藁城市| 宝应县| 称多县| 进贤县| 澄城县| 遂昌县| 乐山市| 涿州市| 济宁市|