徐佳麗, 羅 麗
(江西科技師范大學(xué)理工學(xué)院,江西 南昌 330038)
數(shù)據(jù)無(wú)損隱藏技術(shù)主要是將秘密信息采用不可告知的方式嵌入到公開(kāi)的數(shù)字載體中進(jìn)行傳輸[1,2],有效實(shí)現(xiàn)隱蔽通信和版權(quán)保護(hù)等。隨著各種通訊設(shè)備和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,文本信息十分適合作為信息隱藏的載體[3],所以流式文檔數(shù)據(jù)無(wú)損隱藏技術(shù)受到了越來(lái)越多的研究者關(guān)注。
國(guó)內(nèi)外相關(guān)專家給出一些較為顯著的研究成果,例如熊祥光等人[4]通過(guò)改進(jìn)的插值算法獲取圖像待隱藏秘密數(shù)據(jù)的圖像載體,將其劃分為多個(gè)大小相同的分塊,計(jì)算分塊的基準(zhǔn)像素方差,同時(shí)對(duì)其進(jìn)行排序,獲取不同的分塊索引。采用自適應(yīng)數(shù)據(jù)隱藏算法進(jìn)行秘密數(shù)據(jù)隱藏。夏穎慧等人[5]針對(duì)醫(yī)學(xué)圖像像素的分布特點(diǎn),采用最大累積方差法將背景區(qū)域進(jìn)行分離,確定邊緣像素。通過(guò)改進(jìn)的預(yù)處理算法,自適應(yīng)選取最優(yōu)預(yù)處理區(qū)間,減少視覺(jué)失真,完成信息隱藏。
以上兩種方法雖然現(xiàn)階段取得了較為滿意的研究成果,但是由于未涉及流式文檔數(shù)據(jù)的研究,導(dǎo)致流式文檔數(shù)據(jù)采用此方法進(jìn)行隱藏時(shí),傳輸時(shí)延大幅度上升,流式文檔數(shù)據(jù)正確接收率和生命周期降低。為此,提出一種基于排序?qū)W習(xí)的流式文檔數(shù)據(jù)無(wú)損隱藏方法。仿真結(jié)果表明,所提方法能夠有效提升生命周期和流式文檔數(shù)據(jù)準(zhǔn)確接收率,減少傳輸時(shí)延。
在排序?qū)W習(xí)算法中,假設(shè)共有n個(gè)帶標(biāo)簽的訓(xùn)練查詢集合{qn,Xn,Yn},則流式文檔數(shù)據(jù)對(duì)應(yīng)的特征集合為
Xn={x1,x2,…,xM}
(1)
查詢檢索出的文檔相關(guān)性標(biāo)簽為
Yn={y1,y2,…,yM}
(2)
采用強(qiáng)化學(xué)習(xí)解決流式文檔數(shù)據(jù)的排序問(wèn)題,主要通過(guò)一個(gè)連續(xù)狀態(tài)的馬爾可夫決策過(guò)程進(jìn)行描述[6]。馬爾可夫決策過(guò)程是由五個(gè)不同的元素組成,如式(3)所示
U={S,A,T,R,π}
(3)
1)S代表狀態(tài)集,主要描述系統(tǒng)環(huán)境中的一組狀態(tài)集合。將狀態(tài)集設(shè)定為一個(gè)二元組,主要由排序位置信息和候選文檔集合組成。
2)A代表動(dòng)作集,是整個(gè)智能體Agent可選擇的全部動(dòng)作離散集合。其中,全部可選動(dòng)作集合主要取決于當(dāng)前的狀態(tài)st,將其表示為A(st)。
3)T(S,A)代表狀態(tài)轉(zhuǎn)移函數(shù),是描述環(huán)境狀態(tài)轉(zhuǎn)移的函數(shù)[7],完成動(dòng)作選擇后,說(shuō)明文檔需要放置在這個(gè)位置,同時(shí)將動(dòng)作選擇的文檔在候選文檔集中剔除,避免將文檔重復(fù)進(jìn)行排序。其中最新?tīng)顟B(tài)st+1的表達(dá)式為
(4)
4)R(S,A)代表激勵(lì)函數(shù),屬于即時(shí)激勵(lì)。在排序問(wèn)題中,將激勵(lì)作為對(duì)動(dòng)作選擇的評(píng)價(jià)。所以,將激勵(lì)函數(shù)設(shè)定為信息檢索的評(píng)價(jià)指標(biāo)。當(dāng)執(zhí)行完動(dòng)作ai之后,環(huán)境給予的激勵(lì)被定義為信息檢索的評(píng)價(jià)指標(biāo),經(jīng)過(guò)歸一化處理后獲取的累積增益[8,9]。其中激勵(lì)函數(shù)的表達(dá)式為
(5)
5)π(a|s)代表策略函數(shù),主要是描述Agent行為,即從環(huán)境狀態(tài)到動(dòng)作文檔的映射。其中策略函數(shù)能夠表示為:
(6)
上式中,θ代表策略參數(shù),θ的維度和文檔向量的特征維度相等。
為了更加精準(zhǔn)地對(duì)流式文檔數(shù)據(jù)進(jìn)行查詢,因此對(duì)文章進(jìn)行排序。同時(shí)排序結(jié)果的多樣性也能夠豐富查詢結(jié)果,避免出現(xiàn)數(shù)據(jù)冗余的情況。
在采用排序?qū)W習(xí)算法進(jìn)行流式文檔數(shù)據(jù)排序時(shí),因?yàn)槭艿綇?fù)雜度與查詢結(jié)果數(shù)據(jù)集A的限制,所以采用控制數(shù)據(jù)集A大小的方式,在滿足多樣性的同時(shí)降低排序算法的復(fù)雜度。數(shù)據(jù)集A的約束條件如下:
1)刪除數(shù)據(jù)集A中相似度較高的數(shù)據(jù);
2)刪除數(shù)據(jù)集A中可以進(jìn)行替代的原始數(shù)據(jù)集合。
由于排序?qū)W習(xí)算法是一種多樣性策略,需要降低算法搜索的空間復(fù)雜度。由于各個(gè)文檔向量十分長(zhǎng)且是稀疏的,通過(guò)余弦相似度計(jì)算動(dòng)作at的K個(gè)最近鄰動(dòng)作。設(shè)定相似度閾值衡量候選動(dòng)作集中動(dòng)作at的近鄰動(dòng)作,即
(7)
利用強(qiáng)化學(xué)習(xí)中的策略進(jìn)行策略參數(shù)學(xué)習(xí),排序?qū)W習(xí)就是目標(biāo)最大化每一時(shí)間步的累積期望激勵(lì)J(θ),具體的計(jì)算公式如下
J(θ)=EL~πω[G(L)]
(8)
式中,G(L)代表文檔列表的累積激勵(lì),具體的計(jì)算公式如下:
(9)
式中,γ代表折扣因子;rk代表激勵(lì)回報(bào)。
根據(jù)梯度調(diào)整策略參數(shù),獲取如下的參數(shù)更新式
θt=θ+η?θJ(πθ)
(10)
在每次迭代過(guò)程中,通過(guò)當(dāng)前策略函數(shù)選取一個(gè)序列。在各個(gè)取樣序列的時(shí)間步中,策略參數(shù)主要利用策略梯度調(diào)整不同參數(shù)[11],其中從時(shí)間步t開(kāi)始的累積獎(jiǎng)勵(lì)回報(bào)能夠設(shè)定為
(11)
通過(guò)將排序?qū)W習(xí)行為建模為馬爾可夫決策過(guò)程,同時(shí)在每一次迭代過(guò)程中采用全部排序位置信息作為各個(gè)排序位置選取最優(yōu)的文檔,即:
(12)
隨著計(jì)算機(jī)硬件技術(shù)的不斷創(chuàng)新與發(fā)展,傳統(tǒng)的數(shù)據(jù)加密技術(shù)難以抵擋更加惡劣的攻擊情況,一味地通過(guò)延長(zhǎng)密碼長(zhǎng)度的方法來(lái)對(duì)文件數(shù)據(jù)進(jìn)行加密,并不能滿足日益增長(zhǎng)的加密需求,反而能夠暴露出文件數(shù)據(jù)的重要性,導(dǎo)致文件數(shù)據(jù)更容易受到攻擊。因此,信息隱藏技術(shù)應(yīng)運(yùn)而生。
流式文檔數(shù)據(jù)無(wú)損隱藏是一種高效安全的隱藏算法,在不影響載體信息感知效果和使用價(jià)值的情況下,將需要加密的信息隱藏在文檔數(shù)據(jù)中?;谛畔㈦[藏的特殊性,也可將信息隱藏過(guò)程稱為嵌入隱藏,則需要隱藏的信息為隱蔽信息,文檔數(shù)據(jù)則為信息隱藏的載體,信息隱藏通用模型如圖1所示。
整個(gè)嵌入過(guò)程和提取過(guò)程能夠表示為以下的形式
(13)
式中,K代表隱藏密鑰;K′代表提取密鑰。由于算法不同,隱藏密鑰和提取密鑰兩者可以相同,也可以不同;假設(shè)信息在傳輸?shù)倪^(guò)程中沒(méi)有被破壞,則說(shuō)明提取到的隱藏信息等于嵌入的秘密信息。
圖1 信息隱藏通用模型
流式文檔數(shù)據(jù)無(wú)損隱藏主要具有以下幾方面的優(yōu)勢(shì):
1)隱蔽性:
當(dāng)信息嵌入載體之后并不會(huì)影響原始載體的使用,數(shù)據(jù)的質(zhì)量也不會(huì)下降,同時(shí)也不會(huì)產(chǎn)生明顯的嵌入痕跡。假設(shè)沒(méi)有軟件,很難發(fā)現(xiàn)信息的存在,使用者是無(wú)法感知的。
2)魯棒性:
需要采用專用軟件提取或者檢測(cè)載體中的標(biāo)記信息,進(jìn)而確定歸屬權(quán)。
3)安全性:
隱蔽載體和載體信息緊密結(jié)合且融為一體,加密數(shù)據(jù)和初始數(shù)據(jù)分布相同,對(duì)大量數(shù)據(jù)進(jìn)行分析也難以提取或者確定隱秘信息的存在。
由于網(wǎng)絡(luò)中共包含N個(gè)待定位節(jié)點(diǎn),根據(jù)3個(gè)已知節(jié)點(diǎn)計(jì)算當(dāng)前節(jié)點(diǎn)所在的位置。假設(shè)A、B、C均為已知位置節(jié)點(diǎn),其中定位誤差對(duì)應(yīng)的計(jì)算公式為
(14)
通過(guò)兩點(diǎn)之間的直線距離組建方程組,解方程組能夠獲取節(jié)點(diǎn)N的位置(Nx,Ny),即
(15)
在信息嵌入的過(guò)程中,引入誤差方程以完成信息嵌入,并將隱秘信息的值定義為誤差方程系數(shù)。操作過(guò)程如圖2所示。
圖2 根據(jù)定位誤差引入嵌入信息
完成信息嵌入后,根據(jù)操作者的需求進(jìn)行信息提取時(shí),需要采用三邊測(cè)量法計(jì)算嵌入節(jié)點(diǎn)的位置與測(cè)量誤差。
為了在信息隱藏技術(shù)下能夠完整地提取出加密數(shù)據(jù),需要采用數(shù)據(jù)過(guò)濾機(jī)制對(duì)數(shù)據(jù)來(lái)源進(jìn)行驗(yàn)證,對(duì)非法數(shù)據(jù)進(jìn)行濾除,具體操作流程如圖3所示。
圖3 CSFM認(rèn)證過(guò)程
在CSFM機(jī)制中,由于執(zhí)行的任務(wù)不同,節(jié)點(diǎn)劃分為三種不同的類型,具體如下:
1)采集節(jié)點(diǎn):
采集節(jié)點(diǎn)所采集到的數(shù)據(jù)用于形成原始數(shù)據(jù)集,并將需要隱藏的數(shù)據(jù)進(jìn)行標(biāo)記,形成隱藏?cái)?shù)據(jù)包。在進(jìn)行嵌入時(shí),統(tǒng)計(jì)數(shù)據(jù)包的數(shù)據(jù)與順序,以保證加密的質(zhì)量。
2)中繼節(jié)點(diǎn):
中繼節(jié)點(diǎn)需要進(jìn)行隱藏標(biāo)記的識(shí)別、驗(yàn)證與數(shù)據(jù)包的中繼傳輸工作。將收到前一跳節(jié)點(diǎn)發(fā)送的數(shù)據(jù)包時(shí),提取數(shù)據(jù)包的排序地址數(shù),并對(duì)數(shù)據(jù)包的來(lái)源進(jìn)行驗(yàn)證。
3)匯聚節(jié)點(diǎn):
匯聚節(jié)點(diǎn)將接收到的全部數(shù)據(jù)包進(jìn)行來(lái)源驗(yàn)證,以保證加密數(shù)據(jù)全部為可靠數(shù)據(jù)。
在上述分析的基礎(chǔ)上,采用基于曼徹斯特碼的信息隱藏算法MSHA,通過(guò)改變數(shù)據(jù)某些位置的跳變進(jìn)行信息嵌入,最終實(shí)現(xiàn)流式文檔數(shù)據(jù)無(wú)損隱藏
(16)
為了驗(yàn)證所提基于排序?qū)W習(xí)的流式文檔數(shù)據(jù)無(wú)損隱藏方法的有效性,在64位的Win10的系統(tǒng),i7-9700KF,CPU3.6GHz的計(jì)算機(jī)下進(jìn)行實(shí)驗(yàn)測(cè)試。
1)流式文檔數(shù)據(jù)正確接收率/(%):
流式文檔數(shù)據(jù)正確接收率即正確數(shù)據(jù)和接收到全部數(shù)據(jù)之比,具體的計(jì)算公式為:
(17)
其中,ARDR的值越高,說(shuō)明采用的方法具有較高的安全性,利用圖4給出三種不同方法的數(shù)據(jù)正確接收率對(duì)比結(jié)果:
圖4 正確接收率
分析圖4中的實(shí)驗(yàn)數(shù)據(jù)可知,所提方法的流式文檔數(shù)據(jù)正確接收率最高,說(shuō)明所提方法能夠更好隱藏流式文檔數(shù)據(jù)。
2)生命周期/(s):
生命周期越長(zhǎng),說(shuō)明衡量指標(biāo)更加有效。由于網(wǎng)絡(luò)的主要目標(biāo)就是進(jìn)行數(shù)據(jù)采集,假設(shè)采集到的有用數(shù)據(jù)較少,則說(shuō)明生命周期長(zhǎng)也沒(méi)有實(shí)際意義,以下實(shí)驗(yàn)對(duì)比三種不同方法在不同規(guī)模網(wǎng)絡(luò)中的生命周期,具體結(jié)果如表1所示。
表1 生命周期
分析表1中的實(shí)驗(yàn)數(shù)據(jù)可知,傳輸過(guò)程中對(duì)非法數(shù)據(jù)進(jìn)行過(guò)濾有效延長(zhǎng)了網(wǎng)絡(luò)生命周期。如果網(wǎng)絡(luò)不存在惡意節(jié)點(diǎn),進(jìn)行流式文檔數(shù)據(jù)無(wú)損隱藏會(huì)消費(fèi)較低的能量,同時(shí)延長(zhǎng)生命周期。相比另外兩種方法,所提方法的生命周期明顯高于另外兩種方法,且一直處于穩(wěn)定的狀態(tài)。
3)傳輸時(shí)延/(s):
傳輸時(shí)延越低,說(shuō)明網(wǎng)絡(luò)性能越好,同時(shí)安全機(jī)制對(duì)網(wǎng)絡(luò)的影響也就越好,具體的實(shí)驗(yàn)對(duì)比結(jié)果如表2所示。
表2 傳輸時(shí)延
分析表2中的實(shí)驗(yàn)數(shù)據(jù)可知,所提方法的傳輸時(shí)延在三種方法中為最低,主要是因?yàn)樗岱椒ㄅ判驅(qū)W習(xí)算法對(duì)流式文檔數(shù)據(jù)進(jìn)行排序,進(jìn)而達(dá)到降低傳輸時(shí)延的目的。
為了更進(jìn)一步驗(yàn)證所提方法的優(yōu)越性,以下對(duì)比數(shù)據(jù)嵌入前后的不同統(tǒng)計(jì)指標(biāo),具體結(jié)果如表3所示:
表3 數(shù)據(jù)嵌入前后統(tǒng)計(jì)對(duì)比
分析表3中的實(shí)驗(yàn)數(shù)據(jù)可知,數(shù)據(jù)嵌入后誤差在可接受范圍內(nèi)。由此可見(jiàn),由于數(shù)據(jù)嵌入標(biāo)記所引發(fā)的數(shù)值變化是可接受的。
隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展及在不同領(lǐng)域的廣泛應(yīng)用,各種安全問(wèn)題被越來(lái)越多的研究者所關(guān)注。為此,提出一種基于排序?qū)W習(xí)的流式文檔數(shù)據(jù)無(wú)損隱藏方法。仿真結(jié)果表明,所提方法能夠有效提升流式文檔數(shù)據(jù)正確接收率和生命周期,同時(shí)降低傳輸時(shí)延,有效預(yù)防各類型的攻擊。雖然所提方法現(xiàn)階段取得了一些較好的研究成果,但是仍然存在一定的弊端,后續(xù)將重點(diǎn)針對(duì)以下幾方面的問(wèn)題進(jìn)行研究:
1)進(jìn)一步提升感知精度,同時(shí)達(dá)到網(wǎng)絡(luò)全面覆蓋,使其能夠適應(yīng)各類型的網(wǎng)絡(luò)。
2)進(jìn)一步完善當(dāng)前已有的安全策略,確保流式文檔數(shù)據(jù)的安全性。