張 丹,劉 歡
(1.中國南方電網(wǎng)有限責(zé)任公司,廣東 廣州 510000;2.南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司,廣東 廣州 510000)
電子檔案在數(shù)據(jù)傳遞的過程易出現(xiàn)泄露、被竊取等問題,數(shù)據(jù)的隱私安全亟待解決[1]。但是,電子檔案資源屬于海量數(shù)據(jù)信息,其分類處理難度較大,電子檔案數(shù)據(jù)的共享安全問題也成為了當(dāng)下的難點(diǎn)。本文就電子檔案資源的數(shù)字化共享進(jìn)行了相應(yīng)的探究,設(shè)計(jì)提高數(shù)據(jù)傳輸過程中的隱私防護(hù)能力。
文獻(xiàn)[2]基于Spark MLlib中決策樹算法設(shè)計(jì)了電子檔案數(shù)據(jù)隱私的保護(hù),通過云計(jì)算提升了數(shù)據(jù)挖掘的性能,并對(duì)適用于傳輸方與接收方的設(shè)備進(jìn)行了切分與標(biāo)注,使同態(tài)加密算法與電子檔案相結(jié)合。然而這種數(shù)據(jù)共享方法由于過度降低數(shù)據(jù)的噪聲,會(huì)給數(shù)據(jù)的可用性帶來不可預(yù)估的影響。文獻(xiàn)[3]通過一種基于標(biāo)簽相關(guān)度的Relief 特征選擇算法進(jìn)行了一個(gè)邊緣智能計(jì)算的共享優(yōu)化,分析無線網(wǎng)絡(luò)中的電子資源共享壁壘,實(shí)現(xiàn)了網(wǎng)絡(luò)資源的集中分配,提高了傳輸與共享的效率與安全性。但是這種方法依賴于服務(wù)器的性能,在應(yīng)用性較差的服務(wù)器中無法得到更好的效果。文獻(xiàn)[4]基于區(qū)塊鏈技術(shù)設(shè)計(jì)了接收方與傳輸方的權(quán)限,并利用協(xié)議使得這種共享渠道能夠被控制。這種方法雖然提高了電子檔案的安全,保護(hù)了數(shù)據(jù)的隱私,但是卻需要在系統(tǒng)建立過程中增添不必要的消費(fèi),不適合大多數(shù)的電子檔案保存機(jī)構(gòu)。為了得到廉價(jià)、高性能、效率更高的電子檔案資源數(shù)字化共享方法,本文基于決策樹特征選擇對(duì)以上文獻(xiàn)中的算法進(jìn)行了優(yōu)化,提出了以下方法。
為保證電子檔案在共享過程中的安全與隱私,需要在傳輸之前將其加密,建立公共信息的安全密鑰。首先設(shè)定一個(gè)安全的信息參數(shù)ha,將該參數(shù)與大素?cái)?shù)ka相結(jié)合,并共同建立二者共同的屬性集合[5]。
式(1)中,Ut表示安全參數(shù)與大素?cái)?shù)相結(jié)合后產(chǎn)生的屬性集合循環(huán)映射總結(jié)構(gòu);xta1表示被選中屬性單元的前一個(gè)單元;xta2表示屬性集合中被選中的屬性單元;xta3表示被選中屬性單元的后一個(gè)單元[6]。此時(shí)就形成了集合中的屬性群組,此時(shí)的全局安全公鑰也應(yīng)被設(shè)定在屬性群組中,以便數(shù)據(jù)中轉(zhuǎn)的云中心對(duì)任意一個(gè)公鑰進(jìn)行加密[7]。此時(shí)安全公鑰的輸出結(jié)構(gòu)為:
式(2)中,Gxag可以表示任意一個(gè)安全公鑰中的屬性單元;G1ag表示安全公鑰中的第一個(gè)屬性單元,同理Gnag表示安全公鑰中的最后一個(gè)屬性單元。每一個(gè)安全公鑰可以生成自身的安全私鑰,由算法進(jìn)行用戶身份的判定,并提供一個(gè)隨機(jī)數(shù),作為私鑰的生成屬性,其結(jié)構(gòu)為:
式(3)中,Gxag表示安全公鑰中的任意一個(gè)輸出單元;δi表示在進(jìn)行身份判定時(shí)需要由用戶提供驗(yàn)證碼的隨機(jī)數(shù);表示得到的私鑰結(jié)構(gòu)[8]。得到的私鑰可以當(dāng)作一種被隱秘執(zhí)行數(shù)據(jù)傳輸行為的密文,在公鑰Gxag的訪問中以明文生成隨機(jī)向量,并在轉(zhuǎn)換成密文后計(jì)算線性密文的結(jié)構(gòu):
為了保證電子檔案信息的安全,使用上文中的方法將所有信息全部轉(zhuǎn)換成密文形式,此時(shí)想要及時(shí)準(zhǔn)確地將需要的數(shù)據(jù)傳輸給接收方,就需要構(gòu)建一個(gè)電子檔案的分類標(biāo)準(zhǔn),對(duì)其進(jìn)行區(qū)域劃分。首先構(gòu)建一個(gè)以電子檔案為中心的決策樹,這個(gè)決策樹需要將所有被收集的樣本完全舉例,然后計(jì)算其中重疊的部分,并通過數(shù)學(xué)方法判斷決策分類的誤差。假設(shè)樣本集合的個(gè)數(shù)為xi,訓(xùn)練樣本為xi={x1,x2,…,xn},其中xi表示n個(gè)訓(xùn)練樣本中的任意一個(gè)數(shù)值[10]。在樣本中有特征值為ζi,每一個(gè)樣本都有一個(gè)特征值,則特征值的集合可以表示為ζi={ζ1,ζ2,…,ζn},ζi表示特征值中的任意一個(gè)樣本特征。在檔案資源的特征分類中,通常有三種類別,可以通過決策樹建立如圖1所示的分類依據(jù)。
在每一個(gè)信息增益的節(jié)點(diǎn),都會(huì)有一個(gè)特征對(duì)其進(jìn)行總結(jié),此時(shí)的電子檔案樣本分類期望為:
式(5)中,Esn表示電子檔案資源數(shù)字化的決策樹自動(dòng)分類期望;Pi表示任意樣本被分類為類別i 的概率[11-12]。當(dāng)子集的離散值為Sx時(shí),其在值域Y中劃分的熵值可以表示為:
式(6)中,Exf表示當(dāng)子集的離散值為Sx時(shí),值域Y劃分的熵值;x1f表示第一個(gè)子集樣本的離散分值,同理xnf表示第n個(gè)子集樣本的離散分值;xn表示子集樣本的個(gè)數(shù)。此時(shí)的特征分類中,電子檔案信息A的信息增益可以表示為:
式(7)中,TA表示電子檔案A 的劃分類別,Esn表示決策樹分類的第一個(gè)屬性編碼;Exf表示決策樹分類的第二個(gè)屬性編碼[13-14]。綜合以上兩個(gè)屬性編碼,就能夠得到該電子檔案在決策樹中的具體分類位置。
在得到了上文設(shè)計(jì)的電子檔案決策樹分類編碼之后,就可以將中央處理器云端中的數(shù)據(jù)傳遞到接收設(shè)備中,此時(shí)需要進(jìn)行公共密鑰的解碼工作。想要解碼,就要根據(jù)上文中公共密鑰的加密操作計(jì)算相應(yīng)的解碼參數(shù)。假設(shè)發(fā)送方受到的隨機(jī)數(shù)為xi,其發(fā)送方的身份ID為Ix,接收方的身份ID為Iy,則可以得到解碼工作的收獲因子為:
式(10)中,Txu表示接收方Iy在解密私鑰構(gòu)件時(shí)得到的明文數(shù)據(jù);b2xj表示該私鑰構(gòu)件在決策樹分類編碼中的具體位置;U-μ表示權(quán)值屬性。如果Txu能夠被成功解譯,則表明以上步驟共享成功;若Txu不能被成功解譯,則表明共享失敗。
在得到上文中設(shè)計(jì)的電子檔案數(shù)字化共享方法之后,還需要進(jìn)行測(cè)試與檢驗(yàn),以便觀察該共享方法的性能。在此過程中,將該共享方法與常規(guī)的三種方法相對(duì)比。將計(jì)算機(jī)設(shè)備分為用戶終端與數(shù)據(jù)云端,其中用戶終端用于接收電子檔案共享信息,數(shù)據(jù)云端用于提供共享資源[17]。由一臺(tái)服務(wù)器作為電子檔案資源的發(fā)送方,經(jīng)過數(shù)據(jù)加密后,轉(zhuǎn)移至中央處理器的云平臺(tái),該平臺(tái)是所有電子檔案的共享中心。電子檔案的接收方通過這個(gè)共享中心接收數(shù)據(jù),經(jīng)過數(shù)據(jù)解密處理后,收到相關(guān)檔案信息。如果電子檔案沒有通過中央處理器接收數(shù)據(jù),而是直接由數(shù)據(jù)發(fā)送方轉(zhuǎn)移至數(shù)據(jù)接收方,就很容易被另外的惡意對(duì)象入侵,并竊取數(shù)據(jù)信息。本次實(shí)驗(yàn)主要對(duì)四種數(shù)據(jù)共享方法的隱私保護(hù)能力進(jìn)行測(cè)試,通過檔案信息轉(zhuǎn)移的敏感度計(jì)算算法的效能。
式(11)中,ηb表示算法對(duì)數(shù)據(jù)共享的保護(hù)能力量化結(jié)果,通常以百分?jǐn)?shù)的形式表示;Bn表示檔案信息的敏感類別閾值;ai表示第i個(gè)經(jīng)過轉(zhuǎn)移的電子檔案的頻數(shù)效率;bi表示完成電子檔案轉(zhuǎn)移的第i 個(gè)頻數(shù)估計(jì)效率。在這個(gè)百分比的計(jì)算中,ηb的值越大,其結(jié)果越差,ηb的值越小,則表明分布估計(jì)越貼近理想數(shù)據(jù),其結(jié)果越好。本文綜合以上計(jì)算,對(duì)四種數(shù)據(jù)共享方法進(jìn)行測(cè)試。
為了檢測(cè)不同數(shù)據(jù)量電子檔案的數(shù)據(jù)轉(zhuǎn)移敏感度,構(gòu)建三個(gè)數(shù)據(jù)庫,其中數(shù)據(jù)庫A的電子檔案數(shù)據(jù)量為10MB,數(shù)據(jù)庫B 的電子檔案數(shù)據(jù)量為100MB,數(shù)據(jù)庫C 的電子檔案數(shù)據(jù)量為1 000MB。下文的實(shí)驗(yàn)測(cè)試結(jié)果,主要是對(duì)數(shù)據(jù)共享過程中四種方法保護(hù)檔案內(nèi)容能力的概述,將文中設(shè)計(jì)的方法作為實(shí)驗(yàn)組,將常規(guī)的三種檔案共享方法作為對(duì)照組分別為文獻(xiàn)[2]提出的基于Spark MLlib的電子檔案資源共享方法、文獻(xiàn)[3]提出的基于標(biāo)簽相關(guān)度的電子檔案資源共享方法以及文獻(xiàn)[4]提出的基于區(qū)塊鏈技術(shù)的電子檔案資源共享方法,得到實(shí)驗(yàn)結(jié)果如圖2所示。
在圖2中,被圓形覆蓋的曲線表示電子檔案數(shù)據(jù)量為10MB時(shí)的數(shù)據(jù)轉(zhuǎn)移敏感度,被叉號(hào)覆蓋的曲線表示電子檔案數(shù)據(jù)量為100MB 時(shí)的數(shù)據(jù)轉(zhuǎn)移敏感度,被三角形覆蓋的曲線表示電子檔案數(shù)據(jù)量為1 000MB時(shí)的數(shù)據(jù)轉(zhuǎn)移敏感度。根據(jù)四幅圖像可知,隨著檔案傳輸總量的增加,各曲線都在呈不同程度的上升趨勢(shì),且數(shù)據(jù)量越大,數(shù)據(jù)轉(zhuǎn)移敏感度越高。其中實(shí)驗(yàn)組在整個(gè)檔案傳輸總量由0~100%的過程中,數(shù)據(jù)轉(zhuǎn)移敏感度最低。為了得到更準(zhǔn)確的數(shù)據(jù),重復(fù)進(jìn)行上述實(shí)驗(yàn)操作,反復(fù)10次,得到如表1所示的實(shí)驗(yàn)結(jié)果,再通過計(jì)算平均值的方式使實(shí)驗(yàn)結(jié)果排除偶然數(shù)據(jù)的干擾。
表1 數(shù)據(jù)結(jié)果
如表1所示,實(shí)驗(yàn)組在共享10MB、100MB、1 000MB數(shù)據(jù)檔案的過程中,其數(shù)據(jù)轉(zhuǎn)移敏感度平均值分別為16.55、20.45、28.45。對(duì)照組1在共享三類不同數(shù)據(jù)量的電子檔案過程中,其數(shù)據(jù)轉(zhuǎn)移敏感度平均值分別為21.45、25.6、38.9。對(duì)照組2在共享三類不同數(shù)據(jù)量的電子檔案過程中,其數(shù)據(jù)轉(zhuǎn)移敏感度平均值分別為21.1、34.15、42。對(duì)照組3在共享三類不同數(shù)據(jù)量的電子檔案過程中,其數(shù)據(jù)轉(zhuǎn)移敏感度平均值分別為19.3、29.85、45.45。在四種算法中,只有實(shí)驗(yàn)組的數(shù)據(jù)轉(zhuǎn)移敏感度最低,因此可知:實(shí)驗(yàn)組中基于決策樹自動(dòng)特征選擇的電子檔案資源數(shù)字化共享方法擁有更好的數(shù)據(jù)隱私保護(hù)能力,在數(shù)據(jù)轉(zhuǎn)移過程中,不易被竊取檔案信息。而對(duì)照組的三種方法在此方面的性能均低于本文中設(shè)計(jì)的共享方法。
為使得電子檔案的資源能夠在被嚴(yán)格保密的同時(shí)加強(qiáng)流通性,需要設(shè)計(jì)更具應(yīng)用價(jià)值的數(shù)據(jù)共享方法,使數(shù)據(jù)在被第三方云平臺(tái)傳遞時(shí)能夠不被惡意程序盜用。本文圍繞決策樹特征選擇進(jìn)行了密鑰的分類標(biāo)準(zhǔn),并將其應(yīng)用在檔案的傳輸中,加強(qiáng)了電子檔案的保密效果,提高了數(shù)據(jù)共享的安全性。
自動(dòng)化技術(shù)與應(yīng)用2022年10期