• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)縱向分布的隱私保護(hù)邏輯回歸

      2019-10-21 08:07:22馬春光段廣晗
      計算機(jī)研究與發(fā)展 2019年10期
      關(guān)鍵詞:同態(tài)密文加密

      宋 蕾 馬春光 段廣晗 袁 琪

      1(哈爾濱工程大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 哈爾濱 150001) 2(山東科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院 山東青島 266590) 3(齊齊哈爾大學(xué)通信與電子工程學(xué)院 黑龍江齊齊哈爾 161006)

      得益于計算資源的豐富及大數(shù)據(jù)積累,近年來機(jī)器學(xué)習(xí)在視覺、自然語言處理、醫(yī)療健康等領(lǐng)域取得突破性進(jìn)展.在機(jī)器學(xué)習(xí)技術(shù)飛速發(fā)展的同時,其安全與隱私問題也引起人們廣泛關(guān)注.傳統(tǒng)的機(jī)器學(xué)習(xí)訓(xùn)練方法是將訓(xùn)練數(shù)據(jù)收集起來進(jìn)行集中訓(xùn)練.然而,訓(xùn)練數(shù)據(jù)通常會涉及到人們的隱私,如醫(yī)療健康數(shù)據(jù)、興趣愛好、政治偏向等.將私有數(shù)據(jù)直接暴露給數(shù)據(jù)收集者進(jìn)行模型訓(xùn)練,這種傳統(tǒng)的模式已經(jīng)不能適用于當(dāng)下人們隱私保護(hù)意識增強(qiáng)的社會環(huán)境中.《中華人民共和國網(wǎng)絡(luò)安全法》和歐洲《通用數(shù)據(jù)保護(hù)條例》相繼頒布實(shí)施,預(yù)示對數(shù)據(jù)的安全使用和個人信息的隱私保護(hù)越發(fā)嚴(yán)格,給基于數(shù)據(jù)訓(xùn)練的機(jī)器學(xué)習(xí)方法帶來前所未有的挑戰(zhàn).

      為解決以上問題,本文提出隱私保護(hù)的邏輯回歸解決方案.邏輯回歸作為機(jī)器學(xué)習(xí)的典型算法,適用于分類問題.一個邏輯回歸的單元可以看作為一個神經(jīng)元,多個多層神經(jīng)元疊加就組成了神經(jīng)網(wǎng)絡(luò).解決邏輯回歸算法的隱私保護(hù)問題是實(shí)現(xiàn)隱私保護(hù)機(jī)器學(xué)習(xí)的重要一步.為打破數(shù)據(jù)壁壘,如何在數(shù)據(jù)縱向分布場景中,保護(hù)隱私的情況下進(jìn)行協(xié)作式、聯(lián)合訓(xùn)練,實(shí)現(xiàn)邏輯回歸算法是本文關(guān)注的重點(diǎn).數(shù)據(jù)縱向分布,即數(shù)據(jù)以特征維度切分存儲在兩方,在現(xiàn)實(shí)中較為常見.如公司A和公司B擁有相同的用戶,但業(yè)務(wù)不同.現(xiàn)A和B兩方聯(lián)合起來訓(xùn)練一個共同的模型,訓(xùn)練數(shù)據(jù)作為商業(yè)機(jī)密不能直接與對方分享.文獻(xiàn)[1]已經(jīng)實(shí)現(xiàn)數(shù)據(jù)縱向分布時的邏輯回歸算法,利用中心服務(wù)器協(xié)助兩方進(jìn)行訓(xùn)練,客戶端本地計算時使用乘法掩碼.而本文實(shí)現(xiàn)2個參與方直接進(jìn)行訓(xùn)練,并且只加密中間計算結(jié)果,利用加法掩碼防止梯度信息泄露.相比之下,本文計算和通信開銷更小.

      本文的主要貢獻(xiàn)有3個方面:

      1) 在數(shù)據(jù)縱向分布的情況下,提出兩方協(xié)作式的邏輯回歸方案.2個參與方在各自數(shù)據(jù)集上進(jìn)行訓(xùn)練,通過交換中間參數(shù),學(xué)習(xí)得到一個共同的虛擬模型.

      2) 利用Paillier同態(tài)加密保證計算安全,保護(hù)用戶隱私.通過改變邏輯回歸的目標(biāo)函數(shù),使其適用于加法同態(tài)加密方案來實(shí)現(xiàn)兩方密文計算,保證交互及運(yùn)算過程中安全性,不泄露用戶隱私信息.

      3) 本文給出隱私保護(hù)的預(yù)測方案,實(shí)現(xiàn)用戶秘密預(yù)測.用戶不暴露自身數(shù)據(jù),而服務(wù)器也不能知曉用戶的預(yù)測結(jié)果.

      1 相關(guān)工作

      2015年Shokri和Shmatikov[2]提出協(xié)作式隱私保護(hù)深度學(xué)習(xí)模型,每輪訓(xùn)練各方參與者從中心服務(wù)器下載最新模型參數(shù),利用私有數(shù)據(jù)在本地訓(xùn)練模型,再上傳更新服務(wù)模型.無需集中存儲訓(xùn)練數(shù)據(jù),從而保護(hù)用戶敏感的訓(xùn)練數(shù)據(jù);2018年P(guān)hong等人[3]利用加法同態(tài)加密算法加密模型參數(shù),防止泄露梯度信息給誠實(shí)且好奇的中心服務(wù)器;2016年由Google[4]提出聯(lián)邦學(xué)習(xí)用于預(yù)測Android手機(jī)鍵盤下一個輸入詞;類似于文獻(xiàn)[2]用戶在手機(jī)上訓(xùn)練模型再將參數(shù)上傳到服務(wù)端,不同的是,為保證模型參數(shù)的安全聚合,使用秘密共享及安全多方計算協(xié)議保障用戶隱私信息[5-6];2019年Yang等人[7]給出聯(lián)邦學(xué)習(xí)正式定義,指數(shù)據(jù)擁有方在不暴露自身數(shù)據(jù)的前提下進(jìn)行模型訓(xùn)練得到虛擬共有模型的過程,其模型與將各方數(shù)據(jù)聚集在一起訓(xùn)練所得到的模型差距足夠小.同時根據(jù)數(shù)據(jù)分布,將聯(lián)邦學(xué)習(xí)分為橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí);Hardy等人[1]實(shí)現(xiàn)縱向聯(lián)邦學(xué)習(xí)邏輯回歸算法,利用加法同態(tài)加密算法保障計算安全;SecureML[8]利用秘密共享、姚式電路,實(shí)現(xiàn)了一種有效保護(hù)隱私的,用于線性回歸、邏輯回歸和神經(jīng)網(wǎng)絡(luò)訓(xùn)練兩方安全計算協(xié)議;Mohassel等人[9]將該方案擴(kuò)展到三方安全計算;Ma等人[10]對文獻(xiàn)[8]進(jìn)行改進(jìn),實(shí)現(xiàn)非交互式隱私保護(hù)神經(jīng)網(wǎng)絡(luò)預(yù)測;DeepSecure[11]利用姚式電路實(shí)現(xiàn)兩方安全計算,完成深度學(xué)習(xí)模型的安全預(yù)測.

      不同于以上工作,本文關(guān)注于數(shù)據(jù)縱向分布的情況下,提出隱私保護(hù)的邏輯回歸訓(xùn)練方法和預(yù)測方法.

      2 基本定義及預(yù)備知識

      本節(jié)主要介紹本文要解決的問題及其安全性定義.在2.3節(jié)介紹同態(tài)加密算法.

      2.1 問題定義

      2.2 安全性定義

      假設(shè)A和B是非共謀、半誠實(shí)的參與者.A和B在協(xié)作期間遵守模型訓(xùn)練協(xié)議,但互相對對方的私有數(shù)據(jù)及模型參數(shù)是好奇的,在協(xié)作期間不斷推理,想要獲取關(guān)于對方額外的信息.如果在訓(xùn)練過程中,A和B不能獲得對方額外的敏感信息,如訓(xùn)練數(shù)據(jù)及模型參數(shù),則稱訓(xùn)練過程是安全的.如果在預(yù)測階段,模型部署在A和B上,詢問者在預(yù)測過程中,A和B不能獲得詢問者的私有數(shù)據(jù),則稱預(yù)測過程是安全的.

      2.3 同態(tài)加密

      同態(tài)加密(HE)[12]可以實(shí)現(xiàn)在不知道密鑰的情況下對加密數(shù)據(jù)進(jìn)行安全計算,其運(yùn)算結(jié)果解密后與直接在明文上計算結(jié)果相同.一個同態(tài)加密方案主要包含:秘鑰生成、加密算法、解密算法.全同態(tài)加密(FHE)可以執(zhí)行加法和乘法運(yùn)算.但是全同態(tài)加密方案計算開銷大,本文兩方計算只涉及到加法操作,因此本文選用快速的加法同態(tài)加密方案Paillier,Paillier[13]加密方案工作原理為:

      3 隱私保護(hù)邏輯回歸

      在本節(jié)中,我們主要介紹隱私保護(hù)邏輯回歸算法,其具體包括密文梯度計算過程、隱私保護(hù)下的訓(xùn)練過程及隱私保護(hù)下的預(yù)測過程.

      3.1 密文梯度計算過程

      (1)

      通過最小化目標(biāo)函數(shù)即可得到模型參數(shù)θ.

      (2)

      則模型A和B參數(shù)更新為

      (3)

      (4)

      則式(2)轉(zhuǎn)換為

      (5)

      因?yàn)閘n 2為常數(shù),在最小化L的過程中并不影響結(jié)果,因此以下公式中將省略ln 2.設(shè)[·]為A和B使用同態(tài)加密后的結(jié)果.則加密后的目標(biāo)函數(shù)為

      (6)

      (7)

      (8)

      3.2 隱私保護(hù)下的訓(xùn)練過程

      隱私保護(hù)的邏輯回歸具體訓(xùn)練過程為:

      Step1.A和B分別產(chǎn)生一對公私鑰,將公鑰發(fā)給對方.

      重復(fù)Step1~Step7,直到模型收斂.

      3.3 隱私保護(hù)下的預(yù)測過程

      當(dāng)A,B一方作為詢問者使用模型進(jìn)行預(yù)測時,設(shè)詢問者為K∈{A,B},當(dāng)K=A時,令K′=B,反之亦然.

      ①K將預(yù)測數(shù)據(jù)分為xK和xK′兩部分,用K的公鑰加密后[xK′]K,發(fā)送給K′.

      ②K計算uK=θKxK.

      ③K′計算[uK′]K=θK′[xK′]K,將[uK′]K發(fā)送給K.

      ④K用私鑰解密得到uK′,相加得到u=uK+uK′.

      當(dāng)詢問者為第三方C時,模型部署在A和B中,預(yù)測過程和上述類似.

      ①C將預(yù)測數(shù)據(jù)分為xA和xB兩部分,用C的公鑰加密xA和xB,得到[xA]C和[xB]C,分別發(fā)送給A和B進(jìn)行計算.

      ②A和B分別計算得到[uA]C=θA[xA]C和[uB]C=θB[xB]C,并發(fā)送給C.

      4 隱私保護(hù)邏輯回歸算法分析

      4.1 安全性分析

      回顧A和B的協(xié)作訓(xùn)練過程,得到模型后C進(jìn)行預(yù)測的過程.在此過程中各方參與者獲得的中間計算結(jié)果如表1所示:

      在預(yù)測階段,A和B獲得的均是關(guān)于C的預(yù)測數(shù)據(jù)的密文[xA]C,[xB]C,并且均在密文下進(jìn)行運(yùn)算獲得[uA]C,[uB]C.因此A和B無法獲得關(guān)于C的私有數(shù)據(jù)的任何信息,預(yù)測過程是安全的.

      在傳輸過程中,A和B傳輸?shù)氖侵虚g計算結(jié)果的密文,敵手即使截獲信道消息也無法解密.A和B之間傳輸?shù)拿魑氖羌由涎诖a的模型參數(shù)梯度,由于敵手不知道掩碼,故無法獲得關(guān)于梯度的信息.因此敵手為第三方時,也無法通過信道獲取任何敏感信息.

      4.2 算法性能分析

      與非隱私保護(hù)的邏輯回歸算法相比,本文算法產(chǎn)生的額外開銷主要包括時間開銷與通信開銷.時間開銷主要來自于密文計算,本文使用Paillier加法同態(tài)加密算法,秘鑰長度為1 024 b.在CPU為Intel Core i5-6500,3.20 GHz的計算機(jī)上進(jìn)行加密計算,執(zhí)行時間為:

      加密時間T_E.執(zhí)行100次耗時1.598 s.

      解密時間T_D.執(zhí)行100次耗時0.507 s.

      加法時間T_A.執(zhí)行2 000次2個密文相加運(yùn)算耗時0.086 s.

      乘法時間T_M.執(zhí)行明文與密文之間的乘法時間與明文大小成正比.在本文算法訓(xùn)練過程中,只需執(zhí)行12,14,18乘以密文,執(zhí)行2 000次耗時平均為1.364 s.

      分析忽略通信過程中的傳送時間,訓(xùn)練過程中選取batch_size大小為n,在一個迭代周期內(nèi),加密時間復(fù)雜度為O(n×T_E),解密時間復(fù)雜度為O(n×T_D).計算[L]時間復(fù)雜度為O(n×T_M),計算A方梯度的時間復(fù)雜度為O(n×dA×T_M),計算B方梯度的時間復(fù)雜度為O(n×dB×T_M),其中dA,dB分別為A和B數(shù)據(jù)的特征維數(shù).

      在訓(xùn)練過程中,A和B之間的通信開銷為Cost=2(3×n×ct+ct),其中ct為一條密文大小.空間復(fù)雜度為O(n×ct).在batch_size=64,ct=256 b,一個迭代過程中通信開銷約為12 KB.

      5 實(shí)驗(yàn)與結(jié)果

      在本節(jié)中,我們搭建了本文提出的基于數(shù)據(jù)縱向分布的隱私保護(hù)邏輯回歸模型,并且在7組數(shù)據(jù)集上測試了本文方案.

      5.1 數(shù)據(jù)集描述

      本文在4組隨機(jī)生成的2分類數(shù)據(jù)集與3組現(xiàn)有的分類數(shù)據(jù)集上對所提出的模型進(jìn)行測試,下面從數(shù)據(jù)維度、數(shù)據(jù)大小等方面對數(shù)據(jù)集進(jìn)行介紹.

      MC-1數(shù)據(jù)集與MC-2數(shù)據(jù)集是使用Python的機(jī)器學(xué)習(xí)模塊scikit-learn提供的make_classifi-cation函數(shù)構(gòu)建的用于訓(xùn)練分類模型的數(shù)據(jù)集,其中MC-1數(shù)據(jù)集包含2 000條特征維度為6的數(shù)據(jù),這些數(shù)據(jù)屬于2個分類.MC-2是包含2 000條特征維度為10的2分類數(shù)據(jù).MB-1數(shù)據(jù)集與MB-2數(shù)據(jù)集是使用scikit-learn提供的make_blobs函數(shù)生成的用于聚類的數(shù)據(jù)集,其中MB-1數(shù)據(jù)集包含1 000條特征維度為6、方差為5的具有2個聚類中心點(diǎn)的數(shù)據(jù),MB-2數(shù)據(jù)集包含1 000條特征維度為10、方差為6的具有2個聚類中心點(diǎn)的數(shù)據(jù).

      digits是手寫數(shù)字?jǐn)?shù)據(jù)集,該數(shù)據(jù)集包含了1 797個共計10個分類的手寫數(shù)字?jǐn)?shù)據(jù),其原始數(shù)據(jù)尺寸為8×8像素,其中每個像素點(diǎn)用整數(shù)0~16來表示其灰階.為驗(yàn)證本文提出的基于數(shù)據(jù)縱向分布的隱私保護(hù)邏輯回歸模型,我們將數(shù)字0~4設(shè)定為分類1,將數(shù)字5~9設(shè)定為分類2,將多分類問題簡化為2分類問題.同時我們從digits數(shù)據(jù)集中抽取出數(shù)字7與9組成一個2分類數(shù)據(jù)集(digits-79),用以驗(yàn)證樣本量較小時本文提出的模型性能.breastcancer是一個包含2分類數(shù)據(jù)的乳腺癌數(shù)據(jù)集,其中包含了569組特征維度為30樣本.

      對上述的全部數(shù)據(jù)集,我們將其特征均等縱分為2部分分別交給A,B雙方,我們隨機(jī)抽取其中的70%樣本用于訓(xùn)練模型,剩余的30%樣本用于測試模型性能.

      5.2 實(shí)驗(yàn)和結(jié)果分析

      在本節(jié)中,進(jìn)行7組實(shí)驗(yàn)來驗(yàn)證本文提出模型的有效性.在所有的實(shí)驗(yàn)中,我們采用學(xué)習(xí)率為0.01的隨機(jī)梯度下降法對模型進(jìn)行訓(xùn)練,同時對于所有輸入的數(shù)據(jù),對其進(jìn)行歸一化處理以易于模型收斂到最優(yōu)解.

      使用泰勒展開式模擬原有的目標(biāo)函數(shù),會對訓(xùn)練過程收斂速度及精度產(chǎn)生一定影響.本文通過實(shí)驗(yàn)從3方面對具體差異進(jìn)行評估,首先對比原目標(biāo)函數(shù)和用泰勒公式近似的目標(biāo)函數(shù)2個模型在訓(xùn)練過程中的Loss變化曲線,如圖1所示.采用泰勒公式近似的目標(biāo)函數(shù)的邏輯回歸模型,其Loss的收斂速度與采用原目標(biāo)函數(shù)的邏輯回歸模型差別不大.其次,對原目標(biāo)函數(shù)和用泰勒公式近似的目標(biāo)函數(shù)2個模型的訓(xùn)練精度進(jìn)行了實(shí)驗(yàn),如圖2所示.在經(jīng)過200次迭代后,采用泰勒公式近似的目標(biāo)函數(shù)模型的預(yù)測精度趨近于穩(wěn)定,此時其預(yù)測精度高于采用原目標(biāo)函數(shù)的邏輯回歸模型;在400次迭代后,采用原目標(biāo)函數(shù)的邏輯回歸模型預(yù)測精度與采用泰勒公式近似的目標(biāo)函數(shù)模型幾乎相同,隨著訓(xùn)練的繼續(xù)進(jìn)行;在800次迭代后,采用原目標(biāo)函數(shù)的邏輯回歸模型預(yù)測精度達(dá)到穩(wěn)定狀態(tài),原模型的最終預(yù)測精度略高于采用泰勒公式近似的目標(biāo)函數(shù)模型.

      Fig. 1 Comparison of Loss during training process圖1 訓(xùn)練過程Loss變化曲線對比圖

      Fig. 2 Comparison of performance between two models圖2 2種模型測試精度對比圖

      本文在7組數(shù)據(jù)集上對2種模型進(jìn)行分類實(shí)驗(yàn),表2給出了2種模型的分類精度與AUC(area under curve).其中,AUC是ROC曲線下與橫坐標(biāo)軸圍成的面積,其值通常在0.5~1之間,AUC的值越大,說明分類器的分類效果越好.從表2可以看出,采用原目標(biāo)函數(shù)的邏輯回歸模型與采用泰勒公式近似目標(biāo)函數(shù)的邏輯回歸模型在7組數(shù)據(jù)集上的預(yù)測精度與AUC差別不大,這說明本文提出的基于數(shù)據(jù)縱向分布的隱私保護(hù)邏輯回歸在預(yù)測精度和模型性能沒有明顯損失的前提下,保護(hù)了訓(xùn)練數(shù)據(jù)的隱私.

      Table 2 Results on Two Models
      表2 在2種模型上的分類精度實(shí)驗(yàn)結(jié)果

      DatasetSample SizeFeature DimentionLogisticTaylorAccuracy∕%AUCAccuracy∕%AUCMC-12000698.330.992797.670.9934MC-220001098.000.990697.330.9904MB-11000694.670.991593.670.9908MB-210001098.000.997198.670.9978breastcancer5693081.290.964181.870.9641digits17976489.440.954289.630.9566digits-793596497.220.997997.220.9979

      6 總 結(jié)

      本文提出了在數(shù)據(jù)縱向分布下的隱私保護(hù)邏輯回歸解決方案,不僅實(shí)現(xiàn)隱私保護(hù)的訓(xùn)練過程,同時給出隱私保護(hù)的預(yù)測過程.保證在訓(xùn)練過程中,協(xié)作的雙方不能獲得對方的訓(xùn)練數(shù)據(jù)及其模型參數(shù)信息.在預(yù)測過程中,保護(hù)訪問者的私有數(shù)據(jù)不泄露給部署模型的服務(wù)器.根據(jù)分析及實(shí)驗(yàn)得出,本文方案可以在可容忍的精度損失下提供隱私保護(hù)需求.訓(xùn)練數(shù)據(jù)縱向分布,雙方協(xié)作共同訓(xùn)練模型在現(xiàn)實(shí)中具有廣泛的應(yīng)用價值.未來將會把本文中隱私保護(hù)邏輯回歸擴(kuò)展到深度學(xué)習(xí)中,并且尋求高效的加密算法降低計算開銷.

      猜你喜歡
      同態(tài)密文加密
      一種針對格基后量子密碼的能量側(cè)信道分析框架
      一種支持動態(tài)更新的可排名密文搜索方案
      基于模糊數(shù)學(xué)的通信網(wǎng)絡(luò)密文信息差錯恢復(fù)
      關(guān)于半模同態(tài)的分解*
      拉回和推出的若干注記
      一種基于熵的混沌加密小波變換水印算法
      一種基于LWE的同態(tài)加密方案
      HES:一種更小公鑰的同態(tài)加密算法
      認(rèn)證加密的研究進(jìn)展
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      沅江市| 改则县| 温泉县| 元江| 永福县| 红桥区| 五寨县| 南靖县| 洱源县| 顺昌县| 秀山| 玉溪市| 广水市| 辽宁省| 淄博市| 吉木萨尔县| 金寨县| 南岸区| 普安县| 乐都县| 盐城市| 八宿县| 揭阳市| 通州区| 革吉县| 手游| 廉江市| 惠安县| 汉源县| 武胜县| 盐源县| 会理县| 屏边| 黎城县| 濉溪县| 阳谷县| 安国市| 房山区| 库尔勒市| 四会市| 永宁县|