• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于聯(lián)邦學習的安全與隱私保護技術(shù)研究

      2022-02-22 01:07:20吳彥霖邱碩柳亞男張正
      電腦知識與技術(shù) 2022年36期
      關(guān)鍵詞:安全威脅數(shù)據(jù)加密隱私保護

      吳彥霖 邱碩 柳亞男 張正

      關(guān)鍵詞:聯(lián)邦學習;隱私保護;安全威脅;差分隱私;數(shù)據(jù)加密

      中圖分類號:TP311 文獻標識碼:A

      文章編號:1009-3044(2022)36-0071-04

      1 引言

      大數(shù)據(jù)時代的快速發(fā)展,機器學習創(chuàng)造了巨大的數(shù)據(jù)商業(yè)價值,如擊敗人類圍棋高手的AlphaGo。數(shù)據(jù)的分布式存儲從一定程度上降低了數(shù)據(jù)的使用率。通過有效的數(shù)據(jù)共享,可大幅度提升機器學習訓練的模型質(zhì)量。但在很多領(lǐng)域,由于市場競爭和安全問題的限制,數(shù)據(jù)孤島現(xiàn)象仍廣泛存在。傳統(tǒng)的機器學習,在計算能力,花費時間等方面上都存在著諸多問題,同時數(shù)據(jù)安全和隱私問題也面臨著巨大的挑戰(zhàn)。如何共享并挖掘數(shù)據(jù)的價值,如何有效地保障用戶隱私,成為數(shù)據(jù)共享中亟待解決的關(guān)鍵技術(shù)問題。2016 年,Google 提出了聯(lián)邦學習技術(shù)模型。用戶在本地訓練模型,將訓練好的模型參數(shù)上傳來取代原有的上傳數(shù)據(jù)的方式,從而更好地保障數(shù)據(jù)的隱私問題。

      聯(lián)邦學習技術(shù)被廣泛應用于移動設(shè)備、工業(yè)生產(chǎn)以及醫(yī)療等領(lǐng)域,具有較大的運用價值[1]。同時,該技術(shù)能夠與區(qū)塊鏈技術(shù)巧妙結(jié)合,有效互補。如王等人[2]中描述的反恐情報體系,利用“區(qū)塊鏈+ 聯(lián)邦學習”模型,實現(xiàn)區(qū)塊鏈情報共享架構(gòu)和聯(lián)邦學習情報協(xié)同架構(gòu),其中區(qū)塊鏈實現(xiàn)開源數(shù)據(jù)的共享,可信傳輸,聯(lián)邦學習實現(xiàn)隱私數(shù)據(jù)增值賦能,協(xié)同計算。聯(lián)邦學習技術(shù)在廣泛應用的過程中同時面臨著安全與隱私、通信帶寬、系統(tǒng)效率、數(shù)據(jù)快速膨脹等諸多問題的阻礙。尤其是敏感數(shù)據(jù)的安全和隱私保護問題,是阻礙聯(lián)邦學習技術(shù)發(fā)展的一大難題。

      為更好地研究與挖掘聯(lián)邦學習技術(shù)中面臨的問題,本文將基于現(xiàn)有研究成果,對聯(lián)邦學習技術(shù)的基本概念、安全威脅以及相應技術(shù)方案梳理與總結(jié),并重點歸納聯(lián)邦學習技術(shù)中涉及的隱私保護問題。

      2 聯(lián)邦學習基本概念以及應用

      為解決模型訓練過程中因數(shù)據(jù)孤島帶來的數(shù)據(jù)匱乏問題,聯(lián)邦學習概念誕生。具體來說,服務(wù)器統(tǒng)一向客戶端發(fā)送訓練模型,由客戶端利用本地數(shù)據(jù)進行模型訓練;然后,將訓練模型發(fā)送給服務(wù)器,通過更新模型參數(shù),完成一次訓練迭代過程;經(jīng)過多次迭代后,得到較優(yōu)的訓練模型。整個模型訓練過程中,數(shù)據(jù)經(jīng)過加密后進行交換,保障了數(shù)據(jù)的隱私性。

      如圖1 所示,聯(lián)邦學習的訓練階段包括[3]:

      (1)初始化:用戶從中央服務(wù)器獲取初始模型參數(shù),同時確立好模型訓練的目標。

      (2)模型訓練:用戶在本地利用隱私數(shù)據(jù)對模型進行訓練,隨后得到不同的本地模型,并將本地模型參數(shù)上傳至中央服務(wù)器。

      (3)模型平均:中央服務(wù)器在接收模型參數(shù)后,通過對模型參數(shù)進行聚合和平均計算,得到一個新的模型,并再次下放模型到各個客戶端。

      (4)模型迭代:重復上述的過程,模型會被不斷完善,這一過程被稱為迭代。

      聯(lián)邦學習技術(shù)主要目的是建立一個基于分布數(shù)據(jù)集的聯(lián)邦學習模型,這一技術(shù)包含了兩個過程,分別是模型訓練和模型推理。模型訓練的過程中,以上傳模型參數(shù)代替上傳數(shù)據(jù)(例如:梯度),保證每個參與方的數(shù)據(jù)不被泄露,已訓練完成的模型可以被多方共享。

      3 聯(lián)邦學習技術(shù)中的安全威脅

      3.1 攻擊來源

      本文針對聯(lián)邦學習技術(shù)中的漏洞來源進行總結(jié)分類,具體包括以下五種來源[1]:(1)通信協(xié)議:聯(lián)邦學習隨機選取客戶端實現(xiàn)迭代過程,多輪訓練中,不安全的通信渠道會造成隱私數(shù)據(jù)泄露。

      (2)客戶端數(shù)據(jù)操作:數(shù)據(jù)來源于大量的客戶端,攻擊者可通過利用客戶端的利用訓練數(shù)據(jù)和模型數(shù)據(jù)訪問全局模型,造成數(shù)據(jù)重構(gòu)攻擊。

      (3)受損的中央服務(wù)器:中央服務(wù)器負責共享初始模型參數(shù),聚合本地模型和更新全局模型。這些服務(wù)器若存在漏洞易被攻擊者利用。

      (4)弱聚合算法:聚合算法應具備識別可疑客戶端的能力,并擁有相應配置來刪除可疑客戶端的數(shù)據(jù)更新。

      (5)聯(lián)邦學習環(huán)境開發(fā)者:參與FL 環(huán)境架構(gòu)的架構(gòu)師,開發(fā)部署團隊有意或者無意間造成數(shù)據(jù)的泄露。

      3.2 攻擊分類

      聯(lián)邦學習目前主要的攻擊和威脅來源于內(nèi)部實體。攻擊者通常利用漏洞控制一個或者多個參與過程的客戶端,實現(xiàn)控制全局模型的目的。具體總結(jié)以下五類攻擊:

      (1)投毒攻擊

      投毒攻擊是發(fā)生可能性最大的攻擊之一[4-5],主要發(fā)生在訓練階段。攻擊者通過對訓練數(shù)據(jù)進行修改,或者植入惡意數(shù)據(jù),修改本地數(shù)據(jù)模型來破壞全局模型的性能和準確性。

      針對投毒攻擊的防御方法主要包括對抗訓練、異常檢測、知識蒸餾以及數(shù)據(jù)清理等。其中,對抗訓練是通過在模型訓練階段預測攻擊者可能的數(shù)據(jù)排列,增強學習模型的魯棒性。Jagielski等人[6]中介紹了利用數(shù)據(jù)清理的防御手段來抵御投毒攻擊,達到了較好的效果。

      (2)推理攻擊

      根據(jù)攻擊來源不同,推理攻擊主要分為:服務(wù)器端推理攻擊與成員推理攻擊。

      在服務(wù)器端推理攻擊中,參與聯(lián)邦學習要求所有用戶利用本地數(shù)據(jù)訓練全局模型并上傳給中央服務(wù)器。此過程中存在一個非可信且知識豐富的服務(wù)器,無法保證用戶的隱私數(shù)據(jù)信息。Wang等人[7]中通過周期性交換模型參數(shù)來計算用戶訓練樣本的隱私內(nèi)容,而這種攻擊僅限于單純的訓練設(shè)置,并要求共享模型在同一個網(wǎng)絡(luò)中。

      (3)基于生成式對抗網(wǎng)絡(luò)(GAN)的攻擊

      生成式對抗網(wǎng)絡(luò)(GAN)由生成模塊G 和判別模塊D 組成。生成模塊G 利用接收到的隨機噪聲生成虛假樣本,判別模塊D 用來判斷樣本是否為G 生成的虛假樣本?;贕AN 的攻擊可以發(fā)起投毒和推理攻擊,對聯(lián)邦學習環(huán)境的安全和隱私都可以造成影響。

      Hitai等人[8]提出了一種基于客戶端的GAN重構(gòu)攻擊,由內(nèi)部的惡意用戶發(fā)起攻擊。攻擊者通過偽裝合法用戶,訓練一個GAN 模型用來模擬其他用戶在本地訓練出的樣本,導致這些樣本被錯誤標記,通過不斷注入訓練樣本來更新全局模型,逐步影響整個聯(lián)邦學習全局模型,誘導用戶不斷地泄露隱私信息。

      (4)女巫攻擊

      訓練過程中,惡意參與方通過偽造身份,控制大量的客戶端設(shè)備,發(fā)起女巫攻擊。同時,用戶提供的參數(shù)會被混合平均,導致無法有效的區(qū)分惡意參數(shù)和正常參數(shù),大大增加了抵御女巫攻擊的難度。Fung等人[9]根據(jù)客戶端更新信息甄別投毒的女巫攻擊,設(shè)計了一種FoolsGold防御方法。但該方法需同時存在較多攻擊時防御效果才比較顯著。

      (5)拜占庭攻擊

      在拜占庭攻擊中,攻擊者控制多個用戶向服務(wù)器發(fā)送任意參數(shù)(又被稱為拜占庭梯度),以達到使全局模型在局部最優(yōu)處收斂,乃至模型發(fā)散,使其偏離正常的訓練過程。攻擊者可以監(jiān)視任何服務(wù)器或任何誠實的計算節(jié)點,并精心設(shè)計拜占庭梯度值,使其和正確梯度難以區(qū)分。同時惡意節(jié)點可以控制計算節(jié)點設(shè)備(客戶端)本身,也可以控制節(jié)點和服務(wù)器之間的通信。Bhagoji等人[10] 提出通過冗余和數(shù)據(jù)洗牌的更新防御機制來防御拜占庭攻擊,但該機制通常需要嚴格的理論保證,且需要一定的前提假設(shè),如假設(shè)服務(wù)器能夠直接訪問數(shù)據(jù),導致這種方法缺乏實際可行性。

      4 聯(lián)邦學習中的隱私保護技術(shù)

      針對聯(lián)邦學習中存在的各種攻擊威脅,主要采用的應對方法總結(jié)為以下三種。

      (1)差分隱私技術(shù)

      為了避免逆向數(shù)據(jù)檢索,引入差分隱私技術(shù)。具體思想:給個人樣本的私有敏感屬性添加隨機噪聲(如拉普拉斯噪聲等),使攻擊者無法判斷某一樣本是否在數(shù)據(jù)集中,以保護用戶隱私。而添加噪聲,會造成精度降低的問題。因此,該技術(shù)更適用于處理數(shù)據(jù)量規(guī)模較大的數(shù)據(jù)集。Triastcyn 等人[11]利用貝葉斯差分隱私實現(xiàn)模型訓練及模型發(fā)布時的隱私保護。Bun M 等人[12] 利用線性上限a(λ)對梯度進行剪輯,限制參與方數(shù)據(jù)對全局更新模型參數(shù)的影響。該方案無法較好地平衡安全性與性能。Truex 等[13] 利用客戶端在本地擾動數(shù)據(jù),(n, t)-Paillier 加密來聚合擾動后數(shù)據(jù)的方式有效保護隱私,但該方法訓練耗時久和通信開銷較大。

      (2)同態(tài)加密技術(shù)

      聯(lián)邦學習模型中的訓練數(shù)據(jù)來自多個不同的客戶端,需要確保數(shù)據(jù)源的隱私信息不被泄露。同態(tài)加密技術(shù)支持在密文上進行數(shù)據(jù)操作,保證數(shù)據(jù)隱私性的前提下可將密文計算委托給第三方完成,為計算能力不足的客戶端提供了便利。Hardy等人[14]結(jié)合實體解析和同態(tài)加密,實現(xiàn)了對縱向分布數(shù)據(jù)進行聯(lián)邦學習。Zhang等人[15]利用加法同態(tài)加密技術(shù)實現(xiàn)密文數(shù)據(jù)的批量處理,保證隱私的同時提升了聯(lián)邦學習效率。Fang與Ma等工作[16-17]結(jié)合多功能同態(tài)加密技術(shù)實現(xiàn)聯(lián)邦學習中的數(shù)據(jù)隱私保護。

      (3)安全多方計算

      在安全多方計算中,多個參與方之間可協(xié)同完成某個計算任務(wù),同時不泄漏任何隱私數(shù)據(jù)信息給其他參與方。應用中通常以兩方安全協(xié)議與多方秘密共享協(xié)議為基礎(chǔ),再結(jié)合同態(tài)加密技術(shù)實現(xiàn)對數(shù)據(jù)的保護。大部分同態(tài)加密算法效率無法適用于大規(guī)模數(shù)據(jù)加密,而聯(lián)邦學習模型中僅需要對模型參數(shù)進行加密即可,因此大大減少了加解密的計算復雜度。Wu 等人[18]結(jié)合多方秘密共享與同態(tài)加密提供了一種Piv?ot的方法,整個過程不會泄漏數(shù)據(jù)隱私信息給各個參與方。但該方法需要多次的信息交互,帶來的通信代價會成為模型訓練中的瓶頸問題。

      以上描述的三種聯(lián)邦學習隱私保護技術(shù),各有其利弊。在實際運用中,三種技術(shù)相互結(jié)合可以達到較好的效果,如Zhang等人[19]提出了一種基于差分隱私和同態(tài)加密的強隱私保護聯(lián)邦學習算法,高效地解決了聯(lián)邦學習中數(shù)據(jù)隱私保護問題。

      5 分析與展望

      據(jù)上所述,本文總結(jié)分析了現(xiàn)有聯(lián)邦學習中的攻擊威脅與隱私保護技術(shù)。隨著聯(lián)邦學習技術(shù)被廣泛應用[20,21],在研究過程中,依然存在一些可以繼續(xù)探索的方向:

      (1)如何更好地實現(xiàn)隱私保護開銷和聯(lián)邦學習效率之間的平衡。需要選擇合適的加密算法與所加入的噪聲量,過量的加密保護和噪聲加入會造成模型精度的損失以及增加計算開支。

      (2)跟蹤全局機器學習模型是聯(lián)邦學習技術(shù)中的一個瓶頸,如結(jié)合新型區(qū)塊鏈技術(shù)。因此,實現(xiàn)整個訓練模型的跟蹤是可繼續(xù)探索的一個研究方向。

      (3)聯(lián)邦學習技術(shù)需要詳細分析用不同方法標記的所有優(yōu)缺點,也需要定義標準化的技術(shù)來支持不同領(lǐng)域的聯(lián)邦學習的新需求,同時增強數(shù)據(jù)的隱私保護。

      6 總結(jié)

      聯(lián)邦學習作為一種由人工智能和隱私保護相融衍生的技術(shù),其研究領(lǐng)域正逐漸變得綜合化,但是隱私保護依舊是一個不可忽視的重要研究方向。本文介紹了聯(lián)邦學習技術(shù)的基本概念,分析了聯(lián)邦學習技術(shù)中的安全威脅以及隱私保護方法,并總結(jié)了該領(lǐng)域亟待突破的困境以及未來展望。

      猜你喜歡
      安全威脅數(shù)據(jù)加密隱私保護
      大數(shù)據(jù)時代個人隱私的保護
      價值工程(2016年35期)2017-01-23 18:15:46
      AES和RSA混合加密技術(shù)在網(wǎng)絡(luò)數(shù)據(jù)傳輸中的應用
      云數(shù)據(jù)存儲安全關(guān)鍵技術(shù)研究
      大數(shù)據(jù)環(huán)境下用戶信息隱私泄露成因分析和保護對策
      大數(shù)據(jù)安全與隱私保護的必要性及措施
      WIFI無線網(wǎng)絡(luò)技術(shù)及安全問題研究
      校園無線網(wǎng)絡(luò)的安全問題及應對策略
      社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護研究綜述
      一種基于虛擬專用網(wǎng)及數(shù)據(jù)加密技術(shù)的企業(yè)財務(wù)會計記錄直報系統(tǒng)的實現(xiàn)方案
      軟件工程(2016年8期)2016-10-25 15:57:29
      大數(shù)據(jù)時代的隱私保護關(guān)鍵技術(shù)研究
      临汾市| 临泉县| 阿克陶县| 太原市| 南召县| 六安市| 象州县| 夹江县| 平果县| 咸阳市| 泾源县| 安国市| 潍坊市| 原阳县| 翁源县| 内黄县| 温州市| 连城县| 明溪县| 靖宇县| 铁岭县| 云林县| 华宁县| 隆昌县| 清徐县| 淮滨县| 大同县| 红河县| 平潭县| 黄骅市| 陕西省| 遂川县| 宿迁市| 开远市| 连南| 咸宁市| 历史| 永定县| 卢氏县| 乐业县| 全州县|