鐘可欣,楊 庚,2
(1.南京郵電大學 計算機學院,江蘇 南京 210046;2.江蘇省大數據安全與智能處理重點實驗室,江蘇 南京 210023)
函數型數據分析(Functional Data Analysis)是統計學中涉及對曲線、曲面或任何其他連續(xù)變化的信息分析的一個分支。對于函數型數據[1],理想的觀測單位是在某個連續(xù)域上定義的函數,觀測數據由從某個總體中抽取的函數樣本組成,每個函數在離散網格上采樣。隨著信息科學技術的發(fā)展,函數數據在諸多領域中發(fā)揮了重要作用,例如醫(yī)療行業(yè)中的掃描成像數據、社交媒體的個人行為軌跡等。
然而,函數型數據的廣泛應用也存在一些急需解決的問題。隱私泄漏的危機伴隨數據分析與發(fā)布等應用的出現而加深,對隱私數據的保護問題與防止敏感信息泄露的需求因此而產生。
根據響應或協變量是函數還是標量,函數回歸模型可以分為四種類型[2]:(1)帶有函數協變量的標量響應;(2)帶有標量協變量的函數響應;(3)具有函數協變量的函數響應;(4)具有函數和標量協變量的標量或函數響應。目前,函數回歸算法的研究主要集中在模型的優(yōu)化和計算效率上,而基于函數回歸的隱私保護研究還少有人涉足。Janet S. Kim等人[3]于2018年提出一種加性的函數對函數回歸算法,Mark等人[4]針對該模型提出離散小波包變換的算法。針對高維的加性函數模型中mFPCA分數的估計誤差問題,Wong等人[5]提出了一類部分線性泛函可加模型(PLFAM)。該文提出一種函數對函數回歸的差分隱私保護算法,即計算函數回歸,在回歸的過程中加入滿足差分隱私的拉普拉斯噪聲,以達到隱私保護的作用。
主要貢獻如下:
(1)結合函數回歸和差分隱私保護的拉普拉斯機制,設計了一種滿足ε-差分隱私保護的函數回歸算法,并通過理論分析和實驗驗證其可用性。
(2)使用B樣條基對函數型數據進行降維和回歸處理,允許觀測數據含噪,在實現函數回歸的基礎之上,保證了一定的隱私保護功能。
(3)針對不同隱私預算進行實驗,證明隱私預算ε與算法效率的關系,且添加噪聲越小,算法效率越高。
本節(jié)主要介紹差分隱私和函數回歸相關的研究工作。
Dwork[6]于2006年提出了差分隱私的概念,區(qū)別于傳統的k-匿名等隱私模型,差分隱私保護模型具有強大的數學模型和堅實的算法設計基礎,它可以嚴格地定義和計算隱私的保護水平,有利于比較和研究在不同參數下的保護水平。目前,差分隱私的機制仍在逐步完善中[7-9]。
Ramsay和Dalzell[10]于1991年提出了一種函數對函數的回歸線性模型,將函數預測器和函數響應回歸設置中存在的問題結合在一起,Yao等人[11]設計了該模型基于函數主成分(Functional Principal Component,fPC)的方法,假設協變量和響應具有獨立同分布的測量誤差,并用fPC分解進行建模。Wu & Müller[12]在估計回歸系數時使用WLS來解釋函數內的相關性。文獻[13]將函數線性模型擴展到函數可加模型(Functional Addictive Model),該模型通過協變量的函數主成分得分的平滑函數之和對協變量的影響進行建模。Janet S. Kim等人[3]在加性函數對函數的回歸中提出了一種當前響應與協變量的完整軌跡相關聯的非線性回歸模型,可以更直接地捕獲響應與完整協變量軌跡之間的復雜關系。
Mark等人[4]提出了一種使用離散小波包變換的函數對函數回歸模型,適合無約束曲面,但是不適合建模滯后暴露的功能預測因子。Wong等人[5]改進了高維加性函數模型中mFPCA分數的估計誤差,提出了一類部分線性泛函可加模型(PLFAM)。
迄今為止的大多數函數回歸研究都假設存在獨立同分布的測量誤差,但是沒有考慮到為觀測對象進行隱私保護,也沒有考慮實現滿足差分隱私的加噪擾動。
差分隱私保證受保護的數據集不會因為增加或刪除一條記錄而影響查詢結果[14]。其形式化的數學定義如下:
定義1(差分隱私)[15]:給定鄰近數據集(只相差一條記錄)D和D',設有隱私算法A,Range(A)為A所有可能的輸出結果,若算法A在數據集D和D'上任意輸出結果O(O∈Range(A))滿足下列不等式:
Pr[A(D)=O]≤eε×Pr[A(D')=O]
(1)
則稱算法A滿足ε-差分隱私,ε的值稱為隱私預算,ε越小,A(D)=O和A(D')=O的概率值越接近,算法A的隱私保護水平越高。
差分隱私算法滿足以下組成屬性。假設A1(·)和A2(·)是ε1-和ε2-差分隱私算法。
·順序合成:釋放A1(D)和A2(D)的輸出滿足ε1+ε2-差分隱私。
·后處理:對于任何算法A3(·),釋放A3(A1(D))仍然滿足ε1-差分隱私。即對差分隱私算法的輸出進行后處理不會導致任何其他隱私損失。
定義2(全局敏感度)[6]:函數f:D→Rn的全局靈敏度(表示為Δ(f))定義為來自任意兩個相鄰數據集D1和D2的輸出的最大L1距離:
(2)
其中,R表示所映射的實數空間,d表示函數f的查詢維度。全局敏感度只與函數f有關,與數據集D無關。
差分隱私保護有兩種常用的實現機制:Laplace機制和指數機制。該文采用的是Laplace機制。Laplace機制的實現方式是通過添加滿足Laplace分布的隨機噪聲來達到ε-差分隱私保護的效果。
定義3(Laplace機制)[15]:對于任意一個函數f:D→Rd,若算法K的輸出結果滿足等式(3),則K滿足ε-差分隱私:
K(D)=f(D)+〈Lap1(Δf/ε),…,Lapd(Δf/ε)〉
(3)
其中,Lap1(Δf/ε)(1≤i≤d)是相互獨立的拉普拉斯變量,由上式可得:噪聲大小與Δf成正比,與ε成反比。
函數型數據分析(Functional Data Analysis)是對曲線、曲面或任何其他連續(xù)變化的信息的一種統計分析方法,其協變量或響應為函數型數據[16]。函數型數據研究的對象是光滑曲線,例如{xn(t):t∈[T1,T2]},1≤n≤N;其中xn(t)∈R在每一點t∈[T1,T2]都存在,取觀測點{tj,n:1≤j≤Jn}。如下為一個典型的函數型數據集:
{xn(tj,n)∈R:tj,n∈[T1,T2],1≤n≤N,1≤j≤Jn}
如果每條曲線的觀測數Jn都很小,則稱此函數型數據稀疏(sparse);例如血檢得到的某蛋白濃度。如果每條曲線的觀測數Jn都很大,則稱此函數型數據密集(dense);例如地磁儀記錄的某地磁場強度,高頻交易的股票價格[17]。
本節(jié)包括函數回歸的差分隱私保護算法的各部分概述及具體實現細節(jié),并給出算法實現差分隱私保護的證明。
對于i=1,2,…,n,假設{(Xik,sik):k=1,2,…,mi},{(Yij,tij):j=1,2,…,mY,i},其中Xik和Yij分別是在時間點sik和tij觀察到的協變量和響應。對于所有i和k,sik∈ΓX,以及所有i和j,tij∈ΓY,其中ΓX和ΓY是緊湊的時間間隔。假設Xik=Xi(sik),其中Xi(·)是定義在ΓX上的平方可積、真平滑信號。同時假設Yij=Yi(tij),其中Yi(·)定義在ΓY上。
考慮一個加性的函數對函數回歸模型:
(4)
其中,F{.,.,t}是定義在R×ΓX×ΓY上的未知平滑三變量函數,εi(·)是一個誤差過程,具有均值為零和未知的自協方差函數R(t,t'),并且與協變量Xi(s)無關。函數F{·,·,t}的定義量化了當前響應Yi(t)和完整的協變量軌跡Xi(·)之間的未知相關性,而加性模型則允許對高維數據空間的響應和協變量之間的關系進行非參數建模。
如果F(x,s,t)=β(s,t)x,則模型(4)簡化為標準函數線性模型。
由于實際觀測的數據存在噪聲或測量誤差,在數據預處理階段,需要對離散的響應和協變量進行平滑處理,使之從離散的多元觀測變量變成內部存在關聯的函數型數據。
對模型(4)中的F進行建模,為了降低計算成本,減少基函數的數量,令φ(·)∈L2(ΓY)為一平滑函數,則Yi到φ(·)的投影為:
結合模型(4)可推出:
其中,θl,l',k是未知參數。因此,模型(4)的三變量函數F可由x和s方向上的單變量B樣條基函數和L2(ΓY)正交基函數φk(·)的張量積獲得,由于只考慮兩個樣條基,減少了所需的基函數和平滑參數,降低了計算成本,可以有效提高計算效率。
函數回歸的差分隱私保護算法(Differential Privacy Preservation Algorithm in Functional Regression)簡稱DP-in-FR。
(6)
未知參數Θk的取值使用懲罰最小二乘法估計,對方向x和s使用二次懲罰,并通過正交基函數的數量K控制t方向的粗糙度。由計算可得,x的方向曲率為:
?{?2F(x,s,t)/?x2}dxdsdt=
?{?2F(x,s,t)/?s2}dxdsdt=
則最小化的懲罰標準是:
IKx+λxIKx?Ps)Θk=
(7)
DP-in-FR對回歸模型的系數進行噪聲擾動。 具
(8)
全局敏感度的推導與計算過程如下:
對于鄰近數據集D和D',以及它們的代價函數fD和fD':
根據全局敏感度的定義(見定義2)有:
由此,可以得到全局敏感度Δ為:
(9)
將該算法記為算法1,其算法流程如下:
算法1:DP-in-FR。
輸入:原始數據集D,隱私預算,主成分預設值p;
2:使用函數數據主成分分析(FPCA)估計Yi(·)的(邊際)協方差的特征基φk(·);
6:for 1≤k≤Kdo
8:end for
定理1:算法1滿足ε-差分隱私保護機制。
綜上所述,算法1滿足ε-差分隱私保護機制,實現了對數據的隱私保護功能。
實驗環(huán)境為AMD Ryzen 7 5800H with Radeon Graphics3.20 GHz,16G內存,Win10操作系統。算法均采用R語言實現,R語言版本為R-4.1.0,RTools版本4.0,使用到的程序包有MASS、Matrix、refund、mgcv、VGAM等。其中VGAM版本為1.1-5,用于產生符合拉普拉斯分布的隨機噪聲。
數據集的具體信息如表1所示,分別為加拿大天氣數據集、LipEMG數據和擴散張量成像(DTI2)數據。以上數據集分別來自文獻[18-19]。表1顯示了數據集的統計信息,其中|S|和|T|是相應域中的數據/時間點個數。
表1 數據集信息
為了驗證所設計算法的可行性,在這三個數據集上,依次使用文中算法進行訓練,通過訓練結果的精確度來判斷其可用性。此外,為了檢測隱私預算ε對模型準確性的影響,對每個數據集也以不同的隱私預算ε進行多次訓練。由于噪聲的影響,會進行多次實驗取結果的均值。
回歸分析有多種性能指標衡量其精確性,該文使用的性能指標是均方根預測誤差(RMSPE)以及逐點預測區(qū)間的平均覆蓋概率(ACP)。通過以下方式定義RMSPE:
RMSPE=
實驗結果如圖1所示。
圖1 均方根預測誤差
圖1(a)、(b)、(c)分別是文中算法對三個數據集在不同隱私預算ε下訓練結果的準確性的比較,ε的取值范圍為{0.05,0.1,0.15,0.2}。橫坐標是隱私預算ε的取值,縱坐標是均方根預測誤差RMSPE。標簽中,No Privacy即不添加任何隱私保護機制的函數回歸,它將作為算法精確性的比較基準。三個數據集的訓練結果均遵循隱私預算越大,訓練出的模型精確度越高的規(guī)律,并且當隱私預算足夠大時,與無隱私保護的算法的精確度接近。
其次,對(1-α)水平點態(tài)預測區(qū)間進行近似,以觀察名義水平上的覆蓋概率。在(1-α)級別定義預測區(qū)間的ACP如下:
圖2 平均覆蓋率
圖2(a)、(b)、(c)分別為在1-α=0.85和0.95的名義顯著性水平下,預測響應Y(t)|X(·)在三個數據集上的平均覆蓋概率ACP得分??梢钥匆婋S著隱私預算ε增大,DP-in-FR算法預測平均覆蓋率從整體上看有升高的趨勢,這是因為隨著ε增大,隱私保護程度變低,添加的噪聲變小,所以可用性變高,因此預測準確率變高。
主要研究了差分隱私在函數回歸中的應用,設計了一種基于差分隱私的函數回歸方法。該方法允許觀測數據含噪,對函數型數據進行降維和回歸處理,在實現函數回歸的基礎之上,保證了一定的隱私保護功能。該文提出的函數回歸算法對于輸入數據降維并提取主成分,而隱私預算大小和保留主成分的個數是影響算法誤差的因素,合理的加噪方式使得數據可用性更高。由于函數型數據回歸的計算量大,計算成本高,所以更合理的隱私預算分配和加噪方式以提高計算效率是下一步的研究方向。