王 爽 尹聰穎
(美國印第安納大學(xué)信息計(jì)算工程學(xué)院 美國布盧明頓 47408) (HC3i中國數(shù)字醫(yī)療網(wǎng) 北京 100190)
隨著大數(shù)據(jù)時(shí)代來臨,人口健康與醫(yī)療數(shù)據(jù)面臨著日益嚴(yán)峻的安全挑戰(zhàn)??▋?nèi)基梅隆大學(xué)Latanya Sweeney教授于2000年發(fā)表的《簡單的人口統(tǒng)計(jì)往往能識別出人的獨(dú)特性》[1]報(bào)告指出少數(shù)特征的組合常常結(jié)合在一起即可唯一地識別某些個(gè)體。美國選舉人公共注冊信息中87%的基于5位郵編、性別、出生日期即有可能被唯一識別出個(gè)人身份;53%通過地點(diǎn)、性別、出生日期可能被唯一識別出個(gè)人身份;在縣一級,18%通過縣、性別、出生日期可能被唯一識別出個(gè)人身份。顯然上述個(gè)人信息的數(shù)據(jù)字段是不應(yīng)該被公開的,因?yàn)檫@有可能泄露個(gè)人隱私。如該研究曾使用麻省總醫(yī)院的出院數(shù)據(jù)和選舉投票的注冊數(shù)據(jù)進(jìn)行匹配,最終鏈接出某麻省議員的住院信息。
健康醫(yī)療大數(shù)據(jù)在全球快速發(fā)展,越來越多的個(gè)人數(shù)據(jù)被脫敏后公開,用于精準(zhǔn)醫(yī)學(xué)等各類大數(shù)據(jù)研究。然而如上述報(bào)告所述健康醫(yī)療數(shù)據(jù)的公開或?qū)⒁鲆幌盗须[私安全問題。
健康醫(yī)療大數(shù)據(jù)時(shí)代,大量醫(yī)療數(shù)據(jù)被不斷采集。人們往往認(rèn)為一組醫(yī)療數(shù)據(jù)將名字、身份證信息去掉后便安全,可以公開使用。然而當(dāng)這組數(shù)據(jù)跟另一組數(shù)據(jù)連在一起時(shí)可能會完全暴露個(gè)人隱私。如果加入基因數(shù)據(jù),隱私安全威脅會更加明顯。隨著基因檢測技術(shù)發(fā)展,只需大概75個(gè)統(tǒng)計(jì)上獨(dú)立的單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP)位點(diǎn)即可唯一確定一個(gè)人[2],所以說基因數(shù)據(jù)比指紋數(shù)據(jù)更敏感。當(dāng)基因檢測數(shù)據(jù)與一些病理數(shù)據(jù)相結(jié)合時(shí)很容易匹配到具體個(gè)人,這種確認(rèn)會侵犯人類隱私。數(shù)據(jù)脫敏是指對數(shù)據(jù)中包含的秘密或隱私信息(如個(gè)人身份識別信息、商業(yè)機(jī)密數(shù)據(jù)等)進(jìn)行數(shù)據(jù)變形處理,使得惡意攻擊者無法從經(jīng)過脫敏處理的數(shù)據(jù)中直接獲取敏感信息,從而實(shí)現(xiàn)對機(jī)密及隱私的防護(hù)。
基因與個(gè)人隱私之間的關(guān)系十分微妙。2018年美國警方通過一家名為GEDMatch的家譜網(wǎng)站上一名親戚的遺傳信息確認(rèn)到40年前的金州殺手案罪犯身份[3]。這一手段運(yùn)用到醫(yī)學(xué)信息上,如果已知某人的基因就能知道此人是否得過某種疾病。如艾滋病人去參加癌癥或糖尿病的研究,只提供自身基因信息不公開其他信息,獲得信息的人對患者基因在公共數(shù)據(jù)庫中進(jìn)行比對就能夠獲得其個(gè)人信息,進(jìn)而獲得其患有艾滋病的信息,造成個(gè)人隱私風(fēng)險(xiǎn),可能損害個(gè)人權(quán)益。如果雇主知道雇員是糖尿病患者,可能會因懷疑其能否參加重體力勞動而解雇該雇員。如果保險(xiǎn)公司通過基因檢測知道參保人有較大的重疾可能性,就會降低保額,增加保費(fèi),甚至拒絕提供保險(xiǎn)服務(wù)。
包括基因在內(nèi)的健康醫(yī)療數(shù)據(jù)快速增長,隨著相關(guān)應(yīng)用的不斷展開,人類隱私安全威脅日益嚴(yán)峻。其中基因數(shù)據(jù)關(guān)系到的不只是一個(gè)人,而是整個(gè)家族。而且基因數(shù)據(jù)十分“強(qiáng)健”,即便將基因上某個(gè)位點(diǎn)去掉,還是可以通過其他基因來確認(rèn)。而用戶到商業(yè)化的基因測序公司進(jìn)行測序服務(wù)后,公司有可能將數(shù)據(jù)賣給藥廠或其他公司,用于藥品研發(fā)或其他用途。如2018年知名醫(yī)藥企業(yè)葛蘭素史克(GSK)與商業(yè)化基因檢測公司23andMe達(dá)成3億美元的股權(quán)投資交易,后者將利用已有的500萬名用戶數(shù)據(jù)為GSK提供4年獨(dú)家合作[4]。這種做法不僅會暴露個(gè)人隱私,還可能導(dǎo)致家族隱私暴露。哈佛大學(xué)做過一項(xiàng)調(diào)查,稱92%的美國人不愿意公開基因數(shù)據(jù),因?yàn)樽訉O后代的信息都有可能會被公開。
原始的基因數(shù)據(jù)非常大,一個(gè)人的基因測序數(shù)據(jù)約有300GB,精準(zhǔn)醫(yī)學(xué)要做上百萬人的基因數(shù)據(jù)分析,量非常大。不可能在每個(gè)機(jī)構(gòu)或醫(yī)院都建立超級計(jì)算中心,因此美國醫(yī)療機(jī)構(gòu)或科研院校將數(shù)據(jù)放在公有云上,但問題較多,存在很多隱私安全風(fēng)險(xiǎn),因?yàn)楣性浦械挠?jì)算資源是被很多用戶共享的,數(shù)據(jù)在計(jì)算和存儲的過程中還會存在備份操作,不加以保護(hù)的數(shù)據(jù)安全無法得到有效控制。
健康醫(yī)療大數(shù)據(jù)的巨大潛力吸引無數(shù)醫(yī)療機(jī)構(gòu)、科研團(tuán)體積極探索,一邊是數(shù)據(jù)帶來的隱私安全“黑洞”,一邊是精準(zhǔn)醫(yī)學(xué)打開的未來醫(yī)療世界大門,隱私安全保護(hù)與數(shù)據(jù)公開應(yīng)用能否兼得?醫(yī)療大數(shù)據(jù)隱私保護(hù)的基本方法,見圖1。
圖1 醫(yī)療大數(shù)據(jù)隱私保護(hù)的基本方法
如果多個(gè)醫(yī)療機(jī)構(gòu)聯(lián)合進(jìn)行醫(yī)療或者基因數(shù)據(jù)的分析,其實(shí)是不需要直接交換個(gè)體數(shù)據(jù)的,只需要通過交換統(tǒng)計(jì)值就能得到想要的結(jié)果。分享統(tǒng)計(jì)值可以有效降低數(shù)據(jù)分享過程中的隱私風(fēng)險(xiǎn)。如學(xué)習(xí)一個(gè)模型需要看某些參數(shù),這些參數(shù)代表疾病的高風(fēng)險(xiǎn)性與年齡、性別或其他特征的關(guān)系,可以將從每個(gè)醫(yī)療機(jī)構(gòu)內(nèi)部個(gè)體數(shù)據(jù)得到的統(tǒng)計(jì)值整合成一個(gè)全局的模型參數(shù),然后將對應(yīng)的模型分享給研究人員,訓(xùn)練模型的原始數(shù)據(jù)并不需要分享給其他醫(yī)療機(jī)構(gòu)或研究人員。
如果是基于公有云做數(shù)據(jù)運(yùn)算,為提高安全等級可以選擇同態(tài)加密。同態(tài)加密是級別非常高的一項(xiàng)加密手段,可以在加密數(shù)據(jù)上做加密運(yùn)算,得到的結(jié)果也是加密的,只有授權(quán)的用戶才能拿到加密的結(jié)果。這樣既能使用戶放心使用公有云資源,又能保護(hù)個(gè)人隱私等數(shù)據(jù)安全。目前基于正則長度方程(Regularized Long Wave Equation,RLWE)的同態(tài)加密安全等級非常高,根據(jù)已知的研究成果, 即使是量子計(jì)算實(shí)現(xiàn)后都不能破解。在可預(yù)見的未來醫(yī)療數(shù)據(jù)應(yīng)用中都是非常安全的。
硬件加密是利用英特爾第6代之后的CPU芯片的一個(gè)加密區(qū)域,有授權(quán)的用戶可以訪問。所有數(shù)據(jù)在硬件外都是加密的,非授權(quán)用戶看不到。目前在圣地亞哥Rady兒童醫(yī)院、倫敦帝國學(xué)院、新加坡基因研究所3國聯(lián)合開展的川崎病研究項(xiàng)目中,由于3個(gè)國家對于基因數(shù)據(jù)隱私保護(hù)的要求不同,項(xiàng)目數(shù)據(jù)傳輸、分析是通過硬件加密的方式實(shí)現(xiàn)。兩位教授領(lǐng)導(dǎo)的團(tuán)隊(duì)在世界范圍內(nèi)最先實(shí)現(xiàn)在加密硬件上大規(guī)模進(jìn)行帶有隱私保護(hù)的基因計(jì)算研究,基于Intel芯片進(jìn)行硬件加密滿足不同機(jī)構(gòu)、國家對于基因數(shù)據(jù)隱私保護(hù)的要求。該項(xiàng)工作獲得Intel杰出成就獎,被多個(gè)權(quán)威學(xué)術(shù)期刊(包括《科學(xué)》雜志)引用。
如果只是做一些前期探索性研究,研究者并不需要原始數(shù)據(jù),只需要與原始數(shù)據(jù)相似的數(shù)據(jù)信息即可。具體做法是在原始的數(shù)據(jù)上添加噪音,或者先在原始數(shù)據(jù)上擬合出一個(gè)分布,然后在這個(gè)分布的空間中再抽象出數(shù)據(jù)。這個(gè)數(shù)據(jù)會與原始數(shù)據(jù)很相像,但是沒有任何點(diǎn)能夠?qū)?yīng)到原始數(shù)據(jù)。使用這種數(shù)據(jù)去開展研究,無從得知數(shù)據(jù)具體來源。
隨著健康醫(yī)療大數(shù)據(jù)應(yīng)用的深入,更多隱私安全挑戰(zhàn)正在涌現(xiàn),需要更加先進(jìn)的隱私安全保護(hù)技術(shù)和方法幫助應(yīng)對大數(shù)據(jù)可能帶來的困擾。因此美國和歐盟一方面加強(qiáng)相關(guān)數(shù)據(jù)安全法律建設(shè),另一方面也在積極鼓勵細(xì)分領(lǐng)域的科技創(chuàng)新。
美國在數(shù)據(jù)安全方面的法律建設(shè)起步較早,1996年發(fā)布《健康保險(xiǎn)流通與責(zé)任法案》(Health Insurance Portability and Accountability Act,HIPAA/1996,Public Law 104-19),公布個(gè)人健康信息的隱私保護(hù)標(biāo)準(zhǔn)和實(shí)施指南,明確要求醫(yī)療數(shù)據(jù)的安全等級和脫密方式。美國數(shù)據(jù)安全研究組織還在推進(jìn)基因研究、數(shù)據(jù)安全兩大領(lǐng)域人才的跨界交流,以探索更加先進(jìn)的基因安全保護(hù)技術(shù),如組織全球基因安全保護(hù)競賽。作為競賽聯(lián)合發(fā)起人,筆者對于全球基因安全保護(hù)技術(shù)發(fā)展深有體會。最初參賽隊(duì)伍的數(shù)據(jù)模型因?yàn)槌叽绮缓线m,不能用到基因上,現(xiàn)在各參賽隊(duì)伍已經(jīng)能夠在成熟的模型上不斷提高。自2014年開展至今全球?qū)τ诨虬踩囊庾R都在提升,據(jù)悉目前全球有超過100個(gè)隊(duì)伍參與其中,包括斯坦福大學(xué)、麻省理工大學(xué)、微軟公司、IBM公司等。該項(xiàng)競賽多次被國際權(quán)威媒體報(bào)道,包括Nature News和GenomeWeb等。
2018年5月歐盟正式開始實(shí)施《一般數(shù)據(jù)保護(hù)條例》(Genral Data Protection Regulation,GDPR),旨在加強(qiáng)對歐盟境內(nèi)居民的個(gè)人數(shù)據(jù)和隱私保護(hù)。該法律加大數(shù)據(jù)隱私泄露的處罰力度,其中最高達(dá)2 000萬歐元,或企業(yè)1年?duì)I業(yè)額的4%的罰款。可見各國都在不斷加強(qiáng)對于醫(yī)療數(shù)據(jù)隱私保護(hù)的重視程度。
中國也在不斷加強(qiáng)對于隱私保護(hù)的力度,如2017年6月頒布并實(shí)施的《中華人民共和國網(wǎng)絡(luò)安全法》中明確規(guī)定在未獲得知情同意前,網(wǎng)絡(luò)運(yùn)營者不得向第3方提供個(gè)人信息,也不得擅自泄露、篡改、毀損其收集的個(gè)人信息。同時(shí)該法律也提到經(jīng)過脫敏處理的數(shù)據(jù),如果無法被用來識別特定個(gè)人信息的情況除外。但是該法律并沒有像美國的HIPAA法案一樣提供詳細(xì)的規(guī)定,以指導(dǎo)數(shù)據(jù)收集方如何生成可以滿足條件的脫敏數(shù)據(jù)。作為法律的補(bǔ)充,2018年5月頒布的《信息安全技術(shù)個(gè)人信息安全規(guī)范》對個(gè)人信息收集、保存、使用等各個(gè)環(huán)節(jié)提出具體要求。但是其中并沒有提出專門針對醫(yī)療大數(shù)據(jù)標(biāo)識化處理的條款。在該規(guī)范中與醫(yī)療相關(guān)的數(shù)據(jù)都被定義為個(gè)人敏感數(shù)據(jù),收集和使用前需要獲得個(gè)人知情同意,除非以下3種情況:一是與公共安全、衛(wèi)生、重大公共利益直接相關(guān)的數(shù)據(jù);二是出于維護(hù)個(gè)人信息主體或其他個(gè)人的生命、財(cái)產(chǎn)等重大合法權(quán)益,但又很難得到本人同意;三是個(gè)人信息控制者為學(xué)術(shù)研究機(jī)構(gòu),出于公共利益開展統(tǒng)計(jì)或?qū)W術(shù)研究所必要,且其對外提供學(xué)術(shù)研究或描述的結(jié)果時(shí),對結(jié)果中所包含的個(gè)人信息進(jìn)行去標(biāo)識化處理的。關(guān)于標(biāo)識化處理,中國于2017年8月發(fā)布《信息安全技術(shù)個(gè)人信息去標(biāo)識化指南》, 其中描述個(gè)人信息去標(biāo)識化的目標(biāo)和原則,提出去標(biāo)識化過程和管理措施,對常用的脫敏方法進(jìn)行介紹。
健康醫(yī)療大數(shù)據(jù)時(shí)代,單純依賴政策的保護(hù)、技術(shù)的革新實(shí)現(xiàn)個(gè)人隱私保護(hù)是不夠的。未來醫(yī)療將是全民主動參與的時(shí)代,每個(gè)人都是數(shù)據(jù)的提供者、使用者和受益者。只有主動提升隱私安全保護(hù)意識才能更有效地保護(hù)個(gè)人權(quán)益,在健康醫(yī)療大數(shù)據(jù)背景下獲得數(shù)據(jù)賦予的健康收益,真正實(shí)現(xiàn)個(gè)人對隱私的掌控。