郭維嘉 郭少友
摘 要:開放政府?dāng)?shù)據(jù)所包含的個人數(shù)據(jù)給個人隱私的泄露帶來風(fēng)險。本文在分析個人隱私風(fēng)險類型的基礎(chǔ)上,提出了一種基于全生命周期的個人隱私風(fēng)險動態(tài)消解機(jī)制,可對數(shù)據(jù)采集、披露、保存、訪問、使用時期的個人隱私風(fēng)險進(jìn)行動態(tài)性的預(yù)防和消解。
關(guān)鍵詞:開放政府?dāng)?shù)據(jù);個人數(shù)據(jù);個人隱私;隱私風(fēng)險
中圖分類號:G250 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-5168(2018)04-0021-04
Types and Resolution Mechanism of Personal Privacy
Risks in Open Government Data
GUO Weijia GUO Shaoyou
(School of Information Management, Zhengzhou University, Zhengzhou Henan 450001)
Abstract: Personal data contained in open government data poses risks to personal privacy. Based on the analysis of types of personal privacy risks, this paper proposed a dynamic lifecycle-based resolution mechanism of personal privacy risks that could prevent and mitigate personal privacy risks during data collection, disclosure, preservation, access and use.
Keywords: open government data; personal data;personal privacy;privacy risk
1 研究背景
開放數(shù)據(jù)是指允許任何人以任何目的免費使用、共享的數(shù)據(jù)[1]。各級政府所發(fā)布的開放數(shù)據(jù)可稱為開放政府?dāng)?shù)據(jù)?,F(xiàn)有研究表明,開放政府?dāng)?shù)據(jù)具有促進(jìn)政府透明度、刺激經(jīng)濟(jì)增長、提高政府服務(wù)和響應(yīng)能力等多種作用[2],同時也面臨著侵犯商業(yè)秘密、侵犯個人隱私等風(fēng)險,其中侵犯個人隱私是較為嚴(yán)重的一種風(fēng)險。本文將對開放政府?dāng)?shù)據(jù)中的個人隱私風(fēng)險類型進(jìn)行分析,并在此基礎(chǔ)上提出相應(yīng)的隱私風(fēng)險消解機(jī)制。
2 開放政府?dāng)?shù)據(jù)中的個人隱私風(fēng)險類型
2.1 開放政府?dāng)?shù)據(jù)中的個人數(shù)據(jù)類型
個人數(shù)據(jù)是指任何與可識別的自然人有關(guān)的數(shù)據(jù)[3]。隱私是指不愿告人的或不愿公開的個人事宜[4]。從根本上講,只有當(dāng)開放政府?dāng)?shù)據(jù)中包含有個人數(shù)據(jù)時,才可能出現(xiàn)侵犯個人隱私的情況。討論開放政府?dāng)?shù)據(jù)中的個人數(shù)據(jù)類型,有助于識別其中的個人隱私風(fēng)險。
按照數(shù)據(jù)的敏感程度可將個人數(shù)據(jù)分為兩大類,即低敏感度數(shù)據(jù)和高敏感度數(shù)據(jù)。其中,高敏感度數(shù)據(jù)主要包括個人的健康狀況、犯罪情況、財務(wù)情況等數(shù)據(jù)。
按照對個人數(shù)據(jù)的加工程度,可將其分為原始數(shù)據(jù)、假名數(shù)據(jù)和匿名數(shù)據(jù)三類。假名數(shù)據(jù)用自動生成的唯一標(biāo)識符來替代原始數(shù)據(jù)中的姓名。匿名數(shù)據(jù)是指采用匿名方法對原始數(shù)據(jù)中的姓名和身份證號等標(biāo)識符、疾病和財產(chǎn)狀況等敏感數(shù)據(jù)進(jìn)行處理后所生成的數(shù)據(jù)。
按照是否應(yīng)依法公開,可將個人數(shù)據(jù)分為依法應(yīng)公開的個人數(shù)據(jù)、依法應(yīng)不公開的個人數(shù)據(jù)。其中,前者主要是指政治人物的數(shù)據(jù),以及企業(yè)、社會團(tuán)體中依法應(yīng)公開的個人數(shù)據(jù)。
開放政府?dāng)?shù)據(jù)中的個人數(shù)據(jù)類型具體見表1。
2.2 個人數(shù)據(jù)的隱私風(fēng)險類型
隱私風(fēng)險是指個人隱私數(shù)據(jù)面臨的各種危險,可分為如下幾種類型。
2.2.1 實名數(shù)據(jù)的披露風(fēng)險
2.2.1.1 實名數(shù)據(jù)的未授權(quán)披露。從目前的實際情況來看,政府機(jī)構(gòu)掌握著大量的個人數(shù)據(jù),這些數(shù)據(jù)一般有兩個來源。一是政府機(jī)構(gòu)直接從個人那里采集的,例如,在辦理身份證、駕駛證、護(hù)照、健康證及結(jié)婚證等由政府部門頒發(fā)的證件時,需要個人填寫姓名、性別、家庭住址和聯(lián)系方式等基本數(shù)據(jù),有些還需要現(xiàn)場采集一些數(shù)據(jù),如指紋、頭像、血型等有助于識別個人身份的數(shù)據(jù),以及辨色力、四肢活動能力、是否有傳染病等身體狀況數(shù)據(jù)。二是政府機(jī)構(gòu)出于監(jiān)管、服務(wù)的需要,從企業(yè)、事業(yè)單位獲取的個人數(shù)據(jù),例如,各級政府的衛(wèi)生主管部門從醫(yī)院、疾病控制中心獲取的個人健康數(shù)據(jù),公安部門從互聯(lián)網(wǎng)公司、通信運營商獲取的個人上網(wǎng)數(shù)據(jù)。
政府機(jī)構(gòu)在披露上述數(shù)據(jù)時存在一定的隱私風(fēng)險,主要是未經(jīng)授權(quán)的披露。目前,很多國家都頒布了與個人隱私保護(hù)相關(guān)的法律法規(guī),如我國的《中華人民共和國政府信息公開條例》第十四條明確規(guī)定,政府機(jī)構(gòu)不得公開涉及個人隱私的政府信息,但經(jīng)權(quán)利人同意公開或者政府機(jī)構(gòu)認(rèn)為不公開可能對公共利益造成重大影響的涉及個人隱私的政府信息,可以予以公開。該條例在實際執(zhí)行過程中可能存在以下風(fēng)險:一是在數(shù)據(jù)發(fā)布環(huán)節(jié)監(jiān)管不力,導(dǎo)致未經(jīng)權(quán)利人同意的個人數(shù)據(jù)被披露;二是對“不公開可能對公共利益造成重大影響的涉及個人隱私的政府信息”把握不準(zhǔn)確,披露了實際上可以不披露的數(shù)據(jù)。
2.2.1.2 實名數(shù)據(jù)的低質(zhì)量披露。如第一種情況所述,經(jīng)權(quán)利人同意公開或者認(rèn)為不公開可能對公共利益造成重大影響的涉及個人隱私的政府信息,政府機(jī)構(gòu)可以對其進(jìn)行披露,但可能存在披露數(shù)據(jù)質(zhì)量不高從而導(dǎo)致用戶隱私風(fēng)險加劇的情況。兩種數(shù)據(jù)質(zhì)量問題可能會增加隱私風(fēng)險:一是披露的個人數(shù)據(jù)不準(zhǔn)確、不完整,如將個人的錯誤信息發(fā)布到經(jīng)授權(quán)后公開披露的DUI逮捕數(shù)據(jù)庫中,可能會對該人的就業(yè)、信貸和保險前景產(chǎn)生不利影響[5];二是披露的數(shù)據(jù)導(dǎo)致不公平,如果上述逮捕數(shù)據(jù)庫中收錄A地區(qū)的罪犯人數(shù)遠(yuǎn)遠(yuǎn)多于同一個城市中的B地區(qū),而實際上兩個地區(qū)的罪犯人數(shù)相差并不大,可能會導(dǎo)致A地區(qū)的房價下降,或居住在A地區(qū)的受害者被懷疑成罪犯。
2.2.2 匿名數(shù)據(jù)的重新識別風(fēng)險。如前所述,除了經(jīng)權(quán)利人同意公開或者認(rèn)為不公開可能對公共利益造成重大影響的涉及個人隱私的政府信息外,政府機(jī)構(gòu)不得發(fā)布涉及個人隱私的政府信息。為了在不暴露個人隱私的前提下向社會各界提供盡可能多的政府信息,以便提高政府透明度,政府機(jī)構(gòu)往往采取某種手段對個人隱私數(shù)據(jù)進(jìn)行匿名化處理,并將處理結(jié)果作為非個人數(shù)據(jù)加以披露。這種方式可能存在如下風(fēng)險。
一是自發(fā)性的重新識別,是指外界在沒有蓄意識別個人隱私的前提下從已披露的政府?dāng)?shù)據(jù)中識別出某個人,這種情況一般發(fā)生在匿名化后的數(shù)據(jù)中包含有罕見特征,外界能根據(jù)該特征推斷出匿名數(shù)據(jù)的主體,重新識別的風(fēng)險與特征的稀有程度成正比。
二是蓄意性的重新識別,是指蓄意地從政府披露的、已經(jīng)過匿名化處理的數(shù)據(jù)中識別出某個人,采用的手段主要有在同一個數(shù)據(jù)集合中進(jìn)行記錄鏈接、屬性鏈接、表鏈接、概率攻擊、將匿名數(shù)據(jù)與其他公開可用的數(shù)據(jù)集或信息進(jìn)行匹配等[6]。從事這種工作的人可能是研究專家、數(shù)據(jù)掮客等?,F(xiàn)有研究已表明,這種蓄意性的重新識別完全可能實現(xiàn),例如,Sweeney L[7]通過實驗發(fā)現(xiàn),美國政府披露的某個數(shù)據(jù)集沒有將郵政編碼、性別和出生日期進(jìn)行匿名化處理,其中87%的個人可以根據(jù)郵政編碼、性別和出生日期進(jìn)行唯一性的重新識別。
以下兩個趨勢進(jìn)一步增加了上述蓄意性的重新識別風(fēng)險:一是智慧城市技術(shù)、重新識別科學(xué)、數(shù)據(jù)集市技術(shù)、大數(shù)據(jù)技術(shù)等科學(xué)和技術(shù)的不斷發(fā)展和進(jìn)步,使得從匿名數(shù)據(jù)中識別個人的可能性提高;二是隨著開放政府?dāng)?shù)據(jù)項目的不斷成熟,其數(shù)據(jù)工作重點逐漸從僅僅提供歷史數(shù)據(jù)和統(tǒng)計數(shù)據(jù)轉(zhuǎn)向提供關(guān)于公民及其活動的細(xì)粒度、可搜索、可訪問和全面的“微數(shù)據(jù)”,使得重新識別的風(fēng)險進(jìn)一步提升[5]。
2.2.3 個人數(shù)據(jù)的使用風(fēng)險。個人數(shù)據(jù)的披露及重新識別行為本身就存在風(fēng)險,披露或重新識別之后的使用具有更大的風(fēng)險性。無論是由政府機(jī)構(gòu)依法或征得權(quán)利人同意主動披露的個人數(shù)據(jù),還是從匿名化的政府?dāng)?shù)據(jù)中重新識別得到的個人數(shù)據(jù),外界在使用這些數(shù)據(jù)時,都可能會對數(shù)據(jù)主體造成危害,而這些危害是個人數(shù)據(jù)使用風(fēng)險的具體體現(xiàn),至少包括以下幾種情況。
①寒蟬效應(yīng)。如果社會公眾出于對政府的信任,積極地向政府提供所需的個人數(shù)據(jù),而政府未能有效地加以保護(hù),致使個人隱私泄露,則社會公眾可能不愿意再將個人數(shù)據(jù)提供給政府,這種現(xiàn)象稱為個人隱私領(lǐng)域的寒蟬效應(yīng)[8]。當(dāng)社會公眾不相信政府能保護(hù)個人隱私并進(jìn)而不愿意與政府機(jī)構(gòu)提供的信息系統(tǒng)進(jìn)行交互時,政府所提供的公共服務(wù)質(zhì)量以及社會公眾與政府之間的信任關(guān)系,都將受到一定程度的影響。
②過度使用。政府機(jī)構(gòu)在收集個人數(shù)據(jù)時都有特定的目的,當(dāng)將個人數(shù)據(jù)用于該特定目的之外的其他目的時,則稱之為個人數(shù)據(jù)的過度使用。目的限制是歐盟數(shù)據(jù)保護(hù)指令(Data Protection Directive)的一項關(guān)鍵原則[3],按照該原則的要求,當(dāng)政府機(jī)構(gòu)個人數(shù)據(jù)采集的目的是A時,如果直接用于目的B或經(jīng)過聚合后用于目的C或被其他機(jī)構(gòu)用于目的D,即使后三種應(yīng)用本身不存在違法行為,但由于改變了個人數(shù)據(jù)最初的采集目的A,則后三種行為也被認(rèn)為違反了上述數(shù)據(jù)保護(hù)指令,屬于過度使用,對個人隱私產(chǎn)生了威脅。
③其他危害。個人數(shù)據(jù)被外界獲取并利用,可能導(dǎo)致個人的尷尬或焦慮。例如,某個數(shù)據(jù)分析中心對公安部門的犯罪記錄進(jìn)行數(shù)據(jù)挖掘,盡管數(shù)據(jù)中心從公安部門獲得的是匿名數(shù)據(jù),但仍然存在被重新識別的可能,相關(guān)人員可能會因為擔(dān)心其犯罪記錄被公安部門之外的人員獲悉而焦慮不安。此外,個人數(shù)據(jù)及其所含隱私的泄露,可能會影響個人的就業(yè)或與他人的關(guān)系,影響個人獲得服務(wù)(如保險服務(wù))的能力,也可能造成財產(chǎn)損失或損害,可能導(dǎo)致被歧視、被頻繁騷擾或人身安全處于危險之中等。
3 基于開放政府?dāng)?shù)據(jù)全生命周期的個人隱私風(fēng)險動態(tài)消解機(jī)制
政府機(jī)構(gòu)的開放數(shù)據(jù)項目涉及數(shù)據(jù)的采集、披露、保存、訪問和使用等一系列環(huán)節(jié),個人數(shù)據(jù)的隱私風(fēng)險與每個環(huán)節(jié)都相關(guān),需要在每個環(huán)節(jié)都建立相應(yīng)的隱私風(fēng)險消解機(jī)制。由于外部環(huán)境不斷發(fā)生變化,如可用于重新識別匿名數(shù)據(jù)的外部數(shù)據(jù)集越來越多、國家的相關(guān)政策法規(guī)不斷完善等,往往需要根據(jù)這些變化不斷重復(fù)某個環(huán)節(jié)的工作,甚至修改相應(yīng)的消解機(jī)制。基于此,本文在現(xiàn)有相關(guān)研究的基礎(chǔ)上提出一種基于開放政府?dāng)?shù)據(jù)全生命周期的個人隱私風(fēng)險動態(tài)消解機(jī)制,其基本原理如圖1所示。開放政府?dāng)?shù)據(jù)的全生命周期主要由數(shù)據(jù)采集、數(shù)據(jù)披露、數(shù)據(jù)保存、數(shù)據(jù)訪問和數(shù)據(jù)使用等5個階段組成,其中數(shù)據(jù)保存階段兼具銷毀不宜再保存數(shù)據(jù)的功能。在圖1中,空心箭頭指明了全生命周期的過程,單實線箭頭指明了各個階段的消解機(jī)制,單虛線箭頭描述了消解的動態(tài)性。
3.1 采集時期的隱私風(fēng)險消解
政府機(jī)構(gòu)可通過各種渠道采集個人數(shù)據(jù),包括私營企業(yè)的社交媒體平臺,如微信等。該環(huán)節(jié)的隱私風(fēng)險消解可通過兩項措施來完成:一是同意機(jī)制;二是公告機(jī)制。前者是指政府機(jī)構(gòu)在采集個人數(shù)據(jù)時,必須征得個人的同意,后者是指政府機(jī)構(gòu)必須將個人數(shù)據(jù)采集的類型、目的、范圍及數(shù)據(jù)的用途、使用方式等相關(guān)內(nèi)容以公告的形式發(fā)布在數(shù)據(jù)采集網(wǎng)站的首頁,以便個人了解數(shù)據(jù)的最終去向及可能存在的隱私風(fēng)險。數(shù)據(jù)采集中隱私風(fēng)險消解的另一個常見機(jī)制是設(shè)置審查委員會來監(jiān)督個人數(shù)據(jù)的采集,該委員會的職責(zé)是監(jiān)督采集政策是否合理、同意機(jī)制和公告機(jī)制是否有效實施等。
3.2 披露時期的隱私風(fēng)險消解
筆者認(rèn)為,政府機(jī)構(gòu)采集個人數(shù)據(jù)之后,即使不披露出去,也存在隱私泄露風(fēng)險,但更大的風(fēng)險來自披露時期。如2.2節(jié)所述,實名數(shù)據(jù)存在未授權(quán)披露和低質(zhì)量披露的風(fēng)險,匿名數(shù)據(jù)存在因去標(biāo)識化不徹底而可能被重新識別的風(fēng)險。為了有效降低這些風(fēng)險,在披露之前應(yīng)對這些風(fēng)險進(jìn)行評估,以決定是否披露、如何披露。如圖1所示,隱私風(fēng)險評估包括4個步驟:①數(shù)據(jù)評估,包括識別個人數(shù)據(jù)中是否存在直接和間接標(biāo)識符、是否存在敏感屬性、是否存在難以去標(biāo)識化的信息、與其他數(shù)據(jù)集的可鏈接性等;②收益評估,包括可能受益的用戶群體、潛在收益的重要性、潛在收益變?yōu)楝F(xiàn)實的可能性等;③風(fēng)險評估,包括可能的危險用戶群體、潛在的隱私風(fēng)險及其嚴(yán)重程度、潛在風(fēng)險變?yōu)楝F(xiàn)實的可能性等;④利弊權(quán)衡,在收益評估和風(fēng)險評估的基礎(chǔ)上權(quán)衡利弊,并根據(jù)權(quán)衡結(jié)果來決定是否披露個人數(shù)據(jù),實名披露還是匿名披露。
針對隱私風(fēng)險評估的三種結(jié)果,即不能披露、可以實名披露和需要匿名披露,應(yīng)分別采用不同的風(fēng)險消解機(jī)制。對于不能披露的數(shù)據(jù),由于保存下來仍然會有隱私泄露的風(fēng)險,因此,可以直接銷毀。對于可以實名披露的數(shù)據(jù),應(yīng)采取授權(quán)審核機(jī)制來防止監(jiān)管不力和判斷不準(zhǔn)確所導(dǎo)致的未授權(quán)實名披露,同時采取質(zhì)量監(jiān)控機(jī)制來防止數(shù)據(jù)不準(zhǔn)確、不完整、不公平所導(dǎo)致的低質(zhì)量實名披露。對于需要匿名披露的數(shù)據(jù),可以采用數(shù)據(jù)加密、去標(biāo)識化、數(shù)據(jù)統(tǒng)計的方法進(jìn)行數(shù)據(jù)匿名化,其中去標(biāo)識化方法可采用添加噪音、排列變更、差分隱私、數(shù)據(jù)聚集、K匿名等多種手段[6]。
3.3 保存時期的隱私風(fēng)險消解
從數(shù)據(jù)所有者的角度看,包含著個人隱私的政府?dāng)?shù)據(jù)保存在政府機(jī)構(gòu)或其代理機(jī)構(gòu)中,隱私被泄露的風(fēng)險并不比保存在其他機(jī)構(gòu)中的風(fēng)險低。實名數(shù)據(jù)或匿名數(shù)據(jù)披露之后,除了采用常規(guī)的數(shù)據(jù)保護(hù)措施來保障個人隱私安全之外,還應(yīng)考慮本地原始數(shù)據(jù)的去留對個人隱私安全的影響??刹捎脛h除機(jī)制和透明機(jī)制來降低原始數(shù)據(jù)的隱私泄露風(fēng)險。刪除機(jī)制用于保證在數(shù)據(jù)披露之后的規(guī)定時間點上刪除原始數(shù)據(jù)。對于那些必須由政府機(jī)構(gòu)長期持有的個人數(shù)據(jù),可通過透明機(jī)制來保障個人的知情權(quán),政府機(jī)構(gòu)應(yīng)允許個人通過某種手段(例如,電話查詢、網(wǎng)站查詢、手機(jī)APP查詢)查詢保存在政府信息系統(tǒng)中的個人原始數(shù)據(jù)。
3.4 訪問時期的隱私風(fēng)險消解
外界對包含個人數(shù)據(jù)的政府?dāng)?shù)據(jù)進(jìn)行訪問時,可以通過預(yù)設(shè)的訪問控制機(jī)制來降低訪問過程中的隱私風(fēng)險,訪問許可證、可視化是兩個重要的舉措。前者可在現(xiàn)有開放數(shù)據(jù)許可協(xié)議如Creative Commons Attribution、UK Open Government License等的基礎(chǔ)上添加一項“禁止重新識別個人隱私數(shù)據(jù)”,將其作為新的開放政府?dāng)?shù)據(jù)使用許可協(xié)議,并放置在開放政府?dāng)?shù)據(jù)網(wǎng)站的顯著位置,以便禁止以重新識別個人隱私數(shù)據(jù)為目的的用戶訪問并獲取數(shù)據(jù)。后者通過查詢系統(tǒng)來限制外界對個人數(shù)據(jù)的訪問行為,具體辦法是政府機(jī)構(gòu)通過API接口來開放政府?dāng)?shù)據(jù),外界需要輸入查詢條件來獲取檢索結(jié)果,且該結(jié)果以可視化方式呈現(xiàn),從而進(jìn)一步降低了從中重新識別個人數(shù)據(jù)的風(fēng)險。
3.5 使用時期的隱私風(fēng)險消解
為了進(jìn)一步降低個人數(shù)據(jù)在使用時期的隱私風(fēng)險,可以建立必要的審計機(jī)制和問責(zé)機(jī)制。前者用于檢查個人數(shù)據(jù)如何被利用和共享,以及是否存在濫用行為,后者用于對侵犯隱私權(quán)的行為進(jìn)行民事或刑事處罰。如圖1所示,在開放政府?dāng)?shù)據(jù)全生命周期的5個時期中,對個人數(shù)據(jù)隱私風(fēng)險的控制都是動態(tài)的,當(dāng)外部條件(如與個人隱私保護(hù)相關(guān)的國家政策、法律、法規(guī),外部數(shù)據(jù)源)發(fā)生變化時,需要及時調(diào)整原有的隱私風(fēng)險控制機(jī)制。
4 結(jié)語
開放政府?dāng)?shù)據(jù)中包含著大量的個人數(shù)據(jù),應(yīng)采取必要的措施來預(yù)防個人隱私的泄露。本文在分析開放政府?dāng)?shù)據(jù)中個人隱私風(fēng)險類型的基礎(chǔ)上,提出了一種基于全生命周期的個人隱私風(fēng)險動態(tài)消解機(jī)制,可對采集、披露、保存、訪問、使用時期的個人隱私風(fēng)險進(jìn)行動態(tài)性的預(yù)防和消解。
參考文獻(xiàn):
[1]Open Definition 2.1[EB/OL].(2017-12-16)[2018-01-01].http://opendefinition.org/od/2.1/en/ .
[2]Kucera J, Chlapek D. Benefits and risks of open government data[J]. Journal of Systems Integration,2014(1):30-41.
[3]Graux H. Open government data: reconciling PSI reuse rights and privacy concerns [EB/OL]. (2017-11-16)[2018-01-01].https://www.europeandataportal.eu/sites/default/files/2011_open_government_ data_reconciling_psi_re_use_rights_and_privacy_concerns.pdf.
[4]中國社會科學(xué)院語言研究所.現(xiàn)代漢語詞典[M].北京:商務(wù)印書館,1991.
[5]City of Seattle open data risk assessment[EB/OL].(2017-11-12)[2018-01-01]. https://fpf.org/wp-content/uploads/2017/08/FPF-Seattle-Open-Data-Report_Proposed-Draft-August-2017.pdf.
[6]Chen R,F(xiàn)ung B C M,Mohammed N,et al. Privacy-preserving trajectory data publishing by local suppression[J]. Information Sciences,2013(1):83-97.
[7]Sweeney L. Simple Demographics Often Identify People Uniquely[J]. Pittsburgh,2000 (2000): 1-34.
[8]Zuiderveen Borgesius F,Van Eechoud M,Gray J. Open data, privacy, and fair information principles: towards a balancing framework[J]. Social Science Electronic Publishing,2015(30):1-47.