羅東華
摘 要:在公安交通管理領(lǐng)域,卡口車牌識(shí)別數(shù)據(jù)包含信息量齊全、準(zhǔn)確,受到廣泛地采用,但是該數(shù)據(jù)在使用過程中也容易造成個(gè)人隱私信息泄露。為研究研究卡口車牌識(shí)別數(shù)據(jù)中的隱私披露風(fēng)險(xiǎn),減少卡口車牌數(shù)據(jù)在使用過車中造成的信息泄露,本文基于K匿名隱私保護(hù)模型,對(duì)卡口車牌識(shí)別數(shù)據(jù)中的隱私泄露風(fēng)險(xiǎn)進(jìn)行分析和研究,提出常用脫敏手段和方法。并以廣州市卡口車牌識(shí)別數(shù)據(jù)作為實(shí)例進(jìn)行分析計(jì)算,提出具體的數(shù)據(jù)脫敏措施,在分析計(jì)算中發(fā)現(xiàn):時(shí)間分辨率與的隱私保護(hù)程度成正比,而與信息保存率成反比。在本文的結(jié)尾提出了該算法存在的不足,并指明未來進(jìn)一步深入研究的方向。本文對(duì)相關(guān)領(lǐng)域人員進(jìn)行數(shù)據(jù)脫敏研究具有一定的借鑒意義。
關(guān)鍵詞:交通管理數(shù)據(jù);卡口車牌;數(shù)據(jù)脫敏;匿名隱私保護(hù);時(shí)間分辨率
0 引言
隨著政府信息化的不斷深入,公眾的個(gè)人信息被信息化系統(tǒng)(如視頻卡口監(jiān)測(cè)系統(tǒng))廣泛采集。在公安交通管理領(lǐng)域,卡口車牌識(shí)別數(shù)據(jù)作為位置數(shù)據(jù)的典型組成,記錄了車輛車牌號(hào)、車牌顏色、行駛方向等信息,并標(biāo)記了圖像采集的卡口位置,車輛的歷史軌跡通過一系列由卡口和經(jīng)過時(shí)間的時(shí)間-空間二元元組重構(gòu)。近年來,車牌識(shí)別數(shù)據(jù)因其數(shù)據(jù)采集率高、覆蓋范圍廣和數(shù)據(jù)準(zhǔn)確率高等優(yōu)勢(shì)而受到研究者們的廣泛關(guān)注。例如,GY Jiang和AD Chang等結(jié)合車牌識(shí)別數(shù)據(jù)監(jiān)測(cè)交通擁擠[1],H Chen和C Yang等學(xué)者利用車牌識(shí)別數(shù)據(jù)研究個(gè)體時(shí)空交通行為等[2]。隨著第三方研究機(jī)構(gòu)對(duì)卡口車牌識(shí)別數(shù)據(jù)研究需求的不斷增長(zhǎng),隨之而來的隱私問題則成為了人們關(guān)注的焦點(diǎn)。因此,研究卡口車牌識(shí)別數(shù)據(jù)中的隱私披露風(fēng)險(xiǎn),探究車牌識(shí)別數(shù)據(jù)的脫敏技術(shù)和隱私保護(hù)方法具有重要意義。本文基于K匿名隱私保護(hù)模型,來探討卡口車牌識(shí)別數(shù)據(jù)中的隱私泄露風(fēng)險(xiǎn)和相關(guān)脫敏手段和方法。
1 K匿名隱私保護(hù)模型
經(jīng)過匿名化處理發(fā)布的數(shù)據(jù)集,一般為數(shù)據(jù)表形式:表中的每一條記錄對(duì)應(yīng)一個(gè)個(gè)體,包含多個(gè)屬性值,屬性值包含個(gè)體多方面的信息。這些屬性可以分為三類:
(1)標(biāo)識(shí)符(Identifier):能唯一標(biāo)識(shí)單一個(gè)體的屬性,如姓名、身份證號(hào)碼和車牌號(hào)等。在數(shù)據(jù)表中刪除標(biāo)識(shí)符或匿名化處理在一定程度上可以達(dá)到隱私保護(hù)的目的。
(2)準(zhǔn)標(biāo)識(shí)符(Quasi-Identifier, QI):數(shù)據(jù)表中若干屬性的組合,這些組合能夠同外部信息結(jié)合鏈接,對(duì)個(gè)體重新標(biāo)識(shí),識(shí)別出主體身份。
(3)敏感屬性(Sensitive Attribute):包含隱私信息的屬性,如疾病、薪資,家庭住址等。
例如,在匿名化隱私數(shù)據(jù)表1中,通過刪除姓名屬性和社會(huì)保險(xiǎn)代碼兩種標(biāo)識(shí)符屬性,數(shù)據(jù)被初步匿名化。但表中還包含種族、生日、性別和郵政編碼等一般屬性和婚姻狀況、患病情況等敏感屬性,這些屬性能夠被鏈接到非匿名化的公開候選人情況(含姓名、地址、所在城市、婚姻狀況、性別、出生日期、郵政編碼等屬性),從而泄露個(gè)體的婚姻狀況、患病情況等敏感信息。如在候選人列表中,在San Francisco的一位離婚女性,出生日期為64/09/27,該記錄在匿名化醫(yī)療信息表中是唯一的,通過表1的鏈接,盡管在醫(yī)療信息表中并未包含標(biāo)識(shí)符屬性,仍然容易推算該女性為Susan,同時(shí)也獲取到了她的敏感信息——患艾滋病。
針對(duì)此問題,2002年Sweeney L提出了K-anonymity隱私保護(hù)模型[3]。在K匿名性的約束下,數(shù)據(jù)集中的任意個(gè)體應(yīng)該至少與其他K-1個(gè)個(gè)體是不可區(qū)分的。具體的,K-anonymity的定義如下:
K-anonymity:給定數(shù)據(jù)表,是與相關(guān)聯(lián)的準(zhǔn)標(biāo)識(shí)符,當(dāng)且僅當(dāng)在中出現(xiàn)的每個(gè)值序列至少要在中出現(xiàn)K次,則滿足K-匿名。表示表的元祖在準(zhǔn)標(biāo)識(shí)符上的投影。
在匿名化醫(yī)療信息表1中,準(zhǔn)標(biāo)識(shí)符為{種族,出生日期,性別,郵政編碼,婚姻狀況},該表滿足K匿名當(dāng)且僅當(dāng)K=1。通過對(duì)表1的出生日期、郵政編碼屬性進(jìn)行匿名化處理,即將出生日期后3位匿名化(如64/09/27處理為64/0*/**)、將郵政編碼后兩位進(jìn)行匿名化(如94139處理為941**)得到匿名化處理后發(fā)布的數(shù)據(jù)表,準(zhǔn)標(biāo)識(shí)符依然為{種族,出生日期,性別,郵政編碼,婚姻狀況},K=2。在這種情況下,Susan的隱私信息就不能通過與外部信息的鏈接而被唯一的標(biāo)識(shí),也就達(dá)到了隱私保護(hù)的效果。
相應(yīng)的在車牌識(shí)別數(shù)據(jù)集中,對(duì)某輛車的出行軌跡,從中選取若干記錄組成其準(zhǔn)標(biāo)識(shí)符,根據(jù)準(zhǔn)標(biāo)識(shí)符在其他車輛軌跡集合中的出現(xiàn)次數(shù)確定該車的個(gè)體匿名性界定其個(gè)體隱私披露的風(fēng)險(xiǎn)。
2 測(cè)試數(shù)據(jù)集介紹
本案例基于廣州市卡口車牌識(shí)別數(shù)據(jù)集。數(shù)據(jù)集記錄了廣州市主要視頻監(jiān)測(cè)卡口和各個(gè)時(shí)間段的車輛車牌識(shí)別數(shù)據(jù)。本案例從完整數(shù)據(jù)集中隨機(jī)選取10萬輛車約700萬條數(shù)據(jù)記錄。視頻卡口主要集中分布在廣州內(nèi)環(huán)路附近及中心城區(qū)??谶^車記錄包含了有關(guān)車輛行駛信息和位置信息的若干屬性,其中車牌信息已經(jīng)經(jīng)過MD5匿名化處理。表2列出了某原始記錄的各個(gè)字段。
從表中可以看出,原始的車牌識(shí)別數(shù)據(jù)記錄中的時(shí)間信息精確到秒,這樣的時(shí)間分辨率足以讓數(shù)據(jù)集中的每一輛車都被唯一的標(biāo)識(shí),而且對(duì)于大多數(shù)交通領(lǐng)域的研究比如交通流量的統(tǒng)計(jì)等,如此精確的時(shí)間分辨率也帶來冗余的信息。為此,本案例通過時(shí)間維度上的聚合將1天24小時(shí)轉(zhuǎn)換為若干相同時(shí)間間隔t的時(shí)間段。例如設(shè)置時(shí)間聚合度t為2 h,則意味著通過聚合2017-03-01 00:00:00至2017-03-01 02:00:00的記錄為一個(gè)統(tǒng)一的THROUGHTIMEID: 101,依次類推,THROUGHTIMEID: 1509就代表2017-03-15 16:00:00至2017-03-15 18:00:00時(shí)間段內(nèi)數(shù)據(jù)記錄的時(shí)間戳。本案例考慮了5個(gè)級(jí)別的時(shí)間聚合度t:0.5 h、1 h、3 h、6 h、12 h。
3 結(jié)果分析
具體的,對(duì)于某車輛,從該車的出行軌跡中隨機(jī)采樣的方式得到其相應(yīng)的準(zhǔn)標(biāo)識(shí)符,遍歷所有車輛的出行軌跡集合,統(tǒng)計(jì)軌跡中包含的個(gè)體車輛集合為該個(gè)體的匿名性集合,個(gè)體匿名性集合中所包含的車輛數(shù)則為的匿名性,遍歷發(fā)布車輛集合中的所有個(gè)體得到所有個(gè)體的匿名性列表K。具體實(shí)現(xiàn)如下。
基于此算法,在時(shí)間聚合度t為0.5 h,1 h,3 h,6 h和12 h,5個(gè)級(jí)別的時(shí)間分辨率下,選取不同的記錄數(shù),組成準(zhǔn)標(biāo)識(shí)符,標(biāo)識(shí)統(tǒng)計(jì)數(shù)據(jù)集中個(gè)體的匿名性。為了更好的體現(xiàn)不同時(shí)間分辨率及不同記錄數(shù)標(biāo)識(shí)下個(gè)體匿名性的差異,直觀地分析時(shí)間分辨率對(duì)個(gè)體匿名性的影響,然而隨著準(zhǔn)標(biāo)識(shí)符記錄數(shù)的增加,個(gè)體匿名性呈現(xiàn)顯著的下降趨勢(shì)。為了更直觀的揭示準(zhǔn)標(biāo)識(shí)符長(zhǎng)度即標(biāo)識(shí)記錄數(shù)對(duì)個(gè)體匿名性的影響,本案例選定時(shí)間分辨率為12 h,選用不同數(shù)量記錄來標(biāo)識(shí)個(gè)體匿名性,繪制被唯一標(biāo)識(shí)的個(gè)體的占比情況,誤差線代表99%的置信區(qū)間。盡管時(shí)間分辨率已經(jīng)被粗化到12 h,仍然有將近90%的車輛能夠被5個(gè)時(shí)空軌跡點(diǎn)唯一的標(biāo)識(shí)。這意味著,車牌號(hào)碼經(jīng)過脫敏處理的卡口車牌識(shí)別數(shù)據(jù)仍然隱含著巨大的隱私泄露風(fēng)險(xiǎn),這也說明了對(duì)于卡口車牌識(shí)別數(shù)據(jù)集,通過簡(jiǎn)單的MD5等手段對(duì)車牌號(hào)碼進(jìn)行轉(zhuǎn)換來實(shí)現(xiàn)數(shù)據(jù)脫敏是遠(yuǎn)遠(yuǎn)不夠的。
4 總結(jié)
本研究針對(duì)公安交通管理領(lǐng)域的交通數(shù)據(jù),研究數(shù)據(jù)脫敏方法與技術(shù),從數(shù)據(jù)脫敏的技術(shù)現(xiàn)狀和政策要求來看,盡管國內(nèi)對(duì)數(shù)據(jù)安全和隱私保護(hù)做出了一些規(guī)定,但在交通數(shù)據(jù)方面,這樣的規(guī)范和行業(yè)標(biāo)準(zhǔn)卻相對(duì)缺乏。本文揭露了卡口過車記錄數(shù)據(jù)集中的個(gè)體由于被重標(biāo)識(shí)而導(dǎo)致隱私泄露的風(fēng)險(xiǎn)。探究不同時(shí)間分辨率下的個(gè)體隱私泄露風(fēng)險(xiǎn)的程度,這為個(gè)體隱私保護(hù)提供了思路。更大的時(shí)間分辨率意味著更高程度的隱私保護(hù)程度,同時(shí)也意味著更多的信息損失。為此,未來的方向?qū)?huì)在隱私保護(hù)算法的設(shè)計(jì),其能夠針對(duì)不同的數(shù)據(jù)脫敏程度要求,對(duì)數(shù)據(jù)進(jìn)行脫敏,以求達(dá)到個(gè)體隱私保護(hù)和數(shù)據(jù)效用的均衡。
參考文獻(xiàn):
[1]Gui-Yan,Jiang,C.An-De,and N.Shi-Feng.“Traffic congestion identification method based on license plate recognition data.”Journal of Harbin Institute of Technology 43.4(2011):131-135.
[2]Chen,Huiyu,Chao Yang,and Xiangdong Xu.“ClusteringVehicle Temporal and Spatial Travel Behavior Using License Plate Recognition Data.” Journal of Advanced Transportation 2017(2017).
[3]Sweeney,Latanya.“k-ANONYMITY:.”International Journal of Uncertainty,F(xiàn)uzziness and Knowledge-Based Systems10.05(2008):557-570.