(山西鐵道職業(yè)技術(shù)學(xué)院 山西 030013)
隨著社會(huì)信息化程度的加深,越來(lái)越多的信息被數(shù)據(jù)化,每時(shí)每刻都產(chǎn)生著海量的數(shù)據(jù)。有來(lái)自機(jī)器產(chǎn)生的結(jié)構(gòu)性數(shù)據(jù),包括各種信息系統(tǒng)的運(yùn)行數(shù)據(jù),日志數(shù)據(jù),環(huán)境傳感器數(shù)據(jù)等;還有來(lái)自人類產(chǎn)生的非結(jié)構(gòu)性數(shù)據(jù),包括語(yǔ)音錄音數(shù)據(jù)、圖片和視頻數(shù)據(jù)、各種形式的文字?jǐn)?shù)據(jù)等等;這些數(shù)據(jù)在沒(méi)有“大數(shù)據(jù)”這個(gè)概念之前就已經(jīng)長(zhǎng)期存在了,這些海量數(shù)據(jù)在被發(fā)現(xiàn)“有價(jià)值”的時(shí)候,越來(lái)越多的人關(guān)注到了它。很多企業(yè)和組織抓住了大數(shù)據(jù)所帶來(lái)的無(wú)限機(jī)遇,與此同時(shí),個(gè)人或者組織的信息安全也很大程度遭受沖擊。
個(gè)人信息的數(shù)據(jù)收集無(wú)處不在,信息能夠使人們的生活更方便,但是使用這些數(shù)據(jù)的行為并不透明,導(dǎo)致人們的隱私受到威脅。個(gè)人作為用戶去使用商業(yè)公司或組織機(jī)構(gòu)提供的服務(wù)時(shí)一般都會(huì)簽署類似免責(zé)聲明“具有法律約束力”的合同類條款,這些條款中一般會(huì)包括用戶協(xié)議、隱私政策、cookie 政策。同意這些協(xié)議后代表這些商業(yè)公司可以使用這些數(shù)據(jù)為用戶提供服務(wù),大大小小的商業(yè)公司尤其是互聯(lián)網(wǎng)公司,在給人提供各種各樣的服務(wù),每個(gè)人都是受益者,人們?cè)谏钪锌梢噪S時(shí)隨地找到附近的共享單車;能夠隨時(shí)隨地在各個(gè)設(shè)備終端瀏覽自己的數(shù)字文檔、視頻;還能夠在雙手忙于開(kāi)車的同時(shí)使用AI 語(yǔ)音助手得到自己想要的信息。與此同時(shí),個(gè)人產(chǎn)生的信息將不可避免的上傳到這些互聯(lián)網(wǎng)公司。例如:提供共享單車的公司會(huì)得到個(gè)人用戶的位置信息,對(duì)應(yīng)時(shí)間。提供云存儲(chǔ)服務(wù)的公司能夠得到所有用戶主動(dòng)上傳到網(wǎng)絡(luò)的各種文字、圖片、視頻等數(shù)字資源。提供AI語(yǔ)音服務(wù)的公司會(huì)得到用戶所關(guān)注的關(guān)鍵詞、對(duì)應(yīng)時(shí)間以及用戶的語(yǔ)音資料等。
在廣義上個(gè)人隱私數(shù)據(jù)需要符合四個(gè)要素:時(shí)間、地點(diǎn)、人物、事件。通過(guò)事件查看器可以查看一個(gè)操作系統(tǒng)中的系統(tǒng)日志等,在隱私保護(hù)時(shí),只需要把其中的關(guān)鍵項(xiàng)屬性進(jìn)行加密隱藏就可以起到保護(hù)的作用,所以對(duì)于個(gè)人隱私的保護(hù)在很多時(shí)候也是存在著這樣的思想:采取某些方式保護(hù)整體信息中的一部分屬性,那么大部分場(chǎng)景下就起到了保護(hù)整體隱私數(shù)據(jù)的作用。例如:去除四要素中的“地點(diǎn)”,屬于位置隱私保護(hù);去除“人物”包括個(gè)人基本信息,屬于身份隱私保護(hù);如果把“時(shí)間”“地點(diǎn)”“人物”的聯(lián)系進(jìn)行消除操作,那么就可以起到行為隱私的保護(hù)。
在實(shí)際中還存在一個(gè)關(guān)鍵的因素,使個(gè)人隱私信息被大概率的暴露。隨著高性能智能化終端的大面積使用,商業(yè)機(jī)構(gòu)和組織借助大數(shù)據(jù),能夠同步獲取用戶的實(shí)時(shí)位置,聲音,圖像;如果一個(gè)人在進(jìn)行一個(gè)“超市購(gòu)物”的事件,那么所有這個(gè)事件涉及的屬性包括支付金額,超市地點(diǎn),銀行賬戶,消費(fèi)類型也會(huì)同步上傳。這種監(jiān)控個(gè)人隱私的行為是不間斷無(wú)目的地進(jìn)行的,就像視頻監(jiān)控一樣,一直不斷地產(chǎn)生大量的持續(xù)的數(shù)據(jù),只有發(fā)生了“事件”才會(huì)被重點(diǎn)保護(hù)。事實(shí)是,除了發(fā)生“事件”以外大量的連續(xù)性的數(shù)據(jù)也是屬于個(gè)人隱私的一部分,這種數(shù)據(jù)并不能受到良好的保護(hù)。這些數(shù)據(jù)有可能被上傳到服務(wù)公司,同時(shí)也容易成為網(wǎng)絡(luò)犯罪人員進(jìn)行社會(huì)工程學(xué)的數(shù)據(jù)對(duì)象。
這些散亂的數(shù)據(jù)隨著時(shí)間的推移,可能會(huì)與其他數(shù)據(jù)聚合在一起作為一種數(shù)據(jù)資源不受控制的被第三方組織獲得并使用[1]。AI 的發(fā)展使得機(jī)器能夠?qū)A康拇髷?shù)據(jù)進(jìn)行多維度精準(zhǔn)分析。這能夠幫助機(jī)構(gòu)從數(shù)據(jù)中提取有規(guī)律性,高關(guān)聯(lián)性的結(jié)構(gòu)性數(shù)據(jù)。例如:如果在終端設(shè)備上使用Facebook 賬號(hào)訪問(wèn)一個(gè)外部鏈接,那么所有的行為都可能被Facebook 關(guān)聯(lián)到用戶的真實(shí)身份信息上。Facebook 的8700 萬(wàn)用戶數(shù)據(jù)被不正當(dāng)泄露給一家政治咨詢公司Cambridge Analytica(劍橋分析),這家第三方公司使用這些數(shù)據(jù)用于2016 年總統(tǒng)選舉[2]。
個(gè)人和設(shè)備產(chǎn)生了大量的數(shù)據(jù),但是這些數(shù)據(jù)之外還有一種數(shù)據(jù)可能會(huì)成為潛在的風(fēng)險(xiǎn)。在2016 年9 月13 日舉行的“T11 2016暨”TalkingData 智能數(shù)據(jù)峰會(huì)上,TalkingData 提出“目前僅有20%的數(shù)據(jù)放在了互聯(lián)網(wǎng)上,80%的數(shù)據(jù)仍然游離在互聯(lián)網(wǎng)之外”。在80%的互聯(lián)網(wǎng)外數(shù)據(jù)中,有部分?jǐn)?shù)據(jù)是可能會(huì)上傳到互聯(lián)網(wǎng)的,但是很大機(jī)會(huì)是作為垃圾數(shù)據(jù)游離存在的。例如:設(shè)備日常的日志數(shù)據(jù),用戶手機(jī)中被遺棄的照片、視頻、語(yǔ)音數(shù)據(jù)等。這類數(shù)據(jù)有可能被主動(dòng)或非主動(dòng)上傳到網(wǎng)絡(luò)。這些數(shù)據(jù)在經(jīng)過(guò)機(jī)構(gòu)的處理后可以挖掘出很多組織需要隱藏或保密的信息。下面的一個(gè)實(shí)例可以說(shuō)明“游離”的數(shù)據(jù)可以挖掘的信息內(nèi)容。
Twitter 用戶Doxsor 發(fā)布一張圖片顯示一輛軍用車輛(圖1)。一些解密愛(ài)好者使用OSINT(open source intelligence)方法對(duì)模糊照片進(jìn)行分析。通過(guò)分析照片的特征位置可以找到9 個(gè)各點(diǎn)位的特征,第一步,通過(guò)最明顯的7 號(hào)位置的一個(gè)廣告類網(wǎng)址查到了一家拖車公司主要業(yè)務(wù)分布在歐洲境內(nèi);第二步,6 號(hào)位置的黃色車牌信息也可以作為一個(gè)子項(xiàng)圖片進(jìn)行深度學(xué)習(xí)圖像識(shí)別車牌顏色,代碼格式,車牌內(nèi)容結(jié)構(gòu)以及模糊部位比對(duì)后,從公開(kāi)的歐洲車牌信息中可以發(fā)現(xiàn)屬于塞浦路斯和丹麥;5 號(hào)位置的“運(yùn)輸”字樣作為很多國(guó)家通用的標(biāo)識(shí)不能被采納。第三步,在主要信息中通過(guò)1 號(hào)位置軍用車輛的尾部結(jié)構(gòu)特征可以找到型號(hào)為瑞典產(chǎn)CV90 步兵車,并且公開(kāi)信息中知道這種車輛出口到世界多個(gè)國(guó)家;第四步,通過(guò)三號(hào)位的編號(hào)結(jié)構(gòu),對(duì)比進(jìn)口數(shù)量最多的幾個(gè)國(guó)家(挪威,丹麥)之后,確定這個(gè)車輛屬于丹麥軍方;第五步,通過(guò)Wikipedia 公開(kāi)資料查找到CV90 步兵車僅僅發(fā)放給了兩個(gè)單位以及駐地;第六步,在通過(guò)2 號(hào)位置的特征可以搜索到丹麥第二旅的徽章樣式對(duì)比。這樣就可以推斷出軍用車輛所屬單位及駐地。
圖1 圖例
要想進(jìn)一步挖掘出“事件”中的重要信息,還需要在其他的信息點(diǎn)進(jìn)行支持。分析人員接下來(lái)進(jìn)行第七步,通過(guò)9 號(hào)位置的路邊陰影部分在車輛右側(cè),結(jié)合背景中樹(shù)木的茂盛程度以及歐洲區(qū)域,得出結(jié)論車輛大致詳細(xì)行駛,公路方向大致西偏東;第八步,8 號(hào)位的電線桿頂部,類似于電氣化鐵路使用電線桿,推斷所在位置為一條與鐵路平行的公路;第九步,通過(guò)4 號(hào)位置的藍(lán)色路牌“-drup”結(jié)尾的地方,結(jié)合第六第七第八步得出的推斷,可以在地圖上定位在丹麥Vemmedrup 附近E20 公路,而CV90 可能前往的最近軍營(yíng)是Slagelse的Antvorskov 軍營(yíng)[3]。
這個(gè)實(shí)例中通過(guò)6 號(hào)位置定位“歐洲”;1 號(hào)位置定位“CV90 步兵車”;2 號(hào)、3 號(hào)及6 號(hào)位置定位“丹麥軍隊(duì)及駐地”;9 號(hào)位置定位“車輛行駛方向及公路方向”;8 號(hào)位置定位“在鐵路左側(cè)”;4 號(hào)位置定位“Vemmedrup 附近E20 公路”;所有信息結(jié)合推斷出“CV90 可能前往的最近軍營(yíng)是Slagelse 的Antvorskov 軍營(yíng)”。
通過(guò)以上實(shí)例可以看出一些“游離”的數(shù)據(jù)結(jié)合現(xiàn)有網(wǎng)絡(luò)中公開(kāi)的各種信息數(shù)據(jù)資源,再經(jīng)過(guò)邏輯推理后是可以對(duì)機(jī)構(gòu)和組織的隱私信息產(chǎn)生暴露威脅的。一些人可能處于好奇或者興趣偶然性的拍攝一些照片,主動(dòng)或者無(wú)意間上傳到網(wǎng)絡(luò)中,使“游離”信息數(shù)據(jù)被一些組織機(jī)構(gòu)所搜集。分析機(jī)構(gòu)可以在前期使用大量測(cè)試數(shù)據(jù)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network)模型進(jìn)行人工智能深度學(xué)習(xí)。得到可以使用的模型,就可以輕易的應(yīng)用到實(shí)際的類似照片信息挖掘中。再結(jié)合人工識(shí)別分析就可以得到“事件”中的重要信息。所以網(wǎng)絡(luò)內(nèi)外大量留存的“游離”信息數(shù)據(jù)可以對(duì)組織產(chǎn)生極大影響。
個(gè)人隱私信息范圍在實(shí)際生活中的界定是非常難的。商業(yè)公司在收集數(shù)據(jù)方面往往會(huì)超出其業(yè)務(wù)所需要的范圍,并且使用“免費(fèi)提供服務(wù)”的名義去鼓勵(lì)使用者積極參與。在與用戶簽訂的數(shù)據(jù)信息授權(quán)協(xié)議中常常以“默認(rèn)”、“隱藏”等方式讓其行為合法。在后續(xù)的信息數(shù)據(jù)使用方面,商業(yè)機(jī)構(gòu)或組織對(duì)數(shù)據(jù)的收集過(guò)程,分析目的,存儲(chǔ),轉(zhuǎn)移等行為都是在“黑盒”中進(jìn)行的,這些行為對(duì)用戶是不透明的。4由于政府在公信力方面有天然的優(yōu)勢(shì),所以可以讓政府主導(dǎo)把用戶的數(shù)據(jù)作為公共物品管理。未來(lái)社會(huì),數(shù)據(jù)技術(shù)突破后,商業(yè)機(jī)構(gòu)及組織可以在政府監(jiān)管下獲取由政府進(jìn)行去敏感性的數(shù)據(jù)使用接口,數(shù)據(jù)掌握在政府主導(dǎo)的機(jī)構(gòu)中,所有的商業(yè)組織沒(méi)有直接讀取原數(shù)據(jù)和存儲(chǔ)數(shù)據(jù)的權(quán)利,這樣能夠很大程度解決個(gè)人隱私數(shù)據(jù)被不正當(dāng)使用的行為。
同樣的,“游離”數(shù)據(jù)也會(huì)在未來(lái)持續(xù)存在很長(zhǎng)一段時(shí)間,在實(shí)行網(wǎng)絡(luò)實(shí)名制的今天,網(wǎng)絡(luò)審查制度能夠很大程度杜絕這些數(shù)據(jù)產(chǎn)生的后續(xù)影響,但是還需要在法治和宣傳教育方面著手,從源頭上杜絕掉這些有意產(chǎn)生敏感數(shù)據(jù)的行為。
大量數(shù)據(jù)分析技術(shù)的產(chǎn)生成就了大數(shù)據(jù)時(shí)代,為各個(gè)組織和個(gè)人提供了價(jià)值和方便,但是相對(duì)的缺乏監(jiān)管和信息安全意識(shí)也導(dǎo)致了各種各樣的隱私泄露和安全威脅。針對(duì)這些問(wèn)題,政府應(yīng)當(dāng)加強(qiáng)對(duì)數(shù)據(jù)存儲(chǔ)、轉(zhuǎn)移、使用的監(jiān)管,同時(shí)要完善信息安全法律法規(guī),加大宣傳引導(dǎo)公民增強(qiáng)信息安全意識(shí),維護(hù)網(wǎng)絡(luò)信息安全。