張元 梁湘沙 陸靈鵬
摘 要:大數(shù)據(jù)作為一種技術(shù),屬于事實的范疇,而隱私屬于人的價值范疇。自近代科學(xué)技術(shù)的迅速發(fā)展以來,科技與價值就是對立統(tǒng)一的。大數(shù)據(jù)與隱私權(quán)就是科技與價值關(guān)系的典型一例。本文從大數(shù)據(jù)的特點(diǎn)、數(shù)據(jù)信息方式等方面來探討大數(shù)據(jù)與隱私的對立統(tǒng)一關(guān)系,解析大數(shù)據(jù)如何威脅隱私。
關(guān)鍵詞:大數(shù)據(jù);隱私;保護(hù)
中圖分類號:F713.8 文獻(xiàn)標(biāo)識碼:A 文章編號:1673-2596(2016)09-0096-03
如今大數(shù)據(jù)的應(yīng)用已經(jīng)不局限在某個領(lǐng)域。一些機(jī)構(gòu)使用大數(shù)據(jù)知識,從各種數(shù)據(jù)中挖掘有價值的聯(lián)系。尤其是,在被掌握的數(shù)據(jù)和數(shù)據(jù)來源之間,大數(shù)據(jù)能用來減少信息的不對稱性:大數(shù)據(jù)研究機(jī)構(gòu)能從個人和其他代理中獲得信息。
但是從個人的角度來說,隱私是維持或確保信息不對稱性的能力,換句話說,個人用隱私權(quán)來限制他人窺探自己的信息。因此,大數(shù)據(jù)的初衷和隱私是潛在地或者說是根本上的對立。因此,如何處理他們之間的關(guān)系成為十分重要的問題。一般來說,大數(shù)據(jù)增加了數(shù)據(jù)的量和范圍,隱私就會逐漸減少。雖然隱私有適當(dāng)?shù)慕缦?,但是人們一般都會認(rèn)為:在大數(shù)據(jù)環(huán)境下自己的隱私已經(jīng)沒有那么多了。
隱私有許多方面的涵義,例如,谷歌就把隱私定義為“不被他人注意或干擾的自由的狀態(tài)”和“在公眾關(guān)注下的自由狀態(tài)”。從這種觀點(diǎn)看,隱私似乎與監(jiān)視、不想被注意以及干擾有關(guān)。
此外,應(yīng)該注意的是,隱私可以被自愿地犧牲,例如,在犧牲隱私的結(jié)果所帶來的利益大于隱私的犧牲的情況下,許多人還是愿意選擇利益而不是隱私。不過,這種犧牲的界限或尺度是不可能被完全把握的。人們交往產(chǎn)生的信息可以被許多方式使用和挖掘,然而,許多使用的方式是侵害隱私的。
本文將審查對隱私問題關(guān)注的兩種不同的觀點(diǎn)。第一種,分析大數(shù)據(jù)的五個“v”的特點(diǎn),利用大數(shù)據(jù)的本身性質(zhì)來保護(hù)隱私。第二種,分析減少信息不對稱性的不同方式:鏈接數(shù)據(jù)、從本地擴(kuò)散到全球、相關(guān)被收集的數(shù)據(jù)、對話的推測以及其他使用數(shù)據(jù)的不同方式。因此,本文將考察隱私的概念和大數(shù)據(jù)與隱私之間的張力。
一、大數(shù)據(jù)是非對稱性數(shù)據(jù)
大數(shù)據(jù)的特點(diǎn)為數(shù)量大(volume)、速度快(velocity)、真實性(veracity)、多樣化(variety)和價值性(value)。①下面我將一一分析。
(一)數(shù)量大
一些機(jī)構(gòu)組織以隱私原則為基礎(chǔ),僅僅最小限度地收集需要的信息的量。最小限度量的標(biāo)準(zhǔn)是基于“當(dāng)滿足一個特殊目的或?qū)崿F(xiàn)一個特殊功能是沒有必要時,信息是不能被使用或公開”的觀點(diǎn)。②因此,信息的數(shù)量是評判隱私的參數(shù)。
關(guān)于個人或機(jī)構(gòu)的數(shù)據(jù)量在現(xiàn)實的數(shù)據(jù)源或交叉數(shù)據(jù)源中是不均勻的。當(dāng)對你班級的同學(xué)進(jìn)行谷歌搜索,你會發(fā)現(xiàn),一些人點(diǎn)信息都沒查到,但是有些卻發(fā)現(xiàn)有很多信息條目。與此類似,現(xiàn)實中任何一個機(jī)構(gòu)組織,其數(shù)據(jù)量也是不均勻的,不管是臉書(Face book)、推特(Twitter)還是內(nèi)部的信息。數(shù)據(jù)量的不均勻性來源于不同媒介的使用,無論是傳統(tǒng)媒體還是新媒體。例如,企業(yè)經(jīng)常發(fā)布公共關(guān)系的新聞,這些新聞不經(jīng)意就暴露了關(guān)鍵職員的姓名和信息。又如,像推特和臉書這樣的社交媒體能提供個人在做什么,在哪里,何時等信息。
數(shù)據(jù)信息量的不均勻意味著變量和檢測機(jī)器的數(shù)量是不平均的。變量越多,就能構(gòu)建更多的模型,例如行為的時間連續(xù)性模型。此外,如果在數(shù)據(jù)中有更多的變量,那么目標(biāo)就更容易被了解和理解。使用更多變量能提供事件,個人或機(jī)構(gòu)的更完整的描述。收集到個人和組織更多的數(shù)據(jù)意味著需要更多的數(shù)據(jù)分析,而分析數(shù)據(jù)又必須有更多的數(shù)據(jù),這樣才能更完整把握目標(biāo),因此,會不斷增加對個人的監(jiān)視或監(jiān)測。假設(shè)減少了數(shù)據(jù)需求,也就能在一定程度上保護(hù)隱私。然而,更少的數(shù)據(jù)意味著我們需要描述的事物只能以更少數(shù)據(jù)進(jìn)行分析,這不利于我們對事物分析推理。如果數(shù)據(jù)僅僅是幾個方面的變量,那么事物的分析也僅僅是在這幾個變量的基礎(chǔ)上進(jìn)行的。
(二)速度快
據(jù)統(tǒng)計,目前全世界大約90%的數(shù)據(jù)是在過去兩年中產(chǎn)生的。因此,速度快這個特征對產(chǎn)生大量數(shù)據(jù)具有實質(zhì)性的影響。數(shù)據(jù)的產(chǎn)生是一個連續(xù)不斷的過程。例如一個顧客不滿意的交易,顧客可能立刻發(fā)推特抱怨,推特就是額外產(chǎn)生的數(shù)據(jù)。一般來說,速度越快,產(chǎn)生數(shù)據(jù)的量越大。數(shù)據(jù)速度是與反饋速率和個人數(shù)據(jù)來源速率有關(guān)的。例如,在推特中,一條推特被發(fā)布,然后被無限轉(zhuǎn)發(fā)。又如,利用大數(shù)據(jù)技術(shù),企業(yè)能收集許多物聯(lián)網(wǎng)的不同數(shù)據(jù)。不同的東西產(chǎn)生信息的速率是不同的。
速度的不同對隱私有什么影響?人們關(guān)注高速度的數(shù)據(jù),會利用這些數(shù)據(jù)做片面性的決定。此外,一些信息將被更快地公開和散布。在結(jié)果被完全預(yù)測之前,信息可能被散布出去。結(jié)果,在執(zhí)行限制散布數(shù)據(jù)之前,有害的數(shù)據(jù)可能早已被泄露。勞倫斯·戈斯汀和詹姆斯·霍基建議,允許個人掌控自己的數(shù)據(jù)。然而,允許個人擁有這個的控制權(quán)力會影響數(shù)據(jù)的速度和有效性。據(jù)此,追求更快的增長速度和希望控制或降低速度的數(shù)據(jù)源之間存在一個張力。由此產(chǎn)生的研究問題與途徑有關(guān)。這些途徑為了促進(jìn)個人隱私數(shù)據(jù)的管理,包括人們管理自己數(shù)據(jù)的范圍以及保護(hù)隱私的努力。深入研究可以探索隱私管理系統(tǒng)的儀表盤、智能系統(tǒng)和隱私保護(hù)系統(tǒng),這些系統(tǒng)旨在幫助我們管理和控制自己的數(shù)據(jù)。
(三)多樣性
多樣性指的是關(guān)于個人或代理的有效數(shù)據(jù)的不同類型。被掌握的數(shù)據(jù)多樣性也是隱私的一個重要參數(shù)。
數(shù)據(jù)類型的多樣性能產(chǎn)生更多的變量,這些變量被用來分析組織或個人。諷刺的是,數(shù)據(jù)的多樣性導(dǎo)致更多的數(shù)據(jù)需求。因為數(shù)據(jù)類型多樣化,數(shù)據(jù)分析機(jī)構(gòu)就能找出數(shù)據(jù)間的差異,就需要更多的數(shù)據(jù)。結(jié)果,信息之間的差異導(dǎo)致了更多的和不同類型的數(shù)據(jù)。
此外,數(shù)據(jù)類型能被轉(zhuǎn)換。例如,有些數(shù)據(jù)是結(jié)構(gòu)性的,有些確實非結(jié)構(gòu)性的。一些評論家注意到,結(jié)構(gòu)性數(shù)據(jù)有驅(qū)逐非結(jié)構(gòu)性數(shù)據(jù)的趨勢。③假設(shè)這是正確的,為了對大數(shù)據(jù)有一個基本的理解和使用,那么嘗試從非結(jié)構(gòu)性數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)性數(shù)據(jù)是十分重要的。目前,人工智能已經(jīng)把注意力放到文本中的情緒監(jiān)測,所憑借的就是非結(jié)構(gòu)數(shù)據(jù)的分析,以試圖理解和掌握作者的整體思想。例如,運(yùn)用基于機(jī)器技術(shù)的方法,通過分析文字、句子或者整個文件目錄,情感能被分析出來。一些研究者嘗試從非結(jié)構(gòu)性數(shù)據(jù)中梳理出結(jié)構(gòu),對個人而言,這是一種錯誤的意圖。
(四)真實性(和可靠性)
真實性指的是大數(shù)據(jù)的精確性,但是常常忽略了可靠性。例如,推特內(nèi)容可以被百分之百的抓取,但是我們關(guān)系的仍然是它的可靠性。真實性的不平均和可靠性的缺乏意味著數(shù)據(jù)在質(zhì)量上的不統(tǒng)一。因此,真實性的不平均可能導(dǎo)致可以被描述的推測或推斷受到限制。此外,數(shù)據(jù)庫的真實性和可靠性也可能影響數(shù)據(jù)使用的范圍,即使很好地使用高真實性和高可靠性的數(shù)據(jù)庫也一樣。
隱私的另外一種定義是針對負(fù)面檢測或非法泄露:“個人的數(shù)據(jù)或信息有不被政府、團(tuán)體或個人非法宣稱、公開調(diào)查、秘密檢測或者未授權(quán)泄露自由。”④但是數(shù)據(jù)真實性或可靠性低會導(dǎo)致錯誤的推斷。有一種普遍的觀點(diǎn)認(rèn)為,如果你有必須藏著的東西,那么你就心有所畏。然而,如果數(shù)據(jù)不準(zhǔn)確或不可靠,這種觀點(diǎn)就是有問題的。如果信息沒有了真實性,每個人的信息都會被隱藏,因為被揭露信息不真實。
因此,通過數(shù)據(jù)庫的文件來確保信息的真實可靠性這種方法是應(yīng)該受到指責(zé)的。連續(xù)監(jiān)測系統(tǒng)可以被用來檢查數(shù)據(jù),一判定數(shù)據(jù)的合理性和準(zhǔn)確性。只能系統(tǒng)能分析數(shù)據(jù)內(nèi)容,以發(fā)現(xiàn)是否有新出現(xiàn)的不正常關(guān)系和眾包能被收集。
二、拼接數(shù)據(jù)
拼接數(shù)據(jù)指把通常不在一起,但放在一起就能提供價值的數(shù)據(jù)拼接在一起。例如,兩個或更多未分類的項目,當(dāng)把它們放在一起,能創(chuàng)造出新的分類。不同數(shù)據(jù)所增加的量和類型可能造成這樣一種可能性,不同屬性的數(shù)據(jù)會因為放在一起研究而變得有用,這樣就會使隱私妥協(xié)。另外,大數(shù)據(jù)“湖”能提供相似的環(huán)境,多重相異的數(shù)據(jù)庫可能在這“湖”中相互連接。隨著收集數(shù)據(jù)速度地增長,隱私數(shù)據(jù)可能被抓取和更廣泛的利用。
作為隱私保護(hù)的一部分,研究者可以模擬當(dāng)拼接在一起會侵犯隱私的變量集。從這些模型中,數(shù)據(jù)能被檢測以判定這些變量或關(guān)系量是否被執(zhí)行來限制數(shù)據(jù)的使用。此外,這些模型能支持在大數(shù)據(jù)湖中不同數(shù)據(jù)庫的越權(quán)使用。
三、名聲檢測系統(tǒng)及其相鄰系統(tǒng)
梅里安姆·韋伯斯特把隱私定義為“遠(yuǎn)離陪伴或監(jiān)視的狀態(tài)或能力”。⑤這個定義暗示著,檢測或監(jiān)視是受到隱私的限制的。最近,被設(shè)置為分析網(wǎng)頁上更廣泛信息來源的系統(tǒng)已經(jīng)能夠自動監(jiān)測名聲。很典型地是,名聲監(jiān)測系統(tǒng)連續(xù)不斷地監(jiān)測網(wǎng)絡(luò)上和其他數(shù)字資源,并收集關(guān)于個人或企業(yè)的信息。這樣做,他們能找到個人所關(guān)心的名聲的威脅。這些威脅可能存在于本地范圍也可能在全球范圍。
另外,用這樣的系統(tǒng)捕捉到的名聲數(shù)據(jù)作為個人或組織的基準(zhǔn)是不合理的。例如,被用來監(jiān)測高層管理名聲的系統(tǒng)也很有可能被用來監(jiān)測競爭對手的名聲。為了這些目的和意圖,具體的管理者和產(chǎn)品都是系統(tǒng)的參數(shù)。然而,造成的結(jié)果是,系統(tǒng)持續(xù)不斷監(jiān)測其他相鄰組織的數(shù)據(jù)。因此,特別是在公司企業(yè),隱私權(quán)和其他權(quán)利成為一個令人擔(dān)心的問題。
四、從對話和不同形式數(shù)據(jù)中推理
為了達(dá)到一些目的,數(shù)據(jù)經(jīng)常被公開。結(jié)果,隱私與這樣的人相關(guān),這些人懷著某種目的,認(rèn)為信息就是用來為目的服務(wù)。例如,當(dāng)推特建立時,它經(jīng)常向使用者提問“你現(xiàn)在在干嘛”。然而,在2009年,推特把問題改變?yōu)椤鞍l(fā)生了什么”。推特是用來和朋友或者國外其他人交流的。但是,推特數(shù)據(jù)卻逐漸地用來捕捉直接或間接的,隱藏在對話中的知識內(nèi)容,公開推特信息,這已經(jīng)與原來的目的背道而馳。
利用推特數(shù)據(jù),研究者已經(jīng)開始調(diào)查更廣闊的事件或項目,包括食物中毒,政治事件,疾病傳播,書的銷量等等。雖然推特能作為一些參考,但是他們確實有違數(shù)據(jù)初衷。因此,我們也許會問,這些使用者的行為是否符合道德,是否侵犯了隱私??赡茏詈玫念惐仁钦勗?,如果某些人偷聽你的談話并用這些信息去實現(xiàn)自己的目的,難道會沒有人介意嗎?
五、其他新問題
技術(shù)產(chǎn)生大數(shù)據(jù),并帶來了隱私問題。最近,一個紐約的參議員稱可穿戴式的健康追蹤器是“隱私的噩夢”。⑥同時,其他重要的大數(shù)據(jù)來源是被移動設(shè)備收集的位置信息。這樣的數(shù)據(jù)能被用來跟蹤個人在做什么,在哪里做什么等等。由于推特和其他數(shù)據(jù),位置信息能被用來做其他事。例如,如果我有移動電話的位置信息,我可能用這些信息來判斷哪里建設(shè)基礎(chǔ)設(shè)施。
由于技術(shù)推動人們不斷去監(jiān)測有用的數(shù)據(jù),這勢必觸及隱私權(quán)力的界限。例如,把攝像機(jī)安在警察局、警察車尾,相機(jī)可以實時了解交通情況。有些相機(jī)掃描執(zhí)照,然后能識別并判斷這輛車是不是偷的。⑦另外一個例子,黃貂魚電話追蹤器可以被軍隊、警察和其他人作為一種捕捉位置信息的方法,即使電話不開機(jī)使用。這些技術(shù)的使用和信息的儲存成為了社會上的一種競賽。因此,這些技術(shù)的未來很可能像技術(shù)問題一樣,成為一個法律問題。
六、結(jié)論
科技是一把雙刃劍。技術(shù)與價值是近代以來十分突出的問題。大數(shù)據(jù)與隱私之間的張力,本質(zhì)上還是人的問題。如何在大數(shù)據(jù)時代保護(hù)好隱私權(quán)是當(dāng)今重要課題。大數(shù)據(jù)本身的特點(diǎn),或者說數(shù)據(jù)的本來目的,就是與隱私相互對立的。選擇數(shù)據(jù)利益還是個人權(quán)利價值,在人文科學(xué)領(lǐng)域還是一個難題。
注 釋:
{1}P. Zikopoulos et al., Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data ,McGraw-Hill, 2012,page3.
{2}HHS.gov. Minimum Necessary Requirement 【EB/OL】.www.hhs.gov/ocr/privacy/hipaa/understanding/coveredentities/minimumnecessary.html.
{3}Gostin L O, Hodge J G. Personal privacy and common goods: a framework for balancing under the national health information privacy rule.[J]. Minnesota Law Review, 2002, 86(6):1439-1479,page6.
{4}Dictionary.com.【EB/OL】.http://www.dictionary.com/browse/privacy?s=t.
{5}Merriam Webster.【EB/OL】www. Merriam-webster.com/dictionary/privacy.
{6}H. Walker, “Senator Warns Fitbit IsA ‘Privacy Nightmare and Could Be‘Tracking Your Movements,” BusinessInsider, 10 Aug. 2014; www.businessinsider.com/senator-warns-fitbit-is-aprivacy-nightmare-2014-8.
{7}J. Phillips, “Smile! Your Cars onCamera: We Ride Along to Learn Whatthe Cops Know About You,” Car andDriver, Dec. 2011; www.caranddriver.com/features/smile-your-cars-oncamera-we-ride-along-to-learn-whatthe-cops-know-about-you-feature.
參考文獻(xiàn):
〔1〕王璐,孟小峰.位置大數(shù)據(jù)隱私保護(hù)研究綜述[J].軟件學(xué)報,2014,25(4):693-712.
〔2〕馮利芳,崔文花,沈瀛,等.我知道你是“誰”——大數(shù)據(jù)拷問隱私[J].成功營銷,2013(5):76-80.
〔3〕薛孚,陳紅兵.大數(shù)據(jù)隱私倫理問題探究[J].自然辯證法研究,2015(2):44-48.
〔4〕李傳軍.大數(shù)據(jù)時代的政治現(xiàn)象[J].研究方法與反思,2016(03).
(責(zé)任編輯 徐陽)