燕道成,高紫葉
摘 要 大數(shù)據(jù)時代,信息挖掘從海量數(shù)據(jù)中提取出大量具備潛在價值的信息。與此同時,信息挖掘也伴隨著數(shù)據(jù)隱私,侵權(quán)泛濫,數(shù)字俘虜,算法繭房,巨頭壟斷,安全隱患等價值風(fēng)險。規(guī)避信息挖掘的價值風(fēng)險,需要提高媒介素養(yǎng),走出“數(shù)字監(jiān)獄”;強(qiáng)調(diào)人文價值,傳達(dá)情感溫度;深挖細(xì)分市場,保護(hù)數(shù)據(jù)安全。
關(guān)鍵詞 大數(shù)據(jù);信息挖掘;價值風(fēng)險;規(guī)避
中圖分類號 G2 文獻(xiàn)標(biāo)識碼 A 文章編號 2096-0360(2020)22-0069-04
基金項(xiàng)目:湖南省社科基金重點(diǎn)項(xiàng)目“大數(shù)據(jù)時代信息價值觀引領(lǐng)研究”(19ZDB019)。
互聯(lián)網(wǎng)技術(shù)的進(jìn)一步發(fā)展讓我們迎來了大數(shù)據(jù)時代,維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》中提出“大數(shù)據(jù)正在開啟一次重大的時代轉(zhuǎn)型。就如同顯微鏡使我們觀測到深邃的微觀世界,望遠(yuǎn)鏡讓我們認(rèn)識到浩瀚的宇宙,大數(shù)據(jù)技術(shù)正在改變我們的生活習(xí)慣以及理解世界的方式?!盵 1 ]信息挖掘作為大數(shù)據(jù)技術(shù)的基礎(chǔ),為我們帶來便捷生活的同時也存在其固有的價值風(fēng)險,我們?nèi)绾握J(rèn)識這些風(fēng)險并采取相應(yīng)措施是目前需要明確的問題。因而,本文旨在分析大數(shù)據(jù)時代信息挖掘的相關(guān)風(fēng)險,在采訪大數(shù)據(jù)從業(yè)人士后給出相對合理科學(xué)的規(guī)避建議,以填補(bǔ)以往研究的不足。
1 信息挖掘的價值風(fēng)險
美國數(shù)據(jù)官Yin Depar Bundali指出,我們生活在無線數(shù)據(jù)時代,數(shù)據(jù)以無聲的方式流入我們的生活。我們憑借數(shù)據(jù)完成各種任務(wù),從保存電子病歷用以記錄我們的健康信息,到治理經(jīng)濟(jì),到推動科學(xué)進(jìn)步,不一而足[ 2 ]。信息挖掘能讓我們從海量數(shù)據(jù)中獲取有價值的信息,為我們的生活決策提供了便利。但是,從哪些渠道收集數(shù)據(jù)、通過何種邏輯網(wǎng)絡(luò)進(jìn)行深入挖掘、挖掘多大體量的數(shù)據(jù)庫,這一系列的問題都伴隨著潛在的價值風(fēng)險。
1.1 數(shù)據(jù)隱私,侵權(quán)泛濫
1969年誕生的互聯(lián)網(wǎng)技術(shù)僅花了51年時間,便改變了人類的生活。Web2.0讓互聯(lián)網(wǎng)從“可讀”進(jìn)化為“可寫”,用戶自主進(jìn)行內(nèi)容生產(chǎn)與網(wǎng)站建設(shè),截至2012年,Twitter上的信息發(fā)布量每天都會超過4億條微博[ 1 ]。用戶不再只是互聯(lián)網(wǎng)的觀看者,而成了真正的參與者與生產(chǎn)者。隨著移動智能終端的發(fā)明與5G的誕生,個人的行為舉止與身體信息都能轉(zhuǎn)變成數(shù)據(jù)記錄下來,大體量的數(shù)據(jù)傳輸更為精準(zhǔn)、快速,如今我們已經(jīng)身處于萬物互聯(lián)的大數(shù)據(jù)時代。
大數(shù)據(jù)時代的信息挖掘?yàn)槠髽I(yè)帶來發(fā)展機(jī)遇。通過挖掘人們在網(wǎng)絡(luò)中的瀏覽軌跡信息,電商可以推送“你可能喜歡的產(chǎn)品”;通過定位人們的位置,社交媒體可以給你介紹“附近的人”;通過挖掘人們的醫(yī)療記錄,藥商公司可以判斷其需要的藥品和所處的社會地位。這些信息可能有用戶自愿公開的,也有非自愿公開的。
需要明確的是用戶個人信息不等同于隱私信息,只有個人不愿意公開的且需要受到保護(hù)的信息才屬于隱私信息。但是,大數(shù)據(jù)技術(shù)為數(shù)據(jù)隱私的界定設(shè)置了難題。除了上述隱私信息,用戶的一些數(shù)據(jù)行為如瀏覽路徑、思考過程等經(jīng)過信息挖掘和大數(shù)據(jù)分析后,可能也會產(chǎn)生用戶不愿意泄露的個人信息。因而,信息挖掘的數(shù)據(jù)隱私范圍更為廣泛,除了用戶最初不愿公開的信息,還包括對用戶數(shù)據(jù)行為進(jìn)行挖掘分析后可能泄露的隱私數(shù)據(jù)。
由于信息挖掘是在相當(dāng)大量級的數(shù)據(jù)庫里抓取數(shù)據(jù)進(jìn)行分析預(yù)測,預(yù)測內(nèi)容多與數(shù)據(jù)之間具有相關(guān)性,而非具體的因果關(guān)系,因而,用戶往往對自己的數(shù)據(jù)隱私泄露一無所知。以美國“推測少女懷孕并泄露給商家”一案為例,美國塔吉特公司通過分析女性顧客的網(wǎng)購數(shù)據(jù),可以預(yù)測到在校女學(xué)生懷孕的隱私。當(dāng)用戶在互聯(lián)網(wǎng)上分享了自己的信息,這些信息被企業(yè)挖掘采集之后,用戶便很難對其進(jìn)行控制。這給企業(yè)的行為營銷帶來了便利,但也加劇了侵權(quán)與犯罪。第46次《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r報告》顯示,截至2020年6月有20.6%的網(wǎng)民遭遇過個人信息泄露,網(wǎng)絡(luò)詐騙與密碼被盜分別占比
17%、9.9%[3]。
大數(shù)據(jù)時代數(shù)據(jù)已經(jīng)變成亟待變現(xiàn)的資本,企業(yè)在盈利目的的驅(qū)使下必定會盡可能多地收集用戶數(shù)據(jù),充實(shí)數(shù)據(jù)庫資源。雖然目前各大App運(yùn)營商都會征求用戶移動終端各項(xiàng)存儲信息的公開權(quán)限,但是這樣的征求形同虛設(shè)。一方面不少用戶的隱私意識薄弱,并未考慮到信息泄露的風(fēng)險,另一方面用戶想要獲得App使用權(quán)就不得不同意相關(guān)條款?;ヂ?lián)網(wǎng)行業(yè)采集用戶信息已經(jīng)成了基本原則,其條款內(nèi)容動輒十來項(xiàng),許多都和用戶所需要的服務(wù)無甚關(guān)聯(lián)。
1.2 數(shù)字俘虜,算法繭房
大數(shù)據(jù)技術(shù)為企業(yè)的科學(xué)決策提供了量化依據(jù),已經(jīng)成為企業(yè)的核心競爭力。為了確保后續(xù)程序的準(zhǔn)確進(jìn)行,信息挖掘必須要有多樣化的數(shù)據(jù)來源、真實(shí)有效的數(shù)據(jù)信息、大體量的數(shù)據(jù)庫支撐和邏輯清晰的數(shù)據(jù)關(guān)聯(lián)。上述任何一項(xiàng)的不足都可能導(dǎo)致數(shù)據(jù)挖掘不到位,進(jìn)而影響大數(shù)據(jù)的預(yù)測結(jié)果。因此,信息挖掘的結(jié)果并非百分之百正確。以信息挖掘?yàn)榛A(chǔ)的大數(shù)據(jù)技術(shù)雖然為企業(yè)和政府決策提供了幫助,但這只具有參考價值,不能完全被技術(shù)分析的結(jié)果所左右。
“異化”(Alienation)一詞源自于拉丁文alienatio,本義為“讓渡、喪失、差異、疏遠(yuǎn)”等。馬克思使用“異化”這一概念用以說明“勞動異化”現(xiàn)象,即人類勞動的產(chǎn)物卻對象化為一個奴役人、控制人的異己對象世界[4]。同樣的概念放在大數(shù)據(jù)時代依然適用。如今,我們的身體狀態(tài)、活動、情緒乃至思維都轉(zhuǎn)換成可以傳輸?shù)臄?shù)據(jù),形成“數(shù)字孿生”。原本不合理的生存狀態(tài)被日益普及的大數(shù)據(jù)技術(shù)變得合理化,技術(shù)讓人們獲得高質(zhì)量生活的同時喪失了批判性思維,成為單向度的人。人們對數(shù)據(jù)的單向推崇將刺激更為深入的信息掘活動,當(dāng)人們的行為決策都以數(shù)據(jù)為導(dǎo)向之后,我們便成為了數(shù)字俘虜,大數(shù)據(jù)時代的數(shù)據(jù)異化由此而來。
數(shù)字俘虜不僅意味著我們在行動上被數(shù)據(jù)所掌控,更意味著思想上的被掌控。我們對信息的選擇性接觸傾向在大數(shù)據(jù)技術(shù)未產(chǎn)生前便已存在。但是,隨著信息挖掘與算法推薦技術(shù)的發(fā)展,我們的選擇性接觸變得更為狹窄了。過去,我們且能在不同內(nèi)容之間選擇自己感興趣的內(nèi)容,而現(xiàn)在,我們只能在相同內(nèi)容之中強(qiáng)化自己的固有觀點(diǎn)與偏好。以今日頭條的成功為例,它以信息挖掘?yàn)榛A(chǔ)進(jìn)行算法推薦,用戶能夠輕松獲取自己感興趣的新聞推送,這樣的方式減少了用戶的時間成本,進(jìn)而有利于形成習(xí)慣、提高用戶忠誠度。用戶每天所接收的信息變成同一類信息的集合,久而久之,用戶將被困在思想繭房之中,數(shù)據(jù)挖掘只會將蠶繭越織越厚,因?yàn)樗裱氖峭耆袒募夹g(shù)邏輯。
1.3 巨頭壟斷,安全隱患
從數(shù)據(jù)基礎(chǔ)資源看,社會管理與服務(wù)機(jī)構(gòu)、生活服務(wù)性的電商平臺天然能收集到龐大的個人數(shù)據(jù)。社會管理機(jī)構(gòu)以人口統(tǒng)計(jì)局為例,周期性的人口普查工作需要了解公民的婚育情況、受教育情況、職業(yè)、收入等信息,這些信息所構(gòu)成的大型數(shù)據(jù)庫僅為國家所有,官方報告中不可能給出細(xì)化的人口信息。生活服務(wù)型電商平臺以淘寶為例,用戶的消費(fèi)記錄、線上瀏覽路徑及GPS定位包含有龐大的數(shù)據(jù)資源,這些基礎(chǔ)資源已經(jīng)讓淘寶超過了其他許多企業(yè)。
信息挖掘能力可以細(xì)化為信息獲取意識、信息獲取路徑和信息獲取方法的差異。從信息獲取意識方面看,未經(jīng)過專業(yè)教育的普通人已經(jīng)習(xí)慣了碎片化的信息接收方式,在日常生活中不會有意收集并保存信息。而具備大數(shù)據(jù)時代發(fā)展意識的企業(yè)經(jīng)營者和社會機(jī)關(guān)則會日常關(guān)注各個方面的數(shù)據(jù)信息,思考數(shù)據(jù)背后的潛在價值。從數(shù)據(jù)獲取路徑來看,數(shù)據(jù)獲取路徑的多樣化能夠提升數(shù)據(jù)挖掘能力。但問題在于大型企業(yè)擁有更大規(guī)模的用戶,相應(yīng)的數(shù)據(jù)獲取的路徑也就越多,精細(xì)的數(shù)據(jù)網(wǎng)絡(luò)將反作用于企業(yè)經(jīng)營,巨頭壟斷的趨勢會進(jìn)一步被強(qiáng)化。從數(shù)據(jù)獲取方法來看,用什么工具來抓取數(shù)據(jù)會直接影響到數(shù)據(jù)挖掘的能力。先進(jìn)的互聯(lián)網(wǎng)公司可以通過聘用專業(yè)的高技術(shù)人才,運(yùn)用更加科學(xué)的抓取工具來獲取到更多有價值的數(shù)據(jù)。
信息分析與應(yīng)用屬于信息挖掘的后續(xù)工作,基礎(chǔ)數(shù)據(jù)的不足和數(shù)據(jù)挖掘的不到位會直接破壞信息分析應(yīng)用的結(jié)果。此外,數(shù)據(jù)分析還需要有發(fā)散思維和創(chuàng)新能力,即不僅能發(fā)現(xiàn)數(shù)據(jù)所反映的表層問題,還能挖掘延伸到數(shù)據(jù)潛藏的深層信息。政府和行業(yè)巨頭擁有更為專業(yè)的人才,其思維的發(fā)散性也會更強(qiáng)。上述幾個方面都證實(shí)了大數(shù)據(jù)時代巨頭壟斷的必然趨勢,且隨著時間的發(fā)展,行業(yè)參與者之間的鴻溝會逐漸加深。
行業(yè)巨頭壟斷會伴隨著新的問題——數(shù)據(jù)安全。巨頭所擁有的龐大數(shù)據(jù)庫相當(dāng)于一份大蛋糕,大型企業(yè)數(shù)據(jù)庫屢遭攻擊,大數(shù)據(jù)時代的數(shù)據(jù)泄露不僅意味著企業(yè)資本的流失,還意味著無數(shù)用戶會面臨名譽(yù)損毀、網(wǎng)絡(luò)詐騙、綁架勒索等人身風(fēng)險。據(jù)業(yè)內(nèi)人士透露,京東每年僅花在遠(yuǎn)成辦公保障網(wǎng)絡(luò)傳輸信息安全上的資金就有幾千萬。以往數(shù)據(jù)分散,即使信息泄露也只會小范圍內(nèi)產(chǎn)生影響,而巨頭壟斷下的高密度數(shù)據(jù)庫資源一旦被黑客攻擊成功,所波及的范圍將從國內(nèi)擴(kuò)展到國際。
2 風(fēng)險的規(guī)避
大數(shù)據(jù)時代的信息挖掘面臨著上文所提到的三大風(fēng)險問題,對于這些問題我們并非無能為力。既然享受了技術(shù)帶給我們的諸多好處,就得面對與克服它所固有的問題。針對這些風(fēng)險,下文將分別提出規(guī)避建議。
2.1 提高媒介素養(yǎng),走出“數(shù)字監(jiān)獄”
傳統(tǒng)意義上受眾的媒介素養(yǎng)主要體現(xiàn)為對媒介手段的使用能力和對媒介信息的識讀、篩選與判斷能力。大數(shù)據(jù)時代的公眾媒介素養(yǎng)應(yīng)當(dāng)在傳統(tǒng)意義的基礎(chǔ)上有所擴(kuò)展,其中關(guān)鍵的一點(diǎn)是對個人信息的掌握與保護(hù)能力。對個人信息的掌握與保護(hù)可以貫徹到媒介使用前、媒介使用中與媒介使用之后。
目前,各大互聯(lián)網(wǎng)服務(wù)商在提供服務(wù)之前都會向用戶征求各種授權(quán),如地理位置、手機(jī)存儲內(nèi)容、手機(jī)聯(lián)系人方式等。這些授權(quán)部分簡明易懂,部分則以長篇大論出現(xiàn)。然而,已經(jīng)習(xí)慣快節(jié)奏生活與碎片化閱讀的用戶往往沒有耐心去深究其中的利弊,只是機(jī)械化地選擇同意,在不知不覺中已經(jīng)失去了對自己信息的掌握權(quán)。因此,在用戶使用媒介之前,可以先思考服務(wù)商授權(quán)內(nèi)容是否與其所提供的實(shí)際服務(wù)相關(guān)聯(lián),如若無關(guān),用戶有權(quán)拒絕相關(guān)授權(quán)。媒介使用中的掌握與保護(hù)主要體現(xiàn)為用戶個人信息的發(fā)布。其中,最為值得注意的是用戶在社交媒體的個人信息。社會化媒體的出現(xiàn)讓過去各自獨(dú)立的小房間連成彼此互通的社區(qū),弱關(guān)系加持下的信息掘?qū)⑦M(jìn)一步深化。能獲得用戶的個人信息不再只是與其直接相關(guān)的親朋好友,還可以是與其沒有直接關(guān)聯(lián)的網(wǎng)民和企業(yè)。在媒介使用中審慎發(fā)布個人信息,是大數(shù)據(jù)時代的公民需要學(xué)習(xí)的技能。
維克托·邁爾-舍恩伯格指出,在今天這個時代,遺忘變成例外,記憶變成常態(tài),人類住進(jìn)了數(shù)字化的圓形監(jiān)獄[5]。數(shù)字化生存中的個人都成了一個個比特,在傳輸中被永久存儲在數(shù)據(jù)庫之中。一條陳年信息幾經(jīng)周轉(zhuǎn)去到不同數(shù)據(jù)庫之后,經(jīng)過不同的分析思路便可成為新的信息。雖然周轉(zhuǎn)過后的數(shù)據(jù)被不同的主體所控制,但這些數(shù)據(jù)的原主人依然有權(quán)對這些數(shù)據(jù)進(jìn)行更改,甚至將其徹底刪除。被遺忘權(quán)已然成為大數(shù)據(jù)時代的新權(quán)利。目前人們的數(shù)據(jù)意識薄弱,據(jù)中國消協(xié)2018年發(fā)布的報告,超八成受訪者曾遭遇個人信息泄露問題,信息泄露之后1/3受訪者選擇自認(rèn)倒霉[6]。人們只有不斷提高自己的媒介素養(yǎng),在上述的三個階段掌握與保護(hù)好個人信息,才能跳出數(shù)據(jù)監(jiān)視下的數(shù)字監(jiān)獄獲得一些新鮮空氣。
2.2 強(qiáng)調(diào)人文價值,傳達(dá)情感溫度
從科技倫理的角度看,科技倫理具有內(nèi)在的復(fù)雜結(jié)構(gòu),“在這一結(jié)構(gòu)中,一方面,科技的產(chǎn)生、應(yīng)用與發(fā)展都離不開人,另一方面,倫理也是用來規(guī)范和指導(dǎo)人的行為的?!盵7]科技的發(fā)展與人的發(fā)展是息息相關(guān)的。如今,大數(shù)據(jù)技術(shù)已經(jīng)滲透于我們生活的方方面面,與此同時,被唯數(shù)據(jù)論支配的人們不僅喪失了創(chuàng)新意識和冒險精神,而且在逐漸變成片面追求物質(zhì)利益的動物。因而,大數(shù)據(jù)時代的信息挖掘亟需強(qiáng)調(diào)其人文價值。
信息掘如何做到以人為本?以人為本即強(qiáng)調(diào)人的內(nèi)在價值,外在工具的應(yīng)用以促進(jìn)人的良性發(fā)展為最終目的。針對這個問題,有大數(shù)據(jù)從業(yè)人員認(rèn)為,目前,多數(shù)推薦算法根據(jù)用戶現(xiàn)有的興趣推薦,導(dǎo)致用戶看到的內(nèi)容范圍越來越窄。因此推薦算法的改進(jìn)可以更加注重推薦的廣度,損失一些點(diǎn)擊率來挖掘用戶更多潛在的興趣。也就是說,我們可以將過去的線性挖掘邏輯轉(zhuǎn)變成網(wǎng)狀挖掘邏輯,在深化的同時擴(kuò)展挖掘的寬容度。該從業(yè)人員還表示,推薦算法本質(zhì)是排序的過程,按深度優(yōu)先就是把相關(guān)性強(qiáng)的物品排在前面,如果要廣度的話就會更加看重用戶權(quán)重,比如有用戶喜歡游戲,但是他還喜歡別的,就提高別的這些的權(quán)重。因而在信息挖掘基礎(chǔ)上的算法推薦可以轉(zhuǎn)變排序方式,將與之相聯(lián)系的弱興趣內(nèi)容也放在選擇范圍之內(nèi)。
此外,信息挖掘還應(yīng)該具有情感底線和人文底色,傳達(dá)情感溫度。以傳媒業(yè)的信息挖掘?yàn)槔襟w對遇難者個人信息的挖掘應(yīng)該有所止損,諸如家庭地址、戀愛經(jīng)歷、親朋好友等信息應(yīng)該予以保護(hù)。一方面,媒體的對遇難者信息的過度曝光可能會對親屬造成二次傷害,另一方面,媒體也無法征求到遇難者對深度個人信息是否公開的授權(quán)。當(dāng)人為冰冷的技術(shù)賦予情感溫度時,技術(shù)才能更好地服務(wù)于人。
2.3 深挖細(xì)分市場,保護(hù)數(shù)據(jù)安全
一位受訪人表示,“小企業(yè)生存的關(guān)鍵是做好產(chǎn)品,深挖細(xì)分市場,擴(kuò)大用戶基數(shù),參考頭條、抖音、拼多多的發(fā)展道路?!背闪⒂?015年的拼多多以打通下沉市場為其發(fā)展策略,將消費(fèi)者群體細(xì)化為城市市場與鄉(xiāng)村市場,以價格優(yōu)勢率先爭得農(nóng)村市場,再通過消費(fèi)者大量的正向反饋和廣告拓展城市市場。在用戶基數(shù)擴(kuò)大的基礎(chǔ)上,拼多多掌握了龐大的用戶數(shù)據(jù)資源,這些數(shù)據(jù)反哺產(chǎn)品推送,促進(jìn)企業(yè)發(fā)展壯大。如今,拼多多已成為阿里、京東的勁敵,此前韻達(dá)申通圓通聯(lián)手封殺極兔速遞事件實(shí)則是這幾家巨頭之間的爭斗。參照拼多多的發(fā)展,中小企業(yè)可以針對自己定位的細(xì)分市場創(chuàng)新產(chǎn)品、保障質(zhì)量,著力擴(kuò)大自己的用戶基數(shù),爭取獲得完備的用戶數(shù)據(jù)庫。
大企業(yè)在防止數(shù)據(jù)泄露方面一般會有完善的機(jī)制,主要是為各種數(shù)據(jù)增加讀寫權(quán)限,且數(shù)據(jù)始終保存在公司內(nèi)網(wǎng),只要不受到攻擊一般不會泄露。因而,當(dāng)數(shù)據(jù)庫遭到黑客攻擊時,企業(yè)更應(yīng)該具有一套完備的應(yīng)對措施。企業(yè)可以在日常培養(yǎng)或吸納相關(guān)方面的技術(shù)人才,進(jìn)行企業(yè)內(nèi)部員工的安全培訓(xùn),在數(shù)據(jù)泄露之后主動提醒用戶修改相關(guān)密碼或刪除相關(guān)信息。要明確的一點(diǎn)是數(shù)據(jù)安全的風(fēng)險是必然存在的,我們只能盡可能減小風(fēng)險。
參考文獻(xiàn)
[1]維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛陽燕,周濤,譯.杭州:浙江人民出版社,2013:21.
[2]桑尼爾·索雷斯.大數(shù)據(jù)治理[M].匡斌,譯.北京:清華大學(xué)出版社,2014:序7.
[3]中國互聯(lián)網(wǎng)發(fā)展中心.第46次《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r報告》[EB/OL].(2020-09-25)[2020-11-01].http// www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/202009/ P020200929546215182514.pdf.
[4]中共中央馬克思恩格斯列寧斯大林著作編譯局.馬克思恩格斯全集[M].北京:人民出版社,2002:278.
[5]維克托·邁爾-舍恩伯格.刪除:大數(shù)據(jù)取舍之道[M].袁杰,譯.杭州:浙江人民出版社,2013:5-22.
[6]中國消費(fèi)者協(xié)會.App個人信息泄漏情況調(diào)查報告[EB/ OL].(2018-08-29)[2020-11-01].http//www.cca.org. cn/jmxf/detail/28180.html.
[7]程現(xiàn)昆.科技倫理研究論綱[M].北京:北京師范大學(xué)出版社,2011:73.