趙利利
論大數(shù)據(jù)迷思的建構(gòu)
趙利利
大數(shù)據(jù)話語(yǔ)體系的建構(gòu)正在超越技術(shù)和數(shù)據(jù)本身的社會(huì)功能形成迷思。理性看待迷思有助于我們合理選擇路徑,避免社會(huì)資源的浪費(fèi)。本文從“全體數(shù)據(jù)”的崇拜與懷疑、“混雜性”便利與非結(jié)構(gòu)化數(shù)據(jù)難題、“相關(guān)關(guān)系”的因果基礎(chǔ)抽離、“預(yù)測(cè)”與算法模型背后的權(quán)力實(shí)在四個(gè)方面對(duì)“大數(shù)據(jù)”迷思進(jìn)行剖析,以期在“大數(shù)據(jù)迷思”強(qiáng)勢(shì)滲透的現(xiàn)實(shí)語(yǔ)境下提供一種批判性的思考維度。
大數(shù)據(jù);迷思;數(shù)據(jù)驅(qū)動(dòng)
[作者]趙利利,中國(guó)傳媒大學(xué)。
“迷思”一詞起源于希臘語(yǔ)單詞μ θ ο(mythos),是指“一種純粹虛構(gòu)性的敘事,通常涉及超自然的人物、行動(dòng)或事件,體現(xiàn)了一些與自然或歷史現(xiàn)象有關(guān)的流行觀念”。①《牛津英語(yǔ)詞典》,牛津大學(xué)出版社,1989年。迷思包含著承諾,這種承諾在未來(lái)解決了現(xiàn)在的困境,是對(duì)未來(lái)或想象圖景的美好建構(gòu)。迷思一旦出現(xiàn),其本身就成為現(xiàn)實(shí)的組成部分,它將消耗人力、物力、財(cái)力或者其他資源維持自身的物質(zhì)實(shí)在性。
大數(shù)據(jù)話語(yǔ)體系的建構(gòu)正在超越技術(shù)和數(shù)據(jù)本身的社會(huì)功能形成自身的話語(yǔ)場(chǎng)。“人類行為93%是可以預(yù)測(cè)的”,“我們到底有多好預(yù)測(cè)?我們終于能夠?yàn)檫@個(gè)一直困擾我們的問(wèn)題給出一個(gè)定量的答案了”。②艾伯特-拉斯洛·巴拉巴西著,馬慧譯:《爆發(fā)——大數(shù)據(jù)時(shí)代預(yù)見(jiàn)未來(lái)的新思維》,中國(guó)人民大學(xué)出版社,2012年,第217頁(yè)?!爱?dāng)世界開(kāi)始邁向大數(shù)據(jù)時(shí)代時(shí),社會(huì)也將經(jīng)歷類似的地殼運(yùn)動(dòng)”,“大數(shù)據(jù)早已在推動(dòng)人類信息管理準(zhǔn)則的重新定位”。③維克托·邁爾-舍恩伯格肯尼斯·庫(kù)克耶著,盛楊燕、周濤譯:《大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革》,浙江人民出版社,2013年,第V頁(yè)。這套話語(yǔ)的強(qiáng)勢(shì)正愈來(lái)愈顯著地滲透包括計(jì)算機(jī)、商業(yè)、傳媒甚至政治、經(jīng)濟(jì)等多個(gè)領(lǐng)域,形成一種即將發(fā)生廣泛的本源性顛覆的假象。這種話語(yǔ)的建構(gòu)已然形成迷思。理性看待迷思,厘清“大數(shù)據(jù)”迷思建構(gòu)背后的主導(dǎo)要素,有助于我們合理選擇路徑,避免社會(huì)資源的浪費(fèi)。
在有關(guān)大數(shù)據(jù)特性的描述中,全數(shù)據(jù)模式是大數(shù)據(jù)話語(yǔ)體系中最具誘惑力的內(nèi)容之一。全部數(shù)據(jù)意味著樣本等于總體,從某種意義上說(shuō),全數(shù)據(jù)模式終結(jié)了隨機(jī)抽樣。公眾對(duì)于大數(shù)據(jù)的狂熱追捧正是因?yàn)檫@種顛覆性的解放。但是,從哲學(xué)的角度來(lái)說(shuō),自從愛(ài)因斯坦的相對(duì)論打破西方絕對(duì)主義科學(xué)觀之后,要求某一理論、研究成果或者技術(shù)達(dá)到全部數(shù)據(jù)的采集本身就是一件有悖自然規(guī)律的事情。除非所討論的范疇是形而上的,要不然以全體數(shù)據(jù)作為邏輯或者現(xiàn)實(shí)起點(diǎn)的探討本身就是詭辯術(shù)?!按髷?shù)據(jù)”迷思的建構(gòu)者們一方面自豪地標(biāo)榜大數(shù)據(jù)應(yīng)用的實(shí)操性,另一方面又為它的絕對(duì)性正名,這本身就是悖論。就目前和可預(yù)見(jiàn)的未來(lái)來(lái)看,“大數(shù)據(jù)”全數(shù)據(jù)模式的迷思意味顯而易見(jiàn)。且不說(shuō)信息基礎(chǔ)設(shè)施在世界范圍內(nèi)的普及存在嚴(yán)重的不平衡性,即便未來(lái)實(shí)現(xiàn)了信息基礎(chǔ)設(shè)施的全部平等準(zhǔn)入,不同種族之間的文化沖突、商業(yè)力量對(duì)技術(shù)的利用和政治權(quán)力對(duì)技術(shù)化現(xiàn)實(shí)的規(guī)制都對(duì)數(shù)據(jù)資源的分配帶來(lái)了強(qiáng)烈的不可預(yù)知性,全數(shù)據(jù)模式帶有明顯的理想主義色彩。
目前,全體數(shù)據(jù)采集在現(xiàn)實(shí)中遇到的最大阻礙是個(gè)人信息泄露引發(fā)的侵權(quán)問(wèn)題和冗余數(shù)據(jù)的低價(jià)值附加問(wèn)題。私密信息的獲取難度降低了全數(shù)據(jù)采集的可行性,而大部分?jǐn)?shù)據(jù)的低可利用性實(shí)際上拉低了整體數(shù)據(jù)的質(zhì)量,即使所謂的全體數(shù)據(jù)(實(shí)質(zhì)上是可得到的巨大數(shù)據(jù),做不到全數(shù)據(jù)獲取)能夠作為分析對(duì)象,但大部分?jǐn)?shù)據(jù)不具有代表性會(huì)導(dǎo)致分析結(jié)果嚴(yán)重偏頗,其價(jià)值甚至比不上隨機(jī)抽樣獲得的結(jié)論價(jià)值。
大數(shù)據(jù)另外一個(gè)突出的特點(diǎn)是:不追求精確性,擁抱混雜性。從表面上看,如果相關(guān)分析技術(shù)能夠保證所有格式的數(shù)據(jù)均能被統(tǒng)一體系的分析標(biāo)準(zhǔn)所提取并剝離出有效信息進(jìn)行分析的話,那么,對(duì)數(shù)據(jù)混雜性的寬容的確能夠節(jié)省大量的人力物力,提高效率。但是,現(xiàn)實(shí)并非如此簡(jiǎn)單。有業(yè)界人士撰文指出:數(shù)據(jù)和信息正呈現(xiàn)出爆炸性的增長(zhǎng),巨大的數(shù)據(jù)量已經(jīng)從TB級(jí)躍升至PB級(jí),數(shù)據(jù)結(jié)構(gòu)也更加復(fù)雜,大部分?jǐn)?shù)據(jù)信息都屬于非結(jié)構(gòu)化數(shù)據(jù),各種數(shù)據(jù)格式之間互不兼容,而且人們對(duì)數(shù)據(jù)的訪問(wèn)和使用更具隨機(jī)性,這些特點(diǎn)給數(shù)據(jù)的提取、存儲(chǔ)、管理和應(yīng)用帶來(lái)了很大困難。①王琛:《大數(shù)據(jù)時(shí)代如何應(yīng)對(duì)非結(jié)構(gòu)化信息狂潮》,泡泡網(wǎng),www.pcpop.com,2014年8月7日。此外,隨著傳統(tǒng)產(chǎn)業(yè)網(wǎng)絡(luò)化程度的提高,互聯(lián)網(wǎng)企業(yè)之間的競(jìng)爭(zhēng)日趨激烈,企業(yè)的版權(quán)意識(shí)也不斷強(qiáng)化?;ヂ?lián)網(wǎng)不再是知識(shí)免費(fèi)共享的烏托邦,越來(lái)越多的企業(yè)為了保護(hù)知識(shí)產(chǎn)權(quán)紛紛通過(guò)使用不同的程序語(yǔ)言、加密技術(shù)或者權(quán)限設(shè)置等措施加強(qiáng)對(duì)自身產(chǎn)品的保護(hù),這讓數(shù)據(jù)的采集和挖掘變的愈發(fā)困難。
大數(shù)據(jù)第三個(gè)為人熟知的特性是:不再是因果關(guān)系而是相關(guān)關(guān)系。相關(guān)關(guān)系是一種相對(duì)低級(jí)的關(guān)系分析。因?yàn)閾碛旋嫶蟮臄?shù)據(jù)基礎(chǔ),相關(guān)關(guān)系在商業(yè)領(lǐng)域上發(fā)揮著“小數(shù)據(jù)時(shí)代”意想不到的作用,商家可以在不關(guān)心為什么啤酒和紙尿布的銷售情況呈正相關(guān)只需把這兩件商品擺在相近位置的情況下就贏得高額利潤(rùn),但是,這種以經(jīng)濟(jì)目標(biāo)為準(zhǔn)則的短期利益對(duì)于推進(jìn)人類對(duì)客觀世界的認(rèn)識(shí)和人類知識(shí)體系的深化來(lái)說(shuō)并沒(méi)有直接意義上的好處,頂多是提供了新的研究線索。大數(shù)據(jù)追捧的“相關(guān)關(guān)系”跟所有其他通過(guò)數(shù)學(xué)模型或量化研究得出來(lái)的相關(guān)關(guān)系一樣體現(xiàn)出解決問(wèn)題時(shí)的相對(duì)性和局限性,并不具有顛覆意義。大數(shù)據(jù)的思維和技術(shù)方法更像是一種助推科學(xué)研究多面向發(fā)展的手段,它的工具性價(jià)值大于它的世界觀價(jià)值。
如果從邏輯推理的角度關(guān)照,大數(shù)據(jù)所謂的相關(guān)關(guān)系根本上還是一個(gè)個(gè)具體的碎片化的因果關(guān)系復(fù)雜綜合后的結(jié)果。把相關(guān)關(guān)系從因果關(guān)系中抽離出來(lái)禁不起推敲理論的推敲,在現(xiàn)實(shí)關(guān)系的重構(gòu)上表現(xiàn)出脆弱性。
預(yù)測(cè)是被大數(shù)據(jù)建構(gòu)者們公認(rèn)的核心功能?!按髷?shù)據(jù)的核心就是預(yù)測(cè)。大數(shù)據(jù)不是要像機(jī)器人一樣思考。它是把數(shù)據(jù)算法運(yùn)用到海量的數(shù)據(jù)上來(lái)預(yù)測(cè)事情發(fā)生的可能性?!雹诰S克托·邁爾-舍恩伯格肯尼斯·庫(kù)克耶著,盛楊燕、周濤譯:《大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革》,浙江人民出版社,2013年,第16頁(yè)。維克托對(duì)大數(shù)據(jù)預(yù)測(cè)功能的闡述明確區(qū)分了大數(shù)據(jù)預(yù)測(cè)和人工智能學(xué)習(xí)之間的不同,與人工智能主要依托于神經(jīng)網(wǎng)絡(luò)等新科學(xué)技術(shù)不同,大數(shù)據(jù)預(yù)測(cè)的主要工具是算法模型。
算法模型不是與生俱來(lái)的,它建立在總結(jié)歸納經(jīng)驗(yàn)的基礎(chǔ)之上。算法所遵循的仍然是建立在因果思維和因果鏈條上的經(jīng)驗(yàn)?zāi)J?。因此,以它為模型演繹所得的結(jié)論很難脫離因果邏輯的窠臼。從符號(hào)學(xué)的角度來(lái)講,算法本身是一套具有一定規(guī)則的符號(hào)體系。算法模型是多元的,它隨著變量和參數(shù)的改變具有一定的彈性和可調(diào)試性,因此,不同的算法有時(shí)候會(huì)得出不同的結(jié)果,而算法的可靠性則需要通過(guò)實(shí)踐的檢驗(yàn)來(lái)不斷修正。算法模型的多元性決定了出于預(yù)測(cè)目的的大數(shù)據(jù)分析必然面對(duì)模型的選擇。什么樣的算法模型應(yīng)該被用于預(yù)測(cè)什么樣的事件趨勢(shì)掌握在大數(shù)據(jù)分析師的手中,關(guān)乎資源配置的權(quán)力,而有權(quán)力的地方則往往埋藏著政治經(jīng)濟(jì)關(guān)系的伏筆。
互聯(lián)網(wǎng)為迷思的建構(gòu)提供了便攜的物質(zhì)基礎(chǔ),從作為互聯(lián)網(wǎng)基礎(chǔ)語(yǔ)言的程序語(yǔ)言到作為互聯(lián)網(wǎng)內(nèi)容支撐的線下現(xiàn)實(shí)文化遷移后的文本呈現(xiàn),再到作為人的延伸的多媒體網(wǎng)絡(luò)生態(tài)元素,互聯(lián)網(wǎng)無(wú)時(shí)無(wú)處不體現(xiàn)為符合系統(tǒng)的綜合。大數(shù)據(jù)作為具有創(chuàng)造力的技術(shù)實(shí)在參與現(xiàn)實(shí)建構(gòu)以及作為現(xiàn)實(shí)建構(gòu)話語(yǔ)維度的話語(yǔ)實(shí)踐本身具有積極意義,“大數(shù)據(jù)”話語(yǔ)體系的秩序性建構(gòu)也理應(yīng)得到現(xiàn)實(shí)語(yǔ)境的擁護(hù),畢竟海量數(shù)據(jù)廢氣占用大量存儲(chǔ)資源限制并不是數(shù)據(jù)經(jīng)濟(jì)的最優(yōu)選擇,事實(shí)上,泛濫的數(shù)據(jù)垃圾已經(jīng)成為擺在數(shù)據(jù)生產(chǎn)者和消費(fèi)者面前的巨大難題。只是,網(wǎng)絡(luò)社會(huì)與現(xiàn)實(shí)社會(huì)的選擇性互動(dòng)使得這一困境在公眾頭腦中形成弱勢(shì)存在,當(dāng)技術(shù)的可供性有可能解決這一現(xiàn)實(shí)困境時(shí),迷思的建立便擁有了龐大的群眾基礎(chǔ)。網(wǎng)絡(luò)社會(huì)與現(xiàn)實(shí)社會(huì)的同根性(決定了公眾頭腦中網(wǎng)絡(luò)拯救的可能性)和異質(zhì)性(決定了拯救失敗的可原諒性)共同促成了公眾對(duì)于互聯(lián)網(wǎng)技術(shù)癲狂般的迷思性崇拜。正如文森特·莫斯可所說(shuō),網(wǎng)絡(luò)空間不僅是迷思上演的地方,它同時(shí)也促進(jìn)了今天的迷思性思維方式,因?yàn)樗w現(xiàn)了一種模糊意識(shí)。迷思依賴于這樣一種意識(shí):我們正在遠(yuǎn)離一個(gè)時(shí)代——工業(yè)時(shí)代,并正在進(jìn)入一個(gè)新的時(shí)代——擁有許多與電腦相關(guān)的名字的時(shí)代,例如“信息時(shí)代”“數(shù)字時(shí)代”③文森特·莫斯可著,黃典林譯:《數(shù)字化崇拜——迷思、權(quán)力與賽博空間》,北京大學(xué)出版社,2010年,第29頁(yè)。,當(dāng)然,也包括所謂的“大數(shù)據(jù)時(shí)代”。