譚 天
(暨南大學(xué) 新聞與傳播學(xué)院,廣州 510632)
?
大數(shù)據(jù)研究經(jīng)典的研讀與批判
——讀維克托·邁爾-舍恩佰格《大數(shù)據(jù)時代》有感*
譚天
(暨南大學(xué) 新聞與傳播學(xué)院,廣州 510632)
摘要:作者在研讀維克托·邁爾-舍恩佰格《大數(shù)據(jù)時代》后,對舍恩佰格的三個主要觀點展開討論并提出質(zhì)疑,認(rèn)為隨機樣本和全體數(shù)據(jù)同樣需要,精確性和混雜性各有所用,相關(guān)關(guān)系離不開因果關(guān)系。文章還介紹了國外學(xué)者關(guān)于大數(shù)據(jù)倫理的討論。
關(guān)鍵詞:大數(shù)據(jù);辨析;倫理
如今說起新媒體和互聯(lián)網(wǎng),必提大數(shù)據(jù),似乎不這樣說就OUT了。而且人云亦云的居多,不少談?wù)撜呱踔吝€沒有認(rèn)真讀過這方面的經(jīng)典著作,如舍恩佰格的《大數(shù)據(jù)時代》(邁爾·舍恩伯格、庫克耶著,盛楊燕、周濤譯,浙江人民出版社 2013年出版)。維克托·邁爾-舍恩伯格何許人也?他現(xiàn)任牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)研究所治理與監(jiān)管專業(yè)教授,曾任哈佛大學(xué)肯尼迪學(xué)院信息監(jiān)管科研項目負(fù)責(zé)人。他的咨詢客戶包括微軟、惠普和IBM等全球頂級企業(yè),他是歐盟互聯(lián)網(wǎng)官方政策背后真正的制定者和參與者,他還先后擔(dān)任多國政府高層的智囊。這位被譽為:“大數(shù)據(jù)時代的預(yù)言家”的牛津教授真牛!那么,這位大師說的都是金科玉律嗎?并不一定,讀大師的作品一定要做些功課才好讀懂,同時也須具備批判意識,如果能做足功課又具備相應(yīng)的理論功底,就能與之進(jìn)行一場思想上的對話。
一讀
《大數(shù)據(jù)時代》是國外大數(shù)據(jù)系統(tǒng)研究的開山之作。舍恩伯格分三部分來討論大數(shù)據(jù),即思維變革、商業(yè)變革和管理變革。在第一部分“大數(shù)據(jù)時代的思維變革”中,舍恩伯格旗幟鮮明地亮出他的三個觀點:一、更多:不是隨機樣本,而是全體數(shù)據(jù);二、更雜:不是精確性,而是混雜性;三、更好:不是因果關(guān)系,而是相關(guān)關(guān)系。對于第一個觀點,我不敢茍同。一方面是對全體數(shù)據(jù)進(jìn)行處理,在技術(shù)和設(shè)備上有相當(dāng)高的難度;另一方面是不是都有此必要,對于簡單事實進(jìn)行判斷的數(shù)據(jù)分析難道也要采集全體數(shù)據(jù)嗎?我曾與香港城市大學(xué)的祝建華教授討論過。祝教授是傳播學(xué)研究方法和數(shù)據(jù)分析的專家,他認(rèn)為一定可以找到一種數(shù)理統(tǒng)計方法來進(jìn)行分析,并不一定需要全部數(shù)據(jù)。聯(lián)系到舍恩伯格第二個觀點中所說的相關(guān)關(guān)系,我理解他說的全體數(shù)據(jù)不是指數(shù)量而是指范圍,即大數(shù)據(jù)的隨機樣本不限于目標(biāo)數(shù)據(jù),還包括目標(biāo)以外的所有數(shù)據(jù)。我認(rèn)為大數(shù)據(jù)分析不能排除隨機抽樣,只是抽樣的方法和范圍要加以拓展。
我同意舍恩伯格的第二個觀點,我認(rèn)為這是對他第一個觀點很好的補充,這也是對精準(zhǔn)傳播和精準(zhǔn)營銷的一種反思?!按髷?shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效?!备哂泻暧^視野和東方哲學(xué)思維。對于舍恩伯格的第三個觀點,我也不能完全贊同?!安皇且蚬P(guān)系,而是相關(guān)關(guān)系?!辈恍枰馈盀槭裁础保恍枰馈笆鞘裁础?。傳播即數(shù)據(jù),數(shù)據(jù)即關(guān)系。在小數(shù)據(jù)時代人們只關(guān)心因果關(guān)系,對相關(guān)關(guān)系認(rèn)識不足,大數(shù)據(jù)時代相關(guān)關(guān)系舉足輕重,如何強調(diào)都不為過,但不應(yīng)該完全排斥它。大數(shù)據(jù)從何而來?為何而用?如果我們完全忽略因果關(guān)系,不知道大數(shù)據(jù)產(chǎn)生的前因后果,也就消解了大數(shù)據(jù)的人文價值。如今不少學(xué)者為了闡述和傳播其觀點往往語出驚人,對舊有觀念進(jìn)行徹底的否定。
世間萬物的復(fù)雜性多樣化并非非此即彼那么簡單,舍恩伯格也是這種二元對立的幼稚思維嗎?其實不然,讀者在閱讀時一定要看清楚他是在什么語境下說的,不要因囫圇吞棗的淺讀而陷入斷章取義的誤讀。比如說舍恩伯格在提出“不是因果關(guān)系,而是相關(guān)關(guān)系。”這一論斷時,他在書中還說道:“在大多數(shù)情況下,一旦我們完成了對大數(shù)據(jù)的相關(guān)關(guān)系分析,而又不再滿足于僅僅知道‘是什么’時,我們就會繼續(xù)向更深層次研究的因果關(guān)系,找出背后的‘為什么’?!庇纱丝梢?,他說的全體數(shù)據(jù)和相關(guān)關(guān)系都在特定語境下的,是在數(shù)據(jù)挖掘中的選項。
大數(shù)據(jù)研究的一大驅(qū)動力就是商用。舍恩伯格在第二部分里討論了大數(shù)據(jù)時代的商業(yè)變革。舍恩伯格認(rèn)為數(shù)據(jù)化就是一切皆可“量化”,大數(shù)據(jù)的定量分析有力地回答“是什么”這一問題,但仍然無法完全回答“為什么”。因此,我認(rèn)為并不能排除定性分析和質(zhì)化研究。數(shù)據(jù)創(chuàng)新可以創(chuàng)造價值,這是毫無疑問的。舍恩伯格在討論大數(shù)據(jù)的角色定位時仍把它置于數(shù)據(jù)應(yīng)用的商業(yè)系統(tǒng)中,而沒有把它置于整個社會系統(tǒng)里,但他在第二部分大數(shù)據(jù)時代的管理變革中討論了這個問題。在風(fēng)險社會中,信息安全問題日趨凸顯,數(shù)據(jù)獨裁與隱私保護成為一對矛盾。如何擺脫大數(shù)據(jù)的困境?舍恩伯格在最后一節(jié)“掌控”中試圖回答,但基本上屬于老生常談。我想,或許凱文·凱利的《失控》可以幫助我們解答這個問題?至少可以提供更多的思考維度。正如舍恩伯格在結(jié)語中所道:“大數(shù)據(jù)并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來?!盵1]謝謝舍恩伯格!讓大數(shù)據(jù)討論從自然科學(xué)回到人文社科。由此推斷,《大數(shù)據(jù)時代》不是最終答案,也不是標(biāo)準(zhǔn)答案,只是參考答案。
然而,并不是所有的人都能看懂《大數(shù)據(jù)時代》。有一位資深新聞學(xué)者讀了《大數(shù)據(jù)時代》后坦然道,沒看懂。然而他卻斷然道“技術(shù)決定論”是不對的。我說他是瞎說。他還問我為什么呀?我說您不是說沒看懂嗎?其實這是一本工具理性的書,并沒有太多論及價值取向。因此,要讀懂此書必須具備一些數(shù)據(jù)科學(xué)的基本知識和基本概念,比如說什么叫數(shù)據(jù)?什么叫大數(shù)據(jù)?數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別,數(shù)字化與數(shù)據(jù)化有什么不同?讀前做些功課,讀起來就比較好懂了。
再讀
概念是研究的邏輯起點,“大數(shù)據(jù)”到底是什么?在百度上搜索到的解釋是,“大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊?!贝髷?shù)據(jù)的4V特點:數(shù)量(Volume)、速度(Velocity)、品種(Variety)和真實性(Veracity)。但舍恩伯格認(rèn)為大數(shù)據(jù)并非一個確切的概念。他在書中的一段詮釋更具人文色彩和社會意義:“大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價值的源泉;大數(shù)據(jù)還是改變市場、組織機構(gòu),以及政府與公民關(guān)系的方法?!盵2]其實,概念的界定要看研究者從哪個角度來研究它而定。
科學(xué)家的治學(xué)態(tài)度是嚴(yán)謹(jǐn)?shù)模宋膶W(xué)家更具有想象力。一些對大數(shù)據(jù)不甚了然的人往往夸大了它的作用,甚至把它神化。舍恩伯格認(rèn)為大數(shù)據(jù)的核心是預(yù)測?!按髷?shù)據(jù)不是要教機器像人一樣思考。相反,把數(shù)學(xué)算法運用到海量的數(shù)據(jù)上來預(yù)期事情發(fā)生的可能性?!盵3]舍恩伯格甚至不回避大數(shù)據(jù)所產(chǎn)生的負(fù)面影響,他在第七章里談到讓數(shù)據(jù)主宰一切的隱憂。我覺得這是實事求是的科學(xué)態(tài)度。在量子力學(xué)里有一個測不準(zhǔn)原理:一個微觀粒子的某些物理量(如位置和動量,或方位角與動量矩,還有時間和能量等),不可能同時具有確定的數(shù)值,其中一個量越確定,另一個量的不確定程度就越大。它是解釋微觀世界的物理現(xiàn)象,信息社會中的大數(shù)據(jù)會不會也有類似情況呢?如果我們再把凱文·凱利的《失控》對比來讀的話就更有意思了,這樣我們對整個物質(zhì)世界及至人類社會就有了更全面、更深刻的洞察。從物理王國到生物世界,再到信息社會;從公共衛(wèi)生到商業(yè)應(yīng)用,從個人隱私再到政府管理,大數(shù)據(jù)無處不在。與此同時,從哪個角度探討用什么方法研究,舍恩伯格都不會忘記大數(shù)據(jù)服務(wù)人類、造福人類的終極目的和價值所在。“大數(shù)據(jù)并不是一個充斥著運算法則和機器的冰冷世界,其中仍需要人類扮演重要角色。人類獨有的弱點、錯覺、錯誤都是十分必要的,因為這些特性的另一頭牽著的是人類的創(chuàng)造力、直覺和天賦。偶爾也會帶來屈辱或固執(zhí)的同樣混亂的大腦運作,也能帶來成功,或在偶然間促成我們的偉大。這提示我們應(yīng)該樂于接受類似的不準(zhǔn)確,因為不準(zhǔn)確正是我們之所以為人的特征之一。”[4]用中國話來說就是“人無完人”,人類在收獲大數(shù)據(jù)帶來的紅利的同時也要承受它帶來的危害。這不是對立統(tǒng)一的辯證唯物主義,我把它看作帶著歐洲批判學(xué)派色彩的科學(xué)發(fā)展觀。
問題是研究的價值基點,“大數(shù)據(jù)”不是舍恩伯格研究的問題,而是研究對象,他研究的是數(shù)據(jù)處理和信息管理問題,同時也討論信息安全和網(wǎng)絡(luò)倫理問題,還引發(fā)哲學(xué)上的思考,哲學(xué)史上爭論不休的世界可知論和不可知論轉(zhuǎn)變?yōu)閷嵶C科學(xué)中的具體問題??芍允墙^對的,不可知性是相對的?!按髷?shù)據(jù)”之所以為大是因為它引發(fā)人類生活、工作和思維的大變革。從這個意義上來看,《大數(shù)據(jù)時代》的意義不僅在于它討論了若干重大問題,而且對研究者開出了一個問題清單,從而引發(fā)更多人來探討這些有趣的問題。
《大數(shù)據(jù)時代》實際上主要是一本討論數(shù)據(jù)挖掘的書,數(shù)據(jù)挖掘與數(shù)據(jù)分析是不同的概念,數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動搜索隱藏于其中的有著特殊關(guān)系性的信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。而數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內(nèi)在規(guī)律。數(shù)據(jù)挖掘主要運用計算機來進(jìn)行處理,而數(shù)據(jù)分析既要用計算機也要人工分析,是計算機科學(xué)與人文價值判斷的統(tǒng)一結(jié)合。換言之,《大數(shù)據(jù)時代》并不是一本討論大數(shù)據(jù)所有問題的書。
《大數(shù)據(jù)時代》也是一本討論互聯(lián)網(wǎng)發(fā)展的書,從數(shù)字化到數(shù)據(jù)化,同時有濃厚的未來學(xué)色彩。當(dāng)文字變成數(shù)據(jù),我們進(jìn)入了互聯(lián)網(wǎng);當(dāng)方位變成數(shù)據(jù),我們進(jìn)入了物聯(lián)網(wǎng);當(dāng)溝通變成數(shù)據(jù),我們進(jìn)入了下一代互聯(lián)網(wǎng)。一切可量化,萬物皆數(shù)據(jù),正是當(dāng)今互聯(lián)網(wǎng)世界的真實寫照。面對于這樣的世界及世界的未來,在《大數(shù)據(jù)時代》出現(xiàn)最多的詞是“思維”和“方法”,因此也可以把這本書視為思維科學(xué)應(yīng)用研究的書。
三讀
2013年國慶節(jié)前一天,中共中央政治局常委們來到中關(guān)村搞集體學(xué)習(xí),調(diào)研、講解、討論創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略。包括習(xí)近平總書記、李克強總理在內(nèi)的七位常委全部出動來到中關(guān)村,這是歷史上沒有過的。百度、聯(lián)想和小米的負(fù)責(zé)人,有了一次直面最高層匯報工作的機會。雷軍和柳傳志,講解的都是本公司的各種情況,李彥宏則沒有講百度的廣告業(yè)務(wù)發(fā)展得如何好,而是講起了大數(shù)據(jù)。在講解中,李彥宏認(rèn)為大數(shù)據(jù)有兩個重要價值:一是促進(jìn)信息消費,加快經(jīng)濟轉(zhuǎn)型升級;二是關(guān)注社會民生,帶動社會管理創(chuàng)新。這些價值也是目前黨和國家領(lǐng)導(dǎo)人最為重視的,可見《大數(shù)據(jù)時代》既有理論價值也有現(xiàn)實意義。
當(dāng)今大數(shù)據(jù)正在影響著新聞傳媒業(yè),大數(shù)據(jù)新聞、大數(shù)據(jù)營銷、輿情分析、受眾(用戶)研究……數(shù)據(jù)分析師變身新聞編輯,大數(shù)據(jù)正改變新聞生產(chǎn)流程,大數(shù)據(jù)在創(chuàng)造傳媒新業(yè)態(tài)。“不妨想象一下,隨著數(shù)據(jù)的進(jìn)一步增加,坐擁用戶資源的新媒體完全有能力通過數(shù)據(jù)挖掘,分析用戶癖好,向電視臺定制一部電視劇甚至向好萊塢定制一部電影。到那個時候,電視臺一如那些家電廠商們,曾經(jīng)產(chǎn)業(yè)鏈的上游‘王者’,將徹底成為一個產(chǎn)業(yè)鏈最低端的內(nèi)容代工廠?!盵5]然而,情形也遠(yuǎn)沒有人們想象的那么樂觀。李彥宏指出目前多數(shù)所謂的大數(shù)據(jù)公司其實還是空殼子,因為數(shù)據(jù)還沒有完全開放。他認(rèn)為必須在政府層面上推動才能真正實現(xiàn)大數(shù)據(jù)的開發(fā)與利用。我在討論大數(shù)據(jù)時代的輿情監(jiān)測與預(yù)警時說道:“經(jīng)典自由主義傳播學(xué)說對媒體的定位:秉持公正、客觀立場的媒體被稱為代表公眾監(jiān)督政府行為的‘看門狗’。其實,媒體既是公眾利益也是國家利益的‘看門狗’。要看好門就要瞭望、洞察社情民意,傳統(tǒng)媒體信息反饋渠道單一,視野、人力十分有限。而開放互動的新媒體平臺卻大有可為。作為公共信息發(fā)布平臺的微博可以成為政府及時了解社情民意,從而選擇正確治理路徑的‘導(dǎo)盲犬’?!盵6]遺憾的是目前我國的六大數(shù)據(jù)平臺都沒有能夠開放,基礎(chǔ)數(shù)據(jù)還不能實現(xiàn)共享,真正的大數(shù)據(jù)時代還沒有到來。
與國內(nèi)不少教科書寫法的專著相比,國外的書寫得更有趣,尤其是大學(xué)者寫的,不僅視野開闊,而且能夠深入淺出。《大數(shù)據(jù)時代》不到22萬字,卻有上百個學(xué)術(shù)和商業(yè)的實例,豐富翔實的例子讓讀者感到通俗易懂,深奧的理論看起來也不費勁。這恐怕與舍恩伯格既是學(xué)者也是專家,既有理論又有實踐有關(guān)。反觀我們些學(xué)者故弄玄虛而示高明,實際上是把讀者拒之門外。我覺得優(yōu)秀的科學(xué)家也應(yīng)該是一個科普作家,優(yōu)秀的學(xué)者也應(yīng)該是一個不錯的傳播者。當(dāng)然國外學(xué)術(shù)著作也有一個翻譯問題,這本書譯得還不錯。此外,《大數(shù)據(jù)時代》還附有不少IT界名流的推薦意見,雖是出版商的發(fā)行所為,但對解讀此書也不無益處。
除了《大數(shù)據(jù)時代》,舍恩伯格還有一本《刪除》也值得一讀。要研究大數(shù)據(jù)不能只讀一本書,該書譯者周濤教授還推薦了三部國內(nèi)出版的大數(shù)據(jù)方面的專著:《證析》《大數(shù)據(jù)》《個性化:商業(yè)的未來》。相比《大數(shù)據(jù)時代》的宏大視野,這些書就大數(shù)據(jù)某一局部問題給出深刻的介紹和洞見。我也推薦讀一讀中國工程院李國杰院士和中科院計算所副總工程學(xué)旗合寫的文章《大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考》。
雖說開卷有益,但是由于每個人的時間、精力有限,對于一個研究者來說,不讀什么書甚至比讀什么書更重要。我認(rèn)為書有三種:有用的書,主要是應(yīng)用類的專業(yè)書;無用的書,主要是形而上的思想類;無字的書,人間百態(tài),社會現(xiàn)實。可偏重但不應(yīng)偏廢。對于學(xué)生來講這三類“書”都該讀一些,對于研究者來說則要讀哪些解決關(guān)鍵問題的書,《大數(shù)據(jù)時代》就是這樣一部書。當(dāng)然,并非每一個讀者都是研究大數(shù)據(jù)的,但進(jìn)入大數(shù)據(jù)時代,還有什么東西與數(shù)據(jù)完全沒有關(guān)系呢?麥肯錫全球研究機構(gòu)認(rèn)為,未來十年里有12項對經(jīng)濟發(fā)展產(chǎn)生重大影響的技術(shù),其中包括三項新媒體技術(shù):移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計算。這三項新媒體技術(shù)都與大數(shù)據(jù)密切相關(guān),而這些新媒體新技術(shù)的發(fā)展都影響著當(dāng)今的新聞傳播業(yè)。閱讀此書至少給我們研究新聞傳播學(xué)帶來一些啟迪。我覺得一本書的價值不在于讓你頂禮膜拜,而是引發(fā)廣泛而深入的討論。
并讀
顯然,不能就大數(shù)據(jù)論大數(shù)據(jù),聽聽其他學(xué)者從價值理性層面來討論大數(shù)據(jù)或許更有助于我們對大數(shù)據(jù)的了解。大數(shù)據(jù)計算方法大大擴展了人們在計量、識別及求知事物方面的能力范圍。但與此同時,它也給學(xué)術(shù)研究者帶來一系列政治及倫理上的難題。[7]兩位著名的網(wǎng)絡(luò)研究者Danah Boyd 和 Kate Crawford早在2011年就曾發(fā)表《“大數(shù)據(jù)”的關(guān)鍵問題》一文。作者列舉了幾個由“大數(shù)據(jù)”方法所帶來的核心問題,即大數(shù)據(jù)如何改變了“對知識的定義、對客觀性與精確性的要求、語境與意義的生成、數(shù)據(jù)的接觸權(quán)限以及實踐中的倫理與責(zé)任”等。最新一期的Media Culture & Society邀請五位傳播學(xué)者結(jié)合自己的研究將“大數(shù)據(jù)”問題的建構(gòu)與隱私、知識、權(quán)力、控制等全球性議題相勾連,開展專題討論。
Boyd和Crawford在《大數(shù)據(jù)的關(guān)鍵問題》中強調(diào)了“對‘大數(shù)據(jù)’接觸的限制將造成新的數(shù)字鴻溝”。這一觀點得到了Anita Chan的認(rèn)同,其認(rèn)為由于“大數(shù)據(jù)”方法在數(shù)據(jù)獲取上彌補了人為數(shù)據(jù)收集難度大、費時長、耗材高的缺陷,因此吸引了科技領(lǐng)域的研究興趣,但這也使得一些關(guān)鍵的問題被遺漏。比如,人們往往認(rèn)為“大數(shù)據(jù)”的獲取是容易的,卻忽略了真正龐大而關(guān)鍵的社交數(shù)據(jù)(如交易數(shù)據(jù))只有社交網(wǎng)絡(luò)公司自己才能獲取。因此,數(shù)據(jù)的所有權(quán)與商業(yè)的規(guī)則正影響著相關(guān)研究的內(nèi)容與形態(tài)。有能力的研究者們通過資本或所有權(quán)獲得大數(shù)據(jù),并做出和無法獲取這類數(shù)據(jù)的研究者們完全不同的研究成果來。長此以往,這一數(shù)據(jù)接觸壁壘將影響“大數(shù)據(jù)”科學(xué)發(fā)展的趨勢。同時,作者認(rèn)為同樣難以預(yù)估的,是大數(shù)據(jù)接觸壁壘所引發(fā)的后果,是“大數(shù)據(jù)”獲取實現(xiàn)之后將會發(fā)生什么:當(dāng)學(xué)術(shù)機構(gòu)與公司以研究為名合作研究“大數(shù)據(jù)”后,他們之間的倫理邊界將如何確定?
與如火如荼的“大數(shù)據(jù)”相對的方法應(yīng)該叫什么?在Andre Brock看來,與其稱之為略帶輕蔑之意的“小數(shù)據(jù)(Small Data)”,不如因其對復(fù)雜意義的深度闡釋而稱其為“深數(shù)據(jù)(Deep Data)”。文章開門見山地拋出觀點,認(rèn)為闡釋(interpretation)才是數(shù)據(jù)分析的核心所在。只有在研究者承認(rèn)數(shù)據(jù)庫的起源、偏好型的選擇及信息科技中的符號性資源都隱藏著某種意識形態(tài),并開始對其檢視時,數(shù)據(jù)分析才最為有效。Boyd與Crawford的經(jīng)典文本批評了以收集推特數(shù)量來佐證研究效度的思路,質(zhì)疑此類研究中“用戶”“最低限度活躍用戶(minimally active users)”“獨立用戶(unique users)”等概念是否被厘清。而在Brock看來,此類問題甚為普遍。他指出,將用戶行為界定為“在特定平臺上交流”脫離了此間蘊含的文化與技術(shù)機理,在“大數(shù)據(jù)”研究中,這樣的概念顯然不能闡明用戶表達(dá)動機的多樣性。因此作者在文末倡議研究者們不要只對網(wǎng)絡(luò)行為做工具性的分析,相反,應(yīng)該有機地整合批判性的科技文化理論框架,以此來解讀用戶的網(wǎng)絡(luò)行為與生產(chǎn)內(nèi)容?!叭硕忌嬗谔囟ǖ奈幕?,因此‘大數(shù)據(jù)’研究不是特定數(shù)據(jù)的轉(zhuǎn)化,在形式與內(nèi)容上,它都指涉著某種道德的辨析?!?/p>
來自中國香港的學(xué)者邱林川以其兩年前在阿里巴巴參觀時的經(jīng)歷開頭:在公司內(nèi)部的某個房間里,一張巨大的屏幕以地圖的形式呈現(xiàn)著淘寶網(wǎng)發(fā)生實時交易的地點。透過屏幕,能看到中國沿海及內(nèi)陸在交易量上的巨大差異。這一切,是正在購買商品的用戶們所完全不知悉的?!皵?shù)據(jù)的易得并不意味著它就是符合道德的”,Boyd和Crawford如是說。邱林川也認(rèn)為“大數(shù)據(jù)”的倫理問題必須以一種全球性的、聯(lián)系的視角去看待,尤其在信息科技迅猛發(fā)展的中國,這類問題更為明顯,也更肆無忌憚。相比西方,監(jiān)管的缺失使得中國的數(shù)據(jù)挖掘者們更肆無忌憚地繞行法律、挖掘和濫用數(shù)據(jù)信息。因此,在邱林川看來,數(shù)據(jù)在何種形勢下以何種目的進(jìn)行開發(fā),才是真正的倫理問題。對比起強權(quán)政府的信息管控,日漸崛起的商業(yè)力量對數(shù)據(jù)的不法利用同樣可怕。它們通過對用戶信息進(jìn)行商業(yè)性的分析,調(diào)整著相關(guān)的法律應(yīng)對策略,在討巧地實現(xiàn)商業(yè)效益的同時,使用戶在自己社交行為的選擇上逐漸失去主動權(quán)。作者將上述現(xiàn)象類比為“第二次圈地運動”,即通過知識產(chǎn)權(quán)對弱勢者在信息、圖像與思想上的又一次劫掠。在作者看來,當(dāng)下的問題實則是一體兩面的。即一方面要尋求在數(shù)據(jù)浪潮中自保,另一方面則應(yīng)思考如何規(guī)范政府及商業(yè)力量的權(quán)限。
學(xué)者們還對數(shù)據(jù)與知識定義、數(shù)據(jù)與語境問題進(jìn)行了探討。筆者認(rèn)為,隨著大數(shù)據(jù)的發(fā)展和應(yīng)用,這些討論還會不斷地深入。舍恩伯格在《大數(shù)據(jù)時代》結(jié)尾中寫道:“凡是過去,皆為序曲?!弊x完此書,我們對大數(shù)據(jù)的認(rèn)識才剛剛開始。
[參考文獻(xiàn)]
[1] [2][3][4]維克托·邁爾-舍恩伯格、肯尼思·庫克耶.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:89.
[5] 趙賽坡.大數(shù)據(jù)面前,電視臺恐將淪為內(nèi)容代工廠[EB/OL].http://www.tmtpost.com/69643.html.
[6] 譚天.微博:反映輿情的“雙刃劍”[N].中國社會科學(xué)報,2013-5-8.
[7] 學(xué)術(shù)聲音:傳播學(xué)者如何激辯“大數(shù)據(jù)”[EB/OL].微信公眾號《復(fù)旦引擎》,2015-9-22.
(責(zé)任編校:朱德東)
Study and Reading as well as Criticism on Big Data Research Classics
——Reading Viktor Mayer·Schonberger’s Big Data
TAN Tian
(SchoolofNewsandCommunication,JinanUniversity,Guangzhou510632,China)
Abstract:After studying and reading Viktor Mayer and Schonberger’s Big Data, the author discusses and points out questions on Schonberger’s three main points and considers that random samples and the whole data are the same important, that accuracy and mixture should be properly used and the correlation can not be deviated from the causality. This paper also introduces the foreign discussion on Big Data in foreign literature.
Key words:Big Data; analysis; ethics
中圖分類號:G43
文獻(xiàn)標(biāo)志碼:A
文章編號:1672- 0598(2016)01- 0099- 05
[作者簡介]譚天,男;暨南大學(xué)新聞與傳播學(xué)院教授,碩士生導(dǎo)師。
[收稿日期]*2015-10-19
doi:12.3969/j.issn.1672- 0598.2016.01.016