齊磊磊
(華南理工大學 科學技術哲學研究中心,廣東 廣州 510641)
谷歌、IBM、臉譜網等創(chuàng)新公司與互聯(lián)網、云計算等互動技術,推動整個數字世界進入到大數據時代。作為對大數據時代的一個哲學反思,筆者2015年7月曾經在《哲學動態(tài)》上發(fā)表一篇論文“大數據經驗主義——如何看待理論、因果與規(guī)律”[1],文中首先梳理了從16、17世紀的洛克、牛頓、貝克萊、大衛(wèi)·休謨堅持的經驗主義到卡爾納普、石里克的邏輯經驗主義再到以南茜·卡特萊特為首的新經驗主義的觀點,然后結合大數據的概念與哲學意義上對大數據的理解以及新經驗主義的觀點,提出了大數據經驗主義的概念;在對大數據經驗主義的基本觀點進行概括后,用較大篇幅對大數據經驗主義的觀點進行哲學分析。
論文發(fā)表以后,國內學界許多讀者關注到這篇論文并以不同的方式與筆者交流,比較贊賞的觀點主要集中在問題的敏銳度與哲學分析的力度上,當然也有持不同意見者,如黃欣榮教授專門寫了一篇文章《大數據如何看待理論、因果與規(guī)律——與齊磊磊博士商榷》。[2]在學術研究的過程中,除了學術上的共鳴之外,難能可貴的當然還有學術上的爭鳴。認真研讀黃教授的商榷文章,爭論的焦點匯集為:大數據經驗主義與大數據主義是不是一回事?本文主要圍繞這個問題展開。
黃教授在商榷的文章中首先肯定了筆者提出“大數據經驗主義”這一概念的意義:“她在文中提出了大數據經驗主義的概念,并系統(tǒng)提煉了大數據經驗主義的科學哲學觀點,這是大數據哲學的重要提煉和概括。”[2]在提出這個看法之后,黃教授話鋒一轉,開始討論他的不同觀點。黃教授在接下來對不同觀點的闡述中第一句話就導致產生了我們商榷的焦點問題。他說:“大數據經驗主義是一種新經驗主義(以下簡稱為大數據主義)?!盵2]對于這樣的一個“簡稱”方式,可能是無意為之,但是筆者提出的“大數據經驗主義”在黃教授的商榷文章中包括題目在內的所有使用之處都被簡稱為“大數據主義”。
在“大數據經驗主義——如何看待理論、因果與規(guī)律”一文中,筆者之所以提出大數據經驗主義這個概念,有一個哲學,尤其是科學哲學的學科背景。在科學哲學視域下,從經驗主義到邏輯經驗主義再到新經驗主義,貫穿其中的核心是“經驗”的概念與意義。正是有了這個“經驗”的存在,筆者才會鏈接到當下的大數據時代幾位權威發(fā)言人的觀點,才會創(chuàng)造性地提出“大數據經驗主義”的這個說法。所以,提出“大數據經驗主義”概念是對時代特征進行哲學反思的產物,具有可追溯的學術淵源。同樣,在此基礎上,筆者概括出的大數據經驗主義的三個基本主張也是基于科學哲學的視角,是對大數據幾位權威發(fā)言人觀點的提煉與總結,這樣的概括其核心的主張也是基于傳統(tǒng)上對 “經驗”的解讀與結合,“經驗”一詞可謂是“大數據經驗主義”這個概念的靈魂。因此,“大數據經驗主義”這個提法具有自身的獨特性,是不該簡稱也不能簡稱,當然也是不能用其他概念代替的。
除了黃教授的這個簡稱,商業(yè)界確實也存在著“大數據主義”這個概念。為《紐約時報》撰稿長達20年的史蒂夫·洛爾(Steve Lohr)在2015年出版了DATA-ISM:TheRevolutionTransformingDecisionMaking,ConsumerBehavior,andAlmostEverythingElse一書(中譯本翻譯為《大數據主義:一場發(fā)生在決策、消費者行為以及幾乎所有領域的顛覆性革命!》)[3]他在書中引用了專業(yè)研究機構的數據、統(tǒng)計了大數據的規(guī)模與速度,說明我們的這個世界在大數據和云計算的互動中迅速進入到一個大數據構筑而成的數字世界。史蒂夫·洛爾認為對大數據的研究價值“更重要的問題是如何運用、如何理解這些數據。”[3]8基于這樣的主旨,作者以大量企業(yè)和商界的案例闡述大數據何以成為“主義”:比如重點關注那些處于數據科學領域前沿的年輕企業(yè)家和具有悠久歷史的公司,重點介紹他們的相關經歷,從他們的職業(yè)生涯的變遷來揭示數據技術與方法不斷發(fā)展的步伐,抽象出大數據主義思想的典型代表,最后回歸主題,大數據主義正在興起。顯然,史蒂夫·洛爾所談及的“大數據主義”,主要圍繞一個比較寬泛的經濟領域,調查那些具于前沿意識的項目與創(chuàng)意,與數據公司的科研人員、企業(yè)家共同討論大數據理論。
那么,史蒂夫·洛爾所討論的“大數據主義”與我們所說的“大數據經驗主義”是一回事嗎?當然不是!原因有二:其一,從學科領域與研究的側重點來說,史蒂夫·洛爾的“大數據主義”是從經濟學領域出發(fā)研究若干個商業(yè)案例與前沿科技公司,側重的是大數據對人們思維與生活方式上的變革與影響,主要關注數據決策和數據應用方面。其二,主要是從因果與相關的表述角度。史蒂夫·洛爾想要“厘清大數據中的相關關系與和因果關系”時,他發(fā)現(xiàn)相關關系可以為商業(yè)、醫(yī)學等應用領域提供有效的預測工具,但不能因此否定因果性。對于很多人曾經認為“對于大量商業(yè)決策而言,有相關性就能得出令人滿意的結果”[3]163,史蒂夫·洛爾引用了IBM人工智能專家戴維·費魯奇的反對觀點:“商業(yè)戰(zhàn)略與政策制定等決策領域面臨更大的風險,僅憑相關性是絕對不夠的?!磥淼娜斯ぶ悄艹藭祿治鲆酝猓€要對因果關系產生有啟發(fā)性的認識,包括理論、假設、現(xiàn)實世界的心理模型、事情的原委等,兩者必須更密切地相互配合?!盵3]164或許是受史蒂夫·洛爾的影響,黃教授簡化的名稱“大數據主義”與史蒂夫·洛爾的書名完全相同,同樣黃教授為了支持他的商榷立場,在他的文章中也引用了史蒂夫·洛爾上面的這一段話。仔細分析,《大數據主義》中的這一段話所表達的觀點恰恰反對的是筆者所提出的“大數據經驗主義”對因果與相關關系所表述的意思。也就是說,從因果與相關的立場上,大數據主義是反對大數據經驗主義的觀點的。在這個意義上,將大數據經驗主義直接簡稱為大數據主義是不恰當的。由此以大數據主義的立場進行商榷實際上在一定程度上支持了筆者對大數據經驗主義的批判。
從另一個角度,筆者提出的“大數據經驗主義”是史蒂夫·洛爾所說的“大數據主義”的加強版,或者稱為強硬的“大數據主義”。這樣的一種表述同樣也來自史蒂夫·洛爾的《大數據主義》。史蒂夫·洛爾曾經介紹到摩根士丹利的前首席經濟師理查德·伯納,稱他是一位有條件支持大數據的擁護者,在提到大數據作為金融顯微鏡的作用時,史蒂夫·洛爾說:“強硬的數據主義者認為無須任何理論,也無須借助為世界運行方式建立模型,單憑相關性就可以解決一切問題?!盵3]161對于這種“強硬的數據主義者”的觀點,理查德·伯納說:“我認為,說相關性足以說明問題的人都應該反思?!薄霸谒磥?,數據與理論(或者經濟行為模型)對于了解經濟社會而言都必不可少。伯納補充說,當前的這種爭論在經濟學史上早已有之,可以追溯至加林·庫普曼斯在1947年發(fā)表的論文‘缺乏理論的計量’。庫普曼斯是一位荷蘭裔美國經濟學家,后來獲得了諾貝爾經濟學獎,他在這篇文章里對商業(yè)圈中的強硬‘經驗主義’方法進行了抨擊?!盵3]162這樣,“大數據經驗主義”除了有自身的學科背景之外,在經濟學領域也找到了相應的理論源頭,它們共同的焦點都指向了從“經驗主義”的角度討論因果與相關,只不過來自哲學領域的“大數據經驗主義”是對強硬“經驗主義”的擁護,而來自經濟學領域的“大數據經驗主義”是對強硬“經驗主義”的批判。
退一步說,即使《大數據主義》只主張在商業(yè)或者經濟領域,只需要進行數據分析就可以做出決策,那么作為對“大數據主義”的表述,這樣的說法也沒有任何問題,正如筆者界定的“大數據經驗主義”有他自身的特征一樣,“大數據主義”也有自身的特征。史蒂夫·洛爾在提出了“大數據主義”的名稱后,在厘清大數據中的相關關系和因果關系時,即使提出這樣的觀點,即認為相關關系可以為商業(yè)、醫(yī)學等應用領域提供有效的預測工具,因此而否定因果性,這也是他提出的“大數據主義”的題中應有之意,與其它背景下提出的“大數據經驗主義”沒有對比的基準。
至此,我們已經基本回答了商榷的焦點問題。相對大數據經驗主義的觀點和立場,大數據主義是如何看待理論、因果與規(guī)律的呢?我們接下來進行詳細討論。
區(qū)別于“大數據經驗主義”相對比較極端的觀點,“大數據主義”采取溫和的態(tài)度來看待數據相關與理論、因果的關系。他們認為,數據的相關性是為了尋找數據規(guī)律以助于發(fā)現(xiàn)因果關系。這正是“大數據經驗主義”一文中筆者所堅持的立場:“我們不否認大數據方法論,但并不贊同目前大數據時代引領下的這種大數據經驗主義的神化觀點?!盵1]筆者當時使用的是“大數據方法論”,所要表達的觀點實際上與后來的“大數據主義”的觀點一樣,與黃欣榮教授商榷文章的立場也是保持一致的。由于“大數據經驗主義”一文中已詳細地討論過大數據經驗主義如何對待理論、因果與規(guī)律,對于安德森等人言辭過于激烈的論調,屬于大數據經驗主義的觀點,此處不再贅述。對于舍恩伯格的有些觀點,細心的讀者會看到,我們此處也會涉及到一些。*舍恩伯格與庫克耶合著的《大數據時代》一書中,許多觀點與立場也不是非常明確、清晰,甚至有些前后并不一致。這恰恰表明:大數據經驗主義與大數據主義是截然二分的,但很多人對大數據的觀點和看法并不是一成不變的,他們在大數據“忽如一夜春風來”的沖擊下或許發(fā)表了一些過激的言論,被歸為“大數據經驗主義”之列,但隨著認識的深入、實踐的應用以及冷靜地思考,對大數據的態(tài)度會發(fā)生改變(比如他們會更為正確地看待大數據與理論、因果、規(guī)律之間的關系),進而轉向“大數據主義”。下面詳細討論大數據主義對待理論、因果與規(guī)律的態(tài)度。*理論、因果與規(guī)律,三者具體表達的雖然有差別,但相對于大數據,它們又是一個“統(tǒng)一戰(zhàn)線”,所以本文將三者看作一個整體而未作刻意區(qū)分,根據具體情況提及其中某個或某些個,有時也將“因果與規(guī)律”涵蓋在理論之中,以“理論”為代表。
大數據的風云人物舍恩伯格與庫克耶反對安德森“理論終結”的說法。他們認為:“‘理論的終結’似乎暗示著,盡管理論仍存在于像物理、化學這樣的學科里,但大數據分析不需要成形的概念。這實在荒謬?!盵4]93進而,他們表達了大數據與理論關系的看法:“大數據是在理論的基礎上形成的。比方說,大數據分析就用到了統(tǒng)計和數學理論,有時也會用到計算機科學理論。……建立在這些理論上的大數據分析模式是實現(xiàn)大數據預測能力的重要因素”[4]94從這些言論上看,舍恩伯格與庫克耶把理論看作是主體部分,大數據的產生離不開理論的支撐,對大數據的分析以及具體應用(如預測)也都是以理論為基礎的。
談到大數據整個處理過程,舍恩伯格與庫克耶的觀點更為顯明:收集大數據時,理論影響著我們如何做出相關的決定;分析大數據時,我們使用什么樣的分析工具也依賴于理論;分析大數據最后的結果時,同樣也離不開理論的指導。因此,他們的結論是:“大數據時代絕對不是一個理論消亡的時代,相反地,理論貫穿于大數據分析的方方面面?!盵4]94具體來說,我們可以先設定一個問題,使用大數據來分析、驗證計算機借助算法生成的若干可能性假設,而不是依靠經驗或實驗逐個驗證,這樣的方式去除了對既有認知的阻礙,從統(tǒng)計學的角度提高了精確性。仔細分析兩者的區(qū)別:使用計算機的算法程序產生的大量數據可以驗證問題的所有可能的答案,最后選取其中最優(yōu)的一個;而傳統(tǒng)的經驗試錯法有可能會丟失某些關鍵的數據而造成解答的偏差。但同時我們還要考慮這樣一個問題:有時候數據并不是越多越好,如果不加選擇地隨意使用大數據則會存在一些潛在的風險。比如當有人為了某種目的而惡意提供虛假的數據,如果使用者直接采用而不作理論上的分析,那勢必會產生錯誤的結論或做出糟糕的決策。
大數據以理論為根基,“大數據絕不會叫囂‘理論已死’,但它毫無疑問會從根本上改變我們理解世界的方式。”[4]94與小數據時代不同,大數據可以幫助研究者找到以前所發(fā)現(xiàn)不了的規(guī)律與因果聯(lián)系,除了在商業(yè)、科學等諸多領域帶來的大的變化,大數據為更好地認識世界提供了更多的方式與可能。目前的這個世界變得更加復雜,隨之帶來的不確定性遠超我們的想象。因此,當人們使用大數據探索世界時,他們可能會獲得更好的理解,相應地會提高解決問題的能力和決策水平。人們尋找因果關系是一種與生俱來的能力或習慣,我們隨時準備著從因果關系的角度來認識世界,大多數情況下,人們只有真正地解釋與理解世界內部究竟是怎么一回事時,才會感到欣慰。雖然實際發(fā)現(xiàn)的因果關系并沒有想象中的多,甚至有些是錯誤的*深層的研究顯示,通常我們對因果關系的快速直覺是完全錯誤的。參見維克托·邁爾-舍恩伯格, 肯尼思·庫克耶:《與大數據同行:學習和教育的未來》.趙中建,張燕南譯,華東師范大學出版社2015年出版,第47頁。,但這并不是只要相關性而放棄尋找因果關系的理由。
因此,大數據主義者是比較溫和地看待理論、因果與規(guī)律。除此之外,大數據主義者也認為:“大數據的發(fā)展可能會改變經濟和社會生活,可能會改變科學研究的途徑,甚而改變人類的思維方式?!盵5]如今,大數據處理技術會對來自各方面的大量信息進行分析,當你在網上搜索時,大規(guī)模數據庫可以滿足我們的訪問,幫助我們做出更好的決策,譬如你在網上購書,系統(tǒng)會給出百分之多少的人也瀏覽過這本書,百分之多少人購買,有哪些書與其搭配購買。就像這樣,我們的很多行為都被數據化。購物、社交、愛好等等都被大數據分析,這些數據潛移默化地改變著這個社會,改變著人們的行為習慣與思維方式。
基于對大數據與科學理論關系的思考,很多學者對傳統(tǒng)的科學發(fā)現(xiàn)模式產生了新的看法,認為“科學始于數據”。黃欣榮教授詳細梳理了科學哲學中曾出現(xiàn)的科學發(fā)現(xiàn)模式中的幾種范式,并以此為基礎得出了這樣的結論:“在大數據時代,知識的發(fā)現(xiàn)可以從數據開始,不再需要預先做出理論的假設?!盵2]黃教授此處使用“可以”而不是某種更強硬的語氣,不是強調一定要從數據開始,這樣的表達方式表現(xiàn)了大數據主義較溫和的態(tài)度:知識的發(fā)現(xiàn)可以從假設與模型開始,也可以從數據開始,前者為主,后者為輔,或者說后者是前者的有益補充。
關于這一點,吉姆·格雷(Jim Gray)作為計算機專家,從科學記錄的角度倡導了“科學研究的第四范式”(也有人稱作“數據密集型科學”),更為全面地分析了科學發(fā)現(xiàn)可以從大數據開始。黃教授贊同格雷對科學發(fā)現(xiàn)模式所作的系統(tǒng)的四種分類,前兩種范式(經驗(實驗或試驗*Tony Hey, Stewart Tansley, Kristin Tolle合著的《第四范式:數據密集型科學發(fā)現(xiàn)》一書中譯者翻譯為“試驗”。)范式和理論范式)是科學哲學歷史上兩大流派的核心觀點;第三種計算范式,即大規(guī)模的計算機模擬,它的出現(xiàn)是由于20世紀中期,“支撐試驗和理論的計算技術的同時增長,加大了傳統(tǒng)科學記錄的壓力。不僅底層數據在持續(xù)增加,模擬和試驗的產出也變成大型而復雜的數據集,它們只能總結性地出現(xiàn)(不能完整地被記錄)在傳統(tǒng)出版物中?!盵6]184在這樣的情況下,計算技術成為產生大量數據的工具,大量的數據推動了科學理論的發(fā)展,計算數據的記錄用來補充實驗方法的傳統(tǒng)描述。它所處的位置等價于傳統(tǒng)中的實驗數據,大量的實驗數據在理想狀態(tài)下是可以帶來更好的理論規(guī)律或科學假設,推動科學理論的發(fā)展??茖W理論的世界發(fā)生了變化,隨著收集的數據或模擬產生的數據爆炸式地增長,“從計算科學中把數據密集型科學區(qū)分出來作為一個新的、科學探索的第四范式頗有價值?!盵6]xi因此,形成于新的發(fā)展形勢下的第四范式并沒有要取代前三個范式的意圖,相反還成為加強大數據與理論密切關系的粘合劑:“在一定意義上,格雷的第四范式提供了一個集成框架,使前三者(范式)相互作用,相得益彰”[7]181,即格雷自己所說的:“模擬、理論和試驗在大量數據背景下必須攜手合作?!盵6]181這樣的描述恰恰說明目前大數據在科學理論中的地位。
從科學記錄的角度對大數據引起的第四種研究范式的分析,大數據主義的看法可以用天文學上的一個案例形象地表達:正如開普勒利用布拉赫對天體運動的大量觀測數據中發(fā)現(xiàn)了行星運動三定律一樣,對大數據的分析引發(fā)產生了若干新的理論,“在對所采集并仔細保存的實驗數據進行挖掘和分析的基礎上建立起新的理論,也正是第四范式的一個重要特征。”[7]前言ⅲ
通過以上分析,在筆者看來,大數據與理論的最根本的關系可以歸結為:大數據幫助發(fā)現(xiàn)理論。這種幫助作用并不僅僅只停留在“假設-模型或實驗”階段,大數據的助推作用貫穿于發(fā)現(xiàn)理論的多個環(huán)節(jié)與過程中。但是,就像拉卡托斯的“研究綱領”所要表達的意思,大數據在科學理論發(fā)現(xiàn)中的這種積極作用并沒有改變“研究綱領”中的“內核”。也就是說,目前科學理論的發(fā)現(xiàn)過程中,雖然大數據起到了重要的作用,但并沒有取代其他范式建立一種以大數據為中心或者是以大數據為起源的研究范式,而是仍然遵從于以問題為導向的理論研究。如果“科學起源于數據”,那就會陷入漫無目的地收集數據的海洋,即使能夠做到大數據主義所主張的全數據分析,那么在收集這些全數據時也要針對一個明確的問題,不然全數據收集就會陷入自己的悖論之中,是不可能完成的。
如果把“科學起源于大數據”當作是一種研究方法,那么理想中或邏輯上的全樣本分析實際上是一種完全歸納。這種完全歸納如果可以實現(xiàn),就會更容易探明因果關系。按照科學方法論,科學的歸納在于尋找因果關系,進而提出規(guī)律或理論。所以,那些通過大數據的分析只關注相關性就可以的研究者實際上是“用大炮打蚊子”,不是說不可以,實在是浪費了我們的“大數據時代”。于是我們可以說:不以尋找因果關系為目的的大數據研究是不徹底的。
利用大數據得出理論、因果與規(guī)律,實際上像傳統(tǒng)科學研究的過程、步驟一樣,只不過是用于分析的數據量的大小的差別,相應地會有不同的研究方法或者可能更接近于真實的結果。除此以外,并沒有更大的神秘。
大數據只是幫助研究者更好地發(fā)現(xiàn)理論、因果與規(guī)律,是假設-模型-理論中的一個有效的發(fā)現(xiàn)方法,處于輔助地位而不能代替它們中的任何一個。在大數據使用的“嬰兒期”,類似像大數據的擁護者所斷言的:“我們正處在一個認識論的革命之中,因果分析和理論生成會被現(xiàn)代主義方法論毫不留情地取代”[7],以及只要數據不要理論、只要相關不要因果這樣的言論為時過早。
讓商界的歸商界,學術的歸學術。在使用大數據時,目前的資料文獻大都集中于商用案例的應用描述或分析。商界注重應用,學術注重研究,由于各自側重點的不同,導致對大數據的態(tài)度會不一樣,但仔細分析,商界的使用最終也是要回歸到數據的分析,最終還要借助理論進行,最后還要究其原因。大數據中經常被使用的案例有一個是關于2009年谷歌成功預測了禽流感:通過大數據的統(tǒng)計,集中在一段時間內某一地區(qū)的人們搜索“發(fā)燒”“頭痛”“咳嗽”等特定詞條頻率大量增加,谷歌公司由此斷定在這個地區(qū)會引發(fā)禽流感。這個事件也讓大數據包括谷歌公司名聲大振。但遺憾的是,這樣的原理卻在2011—2013年間推出錯誤的結論,出現(xiàn)“大數據,大偏差”的窘境,究其原因主要是因為對大數據只關注相關性而忽略了理論與因果關系的討論,這樣得出的規(guī)律用鐵的事實告訴我們是不恰當的。
忽如一夜智能啟,千數萬數匯集來。我們這個時代,恒河沙數的數據勢如破竹,我們唯有正視它、利用它才不會成為時代的棄兒。但同時,我們也不能唯數據論,把數據當作替代理論和因果的尚方寶劍。新的時代要有新的思維與方法,培養(yǎng)大數據的理念與思維,不僅要順大數據之勢而謀,還要應大數據之勢而為,學術研究中應該正確使用大數據并使其最終服務于理論、因果與規(guī)律的研究。
[1]齊磊磊.大數據經驗主義——如何看待理論、因果與規(guī)律[J].哲學動態(tài),2015(7):89-95.
[2]黃欣榮.大數據如何看待理論、因果與規(guī)律——與齊磊磊博士商榷[J].理論探索,2016(12):33-39.
[3]史蒂夫·洛爾.大數據主義[M].胡小銳,朱勝超,譯.北京:中信出版集團,2015.
[4]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[5]李軍.大數據:從海量到精準[M].北京:清華大學出版社,2014:40.
[6]HEY T,TANSLEY S,TOLLE K.第四范式:數據密集型科學[M].潘教峰,張曉林,等譯.北京:科學出版社,2012.
[7]CHANDLER D.A world without causation: Big Data and the coming of age of posthumanism[J].Millennium: Journal of International Studies,2015(3):833-851.