• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      規(guī)律與因果:大數(shù)據(jù)對社會科學研究沖擊之反思

      2016-05-14 13:57:55劉林平蔣和超李瀟曉
      社會科學 2016年9期
      關(guān)鍵詞:因果關(guān)系反思沖擊

      劉林平 蔣和超 李瀟曉

      摘要:在社會科學中,大數(shù)據(jù)研究還剛剛起步,但也取得了一定成果。大數(shù)據(jù)為社會學和社會科學重新發(fā)現(xiàn)社會歷史發(fā)展規(guī)律提供了可能性:它提供了認知宏觀社會、檢驗社會現(xiàn)象的“異質(zhì)性假設(shè)”和“結(jié)果穩(wěn)定假設(shè)”的數(shù)據(jù)基礎(chǔ);它以實時記錄的特點較大程度上排除了獲取數(shù)據(jù)時的人為干擾;它將抽樣數(shù)據(jù)中被排斥的極端值重新納入統(tǒng)計分析。在因果關(guān)系上,大數(shù)據(jù)有助于從根本上克服由于抽樣偏頗所引起的樣本選擇性偏誤;匹配數(shù)據(jù)可以克服或緩解變量遺漏問題;作為面板數(shù)據(jù)和分層數(shù)據(jù),大數(shù)據(jù)對確定因果效應(yīng)、檢驗因果關(guān)系比抽樣數(shù)據(jù)更為有利、穩(wěn)健和可靠。大數(shù)據(jù)也許可以重構(gòu)社會學和社會科學的研究目標。

      關(guān)鍵詞:大數(shù)據(jù);規(guī)律;因果關(guān)系;沖擊;反思

      中圖分類號:C91-03

      文獻標識碼:A

      文章編號:0257-5833(2016)0943067-14

      作者簡介:劉林平,南京大學社會學院教授、博士生導師;蔣和超,南京大學社會學院博士研究生;李瀟曉,南京大學社會學院博士研究生

      (江蘇

      南京210023)

      一、大數(shù)據(jù)特征與社會學相關(guān)研究

      “數(shù)據(jù)”是系統(tǒng)收集到的關(guān)于世界的信息要素?!按髷?shù)據(jù)(Big data或Megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的形式的信息。”由于互聯(lián)網(wǎng)的普及和相關(guān)設(shè)備的廣泛使用,人類活動的痕跡幾乎都可以轉(zhuǎn)化為可以儲存的數(shù)據(jù),如日常起居、運動、購物、旅行、休閑、人際交往、寫作(發(fā)表意見、評論和文章等)等等莫不如此。在社會和國家的層面,經(jīng)濟、政治、軍事、科學、教育、社會和文化活動,及人類對自然界的影響,都會留下可儲存的海量數(shù)據(jù)。這些數(shù)據(jù)可以用來分析人類活動的特點和規(guī)律。因而,大數(shù)據(jù)必然會對傳統(tǒng)社會科學的研究方式產(chǎn)生巨大沖擊、挑戰(zhàn)并提供新的機遇。本文從社會學和社會科學研究的基本目標人手來進行反思。

      大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù)之處在于:它不是通過抽樣調(diào)查所獲取的樣本數(shù)據(jù),而是人類活動的實時記錄,并大都可以通過互聯(lián)網(wǎng)存儲、獲取、交換和分析。大數(shù)據(jù)是“由科學儀器、傳感設(shè)備、互聯(lián)網(wǎng)交易、電子郵件、音視頻軟件、網(wǎng)絡(luò)點擊流等多種數(shù)據(jù)源生成的大規(guī)模、多元化、復(fù)雜、長期的分布式數(shù)據(jù)集”。大數(shù)據(jù)有多方面的來源,一般而言可以分作五類:企業(yè)公司數(shù)據(jù),指來自公司企業(yè)的銷售、交易等數(shù)據(jù),比如阿里巴巴的銷售數(shù)據(jù)、證券公司的交易數(shù)據(jù)等;網(wǎng)絡(luò)數(shù)據(jù),主要是指來自互聯(lián)網(wǎng)、社交媒介的數(shù)據(jù),比如Facebook、Twitter、新浪微博等;期刊圖書數(shù)據(jù)庫,是指取自某一個具體的數(shù)據(jù)庫的數(shù)據(jù),比如CNKI期刊數(shù)據(jù)庫、Web of Science、Google圖書等;政府數(shù)據(jù),是指源自政府的總體數(shù)據(jù),比如人口普查數(shù)據(jù)、全國用水用電數(shù)據(jù)等;其他,是指除上述四類數(shù)據(jù)之外的其他數(shù)據(jù),但不包含抽樣調(diào)查數(shù)據(jù)。有關(guān)大數(shù)據(jù)的基本特征,我們可以在與傳統(tǒng)數(shù)據(jù)的比較中進行描述和分析。

      1.樣本與總體

      和以往抽樣調(diào)查獲得的數(shù)據(jù)不同,大數(shù)據(jù)不是抽樣數(shù)據(jù)而是一個總體數(shù)據(jù)。但是,這個總體是一定范圍里的總體,而不是絕對總體。比如,人們通過京東商城購物,所有的購物過程都可以轉(zhuǎn)化為數(shù)據(jù),所得到的總體就是在京東商城發(fā)生購物行為的總體。這個總體不是所有網(wǎng)上購物者的總體,更不是包括線下購物者的全部購物者的總體。不過,有一些數(shù)據(jù)的總體,就是一個完整的總體。比如,美國國防氣象衛(wèi)星計劃(Defense Meteorological Satellite Program)的夜間燈光圖像數(shù)據(jù),就是每天對地球進行掃描的數(shù)據(jù),其平均燈光強度可以作為代表區(qū)域社會經(jīng)濟發(fā)展的指標,現(xiàn)有研究表明這一指標與GDP的相關(guān)度非常高。這個數(shù)據(jù)的總體,就是整個地球。因而,我們不能籠統(tǒng)地說總體,而要具體看該數(shù)據(jù)所代表的總體是什么樣的總體。這樣所得結(jié)論的界限就比較明確。

      作為總體的大數(shù)據(jù),在統(tǒng)計上至少有兩個意義:其一,它可以給抽樣數(shù)據(jù)提供參照,糾正其偏差。抽樣調(diào)查采用抽樣數(shù)據(jù)推斷總體,實際上,很大程度上對總體認識不清,并不知道推論的實際效果,只是根據(jù)統(tǒng)計的顯著性來進行檢驗。大數(shù)據(jù)的出現(xiàn)為抽樣數(shù)據(jù)提供了總體的基本特征,抽樣數(shù)據(jù)可以與大數(shù)據(jù)進行比較,看到底有沒有偏差,偏差有多大。所以,大數(shù)據(jù)給小數(shù)據(jù)(抽樣數(shù)據(jù))提供了一個標桿和判斷的標準。其二,運用大數(shù)據(jù)進行統(tǒng)計時,顯著性檢驗可能就是不必要的了,實際數(shù)據(jù)差異是多少就是多少,因為它就是總體。

      2.結(jié)構(gòu)化與非結(jié)構(gòu)化

      與人們的一般想象不同,大數(shù)據(jù)其實主要不是結(jié)構(gòu)化的數(shù)據(jù),而是非結(jié)構(gòu)化(含半結(jié)構(gòu)化)的數(shù)據(jù)?!皳?jù)統(tǒng)計,只有5%的數(shù)據(jù)是結(jié)構(gòu)化的且能適用于傳統(tǒng)數(shù)據(jù)庫?!狈墙Y(jié)構(gòu)化的數(shù)據(jù)對社會科學研究提出了如下問題:其一,它對數(shù)據(jù)的分類、整理提出超越以往任何時候的技術(shù)要求和理念更新。其二,精確性與模糊性并存?!按髷?shù)據(jù)要求我們有所改變,我們必須能夠接受混亂和不確定性?!贝髷?shù)據(jù)是精確性與模糊性并存的數(shù)據(jù),可能精確的更精確,而模糊也是能夠接受的。

      3.單一與匹配

      一般說來,大數(shù)據(jù)的數(shù)據(jù)比較單一,它僅包含有限的變量。比如家庭和企業(yè)的用電、用水記錄,通訊公司的手機消費記錄,等等。但是,這些數(shù)據(jù)是可以匹配起來的。比如,通過通訊公司的手機(或座機)記錄、網(wǎng)上購物記錄和快遞公司的送貨記錄,我們可以分析手機用戶的網(wǎng)絡(luò)消費情況,進一步也可以將其人際交往情況匹配起來,等等。如果匹配是可能的,那么將有可能改變大數(shù)據(jù)目前變量較少的狀況。這種匹配,在技術(shù)上是可行的。問題在于不同數(shù)據(jù)的產(chǎn)權(quán)可能歸屬于不同的公司或部門,怎么解決數(shù)據(jù)交換的問題,就是一個市場交易的問題,是一個經(jīng)濟學和法學的問題。

      在個體的層次上,將數(shù)據(jù)匹配起來,牽涉到個體的權(quán)利、隱私等問題。在組織(如企業(yè)、公司、學校、科研機構(gòu)、政府組織和非政府組織等等)層次上、地區(qū)(如社區(qū)、城市、行政區(qū)劃等)層次上,也同樣存在上述問題。不過,非個體層次對隱私的要求沒有那么嚴格,在現(xiàn)有條件下,數(shù)據(jù)的獲得、使用主要受限于信息的不公開。

      4.容量、記錄與面板

      數(shù)據(jù)容量巨大也是大數(shù)據(jù)的基本特征。當前,大數(shù)據(jù)是指容量超過1TB或1PB的數(shù)據(jù)集,容量的界定是相對的,它會隨著時間和數(shù)據(jù)類型有所不同,隨著存儲能力的提高,大數(shù)據(jù)容量的閾值也會提高,對大數(shù)據(jù)容量給出一個確切的閾值是不切實際的。

      大數(shù)據(jù)是人類活動的實時記錄,與抽樣數(shù)據(jù)如問卷調(diào)查數(shù)據(jù)相比較,它往往不是回顧性的,基本不受到人的記憶的干擾,所以,在這個意義上,它比問卷調(diào)查數(shù)據(jù)更準確。由于大數(shù)據(jù)是實時記錄,所以它又具有時效性。由于大數(shù)據(jù)源源不斷地產(chǎn)生,它又是面板數(shù)據(jù),而且是間隔時間非常短暫的面板數(shù)據(jù),這是抽樣調(diào)查數(shù)據(jù),哪怕是其中的面板數(shù)據(jù)所難以比擬的。

      總而言之,作為人類活動實時記錄的大數(shù)據(jù)是一個總體數(shù)據(jù),它包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),一般容量較大,現(xiàn)實中單一的數(shù)據(jù)變量較少但可以進行匹配,許多大數(shù)據(jù)是源源不斷涌現(xiàn)的面板數(shù)據(jù)。這些特征使得它區(qū)別于傳統(tǒng)數(shù)據(jù),并對人類活動和科學研究產(chǎn)生了難以估量的影響。2008年,在《自然》雜志出版的??按髷?shù)據(jù)(Big Data)”中,費利斯·弗蘭克爾(Felice Frankel)和羅莎琳德·里德(Rosalind Reid)指出,巨大的數(shù)據(jù)流埋藏著對新科學的啟示,但是,我們需要發(fā)現(xiàn)的工具,比如透鏡。當然,大數(shù)據(jù)對科學的啟示或沖擊是從自然科學領(lǐng)域里開始的,但這種影響必然延伸到社會科學。

      我們在收錄了SSCI期刊的WOS(Web of Science)數(shù)據(jù)庫中,對社科類文獻中涉及大數(shù)據(jù)的社會科學(包含社會學)文章進行檢索,結(jié)果發(fā)現(xiàn):在社會科學研究中,涉及大數(shù)據(jù)的研究還很少,2010年至2015年12月以標題檢索的總計僅為249篇,采用大數(shù)據(jù)進行實證研究的則更少,僅為43篇。這說明大數(shù)據(jù)研究剛剛起步,涉及大數(shù)據(jù)的文章80%以上還在討論概念、特征和研究框架等初步問題。

      在社會學學科中,共有30篇有關(guān)大數(shù)據(jù)的論文發(fā)表,其中2011年到2014年有9篇,2015年則有2l篇。其中實證研究僅有2篇,所用數(shù)據(jù)來自網(wǎng)絡(luò)中的Twitter,研究方法采用時間序列分析,所用軟件為R。這說明,在英文文獻中,社會學的大數(shù)據(jù)研究也是剛剛起步。盡管大數(shù)據(jù)的研究并不多,但還是取得了一定的成果。根據(jù)斯科特·戈爾德(ScoR A.Golder)和邁克爾·梅西(Michael w.Macy)的歸納,西方學界對大數(shù)據(jù)中的網(wǎng)絡(luò)數(shù)據(jù)的研究(主要涉及傳播學、心理學、社會學和政治學等學科)在三個方面有所進展。

      一是社會網(wǎng)絡(luò)與傳播研究。借助Facebook、Twitter、郵件、電話通訊等數(shù)據(jù)提供的豐富的人口學特征和社會網(wǎng),學者們驗證了格蘭諾維特(Mark Granovetter)“弱關(guān)系假設(shè)”和博特(Ronald Butt)“結(jié)構(gòu)洞”理論。伊格爾(Eagle N.)等對6500萬電話用戶的通訊記錄的研究表明,社區(qū)成員社交網(wǎng)絡(luò)的多樣性與其經(jīng)濟發(fā)展呈正相關(guān),證實了社會網(wǎng)絡(luò)理論。烏干達(Ugander J.)等使用Facebook的社交網(wǎng)絡(luò)數(shù)據(jù)發(fā)現(xiàn),隨著用戶社交網(wǎng)絡(luò)規(guī)模的不斷擴大,用戶之間的分割由2008年的5.3步下降到了2011年的4.7步,驗證了“六度分隔理論”。巴克什(Bakshy E.)等對2.5億Facebook回帖數(shù)據(jù)的研究表明,新信息的傳播主要通過弱關(guān)系。相反,奧涅拉(Onnela J-P)等對460萬手機用戶的通訊記錄的研究發(fā)現(xiàn),盡管弱關(guān)系使社交網(wǎng)絡(luò)聯(lián)系了起來,但是大多數(shù)信息的傳播都是通過中等強度的聯(lián)結(jié)實現(xiàn)。

      二是社會交換、合作與信任的研究。巴克斯卓(Backstrom L.)和克萊因伯格(KleinbergJ.)隨機抽取了130萬成年Facebook用戶來測試戀愛關(guān)系建立和維持過程中社交網(wǎng)絡(luò)的“嵌入效應(yīng)”。令人驚奇的是,他們發(fā)現(xiàn)“離散”(較少的重疊)而不是“嵌入”更容易產(chǎn)生戀愛關(guān)系,這與“嵌入關(guān)系理論”相悖,但卻與博特的“結(jié)構(gòu)洞”理論相一致,即那些能夠填補結(jié)構(gòu)洞的人更能吸引同伴。

      三是集體行動與社會運動研究。用戶的網(wǎng)絡(luò)互動數(shù)據(jù)為研究者檢驗集體行動理論、公共物品和博弈論的相關(guān)假設(shè)提供了良好的機會,并受到政府機構(gòu)的極大重視。比如,岡薩雷斯(Gonzalez-Bailon S.)等使用Twitter和Facebook提供的數(shù)碼痕跡來追蹤“阿拉伯之春”中的抗議信息和公眾輿論,因為通過追蹤用戶發(fā)布內(nèi)容的轉(zhuǎn)變可以用來衡量抗議動員的速度和程度。迪格瑞齊亞(Digrazia J.)等關(guān)于地方選舉的研究表明,當?shù)毓埠忘h的選票與Twitter用戶消息中出現(xiàn)“共和黨”名稱的次數(shù)呈正相關(guān)關(guān)系,社交網(wǎng)絡(luò)數(shù)據(jù)為傳統(tǒng)輿論調(diào)查提供了一個重要的補充。

      在國內(nèi)的研究中,大數(shù)據(jù)研究相關(guān)文獻并不太多。我們采用同樣標準對CNKI數(shù)據(jù)庫中收錄在CSSCI中的文獻進行搜索,結(jié)果發(fā)現(xiàn):中文文獻中大數(shù)據(jù)(共1359篇)相關(guān)的文章遠遠超出英文文獻,但實證研究僅為30篇,少于英文文獻。這說明,中文文獻更是處于介紹、討論基本概念、特征等初步階段上。在中文文獻中,社會學有54篇,但實證研究僅有4篇。王程轔使用CNKI數(shù)據(jù)庫搜索“大數(shù)據(jù)”關(guān)鍵詞,進行反事實分析,認為暫不能判斷“大數(shù)據(jù)”是否能引領(lǐng)新科學范式的“大趨勢”。陳云松等人使用谷歌圖書和社交媒體Twitter的數(shù)據(jù),研究了中國城市的知名度和社會學百年來的發(fā)展情況。這些研究具有一定的價值,但研究方法還比較簡單。

      總體來說,在中英文文獻中,大數(shù)據(jù)的研究剛剛起步,多數(shù)文章還在描述大數(shù)據(jù)的特征,確定研究大數(shù)據(jù)的基本框架。實證研究非常少,也比較簡單,不過也取得一定的成果。

      當然,大數(shù)據(jù)對社會科學及其社會學的影響并不是表現(xiàn)為剛剛開始發(fā)表的少量論文,更為根本之處在于:它沖擊或挑戰(zhàn)了社會學和社會科學的基本理念、研究邏輯、研究方法與技術(shù),或者說,大數(shù)據(jù)對以往社會學及社會科學的研究范式形成很大挑戰(zhàn)。

      二、找回規(guī)律:古典社會學是否可以重生?

      自17世紀牛頓力學和19世紀達爾文進化論以來,近代和現(xiàn)代自然科學逐漸成型并給社會科學帶來深刻影響。如同自然科學家發(fā)現(xiàn)自然界的規(guī)律一樣,社會科學家也力圖發(fā)現(xiàn)人類社會歷史發(fā)展規(guī)律。恩格斯在《在馬克思墓前的講話》一文中宣稱:“正象達爾文發(fā)現(xiàn)了有機界的發(fā)展規(guī)律一樣,馬克思發(fā)現(xiàn)了人類歷史的發(fā)展規(guī)律。……馬克思還發(fā)現(xiàn)了現(xiàn)代資本主義生產(chǎn)方式和它所產(chǎn)生的資產(chǎn)階級社會的特殊的運動規(guī)律?!?/p>

      經(jīng)濟學家亞當·斯密、大衛(wèi)·李嘉圖和哲學家康德、黑格爾等人都在某種程度上認為經(jīng)濟學和哲學的基本目標或使命就是發(fā)現(xiàn)人類社會歷史發(fā)展規(guī)律。亞當·斯密將功利主義視為“永劫不移的……原理”。李嘉圖“相信經(jīng)濟學的某些結(jié)論與‘萬有引力原理同樣確定”??档孪嘈?,“大自然即使在混沌中也只能有規(guī)則有秩序地進行活動”。而心中的道德律使他認識到“處于普遍必然的聯(lián)結(jié)中”。黑格爾認為,“‘理性是世界的主宰,世界歷史因此是一種合理的過程”。“‘景象萬千,事態(tài)紛紜的世界歷史,是‘精神的發(fā)展和實現(xiàn)的過程?!?/p>

      社會學家也是規(guī)律的探尋者??椎抡J為:“作為我們智慧成熟標志的根本革命,主要在于處處以單純的規(guī)律探求(即研究被觀察現(xiàn)象之間存在的恒定關(guān)系)來代替無法認識的本義的起因。”迪爾凱姆認為:“社會學研究方法的最基本規(guī)則是,要將社會現(xiàn)象當做客觀事物來看待?!鄙鐣F(xiàn)象又可以分為“規(guī)則現(xiàn)象”和“不規(guī)則或病態(tài)現(xiàn)象”,其中內(nèi)涵著規(guī)律。馬克斯·韋伯的看法有所不同,他認為,“社會學……應(yīng)該被稱之為一門想解釋性地理解社會行為、并且通過這種辦法在社會行為的過程和影響上說明其原因的科學”。但韋伯并不否認規(guī)律,他認為,如果統(tǒng)計結(jié)論能證明,那么“將來的科學研究也能……發(fā)現(xiàn)……規(guī)律性”。

      這種尋求社會歷史發(fā)展規(guī)律的努力后來遭到許多學者的質(zhì)疑,其主要理由在于質(zhì)疑者提出,社會現(xiàn)象具有與自然現(xiàn)象不同的特征。

      其一,整體性。波普爾認為,社會科學尋求宏觀社會歷史發(fā)展規(guī)律的企圖,受到社會整體的困擾,“‘整體絕不能成為科學研究的對象”。“如果我們要研究一個事物。我們就不得不選擇它的某些方面。我們不可能觀察或描述整個世界?!闭w的理論或假設(shè)沒有辦法進行檢驗,“如果沒有檢驗的可能性,那么,聲稱采取了任何一種科學方法,都是白說的。整體主義方法與真正的科學態(tài)度是不相容的”。社會科學只能通過局部去研究整體,通過對個人的了解去研究社會。與整體主義方法論相反,波普爾認為,“社會理論的任務(wù)是要……依據(jù)每個人以及他們的態(tài)度、期望、關(guān)系等情況來建立和分析我們的社會學模式——這個設(shè)定可以稱為‘方法論個人主義”。

      其二,異質(zhì)性。歐內(nèi)斯特·內(nèi)格爾(Emest Nagel)指出,社會文化是相對的。社會現(xiàn)象具有“‘受歷史約束的或‘文化上決定的特征”。受此影響,社會科學理論具有嚴格有限的應(yīng)用范圍,對一個社會的樣本資料研究所得出的結(jié)論可能不適合另一個社會。“人類社會的差異性與特質(zhì)性造成了社會科學具有情境性(contextual)和相對性的特征?!薄扒榫巢町惡蜕鐣冞w在所有社會科學學科中都是兩個重要的參量。這兩個參量都反對雄心勃勃的范式性的概化?!?/p>

      其三,能動性或意向性。社會生活中的人不是物體,他具有主體性或能動性,并具有特定的階級立場和利益。波普爾認為,社會科學的客觀性受到人的因素的干擾。“社會科學涉及社會偏見、階級偏見和個人利益,所以在社會科學里,缺乏科學的客觀性就至關(guān)重大了。”“在絕大多數(shù)的,或者在全部的建構(gòu)社會理論中,人的因素將仍然是一個非理性的成分?!眱?nèi)格爾認為,“人類由于獲得了對他們所參與的事件,或?qū)λ麄冏鳛槠涑蓡T的社會的新知識,因而經(jīng)常更改他們習慣的社會行為方式”。由于人的能動性,社會科學的預(yù)言可能改變?nèi)说男袨椋夯蛘吲c之作對,或者有所加強;由于人的能動性,在進行實驗、回答問題時,可能依情境而發(fā)生變化,這會影響到社會科學“應(yīng)用數(shù)量方法的特殊困難,尤其是測量方法”。克勞斯·邁因策爾(KlausMainzer)指出:“在社會科學中,人們通常在生物學進化和人類社會歷史之間作出嚴格的區(qū)分。原因在于,國家的、市場的和文化的發(fā)展被假定是由人的意向性行為所指引的,即人的決策是以意向性和價值為基礎(chǔ)的?!?/p>

      因而,以波普爾為代表的一些學者,將馬克思等人尋找社會歷史規(guī)律的追求稱之為“歷史決定論”:這“是探討社會科學的一種方法,它假定歷史預(yù)測是社會科學的主要目的,并且假定可以通過發(fā)現(xiàn)隱藏在歷史演變下面的‘節(jié)律或‘模式、‘規(guī)律或‘傾向來達到這個目的”。波普爾認為,歷史決定論根本行不通。他的觀點產(chǎn)生了廣泛而深遠的影響。

      在社會科學中重要的一門分支學科——社會學中,一些學者認為應(yīng)該拋棄發(fā)現(xiàn)普遍規(guī)律的企圖,尤其是與包羅萬象的“帕森斯主義”決裂,回到墨頓的“中層理論”,關(guān)注具體的“因果機制”。就如埃爾斯特(Jon Elster)所說,“社會科學的重點將會有一個從理論推定到機制的重要轉(zhuǎn)變……對所發(fā)生事情的描述會進人中觀或微觀層次?!睓C制性解釋的核心理念是,“不通過提出放之四海而皆準的社會規(guī)律或者尋求統(tǒng)計相關(guān)的因素來解釋社會現(xiàn)象,而是通過探求那些可以展示出社會現(xiàn)象如何產(chǎn)生的機制來進行解釋”。

      那么,大數(shù)據(jù)對社會學及社會科學尋求規(guī)律的研究宗旨或目標會帶來什么樣的影響呢?我們認為,波普爾對社會科學中的整體主義方法論的批評是有問題的:姑且不論是否存在整體主義方法論(他在這里可能對馬克思主義存在誤解),以人們只能認知局部而不能認知整體來推論不能得到關(guān)于社會歷史規(guī)律的邏輯是錯誤的,因為自然科學也存在同樣的問題,人類社會是一個整體,但作為自然界的地球、太陽系乃至宇宙也是一個整體,自然科學能,為什么社會科學就不能?

      千百年來,尤其是近現(xiàn)代社會科學發(fā)展成型以來,人類對于社會的認知,從經(jīng)驗事實的角度來說,首先來自于個體生活經(jīng)驗,其次來源于有限個案(質(zhì)性研究),第三來源于抽樣調(diào)查,第四來源于普查(例如人口普查)。但在互聯(lián)網(wǎng)及相關(guān)設(shè)備發(fā)展普及之前,關(guān)于社會總體的數(shù)據(jù)少之又少。巧婦難為無米之炊,要從有限的經(jīng)驗事實或數(shù)據(jù)中得到關(guān)于宏觀社會的總體認識,的確是盲人摸象,難之又難。以抽樣數(shù)據(jù)推斷總體的做法,總是難以避免偏差。因此而放棄對社會歷史發(fā)展規(guī)律的探求而關(guān)注較為微觀和具體的因果機制,也是可以理解的?;ヂ?lián)網(wǎng)及相關(guān)設(shè)備(如傳感器和微處理器等)的發(fā)展,對人類活動進行實時記錄并儲存起來,形成大數(shù)據(jù),提供了認知總體社會的數(shù)據(jù)基礎(chǔ)。在波普爾時代,從總體上來認知社會的確不可能,但現(xiàn)在具有了可能性,這是因為我們有了總體的大數(shù)據(jù)——“樣本”=“總體”。

      以社會現(xiàn)象異質(zhì)性較強而自然現(xiàn)象同質(zhì)性較強來否定對社會歷史發(fā)展規(guī)律的追求,也是建立在有限經(jīng)驗事實基礎(chǔ)上的。自然界豐富多彩,人類社會也具有同質(zhì)性。“復(fù)雜性和非線性是物質(zhì)、生命和人類社會進化中的顯著特征。”異質(zhì)性和同質(zhì)性都是較為抽象的概念,籠統(tǒng)地說異質(zhì)性(如文化異質(zhì)性)并沒有扎實的基礎(chǔ)。應(yīng)該將社會現(xiàn)象的異質(zhì)性作為一個假設(shè)而不是一個前提,并通過對人類社會生活、歷史發(fā)展和文化異同的大量經(jīng)驗事實的分析來檢驗這一假設(shè)。社會現(xiàn)象的異質(zhì)性或同質(zhì)性,絕對不是有限個案可以確證的。而大數(shù)據(jù)提供了檢驗這一假設(shè)的可能性。

      人的確具有能動性、意向性、情境性和逆反心理,這是產(chǎn)生質(zhì)性研究、抽樣調(diào)查以及人口普查所得數(shù)據(jù)之誤差的重要來源之一。但大數(shù)據(jù)恰好在這方面具有一定的優(yōu)勢或長處。“隨著大數(shù)據(jù)分析取代了樣本分析……當記錄下來的是人們的平常狀態(tài),也就不用擔心在做研究和調(diào)查問卷時存在的偏見了?!贝髷?shù)據(jù)是人類活動的實時記錄,和通過訪談等方式得到的數(shù)據(jù)不同,它更能排除獲取數(shù)據(jù)時人的不誠實、記憶誤差及環(huán)境干擾等因素導致的誤差。

      關(guān)于人的能動性和意向性對社會歷史規(guī)律的影響,恩格斯早有論述。他認為,在社會歷史領(lǐng)域內(nèi)進行活動的人具有意識、激情,經(jīng)過思慮、追求目的。但是,歷史進程受內(nèi)在規(guī)律支配。“無數(shù)的個別愿望和個別行動的沖突,在歷史領(lǐng)域內(nèi)造成了一種同沒有意識的自然界中占統(tǒng)治地位的狀況完全相似的狀況。行動的目的是預(yù)期的,但是行動實際產(chǎn)生的結(jié)果并不是預(yù)期的,或者這種結(jié)果起初似乎還和預(yù)期的目的相符合,而到了最后卻完全不是預(yù)期的結(jié)果。這樣,歷史事件似乎總的說來同樣是由偶然性支配著的。但是……這種偶然性始終是受內(nèi)部隱藏著的規(guī)律支配的,而問題只是在于發(fā)現(xiàn)這些規(guī)律。”

      恩格斯的論述可以概括為“結(jié)果穩(wěn)定假設(shè)”。如前所述,迪爾凱姆也十分強調(diào)社會現(xiàn)象外在于個人的客觀性。現(xiàn)代社會學和社會科學的眾多研究證明,個人的意向性只是增強了社會現(xiàn)象的隨機性、偶然性,而并不是沒有規(guī)律可循。比如,人的遷移行為(國際移民,如中國人移民美國建立唐人街;國內(nèi)移民,如農(nóng)民外出打工)是有意向性的,單個人的遷移也可能是偶然的,但大規(guī)模的遷移行為則是有規(guī)律的?!皣业暮蛧H的遷移效應(yīng)不可能用單個人的自由意志來解釋?!碑斎?,恩格斯的“結(jié)果穩(wěn)定假設(shè)”還需要證明或證偽。如果有足夠的經(jīng)驗材料,比如大數(shù)據(jù),這個假設(shè)就會得到進一步的檢驗。

      大數(shù)據(jù)對于探討人類行為和社會歷史規(guī)律并且更為準確地進行預(yù)測還有一個非常有利的方面,那就是:在抽樣數(shù)據(jù)中往往被刪節(jié)的少量極端值在大數(shù)據(jù)中成為可以分析的個案或變量。帕特里克·塔克爾(Patrick Tucker)指出,“大數(shù)據(jù)可以幫你實現(xiàn)的,是找到擁有特定的行為模式和性格的人,而在小樣本中你很難遇到——或許永遠不會遇到,因為周圍噪音太多了”?!爱斈愕臄?shù)據(jù)中有了足夠的點,即便異常事件也可能顯示出某種特征?!痹谛》秶锏男「怕适录谝粋€大范圍里可能就不是小概率事件,或者至少有較多的個案可以進行統(tǒng)計分析。這樣,大數(shù)據(jù)就超越了小數(shù)據(jù),將在小數(shù)據(jù)里被排斥的個案重新納人分析框架之中。

      總而言之,作為總體、實時記錄和面板的大數(shù)據(jù)為重新發(fā)現(xiàn)宏觀社會歷史發(fā)展規(guī)律提供了以往所不具備的數(shù)據(jù)基礎(chǔ)和可能性,在這個意義上,大數(shù)據(jù)可以重構(gòu)社會學和社會科學的研究目標:它使得社會學、經(jīng)濟學和其他社會科學研究者至少可以發(fā)現(xiàn)或?qū)ふ胰祟惢顒拥男袨橐?guī)律,并在此基礎(chǔ)上發(fā)現(xiàn)社會歷史的發(fā)展規(guī)律。

      需要進一步澄清的是,承認社會歷史發(fā)展具有規(guī)律并以此作為社會學或社會科學的研究目標,并不必然導致決定論。波普爾等人對古典社會科學的決定論性質(zhì)的批評并非毫無道理。受限于當時的科學理念與發(fā)展水平,大多數(shù)古典哲學家、經(jīng)濟學家、社會學家及其他社會科學家將人類活動與社會歷史規(guī)律看作是必然的,這當然具有決定論的特征。區(qū)別決定論或非決定論,關(guān)鍵在于將規(guī)律理解為是必然的還是概率性的,而不是是否具有規(guī)律。人類行為、社會現(xiàn)象、歷史進程的變化是有規(guī)律的,但不是決定論意義上的必然性,而是概率論意義上的可能性。

      在大數(shù)據(jù)的研究中,一些學者指出了人類行為的可預(yù)測性、規(guī)律性。帕特里克·塔克爾指出:“人類行為的可預(yù)測性比任何人想象中的都要強?!卑匾焕孤濉ぐ屠臀鳎ˋlbert-Laszle Barab6si)同樣認為:“人類行為遵循著一套簡單并可重復(fù)的模型,而這些模型則受制于更加廣泛的規(guī)律?!?/p>

      三、大數(shù)據(jù)要放棄對因果關(guān)系的追求嗎?

      任何科學都要追求因果關(guān)系解釋,缺乏因果關(guān)系解釋就沒有規(guī)律。反過來,追求發(fā)現(xiàn)規(guī)律就必然要追求因果關(guān)系。休謨認為,因果關(guān)系“是我們從經(jīng)驗中得來的關(guān)系”。發(fā)現(xiàn)因果關(guān)系的必要條件是:第一,“凡被認為原因或結(jié)果的那些對象總是接近的”;第二,“在時間上因先于果”;第三,原因和結(jié)果之間的“恒常結(jié)合”之“必然聯(lián)系”。休謨奠定了科學對于因果關(guān)系的基本理解。休謨所謂的“恒常結(jié)合”就是事物之間統(tǒng)計上的強相關(guān)關(guān)系。此后,經(jīng)過密爾等人的發(fā)展,關(guān)于確立事物之間因果關(guān)系的標準就基本穩(wěn)定了:“兩個變量間存在因果關(guān)系,即一個變量導致另一個變量,如果(1)在時序上,因先于果。(2)兩者間有實證的相關(guān)性,而且(3)因果關(guān)系不是第三個變量的結(jié)果。完全符合上述三個條件的關(guān)系,就是因果關(guān)系?!?/p>

      上述標準中的第3條,實際上就是要排除其他因素的干擾,確認就是原因?qū)Y(jié)果的影響而不是其他因素的影響?!把芯刻囟ㄔ虻睦硐霠顟B(tài)是什么?那就是所有其他的‘干擾,因素都消失的狀態(tài)?!斔械钠渌母蓴_都不復(fù)存在的時候,原因就在它的行為中清楚地展示它的力量?!睂τ诘?條的理解,也可以從反事實的角度進行:當有原因A時,會導致結(jié)果B;當沒有原因A時,則不會導致結(jié)果B。因而,“因果關(guān)系問題實際上是一個反事實問題一。

      當然,社會科學通常是在概率的意義上來理解因果關(guān)系的?!敖y(tǒng)計學對因果關(guān)系表述為:在相等條件下,如果A發(fā)生,則B發(fā)生的概率提高,或者x變化導致Y平均值的變化。因果關(guān)系的必然性不表述為個體事件,而表述為群體概率或平均值和隨機組試驗的可重復(fù)性?!?/p>

      基于第3條標準,實驗法成為確立因果關(guān)系最成熟的方法和手段。因為實驗可以將實驗對象隨機分配到控制組和實驗組,并排除外界其他因素的干擾??墒?,社會科學的研究對象是人,造成了“進行實驗的特殊困難”?!霸谏鐣芯款}材上進行受控實驗的可能性極為狹小?!币蚨鐣茖W主要采用統(tǒng)計方法并結(jié)合其他手段來探尋因果關(guān)系。

      從統(tǒng)計的意義上來探討因果關(guān)系,就不是兩個變量(一個因變量,一個自變量)之間的關(guān)系那么簡單的事情,因為社會生活中幾乎不存在單因單果的現(xiàn)象。統(tǒng)計控制就是要將可能對因變量(被解釋變量)和自變量(關(guān)鍵解釋變量)有影響的變量納入模型。從統(tǒng)計的角度來說,因果關(guān)系的問題就轉(zhuǎn)變成了因果效應(yīng)?!爱斀忉屪兞勘毁x予兩個不同的值時,因果效應(yīng)就是這些值對應(yīng)的觀察值中系統(tǒng)部分間的差異?!痹诮y(tǒng)計模型中準確估計因果效應(yīng)主要受制于三個因素:

      其一,樣本選擇性偏誤。樣本選擇性偏誤是由于缺乏科學的研究設(shè)計、非隨機抽樣、客觀條件限制等因素引起的。這既可能是由于研究者的主觀選擇所導致(比如力圖證明某一假設(shè)而只選取有利證據(jù)),也可能是由于客觀條件限制(如沒有好的抽樣框?qū)е氯狈﹄S機抽樣的基本條件),還可能是盡管有一個好的研究設(shè)計,但由于操作過程中的失誤所致。樣本選擇性偏誤有兩種基本的形式:其一,缺乏參照組或?qū)φ战M,不能進行反事實分析。其二,只看到有限樣本,而且是一個非隨機樣本⑨。就缺乏參照組來說,當下的許多大數(shù)據(jù)也是如此。比如,由京東商城購物者行為所形成的大數(shù)據(jù),就是一個線上購物者的數(shù)據(jù),且不說還有其他的線上購物(如亞馬遜),如果要完整研究消費者的購物行為,那就缺少線下購物者這一參照組,即使只研究線上購物,也可能由于缺乏線下購物的對比而導致認識偏差。顯然,大數(shù)據(jù)只對由于抽樣引起的有限樣本的選擇性偏誤具有一定的糾正作用。因為大數(shù)據(jù)就是一定范圍里的總體,在理論上可以“收集所有的數(shù)據(jù),即‘樣本=‘總體”。因此,它也糾正了對于這一總體抽樣所導致的偏差。

      統(tǒng)計學家們想出種種方法來解決樣本選擇性偏誤,但最根本的解決方案之一是不需要抽樣,換句話說,就是具有一個總體樣本。而這恰好是大數(shù)據(jù)的優(yōu)勢所在。大數(shù)據(jù)如果是總體或全部樣本的數(shù)據(jù),那就從根本上解決了由于抽樣偏頗所引起的樣本選擇性偏誤。

      其二,變量遺漏。現(xiàn)實生活中的大數(shù)據(jù)往往只有幾個簡單的變量,其中一些數(shù)據(jù)只有客觀變量(缺乏態(tài)度或評價性的主觀變量),如果采用單一數(shù)據(jù),變量遺漏問題會非常嚴重,甚至遠遠不如精心設(shè)計的抽樣數(shù)據(jù)。不過,如果將不同的數(shù)據(jù)匹配起來,那么這一問題將在一定程度上得到緩解。匹配大數(shù)據(jù)在技術(shù)上是可以解決的,現(xiàn)實的問題主要在于數(shù)據(jù)的產(chǎn)權(quán)交換和數(shù)據(jù)使用的倫理,經(jīng)過充分的討論,這些問題是可以解決的。某一大數(shù)據(jù)變量簡單或較少的問題,是測量標準、技術(shù)和設(shè)計的問題,這些問題是可以逐步改進的?,F(xiàn)有測量,社會科學很少介入,在一定程度上導致社會關(guān)系指標或變量較少。假以時日,由于社會科學的進步和公眾對此的認可,一些社會性的變量被列人、重視和普及,也是很有可能的。

      其三,內(nèi)生性問題。內(nèi)生性問題涉及對于因果關(guān)系的基本理解。所謂內(nèi)生性問題,是指“在一些情況下出現(xiàn)反向因果問題:解釋變量受到被解釋變量影響,而不是我們假設(shè)的影響被解釋變量”。我們認為,在簡單、封閉、穩(wěn)定和局部的系統(tǒng),因果關(guān)系較易確定;在復(fù)雜、開放、動態(tài)和龐大的系統(tǒng)中,因果關(guān)系難以確定。因果關(guān)系之所以難以確定,主要是互為因果或因果關(guān)系相互糾纏的問題,也就是“內(nèi)生性”問題?!霸S多社會變量具有相互作用的效果,因而因果關(guān)系通常是不能簡單累加的?!薄邦A(yù)期的作用會導致因果關(guān)系難以在許多人類互動中定位?!捎谌藗儠鶕?jù)對他者如何行動的預(yù)期以及對自己行動結(jié)果的信念來調(diào)整自己的行為,因此經(jīng)驗性調(diào)查乃至因果概念的界定都變得非常困難?!?/p>

      所以,在復(fù)雜、開放、動態(tài)和龐大的系統(tǒng)中,因果關(guān)系的內(nèi)生性問題較難解決,而在簡單、封閉、穩(wěn)定和局部的系統(tǒng)中,在統(tǒng)計模型中可以盡量避免內(nèi)生性問題。過去和現(xiàn)在的社會科學研究模型,就是將納入模型的有限變量視為與其環(huán)境相對隔離或獨立的因素。由這樣的模型所得出的因果關(guān)系,如果將其放入或回歸社會環(huán)境中,很有可能發(fā)生變化。這也是社會科學研究預(yù)測難以準確的基本道理。進一步說:由有限數(shù)據(jù)得出的因果關(guān)系要接受大數(shù)據(jù)的檢驗。以往的研究缺乏大數(shù)據(jù),所以檢驗就要多次重復(fù)地進行。

      盡管在復(fù)雜、開放、動態(tài)和龐大的系統(tǒng)中,因果關(guān)系的內(nèi)生性問題較難解決,但并不是說就一定不能解決,復(fù)雜與簡單、開放與封閉、動態(tài)與靜態(tài)、龐大與狹小、全局與局部,都是相對而言的。避免在抽樣數(shù)據(jù)中所設(shè)置模型的內(nèi)生性問題的原則與技術(shù),也可能在大數(shù)據(jù)中能夠得到應(yīng)用,或者有所改進。而在大數(shù)據(jù)中能確立的因果關(guān)系,其穩(wěn)定性應(yīng)該遠超于抽樣數(shù)據(jù)的結(jié)果。

      大數(shù)據(jù)對確定因果效應(yīng)的有利之處還在于:大數(shù)據(jù)中的多數(shù)數(shù)據(jù)是面板數(shù)據(jù),并且具有層次性,可以進行分層處理。

      基于上述分析,我們不能同意所謂大數(shù)據(jù)不需探求因果關(guān)系而只是追求相關(guān)關(guān)系的說法。如維克托·邁爾-舍恩伯格(Viktor Mayer-Schonberger)和肯尼斯·庫克耶(Kenneth Cukier)認為的,不是因果關(guān)系,而是相關(guān)關(guān)系。

      我們認為,相關(guān)關(guān)系和因果關(guān)系不是對立的,相關(guān)關(guān)系是因果關(guān)系的必要條件,因果關(guān)系是表明事物間作用之方向性的一種特殊的相關(guān)關(guān)系。事物間具有較強的相關(guān)關(guān)系,其中必然蘊含著因果關(guān)系,只是誰是因、誰是果,需要甄別,并要弄清楚因果關(guān)系的作用機制。當然,我們同意“相關(guān)關(guān)系分析本身意義重大,同時它也為研究因果關(guān)系奠定了基礎(chǔ)”。

      實際上,使用大數(shù)據(jù)是可以探討因果關(guān)系的。約翰·格林(John Gerring)等人曾收集了一個覆蓋國家、地域和區(qū)縣的多層次的選舉檔案(the Multi-Level Election Archive,MLEA)來研究政體大小與民主的因果關(guān)系。該文檔記錄了從18世紀到2013年間,88個國家、2344次選舉、79658個選區(qū)、超過400000場競選活動的數(shù)據(jù),是典型的大數(shù)據(jù)。通過普通最小二乘法(OLS)對樣本總體進行的一系列檢驗表明,在多黨競選的地區(qū),較大的選區(qū)能在更大程度上鼓勵民主選舉,選民規(guī)模對各政黨的競選力有正向的顯著影響。這一發(fā)現(xiàn)與傳統(tǒng)觀點——政體大小與民主呈負相關(guān)關(guān)系相矛盾,為了證明作者的研究結(jié)論,文章對可能影響選舉競爭力的其他因素,比如選民對反對黨的偏好、競選者的供給、選區(qū)的文化多樣性以及候選人與選民的關(guān)系等因素進行了干預(yù),在排除干預(yù)效應(yīng)的模型里,選民規(guī)模仍然對政黨的競選力有正向的顯著影響。隨后,作者又用部分國家的議會選舉數(shù)據(jù)和投票權(quán)改革數(shù)據(jù)驗證了這一結(jié)論。網(wǎng)絡(luò)數(shù)據(jù)同樣可以用來探求因果關(guān)系,拉塞爾紐曼(w.Russell Neuman)等人在2014年曾根據(jù)美國國家選舉研究網(wǎng)站中涉及的29個議題,從傳統(tǒng)媒體與社交媒介中獲取了美國2012年全年各個議題的數(shù)據(jù)資料,這29個議題包含經(jīng)濟、外交事務(wù)、政治、公共秩序、社會問題和環(huán)境六大方面,其中,平均每天有13362條社交媒介的評論數(shù)據(jù)和4573條傳統(tǒng)媒體的新聞報道。作者運用格蘭杰因果關(guān)系檢驗了傳統(tǒng)媒體、社交媒介與公共議題之間的因果關(guān)系,研究發(fā)現(xiàn),社交媒介是社會問題和公共秩序議題的動力,而在經(jīng)濟、外交事務(wù)、政治和環(huán)境議題方面沒有一種媒體主導這些公共議題,社交媒介和傳統(tǒng)媒體呈現(xiàn)出復(fù)雜的、動態(tài)的領(lǐng)先與滯后模式。此外,約翰尼斯.本德勒(JohannesBendler)等人對Twitter用戶數(shù)據(jù)的研究發(fā)現(xiàn),某一興趣點(Point of Interest,POI)(比如餐廳、酒吧、銀行、博物館等)與用戶在該興趣點發(fā)布的Twitter消息之間存在著因果關(guān)系。

      四、結(jié)論與討論

      基于上述描述和分析,我們可以得出如下結(jié)論:

      (1)和以往抽樣調(diào)查所得到的數(shù)據(jù)不同,作為人類活動實時記錄的大數(shù)據(jù)基本不受人類記憶、偏好和情感干擾;大數(shù)據(jù)是一個總體數(shù)據(jù),但大部分數(shù)據(jù)不是全球或全國范圍里的完整總體,而是一定范圍里的總體;大數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);現(xiàn)實中單一的大數(shù)據(jù)變量較少但可以與其他數(shù)據(jù)進行匹配,匹配的困難主要不在于技術(shù),而是產(chǎn)權(quán)和倫理問題;大數(shù)據(jù)具有時效性,大數(shù)據(jù)大多是面板數(shù)據(jù)。

      (2)中英文文獻檢索結(jié)果表明,大數(shù)據(jù)的研究并不多,但還是取得了一定的成果。比如,西方學界對大數(shù)據(jù)中的網(wǎng)絡(luò)數(shù)據(jù)的研究就有所進展。有的研究驗證并支持了社會網(wǎng)絡(luò)理論中格蘭諾維特的“弱關(guān)系假設(shè)”和博特的“結(jié)構(gòu)洞假設(shè)”,有的研究驗證了“六度分隔理論”,有的研究則提出了新的理論假設(shè)。

      (3)古典社會學和社會科學理論力圖發(fā)現(xiàn)人類社會歷史規(guī)律。后來的學者基于人類社會活動的整體性、異質(zhì)性、能動性或意向性對此提出質(zhì)疑。在社會學領(lǐng)域,主流觀點認為應(yīng)該拋棄發(fā)現(xiàn)普遍規(guī)律的企圖,回到中層理論,關(guān)注具體的“因果機制”。

      大數(shù)據(jù)為社會學和社會科學重新發(fā)現(xiàn)宏觀社會歷史發(fā)展規(guī)律提供了可能性:它以“總體”數(shù)據(jù)提供了認知宏觀社會的數(shù)據(jù)基礎(chǔ);它為社會現(xiàn)象的“異質(zhì)性假設(shè)”檢驗提供了較為全面的數(shù)據(jù);它以實時記錄的特點排除了獲取數(shù)據(jù)時的人為干擾;它也為恩格斯的“結(jié)果穩(wěn)定假設(shè)”提供了檢驗所用的充分的經(jīng)驗材料;它超越抽樣調(diào)查的小數(shù)據(jù),將小數(shù)據(jù)中被視為極端值并且往往被刪節(jié)的個案或變量重新納入統(tǒng)計分析。

      作為總體、實時記錄和面板的大數(shù)據(jù)也許可以重構(gòu)社會學和社會科學的研究目標:它使得社會學、經(jīng)濟學和其他社會科學研究者至少可以發(fā)現(xiàn)或?qū)ふ胰祟惢顒拥男袨橐?guī)律,并在此基礎(chǔ)上進而發(fā)現(xiàn)社會歷史的發(fā)展規(guī)律。但這種重構(gòu)不是回到歷史決定論,不是對規(guī)律作決定論的理解,而是概率論的理解。

      (4)追求因果關(guān)系解釋是科學包括社會科學的必然目標。由于作為社會科學研究對象的人的特殊性,社會學和社會科學很少采用實驗法而主要采用統(tǒng)計方法并結(jié)合其他手段來探尋社會現(xiàn)象之間的因果關(guān)系。在統(tǒng)計模型中準確估計因果效應(yīng)主要受制于三個因素:樣本選擇性偏誤、變量遺漏和內(nèi)生性問題。

      大數(shù)據(jù)作為總體或全部樣本的數(shù)據(jù),有助于從根本上克服由于抽樣偏頗所引起的樣本選擇性偏誤。單一大數(shù)據(jù)變量較少,如采用單一數(shù)據(jù),變量遺漏問題會非常嚴重;如果將不同的數(shù)據(jù)匹配起來,可以克服或緩解變量遺漏問題;盡管在復(fù)雜、開放、動態(tài)和龐大的系統(tǒng)中,因果關(guān)系的內(nèi)生性問題較難解決,但大數(shù)據(jù)對因果關(guān)系的檢驗比有限樣本的抽樣數(shù)據(jù)更為穩(wěn)健和可靠,避免在抽樣數(shù)據(jù)中設(shè)置模型的內(nèi)生性問題的原則與技術(shù),在大數(shù)據(jù)中也能應(yīng)用,甚至有所改進;大數(shù)據(jù)作為面板數(shù)據(jù)和分層數(shù)據(jù),對于確定因果效應(yīng)極為有利。因而,我們不能同意大數(shù)據(jù)不需探求因果關(guān)系而只是追求相關(guān)關(guān)系的說法。大數(shù)據(jù)對于社會學和社會科學追求因果關(guān)系的努力比抽樣數(shù)據(jù)更為有利。

      總體來說,我們認為,大數(shù)據(jù)是可以用來重構(gòu)社會學和社會科學的研究宗旨和目標的。不僅如此,大數(shù)據(jù)對社會學和社會科學的研究邏輯、方法和技術(shù)、研究的組織方式及人員素質(zhì)等都會產(chǎn)生深遠影響。對此,我們略加討論。

      其一,研究邏輯。一般說來,傳統(tǒng)社會學和社會科學定量研究的基本套路是假設(shè)檢驗,即提出假設(shè),然后用數(shù)據(jù)去檢驗,這種邏輯被視為演繹邏輯。從抽樣數(shù)據(jù)推論總體的角度看,也有人認為是歸納邏輯。在邏輯實證主義看來,真正使用演繹邏輯的是數(shù)學和邏輯學本身,得出的是先驗知識;其他從經(jīng)驗事實中得出結(jié)論的都是歸納邏輯,科學就是這樣,得出的是經(jīng)驗知識。

      我們認為,關(guān)于歸納還是演繹的爭論并不是特別有意義,對于大數(shù)據(jù)來說,事先不提假設(shè),直接從數(shù)據(jù)得出結(jié)論,是完全可以的;提出假設(shè),比如從抽樣調(diào)查的數(shù)據(jù)或理論演繹提出假設(shè),再用大數(shù)據(jù)去檢驗,也是可以的,前文所述用大數(shù)據(jù)驗證了“六度分隔理論”就是一例。

      不管是歸納還是演繹,只要遵循科學的推理過程,都是可以的,在大數(shù)據(jù)研究中都可以使用。當單一大數(shù)據(jù)的變量較少,主要使用描述統(tǒng)計時,就主要是歸納邏輯;當某一大數(shù)據(jù)可以使用模型進行統(tǒng)計分析時,演繹邏輯可能就更為重要。

      從演繹邏輯出發(fā),使用大數(shù)據(jù)進行檢驗,可以稱之為“理論驅(qū)動”;從歸納邏輯出發(fā),使用大數(shù)據(jù)進行描述和分析,可以稱之為“數(shù)據(jù)驅(qū)動”。兩種邏輯并存,理論驅(qū)動和數(shù)據(jù)驅(qū)動并存,可能是使用大數(shù)據(jù)進行研究的一個特點。以往的抽樣數(shù)據(jù)研究,主要是理論驅(qū)動和演繹邏輯;而質(zhì)性研究,主要是數(shù)據(jù)驅(qū)動和歸納邏輯。大數(shù)據(jù)將兩種邏輯結(jié)合起來,可能是其優(yōu)勢所在。

      其二,研究方法和技術(shù)。大數(shù)據(jù)對定量研究方法的挑戰(zhàn)目前可能主要是對當下定量研究所使用的工具(比如軟件)形成沖擊。主要用于抽樣數(shù)據(jù)的傳統(tǒng)軟件不足以容納這么大的數(shù)據(jù)量,難以進行計算,更難直接獲取或抓取數(shù)據(jù)。所以,大數(shù)據(jù)對統(tǒng)計分析技術(shù)會有很大的沖擊和促進,對計算機及其軟件的發(fā)展有要求。

      社會科學發(fā)展一個重要的推動力就是技術(shù)手段的進步。從技術(shù)的角度,對大數(shù)據(jù)的獲取、存儲、交換、匹配、分析、建模,大數(shù)據(jù)分析對統(tǒng)計理念、技術(shù)和軟件的要求,都會形成沖擊。

      需要指出的是,大數(shù)據(jù)對質(zhì)性研究方法挑戰(zhàn)可能更為尖銳:一是,大數(shù)據(jù)給質(zhì)性研究提供了源源不竭的數(shù)據(jù),對以往質(zhì)性研究限于有限個案的做法影響極大,至少不比對定量研究的影響小,只不過質(zhì)性研究者對此往往認識不足。二是,傳統(tǒng)的質(zhì)性研究之所以有一席之地,原因之一是可以研究統(tǒng)計中的極端值。在抽樣數(shù)據(jù)中,極端值個案數(shù)太少,難以單獨進行統(tǒng)計分析,給質(zhì)性研究留下空間。大數(shù)據(jù)可以提供大量極端值的個案數(shù),因而可以進行統(tǒng)計分析。在這個意義上,大數(shù)據(jù)又可能壓縮了質(zhì)性研究的空間。三是,大數(shù)據(jù)中絕大部分是非結(jié)構(gòu)性數(shù)據(jù),也就是質(zhì)性研究的基本材料,怎么對這些數(shù)據(jù)進行分類、處理,既是定量研究的難題,也可求助于質(zhì)性研究深入、細致的分析;四是,大數(shù)據(jù)提供了總體的基本特征,對于質(zhì)性研究將個案類型化、進而選擇個案(抽樣)提供了很大的幫助;五是,大數(shù)據(jù)的非結(jié)構(gòu)化特征迫使人們從簡單的二值邏輯走向多值邏輯,走向人工智能,大數(shù)據(jù)為人工智能的訓練提供了數(shù)據(jù)基礎(chǔ)。

      其三,社會條件。當人類進入大數(shù)據(jù)時代,使用大數(shù)據(jù)進行社會科學研究時,也對其組織方式、管理方式、文化條件提出了新的要求。

      我們不想抽象地談?wù)撨@些問題,而是結(jié)合中國國情進行討論。我們認為,在大數(shù)據(jù)時代,中國具有一些有利條件,有助于使用大數(shù)據(jù)進行社會科學研究。這些條件是:(1)中國歷史悠久,留下了豐富的史籍和其他文獻。(2)中國是一個人口大國,互聯(lián)網(wǎng)發(fā)展較快,網(wǎng)民眾多,網(wǎng)絡(luò)數(shù)據(jù)異常豐富。(3)中國社會變遷劇烈,人口流動迅速,變遷軌跡會產(chǎn)生很多新的數(shù)據(jù)。比如一個農(nóng)民一輩子待在家里,就缺乏移動的軌跡,但是一旦外出務(wù)工,就會流動,并產(chǎn)生數(shù)據(jù)。(4)中國的市場經(jīng)濟已經(jīng)激活了一批民營企業(yè),他們對數(shù)據(jù)比較敏感,對于數(shù)據(jù)的獲取、儲存、分析產(chǎn)生了巨大的市場需求。但是,中國也有一些不利于使用大數(shù)據(jù)進行社會科學研究的條件。這些條件是:(1)中國傳統(tǒng)哲學和文化觀念不重視數(shù)據(jù),坐而論道,以圣人之言為評判言論對錯的標準,往往進行注釋式的討論,不重視實證研究。(2)中國從普通人群到專業(yè)人員大多以個人經(jīng)驗去做判斷,從數(shù)據(jù)視角觀察、分析和處理問題的人還比較少。(3)中國的社會科學更強調(diào)與自然科學的區(qū)別,較少強調(diào)要向自然科學學習,對科學理念、研究方法和技術(shù)的學習都不夠。在社會科學領(lǐng)域沒有形成定量研究傳統(tǒng)。(4)中國的大學、科研機構(gòu)的層級組織機構(gòu)。不利于建立扁平、橫向、跨學科的大數(shù)據(jù)研究組織形式。因而,大數(shù)據(jù)時代對中國的科研體制、人的素質(zhì)和文化觀念都提出了新的要求并產(chǎn)生巨大沖擊。

      當下,大數(shù)據(jù)在商業(yè)、社會管理和科學研究等眾多領(lǐng)域里蓬勃發(fā)展、方興未艾,深刻地改變了我們的時代。這種發(fā)展還是初步的,卻在科學研究領(lǐng)域構(gòu)造了近乎無限的想象空間:它可能根本上顛覆千百年來人類從個體經(jīng)驗逐漸歸納進而認知宏觀社會和自然界的思維邏輯,而以總體特征作為我們認知和思維的出發(fā)點;它以源源不斷的實時記錄給我們留下了人類活動的巨量數(shù)據(jù),這些數(shù)據(jù)具有類似于實驗數(shù)據(jù)的特征;它滲透到社會生活的各個領(lǐng)域,從而使得人們不能視而不見,聽而不聞,而對經(jīng)院哲學的純思辨模式提出根本性質(zhì)疑;它對傳統(tǒng)的學科分類、學科版圖形成巨大沖擊,并要求科學研究,尤其是社會科學研究必須與數(shù)據(jù)科學相結(jié)合,并創(chuàng)造新的研究和學習的組織形式;它對科學研究的定量化和工具化提出了不斷發(fā)展的客觀需求,并強力推動研究人員重新學習、終身學習;它將過去一切似乎是定論的東西重新變成假設(shè),并且要接受其檢驗,由此可能顛覆以往的真理或常識,并生產(chǎn)出新的知識。

      如果中國的社會科學還亦步亦趨跟隨西方社會科學走的話,那就難以發(fā)展。直接進入大數(shù)據(jù)時代,是中國社會科學跳躍式發(fā)展的機遇。在大數(shù)據(jù)時代,中國社會科學和西方社會科學幾乎在同一起點上起步,關(guān)鍵在于,更新理念、努力學習、改造和革新社會科學研究的組織方式。

      猜你喜歡
      因果關(guān)系反思沖擊
      玩忽職守型瀆職罪中嚴重不負責任與重大損害后果的因果關(guān)系
      南大法學(2021年6期)2021-04-19 12:28:02
      做完形填空題,需考慮的邏輯關(guān)系
      記初中英語詞匯教學的一次歸類、整合改革及反思
      考試周刊(2016年76期)2016-10-09 08:23:04
      中學生早戀案例分析及反思
      成才之路(2016年26期)2016-10-08 12:02:43
      新時期中學美術(shù)課教學方法的思考
      成才之路(2016年25期)2016-10-08 10:10:08
      幫助犯因果關(guān)系芻議
      奧迪Q5換擋沖擊
      奧迪A8L換擋沖擊
      一汽奔騰CA7165AT4尊貴型車換擋沖擊
      介入因素對因果關(guān)系認定的影響
      石台县| 习水县| 精河县| 吴忠市| 延庆县| 友谊县| 宜章县| 铅山县| 新野县| 鹤峰县| 邓州市| 桂东县| 绥滨县| 噶尔县| 天等县| 石屏县| 监利县| 浠水县| 三门县| 榆树市| 东城区| 三原县| 潼南县| 泉州市| 长海县| 永昌县| 舞钢市| 武川县| 青神县| 乌拉特后旗| 曲周县| 拉萨市| 黔西县| 保亭| 朔州市| 凉山| 蓬溪县| 安陆市| 桂林市| 嘉荫县| 平凉市|