文/米加寧 章昌平 李大宇 林濤
社會科學研究正在經歷從定性、定量、仿真向大數據研究的第四研究范式轉型。本文所說的研究范式不等同于科學知識范式,四種研究范式也并非從一到四逐漸替代,它們都是我們認識世界、進行社會科學研究的有效工具。在社會科學研究的歷史演化過程中,四種研究范式走向融合,彌補各自缺陷,并在認識論、方法論上逐漸形成“通宏洞微”的連續(xù)譜。
第一研究范式分為兩個階段。第一階段(17世紀以前)不區(qū)分自然科學與社會科學,對社會現象的觀察較籠統,把所有知識大一統于“自然哲學”的體系之內,為自然和社會現象提供同一套解釋系統。對社會認知進行哲學思辨,建立了樸素的唯物主義和唯心主義理念論、早期辯證法、演繹法、三段論與歸納證明、有機論的自然觀和經驗論等。對推動后來的科學發(fā)展起到了巨大的作用,許多知識至今仍然是我們認識社會的出發(fā)點和基本準則。第二階段(20世紀60年代以來),即現代社會科學的定性分析。通常涉及:(1)觀察和記錄事實;(2)分析、比較和分類;(3)歸納概括事實間的關系;(4)接受進一步檢驗四個步驟,是“自下而上”的研究路徑。定性研究在對定量研究的批判中逐漸發(fā)展起來,形成了獨特的概念體系、具體方法和理論,開發(fā)了規(guī)范化的操作程序和研究工具,個案研究、扎根理論和敘事探究等定性研究設計類型也得以使用,并出現了“參與”和“倡導”實踐。
第二研究范式是社會科學試圖通過模仿自然科學的方法和語言,用自然規(guī)律解釋人類社會過程中形成的。在邏輯實證主義和操作實證主義共同推動下,定量研究在社會科學研究領域占據了主導地位,在社會科學創(chuàng)立和發(fā)展過程中發(fā)揮了巨大的作用。通過定量研究,社會科學學科分支呈扇形逐步細化和延伸,學科理論不斷深化,與社會實踐的結合也更為緊密。近50年來,社會科學總體向更為嚴格的科學主義取向、更為專業(yè)的方向發(fā)展,這在相當程度上是以統計學的廣泛運用和定量研究為基礎的。
第三研究范式是在復雜性科學的發(fā)展與人類對全球問題應對的需求,以及新技術的發(fā)展,特別是計算機技術的不斷成熟的基礎上發(fā)展起來的。社會科學領域的計算實驗方法,“不僅僅是簡單的研究技巧和具體方法的改進,更為重要的方法論意義是把現實社會系統轉化成由智能主體構成的演化系統”。這個演化系統通過“人工個體”代替現實系統中的“人”,揭示社會系統中“個體微觀行為和系統宏觀行為之間的動力學機制”。已經在多個領域實現,采用較多的復雜系統模型有元胞自動機、離散事件模型、系統動力學和基于主體的計算機建模等。
基于數據科學的大數據研究范式是最近10余年來隨著ICT技術不斷發(fā)展、互聯網的興起和實時在線數據的易得的基礎上形成的第四研究范式。由于“萬物皆智能”“萬物皆聯網”引發(fā)了“萬物皆數據”,出現了“計量一切”的趨勢。社會科學研究的對象也從傳統的人參與的社會系統和社會過程轉變?yōu)楝F實世界和虛擬世界平行系統互動形成的數據網絡。由于大數據記錄了人們日常活動的行為甚至情感偏好,很大程度上解決了社會科學研究中數據采集的“觀察滲透”問題,并可通過“數據清洗”和“數據脫敏”解決數據質量和倫理問題。大數據驅動的第四研究范式將改變傳統的假設驅動的研究方法,轉向基于科學的數據挖掘研究方法,將會在預先占有大量數據的基礎上,通過計算得出之前未知的理論。
向第四研究范式的轉型是一次方法論的革命和對認識論的發(fā)展,它對社會科學研究方法論和認識論的影響的爭論聚焦在如下若干重要方面:
一是從相關關系再次抵達因果關系。大數據方法最重要的貢獻是能夠發(fā)現傳統研究所不能分析的數據集之間的相關關系,這些相關性能夠引導我們分析數據集之間、個體之間、人類群體之間的關系,以及信息自身的結構。大數據在社會科學研究領域的應用相當于在方法論的籃子里增加了一個新的重要工具,它之所以重要是因為它指明了學術界和產業(yè)界正在上演的一種分析現象,它既是方法論的方法,也是分析的現象。
二是數據與分析方法的進化。大數據的關鍵在于運用科學的方法來分析海量數據并從數據分析中析出有益于社會發(fā)展和進步的觀點。隨著大數據技術和數據科學的迅猛發(fā)展,社會科學領域的研究方法及其應用方式正在發(fā)生一些根本性的改變:數據和主體的在線改變了數據采集的成本和方式;在線和機器學習使主體行為和規(guī)則的形成方式從人為假設轉化成自然演進規(guī)則的內生過程;除了私有數據和受保護的公共數據外,數據類型、采集對象和計算范圍將基本不受限制;當各項約束大幅弱化以后,研究者的研究能力將得到前所未有的提高,這種提高不僅是專業(yè)領域方法論獲得的局部改進,更可能是一次整體性飛躍。
三是基于可計算社會體系的學科融合。大數據和數據科學將淡化、溝通甚至徹底消除學科邊界,將局部的還原論下的專業(yè)性社會認知和建構升級為廣域的社會整體系統認知和建構過程。人們正在試圖破除大而不全的數據孤島的邊界,并且在全數據的框架下去統合傳統的學科邊界對數據類型的專門設定,這將為我們展現一種更好的方法論形態(tài),拋卻局部的、簡單的因果鏈條,在系統整體的意義上來實現對復雜社會現象的認知。第四研究范式將傳統認識能夠抵達的對象社會孤立的數據流進行了整合和連通,在社會參與者之間建立了集中共享的新的社會和環(huán)境圖式,催生了一體化、有機的、速度更快、關聯更緊密、響應更敏捷的可計算的社會體系。
四是促進社會研究的機能性進化。傳統的社會科學研究方法論往往陷入“三角兩難(three-horned dilemma)”困境。第四研究范式在數據采集的方式、研究程序的操控性、將每個方法論應用于特定的場景和一般可觀察行為的程度方面,都開始呈現根本的變化并凸顯出融合的趨向,它甚至正在削平在不同的方法論之間進行權衡的必要性。大數據在切近對象真實的同時可以完全兼顧宏觀結構,研究的主觀操控性也正在弱化,意構的重點轉而強調數據分類方法或者是能夠同時兼顧現象分析的深度和整體性。即使不能消除全部的兩難問題,第四研究范式在解決社會科學研究方法論選擇的兩難方面的進步也已經意味著社會科學研究的機能性進化。
五是形成了認識論的延展。大數據驅動的社會科學研究減弱做出理論預設的必要性,在大數據分析得到奇點相關的引導下建構因果和結構關系,進而發(fā)現其中蘊藏著的知識或規(guī)律。數據即現象和經驗,“科學始于數據”而非直接觀察和傳統測量,是對解釋主義認識論下的直接的社會觀察的替代,替代的理由則是更高的精確度和整體性,它延展了知識發(fā)現的新途徑和新方法。
現代意義上的社會科學建立以后,快速失去了重建社會一體性,追尋社會現象普遍規(guī)律,對社會發(fā)展進行預測的目標,開始集中于研究和解釋社會現實的特點、性質、功能與變化,重點很快就“由方向轉到了方法,由抬頭看目標變成了埋頭找出路”。由于社會科學研究對象的特殊性,以及研究方法的限制,導致:(1)宏大理論產生的同時,往往缺乏實證經驗進行證明,從而引發(fā)長期的爭議,直到新證據的出現;(2)無法像自然科學一樣實現純粹的空間和完全受控的實驗,在實驗上無法實現時間的超前性;(3)社會運行具有不完全重復性,預測會產生“俄狄浦斯效應”。在社會科學發(fā)展的歷史中一直存在對“社會科學”倡導者所做的概括工作(即建立社會普通法則的工作)持一種懷疑甚至敵視的態(tài)度。
社會科學快速膨脹和多元分化,在學科體系、研究范式、研究方法上爭論不休,在不斷分化的過程中形成了學科、學派之間的對立,慢慢走進了學科細分和方法錯綜的密林深處,在條分縷析中走向細枝末節(jié),層層分解又層層否定。這種碎片化使得社會科學無法把握學科方法和社會整體。直到第三范式出現,復雜性科學興起,交叉學科和邊緣學科的不斷發(fā)展才出現了學科綜合的趨勢。
此外,社會科學還面臨著另外一個嚴峻的問題:數據匱乏和有限數據的質量問題。這其實包含了多個分支的子問題:(1)描述的模糊性問題,也就是社會科學概念的“可操作化”和“可操作性”;(2)社會測不準或觀察滲透問題,人與人之間的交互、情感信息干擾、坐標原點和利益的認識效應等更會加重這一問題;(3)小數據、小樣本的問題,多采用抽樣方法進行,并用簡單的數量關系應對復雜的現實世界;(4)數據質量控制的問題,社會科學的資料和數據受到研究對象表述時的“偏好”“記憶”“語言”以及研究者“理解”的影響;(5)生態(tài)謬誤的問題,不能從整體層次或生態(tài)數據研究中做出個體層次的結論。
第四研究范式的興起,使得重建社會科學預測成為可能。大數據將會引導社會科學研究從定性研究重視人的關系的“事本”、定量研究把人看作“物”的“物本”、仿真模擬研究把人看作實驗對象的“樣本”,真正轉化到“以人為中心”的“人本”時代。大數據正在形成的系統猶如社會的大腦,充當了“社會性記憶合成”的主角,原本被懸置的社會學研究目標和方向,有可能在大數據的驅動下,以全新的、實際的形式重新展現出來。
第四研究范式將推動宏觀理論研究發(fā)展。社會科學大多數研究均可以追溯到少數立足宏觀層面描繪和理解社會結構與變遷的典范性學說、啟發(fā)性和詮釋意義的概念、假說和理論。20世紀60年代以來,社會科學進入了“后大理論時代”。信息技術的興起和大數據的發(fā)展擴展了人類的經驗范疇,在宏大理論和實證經驗之間架起了橋梁,使得社會科學家以全新的相關性數據,在超大數據規(guī)模和時空跨度上為經典理論提供實證證據。大數據的“全樣本”“高容錯”“數據挖掘”等優(yōu)勢,為社會科學宏大理論發(fā)展提供了“全景式”認識世界、發(fā)現和提煉新的重要理論的可能性。
大數據可以消除社會科學內外對立,促進內外部學科之間的融合和定性與定量研究方法的綜合集成。第一,大數據獲取具有非學科性的特點,存在較低的“學科定制性”。為不同學科之間的研究對象有了同質性的基礎,促進學科交流與融合。第二,大數據技術的普及促使社會科學的研究者開始聯手大數據技術界的專家和自然科學的學者共同采用大數據分析技術開啟了規(guī)模更大、參與更廣的跨學科合作研究。第三,大數據使得定性和定量兩大陣營之間出現了一個混合地帶,使得研究資料獲取和分享方法上走向趨同、研究資料定性和定量分析可以相互轉化,從而促進了定性與定量研究方法的綜合集成。第四,大數據拓展了研究成果分享的渠道,“開放存取”和“復制性研究”的興起使得定性研究和定量研究在相互共享成果(研究思想)上提供了便利和基礎,信息可視化也可以幫助不同學科、方法取得的成果以更直觀、多樣化的方式展示研究成果,以方便不同領域或研究方法取向的學者更方便的理解。
第一,大數據能夠提升社會科學研究的數據質量,從數據支撐層面提升社會科學研究的“科學性”。在數據驅動下,海量數據的全樣本性質使得數據挖掘能夠分析數據質量、聚焦社會過程和關系、處理非線性的有噪音的或概念模糊的數據等,與依賴簡單數量關系的定量研究和傳統計算機仿真研究范式相比,依賴海量和實時在線數據的挖掘和學科廣泛參與的大數據分析更能夠客觀反應社會發(fā)展的歷史、現狀和規(guī)律。
第二,大數據促進了人類主體參與的實驗和計算機虛擬主體的實驗得以結合,給社會科學研究將其研究對象置身于真實環(huán)境并刻畫其復雜行為提供了可能。實現利用“人工社會”對復雜社會經濟系統進行“等價”描述,并通過“計算實驗”和“平行管理與控制”,解決復雜經濟社會系統所面對的無法還原、沒有解析模型和難以實驗、分析和評估系統行為的問題。
第三,大數據的出現,促進了促進社會科學知識體系的多元化??梢约骖櫰毡樾灾R與地方性知識的多元性,并在更大程度上促進兩者互相轉化的知識進步。同時大數據促進默會知識和明示知識的轉化,并要求本地知識與云端知識高度互動。進一步提升默會知識的重要性,促使學習能力將從記憶能力向數據檢索能力轉變?;ヂ摼W和大數據的發(fā)展,最終實現了在知識體系中的人找知識(搜索引擎)、人找人(社會網絡)、知識找知識(數據挖掘)和知識找人(個性化定制與推送)的統一。
一是數據可及性的需求。政府應“有計劃”地主導“大數據知識源集成網絡”的構建,全面集成互聯網、物聯網和社交網絡等不同生產方式的知識源,同時整合政府部門及事業(yè)單位的統計數據、社會民眾的輿論以及企業(yè)的產銷大數據,為不同用戶“分層次”地提供數據支持服務,按數據需求的合法性及迫切性,分層次對不同需求主體提供大數據開放服務。二是大數據的技術倫理問題。對大數據可及性的管理將涉及數據使用的倫理思考,如對個體數據的采集的隱私保護、偏好數據采集導致“思行不一”的人格“異化”、數據壟斷、數據安全性、數字鴻溝等一系列大數據技術理論問題需引起重視。我們必須盡快對大數據的共享、利用、開發(fā)制定趨于保守的技術制度、標準、法規(guī),或利用區(qū)塊鏈等新技術對之進行規(guī)范和約束。三是以往社會科學研究傳統價值的再挖掘。第四研究范式的應用將為已有社會科學研究提供更高的數據起點、全新的理論視角,并促進自然科學與社會科學的交叉融合,不同學科的界限將在數據驅動的研究中變得模糊,不同領域的研究者們將締結基于數據研究的科學共同體。四是社會科學研究范式轉型保障體系的構建。包含規(guī)則保障、基礎設施保障和科學共同體保障三個層次:規(guī)則保障由法律規(guī)則、交易規(guī)則、技術性協議保障構成;基礎設施保障由社會資源與規(guī)則層、物理層、計算仿真層和社會應用層構成;科學共同體保障包括新型社會科學的理論體系、研究方法、操作準則、學術成果評價與交流規(guī)范。