梁 晨
(南京大學 中華民國史研究中心,南京210023)
自20 世紀初年梁任公批判傳統(tǒng)史學,倡導新史學運動起,中國的歷史學家們就始終面臨著一個兩難挑戰(zhàn):既要努力保持學科特色,讓歷史學成為現(xiàn)代學科之一員;亦要打破學科畛域,不斷借鑒他者的理論與方法①梁啟超認為:“地理學也,地質(zhì)學也,人種學也,人類學也,言語學也,群學也,政治學也,宗教學也,法律學也,平準學也(即日本人所謂經(jīng)濟學),皆與史學有直接之關系。 其他如哲學范圍所屬之倫理學、心理學、論理學、文章學及天然科學范圍所屬之天文學、物質(zhì)學、化學、生理學,其理論亦常與史學有間接之關系,何一而非主觀所當憑藉者!”梁啟超:《新史學二:第二章 史學之界說》,《新民叢報》1902 年第3 號。。 此后,不同時代的新史學運動都曾反復重申這一理念②李劍鳴認為自19 世紀末起,“中國史學經(jīng)歷了三次轉(zhuǎn)型,多種‘新史學’次第登場”。 李劍鳴:《歐美史學的引入與中國史家的話語權(quán)焦慮——一個當代學術史的考察》,《清華大學學報(哲學社會科學版)》2022 年第1 期。,以致今日再談史學研究需要跨學科,很有“老生常談”之感。 但細究起來,又頗有可深入發(fā)展之處。像嚴飛提出的引入社會學理路,推動歷史社會學發(fā)展,就指出了歷史學仍須不斷借鑒跨學科的理論③楊念群對新史學運動以來歷史學引入社會科學理論方法的情況做了細致、深入的梳理,楊念群:《中國史學引入社會科學方法的階段性表現(xiàn)及其限度》,趙世瑜編:《北大史學》第21 輯,北京:社會科學文獻出版社,2021 年,第45-57 頁。。 但相對于理論話語的跨學科,歷史學技術方法的跨學科借鑒更顯不足。 1990 年臺灣《新史學》問世時,注意到隨著電子計算機的普及,“人類知識將引起革命性的改變”④《新史學:發(fā)刊詞》,http:/ /saturn.ihp.sinica.edu.tw/ ~huangkc/nhist/first.html,訪問時間:2021 年12 月10 日。,因而提出“要嘗試各種方法(不論已用未用),拓展各種眼界(不論已識未識)”⑤羅志田:《前瞻與開放的嘗試:〈新史學〉七年(1990-1996)》,《近代中國史學述論》,北京:北京師范大學出版社,2015年,第98-118 頁。。 但總的來看,歷史學家更關注的還是概念、理論與話語的跨學科,而非技術方法與研究手段的跨學科。 2002 年召開的“香山會議”,被視為中國史學界新世紀新史學運動的發(fā)端。 會議上,來自九個不同學科的學者以紀念梁啟超《新史學》發(fā)表100 周年為名,共同探討了21 世紀“多學科視野下不同歷史敘述與研究進路的可能性”。 此后,有著重要學術影響的《新史學》集刊被推出。 該刊特別強調(diào)“反對空泛地標榜發(fā)現(xiàn)問題意識的重要性,而強調(diào)在解讀史料的過程中磨礪對歷史的感覺和想象力”⑥中國人民大學清史研究所:《〈新史學〉創(chuàng)刊緣起與旨趣》,http:/ /www. iqh. net. cn/info. asp? column_id=7191,訪問時間:2021 年12 月10 日。,重視的是跨學科的問題意識和史學研究中的想象力,而非技術方法與研究手段的更新?lián)Q代。
史學之樹之所以能常青,一個重要的原因是史學總能隨著時代發(fā)展而演進,并由此形成了一代又一代的“新史學”。 21 世紀被喻為人類“數(shù)字化生存”時代⑦“數(shù)字化生存”概念最早由美國計算機學家尼古拉·尼葛洛龐帝(Nicholas Negroponte)提出。 尼古拉·尼葛洛龐帝:《數(shù)字化生存》,海口:海南出版社,1997 年。,網(wǎng)絡與數(shù)字技術不僅突飛猛進,更浸入到人類社會生活與學術研究的各個領域。 過去的十多年里,技術方法已經(jīng)顯現(xiàn)出對歷史研究中始終存在的方法與資料、個體與群體、分析與描述之間的矛盾與沖突的進一步平衡,在幫助歷史學家極大拓展史料利用范圍的同時,改變著史料的利用形態(tài)和分析方法,甚至開始形成了歷史學研究對象和分析表達的新路徑,昭示著時代新史學的產(chǎn)生。
跨學科理論,特別是社會科學的理論對歷史學之所以重要,一方面是因為,歷史學者學習、掌握這類理論并不困難;另一方面,基于研究人類社會及人類行為的共性,很多社會科學的理論能較平順地移用到歷史研究中來,為歷史學家提供全新的問題意識和研究視野,進而推動史學發(fā)展。 例如借助社會學中的社會流動理論,何炳棣敏銳地觀察到明清時期大量存在的登科錄、同年齒錄等科考資料中所包含的舉子們多代際的家庭信息,對解答傳統(tǒng)中國精英階層的流動性和社會構(gòu)建問題大有裨益⑧Ping-ti Ho,The Ladder of Success in Imperial China:Aspects of Social Mobility, 1368-1911,New York: Columbia University Press, 1962.。 黃宗智則受經(jīng)濟學邊際效益遞減理論啟發(fā),通過人類學家實地調(diào)查的資料,觀察到當西歐的小農(nóng)經(jīng)濟經(jīng)歷資本主義的發(fā)展和改造時,以華北農(nóng)村為代表的中國小農(nóng)經(jīng)濟卻在日益內(nèi)卷①黃宗智:《華北的小農(nóng)經(jīng)濟與社會變遷》,北京:中華書局,1986 年。。 無論是何氏的傳統(tǒng)科舉制下的“高流動”理論,還是黃氏傳統(tǒng)小農(nóng)經(jīng)濟的“內(nèi)卷化”理論,都對中國史學研究產(chǎn)生了重大影響,也充分說明了歷史學借用跨學科理論的必要與價值。
技術方法則大不相同。 一方面,哪怕是較初級的量化分析技術,對很多歷史學者來說都不易掌握;另一方面,歷史學家的研究必須建立在史料之上。 如果技術方法既無法給研究者提供新視野、新問題,又不能直接作用于史料,幫助歷史學家在掌握史料、分析史料等環(huán)節(jié)有所進步,那么它就無法真正進入歷史研究。 目前,史料的主體依然是文獻。 長期以來,人眼閱讀與人腦理解似乎是對文獻歸納與解讀最有效、最深入的路徑,引入技術既費力又無必要性。 過往歷史學嘗試引入技術方法的努力似乎也印證了這一觀點。 第二次世界大戰(zhàn)以后,隨著計算機的發(fā)明運用,材料的電子化技術與數(shù)據(jù)運算技術得以快速發(fā)展并走入科研領域,這給量化研究方法“打開了快速累積知識庫的方便之門”②喬伊斯·阿普爾比等:《歷史的真相》,北京:中央編譯出版社,1999 年,第71 頁。。 美國學界敏銳地注意到了這一技術潮流,一些前沿學者在法國年鑒學派提倡的歷史統(tǒng)計方法的基礎上③有學者認為最早將計量作為一種常用研究方法的是法國年鑒學派。 從呂西安·費弗爾的“地理歷史學”到費爾南·布羅代爾的《地中海》,年鑒學派通過數(shù)據(jù)嘗試對歷史時期中的經(jīng)濟活動進行計量分析,再將其孤立,放在較長的時段中考察其演變過程。 王晴佳:《年鑒學派對我們研究歷史的啟迪》,《社會科學》1986 年第5 期。,開始嘗試有限度地將歷史資料電子化并進行量化分析,計量史學遂自20 世紀60 年代起勃興起來④1958 年康拉德(Alfred H. Conrad)和邁耶(John R. Meyer)合作發(fā)表的《內(nèi)戰(zhàn)前南部奴隸制經(jīng)濟學》被認為是美國計量史學的第一部代表作。 Alfred H. Conrad and John R. Meyer, “The Economics of Slavery in the Ante Bellum South,”Journal of Political Economy,66(2), 1958. 隨后,1963 年,美國歷史協(xié)會成立了“歷史計量資料委員會”(an ad hoc Committee on Quantitative History),這個委員會不僅收集美國的計量資料,而且收集歐洲、亞洲、拉丁美洲其他國家的計量資料。 1972年,它還組織出版了10 卷本的《計量史學研究叢書》,1975 年還專門成立了“社會科學歷史學會”(Social Science History Association)。 1993 年,從事計量經(jīng)濟史研究的道格拉斯·諾斯(Douglass North)和羅伯特·福格爾(Robert Fogel)獲得諾貝爾經(jīng)濟學獎,被視為計量經(jīng)濟史研究的重要高峰。。 但這一研究方式過多地受經(jīng)濟學影響,越來越強調(diào)分析技術的高級與復雜,從使用描述性統(tǒng)計發(fā)展到強調(diào)相關分析、回歸方程乃至動態(tài)數(shù)列、超幾何分布等高級數(shù)學模型,在實現(xiàn)技術方法不斷飛躍的同時,越來越遠離史料。 技術不再作用于史料——不僅難以在史料分析的基礎上,形成更深入的歷史認識與歷史理論,甚至出現(xiàn)了很多有違常理的奇談怪論。 這反而大大加深了歷史學家對技術工具的疏離,甚至斥之為“技術拜物教”。
如今,不僅計算機早已普及,人類更迎來了網(wǎng)絡數(shù)字時代。 對于歷史學者來說,數(shù)字技術能夠極大拓展史料利用范圍已無異議。 自20 世紀80 年代以來,由于文獻掃描設備與技術的進化(如能對電子文獻進行識別和轉(zhuǎn)化的Optical Character Recognition 技術)、互聯(lián)網(wǎng)的搭建和瀏覽器的推出,歷史研究所依靠的各種史料電子化、可檢索化和遠程共享的程度越來越高。 各個圖書館、檔案館都在努力開展館藏資料的電子化處理,在提供信息檢索功能的同時,逐步有條件地推出在線共享,實現(xiàn)“開放獲取”(Open Access)功能,大大提升了研究者的史料獲取范圍。 史料的開放獲取和檢索工具的嵌入,又使得歷史學者通過主題、時段或關鍵詞等檢索,可以快捷查閱海量史料和相對精準地鎖定所需材料,提升了史料利用的效率。 因此,有學者認為,以數(shù)字技術為核心的新技術帶來了“史料革命”,“從技術上看,新史學積極擁抱計算機及數(shù)字化技術,并將之引入史學研究,從而推動歷史資料在存儲、檢索、傳遞和分析、處理等方面發(fā)生重大變革”①劉萍:《“史料革命”:近十年來的史料學研究及反思》,《北方論叢》2021 年第5 期。。 不過,這個革命導致的主要是史料存儲和利用方式的迭代進步,主導者多為文獻收藏與保管者。 歷史學者雖由此能更便利和更大范圍地使用史料,但與史學研究的關系尚不夠直接,介入的程度也較有限。
近些年來,隨著網(wǎng)絡與數(shù)字技術的發(fā)展,以大數(shù)據(jù)計算為代表的第三次計算浪潮開始形成②肖恩·格雷厄姆、伊恩·米利根、斯科特·魏因加特:《探索歷史大數(shù)據(jù):歷史學家的宏觀視角》,杭州:浙江大學出版社,2019 年,第25 頁。。 對歷史學而言,在前述“史料革命”的基礎上,技術改變的不僅是外在的史料存儲和利用方式,還進一步深入到史料內(nèi)部,改變了史料的呈現(xiàn)結(jié)構(gòu)和分析方法,甚至是研究范式。 例如在計量史學的基礎上,到20 世紀90 年代中后期,在綜合數(shù)據(jù)統(tǒng)計分析、地理信息系統(tǒng)構(gòu)建等技術的基礎上,國際學界興起了一股以從大規(guī)模原始史料中提取“個人層面微觀數(shù)據(jù)”(individual-level microdata),構(gòu)建量化歷史數(shù)據(jù)庫并開展群體研究的風潮③梁晨、董浩、李中清:《量化數(shù)據(jù)庫與歷史研究》,《歷史研究》2015 年第2 期。。 這一研究范式源自人口學,進入歷史學領域后,對個人層面數(shù)據(jù)的設定被擴展到“單元層級數(shù)據(jù)”(unit-level data)。按照世界銀行對單元層級數(shù)據(jù)的定義,單元可以是個人,也可以是基層實體,如家庭、商業(yè)企業(yè)、街區(qū),甚至是村莊、城鎮(zhèn)等④Datahelpdesk.worldbank.org/knowledgebase/articles/228873-what-do-we-mean-by-microdata,訪問時間:2021 年11 月8 日。。 微觀歷史數(shù)據(jù)就是原始史料中蘊藏的個人或單元層級的信息。 對社會群體研究而言,單元層級就是個人層面的數(shù)據(jù);對于家族或區(qū)域研究而言,單元信息可能是家庭或村、鎮(zhèn)信息。
進入21 世紀以后,網(wǎng)絡技術和數(shù)字分析方法不斷發(fā)展,源代碼開源運動也隨之出現(xiàn),各種用途的開源軟件大量增加,進一步推動歷史文獻數(shù)據(jù)庫和量化數(shù)據(jù)庫的不斷增加。 同時,多重網(wǎng)絡與數(shù)據(jù)分析技術開始介入到歷史材料的分析與研究中來;在與史料交融互動的過程中,逐步凝聚成以文本挖掘、主題建模、社會網(wǎng)絡分析等多種技術為主題,囊括數(shù)據(jù)庫構(gòu)建、大數(shù)據(jù)量化分析和可視化表達等多維度技術圖譜的數(shù)字史學——以致有學者提出歷史學的“DH”(digital history or digital humanities)時刻已經(jīng)來臨⑤肖恩·格雷厄姆、伊恩·米利根、斯科特·魏因加特:《探索歷史大數(shù)據(jù):歷史學家的宏觀視角》,第34 頁。。
文本挖掘是數(shù)字人文學者分析文獻時最常用的選擇。 它的核心理念是“詞語計數(shù)”(counting words),即計算一個特定詞語在某個文檔中出現(xiàn)的頻率。 當文檔規(guī)模大、延續(xù)時間長,或者具有特定語境代表性時,這樣的詞頻統(tǒng)計結(jié)果就可能揭示出某些重要的學術問題。 在詞語計數(shù)之上,學者們也注意到詞語與詞語之間的表達結(jié)構(gòu)、詞語在語境中的意義等更值得關注,因此也逐漸發(fā)展出詞組頻率分析和“語境關鍵詞”(keyword-in-context)分析等技術方法。通過一些標準化的處理,文本中詞語、語義的頻次還可以通過“詞云”(word cloud)的顏色深淺、形狀大小,可視化地呈現(xiàn)出來,更直觀地展示研究發(fā)現(xiàn)。 盡管這一技術存在失去完整語境的不足,但還是能幫助歷史學家在海量文獻中獲取一些基本的信息或規(guī)律,具有一定的實用價值。 例如丁帆和趙普光以1949—2018 年國內(nèi)期刊、報紙等媒介發(fā)表的中國現(xiàn)當代文學研究文章為文本庫,提取了各篇文章的論題詞,通過詞頻分析和詞云展示,發(fā)現(xiàn)“數(shù)據(jù)的變化即歷史的軌跡”,1949 年以來70 年間的中國現(xiàn)當代文學研究論題始終與國家歷史共振⑥丁帆、趙普光:《歷史的軌跡:中國現(xiàn)當代文學研究七十年的實證分析——以論題詞詞頻的統(tǒng)計為中心》,《文藝研究》2019 年第9 期。。
網(wǎng)絡分析,特別是以人物為節(jié)點的“社會網(wǎng)絡分析”(social network analysis)是歷史學家特別期待的另一項數(shù)字技術研究方法。 連接,是人類社會運作的關鍵,自然也是研究人類社會最核心的問題之一。 數(shù)字史學家常利用Gephi①Gephi 是一款基于JAVA 語言,主要用于各種網(wǎng)絡和復雜系統(tǒng),動態(tài)和分層圖的交互可視化與探測的免費開源工具。 關于該軟件的更多介紹和開放獲取,可點擊https:/ /gephi.org/。等網(wǎng)絡分析軟件,將研究對象抽象成點,彼此的關系則由連接的邊來表示,同時邊可以被賦予方向和權(quán)重。 當研究對象具備一定規(guī)模后,軟件就會呈現(xiàn)出復雜的點線關系與結(jié)構(gòu)圖。 圖中常常會呈現(xiàn)出多個大小不等的交往中心點,從而為歷史學者理解復雜群體中的關系脈絡和核心節(jié)點提供幫助。 如有學者基于“中國歷代人物傳記資料庫”②“中國歷代人物傳記數(shù)據(jù)庫”(簡稱CBDB)系美國哈佛大學費正清中國研究中心、臺灣“中研院”歷史語言研究所和北京大學中國古代史研究中心三家機構(gòu)合作建設開發(fā)的線上關系型數(shù)據(jù)庫,其目標在于系統(tǒng)性地收錄中國歷史上所有重要的傳記資料,并將其內(nèi)容毫無限制地、免費地公諸學術之用。 該數(shù)據(jù)庫的介紹和獲取,參見:https:/ /projects.iq.harvard.edu/chinesecbdb。中收錄的隋唐至宋的歷史人物,通過技術工具可視性地展示出這一時期精英人物的社會關系。 分析表明,這一時期各個時代的精英群體,社會關系都呈現(xiàn)出中央網(wǎng)絡與小群網(wǎng)絡相結(jié)合的狀態(tài),但具體結(jié)構(gòu)則差別較大,體現(xiàn)出隋唐與宋在政治體制和社會關系等方面的差異③劉飛燕、高劍波:《隋唐至宋時期精英社會網(wǎng)絡動力學的演化研究》,《數(shù)字人文》2020 年第1 期。。 此外,在數(shù)字史學的視野里,人與人的連接,不只是現(xiàn)實生活中真實交往的人際關系,還可以是虛擬或非真實接觸的各種關聯(lián)。 比如,今天中國學者非常熟悉的知網(wǎng),在數(shù)字技術的支持下,它不僅能提供論文查閱功能,還能附帶提供論文的引用文獻和被引文獻信息。 在數(shù)字化研究者看來,這種文獻間的聯(lián)系體現(xiàn)了學者的學術關系網(wǎng)絡。
這些以技術方法而不是理論視角為突出特點的研究方式,雖尚未成熟,但已充分展示出作用于史料的能力。 上述技術方法都能幫助學者超越人力的限制,在海量的史料中實現(xiàn)各類相關史料的自動、半自動連接,不僅能建構(gòu)起可供軟件分析的數(shù)據(jù)庫,更能形成長時段或多代際的資料平臺④梁晨:《用大規(guī)模量化歷史數(shù)據(jù)庫檢驗中國的長期代際遺傳》,《南京大學學報(哲學·人文科學·社會科學)》2019 年第2 期。。 這些平臺如同科學研究里設計出的新儀器,通過對其中的數(shù)據(jù)信息進行各種富有想象的計算和驗算,能夠幫助歷史學家發(fā)現(xiàn)新史實,形成新學理論⑤筆者曾以近現(xiàn)代以來各大學所存學生學籍卡檔案為例,說明這種利用史料,構(gòu)建信息平臺,經(jīng)過分析以實現(xiàn)理論演進和學術發(fā)展的可能。 參見梁晨、李中清:《大數(shù)據(jù)、新史實與理論演進——以學籍卡材料的史料價值與研究方法為中心的討論》,《清華大學學報(哲學社會科學版)》2014 年第5 期。。 傅斯年認為現(xiàn)代歷史學的演進,“在于由主觀的哲學及倫理價值論變做客觀的史料學”,“史學的對象是史料,不是文詞,不是倫理,不是神學,并且不是社會學。 史學的工作是整理史料”,而對于整理史料的方法,他連續(xù)三次強調(diào)是“比較不同的史料”⑥傅斯年:《史學方法導論》,北京:中華書局,2015 年,第3 頁。。 史料的比較確實是史學家工作的基礎和核心,但比較的前提是史料的連接。 連接隱藏在不同史料中的相關史料,為歷史學家的研究提供“新史料”,恰是數(shù)字技術能夠成為歷史學家重要研究工具的原因所在,也在預示著新史學未來的可能樣態(tài)。
技術在作用于史料的同時,也在潛移默化地改變著歷史書寫的方式與方法。 “個體與群體”“方法與資料”“分析與描述”被視為20 世紀中外史學研究中存在著的有待解決的問題⑦羅志田:《前瞻與開放的嘗試:〈新史學〉七年(1990-1996)》,《近代中國史學述論》,第99 頁。,而21 世紀數(shù)字技術的興起與介入,或可幫助歷史學家更好地解決上述問題。 前述內(nèi)容表明,在“方法與資料”的平衡上,數(shù)字技術顯然頗有助力。 對于“個體與群體”和“分析與描述”這類歷史書寫中研究對象和表達形式上所存在的問題或沖突,技術介入后也有打開新局面的可能。
英國歷史學家彼得·伯克(Peter Burke)認為,雖然歷史學家和社會學家應該是比經(jīng)濟學家、地理學家等都要關系密切的學術近鄰,但彼此的學術交流卻非常不順暢,甚至如布羅代爾所形容的,是“聾子之間的對話”。 因為社會學研究的是“單數(shù)的人類社會(human society)”,而歷史學家研究的是“復數(shù)的人類社會(human societies in the plural)”,彼此學術理念有著根本差異。 換句話說,從學術表象看,社會學家似乎是“集體主義者”,不僅常開展合作研究,而且更擅長對社會進行整體性結(jié)構(gòu)化的觀察和研究;歷史學家更像是“個人主義者”,不僅多開展個人性研究,也更傾向于深入過去社會的內(nèi)部,細究具體個案或局部,重視異同的分析并展示社會實際運作的復雜與多樣。 由此,歷史學家也給人以重個體、輕群體的觀感,以致被看成是“缺乏體系和方法的事實收集者”①彼得·伯克:《歷史學與社會理論》,上海:上海人民出版社,2001 年,第2-3 頁。。
公允地說,歷史學家們并不滿足于只做史料收集者或“掌故”學家②中國傳統(tǒng)史學的考據(jù)方法在西方常被稱為“掌故法”(anecdotal method)。 見吳承明:《中國經(jīng)濟史研究的方法論問題》,《中國經(jīng)濟史研究》1992 年第1 期。。 對現(xiàn)代歷史學產(chǎn)生巨大影響的法國年鑒學派,就大力號召歷史學家不要滿足于具體或局部的研究,而應開展無所不包的“整體史”或“總體史”(total history)研究。 這種整體史,從空間范圍看,可分為地區(qū)的總體或世界的總體;從時間范圍看,要包括“歷史長河中或某段歷史時期內(nèi)發(fā)生過的自然和人類的全部事件”;從研究方式看,需要運用“所有人類知識的研究視角和方法”③王加豐:《年鑒學派的總體史理論及其實踐》,《華東師范大學學報(哲學社會科學版)》2020 年第5 期。。 整體史觀的踐行,無疑會導致研究對象和研究材料的規(guī)模都迅速膨脹的局面。 即便歷史學者能獲取各需的所有材料,但面對海量材料,作為人的歷史學家根本無法全面無遺、客觀中立地描述材料和重建歷史。 因此,雖有雄心壯志,但年鑒學派開展整體史研究的效果卻不盡如人意。 劉子健認為年鑒學派的工作“找到一些關聯(lián),而無從判明其所以然,又無關宏旨”④劉子健:《史學的方法、技術和危機》,《新史學》1990 年第1 期。。 更有學者認為,“整體史”的口號“雖時尚但短暫”(briefly fashionable),僅僅造成了很多不成形又無意義的數(shù)字與資料,卻沒有多少研究上的收獲⑤A. W. Carus and Sheilagh Ogilvie, “Turning Qualitative into Quantitative Evidence: A Well-used Method Made Explicit,”The Economic History Review,62(4), 2009.。 有鑒于此,黃仁宇又曾提出通過歸納法,“將現(xiàn)有的史料高度的壓縮,先構(gòu)成一個簡明而前后連貫的綱領”,并將此定義為新的“大歷史”(macro history)⑥黃仁宇:《中國大歷史》,北京:三聯(lián)書店,2015 年,自序第2 頁。。 但依照此法打造出的《中國大歷史》,被多數(shù)學者視為無血無肉的,更類似“簡明通史概述”(long-term survey)的作品。 薛剛的論文,試圖將近代中國各區(qū)域的地理特征、經(jīng)濟發(fā)展和人口變動等不同鏈條及其關節(jié)呈現(xiàn)出來,并探討各鏈條與地方暴力活動之間的聯(lián)系,進而整體性地回應近代中國戰(zhàn)爭格局的歷史成因,是近些年近現(xiàn)代史領域長時段、整體史研究比較成功的一次嘗試。 但面對多地區(qū)和多人口的描述與分析,作者一人顯然無力開展全面、細致的一手研究,更多借助的是二手研究,這也導致學者們對文中很多具體觀點存在不同意見⑦薛剛:《山川分布、區(qū)域性集體暴力與軍事動員——從地理時間理解近代中國的戰(zhàn)爭與歷史格局》,《南京大學學報(哲學·人文科學·社會科學)》2021 年第3 期。。
顯然,研究材料的膨脹導致的“信息過載”(information overload)⑧信息過載本是網(wǎng)絡信息科學術語,是指一定時間內(nèi),信息流量超過了個人或者系統(tǒng)所能接受、處理或有效利用的范圍,并導致故障。是開展整體史研究的重要挑戰(zhàn)。 數(shù)字技術方法在創(chuàng)造新史料的同時,或可為解決這一棘手難題提供新路徑。 一方面,數(shù)字技術的介入,能夠幫助歷史學者從海量的電子化史料中有效發(fā)現(xiàn)信息或規(guī)律。 無論是量化數(shù)據(jù)庫分析,還是文本挖掘和社會網(wǎng)絡分析等技術方法,不僅不懼怕,反而非常歡迎海量資料。 資料的體量越大、時間跨度越長,越可能帶給研究者更精準、更重要的發(fā)現(xiàn)。 另一方面,技術介入帶來各類史料的有效連接,從而形成群體甚至整體性數(shù)據(jù)集合,為開展群體研究提供了基礎。 以筆者正在從事的近代清華留美生職業(yè)生涯與中國近代化發(fā)展研究為例,近代清華選派的留美生“因為錄取程序嚴、培養(yǎng)出的學生學術水平高”,“涌現(xiàn)出眾多近現(xiàn)代中國最優(yōu)秀的學者和教育家,以及各行各業(yè)的杰出人才”,是“整個20 世紀中國留學運動中最有影響和最為成功的”①葉維麗:《為中國尋找現(xiàn)代之路:中國留學生在美國(1900-1927)》,北京:北京大學出版社,2012 年,引言第11 頁。,但目前對這一群體的職業(yè)發(fā)展與貢獻研究,多以個案描述為主,群體分析尚不足。這既與過往歷史書寫的特點有關,也與系統(tǒng)性獲取清華留美生職業(yè)信息的困難較大有關。1937 年國立清華大學校長辦公處出版過《清華同學錄》②國立清華大學校長辦公處印行:《清華同學錄》,1937 年4 月。。 該資料不僅未能包含民國所有清華留美學生,且對學生提供的職業(yè)信息的收錄也非常有限——近一半學生沒有提供任何職業(yè)信息,其余學生每人也僅有一條職業(yè)記錄,且絕大多數(shù)職業(yè)記錄只是單位名稱,研究者無法據(jù)此觀察留美生的工作性質(zhì)、職務等級和社會地位,更無法從動態(tài)角度研究留美生的職業(yè)發(fā)展狀況與原因。 事實上,清華留美生的職業(yè)信息分散存在于多種史料中,對這類極其零散的史料進行群體性系統(tǒng)化收集,依靠人力非常困難③同其他近代歷史上的知名人物一樣,部分留美生的生涯簡述被收入辭典、名錄中,如《民國人物大辭典》《當代中國名人錄》等;對于不同行業(yè)的留美生,其職業(yè)信息散落在職官表、公報調(diào)令、機構(gòu)刊物、機構(gòu)史等材料中,如《國民政府職官年表》《交通公報》《鐵道公報》《光華年刊》《清華周刊》《河南大學百年人物志》等;由于留美生往往為當?shù)刂宋?其事跡又常見于地方志、期刊、文集中,如上海、浙江等地《民國名人辭典》《湖南歷代科學家傳略》等;每個留美生不同的社交網(wǎng)絡,使其出現(xiàn)在多種已經(jīng)出版的名人傳記、日記、回憶錄等材料中;活躍的社會活動,又使得大量留美生的職業(yè)信息散見于時事報刊中,如《申報》《時事新報》等。 以上每種類型的材料,結(jié)構(gòu)完全不同,信息密度差距極大,并且對于研究者而言,會在何時、何種情境下發(fā)現(xiàn)某項材料,同樣難以預料。 如何更好地發(fā)現(xiàn)和整合這些材料,從中梳理出人物職業(yè)信息,尚需探索。。 為此,我們以所有清華留美生的姓名為聚綴,依靠python 語言設計爬蟲工具,通過抓取中國近現(xiàn)代報刊史料數(shù)據(jù)庫、抗戰(zhàn)史料數(shù)據(jù)平臺等多個巨型文獻數(shù)據(jù)庫,最終在原有《清華同學錄》人均0.6 項職業(yè)記錄的基礎上,從8 286 種材料中發(fā)現(xiàn)相關記錄,將人均職業(yè)數(shù)提升至7.3 個。 同時,超過95%的清華留美生能確定職業(yè),多數(shù)職業(yè)橫跨30 年,接近1/2 的清華留美生能展示完整職業(yè)生涯信息,超過2/3 的清華留美生能較為完整地展示職業(yè)生涯信息,僅有不足5%的留美生無職業(yè)信息,扣除早年病逝、女性未就業(yè)等情形,不足3%。 此外,幾乎所有職業(yè)信息都有精確的地理位置信息和時間信息,這對研究清華留美生的整體職業(yè)狀況非常有利。
相對于社會科學的表達側(cè)重量化比較和結(jié)構(gòu)分析,歷史學的書寫則以描寫和敘事為主。李伯重指出,“在英文中,history 也被說成是his story,即人的故事”④李伯重:《史料與量化:量化方法在史學研究中的運用討論之一》,《清華大學學報(哲學社會科學版)》2015 年第4 期。。 實際上,人類早期的歷史著作,無論是古希臘希羅多德的《歷史》,還是中國司馬遷的《史記》,都充滿了包括神話在內(nèi)的各種故事。 描述、敘事無疑是表達故事最常用和最自然的手法,以致某些時候歷史學家也被看成是基于史料講故事的人。 當然,這樣的看法并不符合現(xiàn)代歷史學的自我定位。 吳承明就認為史學雖然要再現(xiàn)往事,采用敘述的表達方式也不是缺點,但“問題是應該有分析,即中國所謂‘論’”⑤吳承明:《論歷史主義》,《中國經(jīng)濟史研究》1993 年第2 期。。 實際上,歷史學家們不僅明白再動人的敘事也不能取代學術研究的論證要求,而且還普遍認識到盡管歷史論述主要使用的是日常語言,無法像自然科學和社會科學那樣采用一套精確且沒有歧義的概念,但無論如何,對于求真的史學研究來說,“日常語言的不精準、多歧義又必須通過一些輔助概念進行矯正”①A. W. Carus and Sheilagh Ogilvie,“Turning Qualitative into Quantitative Evidence: A Well-used Method Made Explicit,”The Economic History Review,62(4), 2009.。 因此,對力圖通過回歸歷史場景,以求理解和解釋人類社會行為的歷史學來說,僅有敘事和描寫是不夠的。 在實證的和歸納性的研究方法之外,歷史研究也必須引入各種概念和采用具有科學性的演繹分析法,特別是定量的比較和結(jié)構(gòu)性的探索等,以論證歷史觀念、回應現(xiàn)實關懷等。
概念通常都或明或暗地含有量的標準或要求,并不存在清晰的、非此即彼的定量概念與定性概念的界限,研究中必須堅持定性與定量相結(jié)合②A. W. Carus and Sheilagh Ogilvie,“Turning Qualitative into Quantitative Evidence: A Well-used Method Made Explicit,”The Economic History Review,62(4), 2009.。 量化或程度是任何研究對象固有的特征,比如人物年齡大小、身材高矮,收入多少,等等。 這些直接的量化特征,又會成為生活質(zhì)量、社會階層屬性等很多定性概念的事實基礎和分類標準。 李伯重曾專門撰文強調(diào)比較分析在歷史研究中具有重要意義,而對研究對象進行量化描述則是比較的重要基礎③李伯重:《量化與比較:量化比較方法在中國經(jīng)濟史研究中的運用》,《思想戰(zhàn)線》2018 年第1 期。。 謝宇直截了當?shù)卣J為,人類社會的本質(zhì)是變異。 沒有一種定量方法,我們就無法表述這種變異。 盡管思辨、內(nèi)省、個人體驗等也是可供選擇的方法,但只能起補充作用④謝宇:《社會學方法與定量研究》,北京:社會科學文獻出版社,2006 年,第7-8 頁。。 同時,定量的數(shù)據(jù)或信息普遍存在于各類史料中,這既是歷史研究必須重視量化的原因,也為技術方法的介入提供了路徑。英國史學家羅德里克·弗勞德(Roderick Floud)認為,史材中的人物與事件包含有大量可量化變量(信息/數(shù)據(jù)),包括定類變量、定序變量、定距變量和定比變量等多種⑤羅德里克·弗勞德:《獻給歷史學家的量化方法》,北京:社會科學文獻出版社,2021 年,第9-15 頁。。 吳承明提倡研究中應盡可能做定量分析,“蓋定性分析只給人以概念,要結(jié)合定量分析才具體化,并改正概念的偏差”⑥吳承明:《經(jīng)濟史:歷史觀與方法論》,《中國經(jīng)濟史研究》2001 年第3 期。。 卡魯斯(A. W. Carus)等人認為近些年國際學術界的很多研究之所以取得重要進展,就在于從定性的證據(jù)中獲得定量的證據(jù),因此提出歷史學研究時應強調(diào)“量化使用定性證據(jù)”(using qualitative evidence quantitatively)⑦A. W. Carus and Sheilagh Ogilvie,“Turning Qualitative into Quantitative Evidence: A Well-used Method Made Explicit,”The Economic History Review,62(4), 2009.。 李中清等則指出20 世紀末到21 世紀初,大規(guī)模微觀數(shù)據(jù)庫的構(gòu)建與分析,就如同17 世紀的科學革命一樣,讓學界在歷史理解方面產(chǎn)生了一場社會科學革命⑧香港科技大學講座教授李中清(James Lee)和日本一橋大學準教授倪志宏(Matthew Noellert)的這一判斷,主要建立在以下文獻基礎上:Robert William Fogel and Geoffrey Rudolph Elton,Which Road to the Past?:Two Views of History,New Heaven: Yale University Press, 1983; Margo Anderson, “Quantitative History,” William Outhwaite and Stephen P. Turner,The Sage Handbook of Social Science Methodology,London: Sage Publications, 2007, pp.246-263; Myron P. Gutmann, Emily Klancher Merchant and Evan Roberts, “‘Big Data’ in Economic History,”The Journal of Economic History,78(1), 2018;Thomas Piketty,Capital In the Twenty-First Century, Cambridge & MA: Harvard University Press, 2014; Thomas Piketty,。
數(shù)字史學使用的技術方法雖然多樣,但產(chǎn)生大規(guī)模、可量化的數(shù)據(jù)幾乎是所有技術路徑都存在的特點。 無論是微觀量化數(shù)據(jù)庫的構(gòu)建,還是基于文本的詞義挖掘或詞頻分析,或是基于大規(guī)模數(shù)據(jù)探索而形成的主題建模以及各類人物關系的網(wǎng)絡分析等,都需要在一定量的信息或數(shù)據(jù)基礎上進行量化的分析研究。 同時,這些技術之所以能夠?qū)崿F(xiàn)各種分析目的,也在于技術介入后能挖掘或連接起大量史料。 這類大規(guī)模史料的組織與分析,需要但不能僅靠學者個新技術介入后的量化分析是以微觀信息為基礎的。 微觀信息的連接,是由點成線的工作——群體數(shù)據(jù)直接來自于每一個個體,是個體與群體的融合。 縱觀量化研究不斷進化的歷程,從摩爾根(Lewis Henry Morgan)時代的社區(qū)級研究,到計量經(jīng)濟史家的市場級研究,再到劍橋人口與社會結(jié)構(gòu)團隊之后開始的個人層級量化研究,研究的基礎越來越扎實,研究的發(fā)現(xiàn)也越來越豐富,這也是數(shù)字史學所追求的方向之一。 微觀信息是個體或最基本研究對象的信息,由此連接形成的群體信息集合不僅具有堅實的個體或單元基礎,還能便于學者開展多樣化的計算研究。 相對于過往量化研究習慣使用的統(tǒng)計數(shù)據(jù),微觀數(shù)據(jù)更貼近具體研究對象,其數(shù)據(jù)集合更能反映群體的準確狀況,且研究者可以對微觀數(shù)據(jù)變量進行多重計算與分析,以理解變量(因素)間關系和變化趨勢等。 因此,對歷史學家而言,微觀數(shù)據(jù)庫更像是一個分析工具或研究平臺,而不只是簡單的史料證據(jù)①梁晨、李中清:《從微觀數(shù)據(jù)到宏觀歷史:作為橋梁的數(shù)字史學》,《中國社會科學評價》2021 年第2 期。。
CapitalandIdeology,Cambridge & MA: Harvard University Press, 2020.感謝兩位教授提供以上觀點和材料。人的長期積累。 沒有新技術方法的介入,再勤奮的學者,依靠傳統(tǒng)方法,在稍具規(guī)模的史料面前也會陷入“無力”的局面,更毋庸說真正的大規(guī)模數(shù)據(jù)和復雜史料。 技術介入后重組的史料,形態(tài)也從自然文本轉(zhuǎn)變?yōu)楦黝愲娮訑?shù)據(jù)庫,且多數(shù)具有結(jié)構(gòu)化或可量化的屬性,這為各種量化分析工具的使用提供了可能,也是技術方法介入能夠平衡“分析與描述”這一沖突的原因所在。 以清華留美生職業(yè)信息數(shù)據(jù)收集和研究為例,其最終呈現(xiàn)出的是一張二維數(shù)據(jù)表格,表格略去了職業(yè)信息背后的信息源。 事實上,每個職業(yè)信息的背后,都會有一條或數(shù)條支撐該信息的原始材料。 這樣的二維表格中的每一個信息都可以借助統(tǒng)計軟件進行量化分析,甚至一些并不是節(jié)點,而是范圍的變量,機器或軟件也能識讀和分析。
最后,技術方法的介入與歷史學研究需要發(fā)揮想象力之間也并不矛盾。 柯林武德(R. G.Collingwood)在強調(diào)歷史研究須克服材料不足,在歷史框架下發(fā)揮想象力時說:當我們眺望大海時,看到一艘船。 五分鐘之后,當我們再次眺望時,船已經(jīng)移動到不同的位置。 因此,我們必須想象,當我們沒有眺望的時候,船在一點一點占據(jù)著兩處的中間地帶②柯林武德:《歷史的觀念》,北京:商務印書館,1997 年,第336 頁。。 這一比喻被很多歷史學家用作歷史學需要想象力的依據(jù)。 但個人以為,歷史研究之所以離不開想象,主要乃為彌補史料所不足。 同時,想象又必須以研究者對歷史框架有較準確的把握,或?qū)ρ芯繉ο笏帤v史鏈條的走向與趨勢有較準確的判斷為前提。 因此,對歷史學家來說,首要的工作并不是想象,而是要盡可能地從史料中發(fā)掘出更多歷史節(jié)點信息,去壓縮每一個5 分鐘的空白間隔,讓后續(xù)的學術想象建立在3 分鐘、2 分鐘甚至更短的間隔上。 或者說,歷史學家首先應該通過描繪出更多的節(jié)點,讓歷史的鏈條更為細致和準確,為理解歷史、研究歷史提供保證。 技術恰恰賦予了歷史學家從比較史料回歸到更具起點性的連接史料的能力,能幫助歷史學家挖掘出更多節(jié)點信息并連綴成線,進而形成更扎實的學術研究和更具說服力的學術想象。
時代與環(huán)境的巨變,不僅推動了社會的更新演進,亦會產(chǎn)生新的史學。 進入21 世紀以后,數(shù)字史學的興起,或能在平衡歷史學理論話語的跨學科和技術方法的跨學科兩種努力的同時,推動時代新史學的形成。 理論話語的跨學科與技術方法的跨學科,對歷史學家形成的挑戰(zhàn)各不相同。 學術的理論話語,通常是根據(jù)特定研究對象概括總結(jié)而成,若移用于他者,則存在能否適用的問題。 同時,理論話語的底色往往深受所處社會的價值觀影響,甚至具有意識形態(tài)性,存在如“東西”一類的差別,如不仔細消化吸收,很容易形成誤導性研究①李劍鳴在分析歐美史學話語體系引入對中國學界的影響時,也曾指出其中多有不適應之處,需要消化吸收。 李劍鳴:《歐美史學的引入與中國史家的話語權(quán)焦慮——一個當代學術史的考察》,《清華大學學報(哲學社會科學版)》2022 年第1 期。。 技術方法則不存在價值觀或“東西”差別,這對人文學科是不容小覷的優(yōu)勢。 但要使技術介入能真正推動史學研究,還需要警惕兩方面的問題:一是不能只重視技術,忽視技術與材料的結(jié)合。 技術方法的介入是為了更智慧地分析史料。 二是不能因為有了數(shù)字技術,學者就放棄自身的學術思考②先后主持建設“中國歷代人物傳記資料庫”(CBDB)和“中國歷史地理信息系統(tǒng)”(CHGIS)的哈佛大學教授包弼德(Peter K. Bol)強調(diào)“數(shù)字人文領域,學者們的學術思考依然是必不可少的”。 包弼德:《數(shù)字人文要配合學術思考》,《數(shù)字人文》2020 年第4 期。。 數(shù)字技術的引入,目的仍在于更好地幫助學者開展學術思考,而不是取而代之。
作為現(xiàn)代學科的歷史學,離不開現(xiàn)代性的研究手段和嚴謹?shù)目茖W精神,史料與方法,對歷史學來說具有同等重要性。 傅斯年認為,現(xiàn)代史學事業(yè)的進步“在于由人文的手段,變做如生物學、地質(zhì)學等一般的事業(yè)”③傅斯年:《史學方法導論》,第3 頁。。 由此,史學工作的核心有兩個:一曰到處找新材料,二曰用新方法(科學付給之工具)來整理材料,以努力達成“聰明的考證”④傅斯年:《歷史語言研究所工作之旨趣》,《國立中央研究院歷史語言研究所集刊》第1 本第1 分,廣州:商務印書館,1928年,第7 頁。。 吳承明則提醒歷史學家:“要得出正確的結(jié)論,研究方法也必須科學化。”⑤李伯重:《大數(shù)據(jù)與歷史學科學化》,《北京日報》2017 年7 月10 日,第15 版。因此,歷史學家不僅要盡可能地占有史料,還要想方設法使用嚴謹又聰明的方法去挖掘史料中蘊藏的信息或史實。 作為人文學科的歷史學,警惕科學主義的泛濫是合理的,但同樣,歷史研究不能沒有科學精神和科學方法,更不必將科學精神泛政治化或與人文精神對立。
美國歷史學家威廉·麥克尼爾(William H. McNeil)在重新看自己的代表作《西方的興起:人類共同體史》時曾說:“歷史學家是從他們自己時代的移動舞臺上研究課題的,其結(jié)果是使過去不斷改變著輪廓?!雹尥溈四釥?《二十五年后再評〈西方的興起〉》,《西方的興起:人類共同體史》,北京:中信出版社,2018 年,第ⅹⅶ頁。時代的舞臺雖然限制著歷史學家,但歷史學家更必須進入自己的時代舞臺,才能做出展現(xiàn)“時代輪廓”的成果。 在當下數(shù)字化生存的時代,歷史學者不必為數(shù)字技術的介入感到焦慮,而應積極參與并加以引導。 實際上,今天的歷史學家不用“自稱數(shù)字人文學者或數(shù)字歷史學家”,但“幾乎所有的歷史學家都已經(jīng)經(jīng)歷了數(shù)字化的洗禮”⑦肖恩·格雷厄姆、伊恩·米利根、斯科特·魏因加特:《探索歷史大數(shù)據(jù):歷史學家的宏觀視角》,第42 頁。。 隨著數(shù)字技術不斷升級發(fā)展,相信歷史學家們都會逐漸擁有適合自己研究的“工具箱”。