鈕 亮
數(shù)字人文研究近年獲得極大的關(guān)注,研究者引介數(shù)字技術(shù)到人文領(lǐng)域,試圖開辟出人文領(lǐng)域研究的新天地。就目前應(yīng)用情況來看,比較突出地是將文本挖掘、社會網(wǎng)絡(luò)、空間統(tǒng)計、數(shù)據(jù)庫等技術(shù)應(yīng)用于人文研究,以期為人文學(xué)科提供新的研究方法[1-4]。具體到史學(xué)方面,有學(xué)者認為可以通過數(shù)字技術(shù)獲得依靠傳統(tǒng)文獻分析方法難以發(fā)現(xiàn)的“新史實”[5],也有學(xué)者認為數(shù)字技術(shù)可以解決史學(xué)家面對大規(guī)模群體型、連續(xù)性材料繁瑣的考證泥潭[6]。盡管數(shù)字人文已經(jīng)有了一定的發(fā)展,在技術(shù)體系方面包括數(shù)據(jù)管理技術(shù)、數(shù)據(jù)分析技術(shù)、可視化技術(shù)、虛擬現(xiàn)實/增強現(xiàn)實技術(shù)、機器學(xué)習(xí)技術(shù)等,但數(shù)字人文研究方法論方面的文獻還不多見[7]。在大數(shù)據(jù)興盛的今天,人文研究必然會受到影響而發(fā)生變化,產(chǎn)生“信息轉(zhuǎn)向”效應(yīng)。盡管很多時候傳統(tǒng)人文學(xué)科在面對新的科學(xué)方法時表現(xiàn)得不太情愿,但用布羅代爾的話說:“無論情愿與否,在人文科學(xué)之中,沒有一門學(xué)科能夠不直接或間接地受到其他更活躍的學(xué)科的進步的影響。”[8]布羅代爾的說法在19世紀的社會科學(xué)和自然科學(xué)的互動過程中得到過證實。受自然科學(xué)解釋世界成功的影響,社會科學(xué)紛紛沿用自然科學(xué)的思考方法,最明顯的是牛頓力學(xué)對19世紀社會科學(xué)范式的影響。那時的社會科學(xué)競相沿用牛頓力學(xué)的類比和同源思考方法。例如,美國經(jīng)濟學(xué)家凱里提出“人必然會傾向于受其同胞吸引”的社會引力原則;瓦爾拉提出“商品的價格與供應(yīng)量成反比,與需求成正比”的牛頓式經(jīng)濟學(xué)定律;涂爾干認為“社會大眾(質(zhì)量)和密度的增長決定了勞動分工的進步和文明的發(fā)展”的社會學(xué)原則[9]。之所以社會科學(xué)沿用自然科學(xué)的方法,目的是獲得概念上的確定性和觀察上的可驗證性,達到對世界的客觀理解。
科學(xué)研究的演化過程經(jīng)歷了經(jīng)驗科學(xué)、理論科學(xué)、計算科學(xué)、數(shù)據(jù)密集型科學(xué)四個階段。數(shù)據(jù)密集型科學(xué)是圍繞大數(shù)據(jù)產(chǎn)生的從關(guān)系出發(fā)的科學(xué)研究方法,被稱為第四范式。它由傳統(tǒng)的假設(shè)驅(qū)動向基于數(shù)據(jù)進行探索的科學(xué)方法轉(zhuǎn)變。它的特征是“樣本=總體”“關(guān)系替換因果”“5V特點”“整體論代替還原論”“可驗證性”[10]。如果人文研究能夠沿用大數(shù)據(jù)的方法,那么大數(shù)據(jù)訴諸的可計算特性也會作用于它。可計算性手段使得人文研究能夠滿足確定性和驗證性要求,實現(xiàn)對世界的客觀性理解,從而獲得理論的科學(xué)地位。波普爾說:“衡量一種理論的科學(xué)地位的標準是它的可證偽性或可反駁性或可檢驗性?!盵11]
人文學(xué)科中的史學(xué)在應(yīng)用大數(shù)據(jù)分析的時候可能更復(fù)雜一些??铝治涞抡f:“歷史學(xué)是為了人類的自我認識”,“歷史學(xué)的價值就在于它告訴我們?nèi)艘呀?jīng)做過什么,因此就告訴我們?nèi)耸鞘裁础盵12]。人的復(fù)雜在于他不僅行動,更重要的是帶著價值行動。赫拉利說:“從認知革命以來,智人一直生活在雙重的現(xiàn)實之中,一方面我們有像是河流、樹木和獅子這種確實存在的客觀事實;而另一方面我們也有像是神、國家和企業(yè)這種想象中的現(xiàn)實?!盵13]這種想象中的事實是賦予人價值和意義的東西。在歷史事件中,歷史主體行動的理由往往和歷史主體行動的價值取向有關(guān)。按余英時的說法,歷史是由作為符號材料的“基本事實”和作為價值取向的“歷史事實”構(gòu)成的。只有考慮歷史主體的行動價值來說明歷史的變化,才是歷史所關(guān)心的。當然兩者不是彼此偏廢的關(guān)系,而是互相依賴的關(guān)系[14]。按照波普爾說的科學(xué)理論要求重復(fù)性檢驗的標準,史學(xué)中的“基本事實”的客觀性毋庸置疑是滿足要求的,然而“歷史事實”中歷史主體的價值如何也能夠滿足重復(fù)性檢驗標準,這是回應(yīng)波普爾質(zhì)問的關(guān)鍵所在。因此,本文后續(xù)的開展以重復(fù)性檢驗為標準,梳理傳統(tǒng)史學(xué)在實踐客觀性理解方面的研究思路,并探討數(shù)字人文史學(xué)何以可能實現(xiàn)對史學(xué)的重復(fù)性檢驗。由于遵循著這個共同的標準,數(shù)字人文下的史學(xué)與傳統(tǒng)史學(xué)是繼承和發(fā)展的關(guān)系。
歷史正如柯林武德說的是人類在過去的所作所為,是“活動事跡”(Res gestae)。在歷史構(gòu)成中,存在著歷史主體遺留下來的符號材料和歷史主體行動的價值取向。歷史研究依賴于對符號材料和歷史主體價值的揭示。符號材料的揭示在保證客觀性上大致是沒有問題的。例如,名物制度、訓(xùn)詁???、地理沿革、人物生卒等材料一旦獲得了解,便不會隨著時代而變動。歷史理解重要且困難的地方在于歷史主體的行動價值如何也能得到客觀的理解。如果自然科學(xué)的客觀性是可控實驗的重復(fù)驗證,那么歷史理解的客觀性在保證材料客觀的情況下,就是讓歷史主體的價值實現(xiàn)類似可控實驗?zāi)菢拥闹貜?fù)驗證,其中的一個途徑是歷史主體的價值能夠在認識者心靈里得到重演??铝治涞碌臍v史哲學(xué)提到了這種心靈重演的可能。他說:“歷史知識是關(guān)于心靈在過去曾經(jīng)做過什么事的知識,同時它也是在重做這件事;過去的永存性就活動在現(xiàn)在之中。因此它的對象就不是一種單純的對象,不是在認識它的那個心靈之外的某種東西,它是思想的一種活動,這種活動只有在認識者的心靈重演它并且在這樣做之中認識它的時候,才能被人認識。對于歷史學(xué)家來說,他所正在研究其歷史的那些活動并不是要加以觀看的景象,而是要通過他自己的心靈去生活的那些經(jīng)驗;它們是客觀的,或者說是為他所認識的,僅僅因為它們也是主觀的,或者說也是他自己的活動?!盵15]柯林武德這段話中表達的心靈有兩個維度,一個是歷史主體,一個是認識者。他要想達到歷史知識“在認識者的心靈重演它并且在這樣做之中認識它”,則須設(shè)定歷史主體和認識者價值同一,且歷史主體和認識者處于同一種心里學(xué)條件之中,共享一個意義整體。通過歷史主體在認識者心靈中的重演,歷史得到了客觀性理解。
以柯林武德為代表的歷史主體和認識者價值同一為參照,認識者和歷史主體在處理價值關(guān)系上出現(xiàn)三種面向:(1)懸置認識者和歷史主體的價值關(guān)系,僅從史料角度出發(fā)論證發(fā)生事件前因后果關(guān)系的歷史,簡稱懸置價值的歷史。(2)認識者和歷史主體價值同一的歷史,簡稱價值同一性的歷史。(3)歷史主體價值蘊含在文本之中,而與認識者無直接關(guān)系的文本即歷史,簡稱文本即歷史。這是在大數(shù)據(jù)背景下提出的新歷史觀。
如果不考慮歷史主體的行動價值,也不將認識者所處時代的價值附加到歷史主體上,只處理材料問題,那么這種歷史知識的處理就是懸置對價值的處理。懸置價值處理的典型是以蘭克為代表的史料派。史料派強調(diào)第一手資料的收集,歷史研究的可信與否受原始材料和同時代或接近此時代的史料決定,而不涉及對歷史主體的價值判斷。年鑒學(xué)派擴展了蘭克學(xué)派的研究范圍,將人類社會這個復(fù)雜系統(tǒng)當作一個整體來考察,提出“整體的歷史”觀念,并將歷史這門學(xué)科向自然科學(xué)的方向改造。主張通過模式的歸納對社會歷史運動中的深層結(jié)構(gòu)、特別是“長時段”結(jié)構(gòu)加以揭示和分析。為了實現(xiàn)這些目標引入社會學(xué)、地理學(xué)、心理學(xué)、經(jīng)濟學(xué)等諸多學(xué)科作為輔助,大量運用數(shù)學(xué)工具和計量手段。年鑒學(xué)派形成的標志是1929年呂西安·費弗爾和馬克·布洛赫創(chuàng)辦的《經(jīng)濟與社會年鑒》。費爾南·布羅代爾在《菲利普二世時代的地中海和地中海世界》中總結(jié)了年鑒學(xué)派的歷史觀點和方法,規(guī)定了歷史研究的方向。之后又發(fā)展出對傳統(tǒng)史學(xué)中常見的定性論斷中隱含著的模糊的數(shù)量判斷明晰化的計量史學(xué),力求揭示歷史變遷的深層結(jié)構(gòu)[16]。計量史學(xué)是系統(tǒng)地運用現(xiàn)代數(shù)學(xué)和統(tǒng)計學(xué)來研究歷史現(xiàn)象和歷史過程的方法,它對人的心理和思想研究不作討論,認為精神的東西很難用數(shù)量關(guān)系來精確地加以概括。由于依靠自然實驗的設(shè)定,能夠做到不同的認識者對歷史都能夠得出相同的結(jié)論,實現(xiàn)了類似科學(xué)的受控實驗,滿足了對歷史的客觀性理解要求。因為歷史主體的價值被懸置,認識者的計算結(jié)果就是歷史主體的行動結(jié)果。麥金德的地緣政治學(xué)也是這種研究的體現(xiàn),他說:“在計算時,地理的數(shù)量比起人文的數(shù)量來可以更好地測定,更接近于穩(wěn)定不變。因此,我們應(yīng)當期望能找到既可用于過去歷史、也可用于當前政策的公式。各個時代的社會運動,基本上都是圍繞著相同的自然特征進行。”[17]在懸置價值的歷史研究中,歷史主體和歷史認識者不存在價值理解關(guān)系,這種研究的圖示見圖1。
圖1 懸置價值的歷史關(guān)系圖
價值同一性的歷史是在考慮史料真實性的情況下,歷史主體的價值也得到客觀性理解。歷史主體能夠被客觀理解的條件是他在認識者心靈里實現(xiàn)了重演。在認識者心靈重演一般有兩種類型,一種是以柯林武德為代表的唯心論史觀,一種是以馬克思為代表的唯物論史觀。柯林武德認為歷史學(xué)家所做的工作是“在他自己的心靈里重演他所敘述的那些行動者的所做所為的思想和動機”[18]。因為歷史主體在認識者心靈實現(xiàn)重演,就滿足了被客觀理解的條件。這種情況之所以可能是預(yù)設(shè)了歷史主體是一個活生生的心里意向性對象,與認識者共享相同的心里結(jié)構(gòu)。歷史主體的意向性向外部世界投射和構(gòu)建的過程與認識者相同,反之亦然。在相同的心里結(jié)構(gòu)下認識者和歷史主體的價值沒有差別,例如作為人性重要構(gòu)成的權(quán)力的意識和逐利的意識今人和古人沒有什么變化。這種基于心里意向性而形成的認識者和歷史主體的價值同一是以主體間性哲學(xué)為前提的,它經(jīng)由胡塞爾提出的自我和他人的立場的相互交換性,再到海德格爾的自我和他人共享“此在”這個世界結(jié)構(gòu)來得到說明。當歷史主體和認識者以世界為條件時,他們就能夠彼此理解了。世界的存在超越時間,它的本質(zhì)其實是語言,語言是連接歷史主體和認識者理解的紐帶。
作為唯物論的馬克思的歷史觀是將歷史主體和認識者劃歸到階級之中。階級是意識形態(tài)的發(fā)明,階級的作用是把個別的意識統(tǒng)一成集體意識。它表現(xiàn)在個體不僅通過相同的社會結(jié)構(gòu)投射了相似的心里動機,而且在精神層面借助于原則、觀念、范疇確立了行動的正確或謬誤的標準[19]。如果歷史主體和認識者屬于同一個階級,那么歷史主體和認知者的個別意識就被統(tǒng)一成集體意識,歷史主體的思想動機和認識者是一樣的,那他就能夠在認識者這里得到重演了。金觀濤等認為,中國社會的長期穩(wěn)定發(fā)展是因為分布在上層、中層和下層的社會組織者共享同一套意識形態(tài),在古代為士大夫,現(xiàn)在是政黨黨員,他們以社會整合為己任,成為政治文化的載體[20],中國歷史發(fā)展的超穩(wěn)定結(jié)構(gòu)就是這種載體作用的結(jié)果。
由于設(shè)定了歷史主體的價值與認識者的價值是同一的,歷史主體的行動就在認識者心靈得到了重演的可能,因此歷史主體和認識者的關(guān)系是強關(guān)系。這種研究的圖示見圖2。
圖2 價值同一性的歷史關(guān)系圖
上述兩種歷史觀無論是采用價值懸置還是價值同一性,它們滿足歷史主體在認識者這里重演的條件是假設(shè)性的。從經(jīng)驗的立場來看認識者畢竟是主觀的,受其所生活時代的影響,他與歷史主體之間歷史距離的不可跨越導(dǎo)致他產(chǎn)生的認識無論如何都難以是客觀的。為了克服歷史距離問題,還原歷史主體的價值選擇,我們采用文本即歷史的觀念。歷史主體的價值通過其產(chǎn)生的文本自行展示,無需借助于認識者的移情代入。這個立場類似于老子的“以身觀身,以家觀家,以鄉(xiāng)觀鄉(xiāng),以邦觀邦,以天下觀天下”[21]的立場,我們是“以文本觀文本”。采用“以文本觀文本”的史觀要求歷史主體產(chǎn)生的文本滿足總體性和情景關(guān)系特征,而大數(shù)據(jù)的方法論也恰好以總體性和情景關(guān)系為出發(fā)點,因此文本即歷史所依托的基礎(chǔ)是大數(shù)據(jù)方法。由于大數(shù)據(jù)的可計算特性就保證了文本即歷史的重復(fù)檢驗要求。
解釋“文本即歷史”的客觀性理解同樣會遇到處理歷史主體的價值問題。如果保留歷史主體,那么對歷史主體的認知就需要通過認識者的移情來達到,但這種移情會受認識者所處時代的影響無法做到客觀真實。如果歷史主體的行動世界與文本世界是同構(gòu)關(guān)系,則可以通過處理文本來達到對歷史的客觀性理解,這樣做的好處是它避開了歷史主體和認識者關(guān)系的論證假設(shè),進入到文本處理的可計算的經(jīng)驗領(lǐng)域。但是單純處理文本和史料派的區(qū)別在哪里?區(qū)別在于它處理的是總體文本,而史料派處理的是認識者選定的有限文本。在有限文本上運用統(tǒng)計方法往往“需要對變量之間的關(guān)系和分布引入許多較強的假設(shè)。盡管很多假設(shè)并非直接針對數(shù)據(jù)的局限性,但是有限的數(shù)據(jù)往往限制了研究者對假設(shè)合理性的檢驗,從而增加了研究結(jié)論受研究者選擇方法的主觀性影響的風(fēng)險”[22]。總體文本是歷史主體活動留下的全部語言,這個總體文本和歷史主體行動世界是同構(gòu)的,它和大數(shù)據(jù)的方法論也匹配。這樣就可以用文本來代替歷史主體的活動,而無需處理歷史主體的價值意義問題。這個想法得到語言哲學(xué)的支持。維特根斯坦認為:“意義理解的衡量標準并不是某個人類意向,而只是有待理解的語言的邏輯形式?!薄坝捎谡Z言分析代替了認識論,從而主體及其意向、靈魂等等之類的問題在某種程度上變得多余了”[23]?!拔业恼Z言的界限意味著我的世界的界限”[24]。這樣總體文本就代替了歷史主體的行動世界,為歷史的客觀分析提供了基礎(chǔ)。
當歷史蘊含在文本中時,對文本的分析最終落在了對構(gòu)成文本的詞項分析上。一個歷史階段的觀念總是不斷重復(fù)地被表達在特定的關(guān)鍵詞中,因此分析歷史觀念可以通過選定的關(guān)鍵詞來執(zhí)行。與文本分析中產(chǎn)生的一般技術(shù)詞是不同的,這些關(guān)鍵詞應(yīng)該具備歷史的效應(yīng),它們承擔起了歷史基本概念的作用,成為政治和社會詞匯的不可替代的、無可回避的一部分。這些關(guān)鍵詞融合了行動者各式各樣的經(jīng)驗和期望,在既定時代最緊迫事件的形成中變得必不可少。只有獲得這樣的地位之后,這些基本概念才會結(jié)晶為單獨的歷史詞匯,如“民主”“革命”“國家”“自由”等歷史詞匯。這些詞不僅僅是單純的言說,而重要的還有行事的能力[25]。
歷史詞匯的獲得在技術(shù)上可以通過文本挖掘的主題模型來實現(xiàn),然后再借助TF-IDF和齊普夫定律等相關(guān)的評測標準來選定[26]。獲得歷史概念的詞匯一直充滿爭議,因為充滿爭議的人群一直在用它,將時間序列和其他詞項加諸其上可以揭示這些詞的起源、定型和變遷過程。由于關(guān)鍵詞的計算是通過總體文本(一般是數(shù)據(jù)庫中的大量文本)得到的,可以避免認識者選詞的主觀局限問題。
由于關(guān)鍵詞是構(gòu)成歷史敘事的基本概念,了解它意義的變遷非常關(guān)鍵。關(guān)鍵詞的意義變遷是在時間軸下與其他詞的交互影響下得到體現(xiàn)的。當我們能夠捕捉到一個詞與其他詞之間的互動關(guān)系時,那這個詞的意義也就得到說明了。一個詞的意義不是通過解釋這個詞的定義來決定的,我們理解這個詞是通過關(guān)系勾連出的家族相似來得到的。如果某個關(guān)鍵詞與其他關(guān)鍵詞經(jīng)常共現(xiàn)在歷史文本的某個段落或語句中,則這個關(guān)鍵詞的意義就可以通過與它共現(xiàn)的其他詞項得到說明。David Hall等通過分析詞匯及其變化來揭示1978-2006年間計算語言學(xué)的歷史趨勢,揭示這個領(lǐng)域的觀念變遷,實證了庫恩提出的范式轉(zhuǎn)變,其中詞匯變遷是觀念變遷的重要指示器[27]。
在歷史文本的詞項構(gòu)成中除了表達觀念的詞匯外,還有一類詞是“人物名稱”詞。這些人物對觀念也有著說明的作用,如果某些關(guān)鍵詞與他們共現(xiàn)在一起,則說明這些詞項和人物所代表的觀念相關(guān),詞項的意義也得到了說明。例如,Taylor Arnold,Lauren Tilton使用LDA分析16-20世紀哲學(xué)家維基百科語料中的關(guān)鍵詞分布情況,并進一步通過將關(guān)鍵詞和哲學(xué)家作多維標度分析來確定關(guān)鍵詞的意義分布,發(fā)現(xiàn)克爾凱郭爾處于存在主義與普通哲學(xué)這個主題之間,而哥德爾卻位于邏輯這個主題附近[28]。
在歷史事件的推進中,文本中“人物名稱”詞構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)展現(xiàn)出一幅清晰的可“看”圖像,觀念的變遷借助于網(wǎng)絡(luò)被直觀地呈現(xiàn)。莫萊蒂說:“我從網(wǎng)絡(luò)理論得到的是它的基本形式的形象化。戲劇情節(jié)的時空流能被轉(zhuǎn)化成一系列二維的符號:端點和邊,這樣,有關(guān)情節(jié)的觀念可以在一瞥之后迅速被捕獲。”[29]有了社會網(wǎng)絡(luò)的直觀呈現(xiàn),進一步可以追問是何種觀念、何種人物特質(zhì)、何種社會背景、氣候、地理條件促成了人物網(wǎng)絡(luò)關(guān)系的形成?這些因素對理解歷史是很重要的。正如毛漢光所說:“研究社會史最重要的是探討人與人之間的關(guān)系……幾經(jīng)考慮,覺得欲研究官僚政治,先得明了社會背景以及社會中人物的特質(zhì),否則便僅能知官僚的空架而無法深究其內(nèi)涵?!盵30]可見人物特質(zhì)對理解官僚政治的重要性。但毛漢光所說的社會背景以及社會中人物的特質(zhì)是如何影響官僚政治的,他沒有給出客觀測度。指數(shù)隨機圖模型可以解決這個問題?!爸笖?shù)隨機圖模型是以關(guān)系為基礎(chǔ)的模型,是為了理解社會網(wǎng)絡(luò)關(guān)系是如何出現(xiàn)以及為什么會出現(xiàn)的”,“一旦研究人員把社會理論轉(zhuǎn)換成以關(guān)系、定量形式表達的假設(shè),指數(shù)隨機圖模型就提供了一個可以用來進行統(tǒng)計檢驗假設(shè)的分析框架”[31]。有學(xué)者以《水滸傳》中108人的身份特質(zhì)(官、商、民)作為個人屬性,任一兩人之間的座次排名的差異作為二人屬性,以及三角形、邊、k角星這三個常用的作為圖形屬性,通過指數(shù)隨機圖來預(yù)測水滸人物的網(wǎng)絡(luò)形成關(guān)系,計算發(fā)現(xiàn)兩個人如果在投奔梁山前同樣是官,他們在梁山建立關(guān)系的概率是隨機情況下的301%[32]。這個結(jié)果為理解梁山何以能夠聚會提供了測度,進而也可以推測何以梁山最終選擇了詔安,因為他們的出身是官的原因,容易形成一致意見。同時,如果篩選出的影響網(wǎng)絡(luò)形成的參數(shù)中存在地域要素,可以通過空間統(tǒng)計的手段來尋找地域下的人物集聚情況。包弼德通過空間統(tǒng)計手段比較南宋、北宋進士的地理集聚情況,發(fā)現(xiàn)宋時期知識分子大體分布在兩浙東西、福建、江南東西和西川這幾個圈子[33],這為了解宋代思想觀念的活躍和衰落提供了空間測度。
“文本即歷史”的研究確立了對歷史理解的客觀可能,因為它的實施過程大部分是通過計算機手段來完成的。認識者需具備程序員的能力,同時還需要將信息技術(shù)產(chǎn)生出來的數(shù)據(jù)作深入細致的解析梳理來編排成一種歷史敘事,以供他人閱讀理解。他與歷史主體并不建立直接關(guān)系。這種研究的圖示見圖3。
圖3 文本即歷史關(guān)系圖
本研究圍繞史學(xué)的客觀性理解問題展開論述,分別討論了懸置價值的歷史、價值同一性的歷史和文本即歷史三個方面。它們達到客觀性理解的標準是實現(xiàn)重復(fù)性驗證。價值懸置的歷史借助于統(tǒng)計手段實現(xiàn)重復(fù)性驗證,價值同一性借助于在認識者中心靈重演實現(xiàn)重復(fù)性驗證,而文本即歷史借助于對代表歷史觀念的關(guān)鍵詞和人物的計算實現(xiàn)重復(fù)性驗證。對前兩個方面史學(xué)研究已經(jīng)有相關(guān)的成果給予說明,而文本即歷史的提法是探索性的,因此還有一些問題需要說明。
(1)量化數(shù)據(jù)庫。文本即歷史的方法論是“以文本觀文本”,它要求文本具備總體性和情景關(guān)系特點,因此作為史料文本數(shù)據(jù)庫的完備性和數(shù)據(jù)清理的科學(xué)性決定了研究的可信程度。比如,在追溯某些現(xiàn)代觀念的起源和變化軌跡的歷史研究中,除選定《新青年》《少年中國》《新潮》《每周評論》《建設(shè)》《努力周報》《向?qū)А贰督夥排c改造》《醒獅周報》《甲寅》《現(xiàn)代評論》《星期評論》等12個新文化運動的期刊[34],還需要考慮包括《晨報》《大公報》《申報》《私國報》《時報》《神州日報》《湘江評論》《天津?qū)W生聯(lián)合會報》等報紙,這樣就不會造成所選關(guān)鍵詞存在樣本偏誤的問題。同時,與這些進步思潮激戰(zhàn)的舊派勢力報刊,如《國故》《新申報》《東方雜志》《公言報》也要顧及。因為主流觀念在推進過程中與非主流的種種層次常同時疊壓在一起,形成競爭狀態(tài),里面有很復(fù)雜、很精微的相互依存關(guān)系。歷史研究要將這些層次關(guān)系展示出來,利于“史實的建立”“價值的參照”[35]。基于這種考慮的史料數(shù)據(jù)庫才完整。
史料文本要經(jīng)歷一個掃描識別、轉(zhuǎn)化入庫的工作,因此制作中因字形差異,校核不精,錯行錯頁、脫行脫頁的情況會導(dǎo)致出現(xiàn)無用輸入、無用輸出現(xiàn)象(Garbage in,garbage out,GIGO)。為了克服這種現(xiàn)象,在史料入庫過程中一方面要嚴格把關(guān),一方面系統(tǒng)在保留文句的過程中要能夠?qū)崿F(xiàn)自動交叉驗證,同時啟動開放的糾錯接口,允許研究者在研究過程中發(fā)現(xiàn)錯誤,提出改錯意見,系統(tǒng)完成改正。
(2)整體論視角。文本即歷史的研究依托海量數(shù)據(jù)進行分析,它采用的是一種整體論的視角,該視角避免了認識者僅僅選取代表性文本進行分析時產(chǎn)生的局限。它與大數(shù)據(jù)“樣本=總體”的方法一致。因為“樣本=總體”的思維方式的變化,之前樣本的獨立性檢驗讓位于依賴性檢驗,因果論證讓位于關(guān)系分析。樣本獨立性設(shè)定是將個體從其所在的社會情景中剝離開來,而關(guān)系論證和依賴性的設(shè)定卻是情景主義的,這符合以文本觀文本的立場。
關(guān)系分析是大數(shù)據(jù)時代的重要方法論,直接導(dǎo)致數(shù)據(jù)密集型科學(xué)范式的產(chǎn)生,甚至因果分析也只是關(guān)系分析的一個特例。“關(guān)系分析本身意義重大,同時它也為研究因果關(guān)系奠定了基礎(chǔ)。通過找出可能相關(guān)的事物,我們可以在此基礎(chǔ)上進行進一步的因果關(guān)系分析,如果存在因果關(guān)系的話,我們再進一步找出原因。這種便捷的機制通過嚴格的實驗降低了因果分析的成本。我們也可以從相互聯(lián)系中找到一些重要的變量,這些變量可以用到驗證因果關(guān)系的實驗中去”[36]。這種以關(guān)系為主,關(guān)系帶動發(fā)現(xiàn)因果機制的大數(shù)據(jù)思維對史學(xué)工作者發(fā)現(xiàn)隱藏的“歷史事實”,確立歷史基本概念有很大幫助[37]。
(3)數(shù)據(jù)驅(qū)動而非模型驅(qū)動。傳統(tǒng)社會科學(xué)研究中對于社會規(guī)律的發(fā)現(xiàn)基本源自于理性駕馭經(jīng)驗的能力。這種能力扎根于康德的認識論立場。通過理性為經(jīng)驗立法,歷史變遷的發(fā)生學(xué)便通過理想類型構(gòu)造起來。其中典型案例就是韋伯用理想類型模型處理新教倫理同資本主義的關(guān)系。受這種立場的啟發(fā),很多社會科學(xué)工作者試圖發(fā)明一種理想類型來解釋歷史長程變化。例如,蘇秉琦發(fā)明“滿天星斗”模型來解釋中原地區(qū)只是獨立發(fā)生發(fā)展但又互相影響的六大區(qū)系之一,從而對歷史考古學(xué)界根深蒂固的古中原中心、漢族中心、王朝中心的傳統(tǒng)觀念提出挑戰(zhàn)[38];趙汀陽提出“旋渦模式”解釋商周至清朝這個長時期的歷史性,認為產(chǎn)生漩渦的向心吸引力形成是由于中原創(chuàng)造了一個完全開放的、可以普遍共享的、人人可以分享的精神世界[39]。然而無論如何,這種理想類型的思想實驗無法脫離認識者的主觀設(shè)定,它們的論證過程是基于后果推斷的。這種圍繞模型的方法勢必會導(dǎo)致歷史材料的選擇會依照模型的需要而收集,失去客觀性標準。文本即歷史是數(shù)據(jù)驅(qū)動的史學(xué)立場,它從經(jīng)驗角度出發(fā)“以文本觀文本”。即便之后形成某種歷史規(guī)律的判斷,提出一種理論,那也是在數(shù)據(jù)作為論證的客觀性上推斷出的。例如,譚凱在寫作《中古中國門閥大族的消亡》時建立的“唐五代人物傳記與社會網(wǎng)絡(luò)數(shù)據(jù)庫”,從傳記、宗譜以及超過3000多個墓葬碑文中獲得3.2萬多個人記錄[40],為他推斷中古門閥大族的消亡提供了堅實的基礎(chǔ)。隨著歷史材料的不斷數(shù)據(jù)庫化,面對TB級數(shù)據(jù)的歷史,研究者不可能窮盡。莊子說:“吾生也有涯,而知也無涯。以有涯隨無涯,殆已。”這個困境在大數(shù)據(jù)計算手段下或可解決。大數(shù)據(jù)時代史學(xué)研究出現(xiàn)定量計算的趨勢,但并不意味著傳統(tǒng)史學(xué)研究的失效,而是它的存在讓史學(xué)研究的理論建構(gòu)具有了客觀的、可測度的依據(jù)。
[1]李文娟,傅學(xué)慶,李仁杰,等.基于空間統(tǒng)計方法的李杜詩詞文學(xué)空間模式的比較研究[J].河北師范大學(xué)學(xué)報(自然科學(xué)版),2016(1):80-87.
[2]夏翠娟.中國歷史地理數(shù)據(jù)在圖書館數(shù)字人文項目中的開放應(yīng)用研究[J].中國圖書館學(xué)報,2017(2):40-53.
[3]柯平,宮平.數(shù)字人文研究演化路徑與熱點領(lǐng)域分析[J].中國圖書館學(xué)報,2016(6):13-30.
[4]劉煒,謝蓉,張磊,等.面向人文研究的國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)[J].中國圖書館學(xué)報,2016(5):29-39.
[5]梁晨,李中清.大數(shù)據(jù)、新史實與理論演進——以學(xué)籍卡材料的史料價值與研究方法為中心的討論[J].清華大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2014(5):104-113.
[6]金觀濤,劉青峰.歷史的真實性:試論數(shù)據(jù)庫新方法在歷史研究的應(yīng)用[J].清史研究,2008(1):90-108.
[7]劉煒,葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國圖書館學(xué)報,2017(5):32-41.
[8]費爾南·布羅代爾.論歷史[M].劉北成,周立紅,譯.北京:北京大學(xué)出版社,2008:27.
[9]伯納德·科恩.自然科學(xué)與社會科學(xué)的互動[M].張卜天,譯.北京:商務(wù)印書館,2016:26-34.
[10]鄧仲華,李志芳.科學(xué)研究范式的演化——大數(shù)據(jù)時代的科學(xué)研究第四范式[J].情報資料工作,2013(4):19-23.
[11][29]陳曉輝.大數(shù)據(jù)時代的文學(xué)研究方法——基于弗蘭克·莫萊蒂文學(xué)定量分析法的考察[J].文藝理論研究,2016(2):70-77.
[12][15][18]柯林武德.歷史的觀念[M].何兆武,張文杰,譯.北京:商務(wù)印書館,2004:38,307,176.
[13]尤瓦爾·赫拉利.人類簡史:從動物到上帝[M].林俊宏,譯.北京:中信出版社,2014:33.
[14]余英時.十字路口的中國史學(xué)[M].李彤,譯.上海:上海古籍出版社,2004:77-78.
[16]高樹博.遠距離閱讀視野下的文類、空間和文學(xué)史——弗蘭克·莫萊蒂文論思想研究[M].北京:中國社會科學(xué)出版社,2016:7-15.
[17]哈·麥金德.歷史的地理樞紐[M].林爾蔚,陳江,譯.北京:商務(wù)印書館,2015:70.
[19]曼海姆.意識形態(tài)與烏托邦[M].黎鳴,李書崇,譯.北京:商務(wù)印書館,2000:56-71.
[20]金觀濤,劉青峰.中國現(xiàn)代思想的起源[M].北京:法律出版社,2011:16.
[21]老子[M].饒尚寬,譯注.北京:中華書局,2006:130.
[22]梁晨,董浩,李中清.量化數(shù)據(jù)庫與歷史研究[J].歷史研究,2015(2):113-128.
[23]卡爾-奧托·阿佩爾.哲學(xué)的改造[M].孫周興,陸興華,譯.上海:上海譯文出版社,2005:13.
[24]維特根斯坦.邏輯哲學(xué)論[M].賀邵甲,譯.北京:商務(wù)印書館,2005:85.
[25]Hartmut Lehmann,Melvin Richter(edited),the meaningofhistoricaltermsand concepts:new studieson begriffsgeschichte[M].German HistoricalInstitute,Washington,D.C.,1996:64-65.
[26][27]Hall D,Jurafsky D,Manning C D.Studying the history of ideas using topic models[C].Conference on Empirical Methods in Natural Language Processing,2008:363-371.
[28]Taylor Arnold,Lauren Tilton.Humanities Data in R:Exploring Notworks,Geospatial Data,Images,and Text[M].New York:Springerpress,2015:162-170.
[30]毛漢光.中國中古社會史論[M]上海:上海書店出版社,2002:4.
[31]迪安·魯謝爾,約翰·科斯基寧,加里·羅賓斯.社會網(wǎng)絡(luò)指數(shù)隨機圖模型:理論、方法與應(yīng)用[M].杜海峰,任義科,杜巍,等,譯.北京:社科文獻出版社,2016:9,12.
[32]羊肉烤包子.結(jié)構(gòu)與能動性的悖論,梁山的例子[EB/OL].[2015-05-10].https://www.douban.com/note/498409957/?type=like.
[33]Peter K.Bol.GIS,prosopography and history[J].Annals of Gis,2012,18 (1):3-15.
[34]金觀濤,劉青峰.中國近現(xiàn)代觀念起源研究和數(shù)據(jù)庫方法[J].史學(xué)月刊,2005(5):89-101.
[35]王汎森.關(guān)于《執(zhí)拗的低音》[J].讀書,2013(11):140-145.
[36]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012:87.
[37]韓炯.從計量史學(xué)邁向基于大數(shù)據(jù)計算思維的新歷史學(xué)——對當代西方史學(xué)量化研究新發(fā)展的思考[J].史學(xué)理論研究,2016(1):65-74.
[38]蘇秉琦.滿天星斗:蘇秉琦論遠古中國[M].北京:中信出版社,2016:VII-XI.
[39]趙汀陽.天下的當代性:世界秩序的實踐與想象[M].北京:中信出版社,2016:135-154.
[40]譚凱.中古中國門閥大族的消亡[M].胡耀飛,謝宇榮,譯.北京:社會科學(xué)文獻出版社,2017:11.