毛星懿
(暨南大學(xué) 文學(xué)院,廣東 廣州 510632)
實錄體史書是源于南朝蕭梁時期、以皇帝及其朝政為記載中心的特殊的史學(xué)體裁。它的編纂體例是“以皇帝的編年為綱,以大臣的小傳為緯;以編年體為主體,以紀(jì)傳體中的列傳為輔助”[1]68。此后,唐代至清代皆根據(jù)每一朝皇帝修撰一部實錄,基本都維持這樣的體例,僅元、清的少數(shù)民族政權(quán)的實錄略有些不同[1]68。因而,用數(shù)字人文方法處理實錄體的另一優(yōu)勢是其文本撰寫遵循一定的格式,計算機(jī)語言易于讀取。
《清實錄》卷帙浩繁,由13種記錄組成。目前,關(guān)于《清實錄》的數(shù)字人文研究主要有兩種:一是將《清實錄》整體作為研究對象;二是具體選擇一個或幾個朝代的實錄文本作為研究對象。
目前,網(wǎng)絡(luò)平臺提供的工具較為豐富,能解決基本的人、事、時、地、物標(biāo)注與提取的問題,為《清實錄》人名、地名、時間等基本信息的研究提供了條件。
2011年,陳品諺《〈清實錄〉之文本分析與時間標(biāo)記初探》[2]將《清實錄》進(jìn)行切分、標(biāo)記,然后以中國臺灣歷史數(shù)位圖書館(THDL)為模型建置了《清實錄》查詢系統(tǒng)(QSDL),進(jìn)而利用該系統(tǒng)進(jìn)行分析。該論文對《清實錄》的時間條目進(jìn)行公歷轉(zhuǎn)換,指出紙本《清實錄》存在12處日期錯誤。若不是用計算機(jī)來處理全部的時間信息,人工將很難檢核到這些細(xì)微的錯誤。研究創(chuàng)建的《清實錄》查詢系統(tǒng)(QSDL),考慮到文本上下文可能具有關(guān)聯(lián)性,因而增加了相鄰文件和同日文件瀏覽的功能。文末展示了《清實錄》的數(shù)字化應(yīng)用。該論文呈現(xiàn)數(shù)據(jù)較多,提出一些有趣的現(xiàn)象,但背后的原因仍有待充分解讀。
2012年,劉士綱在《〈清實錄〉人名擷取自動化》一文中[3]以前人搭建好的《清實錄》查詢系統(tǒng)來擷取人名,再使用統(tǒng)計式的斷詞方法進(jìn)行補(bǔ)充。關(guān)于漢人人名的擷取,主要是通過雙字詞的篩選與百家姓的輔助來完成的。因男性滿人只提名不提姓,因而需人工驗證結(jié)果。該論文敘述略為散亂,章節(jié)3.2.7節(jié)使用merge的方法對字詞進(jìn)行處理,與章節(jié)3.1前處理中字與字之間加上“*”的處理目的重復(fù)。另外,研究結(jié)果刪除已知人名,呈現(xiàn)的是不完整的人名清單,意義不大。
2013年,高欣愷《歷史文件自動地名標(biāo)注:以〈清實錄〉為例》一文[4]利用Text Mining技術(shù)、Google Map API及Timemap時間軸工具,建立起一個簡易的歷史地理資訊系統(tǒng)(HGIS),以期降低該工具的使用門檻。該系統(tǒng)可由使用者自行上傳文檔。
以《清實錄》為實例的部分,研究僅展示了《康熙朝實錄》中順治十八年(公元1661年)4月8日的事件。研究首先取《清實錄》“康熙朝”“乾隆朝”日期、標(biāo)題、內(nèi)文三方面的數(shù)據(jù)來訓(xùn)練系統(tǒng)。系統(tǒng)采用詞庫式地名辨識,找出《清實錄》與空間數(shù)據(jù)庫中重合的地名。對于同名異地的處理,系統(tǒng)設(shè)計了選擇鄰近區(qū)域取點的功能。
以上3篇論文都是花大篇幅介紹各自的計算方法與系統(tǒng)建立的原則,屬于工具介紹型的文章。時間研究建立的《清實錄》查詢系統(tǒng)沒有公開使用,地名研究建立的歷史文件自動地名標(biāo)注系統(tǒng)在臺灣大學(xué)數(shù)字典藏與自動推論實驗室的網(wǎng)站①上可以查到,但不可用。
2008年,朱政吉《由史料中探勘社會網(wǎng)絡(luò):以乾隆時期為例》一文[5]根據(jù)乾隆時期是清朝的轉(zhuǎn)折期的觀點,選擇《清實錄》中的《高宗純皇帝實錄》為研究對象;論文以“權(quán)臣”為主題詞,對以“權(quán)臣”為首的人脈關(guān)系進(jìn)行分析。該論文首先以人名前的官名對《高宗純皇帝實錄》進(jìn)行人名識別,再利用左右詞夾子為頓號的方法補(bǔ)召人名;然后以“年”為單位找出共現(xiàn)人物,建立每年的有無權(quán)重的兩種人脈網(wǎng)絡(luò);接著通過“菁英”為中介,找出“權(quán)力團(tuán)體”;最后對“凝聚子集團(tuán)”進(jìn)行分析,比較后2年的時間里權(quán)臣中心性差異度、權(quán)利團(tuán)體的差異程度。
2012年,闕伯丞等人合作的《由史料中探勘職官年表:以〈清圣祖實錄〉為例》[6]選擇《清圣祖實錄》為研究對象,利用詞夾子對文本進(jìn)行人名識別,分析官名與人名。首先擷取《清圣祖實錄》中含官職名稱的句子,將句子以概率組合的方式轉(zhuǎn)換為二字詞集合,利用頻繁區(qū)間的概念提取候選人名;然后結(jié)合官職變動率、平均任期、官職品第之平均變化率與官職名稱之平均字距這四個因素對候選人名排名;最后進(jìn)行升官序列、共升樣式、社群網(wǎng)絡(luò)的計算,呈現(xiàn)可視化人脈網(wǎng)絡(luò)。以官職變動來看人物關(guān)系,此方法得出的人脈網(wǎng)絡(luò)更為客觀。
前文分析了我國臺灣地區(qū)5篇以數(shù)字人文的方法來研究《清實錄》的論文,這些創(chuàng)見為傳統(tǒng)人文研究提供了新的題目與闡釋空間,并提供了更有說服力的論據(jù)。但是,由于專業(yè)的限制,數(shù)字人文探討問題的面向與傳統(tǒng)人文不太相同。計算機(jī)專業(yè)的數(shù)字人文研究一般傾向于說明算法的原理及系統(tǒng)設(shè)計的原則等,屬于量性研究,而非傳統(tǒng)人文的質(zhì)性研究。
《〈清實錄〉人名擷取自動化》在前人建設(shè)好的數(shù)據(jù)庫的基礎(chǔ)上,利用算法呈現(xiàn)《清實錄》扣除已知人名的人名清單。即便是提供工具,其實用性也受到質(zhì)疑。一般實錄常是國史的史源[1]65,《清史稿》與《清實錄》有著密切的聯(lián)系,1996年中華書局出版的《清史稿紀(jì)表傳人名索引》可以作為研究的重要參考文獻(xiàn),可為該研究以提供訓(xùn)練人名識別系統(tǒng)的材料。
《由史料中探勘社會網(wǎng)絡(luò):以乾隆時期為例》通過復(fù)雜的計算與嚴(yán)密的修訂,最后給出了“權(quán)臣探勘”“軍機(jī)領(lǐng)班大臣”“重要的內(nèi)閣大學(xué)士之解職時間”等表格,為解釋人物在朝廷具體有何作為、如何影響歷史進(jìn)程提供了數(shù)據(jù)支撐,遺憾的是,其沒有聯(lián)系具體的史料進(jìn)行進(jìn)一步闡釋[5]?!队墒妨现刑娇甭毠倌瓯恚阂浴辞迨プ鎸嶄洝禐槔烦尸F(xiàn)的可視化人脈網(wǎng)絡(luò)也值得進(jìn)一步分析,如該群體在地域分布上有何特點、如何對朝廷政治及地方文化發(fā)揮影響等。
《歷史文件自動地名標(biāo)注:以〈清實錄〉為例》提供了一種降低GIS使用門檻的新工具,這種普及型的研究與成果十分有利于數(shù)字人文研究的興盛[4]?!丁辞鍖嶄洝抵谋痉治雠c時間標(biāo)記初探》示范了結(jié)合計算機(jī)技術(shù)能解決何種歷史問題,該研究切實顧及了開拓與應(yīng)用[2]。二者對當(dāng)前的傳統(tǒng)人文研究具有較大的啟發(fā)性。
反觀內(nèi)地,目前還沒有以數(shù)字人文的方法來研究《清實錄》的文章。2015年朱文君《〈清實錄〉列女旌表概觀:以咸豐、同治、光緒、宣統(tǒng)時期為例》[7]、2016年段振華《〈清實錄〉列女旌表概觀:以干嘉道三朝為例》[8]這2篇學(xué)位論文利用了量化的方法,提供了很多統(tǒng)計表、餅狀圖、折線圖等。而實錄體的女旌表僅列人名,格式統(tǒng)一,有規(guī)律可循,非常適合計算機(jī)處理,兩文同樣也是受專業(yè)的限制,未能高效、科學(xué)地處理材料。
目前的數(shù)字人文研究總體上仍偏向于計算機(jī)專業(yè),更傾向于展示具體的研究過程,計算方式、模型建置、數(shù)據(jù)修訂、結(jié)果檢驗等是重要環(huán)節(jié);而傳統(tǒng)人文研究比較偏向于利用研究結(jié)果,結(jié)合具體的史料去說明問題、闡釋原因。數(shù)字人文的研究是發(fā)現(xiàn)新問題的途徑,數(shù)據(jù)化之后的結(jié)果也能為論述提供更有說服力的論據(jù)。《清實錄》自身的研究還有很大的挖掘空間。目前關(guān)于《清實錄》的研究具有示范性的作用,研究方法也可以遷移至其他朝代的實錄,且可以借用數(shù)字人文的方法,聯(lián)系現(xiàn)在發(fā)展的文體學(xué)進(jìn)行開拓創(chuàng)新。
注釋
①數(shù)字典藏與自動推論實驗室的網(wǎng)址為:archimedes.csie.ntu.edu.tw/tools.php。