內(nèi)容提要:數(shù)字化深刻影響且改變了人文學(xué)術(shù),促進(jìn)了研究范式和學(xué)術(shù)功能的改變。具體到文獻(xiàn)整理領(lǐng)域主要體現(xiàn)在三個(gè)方面:文獻(xiàn)生產(chǎn)方式的創(chuàng)革,文獻(xiàn)整理的數(shù)字化轉(zhuǎn)型,以及經(jīng)典閱讀方式的新變。數(shù)字化改變了文本整理方式,使人文學(xué)者可以自動(dòng)化獲取文本、建立目錄與文本的關(guān)聯(lián),且能夠一定程度上進(jìn)行自動(dòng)對(duì)勘。同時(shí),數(shù)字化也為古籍文獻(xiàn)帶來(lái)新的閱讀和呈現(xiàn)方式,從而實(shí)現(xiàn)主題聚類、增值性知識(shí)關(guān)聯(lián)、時(shí)空并行、知識(shí)重組沉浸式體驗(yàn)等。未來(lái),數(shù)字化技術(shù)到智能化技術(shù)的演進(jìn),必將對(duì)人文學(xué)術(shù)產(chǎn)生更加深刻的影響。
關(guān)鍵詞:數(shù)字人文 古籍整理 OCR 自動(dòng)校勘 聚類 知識(shí)重組 沉浸式體驗(yàn)
社會(huì)發(fā)展至今,數(shù)字化浪潮無(wú)所不在,深刻影響并改變著人文學(xué)術(shù)研究。清華大學(xué)人文學(xué)院院長(zhǎng)劉石教授總結(jié)了這樣一種現(xiàn)象,說(shuō):“我們?cè)跀?shù)字時(shí)代發(fā)現(xiàn)了前數(shù)字時(shí)代難以發(fā)現(xiàn)的現(xiàn)象,提出了前數(shù)字時(shí)代難以提出的設(shè)想,開(kāi)展了前數(shù)字時(shí)代難以開(kāi)展的工作,解決了前數(shù)字時(shí)代難以解決的問(wèn)題?!边@一觀察引發(fā)了一股“數(shù)字人文”研究的熱潮?!皵?shù)字人文”是借助計(jì)算機(jī)和數(shù)據(jù)科學(xué)等工具進(jìn)行的人文研究,其本質(zhì)是一門交叉學(xué)科,也是一種方法論。它將數(shù)字技術(shù)應(yīng)用于人文闡釋,代表著知識(shí)生產(chǎn)范式因媒介變革而進(jìn)行的一次轉(zhuǎn)型。在古籍文獻(xiàn)領(lǐng)域,這些轉(zhuǎn)變主要表現(xiàn)為:文獻(xiàn)生產(chǎn)的創(chuàng)革,文獻(xiàn)整理的數(shù)字化轉(zhuǎn)型,以及經(jīng)典閱讀方式的新變。
一 文獻(xiàn)生產(chǎn)方式的創(chuàng)革
數(shù)字化興盛之前,人們通常采用人工錄入文本的方式,逐字逐句地閱讀并添加標(biāo)點(diǎn),整理完畢后,將其交給出版單位進(jìn)行編輯和出版。然而,隨著數(shù)字化的普及和發(fā)展,古籍智能整理平臺(tái)應(yīng)運(yùn)而生,可以實(shí)現(xiàn)文本采集、自動(dòng)標(biāo)點(diǎn)、繁簡(jiǎn)轉(zhuǎn)換、自動(dòng)排版等一站式工作流程。
在文獻(xiàn)生產(chǎn)領(lǐng)域,最常用的技術(shù)就是OCR。OCR是Optical Character Recognition的縮寫(xiě),意思是指光學(xué)字符識(shí)別,它可以將圖像中的文字通過(guò)識(shí)別軟件轉(zhuǎn)換成文本格式,供文字處理軟件進(jìn)一步編輯和加工。在數(shù)量龐大的古籍整理工作中,這項(xiàng)技術(shù)非常實(shí)用,能大幅度提高文本錄入效率。然而,開(kāi)發(fā)古籍OCR系統(tǒng)并非易事,需要考慮古籍的版式、圖像頁(yè)面的完整和平整程度、字體風(fēng)格、異體關(guān)系,以及現(xiàn)有字庫(kù)的大小等多種因素。開(kāi)發(fā)者需要通過(guò)對(duì)古籍版式的綜合分析、對(duì)文本內(nèi)容的智能化理解訓(xùn)練、對(duì)字形風(fēng)格的模擬,以及在字庫(kù)大小和字符使用規(guī)范之間取得平衡等,使古籍OCR工具最大限度地滿足使用者的需求。目前市面上的古籍OCR工具,對(duì)于版面清晰、刻寫(xiě)規(guī)整的古籍來(lái)說(shuō),識(shí)別準(zhǔn)確率多已超過(guò)90%,識(shí)別速度也達(dá)到了每臺(tái)服務(wù)器8萬(wàn)頁(yè)/日,文獻(xiàn)資料的生產(chǎn)效率大大提高。
當(dāng)然,也存在大量古籍采集不易的情況,如下圖所示:
上圖中間方框中的四個(gè)字,從字形上來(lái)看都像“月”字,但其解釋是“上偏旁舟,二偏旁丹,三偏旁肉,下魚(yú)曰翻”,說(shuō)明這四個(gè)字分別是“舟、丹、肉、月”等不同的字,若用OCR系統(tǒng)進(jìn)行簡(jiǎn)單識(shí)別,必定會(huì)因?yàn)樽中螛O其接近而出錯(cuò)。但這只是OCR識(shí)別困難情況中的一種,在古籍中還存在大量復(fù)雜多樣的字符情況,主要表現(xiàn)在以下幾個(gè)方面:有古有今、有中有外、有字有符。
所謂“有古有今”是指古籍中包含著甲骨文、金文、小篆、楷書(shū)等不同時(shí)代的文字符號(hào),即使是流傳至今廣泛應(yīng)用的楷書(shū)字形,由于大量異體字的存在,也對(duì)自動(dòng)識(shí)別構(gòu)成了極大的困難。
所謂“有中有外”是指古籍文獻(xiàn)中,除了漢字(包括一些疑難字的整理)以外,還存在如梵文、巴利文等非漢字的文字符號(hào)。
所謂“有字有符”是指古籍文獻(xiàn)中,除了表音、表意的字之外,還包括如音樂(lè)文獻(xiàn)中的古琴譜和道教文獻(xiàn)中的符箓等非字符號(hào)。
針對(duì)這些特殊符號(hào),數(shù)量多的一般都是建立專屬的字庫(kù)進(jìn)行訓(xùn)練識(shí)別;數(shù)量少的,出于經(jīng)濟(jì)考量,往往把其納入到某一類特殊符號(hào)中采用單個(gè)插入的方式使用。
總體來(lái)說(shuō),數(shù)字化時(shí)代,相較于傳統(tǒng)手寫(xiě)和雕版印刷的方式,在文獻(xiàn)生產(chǎn)的方式方面發(fā)生了根本性的變化,故稱之為“創(chuàng)革”。
二 文獻(xiàn)整理的數(shù)字化轉(zhuǎn)型
傳統(tǒng)文獻(xiàn)學(xué)主要包含版本目錄學(xué)、??睂W(xué)、斷句標(biāo)點(diǎn)等。
版本,原指雕版刷印的書(shū)本,雕版印刷發(fā)明之前,沒(méi)有這個(gè)概念,雕版印刷發(fā)明之后,主要是從宋代才開(kāi)始使用此概念。后來(lái),“版本”的含義開(kāi)始逐漸豐富,不僅僅指雕版印刷的本子,還可以指寫(xiě)本、活字本、批校本等。近代排印技術(shù)出現(xiàn)之后,又出現(xiàn)了石印本、鉛印本等新形式,現(xiàn)代計(jì)算機(jī)技術(shù)出現(xiàn)之后,版本更是不再局限于紙質(zhì)本子,進(jìn)而擴(kuò)展到非紙質(zhì)載體的“數(shù)字版”了。故而,版本問(wèn)題可以算是一個(gè)既古老又現(xiàn)代的課題。
數(shù)字化技術(shù)出現(xiàn)之后,圍繞古籍整理工作建設(shè)大量古籍書(shū)目數(shù)據(jù)庫(kù),開(kāi)發(fā)了自動(dòng)???、自動(dòng)標(biāo)點(diǎn)、引文核查、繁簡(jiǎn)轉(zhuǎn)換等系統(tǒng),對(duì)古籍整理效率的提高起到至關(guān)重要的作用。
(一)版本目錄的數(shù)字化轉(zhuǎn)型
古籍書(shū)目數(shù)據(jù)庫(kù)改變了傳統(tǒng)的平面化呈現(xiàn)方式,以關(guān)聯(lián)性和立體化的面貌呈現(xiàn)。例如《中國(guó)古籍總目》數(shù)據(jù)庫(kù)①通過(guò)數(shù)字化和結(jié)構(gòu)化處理,將題名、責(zé)任者、版本、館藏、子目等具體信息拆分出來(lái),使原書(shū)條目信息分門別類、清晰明了地呈現(xiàn)。同時(shí),它集中展示了新中國(guó)成立以來(lái)出版的古籍整理本成果,并與《中國(guó)古籍總目》中記錄的古籍條目進(jìn)行了計(jì)算機(jī)自動(dòng)關(guān)聯(lián)匹配。
(二)??钡臄?shù)字化轉(zhuǎn)型
在文獻(xiàn)學(xué)中,??钡姆椒ㄒ话惴譃閷?duì)校、他校、本校、理校四類。為了提高古籍整理者的校勘效率,也開(kāi)發(fā)了相應(yīng)的技術(shù)來(lái)進(jìn)行輔助。
目前來(lái)說(shuō),應(yīng)用最廣、效果最明顯的是針對(duì)對(duì)校場(chǎng)景而開(kāi)發(fā)的自動(dòng)對(duì)勘技術(shù)。自動(dòng)對(duì)勘,就是將不同版本的電子文本上傳至平臺(tái),瞬間完成幾十萬(wàn)字的不同版本的文字比對(duì)工作,同時(shí)還會(huì)參照校勘學(xué)中錯(cuò)誤類別“訛衍倒脫”等分類,設(shè)置“異①衍倒脫”等差異類型,并配以??庇浱顚?xiě)格式框用來(lái)書(shū)寫(xiě)校勘記,然后生成并導(dǎo)出“校勘長(zhǎng)編”。筆者曾以周祖謨先生的《廣韻校本》進(jìn)行實(shí)驗(yàn),測(cè)試自動(dòng)對(duì)勘系統(tǒng)的效果,以《廣韻校本》所提到的底本和校本作為自動(dòng)對(duì)勘的底本和校本,從時(shí)間、速度和比對(duì)準(zhǔn)確性等方面進(jìn)行分析,如下表所示:
經(jīng)過(guò)驗(yàn)證,人工需要2個(gè)月完成的工作,自動(dòng)對(duì)勘系統(tǒng)幾分鐘就完成了,大大縮減了時(shí)間成本,提高了效率。同時(shí),自動(dòng)對(duì)勘系統(tǒng)還十分有效地規(guī)避了人為疏漏,人工可以發(fā)現(xiàn)的問(wèn)題,計(jì)算機(jī)都發(fā)現(xiàn)了,人工沒(méi)有發(fā)現(xiàn)的問(wèn)題,計(jì)算機(jī)也發(fā)現(xiàn)了。但另一方面,由于計(jì)算機(jī)讀取字形編碼和人類的判定存在差異,以及字形處理規(guī)范的一些規(guī)定,會(huì)影響異文數(shù)量。例如,在新舊字形方面,自動(dòng)對(duì)勘系統(tǒng)發(fā)現(xiàn)了210處,人工記錄了0處,這一方面是??闭邔?xiě)《廣韻校本》時(shí)還沒(méi)有新舊字形的概念的緣故;另一方面,即使讓現(xiàn)代人進(jìn)行???,也不會(huì)把這些本屬于印刷概念上的字形差異判定為有效的??辈町?。這就是人和自動(dòng)校勘系統(tǒng)的差別。
(三)斷句標(biāo)點(diǎn)的數(shù)字化轉(zhuǎn)型
為了讓現(xiàn)代人看懂古籍,整理者多會(huì)采取逐句閱讀、斷句標(biāo)點(diǎn)的方式,整理周期一般都很長(zhǎng)。古籍整理智能技術(shù)研發(fā)者便利用前人已經(jīng)標(biāo)點(diǎn)好的數(shù)據(jù)進(jìn)行訓(xùn)練,使系統(tǒng)能夠自動(dòng)理解并斷點(diǎn)文句,從而提高古籍的斷點(diǎn)效率。目前,多采用的是bert模型,運(yùn)用一種類似“完形填空”的訓(xùn)練邏輯讓系統(tǒng)反復(fù)預(yù)測(cè)缺失或故意遮掩的內(nèi)容,從而達(dá)到正確填充標(biāo)點(diǎn)的效果。目前市場(chǎng)上有影響力的古聯(lián)公司自動(dòng)標(biāo)點(diǎn)系統(tǒng),在斷句方面達(dá)到了96%的正確率,在標(biāo)點(diǎn)方面也能達(dá)到92%的正確率,整理者完全可以通過(guò)自動(dòng)標(biāo)點(diǎn)技術(shù)形成一個(gè)相對(duì)成熟的古籍整理作品,然后再發(fā)揮專家優(yōu)勢(shì),將斷句標(biāo)點(diǎn)的正確率提升到讀者滿意的水平。所以說(shuō),在古籍?dāng)嗑錁?biāo)點(diǎn)方面也實(shí)現(xiàn)了很好的轉(zhuǎn)型。
(四)繁簡(jiǎn)轉(zhuǎn)換系統(tǒng)
考慮到現(xiàn)代人對(duì)繁體字文本閱讀困難,古籍整理者會(huì)將繁體字轉(zhuǎn)換為簡(jiǎn)體字,古籍整理技術(shù)研發(fā)者針對(duì)這一需求,開(kāi)發(fā)了繁簡(jiǎn)轉(zhuǎn)換系統(tǒng)。在該系統(tǒng)中,最關(guān)鍵的不是轉(zhuǎn)換技術(shù)本身,而是復(fù)雜的字際關(guān)系。一個(gè)實(shí)用的繁簡(jiǎn)轉(zhuǎn)換程序,需要考慮以下幾個(gè)方面的因素:一是編碼層面的同碼異形、同形異碼以及誤用私用區(qū)編碼問(wèn)題;二是繁簡(jiǎn)對(duì)應(yīng)方面的一對(duì)多、多對(duì)一、無(wú)對(duì)應(yīng)等問(wèn)題;三是繁體字的異體字形較多問(wèn)題。所以,開(kāi)發(fā)一個(gè)相對(duì)理想的繁簡(jiǎn)轉(zhuǎn)換系統(tǒng)就需要按照一定的邏輯逐層梳理。先進(jìn)行編碼層面的認(rèn)同,再將不合法的類推簡(jiǎn)化字還原為繁體字形,然后將同一個(gè)字的異體字形進(jìn)行歸并和認(rèn)同,再根據(jù)一定的場(chǎng)景結(jié)合上下文義進(jìn)行轉(zhuǎn)換,才會(huì)得到較為可靠的結(jié)果。
正是由于以上系列技術(shù)的研發(fā),文獻(xiàn)整理的很多方面都實(shí)現(xiàn)了由傳統(tǒng)方式向數(shù)字化甚至智能化的轉(zhuǎn)型。這不僅大大提高了古籍整理的工作效率,也為古籍的保護(hù)和傳承開(kāi)辟了新的可能。
三 經(jīng)典閱讀方式的新變
數(shù)字化技術(shù)的出現(xiàn),不僅在生產(chǎn)端產(chǎn)生了很大的影響,還促成了新的閱讀和研究方式。這主要體現(xiàn)在以下幾個(gè)方面:
(一)主題聚類檢索閱讀
在傳統(tǒng)閱讀中,一般是自上而下、自右而左,或者是自左而右、自上而下的線性閱讀方式。然而,在數(shù)字化時(shí)代,人們往往以主題詞檢索的方式開(kāi)展同類主題聚合。然后,再對(duì)資料進(jìn)行集中總結(jié)和分析,找到自己需要的信息或得出某種結(jié)論。一般來(lái)說(shuō),文本類數(shù)據(jù)庫(kù)大都能夠滿足這種需求,不再贅述。
(二)增值性知識(shí)關(guān)聯(lián)
傳統(tǒng)知識(shí)組織的方式是平面化的,而數(shù)字時(shí)代的內(nèi)容組織卻是立體的。前臺(tái)的文本資料與后臺(tái)的知識(shí)體系關(guān)聯(lián)在一起,既不影響文本閱讀的流暢,又可在文本閱讀出現(xiàn)困難的時(shí)候,可以即時(shí)找到延展性知識(shí)內(nèi)容,從而掃除閱讀中的障礙。這種關(guān)聯(lián)可以是解決疑難字的字典,例如《殷墟甲骨文數(shù)據(jù)庫(kù)》配有《甲骨字典》,方便閱讀者閱讀甲骨釋文的時(shí)候,遇到不認(rèn)識(shí)的甲骨文進(jìn)行查詢。
也可以是解決疑難知識(shí)的專題詞典,如人名辭典、地名辭典、職官詞典,或者紀(jì)年表,例如籍合網(wǎng)(https://www.ancientbooks.cn)內(nèi)置了各類專題詞典和紀(jì)年換算表格,用于支撐平臺(tái)各數(shù)據(jù)庫(kù)的閱讀查詢所需。這些功能為讀者提供了實(shí)時(shí)、方便的咨詢工具,大大提升了閱讀的效率和體驗(yàn)。
還可以是解決疑難現(xiàn)象的同實(shí)異稱、同稱異實(shí)等事實(shí)類考證內(nèi)容,例如中國(guó)人民大學(xué)李今教授主持的《漢譯文學(xué)編年考錄數(shù)據(jù)庫(kù)》,為1896年至1949年間期刊上的漢譯文學(xué)及其相關(guān)現(xiàn)象做了編目、整理和考釋,并為譯介者做了生平簡(jiǎn)介以及筆名錄。這樣的功能提供了深入、詳實(shí)的背景信息,有助于讀者更深入地理解和研究文本。
(三)可視化知識(shí)圖譜
隨著數(shù)字人文研究與實(shí)踐的深入開(kāi)展,越來(lái)越多的學(xué)者及古籍?dāng)?shù)字化從業(yè)者開(kāi)始由簡(jiǎn)單的資料匯集到深入的內(nèi)容加工,他們把平面的文字資料進(jìn)行人物、時(shí)間、地點(diǎn)、事件等方面的提取,并開(kāi)展各種維度的屬性標(biāo)引,相同屬性之間可以歸類,甚至可以借助屬性關(guān)系進(jìn)行推理,從而使文獻(xiàn)資料由平面敘述、說(shuō)明變?yōu)橹R(shí)網(wǎng)絡(luò)的存在,呈現(xiàn)出基于一定專業(yè)邏輯的結(jié)構(gòu)化關(guān)聯(lián),然后借助現(xiàn)代的知識(shí)圖譜技術(shù)進(jìn)行生動(dòng)展示。例如,北京大學(xué)數(shù)字人文研究中心《宋元學(xué)案》知識(shí)圖譜系統(tǒng)、北京師范大學(xué)的《漢字全息資源應(yīng)用系統(tǒng)》都是很好的例子。
(四)時(shí)空并重
在數(shù)字人文的研究中,我們可以通過(guò)時(shí)空數(shù)據(jù)的整合,以全新的方式理解、解釋歷史和文化現(xiàn)象。我們可以利用地理信息系統(tǒng)(GIS)技術(shù),將歷史事件或文化現(xiàn)象在特定時(shí)間和地點(diǎn)的發(fā)生進(jìn)行可視化,從而在更大的范圍內(nèi)觀察和理解文獻(xiàn)中的信息。例如,歷史學(xué)家可以將古代詩(shī)人生活軌跡、人口遷移、疾病傳播等信息映射到地圖上,以空間的方式呈現(xiàn)時(shí)間的流動(dòng),揭示出這些現(xiàn)象背后的歷史規(guī)律和文化模式,四川大學(xué)文學(xué)與新聞學(xué)院王兆鵬老師開(kāi)發(fā)的《唐宋文學(xué)編年地圖》就是很有影響力的例證。
(五)基于閱讀的知識(shí)重組
在數(shù)字環(huán)境中,閱讀的方式已經(jīng)發(fā)生了根本性的變化。讀者不再被限制于單一的、線性的文本閱讀,而是可以在廣闊的知識(shí)網(wǎng)絡(luò)中自由穿行,通過(guò)鏈接、搜索和注釋等工具,將來(lái)自不同來(lái)源、不同領(lǐng)域的信息整合在一起,形成專門的知識(shí)體系。例如中國(guó)人民大學(xué)夏明方教授主持的國(guó)家社科基金重大項(xiàng)目成果《清代災(zāi)荒紀(jì)年暨信息集成數(shù)據(jù)庫(kù)》①,從清代史書(shū)和地方志等文獻(xiàn)中提取與自然災(zāi)害相關(guān)的信息,重組為災(zāi)害類的專題數(shù)據(jù)庫(kù),詳細(xì)梳理了災(zāi)害類型、災(zāi)害級(jí)別、賑災(zāi)政策等內(nèi)容,提煉出一個(gè)新的知識(shí)體系,為史學(xué)研究之外的大氣物理研究、地震研究及政府咨詢等多領(lǐng)域提供了很好的參考。
(六)沉浸式體驗(yàn)
數(shù)字人文技術(shù)還為我們提供了全新的、沉浸式的閱讀和學(xué)習(xí)體驗(yàn)。例如,虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)可以將讀者帶入歷史現(xiàn)場(chǎng),讓他們親身體驗(yàn)歷史事件或文化現(xiàn)象。這種沉浸式體驗(yàn),不僅能夠提供更生動(dòng)、直觀的知識(shí)傳遞方式,也能夠激發(fā)讀者的興趣和參與度,從而深化對(duì)文獻(xiàn)內(nèi)容的理解和記憶。例如,通過(guò)VR技術(shù),讀者可以親身走進(jìn)古羅馬的街頭,參觀中世紀(jì)的教堂,或是親眼看到長(zhǎng)城的建設(shè)過(guò)程,這些都將給讀者帶來(lái)深刻的歷史感受和理解。
還可以利用元宇宙技術(shù)復(fù)活古人,實(shí)現(xiàn)跨時(shí)空的對(duì)話,讓古代文獻(xiàn)的作者以類真人的方式,展示其生活或傳遞其作品中所承載的文化和知識(shí)內(nèi)容。例如中華書(shū)局構(gòu)建的“3D超寫(xiě)實(shí)數(shù)字人蘇東坡”,通過(guò)數(shù)字全息技術(shù),在中央電視臺(tái)2023年度“詩(shī)詞大會(huì)”中亮相,不僅生動(dòng)再現(xiàn)了其與友人黃庭堅(jiān)告別的場(chǎng)景,還與現(xiàn)場(chǎng)的選手互動(dòng)誦詩(shī)。
時(shí)至今日,美國(guó)OPENAI公司推出了可以聊天、書(shū)寫(xiě)文本摘要、翻譯,甚至可以寫(xiě)代碼的聊天機(jī)器人ChtaGPT,再次引爆了網(wǎng)絡(luò),引發(fā)了以人工智能為代表的新一輪技術(shù)革命,并逐漸影響到業(yè)界和學(xué)術(shù)界。
這些新的數(shù)字技術(shù)給人文領(lǐng)域帶來(lái)了很大改變,并形成了“數(shù)字人文”這一具有強(qiáng)烈時(shí)代特征的學(xué)科概念,成為迄今為止理念最為開(kāi)放、成就最為顯著的跨學(xué)科閱讀與研究范式。這不僅打破了學(xué)術(shù)壁壘,架構(gòu)了學(xué)科橋梁,甚至拉近了讀者與專家的距離,改變了閱讀和接受知識(shí)的方式。
(朱翠萍,中華書(shū)局古聯(lián)公司副總經(jīng)理)