陸宇婷
流散海外八十多年后,文瀾閣本《四庫(kù)全書》中的《宋百家詩(shī)存》重現(xiàn)大眾視野。
在掃描影像中,這本中國(guó)古籍上的水浸、蟲噬、霉變歷歷可見,每一處都是歷史的風(fēng)霜。1790年左右,《宋百家詩(shī)存》隨《四庫(kù)全書》入藏杭州文瀾閣,清咸豐年間在太平軍入杭后散失,1861年左右被嘉業(yè)堂收藏??箲?zhàn)時(shí)期,部分嘉業(yè)堂藏書流落到了上海,可能被日本人收購(gòu),并于1949年輾轉(zhuǎn)到了美國(guó),如今藏于加州大學(xué)伯克利分校東亞圖書館。
東亞圖書館收藏了大量中國(guó)古籍善本,截至2021年5月18日,其中二十萬(wàn)頁(yè)被掃描影像、讀取文字,以數(shù)字化形式回歸祖國(guó)。
這是海外古籍回歸項(xiàng)目“漢典重光”的成果之一。這批數(shù)字化古籍善本中既有宋元本,也有明清至民國(guó)時(shí)期著名學(xué)者的稿本、抄本,其中一些是以前很少有人見過的珍貴藏本,比如清文瀾閣本《宋百家詩(shī)存》。
古籍流散海外的原因多種多樣,實(shí)體回歸幾乎是不可能的,比較可行的辦法是數(shù)字化回歸。
此前的古籍?dāng)?shù)字化平臺(tái),大多是展示掃描后的古籍圖片,讀者只能在這些平臺(tái)閱讀圖片,無(wú)法就書中內(nèi)容進(jìn)行檢索分析。此次漢典重光的數(shù)字化團(tuán)隊(duì)不僅將古籍掃描,還將掃描下來的圖片識(shí)別轉(zhuǎn)化成了電子文字。搜索某一字詞,可以跳轉(zhuǎn)到字詞所在書本的具體章節(jié)段落。
這些古籍資源將向公眾免費(fèi)開放。阿里達(dá)摩院院長(zhǎng)張建鋒表示,漢典重光古籍?dāng)?shù)字化平臺(tái)將被捐贈(zèng)給權(quán)威公共機(jī)構(gòu)長(zhǎng)期運(yùn)營(yíng)。
四川大學(xué)歷史文化學(xué)院教授陳力是漢典重光項(xiàng)目的古籍專家。陳力的父親是教歷史的,1977年,陳力作為恢復(fù)高考的第一屆考生,填報(bào)的所有志愿都與歷史、中文、圖書館相關(guān),最后被省內(nèi)第一志愿四川大學(xué)歷史系錄取,從此“一輩子都在做這個(gè)”,對(duì)古籍積累下一份深厚的感情。
在漢典重光項(xiàng)目之前,陳力已經(jīng)參與過古籍?dāng)?shù)字化項(xiàng)目。他曾經(jīng)在國(guó)家圖書館工作18年,其中一半的時(shí)間分管古籍,經(jīng)手過哈佛大學(xué)燕京圖書館的一個(gè)古籍?dāng)?shù)字化回歸項(xiàng)目。2009年,燕京圖書館館長(zhǎng)鄭炯文專門從美國(guó)飛到中國(guó)商量相關(guān)事宜,目錄都篩選完成了,也做完了一部分書的掃描,但項(xiàng)目最終因?yàn)橘Y金、技術(shù)等沒能達(dá)到預(yù)期而擱淺。
這次未竟的合作在某種程度上成為漢典重光項(xiàng)目的起源。在哈佛大學(xué)訪問期間,高曉松看到了燕京圖書館的古籍?dāng)?shù)字化系統(tǒng)。高曉松創(chuàng)辦的雜書館收藏了幾十萬(wàn)種民間古籍,他產(chǎn)生了想讓流失的古籍回歸的想法,并于2017年10月28日第一次在釘釘上和阿里達(dá)摩院秘書長(zhǎng)劉湘雯溝通這件事。
達(dá)摩院聯(lián)系上了燕京圖書館,館長(zhǎng)依舊很愿意配合。但哈佛大學(xué)是一所私立大學(xué),最后拍板的是哈佛董事會(huì),這件事被董事會(huì)否決了。
與燕京圖書館的合作中止后,達(dá)摩院團(tuán)隊(duì)繼續(xù)尋找海外古籍回歸的機(jī)會(huì)。他們聯(lián)系上了四川大學(xué)歷史文化學(xué)院副院長(zhǎng)王果,王果找到了陳力。二人很快加入團(tuán)隊(duì),給項(xiàng)目命名為“漢典重光”。“漢典”指中國(guó)古籍,“重光”是陳力提出的,意為“讓蒙塵的古籍重?zé)ㄐ律薄?/p>
在團(tuán)隊(duì)討論中,陳力重點(diǎn)考慮的是項(xiàng)目的可行性——還是得找到愿意合作的海外圖書館。陳力首先聯(lián)系的是加州大學(xué)伯克利分校東亞圖書館原館長(zhǎng)周欣平。周欣平1998年曾到四川大學(xué)訪問,與陳力進(jìn)行過古籍?dāng)?shù)據(jù)系統(tǒng)檢索功能的討論。周欣平多次提及“古籍是天下之公器,要為天下人所使用”,如今受到陳力邀約,欣然同意合作。
陳力和王果去伯克利進(jìn)一步溝通,與周欣平達(dá)成共識(shí)。在資金落實(shí)之前,伯克利那邊就開始了工作,并很快提供了十萬(wàn)頁(yè)的古籍掃描版。
早在十多年前,上海圖書館曾對(duì)東亞圖書館的古籍館藏做了初步整理,編好了目錄。但是目錄沒法代替古籍本身,只有看到全書的原貌才能算是真正了解這本書的歷史,比如這次的重點(diǎn)回歸書目之一、晚清思想家王韜的《瀛壖雜志》,字跡密密麻麻的手稿,記錄的是這位洋務(wù)運(yùn)動(dòng)先驅(qū)人物自1840年代末期所親歷的上海開埠初期發(fā)展史。
此前國(guó)圖與燕京圖書館的合作主要是掃描古籍、回歸影像,漢典重光團(tuán)隊(duì)更進(jìn)一步,從單純的掃描圖像變成了內(nèi)容識(shí)別整合,使古籍真正數(shù)字化,做到閱讀清晰、查詢方便,為后續(xù)的分析研究打下基礎(chǔ)。
團(tuán)隊(duì)的算法負(fù)責(zé)人何夢(mèng)超2017年參與過古籍OCR(對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過程)項(xiàng)目,對(duì)北京龍泉寺的十本藏經(jīng)進(jìn)行識(shí)別。普通的OCR識(shí)別在現(xiàn)代印刷文本的使用上已經(jīng)達(dá)到了很高的水平,2017年何夢(mèng)超參與的《大藏經(jīng)》項(xiàng)目里也能做到97%的準(zhǔn)確率,但放到古籍上面,準(zhǔn)確率降到了百分之三四十。
古籍的數(shù)字化錄入,比現(xiàn)代印刷品的數(shù)字化錄入難得多。由于古籍本身文字狀況的特殊性,古籍?dāng)?shù)字化無(wú)法套用已有的現(xiàn)代漢語(yǔ)詞典和機(jī)器學(xué)習(xí)模型,需要團(tuán)隊(duì)從頭搭建古文數(shù)據(jù)庫(kù)和古文字識(shí)別人工智能模型。
何夢(mèng)超去四川大學(xué)與陳力探討,陳力提到古籍文字種類非常多,而何夢(mèng)超發(fā)現(xiàn),其中很多字都是重復(fù)出現(xiàn)的。他想到了單字識(shí)別、再聚類的數(shù)據(jù)收集方法。也就是說,把一冊(cè)古籍里的字全部切分開來單個(gè)識(shí)別,然后把形狀、筆畫類似的字放入一個(gè)類別,再讓對(duì)古文字有所了解的人對(duì)聚類進(jìn)行審核——拎出不屬于這個(gè)類別的字。最后給這個(gè)類別打上標(biāo)簽,也就是這一類圖片字的打印版原型。
這是一項(xiàng)龐大的認(rèn)字工程,幾千冊(cè)古籍,每?jī)?cè)幾千組文字需要人工審核。人手不夠,團(tuán)隊(duì)招募對(duì)古籍感興趣、有一定知識(shí)的大學(xué)生加入。
四川大學(xué)歷史文化學(xué)院2018級(jí)本科生張楚玨是第一批加入的,她想借這個(gè)機(jī)會(huì)增加自己對(duì)古籍的認(rèn)識(shí),也補(bǔ)充一點(diǎn)零花錢。
最初,機(jī)器識(shí)別、分類的單字圖片讓張楚玨感到疑惑——有的圖片里有兩個(gè)字,有的圖片里不是字而是符號(hào)。
機(jī)器“認(rèn)錯(cuò)字”的原因是技術(shù)團(tuán)隊(duì)低估了古籍版式的復(fù)雜性?,F(xiàn)代印刷品有通用的規(guī)范版式,古籍的版式則多種多樣,在豎排文字中可能突然出現(xiàn)一些橫排文字,同樣寬度的空間,有時(shí)寫著一列大字,有時(shí)寫著兩列小字。在二十萬(wàn)頁(yè)古籍里就有近百種版式,技術(shù)團(tuán)隊(duì)將它們一一區(qū)分,機(jī)器識(shí)別準(zhǔn)確率大大提高。
版式問題解決之后,進(jìn)入正式的人工審核環(huán)節(jié)。古文中的字有很多講究,同一個(gè)字在不同使用情況下、不同朝代不同版本的書籍中,都可能有不同的寫法,即一個(gè)字可能有多種異體字。比如國(guó)家的“國(guó)”字,有簡(jiǎn)體的“國(guó)”,繁體的“國(guó)”,還有“太平天囯”里沒有一點(diǎn)的“囯”。在分組時(shí),一個(gè)字的每種異體字都要單獨(dú)分為一組。
分組后,在電腦上把這些古漢字打出來也是一件難事。常用輸入法一般都打不出異體字,就算有也在相當(dāng)靠后的位置。加入的前兩個(gè)月里,張楚玨一直都在摸索打古文字的方法。她找到了三個(gè)能夠檢索古文字的字典網(wǎng)站,即便遇到不認(rèn)識(shí)的字,也可以通過檢索部首找到這個(gè)字。
學(xué)生們漸漸駕輕就熟,某個(gè)期末周,團(tuán)隊(duì)忽然發(fā)布了四萬(wàn)字的審核任務(wù),一位男生一人就完成了一萬(wàn)字左右。
陳力在圖書館工作多年,收到過不少讀者、專家對(duì)古籍館藏的意見,其中最常見的就是關(guān)于全文檢索,即通過關(guān)鍵字詞的搜索來輔助自己的研究。紙質(zhì)書時(shí)代,已經(jīng)有不少這樣的工具書,國(guó)內(nèi)燕京學(xué)社給古代具有代表性的文獻(xiàn)都編了索引,比如一個(gè)字在《尚書》里出現(xiàn)了多少次,都在什么地方。但這樣的工具書使用起來依然比較繁瑣。
2021年5月18日,漢典重光在中國(guó)科技館舉辦發(fā)布會(huì),會(huì)后,包括國(guó)家圖書館、浙江圖書館、四川大學(xué)圖書館和一些私人館在內(nèi)的二十多家機(jī)構(gòu)向該團(tuán)隊(duì)發(fā)來祝賀,并表示愿意在后續(xù)過程中與該團(tuán)隊(duì)合作,將自己的館藏?cái)?shù)字化并開放給公眾使用。
古籍的數(shù)字化最早是從美國(guó)開始的。1970年代末,美國(guó)線上電腦圖書館中心和圖書館聯(lián)盟先后推出了《朱熹大學(xué)章句索引》《王陽(yáng)明傳習(xí)錄索引》《戴震原善索引》等數(shù)據(jù)庫(kù)。1980年代以后,中國(guó)臺(tái)灣、香港和大陸相繼開始了中文古籍?dāng)?shù)字化項(xiàng)目。
目前中國(guó)規(guī)模最大的古籍保護(hù)計(jì)劃是2007年國(guó)務(wù)院提出布置的“中華古籍保護(hù)計(jì)劃”,截至2016年,中國(guó)古籍保護(hù)網(wǎng)的“全國(guó)古籍普查登記基本數(shù)據(jù)庫(kù)”已累計(jì)發(fā)布涉及13個(gè)省份及中直系統(tǒng)的96家單位所藏388963部3587347冊(cè)古籍的普查數(shù)據(jù)。
計(jì)劃的又一成果“中華古籍資源庫(kù)”也于2016年在國(guó)圖上線,古籍總量超3.3萬(wàn)部。但與大多古籍?dāng)?shù)字化項(xiàng)目一樣,“中華古籍資源庫(kù)”僅停留在掃描處理提供古籍影像的程度,在內(nèi)容檢索和分析上依然困難,且提供的掃描版本總量也不及全國(guó)普查結(jié)果的十分之一。
據(jù)媒體報(bào)道,國(guó)家古籍保護(hù)中心辦公室副研究館員趙文友做過一個(gè)估算,如果將全國(guó)尚未數(shù)字化的40萬(wàn)個(gè)版本的古籍全部數(shù)字化,采集、組織、加工、存儲(chǔ)、管理等費(fèi)用大約需要60億元。而國(guó)家古籍保護(hù)中心每年用于古籍?dāng)?shù)字化工作的經(jīng)費(fèi)僅1000萬(wàn)元,很多地方圖書館的古籍?dāng)?shù)字化經(jīng)費(fèi)更是捉襟見肘。
在官方組織的古籍影像保護(hù)計(jì)劃之外,國(guó)內(nèi)也有商業(yè)公司對(duì)部分古籍做過數(shù)字化磁盤存儲(chǔ)處理,《四庫(kù)全書》早在2000年就已經(jīng)有了全套電子版錄入的光盤版本,由北京書同文數(shù)字化技術(shù)有限公司研制,在國(guó)內(nèi)古籍?dāng)?shù)字化進(jìn)程中具有里程碑意義。然而,這套磁盤并未能解決生僻字的輸入問題,記者隨機(jī)選取的一頁(yè),就有22個(gè)無(wú)法顯示的字。
官方項(xiàng)目資金容易短缺,商業(yè)公司項(xiàng)目又不可避免涉及盈利,各種條件的掣肘下,古籍?dāng)?shù)字化的發(fā)展一直都沒能實(shí)現(xiàn)飛躍。此次公益性質(zhì)的漢典重光平臺(tái),在古籍?dāng)?shù)字化上趟出了一條新路徑。
過去古文字錄入高度依賴人工,此次的古籍OCR機(jī)器學(xué)習(xí)模型的建立準(zhǔn)確率高達(dá)97.5%,效率是人工的近30倍。然而,陳力認(rèn)為目前的漢典重光平臺(tái)只走了“萬(wàn)里長(zhǎng)征第一步”,還有無(wú)數(shù)難題等待解決?!皺C(jī)器處理有規(guī)律的東西好辦,處理無(wú)規(guī)律的東西就不好辦,而古籍無(wú)規(guī)律的東西居多?!标惲φf。比如《瀛壖雜志》手稿,這次的模型系統(tǒng)就還沒有辦法做到自動(dòng)識(shí)別。書中滿篇都是雜亂的批校,毫無(wú)規(guī)律可言,想要識(shí)別還是得進(jìn)行大量人工干預(yù)?!芭5淖侄己懿?,人都不一定認(rèn)得出來,更不用說機(jī)器了。古籍識(shí)別不是可以一個(gè)方法用到底的?!?/p>
技術(shù)團(tuán)隊(duì)也意識(shí)到數(shù)字化的進(jìn)步空間還很大,目前97.5%的準(zhǔn)確率是基于這樣一個(gè)前提:訓(xùn)練集和最終的測(cè)試數(shù)據(jù)來自同一批書。如果用目前標(biāo)注出來的三萬(wàn)字字庫(kù)去識(shí)別一本新的古籍,很可能達(dá)不到這個(gè)準(zhǔn)確率。
即便達(dá)到97.5%的準(zhǔn)確率,與國(guó)家對(duì)印刷品萬(wàn)分之二的錯(cuò)誤率要求相比,也相差甚遠(yuǎn)。要提高準(zhǔn)確率,需要優(yōu)化模型算法,更要擴(kuò)充字庫(kù)容量,將更多的古文字納入這個(gè)字庫(kù)。這也是達(dá)摩院把漢典重光捐贈(zèng)給社會(huì)的初衷——希望更多的人參與到系統(tǒng)的搭建之中。
“苦恨年年壓金線,為他人做嫁衣裳”,這是陳力的微信簽名,也是圖書館工作的真實(shí)寫照。2021年5月底,專家團(tuán)隊(duì)和技術(shù)團(tuán)隊(duì)再次碰面,商討古籍?dāng)?shù)字化的下一步。
(摘自5月27日《南方周末》。作者為該報(bào)特約撰稿人)