左 亮 白振田 包 平
(南京農(nóng)業(yè)大學(xué)數(shù)字人文研究中心,南京 210095)
我們?cè)谶M(jìn)行古籍?dāng)?shù)字化時(shí)往往會(huì)遇到集外字的問(wèn)題。集外字作為工程化概念,并沒(méi)有嚴(yán)格意義上的學(xué)術(shù)定義[1],主要是指特定字符集以外的不使用特殊手段無(wú)法輸入、處理和顯示的文字[2]。集外字的存在給古籍文本的整理、校正、編輯、檢索帶來(lái)諸多不便。由于時(shí)代因素、地方背景以及人為因素的干擾,集外字具有多樣性、時(shí)代性、復(fù)雜性、特殊性、地方性等特點(diǎn)。較為典型的集外字類型有:異體字、訛字、避諱字、人造字和重文符號(hào)等。
部分集外字在逐步構(gòu)建和完善字庫(kù)過(guò)程中得以解決,但仍有一大部分集外字無(wú)法在計(jì)算機(jī)當(dāng)中得到有效顯現(xiàn)?!斗街疚锂a(chǎn)》作為研究動(dòng)植物史、農(nóng)業(yè)史、經(jīng)濟(jì)史、環(huán)境史的重要史料,在對(duì)其進(jìn)行整理和信息挖掘利用的過(guò)程中,發(fā)現(xiàn)其數(shù)據(jù)文本中存在大量集外字的情況且獨(dú)具特色。目前已經(jīng)整理完成《方志物產(chǎn)》條目數(shù)據(jù)共計(jì)1,523,239條,其中含特殊符號(hào)的條目達(dá)到221,510條,占比達(dá)到15%。對(duì)待這部分字符不能棄若敝履,為了讓《方志物產(chǎn)》全文數(shù)字化并保持原本原貌,亟需一套科學(xué)的解決方案。
地方志文獻(xiàn)當(dāng)中的“物產(chǎn)”章目詳細(xì)地記載了一地的動(dòng)物、植物和礦物資源,并且“極為詳細(xì),在別的書里面是見(jiàn)不到的”[3],“對(duì)于農(nóng)業(yè)科學(xué)史實(shí)在是非常重要的、無(wú)法取代的價(jià)值”[4]。從1955到1958年三年間,時(shí)任中國(guó)農(nóng)業(yè)遺產(chǎn)研究室(為現(xiàn)在中華農(nóng)業(yè)文明研究院前身)主任的萬(wàn)國(guó)鼎先生,組織一百多人次,以《全國(guó)方志總目》(1)《全國(guó)方志總目》:萬(wàn)國(guó)鼎先生依據(jù)《中國(guó)地方志綜錄》修正稿編印而成。為藍(lán)本,在全國(guó)范圍內(nèi)對(duì)7,532種地方志中的物產(chǎn)史料展開(kāi)查抄工作,并分類整理裝訂成冊(cè)。
《方志物產(chǎn)》在內(nèi)容收錄上秉持應(yīng)收盡收原則,查抄了自北宋熙寧九年(1076)至民國(guó)三十八年(1949),包括新疆、西藏、臺(tái)灣在內(nèi)的26個(gè)行政區(qū)域(2)行政區(qū)域按方志記載時(shí)間劃分。其中河北含北京、天津,甘肅含寧夏,四川含重慶,江蘇含上海,廣東含海南。的地方志資料[5]。查抄志書來(lái)源除傳統(tǒng)總志、通志、府志、州志、縣志、鄉(xiāng)土志之外,還查抄了一些罕見(jiàn)方志,如里坊志、民國(guó)調(diào)查資料表、文獻(xiàn)志、風(fēng)土志、島志、山川志、河流志、采訪冊(cè)、關(guān)隘志、疆域志等。半個(gè)多世紀(jì)后的今天,少數(shù)方志已經(jīng)散佚,《方志物產(chǎn)》則很好地保存了眾多方志物產(chǎn)記載,個(gè)別疑成海內(nèi)孤本。
《方志物產(chǎn)》在查抄時(shí)尊重摘抄志書原貌,按照原有志書類目、體例、行文,原封不動(dòng)地抄錄下來(lái),保持繁體豎版排列風(fēng)格(圖1)。在編纂過(guò)程中,書上刻板錯(cuò)字,一般照抄不改,只用眉批注明“疑作某字”或“應(yīng)作某字”。查抄完成后按照資料性質(zhì)、省府州縣鄉(xiāng)的區(qū)域位置、方志編纂年代的先后,分類編排,每?jī)?cè)正文第一頁(yè)均配以悉心撰寫的目錄,讓讀者一目了然。手抄本《方志物產(chǎn)》的集成并不是簡(jiǎn)單的資料羅列,而是對(duì)查抄的內(nèi)容進(jìn)行精心的編排分類,時(shí)空經(jīng)緯,查找便捷,讓零落于地方志不同門類中的物產(chǎn)資料不再秦越相隔,而是薈萃镕鑄,專備有識(shí)者探微采擷。
圖1 手抄本《方志物產(chǎn)》資料(局部)
為了更好地保護(hù)和利用《方志物產(chǎn)》手抄本資料,中華農(nóng)業(yè)文明研究院的專家學(xué)者們開(kāi)始對(duì)《方志物產(chǎn)》進(jìn)行數(shù)字化保存與整理工作。
《方志物產(chǎn)》數(shù)字化是指利用現(xiàn)代信息技術(shù),將《方志物產(chǎn)》資料數(shù)據(jù)中的“語(yǔ)言文字轉(zhuǎn)化為能被計(jì)算機(jī)識(shí)別的數(shù)字符號(hào)”[6],并通過(guò)計(jì)算機(jī)、網(wǎng)絡(luò)等介質(zhì)對(duì)《方志物產(chǎn)》文獻(xiàn)進(jìn)行保存、利用、共享,讓《方志物產(chǎn)》文獻(xiàn)資料“突破時(shí)空的限制,成為取之不盡、用之不竭的資源”[7]?!斗街疚锂a(chǎn)》數(shù)字化工作總共經(jīng)歷了文本數(shù)字化、數(shù)據(jù)格式化、素材庫(kù)三個(gè)階段:
(1)文本數(shù)字化階段:2000年,中華農(nóng)業(yè)文明研究院依托科技部“中國(guó)農(nóng)業(yè)典籍的搜集、整理和保存”項(xiàng)目,對(duì)《方志物產(chǎn)·江蘇卷》進(jìn)行了全文掃描,以圖像方式進(jìn)行保存,邁出了《方志物產(chǎn)》數(shù)字化進(jìn)程的第一步。2005年,借助科技部“中國(guó)科技農(nóng)業(yè)遺產(chǎn)數(shù)字化保護(hù)與利用項(xiàng)目”的契機(jī),對(duì)手抄本《方志物產(chǎn)》開(kāi)始了全文數(shù)字化工作(圖2),是《方志物產(chǎn)》數(shù)字化進(jìn)程中的里程碑事件[8]。對(duì)《方志物產(chǎn)》文本數(shù)字化,實(shí)現(xiàn)了對(duì)《方志物產(chǎn)》資料的保護(hù)、利用與資源共享,為之后的物產(chǎn)史、栽培史、環(huán)境史研究提供了數(shù)字文本,同時(shí)為《方志物產(chǎn)》深度利用奠定了基礎(chǔ)。
圖2 《方志物產(chǎn)》目錄及內(nèi)容(局部)
(2)數(shù)據(jù)格式化階段:2018年,中華農(nóng)業(yè)文明研究院承擔(dān)了“方志物產(chǎn)知識(shí)庫(kù)構(gòu)建及深度利用研究”國(guó)家社會(huì)科學(xué)基金重大項(xiàng)目,在前期(2014—2017年)中央高校專項(xiàng)業(yè)務(wù)費(fèi)重大招標(biāo)項(xiàng)目工作的基礎(chǔ)上,開(kāi)始構(gòu)建《方志物產(chǎn)》知識(shí)庫(kù)并開(kāi)展深度利用。為了更好地實(shí)現(xiàn)《方志物產(chǎn)》知識(shí)庫(kù)的構(gòu)建,就需要對(duì)數(shù)字化之后的文本進(jìn)行數(shù)據(jù)格式化處理。其中李娜博士通過(guò)計(jì)算機(jī)輔助技術(shù)及人工標(biāo)注方法構(gòu)建了一套基于文本特征的格式化標(biāo)準(zhǔn),給每一個(gè)字段都設(shè)計(jì)了一個(gè)特征字母,分別為B、D、H、Z、N、Y、P、Q、J、C、X、W、S、L[9],依據(jù)此種元數(shù)據(jù)編碼格式形成的數(shù)據(jù)源能夠更好地通過(guò)對(duì)應(yīng)的ID被計(jì)算機(jī)識(shí)別并保存到素材庫(kù)當(dāng)中,從而實(shí)現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)換。例如:嘉靖《陜西通志》鳳翔府物產(chǎn)語(yǔ)料格式化后為:
B方志物產(chǎn)114
D陜西1
H
Z陜西通志(鳳翔府)
N明·嘉靖21年(1542)
Y46- 47
P46- 47
Q98- 99
J35∶14
C物產(chǎn)
X
W
S
商陸/本草鳳翔有之註見(jiàn)咸陽(yáng)
骨碎補(bǔ)/一統(tǒng)志出鳳翔註見(jiàn)西安
秦芁/一統(tǒng)志出鳳翔註見(jiàn)秦州
芎藭/本草云今鳳翔有之味辛溫?zé)o毒一名胡窮一名香果
……
……
蔓荊實(shí)/味苦辛微寒平溫圖經(jīng)云舊不載所出今隴州多有之
榛子/唐宋鳳翔府貢之一統(tǒng)志出隴州
P47
Q99
絨獸/一統(tǒng)志出隴州似猴而大行毛長(zhǎng)黃赤色人取其皮作鞍褥
鳥蛇/一統(tǒng)志出隴州宜療疾註見(jiàn)商州
石魚/一統(tǒng)志出涆陽(yáng)西四十裡有魚隴掘地破石得之狀若鰍鯽鱗鬛俱備可辟衣蠹
L
(3)素材庫(kù)階段:2018年,課題組針對(duì)格式化后的全文文本數(shù)據(jù)開(kāi)發(fā)了“方志物產(chǎn)知識(shí)組織與挖掘系統(tǒng)”,構(gòu)建了全文素材庫(kù),并實(shí)現(xiàn)了素材導(dǎo)入、志書管理、全文檢索、分類導(dǎo)出等功能。為了保證用戶在使用數(shù)據(jù)時(shí)的準(zhǔn)確性,系統(tǒng)提供了圖文對(duì)照功能,用戶可以將系統(tǒng)檢索的文字內(nèi)容與《方志物產(chǎn)》原文圖片進(jìn)行對(duì)比,確保利用信息時(shí)尊重原文原貌。其中的全文檢索,配以關(guān)鍵詞和聚類等檢索入口,可在海量文本中精準(zhǔn)檢索,為領(lǐng)域?qū)<疫M(jìn)行物產(chǎn)史和農(nóng)業(yè)史等相關(guān)研究提供計(jì)算機(jī)輔助手段。
文字的出現(xiàn)、演進(jìn)有著悠久的歷史,其中的繁體字、異體字甚至是民族文字不知凡幾,《方志物產(chǎn)》中除了這些文字之外,還存在著大量的特色物產(chǎn)和農(nóng)業(yè)術(shù)語(yǔ)。對(duì)《方志物產(chǎn)》數(shù)字化處理實(shí)質(zhì)上就是對(duì)其中文字進(jìn)行整理,雖然所有的文字都是用漢字進(jìn)行描述,但是部分文字寫法與正字有所差異,無(wú)法用字符集內(nèi)文字顯示。這部分文字誠(chéng)然反映了當(dāng)時(shí)當(dāng)?shù)卦谖淖质褂蒙系奶攸c(diǎn),但對(duì)后續(xù)在線閱讀、知識(shí)挖掘、人文研究等均會(huì)帶來(lái)困難和障礙。前人在《方志物產(chǎn)》數(shù)字化整理進(jìn)程中,對(duì)出現(xiàn)的問(wèn)題文字并沒(méi)有進(jìn)行深入研究,而是以特殊符號(hào)或后加描述性語(yǔ)言來(lái)指代,這部分特殊符號(hào)指代意義多樣,其中包含了該處文字為集外字的可能性,因此有必要將這些問(wèn)題文字提取出來(lái)進(jìn)行分析,厘清其具體的指代意義,以便能夠梳理出其中的集外字并進(jìn)行針對(duì)性的解決。
在對(duì)《方志物產(chǎn)》數(shù)字化時(shí),部分文字或由于原稿缺失,或由于原稿辨識(shí)不清,便以傳統(tǒng)的符號(hào)“□”“■”對(duì)其進(jìn)行指代。在對(duì)《方志物產(chǎn)》數(shù)字化文本進(jìn)行篩選匯總整理后,發(fā)現(xiàn)除“□”“■”傳統(tǒng)特殊符號(hào)外,還增加了部分現(xiàn)代符號(hào)對(duì)集外字進(jìn)行表示,如“?”“”“※”等,并且不同的特殊符號(hào)指代不同的含義(表1)。如《增修乾隆定安縣志》4卷(董興祚)當(dāng)中描述的“東風(fēng)”,其描述信息為“先麻而生□□□上有細(xì)毛□□□□”;如清康熙三十年(1692)《義烏縣志》中物產(chǎn)竹之屬當(dāng)中“紫竹,黯色、黝然,可為籥*管”。該類字符在整個(gè)《方志物產(chǎn)》條目中占到164,182條,比例為10.78%。
表1 集外字特殊符號(hào)類型一覽表
續(xù)表1
表2 集外字描述信息類型一覽表
集外字處理是《方志物產(chǎn)》數(shù)字化的重要一環(huán),因此必須根據(jù)《方志物產(chǎn)》文獻(xiàn)的特點(diǎn)找到集外字產(chǎn)生的根本原因,有針對(duì)性地解決《方志物產(chǎn)》中存在的集外字問(wèn)題。在對(duì)《方志物產(chǎn)》中出現(xiàn)的221,510條含有特殊符號(hào)的條目分析后發(fā)現(xiàn),其中集外字?jǐn)?shù)量占到總條目的十分之一以上,出現(xiàn)集外字的原因主要有以下幾點(diǎn):
(1)歷史因素:《方志物產(chǎn)》主要摘抄自明清時(shí)期的地方志,在明清時(shí)期由于當(dāng)時(shí)尚奇美學(xué)、復(fù)古思潮的影響,再加上表現(xiàn)主義書風(fēng)[10],導(dǎo)致了異構(gòu)字和異寫字兩大類[11]異體字盛行,這部分異體字未進(jìn)行規(guī)范,成為了今天的集外字。這部分文字與集內(nèi)字或是偏旁部首不同,或是筆畫有些許差異,或是為了書寫方便,變化筆畫或縮減筆畫而成,如:“鱠-膾”“鯯-”等?!斗街疚锂a(chǎn)》無(wú)論是當(dāng)初的查抄還是現(xiàn)今的數(shù)字化過(guò)程,對(duì)該部分文字并不更正,而是原樣錄入。
圖3 民國(guó)五年崇禎《常熟縣志》[抄本]
(3)版本因素:在地方志的保護(hù)過(guò)程中,一方面由于一些不可抗力,如蟲蛀、戰(zhàn)亂等,會(huì)導(dǎo)致地方志中出現(xiàn)缺字、缺頁(yè)等內(nèi)容缺失的現(xiàn)象。另一方面?zhèn)鹘y(tǒng)印刷以木活字或者刻板為主,在歲月的更迭當(dāng)中,這些底版由于保存不當(dāng),或者在印刷過(guò)程中油墨量控制不均,往往會(huì)出現(xiàn)缺字或者印刷不清的情況。這種情況下,很難對(duì)原本志書的內(nèi)容進(jìn)行還原,只能以“*”“□”“■”“?”等特殊符號(hào)替代。
如清康熙四十一年(1702)永昌府志[刻本](圖4)、清乾隆三十八年(1773)《奉化縣志》[刻本](圖5)中就存在印刷不清的問(wèn)題。
圖4 清康熙四十一年永昌府志[刻本]
圖5 清乾隆三十八年奉化縣志[刻本]
(4)字庫(kù)因素:為了適應(yīng)發(fā)展變化的時(shí)代需要,地方志每隔若干年或者一定時(shí)期就需要重修、續(xù)修、新修或鼎修。時(shí)代的更迭又導(dǎo)致語(yǔ)言文字不斷發(fā)展演變,不同時(shí)代的人們對(duì)于同一文字往往會(huì)形成各種各樣的書寫符號(hào),其中除了字形之外意義完全相同的純粹意義上的異體字,大多數(shù)字在字形、組成上都或多或少存在些微差異。《方志物產(chǎn)》手抄本資料是從各地圖書館所藏地方志中摘抄而來(lái),其中文字今日無(wú)論有無(wú)、訛誤與否,只要是字,都能抄寫出來(lái)。
數(shù)字化文獻(xiàn)受字符集所限,只能顯示字符集以內(nèi)的文字,并且由于近年不斷推廣規(guī)范字,很多學(xué)者本著“統(tǒng)一、不錯(cuò)”的編輯原則,將部分異體字或者繁體字舍去,這就導(dǎo)致字符集所收錄的漢字不甚完備?!斗街疚锂a(chǎn)》數(shù)字化,是用一個(gè)有限子集(字符集以內(nèi)的文字)去處理一個(gè)規(guī)模龐大的全集(手抄本所有文字),必然有許多文字不能重現(xiàn)。在對(duì)《方志物產(chǎn)》進(jìn)行數(shù)字化處理、深度利用過(guò)程中發(fā)現(xiàn),在錄入的23,225,659字中,仍然存有大量集外字的情況。
(5)人為因素:集外字實(shí)質(zhì)上就是跟正字對(duì)比之后,寫法有區(qū)別的字符。從實(shí)踐角度來(lái)看,集外字的出現(xiàn)往往存在人為因素干預(yù),在古籍傳播過(guò)程中,書寫者、刻板者、謄抄者往往會(huì)因?yàn)樽陨淼闹饔^原因,對(duì)原本當(dāng)中的字形誤判、誤寫、誤刻、誤錄,從而用自身認(rèn)為正確的字或者音義相近的字對(duì)原文字進(jìn)行替代。這就導(dǎo)致了這些集外字“以訛傳訛”進(jìn)入到典籍或是數(shù)據(jù)庫(kù)當(dāng)中。
《方志物產(chǎn)》數(shù)字化過(guò)程是個(gè)不斷衍變的過(guò)程,從古籍到現(xiàn)在的素材庫(kù),其中經(jīng)歷了古籍原本到手抄本階段、手抄本到圖像掃描本階段、圖像掃描本到電子文本等階段。不同的轉(zhuǎn)錄人員受囿于自身的古漢語(yǔ)水平、專業(yè)知識(shí)素養(yǎng),在各個(gè)階段中都會(huì)由于人的因素而產(chǎn)生訛誤。如民國(guó)三十七年(1948)《醴陵縣志》當(dāng)中關(guān)于米酒和鱉甲的記載,就存在錄入人員誤讀的現(xiàn)象。“米酒:行藥勢(shì)、通血脈、散濕氣、除風(fēng)御寒、殺惡蟲毒。”當(dāng)中行藥勢(shì)的“勢(shì)”字由于錄入時(shí)未能有效辨別,便被記錄為“*{上執(zhí)下力}”。“鱉甲,治久瘧、陰毒、腹痛、勞復(fù)、食復(fù)、斑痘、煩喘、驚厥、難產(chǎn)、陰脫、血瘕、石淋、陰頭瘡、潰瘡。”其中的血瘕便被記作了“*{疒內(nèi)段}”(圖6)。
圖6 民國(guó)三十七年(1948)醴陵縣志
《方志物產(chǎn)》知識(shí)庫(kù)的構(gòu)建可以將孤立的信息通過(guò)規(guī)則關(guān)聯(lián)起來(lái),能夠極大地加強(qiáng)人們對(duì)于物產(chǎn)數(shù)據(jù)的理解和感悟。如果不能將“數(shù)據(jù)世界”中的集外字進(jìn)行有效呈現(xiàn),對(duì)于《方志物產(chǎn)》的字詞分布特征、知識(shí)發(fā)現(xiàn)與考證、物產(chǎn)數(shù)據(jù)的聚合等研究將缺乏真實(shí)性和完整性。除了加強(qiáng)基礎(chǔ)設(shè)施建設(shè)與相關(guān)研究之外,可根據(jù)志書成書規(guī)律、連續(xù)記著的特點(diǎn),并結(jié)合相互引證的內(nèi)容及其他數(shù)據(jù)庫(kù),查梳《方志物產(chǎn)》素材庫(kù)構(gòu)建各個(gè)過(guò)程中存在的錯(cuò)誤,找到科學(xué)的路徑對(duì)集外字勘誤辯正、對(duì)比研析、悉厘正之,使其不斷趨于客觀準(zhǔn)確,還原為更為合理的歷史形態(tài)。
字庫(kù)組織的依據(jù)為字庫(kù)的編碼方式,作為文本數(shù)字化的關(guān)鍵,不同的語(yǔ)言文字所占字符數(shù)、字長(zhǎng)、編碼方式、編碼標(biāo)準(zhǔn)均不一致?!斗街疚锂a(chǎn)》中收集、整理的異體字字符屬于大字符集,占位為兩個(gè)字節(jié)長(zhǎng)度?!斗街疚锂a(chǎn)》數(shù)字化項(xiàng)目開(kāi)始于2005年,當(dāng)時(shí)所采用的Unicode字庫(kù)輯錄漢字不足6萬(wàn)字,雙字節(jié)字符集采用的是大五碼,除此之外無(wú)其他大字符集和輸入方法可供選擇,這就導(dǎo)致數(shù)字化過(guò)程中大部分文字被判定為集外字并且無(wú)法錄入。
“中華字庫(kù)”工程的實(shí)施,為我們解決部分集外字問(wèn)題提供了可能。2006年,國(guó)家新聞總署立項(xiàng)“中華字庫(kù)”工程,該工程盡可能地將我國(guó)所有出現(xiàn)的漢字形體匯聚起來(lái)建立字跡聯(lián)系,并根據(jù)發(fā)展需求制作出符合各類應(yīng)用需要的字符庫(kù),可編碼漢字古文字符40余萬(wàn)字,楷書漢字30余萬(wàn)字,少數(shù)民族文字10余萬(wàn)字。依托“中華字庫(kù)”工程,并且通過(guò)對(duì)計(jì)算機(jī)字庫(kù)進(jìn)行升級(jí),將Unicode升級(jí)至13.0版本、UniFonts升級(jí)至6.0版本。部分集外字可以通過(guò)手寫輸入方式直接鍵入計(jì)算機(jī)中,并且可以在不同的終端進(jìn)行呈現(xiàn)。如光緒七年《歸安縣志》所載“*{上圭下黽}:一作蛙,《吳興志》*{上圭下黽}類不一,惟色青而肱長(zhǎng)者為人所食,今鄉(xiāng)土惟貧乞取以貨名田雞,本郡每歲夏初揭榜禁捕)”,其中的“*{上圭下黽}”通過(guò)手寫輸入法可以在計(jì)算機(jī)中直接鍵入“鼃”。
推勘法主要由辭例推勘法和文獻(xiàn)比較法兩種方法構(gòu)成,是古文字考釋的一種基本方法。辭例推勘法是將文字置于特定語(yǔ)境中聯(lián)系上下文進(jìn)行推理以便能夠知道該字所表述的含義,文獻(xiàn)比較法是通過(guò)對(duì)存疑文字與其他文獻(xiàn)記載的比較印證,得出最穩(wěn)妥的字[15]。處理過(guò)程秉承“多聞闕疑,擇善而終”原則,一方面對(duì)古籍記載錯(cuò)誤以及格式化過(guò)程中出現(xiàn)的錯(cuò)字,按照“校讎四法”的理論,通過(guò)對(duì)校、本校、他校和理校的手段,結(jié)合上下文語(yǔ)境、字形走向和文字具體意義嚴(yán)格加以字斟句酌,審慎從事;另一方面,本著對(duì)古籍本身訛字“博考以證其失”“參酌而寤其非”“于所不知,益闕如也”[16]的原則,發(fā)現(xiàn)錯(cuò)誤,也不更正,而是保留原字,在其后注釋出認(rèn)為穩(wěn)妥的正字。
民國(guó)三十七年(1948)《醴陵縣志》中米酒和鱉甲描述信息中存在的集外字采用了文獻(xiàn)比較法的考釋方式。數(shù)字化之后記錄的米酒和鱉甲描述內(nèi)容為“米酒,行藥*{上執(zhí)下力}、通血脈、散濕氣、除風(fēng)、禦寒、殺惡蟲毒”“鱉甲,治久瘧、陰毒、腹痛、勞復(fù)、食復(fù)、斑痘、煩喘、驚厥、難產(chǎn)、陰脫、血*{疒內(nèi)段}、石淋、陰頭瘡、潰瘡”。其中的米酒和鱉甲通過(guò)對(duì)原志書比對(duì)可以看到原字走勢(shì),并結(jié)合李時(shí)珍《本草綱目》谷部中記載:“米酒,【主治】行藥勢(shì),殺百邪惡毒瓦斯(《別錄》)。通血脈,濃腸胃,潤(rùn)皮膚,散濕氣,消憂,發(fā)怒,宣言暢意(藏器)?!薄侗静菥V目》介部中記載:“鱉甲,【主治】心腹癥瘕,堅(jiān)積寒熱,去痞疾息肉,陰蝕痔核惡肉(《本經(jīng)》)。療溫瘧,血瘕腰痛,小兒脅下堅(jiān)(《別錄》)?!北憧芍?{上執(zhí)下力}、*{疒內(nèi)段}分別為“勢(shì)”“瘕”。
清雍正十三年(1735)《陜西通志》及清道光九年(1829)《東阿縣志》中的部分集外字采用了辭例推勘法和文獻(xiàn)比較法相結(jié)合的考釋方式。首先需根據(jù)上下文推測(cè)該集外字疑似為何字,同時(shí)查看該志書版本,根據(jù)志書版本、年代查找同版本志書,比對(duì)“愛(ài)如生數(shù)字方志庫(kù)”“籍古軒《中國(guó)數(shù)字方志庫(kù)》”,屆時(shí)再?gòu)奶祛^、地腳、魚尾、界行、版框等細(xì)節(jié)處著手進(jìn)行比對(duì)。確定為同一本志書后,根據(jù)查找出的內(nèi)容對(duì)集外字進(jìn)行替換。如“詩(shī)經(jīng)■風(fēng)”,在文本化的《方志物產(chǎn)》所載清雍正十三年《陜西通志》中,記錄為“壺盧,八月斷壺(詩(shī)經(jīng)■風(fēng))”,經(jīng)過(guò)查找中國(guó)數(shù)字方志庫(kù)發(fā)現(xiàn),記錄為“壺盧,八月斷壺(詩(shī)經(jīng)□風(fēng))”;又如清道光九年《東阿縣志》“菜瓜,與越瓜同,形而色青,可以作*(上艸下殂)”。通過(guò)比對(duì)《東阿縣志[道光]》可以得知該字為“菹”,可以直接輸入為“菹”。
在解決集外字問(wèn)題時(shí),有部分文字經(jīng)過(guò)不斷演變已經(jīng)不再使用,如曇花一般短暫的存在于某個(gè)時(shí)代當(dāng)中,對(duì)這部分文字我們需要“泛時(shí)化”,“從‘共時(shí)’和‘歷時(shí)’兩個(gè)角度”歸納集外字“同用現(xiàn)象”、探討集外字的“產(chǎn)生與演變”[17]。修纂歷史悠久和自成系列的志書成果為我們從“泛時(shí)化”角度解決集外字問(wèn)題提供了有力抓手。地方志的編修隨著地域情況變化、行政區(qū)劃變更、新事物出現(xiàn)不可能一勞永逸,而是代代相傳,構(gòu)筑起綿密悠長(zhǎng)、連續(xù)不絕的修志傳統(tǒng)。地方志編纂辦法是以舊志作為基礎(chǔ),不斷進(jìn)行核實(shí)補(bǔ)充的,上承前志下限,以時(shí)間上的連續(xù)記載構(gòu)成志志相續(xù)的序列。
因此在處理《方志物產(chǎn)》集外字時(shí),根據(jù)志書關(guān)聯(lián)連續(xù)的特性,既要查閱該地不同年代志書記錄的相同物產(chǎn)信息,又要查閱相同物產(chǎn)在其他版本志書,甚至是其他地域志書的記載。從物產(chǎn)名、別名、產(chǎn)地、用途等描述信息中對(duì)考證出的文字進(jìn)行文字認(rèn)同,并且在認(rèn)同的文字后添加IDS描述,這樣既能夠保持文本原意,又能夠還原文字原貌。如“芣苢,亦名車轱(車+魯)?菜”,經(jīng)考證光緒十年(1884)版《榮昌縣志》,得知“車前子,一名芣苢,詩(shī)采采芣苢,卽車前也”。在民國(guó)四年(1915)版《盤山縣志略》中記載“車前子,即詩(shī)所稱芣苢。多生道旁,布葉如輪,俗呼曰車轂轆菜”。依此便可基本明確的將“(車+魯)”替換成“轆”,為了增加保真度和可信度,在其后增加IDS描述信息,即“芣苢,亦名車轱轆(原文為:車+魯)菜”。
字符編碼映射法包含兩部分內(nèi)容:一是通過(guò)造字法將古籍當(dāng)中的集外字通過(guò)特定的造字程序創(chuàng)造出來(lái)。二是根據(jù)古籍特點(diǎn)制定編碼規(guī)則,將造出來(lái)的文字一一編碼,最終形成集外字字典。字符編碼映射法可以通過(guò)該編碼節(jié)點(diǎn)查詢其對(duì)應(yīng)的實(shí)體內(nèi)容在編碼規(guī)則表中的引用情況。
《方志物產(chǎn)》的部分集外字采用字符編碼映射法予以處理,《方志物產(chǎn)》的編碼規(guī)則為取“方志物產(chǎn)”首字母“FZWC”作為編碼表詞頭,以代表該編碼映射表針對(duì)《方志物產(chǎn)》所建立,用“00001—99999”表示集外字順序(圖7)。如“菽/(豆總名,青、黃、黑、白、紅、菉數(shù)種,又有豇豆、豌豆、*{上卄左下耒右扁}豆、赤小豆、白小豆、扒山豆之類)”,該集外字“*{上卄左下耒右扁}”就可以通過(guò)專用字符編輯程序進(jìn)行造字,在程序當(dāng)中分別輸入“艸”“耒”“扁”,按照描述的方位進(jìn)行組合,便可以得到“”。通過(guò)編碼映射法上述語(yǔ)料即可表示為:“菽/(豆總名,青、黃、黑、白、紅、菉數(shù)種,又有豇豆、豌豆、FZWC00001豆、赤小豆、白小豆、扒山豆之類)”。
圖7 編碼映射規(guī)則與部分字碼對(duì)照表
縱觀集外字的處理歷程,還有很多問(wèn)題尚未解決。文化和旅游部于2020年9月起草了《漢文古籍集外字描述規(guī)范》并于2021年1月正式實(shí)施。但是該規(guī)范僅僅是針對(duì)漢字集外字處理過(guò)程中如何對(duì)集外字進(jìn)行IDS描述而制定,只規(guī)定了漢文古籍集外字描述的基本原則、拆分流程和如何描述數(shù)據(jù)結(jié)構(gòu),未能對(duì)集外字處理及字庫(kù)的建設(shè)提供相應(yīng)的準(zhǔn)則。因此在集外字的處理上學(xué)者們采用的標(biāo)準(zhǔn)、模型和理論并不統(tǒng)一。
在集外字的處理上,大多數(shù)學(xué)者造字時(shí)采用的編碼為Unicode編碼,該編碼對(duì)使用者的身份未做任何限制,雖然其可以提供137,468個(gè)碼位供用戶使用,但是用戶使用時(shí)沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,在使用的過(guò)程中不同古籍的項(xiàng)目成員完全按照自己的喜好,對(duì)古籍中出現(xiàn)的只要與字符集中的字形有差異的文字就進(jìn)行造字。如此就會(huì)導(dǎo)致同一個(gè)編碼位在不同的古籍項(xiàng)目中甚至不同的設(shè)備中代表不同的字符,產(chǎn)生編碼沖突,顯示出來(lái)的文字不符合原文,并且肆意使用,編碼資源會(huì)很快耗盡。
在字庫(kù)構(gòu)建上,元數(shù)據(jù)會(huì)涉及原始資料的圖文采集、對(duì)采集后的圖文數(shù)據(jù)進(jìn)行編碼、對(duì)編碼完成之后的數(shù)據(jù)進(jìn)行存儲(chǔ)、對(duì)存儲(chǔ)之后的數(shù)據(jù)進(jìn)行調(diào)研和可視化呈現(xiàn)等方面。這部分過(guò)程必須嚴(yán)格遵循統(tǒng)一的建庫(kù)標(biāo)準(zhǔn)才能保證字庫(kù)建設(shè)的質(zhì)量和規(guī)范。但是在構(gòu)建字庫(kù)的過(guò)程中,學(xué)者們所采用的方法和流程莫衷一是,這就導(dǎo)致字庫(kù)建設(shè)完成之后可移植性較差。
目前,在地方性文獻(xiàn)的數(shù)字化處理過(guò)程中,大都基于地方特色形成了專屬的文字字庫(kù)。如西南民族大學(xué)的學(xué)者們結(jié)合廣西彝文的字符特征,依托OpenType技術(shù)對(duì)廣西彝文文字設(shè)計(jì)了彝文古籍文獻(xiàn)字庫(kù)[18]。華中科技大學(xué)的學(xué)者借助“字位”的概念,創(chuàng)建了13個(gè)甲骨文子字庫(kù)和24個(gè)金文子字庫(kù)的通用古文字字庫(kù)[19]。
與上述文獻(xiàn)類似,地方志文獻(xiàn)資料在編撰時(shí)往往遵循的是當(dāng)?shù)氐奈娘L(fēng),在部分文字的使用上還會(huì)使用當(dāng)?shù)氐姆窖再嫡Z(yǔ),這部分文字與官方所使用的文字略有出入,但正是這部分內(nèi)容的存在彰顯了地方志資料的地方屬性,也應(yīng)對(duì)其搜集整理。對(duì)其中的文字運(yùn)用大數(shù)據(jù)技術(shù)和協(xié)同工作平臺(tái),從海量的文本當(dāng)中提取物產(chǎn)集外字的原字圖和字形,保留每個(gè)文字的原貌和樣例,以便回溯核校。對(duì)該部分文字要提供屬性庫(kù)和關(guān)聯(lián)關(guān)系表,提供考釋過(guò)程,對(duì)橫向的異體關(guān)系和縱向的傳承演變進(jìn)行系統(tǒng)整理。將該部分文字整理核校之后,按照國(guó)際標(biāo)準(zhǔn)化要求,設(shè)置地方志文獻(xiàn)集外字字庫(kù)建設(shè)標(biāo)準(zhǔn),提交國(guó)家相關(guān)機(jī)構(gòu)。
當(dāng)前,自然語(yǔ)言處理技術(shù)已漸趨成熟,數(shù)字技術(shù)的發(fā)展促進(jìn)了傳統(tǒng)集外字處理的轉(zhuǎn)型與拓展,通過(guò)數(shù)字技術(shù)來(lái)檢校因果關(guān)系以及字詞之間的相關(guān)性,利用數(shù)據(jù)關(guān)聯(lián)、文本映照、模式識(shí)別、算法模型等幫助輔助處理集外字問(wèn)題已變得可能。華中科技大學(xué)中國(guó)語(yǔ)言研究所尉遲治平教授在對(duì)《廣韻》的異體字處理研究中,提出要將數(shù)字化的古籍看做成一種全新版本,根據(jù)數(shù)字化研究處理原則,對(duì)存在的漢字異體字進(jìn)行先期處理,關(guān)聯(lián)集外字的碼點(diǎn),整理異體字的字形[20],選擇出代表字。吳琴霞通過(guò)對(duì)集外字字形進(jìn)行矢量描述,構(gòu)建動(dòng)態(tài)描述庫(kù),用戶可以根據(jù)自己的意愿通過(guò)對(duì)動(dòng)態(tài)描述庫(kù)對(duì)錯(cuò)別字、異體字以及合體字進(jìn)行設(shè)計(jì)和輸出[21]。
在《方志物產(chǎn)》集外字處理實(shí)踐中,可以假設(shè)全國(guó)《方志物產(chǎn)》關(guān)于同一物產(chǎn)注釋的描述有類似之處,A處的物產(chǎn)規(guī)范不含集外字,同一物產(chǎn)在B處出現(xiàn)集外字現(xiàn)象。借助諸如編輯距離計(jì)算、杰卡德系數(shù)計(jì)算、TF計(jì)算等自然語(yǔ)言處理中句子相似度算法,發(fā)現(xiàn)A、B兩處的物產(chǎn)注釋相似度達(dá)到一定閾值,則可證明A、B兩處物產(chǎn)為同一物產(chǎn),經(jīng)人工再判斷,即可相互代換。此舉作為解決集外字手段的一種設(shè)想,后續(xù)將另行撰文研究。