徐晨飛 包 平
(1.南京農(nóng)業(yè)大學(xué)中華農(nóng)業(yè)文明研究院,江蘇南京 210095;2.南通大學(xué)經(jīng)濟(jì)與管理學(xué)院,江蘇南通 226019)
自從2007年圖靈獎(jiǎng)獲得者吉姆·格雷(James Gray)提出基于數(shù)據(jù)密集型計(jì)算的“科學(xué)研究的第四范式”①Tony Hey,Stewart Tansley,Kristin Tolle,The Fourth Paradigm Data—Intensive Scientific Discovery:The Science Press,2009,p.5.以來,相關(guān)領(lǐng)域特別是人文學(xué)科的研究進(jìn)展令人興奮。托馬斯·庫恩的“范式轉(zhuǎn)換”理論認(rèn)為,新范式的建立伴隨著科學(xué)革命的產(chǎn)生,革命的結(jié)果是擁有新范式的新的科學(xué)共同體取代擁有舊范式的舊的科學(xué)共同體②[美]托馬斯·庫恩:《科學(xué)革命的結(jié)構(gòu)》(第4版),金吾倫、胡新和譯,北京大學(xué)出版社,2012年,第5-6頁。。這十年間,數(shù)字人文作為一門正在興起的新學(xué)科,其演進(jìn)過程也印證了庫恩的“范式轉(zhuǎn)換”理論,歷史學(xué)家、地理學(xué)家、文學(xué)家等人文學(xué)科研究者與數(shù)據(jù)科學(xué)家、計(jì)算機(jī)科學(xué)家、信息資源管理專家等正攜手成為新的科學(xué)共同體,將大數(shù)據(jù)化的研究素材、軟件化的輔助研究工具、計(jì)算化的研究方法、可視化的研究結(jié)果貫穿于人文科學(xué)研究過程,取得了諸多令人矚目且顛覆傳統(tǒng)研究思維的成果,也使得人文學(xué)科重新煥發(fā)了新的生命力。而伴隨著數(shù)字人文研究的不斷開展與深入,學(xué)界對研究基礎(chǔ)設(shè)施的需求也迫在眉睫,目前全球在相關(guān)政府、機(jī)構(gòu)的支持與規(guī)劃下,各類數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)正在如火如荼地進(jìn)行中。習(xí)近平總書記在中共中央政治局就實(shí)施國家大數(shù)據(jù)戰(zhàn)略進(jìn)行第二次集體學(xué)習(xí)時(shí)就強(qiáng)調(diào),要推動實(shí)施國家大數(shù)據(jù)戰(zhàn)略,加快完善數(shù)字基礎(chǔ)設(shè)施,推進(jìn)數(shù)據(jù)資源整合和開放共享,保障數(shù)據(jù)安全,加快建設(shè)數(shù)字中國③習(xí)近平:《實(shí)施國家大數(shù)據(jù)戰(zhàn)略加快建設(shè)數(shù)字中國》,http://www.xinhuanet.com/politics/2017-12/09/c_1122084706.htm。。
在歷史學(xué)界,喬·古爾迪(Jo Guldi)與大衛(wèi)·阿米蒂奇(David Armitage)在《歷史學(xué)宣言》中就呼吁當(dāng)代歷史學(xué)家要有寬闊的視野和考察大問題的雄心,而大數(shù)據(jù)時(shí)代的到來可在未來幫助史學(xué)家成為新時(shí)代的數(shù)據(jù)文獻(xiàn)專家,并向公眾交流其他學(xué)科的數(shù)據(jù)、方法和成果,并以自身的學(xué)術(shù)強(qiáng)項(xiàng)對此作出分析、比較和對照④[美]喬·古爾迪、[英]大衛(wèi)·阿米蒂奇:《歷史學(xué)宣言》,孫岳譯,上海人民出版社,2017年,第138-139頁。。近半個(gè)世紀(jì)以來,數(shù)字人文研究的興起給史學(xué)研究帶來了前所未有的顛覆與爭鳴,如量化史學(xué)研究方法之于經(jīng)濟(jì)史、教育史、宗教史等等⑤陳志武:《量化歷史研究的過去與未來》,《清史研究》2016年第4期。。農(nóng)史研究作為一門相對獨(dú)立的學(xué)科,只有百年的歷史,其進(jìn)展和積累對歷史學(xué)、政治經(jīng)濟(jì)學(xué)及其他社會科學(xué)具有基礎(chǔ)性科學(xué)的價(jià)值⑥王思明:《農(nóng)史研究:回顧與展望》,《中國農(nóng)史》2002年第4期。。中華農(nóng)業(yè)文明研究院作為國內(nèi)農(nóng)史研究重鎮(zhèn),是一個(gè)集科學(xué)研究、人才培養(yǎng)和信息收集與服務(wù)于一體的開放型學(xué)術(shù)機(jī)構(gòu),其特藏的《中國農(nóng)業(yè)史資料》《方志綜合》《方志物產(chǎn)》《方志分類資料》《二十五史水利史資料》《太湖地區(qū)農(nóng)業(yè)史資料》《農(nóng)業(yè)史簡報(bào)數(shù)據(jù)》等資料被學(xué)界譽(yù)為“海內(nèi)孤本”。本文基于《方志物產(chǎn)》資料的數(shù)字化、知識組織與知識挖掘等前期研究工作,提出方志物產(chǎn)知識庫構(gòu)建思路與方法,目的是將其建設(shè)成為面向農(nóng)史領(lǐng)域的數(shù)字人文研究基礎(chǔ)設(shè)施,以期在數(shù)字時(shí)代推進(jìn)農(nóng)史及其它專門史研究打開一個(gè)全新的篇章。
農(nóng)史研究作為一種學(xué)科化的努力始于20 世紀(jì)初期。在西方,美國、英國、德國、丹麥、荷蘭、法國等均為農(nóng)業(yè)史研究開展得較早的國家?!稗r(nóng)業(yè)史”在西方分別有agrarianhistory,agriculturalhistory 和ruralhistory等不同說法,筆者以這三個(gè)關(guān)鍵詞為主題,在Web of Science TM 核心合集中檢索了農(nóng)業(yè)史有關(guān)研究文獻(xiàn)被Social Sciences Citation Index(SSCI)(1995-2019)收錄的情況,共檢索出論文4345 篇。將檢索結(jié)果導(dǎo)出由網(wǎng)絡(luò)分析工具UCINET⑦UCINET官網(wǎng)地址:https://sites.google.com/site/ucinetsoftware/home。生成高頻關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜,如圖1 所示。圖中紅色為高頻關(guān)鍵詞,分別為“Rural、Hiv、China、Agriculture、Risk Factors、Migration、Gender、Development、Depression”等,以這些高頻關(guān)鍵詞為中心,將與之連接的關(guān)鍵詞進(jìn)行聚類,從文獻(xiàn)計(jì)量角度可以分析出,近二十多年來農(nóng)史研究涉及的方向較為多元,如社會學(xué)、醫(yī)學(xué)、環(huán)境科學(xué)、人類學(xué)、歷史學(xué)、農(nóng)學(xué)、政治學(xué)、地理科學(xué)等等,這與學(xué)界對“農(nóng)業(yè)史”的學(xué)科定位分歧較多有一定關(guān)系。有人認(rèn)為是歷史學(xué)派生而來;也有認(rèn)為是農(nóng)學(xué)的分支,研究的是歷史時(shí)期的農(nóng)業(yè),即古農(nóng)學(xué);還有不少研究經(jīng)濟(jì)史和農(nóng)業(yè)經(jīng)濟(jì)史的學(xué)者認(rèn)為它是經(jīng)濟(jì)學(xué)和農(nóng)業(yè)經(jīng)濟(jì)學(xué)的一個(gè)分支;還有人認(rèn)為它是科學(xué)史分化而來。經(jīng)過百年的發(fā)展,越來越多的人認(rèn)識到農(nóng)史是一門介于自然科學(xué)與社會科學(xué)之間的一門交叉學(xué)科。它運(yùn)用自然科學(xué)與社會科學(xué)相互交叉、農(nóng)業(yè)科學(xué)與歷史學(xué)相互結(jié)合的方法,探討農(nóng)業(yè)產(chǎn)生和發(fā)展的動因、動力、影響及規(guī)律①王思明:《農(nóng)史研究:回顧與展望》,《中國農(nóng)史》2002年第4期。。正是由于農(nóng)史研究的跨學(xué)科屬性,其研究方法也越來越多元化,還包括需面對“數(shù)據(jù)洪流”的問題,這都對當(dāng)今的農(nóng)史工作者提出了更高的要求,然而從另一個(gè)角度,也為農(nóng)史研究帶來新的契機(jī)與活力。
圖1 SSCI(1995-2019)收錄農(nóng)業(yè)史相關(guān)研究文獻(xiàn)高頻關(guān)鍵詞網(wǎng)絡(luò)圖譜
數(shù)字人文(Digital Humanities)可以追溯到1949 年,當(dāng)時(shí)基督教神父羅伯特·布薩(Roberto Busa)與IBM 公司一起,將圣托馬斯·阿奎那(St.Thomas Aquinas)的所有作品轉(zhuǎn)為數(shù)字形式②[美]克莉絲汀·L.伯格曼:《大數(shù)據(jù)、小數(shù)據(jù)、無數(shù)據(jù)——網(wǎng)絡(luò)世界的數(shù)據(jù)學(xué)術(shù)》,孟小峰、張祎、趙爾平譯,機(jī)械工業(yè)出版社,2017年,第130頁。。他本人被公認(rèn)為數(shù)字人文實(shí)踐先驅(qū),他的創(chuàng)新性工作被認(rèn)為是使用計(jì)算機(jī)進(jìn)行量化分析的一種全新的人文研究方法,體現(xiàn)出的是方法論上的一種革新。之后,隨著信息與網(wǎng)絡(luò)技術(shù)的發(fā)展和數(shù)字化技術(shù)的廣泛應(yīng)用,使得數(shù)字人文的研究和應(yīng)用領(lǐng)域更加寬泛。近十多年來,越來越多的專門“數(shù)字人文中心(系)”在北美、加拿大和歐洲成立,并開展了許多跨學(xué)科的數(shù)字人文項(xiàng)目,涉及歷史、考古、藝術(shù)史、英語文學(xué)、建筑等多個(gè)學(xué)術(shù)領(lǐng)域。此外,在英美學(xué)術(shù)圈內(nèi)也出現(xiàn)了專門的協(xié)會組織,這些協(xié)會將不同學(xué)校及地區(qū)的數(shù)字人文中心及學(xué)者整合起來,形成了一個(gè)龐大的國際學(xué)術(shù)社區(qū),定期組織會議及各種學(xué)術(shù)活動①陳靜:《歷史與爭論——英美“數(shù)字人文”發(fā)展綜述》,《文化研究》2013年第4期。。
基礎(chǔ)設(shè)施(Infrastructure)原意是指為社會生產(chǎn)和居民生活提供公共服務(wù)的物質(zhì)工程設(shè)施,用于保證國家或地區(qū)社會經(jīng)濟(jì)活動正常進(jìn)行的公共服務(wù)系統(tǒng),包括交通、郵電、供水供電、商業(yè)服務(wù)、醫(yī)療衛(wèi)生、環(huán)境綠化、文化教育等等②劉煒、謝蓉、張磊:《面向人文研究的國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)》,《中國圖書館報(bào)》2016年第5期。。由此引申的概念有信息基礎(chǔ)設(shè)施(Information Infrastructure)、網(wǎng)絡(luò)基礎(chǔ)設(shè)施(Cyberinfrastructure)、數(shù)字基礎(chǔ)設(shè)施(Digital Infrastructure)、研究基礎(chǔ)設(shè)施(Research Infrastructure)以及科研數(shù)據(jù)基礎(chǔ)設(shè)施(Research DataInfrastructure)等。根據(jù)2003 年美國國家科學(xué)基金會(National Science Foundation)的一篇報(bào)告,網(wǎng)絡(luò)基礎(chǔ)設(shè)施被計(jì)算機(jī)科學(xué)家Dan Atkins 等人定義為支持大規(guī)模數(shù)字對象的存儲、共享、分析的大型基礎(chǔ)設(shè)施,并且他們認(rèn)為“若基礎(chǔ)設(shè)施的建設(shè)是為了工業(yè)經(jīng)濟(jì),那網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)則是為了知識經(jīng)濟(jì)”③D.Atkins,Revolutionizing science and engineering through cyberinfrastructure:Report of the National Science Foundationblue—ribbon advisory panel on cyberinfrastructure,2003.。
相較于美國,歐洲在研究基礎(chǔ)設(shè)施(RIs)建設(shè)方面走在了全球前列。研究基礎(chǔ)設(shè)施被描述為“科研團(tuán)體為開展研究以及創(chuàng)新培育而使用的工具、資源與服務(wù)集合”④L.Candela,D.Castelli,P.Pagano,Virtual research environments:an overview and a research agenda:Data Science Journal,2013,pp.75—81.,例如歐洲網(wǎng)格計(jì)算基礎(chǔ)設(shè)施European Grid Infrastructure(https://www.egi.eu/)、學(xué)術(shù)交流基礎(chǔ)設(shè)施OpenAIRE(https://www.openaire.eu/)、提供虛擬研究環(huán)境的數(shù)據(jù)基礎(chǔ)設(shè)施D4Science(https://www.d4science.org/)等。GRDI2020(Global Research Data Infrastructures 2020)項(xiàng)目專家組將科研數(shù)據(jù)基礎(chǔ)設(shè)施定義為一個(gè)以數(shù)字化科研數(shù)據(jù)為中心,包含服務(wù)與工具的管理型網(wǎng)絡(luò)環(huán)境⑤F.Karagiannis,D.Keramida,Y.Ioannidis,et al,Technological and Organisational Aspects of Global Research Data Infrastructures Towards Year 2020:Data Science Journal,2013,pp.1-5.。從概念的范圍來看,“科研數(shù)據(jù)基礎(chǔ)設(shè)施”屬于“研究基礎(chǔ)設(shè)施”,兩者皆從屬于“網(wǎng)絡(luò)基礎(chǔ)設(shè)施”(或“數(shù)字基礎(chǔ)設(shè)施”),“數(shù)字人文研究基礎(chǔ)設(shè)施”應(yīng)從屬于“研究基礎(chǔ)設(shè)施”,即支持人文學(xué)者在數(shù)字環(huán)境下開展科研活動的必須具備的基礎(chǔ)設(shè)施⑥Alessia Bardi,Luca Frosini,Building a Federation of Digital Humanities Infrastructures.https://ercim—news.ercim.eu/en111/special/building-a-federation-of-digital-humanities-infrastructures.,包括與主題相關(guān)的數(shù)字化文獻(xiàn)資源、數(shù)據(jù)、軟件工具、硬件(云存儲),系統(tǒng)平臺等對象,并支持人文科學(xué)研究數(shù)據(jù)分享與重用,促進(jìn)科研成果在線出版、全球人文學(xué)科合作,加速科研創(chuàng)新的生態(tài)系統(tǒng)。
近些年,全球尤其是歐洲數(shù)字人文研究基礎(chǔ)設(shè)施數(shù)量急劇增長,大多數(shù)研究基礎(chǔ)設(shè)施都聚焦于人文學(xué)科的特定領(lǐng)域,比如面向考古學(xué)的ARIADNE(http://www.ariadne-infrastructure.eu/)、研究大屠殺歷史的EHRI(https://www.ehri-project.eu/)、面向歷史研究的Cendari(http://www.cendari.eu/)、面向語言學(xué)研究的CLARIN(https://www.clarin.eu/)、面向藝術(shù)與人文學(xué)科的DARIAH(https://www.dariah.eu/)以及面向文化遺產(chǎn)研究的IPERION(http://www.iperionch.eu/)等等。這些數(shù)字人文研究基礎(chǔ)設(shè)施為相關(guān)學(xué)科領(lǐng)域?qū)W者提供了支撐跨學(xué)科研究的資源、工具、數(shù)據(jù)管理與檢索的通用解決方案。
從目前全球數(shù)字人文研究的發(fā)展階段來看,雖歷經(jīng)幾十載,除歐盟成立了專門機(jī)構(gòu)來落實(shí)數(shù)字人文研究基礎(chǔ)設(shè)施以外,其他基于國家層面的廣義數(shù)字人文研究基礎(chǔ)設(shè)施還未能建成。一般是政府表明支持態(tài)度,由各類財(cái)團(tuán)、基金會以及一些官方或非官方組織,在各自學(xué)科、領(lǐng)域進(jìn)行相關(guān)主題的狹義數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)。例如美國的數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)思路就與歐洲截然相反,其建設(shè)并非由政府的科技政策制定者與管理者來主導(dǎo),而是由各學(xué)科領(lǐng)域的數(shù)字人文研究學(xué)者來推動①W.Kaltenbrunner,Digital Infrastructure for the Humanities in Europe and the US:Governing Scholarship through Coordinated Tool Development:Computer Supported Cooperative Work,2017,Vol.26 No.3,pp.1-34.。這種自下而上的建設(shè)方式也催生出大量不同學(xué)科領(lǐng)域、不同專業(yè)方向的優(yōu)秀成果,盡管這些成果目前可能還存在技術(shù)標(biāo)準(zhǔn)化、資源整合、版權(quán)等諸多問題?;蛟S在未來,可期更多的組織機(jī)構(gòu)攜手聯(lián)合,由國家層面制定并出臺相關(guān)標(biāo)準(zhǔn)框架,真正形成體系完整、標(biāo)準(zhǔn)統(tǒng)一、數(shù)據(jù)共享、跨學(xué)科領(lǐng)域的綜合數(shù)字人文研究基礎(chǔ)設(shè)施。
目前國內(nèi)外與農(nóng)史相關(guān)的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)還是以數(shù)字化資源存儲項(xiàng)目居多,嚴(yán)格意義上來說,大多數(shù)還處于數(shù)字人文基礎(chǔ)設(shè)施的初級階段,相關(guān)平臺還缺乏支持諸如文本挖掘、時(shí)空分析、社會網(wǎng)絡(luò)分析等數(shù)字人文研究常用方法的工具與服務(wù)模塊。美國農(nóng)業(yè)部(USDA)下屬的國家農(nóng)業(yè)圖書館(National Agricultural Library,NAL)開發(fā)了多項(xiàng)農(nóng)業(yè)史數(shù)字人文項(xiàng)目,如“Growing a Nation:The Story of American Agriculture”項(xiàng)目(https://growinganation.org/),是以劇本故事的形式來講述美國的農(nóng)業(yè)史,采用了農(nóng)史編年體、視頻、教師授課計(jì)劃等多種多媒體形式來展現(xiàn);“Homestead Act”項(xiàng)目(https://www.nal.usda.gov/homestead-act),是對林肯當(dāng)年頒布與實(shí)施“宅地法”的相關(guān)歷史文獻(xiàn)資源進(jìn)行了數(shù)字化;“Organic Roots Digital Collection”項(xiàng)目(https://naldc.nal.usda.gov/organic_roots/)收集了合成有機(jī)物被廣泛應(yīng)用之前的出版的農(nóng)業(yè)歷史期刊全文,主要是1942年之前的農(nóng)業(yè)技術(shù)與有機(jī)農(nóng)業(yè)信息。
美國康奈爾大學(xué)的“Core Historical Literature of Agriculture”項(xiàng)目(https://digital.library.cornell.edu/collections/chla)是一個(gè)收錄了自19世紀(jì)早期至20世紀(jì)末出版的,涵蓋農(nóng)業(yè)經(jīng)濟(jì)學(xué)、農(nóng)業(yè)工程學(xué)、動物科學(xué)、植物保護(hù)學(xué)、食品科學(xué)、人類營養(yǎng)學(xué)、農(nóng)村社會學(xué)以及土壤學(xué)等專業(yè)領(lǐng)域的各類重要文獻(xiàn),數(shù)字化后支持全文檢索;康奈爾大學(xué)還與美國農(nóng)業(yè)部下屬的美國農(nóng)業(yè)統(tǒng)計(jì)局聯(lián)合開發(fā)了“USDA Census of Agriculture Historical Archive”項(xiàng)目(http://agcensus.mannlib.cornell.edu/AgCensus/homepage.do),它對美國農(nóng)場、牧場以及農(nóng)民檔案進(jìn)行了詳細(xì)的統(tǒng)計(jì),檔案資料涉及土地利用、土地所有權(quán)、經(jīng)營者的情況、生產(chǎn)實(shí)踐、收支情況等等方面。美國國會圖書館建設(shè)的“Historical Agricultural News”數(shù)字人文項(xiàng)目(http://agnews.net/)可對美國歷史上的農(nóng)業(yè)機(jī)構(gòu)、農(nóng)業(yè)技術(shù)以及生產(chǎn)實(shí)踐活動等數(shù)字化報(bào)紙資源進(jìn)行檢索,這些歷史農(nóng)業(yè)數(shù)據(jù)還可以支撐諸如經(jīng)濟(jì)實(shí)踐、移民活動、語言文字的應(yīng)用、媒體的影響等其他領(lǐng)域的研究。
科羅拉多州立大學(xué)的“Colorado Agriculture and Rural Life”項(xiàng)目(https://lib2.colostate.edu/research/agbib/)對科羅拉多州歷史上重要的農(nóng)業(yè)與農(nóng)村文獻(xiàn)資料進(jìn)行了整理,主要包括與農(nóng)業(yè)歷史相關(guān)的水資源、教育、礦產(chǎn)、旅游、娛樂產(chǎn)業(yè)等主題,文獻(xiàn)類型主要有圖書、期刊、學(xué)位論文、地圖、圖片、檔案等。聯(lián)合國糧農(nóng)組織(FAO)根據(jù)各國農(nóng)業(yè)科研和生產(chǎn)發(fā)展的需要,于1975 年建立的題錄型數(shù)據(jù)庫ARGIS(http://agris.fao.org/agris-search/index.do),收錄了FAO 編輯出版的全部出版物和180 多個(gè)參加國和地區(qū)提供的農(nóng)業(yè)文獻(xiàn)信息,特別是第三世界國家農(nóng)業(yè)、林業(yè)及相關(guān)學(xué)科的應(yīng)用研究方面的文獻(xiàn),1979年以后部分?jǐn)?shù)據(jù)提供了文摘。
在亞洲,日本農(nóng)林水產(chǎn)省建制的“Agriknowledge”知識庫(https://agriknowledge.affrc.go.jp/)提供了大量日本農(nóng)業(yè)科學(xué)與技術(shù)相關(guān)的信息資源,如論文、研究課題、研究成果、認(rèn)定品種等,此外還提供明治時(shí)代至今百余年的農(nóng)具檢索,為其平臺特色之一。
國內(nèi)農(nóng)史領(lǐng)域的數(shù)字人文基礎(chǔ)設(shè)施建設(shè)項(xiàng)目目前還比較稀少,南京農(nóng)業(yè)大學(xué)中華農(nóng)業(yè)文明研究院相關(guān)學(xué)者之前在此領(lǐng)域做了一些基礎(chǔ)性工作:例如在數(shù)據(jù)庫建設(shè)方面,研制開發(fā)的中國農(nóng)業(yè)遺產(chǎn)信息平臺包含農(nóng)史論文題錄數(shù)據(jù)庫、農(nóng)業(yè)古籍目錄數(shù)據(jù)庫、中國農(nóng)業(yè)遺產(chǎn)選集圖文庫、民國資料圖文庫、方志資料圖文庫、農(nóng)業(yè)典籍善本圖文庫、農(nóng)業(yè)古籍全文數(shù)據(jù)庫及農(nóng)史論文全文數(shù)據(jù)庫等若干數(shù)據(jù)庫,初步實(shí)現(xiàn)了各類資源的數(shù)字化,在一定程度上促進(jìn)了資源共享①曹玲、常娥、薛春香:《農(nóng)史研究的新工具——中國農(nóng)業(yè)遺產(chǎn)信息平臺的設(shè)計(jì)與構(gòu)建》,《中國農(nóng)史》2006年第1期。;曹玲研究了古籍?dāng)?shù)字化整理方法與過程并列舉了《齊民要術(shù)》知識庫的構(gòu)建實(shí)踐②曹玲:《農(nóng)業(yè)古籍?dāng)?shù)字化整理研究》,南京農(nóng)業(yè)大學(xué)博士學(xué)位論文,2006年。;王雅戈對民國時(shí)期農(nóng)業(yè)文獻(xiàn)數(shù)據(jù)庫建設(shè)展開研究③王雅戈:《民國農(nóng)業(yè)文獻(xiàn)數(shù)字化整理及信息組織研究》,南京農(nóng)業(yè)大學(xué)博士學(xué)位論文,2007年。。在文本挖掘與知識組織方面,黃建年研究并設(shè)計(jì)出農(nóng)業(yè)古籍自動斷句標(biāo)點(diǎn)的算法,并實(shí)現(xiàn)了農(nóng)業(yè)古籍?dāng)嗑錁?biāo)點(diǎn)的原型系統(tǒng)④黃建年:《農(nóng)業(yè)古籍的計(jì)算機(jī)斷句標(biāo)點(diǎn)與分詞標(biāo)引研究》,南京農(nóng)業(yè)大學(xué)博士學(xué)位論文,2009年。;常娥對古籍自動編纂、自動??毕嚓P(guān)智能處理技術(shù)展開了研究⑤常娥:《古籍智能處理技術(shù)研究》,南京農(nóng)業(yè)大學(xué)博士學(xué)位論文,2007年。;何琳構(gòu)建了古農(nóng)書的本體,提高農(nóng)史信息資源語義檢索的效果⑥何琳:《古農(nóng)學(xué)本體的半自動構(gòu)建及檢索研究》,南京農(nóng)業(yè)大學(xué)博士學(xué)位論文,2007年。;唐恵燕利用GIS 技術(shù)對1949-2011 江蘇水稻種植進(jìn)行了時(shí)空變遷的實(shí)證研究⑦唐惠燕:《基于GIS江蘇種植結(jié)構(gòu)演變研究(1949-2011)》,南京農(nóng)業(yè)大學(xué)博士學(xué)位論文,2014年。。
其實(shí)在歷史學(xué)領(lǐng)域,國內(nèi)外已經(jīng)有諸多較為成功的數(shù)字人文基礎(chǔ)設(shè)施項(xiàng)目,在此圍繞中國歷史研究舉例一二。例如,哈佛大學(xué)費(fèi)正清研究中心與北京大學(xué)中國古代史研究中心、臺灣中研院史語所聯(lián)合建設(shè)的“中國歷代人物傳記資料庫(CBDB)”項(xiàng)目(https://projects.iq.harvard.edu/chinesecbdb),其負(fù)責(zé)人包弼德教授也多次在各種場合提出要建設(shè)服務(wù)于中國歷史研究的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,提出可通過API 分享和文檔分享來聚合網(wǎng)絡(luò)上不同的數(shù)字資源,也可避免基礎(chǔ)數(shù)據(jù)建設(shè)的重復(fù)勞動。臺灣大學(xué)數(shù)位人文研究中心的“臺灣歷史數(shù)位圖書館(THDL)”(http://thdl.ntu.edu.tw/index.html)也是以提供數(shù)字人文研究基礎(chǔ)設(shè)施為目的來建設(shè)的。在THDL中,不但有提供全文檢索、元數(shù)據(jù)檢索功能的全文數(shù)據(jù)庫(淡新檔案、明清臺灣行政檔案、古契書),還提供了可服務(wù)人文研究的各類軟件工具集,如中西歷日期對照查詢、清代官職表、度量衡單位換算系統(tǒng)、THDL 前后綴詞分析工具等等,其設(shè)計(jì)理念已經(jīng)超越了普通的數(shù)據(jù)庫存儲系統(tǒng),而是可以幫助研究人員發(fā)現(xiàn)新問題的有效平臺。
此外,還有上海交通大學(xué)研發(fā)的中國地方歷史文獻(xiàn)數(shù)據(jù)庫(http://dfwx.datahistory.cn/pc/)、復(fù)旦大學(xué)的中國歷史地理信息系統(tǒng)(CHGIS)(http://yugong.fudan.edu.cn/)、臺灣中研院開發(fā)的中華文明時(shí)空基礎(chǔ)架構(gòu)(CCTS)(http://ccts.ascc.net/)等項(xiàng)目,均可作為相關(guān)主題研究的數(shù)字人文研究基礎(chǔ)設(shè)施。從以上案例可窺探出,目前國內(nèi)外數(shù)字人文項(xiàng)目大多數(shù)還是以服務(wù)特定領(lǐng)域與主題的人文研究為主。在歐洲以外的地區(qū),國家層面主導(dǎo)的數(shù)字人文基礎(chǔ)設(shè)施建設(shè)還存在諸多困難與問題,但是考慮到研究基礎(chǔ)設(shè)施建設(shè)勢在必行,因此以機(jī)構(gòu)為主導(dǎo)的研究基礎(chǔ)設(shè)施項(xiàng)目若在設(shè)計(jì)之初即著重思考數(shù)據(jù)的交互、資源的共享、工具的適用、用戶的合作等標(biāo)準(zhǔn)化問題,就有可能在未來與國家級研究數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行對接并成為其重要組成部分。
數(shù)字人文研究基礎(chǔ)設(shè)施的建設(shè)應(yīng)始終圍繞人文學(xué)者的學(xué)術(shù)研究需求來展開,若要對人文學(xué)者的研究需求進(jìn)行分析,則首先應(yīng)深刻理解人文研究的活動過程,尤其是在e-Research⑧T.Anderson,H.Kanuka,E-research:Methods,strategies,and issues:Boston:Allyn and Bacon,2003.大時(shí)代背景下的虛擬研究環(huán)境(Virtual Research Environment,VREs)⑨L.Candela,Virtual research environments:GRDI2020 Scientific Report,2011.之中的學(xué)術(shù)活動過程。美國數(shù)字人文研究學(xué)者John Unsworth 早在2000 年一次研討會中就提出“學(xué)術(shù)基本體”(Scholarly Primitives,也有國內(nèi)學(xué)者翻譯為“學(xué)術(shù)原語”①劉煒、葉鷹:《數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討》,《中國圖書館學(xué)報(bào)》2017年第5期。)的概念,認(rèn)為具有共同特征的學(xué)術(shù)活動是超越學(xué)科與時(shí)代的,具體包括:探索(Discovering)、注釋(Annotating)、比對(Comparing)、咨詢(Referring)、取樣(Sampling)、闡釋(Illustrating)、表達(dá)(Representing)等七個(gè)方面②J.Unsworth,Scholarly primitives:What methods do humanities researchers have in common,and how might our tools reflect this,Symposium on Humanities Computing:Formal Methods,Experimental Practice,London:King’s College,2000,Vol.13,pp.5-00.。C.L.Palmer 等學(xué)者定義了在虛擬網(wǎng)上研究環(huán)境中的五個(gè)核心學(xué)術(shù)基本體:搜尋(Searching),收集(Collecting)、閱讀(Reading)、寫作(Writing)與協(xié)作(Collaborating),其中每一個(gè)學(xué)術(shù)基本體中又細(xì)分為若干個(gè),總計(jì)16個(gè)二級學(xué)術(shù)基本體,比如“合作”中又有協(xié)同(Coordinating)、聯(lián)網(wǎng)(Networking)、咨詢(Consulting)等③C.L.Palmer,L.C.Teffeau,C.M.Pirmann,Scholarly Information Practices in the Online Environment:Themes from the Literature and Implications for Library Service Development,2009.。Tobias Blanke 與Sheila Anderson 等學(xué)者基于數(shù)字人文研究基礎(chǔ)設(shè)施的使用角度,通過對人文研究學(xué)者的深度訪談?wù){(diào)查④Anderson S,Blanke T,Dunn S,Methodological commons:arts and humanities e-Science fundamentals,Philosophical Transactions of the Royal Society of London A:Mathematical,Physical and Engineering Sciences,2010,Vol.368,pp.3779-3796.,總結(jié)出五個(gè)核心學(xué)術(shù)基本體:探索(Discovering)、收集(Collecting)、比對(Comparing)、發(fā)布(Delivering)和協(xié)作(Collaborating),以及多個(gè)細(xì)粒度的二級學(xué)術(shù)基本體⑤T.Blanke,M.Hedges,Scholarly primitives:Building institutional infrastructure for humanities e-Science:Future GenerationComputer Systems,2013,Vol.29 No.2,pp.654-661.。以上學(xué)者提出的“學(xué)術(shù)基本體”研究,可以看成是數(shù)字人文研究“方法共同體(Methodological Commons)”⑥W.McCarty,H.Short,Mapping the field,Report of ALLC meeting held in Pisa,2002.的概念化及具體闡釋。雖然在虛擬研究環(huán)境中,數(shù)字人文研究方法存在一定的共性,但是也要深刻意識到不同人文學(xué)科之間的研究對象、研究方法、研究過程的差異性。
中國農(nóng)史研究有近百年歷史,從工作的主要內(nèi)容來看主要分為兩大階段:一是20世紀(jì)初到20世紀(jì)80 年代中期,工作重心為農(nóng)史研究基本資料的收集與整理,在這期間基本上中國最重要的古農(nóng)書均已被梳理一遍,這也為現(xiàn)今的數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)奠定了數(shù)據(jù)基礎(chǔ);二是20世紀(jì)80年代后期,完成資料收集與整理階段性任務(wù)后,逐步向農(nóng)業(yè)科技史和農(nóng)業(yè)經(jīng)濟(jì)史研究,研究方法也更具多元化趨勢。張波對農(nóng)史學(xué)科的研究方法體系進(jìn)行了詳細(xì)劃分,他提出基本研究方法包括傳統(tǒng)的文獻(xiàn)研究方法、考古學(xué)與民族學(xué)研究方法以及新興的科學(xué)研究方法如比較農(nóng)史研究、計(jì)量農(nóng)史研究、系統(tǒng)農(nóng)史研究等⑦張波:《試論農(nóng)史學(xué)科層次結(jié)構(gòu)和理論方法體系》,《中國農(nóng)史》1992年第2期。;王思明認(rèn)為傳統(tǒng)農(nóng)史研究主要采用歷史學(xué)、文獻(xiàn)學(xué)、版本目錄學(xué)和古文字學(xué)等研究方法,現(xiàn)代的研究開始大量借鑒其他學(xué)科的研究方法,如經(jīng)濟(jì)學(xué)、社會學(xué)、人類學(xué)、民族性、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、考古學(xué)、農(nóng)學(xué)等,特別是吸收了歐美及日本等國的研究經(jīng)驗(yàn)與視角,開始注重比較研究方法的運(yùn)用(時(shí)間、空間及時(shí)空的綜合比較)、計(jì)量學(xué)與統(tǒng)計(jì)方法的應(yīng)用等⑧王思明:《農(nóng)史研究:回顧與展望》,《中國農(nóng)史》2002年第4期。。
綜合來看,農(nóng)史學(xué)科具有歷史學(xué)、生物學(xué)、環(huán)境科學(xué)、土壤學(xué)、經(jīng)濟(jì)學(xué)等多學(xué)科的特征,其跨學(xué)科屬性也決定了它與廣義的歷史學(xué)研究還存在一定的差異性,近些年許多優(yōu)秀農(nóng)史研究成果中定量分析的比重明顯提升,領(lǐng)域?qū)W者也開始注重將前期整理的農(nóng)業(yè)古籍資料開始數(shù)字化,并運(yùn)用計(jì)算機(jī)信息技術(shù)諸如文本分析、內(nèi)容挖掘、地理空間分析、社會網(wǎng)絡(luò)分析等對資料進(jìn)行處理。如南京農(nóng)業(yè)大學(xué)科學(xué)技術(shù)史(農(nóng)業(yè)史)博士點(diǎn)在2003年就開辟了“科技史信息組織”方向,以侯漢清為首的研究團(tuán)隊(duì)取得了令人矚目的研究成果,出版了“中國文化典籍計(jì)算機(jī)整理與開發(fā)技術(shù)研究系列”叢書??梢哉f,相較于其他人文學(xué)科,我國農(nóng)史學(xué)者是較早意識到采用數(shù)字人文研究的方法來拓展研究領(lǐng)域和內(nèi)容的,盡管在當(dāng)時(shí),“數(shù)字人文”的概念還未在國內(nèi)落地與普及。而這些領(lǐng)域?qū)W者的研究活動也是具有一定的共同性,也就是上文提到的“學(xué)術(shù)基本體”,筆者將Tobias Blanke 提出的學(xué)術(shù)基本體與農(nóng)史領(lǐng)域已有相關(guān)研究成果中的研究情景以及劉煒、葉鷹提出的數(shù)字人文技術(shù)體系①劉煒、葉鷹:《數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討》,《中國圖書館學(xué)報(bào)》2017年第5期。進(jìn)行映射,結(jié)果如表1所示。
表1 農(nóng)史領(lǐng)域數(shù)字人文研究情景、學(xué)術(shù)基本體與技術(shù)體系映射
將領(lǐng)域?qū)W者的學(xué)術(shù)研究活動進(jìn)行歸納得到學(xué)術(shù)基本體,而與之相關(guān)的資源、工具、服務(wù)等,均為研究基礎(chǔ)設(shè)施建設(shè)需涉及的方面。劉煒等學(xué)者提出數(shù)字人文研究基礎(chǔ)設(shè)施框架應(yīng)分為三個(gè)層次,核心是由文獻(xiàn)資源及其服務(wù)機(jī)構(gòu)組成,提供基本研究素材的保障;中間層由基金會、資源庫、機(jī)構(gòu)倉儲、計(jì)算設(shè)施、系統(tǒng)平臺、工具軟件、領(lǐng)域?qū)<液蛿?shù)據(jù)科學(xué)家等構(gòu)成,這一層是數(shù)字人文研究活動的主體;外層是數(shù)字人文成果發(fā)布、與社會交互、產(chǎn)生社會影響的界面層,由門戶或平臺形式呈現(xiàn)②劉煒、謝蓉、張磊:《面向人文研究的國家數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)》,《中國圖書館報(bào)》2016年第5期。。對于農(nóng)史領(lǐng)域的數(shù)字人文研究,此框架同樣適用,其核心層文獻(xiàn)資源大致包括史書、古農(nóng)書、地方志類編物產(chǎn)資料、文人文集游記、農(nóng)史研究文獻(xiàn)、自然科學(xué)研究數(shù)據(jù)、農(nóng)業(yè)經(jīng)濟(jì)數(shù)據(jù)等等。
縱觀農(nóng)史領(lǐng)域前期數(shù)字人文研究,大多數(shù)為個(gè)人的特定選題研究(以學(xué)位論文為主),其問題在于多數(shù)文獻(xiàn)資源的數(shù)字化、數(shù)據(jù)化乃至知識化的過程存在不可通約性,如元數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計(jì)缺乏評價(jià)、數(shù)據(jù)庫構(gòu)建缺乏規(guī)劃、相關(guān)本體的不可復(fù)用、軟件工具非開源等,這些也導(dǎo)致前期的研究數(shù)據(jù)無法進(jìn)一步為其他研究者所用,與其他各類數(shù)據(jù)源的數(shù)據(jù)無法融合以及軟件工具的功能擴(kuò)展性較差等一系列問題?;诖耍嫦蜣r(nóng)史領(lǐng)域的數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)勢在必行。
農(nóng)史領(lǐng)域數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)需以文獻(xiàn)資源為核心,資源的獨(dú)特性與唯一性是研究基礎(chǔ)設(shè)施建設(shè)必要性的前提,也是區(qū)別其他以機(jī)構(gòu)為導(dǎo)向的研究基礎(chǔ)設(shè)施的標(biāo)志。在農(nóng)史領(lǐng)域,古籍方志中記載的物產(chǎn)資料是重要的研究史料,是領(lǐng)域?qū)W者進(jìn)行相關(guān)研究不可忽視的重要文獻(xiàn)資料。在本節(jié)中,筆者以中華農(nóng)業(yè)文明研究院特藏文獻(xiàn)《方志物產(chǎn)》資料為核心資源,結(jié)合前期相關(guān)研究成果以及未來研究工作計(jì)劃談一談面向農(nóng)史領(lǐng)域的數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)構(gòu)想。
方志是歷史研究的必需文獻(xiàn),從清代開始,已經(jīng)形成了一門獨(dú)立的學(xué)問。方志以志為主體,有述、記、志、傳、圖、表、錄等,在歷時(shí)性的維度下對特定區(qū)域的建置沿革、分野、疆域、城池、山川、坊郭鎮(zhèn)市、土產(chǎn)、風(fēng)俗、戶口、學(xué)校、軍衛(wèi)、郡縣廨舍、寺觀、祠廟、橋梁、古跡、宦跡、人物、仙釋、雜志、詩文進(jìn)行描述和記載①倉修良:《方志學(xué)通論》,華東師范大學(xué)出版社,2013年。。其中的“物產(chǎn)”幾乎一直是方志必載項(xiàng)目,簡稱方志物產(chǎn)。方志物產(chǎn)記載一地的動植物資源(部分方志物產(chǎn)也包含貨物,如礦物資源),方志物產(chǎn)是方志中記載農(nóng)業(yè)最多、最集中的部分,這在以農(nóng)立國的中國有著更為重要的地位,傳統(tǒng)中國是農(nóng)業(yè)社會,無論是研究古代史還是近代史都或與農(nóng)業(yè)發(fā)生聯(lián)系。
1924年,主政金陵大學(xué)農(nóng)業(yè)圖書研究部的萬國鼎先生,開始計(jì)劃輯錄古書中有關(guān)農(nóng)業(yè)的資料“片段的農(nóng)學(xué)記載”,匯編為《先農(nóng)集成》,開始了方志的搜集工作,后由于戰(zhàn)爭中止;1949 年,中國農(nóng)業(yè)遺產(chǎn)研究室成立伊始就開始重啟方志的查抄工作,依舊由萬國鼎先生負(fù)責(zé),其工作團(tuán)隊(duì)足跡遍布40 多個(gè)大中城市和100 多個(gè)文史單位,到1958 年查抄方志工作基本完成,1959 年整理,1960 年初編成《方志物產(chǎn)》449冊、《方志綜合》111冊、《方志分類》120冊,共680巨冊3600余萬字,成為今天中華農(nóng)業(yè)文明研究院的鎮(zhèn)院之寶②萬國鼎:《中國農(nóng)業(yè)史整理研究計(jì)劃草案》,載王思明、陳少華主編:《萬國鼎文集》。,其中以《方志物產(chǎn)》價(jià)值為最大。
概言之,《方志物產(chǎn)》是上個(gè)世紀(jì)建國前后,大批有識之士在萬國鼎先生的策劃和組織下集一代人心血精心搜集、挑選和抄寫裝訂起來的大型方志類文獻(xiàn)匯編,具有唯一性和不可替代的豐富性,海內(nèi)外未見同類型的其它文獻(xiàn)可與之媲美。
本文提出面向農(nóng)史領(lǐng)域的數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)可先以方志物產(chǎn)知識庫構(gòu)建為首要工程,基于該知識庫可對方志物產(chǎn)資料展開知識發(fā)現(xiàn)、知識考證以及深度利用研究。方志物產(chǎn)知識庫構(gòu)建步驟具體可分為四個(gè)環(huán)節(jié):數(shù)字化、數(shù)據(jù)化、知識化及平臺化。打一個(gè)比喻,“數(shù)字化”的工作是將活牛進(jìn)行屠宰與清洗;“數(shù)據(jù)化”的工作是將牛進(jìn)行肢解,并將各部位按照用途進(jìn)行初步加工;“知識化”的工作是將初步加工的部位按照食譜與其他食材按嚴(yán)格比例進(jìn)行烹煮并得到最終的食物,如一塊“菲力”牛排(牛之里脊肉);“平臺化”的工作就是要解決用什么樣的餐具、配合什么樣的美酒或是在什么樣的就餐環(huán)境去消費(fèi)這一塊牛排,讓食客得到更完美的體驗(yàn)。數(shù)據(jù)科學(xué)家、領(lǐng)域?qū)<疫@些專業(yè)的“廚師”將貫穿在基礎(chǔ)設(shè)施的建設(shè)過程之中。方志物產(chǎn)知識庫構(gòu)建框架如圖2所示。
(1)數(shù)字化——方志物產(chǎn)資料數(shù)字化整理與加工
對手抄孤本《方志物產(chǎn)》進(jìn)行數(shù)字化是其得以保存和利用的重要手段之一。在此基礎(chǔ)上,還需以國內(nèi)外各種方志目錄為線索,對相關(guān)資料進(jìn)行二次輯錄、整理與查漏補(bǔ)缺,形成更為完整、全面的方志物產(chǎn)資料,這也是數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)的前期基礎(chǔ)性工作。
《方志物產(chǎn)》原始文本的地域范圍幾乎涵蓋國內(nèi)所有行政區(qū)劃,時(shí)間跨度從宋代至民國,內(nèi)容體系包括目錄、序言、正文和結(jié)語。首先,需由數(shù)據(jù)科學(xué)家確定重新整理與輯錄后的方志物產(chǎn)資料數(shù)字化的整體框架,針對原始《方志物產(chǎn)》體例進(jìn)行編碼設(shè)計(jì),編制歷史時(shí)間索引、來源志書索引、行政區(qū)域索引等,選取人工錄入和機(jī)器掃描相結(jié)合的策略實(shí)現(xiàn)方志物產(chǎn)資料的數(shù)字化;其次,根據(jù)方志物產(chǎn)資料的字詞分布特征,對于文本內(nèi)容的繁簡呈現(xiàn)、漢字編碼集的確定以及生僻詞造字方法的選擇等相關(guān)漢字錄入問題給出行之有效的解決方案;再次,針對方志物產(chǎn)資料的文獻(xiàn)資源內(nèi)外部特征,借鑒國內(nèi)外多種元數(shù)據(jù)標(biāo)準(zhǔn),例如都柏林核心元數(shù)據(jù)、國家圖書館地方志描述元數(shù)據(jù)等,設(shè)計(jì)方志物產(chǎn)描述元數(shù)據(jù);最后,對于錄入的方志物產(chǎn)電子文本,依據(jù)行文格式及相關(guān)內(nèi)容設(shè)置數(shù)據(jù)庫字段,同時(shí)結(jié)合機(jī)器掃描的圖像及其相應(yīng)處理,完成涵蓋序言(序)、檢索樣例說明(敘例)、來源方志名稱拼音檢字、行政區(qū)域拼音檢字、年代和正文以及手抄孤本原貌(圖像)的基本素材庫的構(gòu)建。文獻(xiàn)資源數(shù)字化是整個(gè)基礎(chǔ)設(shè)施建設(shè)的基石,其資源數(shù)字化的質(zhì)量決定了后續(xù)基礎(chǔ)設(shè)施建設(shè)的成敗。
圖2 方志物產(chǎn)知識庫構(gòu)建框架
(2)數(shù)據(jù)化——方志物產(chǎn)資料多層級標(biāo)注
在這一環(huán)節(jié)將要實(shí)現(xiàn)數(shù)字化文本到數(shù)據(jù)化語料庫的轉(zhuǎn)換。首先,在方志物產(chǎn)基本素材庫的基礎(chǔ)之上,由領(lǐng)域?qū)<已芯坎w納各時(shí)期不同地域方志物產(chǎn)資料的知識書寫的差異性,得到方志物產(chǎn)多特征詞匯底表;再由數(shù)據(jù)科學(xué)家針對詞匯的顯性與隱性語義知識,通過人工標(biāo)注、機(jī)器學(xué)習(xí)的策略完成方志物產(chǎn)資料數(shù)字化文本的分詞、詞性、命名實(shí)體和斷句的自動標(biāo)注,同時(shí)構(gòu)建基于方志物產(chǎn)資料的自動分詞、自動詞性標(biāo)注、自動命名實(shí)體識別和方志自動斷句模型,通過不斷修正模型提升標(biāo)注數(shù)據(jù)集質(zhì)量,實(shí)現(xiàn)對方志物產(chǎn)資料中蘊(yùn)含的“人、時(shí)、地、物、事”等命名實(shí)體的一體化標(biāo)注,最終得到一個(gè)多層級標(biāo)注的結(jié)構(gòu)化的方志物產(chǎn)語料庫。一些有豐富軟件開發(fā)或工具使用經(jīng)驗(yàn)的數(shù)字人文研究者可直接利用語料庫中的數(shù)據(jù)集來展開他們預(yù)設(shè)的各類主題研究。
(3)知識化——方志物產(chǎn)資料語義知識組織
對方志物產(chǎn)資料文本僅僅進(jìn)行淺層次的數(shù)字化與數(shù)據(jù)化,并不能滿足領(lǐng)域?qū)W者對古籍方志進(jìn)行文本挖掘、語義分析和知識發(fā)現(xiàn)的需求。在這一個(gè)階段仍然需要領(lǐng)域?qū)<遗c數(shù)據(jù)科學(xué)家通力合作,先需對網(wǎng)絡(luò)環(huán)境下方志物產(chǎn)資料語義知識組織的深度序化機(jī)制及實(shí)現(xiàn)路徑進(jìn)行探究;然后在此基礎(chǔ)上構(gòu)建方志物產(chǎn)領(lǐng)域知識本體,利用本體對相關(guān)資源(包括獲取的網(wǎng)絡(luò)資源)進(jìn)行語義標(biāo)注,建立詞匯間的語義關(guān)系,如上位詞(屬關(guān)系)、主題詞(用關(guān)系)、其下位詞(分關(guān)系)、參見詞(代關(guān)系)等,并存儲對象類、屬性以及對象之間的語義關(guān)系,作為后續(xù)方志物產(chǎn)知識庫構(gòu)建提供深度的語義層面知識。對方志物產(chǎn)資料展開語義知識組織,滿足書目控制和規(guī)范控制、數(shù)據(jù)重用與共享等需求,是數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)的重要環(huán)節(jié)。
(4)平臺化——方志物產(chǎn)知識庫平臺構(gòu)建
“平臺化”是數(shù)字人文研究基礎(chǔ)設(shè)施的“門戶”建設(shè)也是核心部分,即采用關(guān)聯(lián)數(shù)據(jù)的一整套技術(shù)、方法和流程,實(shí)現(xiàn)為領(lǐng)域用戶提供各種知識服務(wù)的知識庫系統(tǒng)平臺。首先,基于方志物產(chǎn)知識本體設(shè)計(jì)關(guān)聯(lián)數(shù)據(jù)模型,盡可能復(fù)用互聯(lián)網(wǎng)已有成熟詞表,對方志物產(chǎn)元數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,提取概念實(shí)體并賦予HTTPURI,基于方志物產(chǎn)知識本體定義的類和屬性來描述實(shí)體及實(shí)體間的關(guān)系,采用機(jī)器可讀的RDF序列化格式進(jìn)行編碼與存儲。接下來,使用關(guān)聯(lián)數(shù)據(jù)四原則發(fā)布方志物產(chǎn)關(guān)聯(lián)數(shù)據(jù),運(yùn)用SPARQL查詢語言與語義技術(shù)開發(fā)框架存取和操作數(shù)據(jù),同時(shí)運(yùn)用可視化技術(shù)構(gòu)建知識庫呈現(xiàn)平臺展現(xiàn)數(shù)據(jù),提供數(shù)據(jù)開發(fā)接口供其他程序調(diào)用,采用關(guān)聯(lián)數(shù)據(jù)開放與消費(fèi)的方式實(shí)現(xiàn)知識聚合應(yīng)用。最后,基于知識庫為領(lǐng)域?qū)W者與公眾用戶提供面向數(shù)字學(xué)術(shù)與公眾史學(xué)的各項(xiàng)知識服務(wù)的軟件應(yīng)用模塊,實(shí)現(xiàn)諸如研究數(shù)據(jù)存儲、知識檢索與可視化、眾包編輯、專題服務(wù)以及社交化應(yīng)用等平臺功能。
(5)數(shù)字人文研究基礎(chǔ)設(shè)施的作用——方志物產(chǎn)知識庫深度利用研究
方志物產(chǎn)知識庫的建成將會是面向農(nóng)史領(lǐng)域的數(shù)字人文研究基礎(chǔ)設(shè)施的重要組成部分,但基礎(chǔ)設(shè)施應(yīng)是一種生態(tài)系統(tǒng),即需有領(lǐng)域?qū)<乙约捌渌脩舻膮⑴c,不斷提出問題與需求,通過迭代在知識庫中解決問題才是一套成熟的基礎(chǔ)設(shè)施應(yīng)實(shí)現(xiàn)的“落地”功能。
方志物產(chǎn)知識庫的深度利用應(yīng)首先建立在知識發(fā)現(xiàn)與考證基礎(chǔ)之上,即通過人工甄別與機(jī)器比對相結(jié)合的方式,對提取的物產(chǎn)數(shù)據(jù)集進(jìn)行考證,借助社會網(wǎng)絡(luò)分析、地理信息系統(tǒng)等技術(shù)方法對知識庫中的隱含知識進(jìn)行挖掘與分析,如明至民國時(shí)期特定植物在全國范圍內(nèi)的分布情況、不同地區(qū)物產(chǎn)的豐富程度以及物產(chǎn)隨時(shí)間變遷的消長情況、特定物產(chǎn)在時(shí)空框架下的變遷路線、物產(chǎn)與相關(guān)人物的關(guān)系等。
接下來再由領(lǐng)域?qū)<覍Λ@得的隱含知識采用歷史文獻(xiàn)學(xué)的方法進(jìn)行多輪專業(yè)考證,如物產(chǎn)的同名異物、同物異名,不同版本的志書與引書比對,特定物產(chǎn)的消長變化與變遷路線等等問題;在此基礎(chǔ)上,領(lǐng)域?qū)W者可運(yùn)用農(nóng)學(xué)、動物學(xué)、植物學(xué)、生態(tài)學(xué)、歷史地理學(xué)、農(nóng)業(yè)經(jīng)濟(jì)學(xué)、社會學(xué)、民族學(xué)和人類學(xué)等學(xué)科理論與研究方法,研究特定物產(chǎn)與人類社會之間的復(fù)雜互動的整體關(guān)系,例如以下三個(gè)主題研究可按此路徑展開:
一是基于環(huán)境史對動植物資源的數(shù)量和種類的分布及增減加以探源分析。二是中外農(nóng)業(yè)交流路徑上物產(chǎn)的時(shí)空變遷問題。進(jìn)一步梳理一帶一路上的外來作物的傳播時(shí)間、路徑及其經(jīng)濟(jì)價(jià)值。三是基于社會學(xué)及民族學(xué)的視野,立足于物產(chǎn)本身,梳理與該物產(chǎn)有關(guān)的社會、經(jīng)濟(jì)、文化,從而具而微地展現(xiàn)當(dāng)?shù)厣钗幕?,解剖?dāng)?shù)貐^(qū)域文化、民風(fēng)民俗的形成與演變,增強(qiáng)文化自信。
同時(shí)除面向領(lǐng)域?qū)W者以外,還應(yīng)兼顧政企與公眾需求,圍繞方志物產(chǎn)資料開發(fā)與利用模式展開研究,如促進(jìn)科普知識傳播、擴(kuò)大旅游資源開發(fā)及提升農(nóng)業(yè)遺產(chǎn)保護(hù)等。
我國歷史悠久,文化遺產(chǎn)豐富,古代典籍文獻(xiàn)中有許多農(nóng)業(yè)科學(xué)技術(shù)方面的珍貴資料,可以幫助今人考證農(nóng)產(chǎn)品與農(nóng)業(yè)技術(shù)的歷史起源、辨別有關(guān)農(nóng)業(yè)動植物和器物的名實(shí)異同,以及為當(dāng)前農(nóng)業(yè)生產(chǎn)和科學(xué)研究提供啟示與借鑒。在農(nóng)史研究中,古農(nóng)書與方志向來是農(nóng)業(yè)歷史文獻(xiàn)的主體,萬國鼎先生曾明確指出:輯錄古籍上有關(guān)農(nóng)業(yè)的資料,方志最為大宗。
時(shí)至今日,各種古農(nóng)書與方志的搜求、編目、???、注釋、今譯、輯佚、典藏、影印等工作已頗具規(guī)模且成果累累,但是在數(shù)字化、知識庫建置等環(huán)節(jié)相關(guān)研究工作還剛剛起步,未成氣候。數(shù)字人文研究基礎(chǔ)設(shè)施是一種支持人文科研活動的通用基礎(chǔ)架構(gòu),是在數(shù)字環(huán)境下為開展人文研究而必須具備的基本條件,可以是國家層面的,也可以是地區(qū)行業(yè)或組織機(jī)構(gòu)層面的。研究基礎(chǔ)設(shè)施的建設(shè)對于農(nóng)史乃至歷史學(xué)研究均具有深遠(yuǎn)的意義,有利于學(xué)科中各個(gè)項(xiàng)目數(shù)據(jù)資源的共享與關(guān)聯(lián)、通用型軟件工具與應(yīng)用開放接口(APIs)的互操作以及人員協(xié)作模式的平臺化與制度化。
目前,對于學(xué)界而言比較緊迫的任務(wù)是制定一些可持續(xù)發(fā)展的機(jī)制來構(gòu)建并改進(jìn)相關(guān)研究基礎(chǔ)設(shè)施,正如之前在上海哈佛中心舉行的“中國歷史研究的網(wǎng)絡(luò)基礎(chǔ)設(shè)施國際研討會”就已匯聚國內(nèi)外諸多領(lǐng)域?qū)<夜采檀耸隆?/p>
本文提出以中華農(nóng)業(yè)文明研究院的特藏文獻(xiàn)資源《方志物產(chǎn)》為例,通過數(shù)字化、數(shù)據(jù)化、知識化、平臺化等步驟構(gòu)建方志物產(chǎn)知識庫,以此拉開面向農(nóng)史領(lǐng)域的數(shù)字人文研究基礎(chǔ)設(shè)施建設(shè)的序幕??梢灶A(yù)期的是,該基礎(chǔ)設(shè)施的建成將不僅有助于農(nóng)史領(lǐng)域內(nèi)數(shù)字人文研究的深入開展,同時(shí)也可為未來行業(yè)乃至國家層面的研究基礎(chǔ)設(shè)施建設(shè)添磚加瓦,從而推動具有中國風(fēng)格的數(shù)字人文研究體系的形成。