李娜
(南京林業(yè)大學(xué)人文社會科學(xué)學(xué)院,南京 210037)
數(shù)字人文自誕生以來,便在技術(shù)研發(fā)與人文研究之間架起了一座日益堅實(shí)的橋梁,逐漸形成了獨(dú)特的跨學(xué)科研究范式,廣泛應(yīng)用在圖情學(xué)、管理學(xué)、文學(xué)、歷史學(xué)、藝術(shù)學(xué)等多個學(xué)科。近年來,國內(nèi)外大量數(shù)字人文研究機(jī)構(gòu)成立,領(lǐng)域?qū)W者群體規(guī)模迅速擴(kuò)大,相關(guān)研究成果快速增長,使得數(shù)字人文研究逐步從概念界定和框架設(shè)計落腳到實(shí)證研究[1]。浩瀚的傳統(tǒng)典籍成為數(shù)字人文實(shí)踐研究的重要對象,被譽(yù)為“一方之全史”的地方志以十分之一的占比位居古籍大宗,體系完備、類目繁多,有輿地、河渠、建置、文教、賦役、職官、人物、物產(chǎn)、藝文等內(nèi)容,全面記載了特定時空下自然、社會、經(jīng)濟(jì)、政治、文化等各個方面的情況[2],承擔(dān)著文化傳承、智慧延續(xù)、經(jīng)驗(yàn)啟示的歷史使命,是中國乃至世界重要的文化遺產(chǎn)寶庫[3]。如何借助數(shù)字人文的技術(shù)優(yōu)勢,深度挖掘和利用地方志文獻(xiàn)內(nèi)容,充分發(fā)揮其存史、資政、教化、興利等重要作用,是一項(xiàng)值得長期關(guān)注的課題。本文以《方志物產(chǎn)》山西分卷為研究語料,面向其中蘊(yùn)含的物產(chǎn)用途實(shí)體,基于Bi-LSTM、Bi-LSTM-CRF、BERT、Siku-BERT等4種深度學(xué)習(xí)模型實(shí)現(xiàn)自動識別模型構(gòu)建和實(shí)體識別效果比較,為以地方志為代表的大規(guī)模典籍的文本挖掘與開發(fā)利用提供借鑒。
命名實(shí)體識別(Named Entities Recognition)作為數(shù)字人文研究的重要環(huán)節(jié),承擔(dān)著從文本中自動抽取具有特定意義實(shí)體(包括人名、時間、地名、機(jī)構(gòu)名等專有名詞)的關(guān)鍵任務(wù),發(fā)揮著基礎(chǔ)性作用。在面向中文古籍的數(shù)字人文研究中,基于特定語料的命名實(shí)體識別研究持續(xù)時間長、研究成果多。
早期的命名實(shí)體在基于規(guī)則的基礎(chǔ)上開展起來:朱曉[4]以編年體《明史本紀(jì)》為例,對人名實(shí)體進(jìn)行了自動識別,取得了較好的效果;衡中青[5]以《方志物產(chǎn)》廣東分卷為研究對象,進(jìn)行了引書名和別名的自動抽取,正確率分別為72.88%、71.60%;朱鎖玲[6]面向《方志物產(chǎn)》廣東、福建、臺灣三省語料,開展了地名的識別,正確率達(dá)到了63.38%;劉士綱[7]面向《清實(shí)錄》語料,采用統(tǒng)計與規(guī)則相結(jié)合的方式進(jìn)行了人名識別。隨著研究深入和技術(shù)提升,基于條件隨機(jī)場(Conditional Random Field,CRF)的方法大大提升了識別效果:汪青青[8]對先秦文獻(xiàn)《春秋左傳》中的人名識別開展了實(shí)驗(yàn),開放測試準(zhǔn)確率達(dá)到了92.48%;肖磊[9]對《左傳》中的地名進(jìn)行了自動識別實(shí)驗(yàn),正確率達(dá)到了94.59%;李章超等[10]有效抽取了《左傳》文本中的戰(zhàn)爭事件;黃水清等[11]基于先秦語料庫,分別使用條件隨機(jī)場和最大熵模型對地名進(jìn)行了識別,驗(yàn)證CRF模型識別效果較好;王錚[12]以《三國演義》為研究語料,自動抽取了地名實(shí)體,準(zhǔn)確率為99.16%;葉輝等[13]基于融合多特征的CRF模型實(shí)現(xiàn)了中醫(yī)古籍《金匱要略》中的癥狀藥物實(shí)體抽??;李娜[14]以《方志物產(chǎn)》山西分卷為例,對其中蘊(yùn)含的人名、地名、別名、引書名和用途名等實(shí)體進(jìn)行了自動識別。近年來,深度學(xué)習(xí)模型發(fā)展迅速,呈現(xiàn)出較好的應(yīng)用態(tài)勢:李成名[15]基于LSTM-CRF模型對《左傳》中蘊(yùn)含的人名和地名開展了實(shí)驗(yàn),識別超過到82%;徐晨飛等[16]運(yùn)用Bi-RNN、Bi-LSTM、Bi-LSTM-CRF、BERT等模型,自動抽取了《方志物產(chǎn)》云南分卷中人名、別名、地名和引書名等實(shí)體,取得了較好的實(shí)驗(yàn)效果;李煥[17]面向中醫(yī)古籍本文,使用BERT-BiLSTM-CRF模型對中醫(yī)術(shù)語進(jìn)行了識別,有效提升了識別效果;劉忠寶等[18]將BERT和LSTMCRF模型應(yīng)用到《史記》中歷史事件的自動抽取中,F(xiàn)值為82.3%;杜悅等[19]通過7個深度學(xué)習(xí)模型在25本典籍語料中歷史事件的抽取實(shí)驗(yàn),證明了深度學(xué)習(xí)模型在大規(guī)模古籍文本整理的適用性;崔競烽等[20]通過實(shí)驗(yàn)論證了BERT模型在菊花古典詩詞中的時間、地點(diǎn)、季節(jié)、花名、花色、人物、節(jié)日等實(shí)體的識別效果較好;黃水清等[21]對比了CRF、Bi-LSTM、Bi-LSTM-CRF模型在《論語注疏》《毛詩正義》《春秋左傳正義》三部典籍中引書名的識別效果,驗(yàn)證了深度學(xué)習(xí)模型的整體表現(xiàn)明顯優(yōu)于CRF模型;范濤等[22]基于《人民日報》語料庫和中文推特多模態(tài)數(shù)據(jù)集預(yù)訓(xùn)練了BiLSTM-attention-CRF模型,并遷移至地方志文本中開展多模態(tài)識別實(shí)驗(yàn),具有一定的優(yōu)勢;任常青[23]運(yùn)用CRF、Bi-RNN、Bi-LSTM-CRF模型對雄安縣地方志中記載的七大類實(shí)體進(jìn)行了自動抽取,發(fā)現(xiàn)融合機(jī)器學(xué)習(xí)與深度學(xué)習(xí)模型在大規(guī)模古籍文本的深度挖掘中具有更好的表現(xiàn);劉江峰等[24]以“前四史”和《左傳》為語料,對比了Bert-base、guwenBert、sikuBERT、SikuRoBERT等預(yù)訓(xùn)練深度學(xué)習(xí)模型的實(shí)體識別效果,驗(yàn)證了sikuBERT模型的優(yōu)越性。
筆者通過梳理發(fā)現(xiàn),命名實(shí)體識別研究經(jīng)歷了基于規(guī)則、統(tǒng)計、深度學(xué)習(xí)三個階段的發(fā)展,識別模型越來越智能化,識別效果逐步提高,識別對象以人名、地名、事件、事件名為主,也涉及中藥名、方劑名、物產(chǎn)別名、引書名等實(shí)體類型,但對于用途實(shí)體類型的識別研究成果較少,程度較淺,有一定的探索和深化空間。
本文的研究對象《方志物產(chǎn)》,是一套匯集方志中物產(chǎn)類目的專題資料,藏于南京農(nóng)業(yè)大學(xué)圖書館。20世紀(jì)50年代,在著名農(nóng)史學(xué)家萬國鼎先生的主持下,數(shù)十名專業(yè)人員奔赴全國40多個大中型城市,從100多個文史單位保存的7 200余部地方志中,手工摘抄了物產(chǎn)部分資料,根據(jù)地區(qū)和時間順序編纂成冊,覆以紅皮,俗稱農(nóng)史學(xué)界的“紅本子”[25]。
首先,橫跨地域范圍廣,囊括青海省、新疆維吾爾自治區(qū)、西藏自治區(qū)、臺灣省在內(nèi)的所有行政區(qū)域;其次,縱向時間區(qū)間長,從宋熙寧九年(1076年)的《長安志》至民國三十八年(1949年)的《定西縣志》,持續(xù)時間近900年;再次,所載物產(chǎn)種類多,全文共449卷、3 600余萬字,記載了植物、動物、貨物(天然產(chǎn)礦物和人工造貨物)、微生物等153萬余條物產(chǎn)信息;最后,來源志書類型全,包括全國總志、省志、府志、州志、縣志、區(qū)志、村志、祠廟志、鄉(xiāng)土志、山水志、邊關(guān)志等多種類型。自編纂以來,《方志物產(chǎn)》因其獨(dú)特的價值受到了學(xué)界的高度重視,國內(nèi)外眾多學(xué)者前往查詢,為區(qū)域發(fā)展、學(xué)術(shù)研究等提供了豐富的資料支撐。
在《方志物產(chǎn)》的記載體例中,主要內(nèi)容是物產(chǎn)名稱和對應(yīng)的描述信息,其中,描述信息中主要記述了物產(chǎn)的別名、生長環(huán)境、生物學(xué)特征(大小、顏色、形狀等)、引用的其他典籍名稱、相關(guān)的歷史人物、產(chǎn)地、產(chǎn)量、價格、用途等內(nèi)容,有全有缺、有詳有略,具體語料樣例如表1所示。
表1 《方志物產(chǎn)》語料樣例
關(guān)于物產(chǎn)的描述信息中蘊(yùn)含的人名、地名、別名、引書名等實(shí)體識別研究,衡中青等[26]、朱鎖玲等[27]基于規(guī)則的實(shí)驗(yàn)開展了引書名、地名的識別,李娜[28]基于CRF模型的實(shí)驗(yàn)自動抽取了人名、地名、別名、用途名、引書名,徐晨飛[29]基于深度學(xué)習(xí)模型的實(shí)驗(yàn)進(jìn)行了人名、地名、別名、引書名的識別,效果對比顯著。針對其中物產(chǎn)的用途實(shí)體識別僅有李娜面向《方志物產(chǎn)》山西分卷基于CRF模型的研究,識別效果在70%左右[28]。
本文所謂物產(chǎn)用途是指物產(chǎn)的功能,如黃豆可以榨油、造醬、制成豆腐,黃精具有補(bǔ)中、益氣、輕身延年的功用;樺木可以制成刀靶和酒器、裝飾弓箭;桑,不僅可以飼蠶,也可以制弓、編筐,還可以治療咳嗽。通過深度梳理物產(chǎn)的用途實(shí)體,可以明確一個物產(chǎn)具有哪些用途,哪些物產(chǎn)具有相同或者相似的用途,以便更加全面而深刻地認(rèn)識物產(chǎn),有助于探索更加科學(xué)的途徑實(shí)現(xiàn)物產(chǎn)價值的開發(fā)利用。經(jīng)過梳理,《方志物產(chǎn)》所載的物產(chǎn)用途主要分為以下方面:飲食方面,作為食物充饑;藥用方面,作為藥材進(jìn)行疾病防治;經(jīng)濟(jì)方面,服務(wù)生產(chǎn)生活之用;民俗方面,祈福、辟邪等功能;制毒方面,有毒成分,使用可以致病、致死等。物產(chǎn)的用途語料樣例如表2所示。
表2 含用途實(shí)體的物產(chǎn)語料樣例
通過閱讀和分析《方志物產(chǎn)》中用途實(shí)體的分布特征和記載規(guī)律,例如:物產(chǎn)的用途實(shí)體分布范圍較廣且不集中,有的緊跟物產(chǎn)名,如艾的描述中“艾葉療一切鬼氣”;有的出現(xiàn)在物產(chǎn)結(jié)構(gòu)部位的后面,如扁豆的描述中“莢可蔬??筛?;有的伴隨物產(chǎn)形狀表述,如蓖麻的描述中“色青而黑用以榨油”;也有單獨(dú)記載的,如柏的描述信息“可作棺祭器”;等等。物產(chǎn)的用途實(shí)體記載具有一定的規(guī)律性,如常以“作、可、治、療、以”等作為邊界詞進(jìn)行定位,但仍有大量規(guī)則之外的多樣性表達(dá)形式。這些文本特征都為用途實(shí)體抽取帶來了困難,導(dǎo)致前期僅依賴規(guī)則和統(tǒng)計的識別結(jié)果中混雜著非用途實(shí)體、部分用途實(shí)體的遺漏或者實(shí)體字符長度有誤等現(xiàn)象。在人工標(biāo)注語料的基礎(chǔ)上,深度學(xué)習(xí)模型可以靈活地結(jié)合上下文的語義關(guān)系,充分學(xué)習(xí)文本的結(jié)構(gòu)特征,通過自動識別模型構(gòu)建和識別效果評價機(jī)制,優(yōu)化目標(biāo)實(shí)體抽取的效率和精度,提升方志類古籍文本挖掘研究進(jìn)程。
循環(huán)類深度學(xué)習(xí)模型主要是運(yùn)用具有信息保存能力的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),在自然語言處理的過程中通過對長特征向量預(yù)測當(dāng)前輸出,以解決序列標(biāo)注問題[30]。但由于RNN依靠單一隱藏層的記憶結(jié)構(gòu)過于簡單,隨著輸入序列長度的增加會出現(xiàn)梯度消失的問題,從而限制了模型處理長輸入序列的效果提升。長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)引入細(xì)胞狀態(tài)記憶單元、輸入門(input gate)、忘記門(forget gate)、輸出門(output gate)實(shí)現(xiàn)信息的存儲[31],然而無法實(shí)現(xiàn)從后往前的信息編譯問題。
雙向長短時記憶網(wǎng)絡(luò)(Bi-Directional Long Short-Term Memory,Bi-LSTM)將向前的LSTM和向后的LSTM相結(jié)合,在保留輸入門、輸出門和忘記門的基礎(chǔ)上,解決了文本上下文信息表示的問題[32]。面向給定的語句,先將其中蘊(yùn)含的每個詞t處理成一個長度為d的向量,使用模型計算出t的左邊上下文向量和右邊上下文向量,表示為向量ht=[ht;ht],層級關(guān)系輸入的文本序列,經(jīng)過雙向長短時記憶層預(yù)測,層級關(guān)系得到輸出的標(biāo)注序列。本文運(yùn)用“S、B、I、E、O”標(biāo)簽機(jī)制,其中S表示用途實(shí)體本身,B表示用途實(shí)體的起始字,I表示用途實(shí)體的中間字,E表示用途實(shí)體的結(jié)束字,O表示用途實(shí)體以外的字。以《方志物產(chǎn)》山西分卷中“紫背者良發(fā)汗利濕”這句物產(chǎn)描述語料為輸入序列樣例,對應(yīng)的輸出標(biāo)注標(biāo)簽為“O”“O”“O”“O”“B-nf”“E-nf”“B-nf”“E-nf”,其中“nf”為用途實(shí)體類型標(biāo)注??梢姡p向長短時記憶網(wǎng)絡(luò)在解決長距離依賴問題的基礎(chǔ)上,同時兼顧了整個語料上下文的序列信息,提高了深度學(xué)習(xí)模型的識別性能。
為了進(jìn)一步提升循環(huán)類深度學(xué)習(xí)模型的識別性能,本研究將雙向長短時記憶網(wǎng)絡(luò)與線性條件隨機(jī)場模型相結(jié)合,形成Bi-LSTM-CRF模型,是目前解決序列標(biāo)注問題的主流方法,既保存了文本序列中上下文信息,又考慮到句子中標(biāo)簽之間的轉(zhuǎn)移關(guān)系,有效解決了序列標(biāo)注中標(biāo)記偏置問題[33]。首先將輸入文本序列進(jìn)行詞向量化處理,其次利用雙向LSTM層獲得的上下文特征和CRF層輸入的語句級別標(biāo)記序列,最后經(jīng)過CRF層對全局進(jìn)行狀態(tài)轉(zhuǎn)移概率計算,提取實(shí)體之間的依賴關(guān)系,從而實(shí)現(xiàn)預(yù)測標(biāo)簽信息,并結(jié)合動態(tài)規(guī)劃的Viterbi算法找到整個句子的最佳標(biāo)簽序列。
在面向《方志物產(chǎn)》語料的循環(huán)類實(shí)體識別實(shí)驗(yàn)中,以基于Bi-LSTM-CRF的模型為例,使用標(biāo)簽機(jī)制對物產(chǎn)“遠(yuǎn)志”的描述信息“苗曰小草根曰遠(yuǎn)志安神鎮(zhèn)心令人多記”進(jìn)行標(biāo)注(見圖1),其中“安神”“鎮(zhèn)心”“令人多記”均為物產(chǎn)的用途實(shí)體,可以看出,實(shí)體標(biāo)簽之間存在緊密的邏輯關(guān)系,并且同時受到上下文語義以及標(biāo)簽的雙重影響。
圖1 基于Bi-LSTM-CRF的《方志物產(chǎn)》用途實(shí)體識別模型原理圖
注意力機(jī)制(Attention Mechanism)是在機(jī)器學(xué)習(xí)模型中嵌入的一種特殊結(jié)構(gòu),實(shí)現(xiàn)自動學(xué)習(xí)和注意力分布加權(quán)計算輸入數(shù)據(jù)對輸出數(shù)據(jù)的貢獻(xiàn)大小,最早應(yīng)用于圖像分類領(lǐng)域,隨后引入自然語言處理領(lǐng)域。
BERT(Bidirectional Encoder Representations from Transformers)模型以多層Transformer結(jié)構(gòu)為主要框架,其強(qiáng)大的特征提取能力,有效解決了語料長依賴問題,相對于循環(huán)類神經(jīng)網(wǎng)絡(luò)模型具有明顯優(yōu)勢[34]。BERT模型在預(yù)訓(xùn)練(pre-training)階段,將句子中各個詞或字的原始向量作為輸入部分,通過對應(yīng)的位置嵌入(position embedding)、分割嵌入(segment embedding)和Token嵌入(token embedding)的求和構(gòu)造輸入表示(input representation),在當(dāng)前句子與上一個句子和下一個句子的Token位置,分別嵌入[CLS]和[SEP]標(biāo)記進(jìn)行句子分割,而輸出部分則是融合了全文語義特征后的文本中詞或字的標(biāo)記向量,利用遮蓋和預(yù)測方法學(xué)習(xí)兩個句子之間的關(guān)系。
在目前面向中文古籍的BERT預(yù)訓(xùn)練模型中,guwenBERT是基于殆知閣簡體中文古籍文獻(xiàn)訓(xùn)練的,Bert-Base-Chinese和RoBERTa模型則是基于簡體與繁體相融合的中文維基百科數(shù)據(jù)進(jìn)行訓(xùn)練的,Siku-BERT是基于《四庫全書》繁體版的預(yù)訓(xùn)練模型。從語料相似和功能需求的角度,本文選擇基于繁體古籍的預(yù)訓(xùn)練模型Siku-BERT開展具有監(jiān)督的預(yù)訓(xùn)練-參數(shù)微調(diào)范式實(shí)驗(yàn),以驗(yàn)證注意力機(jī)制模型在遷移過程中的語料適用性。Siku-BERT遷移到《方志物產(chǎn)》山西分卷的實(shí)體抽取任務(wù)時,在雙向Transformer模型的編碼器基礎(chǔ)上,通過隨機(jī)遮蔽字符,使得模型以自監(jiān)督的方式從前后兩個方向同時預(yù)測被遮蔽字符,從而更加有效地學(xué)習(xí)到語料的文法、句法、語言風(fēng)格等特征[35],如圖2所示。
圖2 基于Siku-BERT的《方志物產(chǎn)》用途實(shí)體識別模型原理圖
《方志物產(chǎn)》山西分卷共13冊、全文約43萬字,始于明成化二十一年(1485年)的《山西通志》,截止于民國二十九年(1940年)的《榆次縣志》,記載了455年間山西境內(nèi)產(chǎn)出的植物、動物、貨物(包括天然的礦產(chǎn)和人造的商品)等51 545條物產(chǎn)的分類、名稱以及描述信息。經(jīng)統(tǒng)計,該卷共包含316本志書,其中,根據(jù)時間維度劃分,明代46本,清代237本,民國時期33本;根據(jù)地區(qū)劃分,平陽府以52本居首,其次是太原府36本,潞安府31本位居第三;根據(jù)類型劃分,有通志6本,府州志41本,縣志258本,鄉(xiāng)土、山川、偏關(guān)等志11本。
如前文所示,在物產(chǎn)的描述信息中,蘊(yùn)含著大量的關(guān)鍵要素,如人名、地名、引書名、別名、用途名等實(shí)體,由于對人名、地名、引書名和別名識別的已有研究較多且取得了較好的識別效果,本文主要面向關(guān)注度較低的物產(chǎn)用途實(shí)體進(jìn)行識別,以拓展信息抽取的實(shí)體類型,驗(yàn)證深度學(xué)習(xí)模型在更多類型實(shí)體抽取中的效果。物產(chǎn)用途實(shí)體主要反映了物產(chǎn)在生活、醫(yī)療、民俗等方面的作用,如建造房屋、治療疾病、祈福辟邪等。研究物產(chǎn)的用途,不僅可以展現(xiàn)古人在物產(chǎn)利用方面的智慧與思考,也為當(dāng)今物產(chǎn)的開發(fā)利用提供經(jīng)驗(yàn)借鑒和方法路徑。
由于《方志物產(chǎn)》中物產(chǎn)的描述信息不全,導(dǎo)致一部分物產(chǎn)沒有描述信息。因此,在語料的預(yù)處理過程中,首先篩選出含有描述信息的物產(chǎn)數(shù)據(jù),再對物產(chǎn)的描述信息進(jìn)行人工標(biāo)注,以“F”代表用途實(shí)體的標(biāo)識符,用“【】”表示用途實(shí)體的左右邊界,如物產(chǎn)“柏子仁”的描述信息為“氣味清香補(bǔ)脾養(yǎng)心潤腎滋肝”,標(biāo)注后的語料為“氣味清香【F補(bǔ)脾】【F養(yǎng)心】【F潤腎】【F滋肝】”。
本文使用“B、I、E、O”四詞位的標(biāo)注集,如物產(chǎn)“遠(yuǎn)志”的描述信息為“苗曰小草根曰遠(yuǎn)志安神鎮(zhèn)心令人多記”,經(jīng)過標(biāo)注處理后的結(jié)果見表3。另外,為了適應(yīng)《方志物產(chǎn)》的語言特性,深度學(xué)習(xí)模型的輸入特征定義為字符向量,通過Word2Vec[36]獲得,實(shí)現(xiàn)文本潛在語義的自動搜索,降低特征模板對詞語長度、出現(xiàn)頻次、左右邊界詞等語料內(nèi)外部特征的依賴。還有,本文采用十次交叉法驗(yàn)證不同訓(xùn)練語料下的模型識別效果,已取得更加科學(xué)精確的實(shí)驗(yàn)效果。即以整句為單位,將人工標(biāo)注后的語料進(jìn)行隨機(jī)亂序排列,每次選取其中9份作為訓(xùn)練語料,剩余一份作為測試語料,分別對4種深度學(xué)習(xí)模型進(jìn)行多次性能測試,尋找最優(yōu)模型。
表3 《方志物產(chǎn)》物產(chǎn)用途標(biāo)注語料樣例
在運(yùn)算過程中,神經(jīng)網(wǎng)絡(luò)模型需要進(jìn)行大量的并行計算,一般的中央處理器無法滿足,本文所進(jìn)行的神經(jīng)網(wǎng)絡(luò)訓(xùn)練實(shí)驗(yàn)使用了高性能的NVIDIA Tesla P40圖形處理器,充分保障吞吐量和相應(yīng)速度的需求,具體參數(shù)如表4所示。
表4 實(shí)驗(yàn)超參數(shù)設(shè)置表
BERT模型因其語言模型和特征抽取架構(gòu)的獨(dú)特性,運(yùn)算時需要更大的空間支持,與傳統(tǒng)深度學(xué)習(xí)模型的參數(shù)設(shè)置有一定差異性,具體如表5所示。
表5 BERT模型的實(shí)驗(yàn)超參數(shù)設(shè)置表
面向《方志物產(chǎn)》山西分卷語料,運(yùn)用Bi-LSTM、Bi-LSTM-CRF、BERT、Siku-BERT等4種深度學(xué)習(xí)模型對文本中蘊(yùn)含的物產(chǎn)用途實(shí)體進(jìn)行自動抽取,對比不同語料、不同模型的實(shí)驗(yàn)效果。本研究采用準(zhǔn)確率P、召回率R和調(diào)和平均數(shù)F作為評級指標(biāo),具體的計算公式如下。
經(jīng)過語料標(biāo)注和相應(yīng)的深度學(xué)習(xí)模型構(gòu)建,運(yùn)用十次交叉法對模型性能進(jìn)行測試的結(jié)果如表6所示。
表6 4種深度學(xué)習(xí)模型的十次交叉測試結(jié)果 %
可以看出,在未使用任何人工提供特征進(jìn)行構(gòu)建特征模板的情況下,4種深度學(xué)習(xí)模型的測試結(jié)果呈現(xiàn)出一定的差異性。從召回率的結(jié)果看,BERT模型達(dá)到了88.62%,Siku-BERT模型則達(dá)到了89.74%,驗(yàn)證了深度學(xué)習(xí)模型在《方志物產(chǎn)》語料用途實(shí)體識別中的適用性。相較于前期基于CRF模型的物產(chǎn)用途實(shí)體識別結(jié)果,深度學(xué)習(xí)模型全面提升了識別效果,更加凸顯了其優(yōu)越性。另外,還可以發(fā)現(xiàn)以下現(xiàn)象。
(1)相較于Bi-LSTM模型,Bi-LSTM-CRF模型識別結(jié)果有了明顯提升。說明引入CRF層后,增強(qiáng)了序列標(biāo)注問題的處理能力,將上下文特征與規(guī)則和統(tǒng)計方法充分結(jié)合,有助于提升古方志實(shí)體識別的效果。
(2)BERT模型較Bi-LSTM和Bi-LSTM-CEF模型總體上有顯著提升,證明基于注意力機(jī)制的多層雙向Transformer架構(gòu)的預(yù)訓(xùn)練模型在大規(guī)模古方志語料實(shí)體抽取中的突出性。
(3)Siku-BERT模型和BERT模型的識別性能相似,均取得了較為顯著的結(jié)果,BERT模型的P和F結(jié)果略優(yōu)于Siku-BERT,而Siku-BERT的R值略高于BERT,驗(yàn)證了基于《四庫全書》開發(fā)的Siku-BERT模型遷移至方志古籍語料實(shí)體識別可行性。
經(jīng)過4種深度學(xué)習(xí)模型的識別結(jié)果與人工標(biāo)注語料的詳細(xì)對比,發(fā)現(xiàn)在語料標(biāo)注、語料規(guī)模、語料特征等方面存在不足之處,后續(xù)經(jīng)過語料規(guī)模的擴(kuò)展以及人工標(biāo)注的完善,實(shí)驗(yàn)效果還有提升的空間。
(1)人工標(biāo)注存在漏標(biāo)現(xiàn)象。主要表現(xiàn)為部分“可食”用途的漏標(biāo),在閱讀和標(biāo)注的過程中,在“可食”用途與其他更凸顯的用途共同出現(xiàn)在一條語料中時,容易忽略對“可食”用途的標(biāo)注,如“菜籽”的描述信息為“隨荍穀而種初夏收割花黃葉亦可食其籽用以榨油人多食之”,在標(biāo)注時僅標(biāo)注了菜籽“用以榨油”,而漏標(biāo)了葉亦“可食”。再如“長松”的描述信息“能治大風(fēng)氣味芳烈採之可作湯常服亦名仙茅唐時即著名宋僧延一舊志云出東西兩臺”,則僅標(biāo)注出了“能治大風(fēng)”,漏標(biāo)了“可作湯”這個實(shí)體。
(2)結(jié)構(gòu)特征呈現(xiàn)無邊界且連續(xù)表達(dá)的情況。在描述一個物產(chǎn)用途時,經(jīng)常會將其具有數(shù)個用途連續(xù)記載,每個用途實(shí)體之間沒有邊界詞加以區(qū)分,這對于人工處理十分棘手,計算機(jī)自動分詞則更加困難。例如,物產(chǎn)“青蒿”的描述信息為“處處生之春夏採莖葉同童便煎退骨蒸勞熱生搗絞汁卻心疼熱秋黃冬採根實(shí)實(shí)須炒治風(fēng)疥瘙虗煩盜汗開胃明目辟邪殺蟲”,其中就有“風(fēng)、疥瘙、虗煩、盜汗、開胃、明目、辟邪、殺蟲”等多種用途名稱的無邊界連用。
(3)實(shí)驗(yàn)語料規(guī)模較小?;谏疃葘W(xué)習(xí)的模型減少了人工提取特征的依賴,更適合在大數(shù)據(jù)的環(huán)境下,開展對大規(guī)模語料特征的自動學(xué)習(xí)。但本實(shí)驗(yàn)僅使用了《方志物產(chǎn)》山西省的語料,盡管實(shí)驗(yàn)結(jié)果證明了深度學(xué)習(xí)模型的優(yōu)越性,但語料規(guī)模遠(yuǎn)達(dá)不到其對大規(guī)模語料的需求。隨著多省語料的逐步整合,語料規(guī)模日益擴(kuò)大,深度學(xué)習(xí)模型的識別效果也將隨之不斷提高。
經(jīng)過分析物產(chǎn)用途實(shí)體的識別結(jié)果可以發(fā)現(xiàn),物產(chǎn)的主要用途集中在食用和藥用兩大方面。其中,物產(chǎn)的食用分為非加工品和加工品兩種類型,非加工品主要是指自然界產(chǎn)出的瓜、果類物產(chǎn)(如蘋果、西瓜等),而加工品則是通過腌、煮、蒸、炒、炸等方式進(jìn)行加工處理的物產(chǎn)(如咸菜、麻油等)。物產(chǎn)的藥用體現(xiàn)在預(yù)防、治療、致毒三個方面,關(guān)系人類健康的方方面面,記載較為翔實(shí)。本章選取了物產(chǎn)用途中的藥用方面,通過物產(chǎn)與藥用的關(guān)聯(lián)關(guān)系,展示識別結(jié)果的相關(guān)應(yīng)用。
基于社會網(wǎng)絡(luò)分析技術(shù),構(gòu)建物產(chǎn)與藥用的關(guān)系網(wǎng)絡(luò),得到由195種物產(chǎn)名、323種藥用名、429條連線所組成的網(wǎng)絡(luò)。為了更加清晰地展示,本文抽取了其中的最大聯(lián)通子網(wǎng)絡(luò)的局部圖(見圖3)。其中,圓圈代表物產(chǎn)名,方框代表藥用名,顏色深淺代表相連頂點(diǎn)的不同數(shù)量,連線代表相連的物產(chǎn)具有某種藥用價值。通過該圖可以發(fā)現(xiàn)某個物產(chǎn)具有什么藥用價值,如物產(chǎn)“馬蘭”具有治療“吐血癥”和“口舌瘡”的功能;還能發(fā)現(xiàn)具有相同藥用價值的物產(chǎn)有哪些,如具有“瀉火”作用的物產(chǎn)有“知母”“天花粉”“黃連”和“白茅根”。
圖3 物產(chǎn)的藥用關(guān)系網(wǎng)絡(luò)圖
根據(jù)用途實(shí)體所處的上下文語義,可以快速獲取具有特定藥用價值的具體部位,有助于藥材的深度開發(fā)利用。經(jīng)分析,物產(chǎn)的藥用部位分布較廣,有單一部位可用物產(chǎn),也有多部位可用物產(chǎn),甚至還有全身可用物產(chǎn);不同物產(chǎn)的藥用部位差異性較大,同一個物產(chǎn)不同部位的用途也可能不同??傮w而言,植物的藥用部分主要有葉、花、根、莖、實(shí)、皮、汁等,動物的藥用部分主要有肉、卵、血、屎、涎等,具體案例如表7所示。
表7 物產(chǎn)的藥用部位示例
本文使用Bi-LSTM、Bi-LSTM-CRF、BERT、Siku-BERT等4種深度學(xué)習(xí)模型,針對《方志物產(chǎn)》山西分卷文本中蘊(yùn)含的物產(chǎn)用途實(shí)體進(jìn)行了自動識別。實(shí)驗(yàn)結(jié)果顯示,4種深度學(xué)習(xí)模型的P、R、F值均高于筆者此前基于CRF構(gòu)建的抽取模型[28],特別是BERT模型和Siku-BERT模型的識別性能較為突出,召回率R的最高值分別為88.62%和89.74%。本研究拓展了物產(chǎn)用途實(shí)體抽取的應(yīng)用類型,有效提升了實(shí)體識別的效果,同時驗(yàn)證了深度學(xué)習(xí)模型在方志類古籍整理中的可行性以及預(yù)訓(xùn)練模型的可遷移性。
當(dāng)然,若要進(jìn)一步提升深度學(xué)習(xí)模型的識別性能,構(gòu)建更加豐富、立體、全面的物產(chǎn)用途網(wǎng)絡(luò),后續(xù)研究不僅要不斷擴(kuò)大語料規(guī)模和完善語料標(biāo)注,從單一省份擴(kuò)展到多個省份甚至一個地區(qū)乃至全國范圍,覆蓋更多、更全的語料特征,不斷優(yōu)化深度學(xué)習(xí)模型,為方志類古籍的開發(fā)利用提供數(shù)字人文領(lǐng)域的解決方案,為更多特色館藏文獻(xiàn)的整理挖掘提供借鑒。