面向古漢語(yǔ)史料的信息抽取方法綜述

2019-09-18 03:58:30丁若堯

中國(guó)科技縱橫 2019年14期

丁若堯

摘要：本文基于2018年度教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目《面向二十四史的中國(guó)歷史人物時(shí)間關(guān)系圖譜構(gòu)建方法研究》，分析項(xiàng)目研究的理論和實(shí)際應(yīng)用價(jià)值，闡述目前國(guó)內(nèi)外相關(guān)研究的現(xiàn)狀和趨勢(shì)，提出面向古漢語(yǔ)史料的信息抽取一般方法流程。

關(guān)鍵詞：古漢語(yǔ)史料;信息抽取方法;研究?jī)r(jià)值和現(xiàn)狀;一般方法流程

中圖分類(lèi)號(hào)：TP274 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1671-2064（2019）14-0050-02

隨著計(jì)算機(jī)技術(shù)的快速發(fā)展，中文信息處理技術(shù)也得到了實(shí)質(zhì)性的跨越，這就使古漢語(yǔ)史料的信息抽取獲得了前所未有的智能化技術(shù)支撐。面對(duì)浩如煙海的中國(guó)古代文獻(xiàn)，計(jì)算機(jī)的輔助處理無(wú)疑給研究工作者創(chuàng)設(shè)了一條精準(zhǔn)、便捷的路徑，而對(duì)計(jì)算機(jī)處理古漢語(yǔ)文本的基礎(chǔ)性問(wèn)題研究自然應(yīng)引起高度的重視。鑒于目前中文信息處理研究多以現(xiàn)代漢語(yǔ)為主，在古漢語(yǔ)及古典文獻(xiàn)信息處理方面?zhèn)戎赜阡浫搿@示及電子文本資源庫(kù)建設(shè)，對(duì)古漢語(yǔ)史料信息抽取方面的研究尚存在一定的缺憾。我們擬以《面向二十四史的中國(guó)歷史人物時(shí)間關(guān)系圖譜構(gòu)建方法研究》為課題展開(kāi)研究，以求運(yùn)用現(xiàn)代信息技術(shù)和自然語(yǔ)言處理技術(shù)，以中國(guó)古典史集《二十四史》中的人物為關(guān)鍵詞，尋找科學(xué)的中國(guó)歷史人物時(shí)間關(guān)系圖譜構(gòu)建方法，促進(jìn)中國(guó)古代歷史人物研究手段和方式的信息化進(jìn)程。本課題于2018年8月被確立為教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目，研究周期為兩年。

1 本課題研究的理論和實(shí)際應(yīng)用價(jià)值

中國(guó)是一個(gè)歷史悠久的文明古國(guó)，對(duì)中國(guó)歷史人物的研究是史學(xué)界研究的一項(xiàng)重要內(nèi)容。古漢語(yǔ)史料作為歷史學(xué)研究的權(quán)威依據(jù)，其中記錄的人物信息是了解中華名族燦爛輝煌發(fā)展歷程的重要途徑。利用信息技術(shù)對(duì)大數(shù)據(jù)量古漢語(yǔ)史料中的人物信息進(jìn)行抽取，并將抽取到的信息經(jīng)過(guò)分析處理最終匯總至數(shù)據(jù)庫(kù)，可以在提高歷史研究成果利用效率的同時(shí)，為數(shù)據(jù)庫(kù)中所存儲(chǔ)的信息提供史料指向依據(jù)，對(duì)推動(dòng)史學(xué)研究特別是歷史人物研究的發(fā)展，乃至滿(mǎn)足人們?nèi)粘Ｉ钪袑?duì)歷史信息的需求，增強(qiáng)中華民族文化自信，促進(jìn)中國(guó)歷史文化傳承均具有重大作用。具體而言，本課題的研究具有以下理論價(jià)值和實(shí)際應(yīng)用價(jià)值：

1.1 本課題研究理論價(jià)值

本課題以文本信息抽取技術(shù)為依托，研究從古漢語(yǔ)史料中抽取人物名稱(chēng)及其所屬時(shí)間信息，并以此二者為依據(jù)構(gòu)建歷史人物時(shí)間關(guān)系圖譜的方法。開(kāi)展本課題的研究，在促進(jìn)信息技術(shù)與歷史研究方法相結(jié)合、提高現(xiàn)有歷史研究方法的信息化程度、創(chuàng)新中華歷史文化呈現(xiàn)方式等方面均具有重要理論價(jià)值。此外，本課題中提出的模型方法可以被擴(kuò)展到類(lèi)似課題的研究，為后續(xù)面向海量史料的信息抽取研究、推動(dòng)大數(shù)據(jù)時(shí)代歷史研究的跨越式發(fā)展等方面提供可借鑒的理論基礎(chǔ)和模型方法。

1.2 本課題研究實(shí)際應(yīng)用價(jià)值

二十四史是研究中國(guó)古代史的權(quán)威史料資源。以其作為史料依據(jù)，利用信息技術(shù)從中抽取歷史人物名稱(chēng)及其所屬時(shí)間信息，進(jìn)而構(gòu)建中國(guó)歷史人物時(shí)間關(guān)系圖譜，首先可以以直觀明了的方式展示各個(gè)歷史人物之間的時(shí)間關(guān)系，為歷史教學(xué)和歷史傳承傳播提供歷史人物譜系;其次，以這些關(guān)系為基礎(chǔ)可以構(gòu)建出中國(guó)歷史人物時(shí)間關(guān)系數(shù)據(jù)庫(kù)，對(duì)歷史人物研究的信息化存儲(chǔ)及查詢(xún)過(guò)程均具有促進(jìn)作用;再次，通過(guò)歷史人物對(duì)應(yīng)的時(shí)間信息，可以將歷史人物與同時(shí)期的歷史事件乃至同時(shí)期其他國(guó)家的歷史人物相關(guān)聯(lián)，促進(jìn)歷史學(xué)領(lǐng)域其他課題的研究;最后，利用本課題中的研究方法得到的歷史人物信息均可回溯到其所被抽取到的原始史料位置，這可以為研究人員查詢(xún)相關(guān)歷史人物信息提供權(quán)威的史料指向依據(jù)。

2 國(guó)內(nèi)外本課題相關(guān)研究的現(xiàn)狀和趨勢(shì)

本課題組對(duì)各類(lèi)學(xué)術(shù)網(wǎng)站及數(shù)據(jù)庫(kù)進(jìn)行了細(xì)致而全面的調(diào)研，發(fā)現(xiàn)目前公開(kāi)發(fā)表的利用信息技術(shù)對(duì)古漢語(yǔ)史料中的信息進(jìn)行抽取的相關(guān)研究工作及資源并不多，并且主要的研究工作都集中在國(guó)內(nèi)。下面對(duì)一些有代表性的相關(guān)工作按照不同的內(nèi)容類(lèi)別分別進(jìn)行介紹。

2.1 針對(duì)歷史人物名稱(chēng)及其所屬時(shí)間信息的相關(guān)研究工作及資源

《中國(guó)歷代名人辭典》由南京大學(xué)歷史系在1982年通過(guò)人工的方式編寫(xiě)完成，通過(guò)其可以查閱到中國(guó)古代和近代重要?dú)v史人物的姓名、字號(hào)、生卒年、身份等信息。但是此部辭典中所涉及的歷史人物并不全面，其包含的主要是一些例如政治領(lǐng)袖、農(nóng)民起義領(lǐng)袖等歷史名人。例如，在此部辭典的“秦，秦漢之際”部分，僅包含有31位著名歷史人物，對(duì)于同時(shí)期其他人物并沒(méi)有提及。在互聯(lián)網(wǎng)已廣泛融入于人們?nèi)粘Ｉ畹慕裉?，關(guān)于歷史人物的相關(guān)信息在互聯(lián)網(wǎng)上也存在有大量的資源，例如百度百科、Wikipedia等都有著大量的相關(guān)信息收錄。然而這些信息的來(lái)源主要是互聯(lián)網(wǎng)上的電子出版物、網(wǎng)頁(yè)文章等，除了其中包含的歷史人物不夠全面的問(wèn)題，由于這些信息來(lái)源并非是史料，其在信息的可信度及權(quán)威度方面也存在一定的缺陷，因此無(wú)法作為歷史研究過(guò)程中的佐證依據(jù)。

2.2 面向古漢語(yǔ)文獻(xiàn)資料的信息抽取工作

以往面向古漢語(yǔ)文獻(xiàn)的信息抽取研究工作主要是通過(guò)人工閱讀的方式進(jìn)行開(kāi)展。隨著信息技術(shù)的飛速發(fā)展，越來(lái)越多的研究工作開(kāi)始向自動(dòng)化、智能化的方向邁進(jìn)。下面僅列舉最近5年內(nèi)的部分相關(guān)研究工作：

2013年香港城市大學(xué)的留金騰等人以古漢語(yǔ)文獻(xiàn)《淮南子》為基礎(chǔ)，構(gòu)建了一個(gè)可用于古漢語(yǔ)分詞及詞性標(biāo)注的語(yǔ)料庫(kù)，以用于古漢語(yǔ)分詞及詞性標(biāo)注模型的學(xué)習(xí)、及相關(guān)方法的實(shí)驗(yàn)驗(yàn)證。

南京師范大學(xué)的梁社會(huì)等人以《孟子》為語(yǔ)料基礎(chǔ)，采用條件隨機(jī)場(chǎng)（CRF）模型進(jìn)行了古漢語(yǔ)的自動(dòng)分詞方法研究，取得了F測(cè)度值94%的良好效果。

2014年復(fù)旦大學(xué)的朱曉等人以《明史》作為研究語(yǔ)料，驗(yàn)證了基于CRF的無(wú)邊圖模型、完全圖模型及嵌套圖模型的性能，并將其用于古漢語(yǔ)的詞性標(biāo)注工作，其構(gòu)建的三種圖模型的平均F測(cè)度值超過(guò)了90%。

同年南京師范大學(xué)的王嘉靈等人以《漢書(shū)》為語(yǔ)料基礎(chǔ)，結(jié)合地名詞表及人名詞表等信息構(gòu)建了古漢語(yǔ)的自動(dòng)分詞系統(tǒng)，取得了83%的F測(cè)度值。

2015年南京農(nóng)業(yè)大學(xué)的黃水清等人基于《春秋左氏傳》分別構(gòu)建了CRF模型和最大熵模型，用于自動(dòng)識(shí)別古漢語(yǔ)中的地域名稱(chēng)，實(shí)驗(yàn)結(jié)果表明其構(gòu)建的CRF模型優(yōu)于最大熵模型，達(dá)到了85%的F測(cè)度值。

北京語(yǔ)言大學(xué)的虞寧翌等人在2015年利用基于統(tǒng)計(jì)和規(guī)則的方法構(gòu)建了面向古漢語(yǔ)的虛詞檢測(cè)系統(tǒng)，其F測(cè)度值達(dá)到了98%。

2016年廣州中醫(yī)藥大學(xué)的葉輝等人通過(guò)采用CRF模型，結(jié)合自然語(yǔ)言處理技術(shù)，對(duì)古代醫(yī)學(xué)名著《金匱要略》中的癥狀藥物信息進(jìn)行抽取，取得了F測(cè)度值77%的良好效果。

3 面向古漢語(yǔ)史料的信息抽取一般方法流程

在面向古漢語(yǔ)史料的信息抽取方法上，盡管不同的研究者采取了不同的技術(shù)措施，但其基本思路是遵循以古漢語(yǔ)史料為研究對(duì)象、通過(guò)對(duì)海量古漢語(yǔ)史料的觀察、分析和總結(jié)，確定史料文本的關(guān)鍵句以及其與非關(guān)鍵句的關(guān)系，直接獲得用戶(hù)感興趣的史料信息。這就避免了“完全檢索”和“全文閱讀”帶來(lái)的資源浪費(fèi)，提高了信息獲取速度和效率。下面謹(jǐn)就3篇代表性研究文獻(xiàn)分析歸納面向古漢語(yǔ)史料的信息抽取的一般方法流程。

3.1 《上古漢語(yǔ)分詞及詞性標(biāo)注語(yǔ)料庫(kù)的構(gòu)建——以《淮南子》為范例》的信息抽取

《上古漢語(yǔ)分詞及詞性標(biāo)注語(yǔ)料庫(kù)的構(gòu)建——以《淮南子》為范例》是留金騰（香港城市大學(xué)）、宋彥（香港理工大學(xué)）、夏飛（華盛頓大學(xué)）發(fā)表于《中文信息學(xué)報(bào)》2013年06期的研究論文。文章從古漢語(yǔ)語(yǔ)料庫(kù)的簡(jiǎn)介入手，進(jìn)而分析《淮南子》與上古漢語(yǔ)詞語(yǔ)的特點(diǎn)（包括：上古漢語(yǔ)復(fù)音詞構(gòu)詞特點(diǎn)、上古漢語(yǔ)詞語(yǔ)形態(tài)特征、古漢語(yǔ)的詞性轉(zhuǎn)化），落實(shí)了語(yǔ)料庫(kù)的標(biāo)注與校正。在語(yǔ)料庫(kù)標(biāo)注與校正方面，采取動(dòng)標(biāo)注和人工校正交替進(jìn)行的工作流程（見(jiàn)圖1），顯著提升了準(zhǔn)確率。

基于語(yǔ)料庫(kù)信息的掌握，研究從詞匯詞性?xún)蓚€(gè)角度分析整個(gè)語(yǔ)料庫(kù)的詞頻、詞長(zhǎng)和詞性標(biāo)注的統(tǒng)計(jì)分布，獲得高頻詞分布、詞語(yǔ)長(zhǎng)度分布、詞性標(biāo)注分布的具體數(shù)據(jù)，提出了上古漢語(yǔ)分詞及詞性標(biāo)注語(yǔ)料庫(kù)構(gòu)建的基本模式。

3.2 《基于先秦語(yǔ)料庫(kù)的古漢語(yǔ)地名自動(dòng)識(shí)別模型構(gòu)建研究》的信息抽取

《基于先秦語(yǔ)料庫(kù)的古漢語(yǔ)地名自動(dòng)識(shí)別模型構(gòu)建研究》是南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院黃水清、王東波、何琳三位教授發(fā)表于《圖書(shū)情報(bào)工作》2015年12期的研究成果。文章通過(guò)對(duì)《春秋左氏傳》中地名的內(nèi)部和外部特征進(jìn)行統(tǒng)計(jì)分析，將條件隨機(jī)場(chǎng)模型和最大熵模型應(yīng)用于古漢語(yǔ)地名自動(dòng)識(shí)別模型的構(gòu)建，并借助語(yǔ)料庫(kù)地名的內(nèi)部和外部特征統(tǒng)計(jì)、語(yǔ)料的預(yù)處理、自動(dòng)識(shí)別模型的構(gòu)建與測(cè)評(píng)等技術(shù)環(huán)節(jié)，得出條件隨機(jī)場(chǎng)模型優(yōu)于最大熵模型，基于人工標(biāo)注的語(yǔ)料構(gòu)建條件隨機(jī)場(chǎng)自動(dòng)識(shí)別模型能起的較好識(shí)別效果的理性化結(jié)論

3.3 《條件隨機(jī)場(chǎng)圖模型在《明史》詞性標(biāo)注研究中的應(yīng)用效果探索》的信息抽取

《條件隨機(jī)場(chǎng)圖模型在《明史》詞性標(biāo)注研究中的應(yīng)用效果探索》發(fā)表于《復(fù)旦學(xué)報(bào)（自然科學(xué)版）》2014年03期，是復(fù)旦大學(xué)碩士研究生朱曉在其導(dǎo)師金力教授指導(dǎo)下完成的研究論文。論文選擇編年體體裁的《明史》作為研究語(yǔ)料，通過(guò)交叉檢驗(yàn)法比較了基于條件隨機(jī)場(chǎng)的無(wú)邊圖模型、完全圖模型、和嵌套圖模型在古漢語(yǔ)詞性標(biāo)注中的應(yīng)用。在關(guān)于條件隨機(jī)場(chǎng)模型的特征設(shè)置、三種圖模型的選擇及交叉檢驗(yàn)的方法上突出優(yōu)選，闡述了在《明史》詞性標(biāo)注中完全圖模型和嵌套圖模型優(yōu)于無(wú)邊圖模型、分詞在某種意義上能夠提高古漢語(yǔ)詞性標(biāo)注效率的重要發(fā)現(xiàn)。

4 結(jié)語(yǔ)

綜上所述，利用信息技術(shù)面向海量古漢語(yǔ)史料進(jìn)行相關(guān)信息的抽取，從而為歷史研究人員提供相應(yīng)的數(shù)據(jù)資源及佐證信息，已經(jīng)成為歷史人物研究的一個(gè)重要潮流趨勢(shì)。而分析并利用古漢語(yǔ)特有的句法結(jié)構(gòu)特征，則是面向古漢語(yǔ)史料進(jìn)行信息抽取的一個(gè)必不可少的技術(shù)途徑。

參考文獻(xiàn)

[1] 留金騰，宋彥，夏飛.上古漢語(yǔ)分詞及詞性標(biāo)注語(yǔ)料庫(kù)的構(gòu)建——以《淮南子》為范例[J].中文信息學(xué)報(bào)，2013（06）：6-15.

[2] 朱曉，金力.條件隨機(jī)場(chǎng)圖模型在《明史》詞性標(biāo)注研究中的應(yīng)用效果探索[J].復(fù)旦學(xué)報(bào)（自然科學(xué)版），2014（03）：297-304.

[3] 郭喜躍，何婷婷.信息抽取研究綜述[J].計(jì)算機(jī)科學(xué)，2015（02）：14-16.

[4] 黃水清，王東波，何琳.基于先秦語(yǔ)料庫(kù)的古漢語(yǔ)地名自動(dòng)識(shí)別模型構(gòu)建研究[J].圖書(shū)情報(bào)工作，2015（12）：135-140.

[5] 虞寧翌，饒高琦，荀恩東.文言信息的自動(dòng)抽取-基于統(tǒng)計(jì)和規(guī)則的嘗試[J].中文信息學(xué)報(bào)，2015（06）：127-134.

[6] 葉輝，姬東鴻.基于多特征條件隨機(jī)場(chǎng)的《金匱要略》癥狀藥物信息抽取研究[J].中醫(yī)藥信息研究，2016（05）：14-17.

中國(guó)科技縱橫2019年14期

中國(guó)科技縱橫的其它文章: 淺談消防救援隊(duì)伍協(xié)同作戰(zhàn)方面存在的問(wèn)題及對(duì)策; 350MWCFB鍋爐余熱利用的研究; 移動(dòng)互聯(lián)網(wǎng)技術(shù)在配電運(yùn)檢專(zhuān)業(yè)的應(yīng)用探究; 機(jī)器學(xué)習(xí)在收單系統(tǒng)信用卡套現(xiàn)偵測(cè)中的應(yīng)用分析; 新疆科技成果轉(zhuǎn)化評(píng)估與對(duì)策研究; 大氣波導(dǎo)在現(xiàn)代化戰(zhàn)爭(zhēng)中的戰(zhàn)術(shù)應(yīng)用淺析