• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于知識(shí)圖譜的中國(guó)近代史知識(shí)問(wèn)答系統(tǒng)構(gòu)建研究*

    2022-08-16 07:12:36趙浩宇陳登建曾楨張虹雨
    數(shù)字圖書(shū)館論壇 2022年6期
    關(guān)鍵詞:近代史圖譜實(shí)體

    趙浩宇 陳登建 曾楨 張虹雨

    (貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽(yáng) 550025)

    歷史文獻(xiàn)資源中蘊(yùn)含著巨大的價(jià)值,具體體現(xiàn)在歷史文獻(xiàn)資源既服務(wù)于當(dāng)代社會(huì)經(jīng)濟(jì)建設(shè),又能促進(jìn)人們的精神文化建設(shè)。當(dāng)前,因得益于信息技術(shù)的大規(guī)模應(yīng)用,文獻(xiàn)館藏機(jī)構(gòu)中浩如煙海的紙質(zhì)資源也已基本完成數(shù)字化轉(zhuǎn)型升級(jí),但由于大量經(jīng)過(guò)數(shù)字化的歷史文獻(xiàn)資源是以非結(jié)構(gòu)化的形式記載,以平面化的方式供用戶線性瀏覽閱讀,而計(jì)算機(jī)無(wú)法讀懂文本格式的非結(jié)構(gòu)化數(shù)據(jù),也無(wú)法以更細(xì)粒度的知識(shí)元進(jìn)行語(yǔ)義關(guān)聯(lián),檢索結(jié)果難以展示實(shí)體之間的隱含關(guān)系,一定程度上阻礙了歷史文獻(xiàn)資源的深層次開(kāi)發(fā)與利用。可見(jiàn),傳統(tǒng)知識(shí)獲取方式有其固有弊端,既不利于用戶對(duì)其感興趣的歷史信息進(jìn)行語(yǔ)義檢索,也不利于對(duì)歷史知識(shí)脈絡(luò)進(jìn)行宏觀把握和深層了解。此外,研究中國(guó)近代史需要厘清歷史人物之間錯(cuò)綜復(fù)雜的關(guān)系,發(fā)現(xiàn)人物之間的隱性關(guān)系,探討歷史事件的發(fā)展脈絡(luò)和其中的歷史緣由,深入挖掘潛在的歷史意義和學(xué)術(shù)價(jià)值。因此,從歷史文獻(xiàn)資源的開(kāi)發(fā)利用入手,以本體和知識(shí)圖譜等語(yǔ)義網(wǎng)技術(shù)為基礎(chǔ),以知識(shí)問(wèn)答系統(tǒng)平臺(tái)為載體,以實(shí)現(xiàn)用戶意圖檢索為導(dǎo)向,構(gòu)建基于知識(shí)圖譜的中國(guó)近代史知識(shí)問(wèn)答系統(tǒng),用戶可以用自然語(yǔ)言進(jìn)行提問(wèn)直接獲取所需答案,無(wú)須把大量時(shí)間和精力浪費(fèi)在歷史文獻(xiàn)的檢索、瀏覽和篩選中,為用戶提供便利的中國(guó)近代史知識(shí)查詢服務(wù),同時(shí)還可以通過(guò)已構(gòu)建的知識(shí)圖譜可視化展示前端平臺(tái),實(shí)現(xiàn)歷史知識(shí)要素的可視化瀏覽,幫助用戶以直觀形式厘清歷史知識(shí)的關(guān)聯(lián)。

    1 相關(guān)研究回顧

    知識(shí)圖譜是通過(guò)存儲(chǔ)實(shí)體和關(guān)系來(lái)實(shí)現(xiàn)語(yǔ)義檢索的圖數(shù)據(jù)庫(kù),其本質(zhì)是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò)圖。知識(shí)圖譜和語(yǔ)義技術(shù)為事物的分類、屬性和關(guān)系的描述提供了新方法[1],使得搜索引擎可以直接對(duì)事物進(jìn)行索引和搜索,因此基于知識(shí)圖譜的智能問(wèn)答系統(tǒng)是一種新型的信息檢索方式,本質(zhì)上是搜索引擎的高級(jí)形態(tài)[2],現(xiàn)已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域的學(xué)術(shù)研究中,并在各領(lǐng)域大放異彩。智能問(wèn)答系統(tǒng)的構(gòu)想最早可追溯到1950年Turing[3]在其論文中提出的關(guān)于機(jī)器思維的問(wèn)題,即機(jī)器在多大程度上能夠模仿人類并且能夠與人類展開(kāi)互相問(wèn)答。20世紀(jì)60年代,麻省理工學(xué)院人工智能實(shí)驗(yàn)室的Weizenbaum[4]設(shè)計(jì)了聊天機(jī)器人ELIZA,通過(guò)模式匹配和替換實(shí)現(xiàn)人機(jī)對(duì)話,并且可以模擬特定角色通過(guò)聊天的方式與人類展開(kāi)互動(dòng)。20世紀(jì)70年代,隨著知識(shí)表示和自然語(yǔ)言處理技術(shù)的發(fā)展,以及知識(shí)庫(kù)構(gòu)建技術(shù)的成熟,促進(jìn)了問(wèn)答系統(tǒng)相關(guān)研究的進(jìn)一步發(fā)展,如耶魯大學(xué)在1975年開(kāi)發(fā)的SAM系統(tǒng)[5],它能夠使用腳本來(lái)理解所提的問(wèn)題。在隨后的幾十年里,相關(guān)研究成果仍停留在機(jī)器與人類的簡(jiǎn)單交流上,并未實(shí)現(xiàn)真正意義上的智能問(wèn)答。近年來(lái),隨著芯片技術(shù)的高速發(fā)展,計(jì)算機(jī)的算力得到空前提升,加之自然語(yǔ)言處理技術(shù)的成熟,智能問(wèn)答技術(shù)從特定領(lǐng)域小規(guī)模數(shù)據(jù)庫(kù)轉(zhuǎn)向基于大規(guī)模文本數(shù)據(jù)的互聯(lián)網(wǎng)開(kāi)放領(lǐng)域,知識(shí)問(wèn)答系統(tǒng)走入大數(shù)據(jù)時(shí)代。2011年Nature雜志上刊登了一篇關(guān)于問(wèn)答系統(tǒng)的文章中指出:“以直接而準(zhǔn)確的方式回答用戶自然語(yǔ)言提問(wèn)的自動(dòng)問(wèn)答系統(tǒng)將構(gòu)成下一代搜索引擎的基本形態(tài)”[6]。由此可知,下一代搜索引擎的發(fā)展方向是向用戶返回精準(zhǔn)、有效信息的問(wèn)答系統(tǒng),并且通過(guò)自然語(yǔ)言完成人機(jī)交互將成為知識(shí)獲取的新趨勢(shì)。

    近年來(lái),隨著信息技術(shù)的高速發(fā)展,數(shù)字人文領(lǐng)域的研究方法和思路不斷拓寬,基于知識(shí)圖譜的知識(shí)組織方法被廣泛應(yīng)用于知識(shí)發(fā)現(xiàn)、智能問(wèn)答和個(gè)性化推薦中,已成為知識(shí)服務(wù)的重要手段。目前,基于知識(shí)圖譜的知識(shí)問(wèn)答系統(tǒng)主要有基于模板匹配、基于語(yǔ)義解析、基于深度學(xué)習(xí)3種實(shí)現(xiàn)方法。①Tunstall-Pedoe[7]早在2010年就率先提出了基于模板匹配的方法,其核心思想是將用戶提問(wèn)先轉(zhuǎn)換為人為預(yù)定義的規(guī)則或模板,再轉(zhuǎn)換為可執(zhí)行的查詢操作。其優(yōu)點(diǎn)是匹配響應(yīng)速度較快、精確度較高,缺點(diǎn)是大量模板維護(hù)需要人工完成。例如:丁斌[8]采用了模板庫(kù)的方式實(shí)現(xiàn)了汽車領(lǐng)域問(wèn)答系統(tǒng)的構(gòu)建;李賀等[9]結(jié)合AC多模式匹配算法實(shí)現(xiàn)對(duì)用戶問(wèn)題的匹配,構(gòu)建了疾病知識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng)。②基于語(yǔ)義解析的方法,關(guān)鍵在于對(duì)提問(wèn)語(yǔ)句成分進(jìn)行解析,并將查詢轉(zhuǎn)化成固定的邏輯表達(dá)式,再利用知識(shí)圖譜的語(yǔ)義信息將邏輯表達(dá)式轉(zhuǎn)換成知識(shí)圖譜查詢,最后以自然語(yǔ)言形式返回查詢結(jié)果。其優(yōu)點(diǎn)是可解釋性較強(qiáng),但缺乏一定的通用性。例如:高勁松等[10]在構(gòu)建館藏文物資源關(guān)聯(lián)數(shù)據(jù)知識(shí)模型的基礎(chǔ)上,提出基于多粒度語(yǔ)義查詢的智能問(wèn)答服務(wù)框架;單良等[11]通過(guò)解析自然語(yǔ)言語(yǔ)義信息,構(gòu)建了中國(guó)歷史人物知識(shí)的智能問(wèn)答系統(tǒng)。③基于深度學(xué)習(xí)的方法,關(guān)鍵是將用戶的問(wèn)題投射到一個(gè)高維向量空間,獲得相應(yīng)詞向量,通過(guò)深度學(xué)習(xí)模型對(duì)向量進(jìn)行相似度計(jì)算,再通過(guò)相應(yīng)打分機(jī)制獲得候選項(xiàng)排序,最后將相似度最大的候選項(xiàng)作為答案返回給用戶。其優(yōu)點(diǎn)是對(duì)復(fù)雜問(wèn)題回答的正確率較高,缺點(diǎn)是模型訓(xùn)練成本較高,可解釋性較差。如朱建楠等[12]利用深度學(xué)習(xí)算法構(gòu)建了機(jī)械智能制造知識(shí)問(wèn)答系統(tǒng),姜雨嬌[13]探討了基于深度學(xué)習(xí)的蘋果生產(chǎn)知識(shí)自動(dòng)問(wèn)答方法。

    當(dāng)前,基于知識(shí)圖譜的智能問(wèn)答系統(tǒng)相關(guān)研究和實(shí)踐應(yīng)用日益成為學(xué)界關(guān)注的焦點(diǎn),并且已有學(xué)者在中國(guó)歷史領(lǐng)域開(kāi)展了知識(shí)組織服務(wù)和智能問(wèn)答系統(tǒng)的構(gòu)建與應(yīng)用。例如:肖大軍[14]在改進(jìn)表示學(xué)習(xí)中翻譯模型的基礎(chǔ)上,設(shè)計(jì)了基于知識(shí)圖譜的中國(guó)歷史人物親屬關(guān)系自動(dòng)問(wèn)答系統(tǒng);周亦等[15]依托知識(shí)圖譜等可視化技術(shù),實(shí)現(xiàn)了中國(guó)古代歷史人物之間的復(fù)雜關(guān)聯(lián)并對(duì)其進(jìn)行可視化呈現(xiàn);張?jiān)浦械萚16]以紅色歷史人物數(shù)字資源為核心,以知識(shí)圖譜和KBQA為框架構(gòu)建了紅色歷史人物知識(shí)問(wèn)答模型,并通過(guò)實(shí)證研究證明了問(wèn)答系統(tǒng)的可行性;王穎等[17]依托國(guó)史本體知識(shí)庫(kù)構(gòu)建了國(guó)史知識(shí)檢索平臺(tái),實(shí)現(xiàn)了知識(shí)檢索、智能問(wèn)答等深度檢索服務(wù);Liu等[18]探討了基于問(wèn)答數(shù)據(jù)庫(kù)與知識(shí)圖譜結(jié)合的方法,構(gòu)建遼代歷史文化領(lǐng)域智能問(wèn)答系統(tǒng)。以上相關(guān)學(xué)者的研究從多方面闡述了基于知識(shí)圖譜的知識(shí)問(wèn)答系統(tǒng)構(gòu)建方法與思路,對(duì)本文所構(gòu)建的問(wèn)答系統(tǒng)具有借鑒意義。

    目前還沒(méi)有針對(duì)中國(guó)近代這一特定歷史時(shí)期全領(lǐng)域范疇的知識(shí)問(wèn)答系統(tǒng),部分研究只聚焦于某一特定主題,或是某一較窄時(shí)間段,而且現(xiàn)有的垂直領(lǐng)域問(wèn)答項(xiàng)目系統(tǒng)框架可移植性較差。此外,大部分研究實(shí)現(xiàn)了語(yǔ)義檢索和知識(shí)圖譜可視化,但由于模式層本體構(gòu)建不完善,未能有效規(guī)范數(shù)據(jù)層中的實(shí)例對(duì)象,并且缺乏多維細(xì)粒度的語(yǔ)義信息,因此導(dǎo)致歷史領(lǐng)域知識(shí)解釋性較差、系統(tǒng)性較弱、關(guān)聯(lián)性不足等問(wèn)題,不利于對(duì)中國(guó)近代史內(nèi)容的關(guān)聯(lián)挖掘和細(xì)粒度知識(shí)元的語(yǔ)義檢索。本文以中國(guó)近代時(shí)期為經(jīng)、以歷史文獻(xiàn)內(nèi)容為緯,結(jié)合數(shù)字人文技術(shù),構(gòu)建基于知識(shí)圖譜的知識(shí)問(wèn)答系統(tǒng),其優(yōu)點(diǎn)在于可以實(shí)現(xiàn)歷史文獻(xiàn)內(nèi)容中細(xì)粒度知識(shí)重組與語(yǔ)義化關(guān)聯(lián)等知識(shí)組織服務(wù),即從歷史人物、事件、機(jī)構(gòu)、時(shí)間地點(diǎn)等多個(gè)維度出發(fā),搭建細(xì)粒度的知識(shí)模型并使其進(jìn)行語(yǔ)義化關(guān)聯(lián)。

    2 知識(shí)問(wèn)答系統(tǒng)的總體設(shè)計(jì)

    中國(guó)近代史知識(shí)問(wèn)答系統(tǒng)采用MVC(Model View Controller)[19]模式進(jìn)行開(kāi)發(fā),其整體架構(gòu)(見(jiàn)圖1)分為展示層、邏輯層和數(shù)據(jù)層,其中數(shù)據(jù)層包括數(shù)據(jù)來(lái)源、數(shù)據(jù)處理及知識(shí)圖譜構(gòu)建,邏輯層是知識(shí)問(wèn)答系統(tǒng)設(shè)計(jì)模塊,展示層是對(duì)問(wèn)答系統(tǒng)的具體應(yīng)用。系統(tǒng)分層的目的是將系統(tǒng)中各部分分離,以降低不同部分之間的耦合度,以提高系統(tǒng)模型的可移植性。

    圖1 中國(guó)近代史知識(shí)問(wèn)答系統(tǒng)的整體架構(gòu)

    數(shù)據(jù)層是問(wèn)答系統(tǒng)的前提和基礎(chǔ),采用自頂向下的方法構(gòu)建本體模式層,當(dāng)有新知識(shí)需要加入時(shí),則采用自底向上的方法更新知識(shí)圖譜,并選擇Neo4j作為知識(shí)圖譜數(shù)據(jù)倉(cāng)儲(chǔ),將多源異構(gòu)的數(shù)據(jù)以圖結(jié)構(gòu)的方式進(jìn)行存儲(chǔ),既能直觀展現(xiàn)各種信息之間的關(guān)系,又能提升知識(shí)檢索效率。知識(shí)圖譜中存在大量具有語(yǔ)義關(guān)聯(lián)的數(shù)據(jù)使得該系統(tǒng)理解用戶提問(wèn)成為可能。

    邏輯層是整個(gè)問(wèn)答系統(tǒng)的核心,該層主要負(fù)責(zé)問(wèn)題解析和問(wèn)題生成兩部分。問(wèn)題解析是對(duì)用戶的自然語(yǔ)言提問(wèn)進(jìn)行處理和識(shí)別,首先是對(duì)用戶的輸入進(jìn)行相關(guān)預(yù)處理;其次根據(jù)BERT+BILSTM+CRF算法對(duì)問(wèn)句中的實(shí)體進(jìn)行識(shí)別,借助BERT+TEXTCNN算法完成用戶意圖識(shí)別工作;最后根據(jù)cypher語(yǔ)法生成相對(duì)應(yīng)的查詢句式,再對(duì)Neo4j數(shù)據(jù)庫(kù)進(jìn)行查詢并以通俗易懂的語(yǔ)句將答案返回給用戶。

    展示層的工作原理是基于前端技術(shù)生成的網(wǎng)頁(yè)服務(wù)項(xiàng)目,用戶交互是其主要功能。本文構(gòu)建的基于知識(shí)圖譜前后端分離的知識(shí)問(wèn)答系統(tǒng),利用Flask框架構(gòu)建前端平臺(tái),Neo4j作為后端數(shù)據(jù)倉(cāng)儲(chǔ),使用Python語(yǔ)言完成對(duì)圖數(shù)據(jù)庫(kù)的連接及操作,最終完成與用戶的問(wèn)答交互服務(wù)。

    綜上,基于知識(shí)圖譜的中國(guó)近代史知識(shí)問(wèn)答系統(tǒng)的實(shí)現(xiàn)由三大模塊和兩大流程構(gòu)成,三大模塊即上述MVC三層開(kāi)發(fā)模式,兩大流程包括中國(guó)近代史知識(shí)圖譜的構(gòu)建流程以及知識(shí)問(wèn)答系統(tǒng)的實(shí)現(xiàn)流程。

    3 中國(guó)近代史知識(shí)圖譜構(gòu)建

    3.1 本體層構(gòu)建

    知識(shí)圖譜在邏輯上可分為模式層和實(shí)例層,模式層是知識(shí)圖譜的“骨骼框架”,是對(duì)實(shí)例層的約束和規(guī)范,也是完成知識(shí)圖譜構(gòu)建的中心內(nèi)容。本文為提高本體模型的質(zhì)量和后期知識(shí)問(wèn)答實(shí)例數(shù)據(jù)的準(zhǔn)確性,通過(guò)文獻(xiàn)調(diào)研深入剖析文本內(nèi)容特征,并結(jié)合領(lǐng)域?qū)<抑R(shí)設(shè)計(jì)相關(guān)概念、關(guān)系及屬性,運(yùn)用工具Protégé構(gòu)建中國(guó)近代史本體,完成知識(shí)建模。具體而言,首先確定中國(guó)近代史核心概念集,其次確定概念間的層次關(guān)系,再次定義類的對(duì)象屬性和數(shù)據(jù)屬性以及屬性約束。

    中國(guó)近代史本體層包括“歷史人物”“歷史事件”“歷史文獻(xiàn)”“地點(diǎn)”“時(shí)間實(shí)體”“歷史時(shí)期”“思想理念”“領(lǐng)域”“行為主體”“組織機(jī)構(gòu)”10個(gè)核心概念。中國(guó)近代史本體模型共有10個(gè)一級(jí)類、53個(gè)二級(jí)類、88個(gè)三級(jí)類,以及包括數(shù)據(jù)屬性和對(duì)象屬性在內(nèi)的95個(gè)屬性約束,并根據(jù)近代史歷史知識(shí)定義了一些屬性約束和推理規(guī)則,從而確定了知識(shí)實(shí)體的分類以及實(shí)體關(guān)系類型。中國(guó)近代史本體核心概念關(guān)系模型部分展示,如圖2所示。

    圖2 中國(guó)近代史本體核心概念關(guān)系模型展示(部分)

    3.2 知識(shí)獲取

    系統(tǒng)所需的數(shù)據(jù)來(lái)自開(kāi)放數(shù)據(jù)集、網(wǎng)絡(luò)論壇、垂直站點(diǎn)、國(guó)家圖書(shū)館人物專題數(shù)據(jù)庫(kù)、電子化的文本資料、維基百科以及百度百科等,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、人工篩選、自然語(yǔ)言處理等方式從多種數(shù)據(jù)源中獲取相關(guān)知識(shí),并將其轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),作為構(gòu)建知識(shí)圖譜實(shí)例層所需要的資源。

    3.3 知識(shí)抽取

    知識(shí)抽取是根據(jù)已定義好的本體模型,完成所需相關(guān)實(shí)體的抽取工作。本研究根據(jù)數(shù)據(jù)來(lái)源的不同,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、模式匹配、包裝器適配、機(jī)器學(xué)習(xí)等方法完成實(shí)體識(shí)別、信息抽取等任務(wù),抽取所需要的實(shí)體、關(guān)系和屬性,并將其轉(zhuǎn)換成實(shí)體關(guān)系三元組。知識(shí)抽取具體方法和步驟見(jiàn)參考文獻(xiàn)[20]。

    3.4 知識(shí)融合

    抽取后的知識(shí)存在大量重復(fù)、異名同義的實(shí)體,需要進(jìn)行實(shí)體消歧和實(shí)體對(duì)齊等知識(shí)融合的方法來(lái)對(duì)數(shù)據(jù)進(jìn)行整合。實(shí)體消歧的主要任務(wù)是把有歧義的命名實(shí)體映射到實(shí)際所指的實(shí)體概念上。實(shí)體對(duì)齊是指對(duì)具有相同指稱的不同實(shí)體進(jìn)行相互鏈接的操作。本研究通過(guò)計(jì)算相似度的方式消除歧義,如實(shí)體“辛亥革命”可能指的是作品類別中的《辛亥革命》著作,也可能指“辛亥革命”這一歷史事件。解決此類問(wèn)題的方法是,先找到“辛亥革命”所有解釋的描述,由于上文通過(guò)知識(shí)獲取從各種信息源中爬取了實(shí)體的解釋內(nèi)容,因而方便轉(zhuǎn)換成向量表示,再將文本中包含“辛亥革命”的句子轉(zhuǎn)成向量,將這個(gè)向量和所有解釋的向量進(jìn)行相似度計(jì)算,選擇相似度最高的,以此完成消歧工作。歷史人物的屬性如“出生年月”“出生日期”“出生時(shí)間”等,這些屬性說(shuō)法不同但都表示相同含義,則采用基于詞典匹配的屬性對(duì)齊方法。歷史文獻(xiàn)中某一地名的稱呼可能隨著時(shí)間的不同而發(fā)生改變,如“奉天府”是今“遼寧省沈陽(yáng)市”的舊稱。為了使歷史文獻(xiàn)數(shù)據(jù)中的地名和當(dāng)代的行政區(qū)劃名稱統(tǒng)一,本文利用基于Python的CPCA(Chinese Province City Area)開(kāi)源工具包和中國(guó)國(guó)家省市區(qū)行政區(qū)域數(shù)據(jù)庫(kù)作為參照標(biāo)準(zhǔn),然后將已抽取的中國(guó)近代史相關(guān)地名與開(kāi)放數(shù)據(jù)集進(jìn)行實(shí)體鏈接,完成實(shí)體對(duì)齊工作。

    3.5 知識(shí)存儲(chǔ)

    圖數(shù)據(jù)庫(kù)主要用于存儲(chǔ)更多相互關(guān)聯(lián)的數(shù)據(jù),圖結(jié)構(gòu)相比其他數(shù)據(jù)結(jié)構(gòu)而言,能保存更多數(shù)據(jù)間的關(guān)系,能高效率地處理非結(jié)構(gòu)化等復(fù)雜數(shù)據(jù),而且圖數(shù)據(jù)庫(kù)的維護(hù)相對(duì)容易,還可以即時(shí)呈現(xiàn)出圖譜效果。

    (3)勞動(dòng)定額的確定。①充裝工的工作班制:每周5天。主要工作內(nèi)容:完成大瓶手工充裝。計(jì)算方法如下:額定時(shí)間=標(biāo)準(zhǔn)時(shí)間*(1+寬放率)=52.55*(1+15%)=60.43,每班定編=每班總工時(shí)/可用工作時(shí)間=額定時(shí)間*頻次/可用工作時(shí)間=(60.43*400/60)/410=1。

    這一環(huán)節(jié)將上文抽取得到的實(shí)例知識(shí)進(jìn)行匯總處理,選擇Neo4j圖數(shù)據(jù)庫(kù)完成知識(shí)存儲(chǔ)。首先使用cypher命令語(yǔ)句LOAD CSV將實(shí)體和屬性導(dǎo)入圖數(shù)據(jù)庫(kù)Neo4j中,然后再將對(duì)應(yīng)的關(guān)系導(dǎo)入其中。由于本文獲取的人際關(guān)系數(shù)量較多,所以選擇采用Python工具包py2neo將其導(dǎo)入Neo4j中。知識(shí)存儲(chǔ)完畢后,便可進(jìn)行知識(shí)圖譜的可視化呈現(xiàn),由于Neo4j自帶的展示效果可自定義選項(xiàng)較少,故選擇使用Neovis.js連接Neo4j數(shù)據(jù)庫(kù),將JavaScript可視化和Neo4j無(wú)縫對(duì)接,可以靈活地為標(biāo)簽、屬性、節(jié)點(diǎn)和關(guān)系進(jìn)行樣式和色彩的自定義設(shè)計(jì)。本研究總共構(gòu)建了包括歷史人物、事件、機(jī)構(gòu)等在內(nèi)的11 768個(gè)實(shí)體節(jié)點(diǎn)以及16 592個(gè)三元組關(guān)系,中國(guó)近代史知識(shí)圖譜可視化(部分)展示效果見(jiàn)圖3。

    圖3 中國(guó)近代史知識(shí)圖譜可視化(部分)展示

    4 基于知識(shí)圖譜的知識(shí)問(wèn)答系統(tǒng)構(gòu)建

    4.1 知識(shí)問(wèn)答系統(tǒng)架構(gòu)

    中國(guó)近代史知識(shí)問(wèn)答系統(tǒng)主要完成的功能有接受用戶的問(wèn)題、對(duì)用戶的問(wèn)題識(shí)別分析、檢索出最合適的答案、將問(wèn)題的答案反饋給用戶,知識(shí)問(wèn)答系統(tǒng)的架構(gòu)如圖4所示。

    圖4 中國(guó)近代史知識(shí)問(wèn)答系統(tǒng)架構(gòu)圖

    用戶通過(guò)系統(tǒng)接口輸入相應(yīng)的問(wèn)題語(yǔ)句,首先借助分詞工具進(jìn)行語(yǔ)句的分詞處理、去除停用詞處理等操作。本文預(yù)先訓(xùn)練相應(yīng)的BERT+TextCNN模型,對(duì)用戶意圖類別進(jìn)行分類編碼,將上文預(yù)處理得到的問(wèn)題語(yǔ)句輸入模型,獲取用戶的意圖類別標(biāo)簽,借助BERT+BiLSTM+CRF模型抽取出文本中的實(shí)體數(shù)據(jù),將用戶意圖類型與實(shí)體數(shù)據(jù)傳入預(yù)先定義的查詢模板,通過(guò)模板匹配,構(gòu)建出符合用戶查詢要求的cypher語(yǔ)法并借助py2neo庫(kù)連接到知識(shí)圖譜獲取返回結(jié)果,最后將返回?cái)?shù)據(jù)與回復(fù)模板進(jìn)行匹配,輸出答案反饋。預(yù)先構(gòu)建的回復(fù)模板是根據(jù)人類自然語(yǔ)言使用習(xí)慣設(shè)計(jì)而來(lái),意在提升用戶的整體使用體驗(yàn)。

    4.2 意圖識(shí)別

    本研究將用戶問(wèn)題劃分為人物信息類、人物關(guān)系類、事件信息類、著作信息類、人物經(jīng)歷類和地理信息類6個(gè)類別。其中,人物信息類中主要定義人物基本屬性信息、頭銜、職位、信仰、畢業(yè)院校等,人物關(guān)系類將人物實(shí)體之間的關(guān)系分為父子關(guān)系、夫妻關(guān)系、朋友關(guān)系、師生關(guān)系、同學(xué)關(guān)系等,事件信息類主要包含事件的基本屬性信息與事件簡(jiǎn)介等問(wèn)題,著作信息類主要包含著作的屬性信息與相關(guān)人物等,人物經(jīng)歷類主要包含相關(guān)人物實(shí)體的歷史經(jīng)歷,地理信息類主要包含人物、事件等涉及的地理方位信息。

    傳統(tǒng)基于模板的問(wèn)題分類模型存在許多固有弊端,如用戶提問(wèn)方式的詞匯不在模板之中,就無(wú)法正確識(shí)別用戶的意圖。本文首先采用BERT+TextCNN文本分類模型實(shí)現(xiàn)對(duì)于用戶意圖的識(shí)別,借助BERT文本預(yù)訓(xùn)練模型,將用戶提問(wèn)數(shù)據(jù)進(jìn)行動(dòng)態(tài)向量化的表達(dá),將學(xué)習(xí)到的詞向量特征,輸入到TextCNN模型之中。TextCNN是借助不同的卷積核實(shí)現(xiàn)對(duì)于不同位置序列的句子特征信息的提?。蝗缓笸ㄟ^(guò)最大值的池化操作提取文本特征;最后將獲取到的不同卷積核下的特征進(jìn)行拼接,接上Softmax層,完成對(duì)用戶意圖的識(shí)別,輸入用戶意圖的類別標(biāo)簽。

    為驗(yàn)證模型的分類效果,筆者將互聯(lián)網(wǎng)收集的中學(xué)生近代史問(wèn)答競(jìng)賽題數(shù)據(jù)與自行構(gòu)建的近代史問(wèn)題數(shù)據(jù)進(jìn)行匯總,將不同的問(wèn)題進(jìn)行分類編碼,匯總為訓(xùn)練集、驗(yàn)證集和測(cè)試集。借助訓(xùn)練集訓(xùn)練模型性能,驗(yàn)證集用于調(diào)整模型參數(shù),測(cè)試集用于評(píng)估模型的性能。經(jīng)驗(yàn)證,準(zhǔn)確度為92.75%,召回率為93.05%,F(xiàn)1值為92.89%,模型整體效果良好,可以實(shí)現(xiàn)對(duì)于用戶的意圖識(shí)別。

    4.3 實(shí)體識(shí)別

    由于開(kāi)源項(xiàng)目Jiagu工具包對(duì)本文所需的歷史實(shí)體抽取精度尚不理想,于是本文借助主流的BERT+BiLSTM+CRF訓(xùn)練近代史領(lǐng)域的命名實(shí)體識(shí)別模型,完成對(duì)于輸入問(wèn)句中的實(shí)體數(shù)據(jù)進(jìn)行識(shí)別。該模型是由BERT嵌入層、BiLSTM雙向語(yǔ)義特征提取層、CRF實(shí)體序列信息標(biāo)注層搭建而成。首先將預(yù)處理完成的問(wèn)題語(yǔ)句傳入BERT層,在該層中將問(wèn)句中的字符轉(zhuǎn)化為相應(yīng)的詞向量表達(dá)。由于BERT模型中內(nèi)嵌Attention機(jī)制,可以完成對(duì)于字符級(jí)別下的權(quán)重調(diào)整,因此能更好地捕捉字符的信息特征。然后將相應(yīng)的字符向量傳入BiLSTM層,該層是將正向的LSTM與反向的LSTM層堆疊而成,既可以獲取正向的字符序列信息,又可以獲取反向的字符序列信息。借助BiLSTM獲取句子中字符所對(duì)應(yīng)的各個(gè)標(biāo)簽的得分矩陣。最后,將結(jié)果輸入到CRF層中,根據(jù)相鄰標(biāo)簽中的相關(guān)性,調(diào)節(jié)相應(yīng)的字符標(biāo)簽序列,保證最終的預(yù)測(cè)結(jié)果符合預(yù)先定義的標(biāo)注方案。

    中國(guó)近代史領(lǐng)域命名實(shí)體識(shí)別模型的訓(xùn)練,首先借助前期Jiagu庫(kù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)中的人物、歷史事件、地理位置和機(jī)構(gòu)實(shí)體打上標(biāo)簽,結(jié)合人工篩選、矯正實(shí)體標(biāo)注,為所有的文本打上相應(yīng)的序列標(biāo)注信息。其中本文選用BIO(B-begin,I-inside,O-outside)序列標(biāo)注方案對(duì)于人物、歷史事件、地理名稱和機(jī)構(gòu)等非結(jié)構(gòu)化數(shù)據(jù)實(shí)體,分別采用不同的BI標(biāo)簽進(jìn)行區(qū)分,非實(shí)體數(shù)據(jù)用O表示,實(shí)體開(kāi)頭用B表示,實(shí)體后續(xù)用I表示,完成初期標(biāo)注工作。其次,按照句號(hào)作為分隔符號(hào),對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行劃分,借助BERT+BiLSTM+CRF模型對(duì)非結(jié)構(gòu)化的命名實(shí)體進(jìn)行識(shí)別。最后,對(duì)經(jīng)過(guò)訓(xùn)練后模型進(jìn)行評(píng)估后,發(fā)現(xiàn)BERT+BiLSTM+CRF模型的準(zhǔn)確率為93.1%,召回率為92.35%,F(xiàn)1值為92.72%,實(shí)體識(shí)別效果精度良好。

    4.4 查詢語(yǔ)句構(gòu)建

    借助上述的模型識(shí)別出用戶輸入的核心信息,程序?qū)⒃撔畔⑴c查詢模板進(jìn)行匹配判斷,通過(guò)Python語(yǔ)言中的占位符傳入字符參數(shù),生成預(yù)先定義好的cyhper查詢語(yǔ)句。在6類不同的用戶意圖類別下分別搭建相應(yīng)的查詢語(yǔ)句模板。如“我想問(wèn)一下李鴻章和張愛(ài)玲是什么關(guān)系?”,系統(tǒng)識(shí)別出相應(yīng)的用戶意圖與實(shí)體數(shù)據(jù),構(gòu)建出相應(yīng)的cyper查詢語(yǔ)句,MATCH(n:歷史人物{name:"李鴻章"})-[r]->(c:`歷史人物`{name:"張愛(ài)玲"})。

    4.5 構(gòu)建回復(fù)語(yǔ)句

    現(xiàn)階段對(duì)于回復(fù)模板的構(gòu)建方式主要有借助模板與深度學(xué)習(xí)兩種方法,其中深度學(xué)習(xí)的方法主要借助的是Seq2Seq以及其變種的Attention等方法,通過(guò)Encode和Decode的編碼方法,實(shí)現(xiàn)多樣化的回答,但是該方法生成的回答語(yǔ)句還不夠嚴(yán)謹(jǐn),綜合考慮各方因素,本文選擇借助模板生成自然語(yǔ)言的回復(fù)語(yǔ)句,就是借助py2neo實(shí)現(xiàn)腳本程序與Neo4j的數(shù)據(jù)庫(kù)連接,實(shí)現(xiàn)數(shù)據(jù)的交互。首先將生成的cypher查詢語(yǔ)句借助py2neo傳入圖數(shù)據(jù)庫(kù),在知識(shí)圖譜中實(shí)現(xiàn)屬性查詢、關(guān)系查詢和實(shí)體查詢等功能,再將圖數(shù)據(jù)庫(kù)返回的數(shù)據(jù)傳入預(yù)先定義的答案回復(fù)模板,最后把通俗易懂的答案反饋給用戶。

    5 知識(shí)問(wèn)答系統(tǒng)測(cè)試及結(jié)果分析

    用戶與問(wèn)答系統(tǒng)的交互是該系統(tǒng)開(kāi)發(fā)的主要功能。該系統(tǒng)不僅能回答如蔣介石有關(guān)的事件、蔡元培的生平簡(jiǎn)介、浙江籍貫的歷史名人和《定軍山》歷史作品的演員等直接信息,而且支持復(fù)雜推理信息查詢以及多問(wèn)句問(wèn)題等復(fù)雜查詢,如李鴻章和張愛(ài)玲的關(guān)系,歷史事件發(fā)生的時(shí)間、空間以及影響等信息的查詢。

    為檢驗(yàn)中國(guó)近代史知識(shí)問(wèn)答系統(tǒng)的準(zhǔn)確性,本研究選擇7位在校大學(xué)生作為志愿者,讓每個(gè)人針對(duì)不同問(wèn)題類別提出10條問(wèn)題,一共得到420條問(wèn)題數(shù)據(jù)。借鑒以往學(xué)者的經(jīng)驗(yàn),本文選取ACC作為整體的問(wèn)答系統(tǒng)性能的評(píng)價(jià)指標(biāo)[21]。ACC是問(wèn)答系統(tǒng)回答的準(zhǔn)確率,表示為系統(tǒng)回答正確問(wèn)題數(shù)量與總測(cè)試語(yǔ)句數(shù)量的比值。經(jīng)測(cè)試統(tǒng)計(jì)可知,問(wèn)答系統(tǒng)準(zhǔn)確率的均值為94%,大多數(shù)問(wèn)題可以被模型精準(zhǔn)地識(shí)別并返回有效的答案語(yǔ)句,但回答人物信息類、事件信息類與人物經(jīng)歷類問(wèn)題的準(zhǔn)確度稍低。經(jīng)回溯分析發(fā)現(xiàn),系統(tǒng)對(duì)于人物信息類與人物經(jīng)歷類問(wèn)題會(huì)出現(xiàn)類別判斷錯(cuò)誤的現(xiàn)象,是因?yàn)橛脩籼釂?wèn)這兩種類型的信息時(shí)所用的自然語(yǔ)言表述語(yǔ)句十分相似,因此問(wèn)答系統(tǒng)容易錯(cuò)誤歸類,導(dǎo)致判斷錯(cuò)誤,這些問(wèn)題將在后續(xù)的研究中進(jìn)一步完善。

    6 結(jié)語(yǔ)

    本研究構(gòu)建了基于知識(shí)圖譜的智能問(wèn)答系統(tǒng),不僅能解決用戶的語(yǔ)義檢索問(wèn)題,而且能夠通過(guò)知識(shí)圖譜可視化方式對(duì)歷史領(lǐng)域碎片化的知識(shí)進(jìn)行直觀呈現(xiàn),幫助用戶節(jié)省大量時(shí)間和精力,直接獲取所需信息,使其從線性閱讀文檔的體力勞動(dòng)中獲得解放。該項(xiàng)目的主要特點(diǎn)如下。①通過(guò)網(wǎng)頁(yè)平臺(tái),實(shí)現(xiàn)智能交互。依托知識(shí)圖譜技術(shù),實(shí)現(xiàn)了從網(wǎng)頁(yè)文檔鏈接向?qū)嶓w鏈接轉(zhuǎn)變,支持用戶按主題和意圖,而不是按字符串檢索,從而實(shí)現(xiàn)真正意義上的語(yǔ)義檢索。②以知識(shí)圖譜為數(shù)據(jù)倉(cāng)儲(chǔ),展現(xiàn)歷史各要素之間的復(fù)雜關(guān)聯(lián)。本系統(tǒng)實(shí)現(xiàn)了歷史人物、歷史事件各實(shí)體屬性的細(xì)粒度知識(shí)關(guān)聯(lián),為歷史愛(ài)好者提供便利。③豐富人文學(xué)科研究手段,擴(kuò)展研究思路。本文以多學(xué)科交叉視角,從歷史文獻(xiàn)資源的開(kāi)發(fā)利用入手,以知識(shí)問(wèn)答系統(tǒng)構(gòu)建方案為主要內(nèi)容,以具體的實(shí)例樣本進(jìn)行驗(yàn)證和實(shí)現(xiàn),構(gòu)建了較為完備的跨學(xué)科研究思路,能夠?yàn)橄嚓P(guān)的學(xué)科交叉研究提供借鑒和參考。

    當(dāng)前,知識(shí)問(wèn)答系統(tǒng)正在朝著基于深度學(xué)習(xí)的方法靠攏,解決多條推理問(wèn)題以及提高模型的可解釋性仍是當(dāng)前知識(shí)問(wèn)答系統(tǒng)發(fā)展的趨勢(shì)和挑戰(zhàn)。未來(lái)還需提高知識(shí)圖譜中數(shù)據(jù)的質(zhì)量,擴(kuò)充知識(shí)圖譜的范圍以提高問(wèn)答知識(shí)的覆蓋率,提高對(duì)復(fù)雜問(wèn)題的理解能力,打造更智能的中國(guó)近代史知識(shí)問(wèn)答系統(tǒng)。

    猜你喜歡
    近代史圖譜實(shí)體
    繪一張成長(zhǎng)圖譜
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    品讀《中國(guó)近代史》背后的“近代史”
    補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    近代史上的幾個(gè)問(wèn)題(三)
    近代史上的幾個(gè)問(wèn)題(二)
    近代史上的幾個(gè)問(wèn)題
    通许县| 彭水| 渭源县| 临桂县| 自贡市| 寿阳县| 桐庐县| 阿巴嘎旗| 松原市| 弥勒县| 富顺县| 凤冈县| 五峰| 陆河县| 汝州市| 辉南县| 房产| 利津县| 临清市| 娄烦县| 贺州市| 阿合奇县| 丰城市| 印江| 台山市| 青川县| 昭通市| 九江县| 梁河县| 乌鲁木齐县| 库尔勒市| 东平县| 蒲城县| 新竹县| 皋兰县| 济南市| 芜湖县| 连南| 大竹县| 卓尼县| 武邑县|