劉鵬 曹新晨 耿念 魏微 孟磊
1. 徐州高新區(qū)安全應(yīng)急裝備產(chǎn)業(yè)技術(shù)研究院 徐州 210000;
2. 礦山互聯(lián)網(wǎng)應(yīng)用技術(shù)國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室 徐州 221008;
3.中國(guó)礦業(yè)大學(xué)信息與控制工程學(xué)院 徐州 221116
隨著煤礦安全生產(chǎn)技術(shù)進(jìn)步和國(guó)家政策推進(jìn),煤礦安全形勢(shì)有所好轉(zhuǎn),但煤礦災(zāi)害仍處于高發(fā)態(tài)勢(shì),煤礦建設(shè)生產(chǎn)面臨的安全隱患不容小覷[1]。煤礦標(biāo)準(zhǔn)文件作為煤礦生產(chǎn)管理者必須遵循的最低要求,是煤礦能夠安全建設(shè)生產(chǎn)的保證,更是政府部門監(jiān)管的依據(jù)。目前,煤礦標(biāo)準(zhǔn)文件的數(shù)據(jù)信息服務(wù)仍處于初級(jí)階段,多數(shù)煤礦企業(yè)仍使用傳統(tǒng)的紙質(zhì)版、電子版標(biāo)準(zhǔn)文件,標(biāo)準(zhǔn)文件數(shù)據(jù)庫(kù)以PDF、圖片等形式存儲(chǔ),缺乏系統(tǒng)、高效的煤礦標(biāo)準(zhǔn)文件知識(shí)存儲(chǔ)利用手段,不利于煤礦標(biāo)準(zhǔn)化、信息化發(fā)展。知識(shí)圖譜是一種結(jié)構(gòu)化的語(yǔ)義網(wǎng)絡(luò)[2],用于描述真實(shí)世界的概念、實(shí)體及其相互關(guān)系[3]。知識(shí)圖譜對(duì)知識(shí)單元及其間關(guān)系有良好的表達(dá),提供了更好地組織管理海量信息的能力[4],在語(yǔ)義搜索、問(wèn)答系統(tǒng)、智能推薦等應(yīng)用廣泛[5]。在煤礦領(lǐng)域,吳雪峰等[6]構(gòu)建了煤礦巷道支護(hù)領(lǐng)域知識(shí)圖譜,有利于實(shí)現(xiàn)巷道支護(hù)智能化管理;曹現(xiàn)剛等[7]構(gòu)建了煤礦裝備維護(hù)知識(shí)圖譜,助力煤礦裝備智能化動(dòng)態(tài)管理;潘理虎等[8]結(jié)合本體技術(shù)構(gòu)建了煤礦領(lǐng)域知識(shí)圖譜,并開(kāi)發(fā)了煤礦安全監(jiān)測(cè)監(jiān)控系統(tǒng);李哲等[9]構(gòu)建了煤礦機(jī)電設(shè)備事故知識(shí)圖譜,可應(yīng)用于煤礦機(jī)電設(shè)備事故診斷、風(fēng)險(xiǎn)管理。
現(xiàn)階段研究人員已將知識(shí)圖譜應(yīng)用于煤礦領(lǐng)域,但由于煤礦標(biāo)準(zhǔn)文件的數(shù)量?jī)?nèi)容繁多、專業(yè)跨度大,對(duì)煤礦標(biāo)準(zhǔn)的智能化研究少有涉足。而在通用標(biāo)準(zhǔn)文件領(lǐng)域,張慧等[10]從標(biāo)準(zhǔn)文件的“前言”和“規(guī)范性引用文件”等共性要素入手,構(gòu)建標(biāo)準(zhǔn)文獻(xiàn)知識(shí)圖譜。劉慧琳等[11]使用知識(shí)圖譜的模式對(duì)標(biāo)準(zhǔn)文件進(jìn)行語(yǔ)義組織,提供了一種標(biāo)準(zhǔn)文件的知識(shí)圖譜組織模式。郝文建等[12]定義了標(biāo)準(zhǔn)文件基本要素和關(guān)鍵要素,分析了標(biāo)準(zhǔn)文件知識(shí)圖譜構(gòu)建方法。秦麗等[13]分析了食品安全國(guó)家標(biāo)準(zhǔn)中三元組類型,構(gòu)建了食品安全國(guó)家標(biāo)準(zhǔn)圖譜。趙偉等[14]解析了標(biāo)準(zhǔn)文件特點(diǎn)及結(jié)構(gòu),分析了標(biāo)準(zhǔn)文件的知識(shí)關(guān)聯(lián)關(guān)系,構(gòu)建了標(biāo)準(zhǔn)文件知識(shí)圖譜RDM 模型。李臻等[15]提出了一種標(biāo)準(zhǔn)文件知識(shí)圖譜構(gòu)建流程,定義了標(biāo)準(zhǔn)要素實(shí)體和標(biāo)準(zhǔn)文件間關(guān)系,分析了標(biāo)準(zhǔn)文件知識(shí)圖譜的應(yīng)用場(chǎng)景。楊躍翔等[16]分析了標(biāo)準(zhǔn)文件的共性結(jié)構(gòu)要素的概念和關(guān)系,構(gòu)建本體層,將標(biāo)準(zhǔn)文件轉(zhuǎn)換為XML 文檔解析,構(gòu)建標(biāo)準(zhǔn)文件知識(shí)圖譜??傮w上,標(biāo)準(zhǔn)文件知識(shí)圖譜構(gòu)建的相關(guān)研究主要針對(duì)標(biāo)準(zhǔn)文件數(shù)據(jù)中共性要素的解析,對(duì)于標(biāo)準(zhǔn)文件的核心技術(shù)內(nèi)容主要采用按章節(jié)結(jié)構(gòu)分解的方式,缺少對(duì)標(biāo)準(zhǔn)條文內(nèi)容的深度挖掘。
本文在分析煤礦標(biāo)準(zhǔn)文件特點(diǎn)、內(nèi)容和結(jié)構(gòu)的基礎(chǔ)上,創(chuàng)新性地建立了“標(biāo)準(zhǔn)文件-標(biāo)準(zhǔn)核心要素-標(biāo)準(zhǔn)條文”三層煤礦標(biāo)準(zhǔn)文件知識(shí)模型;然后根據(jù)每層數(shù)據(jù)的特點(diǎn)設(shè)計(jì)不同的知識(shí)抽取方案,利用圖數(shù)據(jù)庫(kù)存儲(chǔ)煤礦標(biāo)準(zhǔn)知識(shí),完成了煤礦標(biāo)準(zhǔn)文件圖譜構(gòu)建;最后探討了煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜的應(yīng)用價(jià)值。
標(biāo)準(zhǔn)文件的定義是通過(guò)標(biāo)準(zhǔn)化活動(dòng),按照規(guī)定的程序經(jīng)協(xié)商一致制定,為各種活動(dòng)或其結(jié)果提供規(guī)則、指南或特性,供使用者共同使用或重復(fù)使用的文件。廣義的標(biāo)準(zhǔn)文件是標(biāo)準(zhǔn)化活動(dòng)相關(guān)的所有文獻(xiàn)資料。本文中煤礦標(biāo)準(zhǔn)文件指與煤礦生產(chǎn)、建設(shè)、安全等相關(guān)的國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)及其分類資料、檢索工具等。
標(biāo)準(zhǔn)文件的內(nèi)容、形式及適用范圍等方面具有與一般文本不同的特點(diǎn),具體表現(xiàn)在:
(1)編排規(guī)范。標(biāo)準(zhǔn)文件具有特定的編排格式和起草規(guī)則,文本整齊規(guī)范。
(2)協(xié)調(diào)性。一個(gè)標(biāo)準(zhǔn)化對(duì)象盡可能集中在一個(gè)文件中,標(biāo)準(zhǔn)文件間避免重復(fù)和不必要的差異。
(3)時(shí)效性。標(biāo)準(zhǔn)文件是標(biāo)準(zhǔn)化對(duì)象的底線和門檻,隨著經(jīng)濟(jì)的發(fā)展、科技水平的提高,標(biāo)準(zhǔn)文件會(huì)不斷地修訂、補(bǔ)充、替代或廢止。
(4)準(zhǔn)確性。標(biāo)準(zhǔn)文件是規(guī)范性文件,其內(nèi)容需專業(yè)、確切、規(guī)范,不應(yīng)有錯(cuò)誤和缺失。
標(biāo)準(zhǔn)文件前兩個(gè)特點(diǎn)使其能夠利用知識(shí)圖譜技術(shù)進(jìn)行結(jié)構(gòu)化重組,同時(shí)也由于標(biāo)準(zhǔn)文件圖譜的時(shí)效性與準(zhǔn)確性,圖譜的構(gòu)建方法必須易于更新存儲(chǔ),同時(shí)能滿足標(biāo)準(zhǔn)文件圖譜的準(zhǔn)確性需求。
煤礦標(biāo)準(zhǔn)文件主要包括煤礦國(guó)家標(biāo)準(zhǔn)(GB)、煤炭行業(yè)標(biāo)準(zhǔn)(MT)、能源行業(yè)標(biāo)準(zhǔn)(NB)和煤礦安全標(biāo)準(zhǔn)(AQ),標(biāo)準(zhǔn)類別包括基礎(chǔ)標(biāo)準(zhǔn)、產(chǎn)品標(biāo)準(zhǔn)、試驗(yàn)標(biāo)準(zhǔn)、方法標(biāo)準(zhǔn)、管理標(biāo)準(zhǔn)等類型,涉及煤炭資源、煤礦地質(zhì)、煤礦生產(chǎn)、煤礦運(yùn)輸貯存、煤礦設(shè)備、煤礦安全等專業(yè)內(nèi)容,種類繁多,內(nèi)容復(fù)雜,難以歸納定義完整的有普適性的煤礦領(lǐng)域本體模型。因此,煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜構(gòu)建需要從標(biāo)準(zhǔn)文件的共性要素入手,構(gòu)建標(biāo)準(zhǔn)知識(shí)圖譜本體框架,技術(shù)要素等差異化內(nèi)容依附于本體框架各自建立概念。
煤礦標(biāo)準(zhǔn)文件由標(biāo)準(zhǔn)要素組成,根據(jù)GB/T 1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1 部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》,依據(jù)要素的作用和位置,可將標(biāo)準(zhǔn)文件中的要素劃分為規(guī)范性要素和資料性要素:規(guī)范性要素可劃分為規(guī)范性一般要素和規(guī)范性技術(shù)要素;資料性要素可劃分為資料性概述要素和資料性補(bǔ)充要素。標(biāo)準(zhǔn)要素的表述形式有條文、圖、表、數(shù)學(xué)公式、示例、腳注、引用等。標(biāo)準(zhǔn)要素信息如表1 所示。
表1 標(biāo)準(zhǔn)要素信息
資料性要素是標(biāo)準(zhǔn)文件理解和使用的附加信息,其內(nèi)容與格式相對(duì)統(tǒng)一、固定;規(guī)范性要素是界定文件范圍或設(shè)定條款的要素,內(nèi)容和格式相對(duì)繁多、復(fù)雜。以往的標(biāo)準(zhǔn)文件知識(shí)圖譜的構(gòu)建重點(diǎn)多在于對(duì)資料性要素和規(guī)范性一般要素的挖掘,而構(gòu)建完整的煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜,數(shù)據(jù)內(nèi)容須覆蓋所有規(guī)范性要素。
標(biāo)準(zhǔn)層次依據(jù)文件內(nèi)容的從屬關(guān)系將標(biāo)準(zhǔn)內(nèi)容劃分為相對(duì)獨(dú)立的單元,采用部分、章、條、段、列項(xiàng)和附錄的形式。部分是針對(duì)一個(gè)標(biāo)準(zhǔn)對(duì)象的文件因需求或編制目的不同而編制成若干部分;章、條、段和列項(xiàng)是文件層次劃分的單元,每一章均應(yīng)有章標(biāo)題,有下屬層次的條應(yīng)有條標(biāo)題,層級(jí)之間逐級(jí)細(xì)分、層層嵌套。將標(biāo)準(zhǔn)層次標(biāo)題作為煤礦標(biāo)準(zhǔn)規(guī)范性技術(shù)要素的層次實(shí)體建立層次概念,可保留標(biāo)準(zhǔn)的行文邏輯和標(biāo)準(zhǔn)條文的上下級(jí)關(guān)系。
標(biāo)準(zhǔn)條文是由條或段表述文件要素內(nèi)容所使用的文字和文字符號(hào),即標(biāo)準(zhǔn)正文內(nèi)容,可劃分為描述性條文和規(guī)定性條文。描述性條文是對(duì)標(biāo)準(zhǔn)化對(duì)象的描述,例如定義、分類、型號(hào)、方法等;規(guī)定性條文是標(biāo)準(zhǔn)化對(duì)象的具體規(guī)定,例如要求、規(guī)程、指標(biāo)等。
煤礦標(biāo)準(zhǔn)文件知識(shí)模型的構(gòu)建關(guān)鍵是知識(shí)單元的劃分。通用文檔知識(shí)圖譜[17]是對(duì)文本關(guān)鍵詞及其關(guān)系的挖掘,只能反映文本的主題或提綱,造成的知識(shí)損失較大,而標(biāo)準(zhǔn)文件知識(shí)圖譜的知識(shí)單元?jiǎng)澐謶?yīng)盡量保證文件語(yǔ)義完整,知識(shí)單元的粒度應(yīng)滿足知識(shí)圖譜檢索與應(yīng)用的需求。標(biāo)準(zhǔn)文件知識(shí)圖譜中加入要素、條文等段落、句子的實(shí)例形式,同時(shí)對(duì)條文進(jìn)行深度挖掘,表現(xiàn)全面完整的標(biāo)準(zhǔn)文件知識(shí)內(nèi)容。根據(jù)標(biāo)準(zhǔn)文件的要素作用和編排層次的分析結(jié)果,本文創(chuàng)新性地解析煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜架構(gòu),將其劃分為標(biāo)準(zhǔn)文件SD(Standard Documents)、標(biāo)準(zhǔn)核心要素SE(Core Elements of Standard)、標(biāo)準(zhǔn)條文SP(Standard Provisions)三個(gè)層次的知識(shí)單元,建立標(biāo)準(zhǔn)文件知識(shí)圖譜D-E-P(Documents-Elements-Provisions,標(biāo)準(zhǔn)文件-標(biāo)準(zhǔn)核心要素-標(biāo)準(zhǔn)條文)知識(shí)模型。標(biāo)準(zhǔn)文件層與標(biāo)準(zhǔn)核心要素層、標(biāo)準(zhǔn)核心要素層與標(biāo)準(zhǔn)條文層之間為包含關(guān)系。煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜結(jié)構(gòu)如圖1 所示。
圖1 煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜結(jié)構(gòu)
(1)標(biāo)準(zhǔn)文件層
標(biāo)準(zhǔn)文件層以一個(gè)標(biāo)準(zhǔn)文件作為一個(gè)知識(shí)單元,包含標(biāo)準(zhǔn)文件的全部屬性和標(biāo)準(zhǔn)文件間的關(guān)系。標(biāo)準(zhǔn)文件層知識(shí)單元定義為SD=(D,C,R,A), 其中D(Documents) 為標(biāo)準(zhǔn)文件實(shí)體;C(Concepts)為標(biāo)準(zhǔn)文件相關(guān)實(shí)體對(duì)象的集合,如人員、單位機(jī)構(gòu)等;R(Relationships)為標(biāo)準(zhǔn)文件間關(guān)系,包括引用關(guān)系、替代關(guān)系等;A(Attributes)為標(biāo)準(zhǔn)文件自身屬性,如標(biāo)準(zhǔn)分類、發(fā)布日期、歸口信息、適用界限等。
標(biāo)準(zhǔn)的資料性要素和規(guī)范性一般要素中包含大量標(biāo)準(zhǔn)文件屬性和標(biāo)準(zhǔn)文件間關(guān)系,標(biāo)準(zhǔn)文件層中主要概念、屬性(關(guān)系)和所屬要素如表2 所示。以GB 25974.1-2010《煤礦用液壓支架 第1 部分:通用技術(shù)條件》(以下簡(jiǎn)稱GB 25974.1-2010)為例,標(biāo)準(zhǔn)文件層實(shí)例如圖2 所示。
圖2 標(biāo)準(zhǔn)文件層實(shí)例
表2 標(biāo)準(zhǔn)文件層主要概念和屬性(關(guān)系)
(2)標(biāo)準(zhǔn)核心要素層
標(biāo)準(zhǔn)核心要素層以一篇標(biāo)準(zhǔn)文件下的一個(gè)核心技術(shù)要素作為一個(gè)知識(shí)單元,定義為SE=(D,L,P,R),其中D(Documents)為標(biāo)準(zhǔn)文件實(shí)體,L(Levels)為標(biāo)準(zhǔn)層次實(shí)體,P(Provisions)為標(biāo)準(zhǔn)條文實(shí)體,按照標(biāo)準(zhǔn)的“章”層次進(jìn)行劃分,“章”層次下的“條”或“段”作為標(biāo)準(zhǔn)條文實(shí)體,“章標(biāo)題”和“條標(biāo)題”作為標(biāo)準(zhǔn)層次實(shí)體;R(Relationships)為實(shí)體間層次關(guān)系,包括上下位關(guān)系、繼承關(guān)系等。標(biāo)準(zhǔn)核心要素知識(shí)單元中包含全部的標(biāo)準(zhǔn)層次實(shí)體、標(biāo)準(zhǔn)條文實(shí)體以及實(shí)體間的層次關(guān)系,保留了完整的核心要素知識(shí)和標(biāo)準(zhǔn)文件著者的原始邏輯。標(biāo)準(zhǔn)文件層次和實(shí)體如表3 所示。以GB 25974.1-2010 為例,標(biāo)準(zhǔn)核心要素層實(shí)例如圖3 所示。
圖3 標(biāo)準(zhǔn)核心要素層實(shí)例
表3 標(biāo)準(zhǔn)文件層次和實(shí)體
(3)標(biāo)準(zhǔn)條文層
標(biāo)準(zhǔn)條文層以一個(gè)標(biāo)準(zhǔn)條文句作為一個(gè)知識(shí)單元,對(duì)條文的標(biāo)準(zhǔn)化對(duì)象與標(biāo)準(zhǔn)化內(nèi)容進(jìn)行深度挖掘。標(biāo)準(zhǔn)條文層知識(shí)單元定義為SP=(P,V,S,R,A),其中,P(Provisions)為標(biāo)準(zhǔn)條文實(shí)體,按照標(biāo)準(zhǔn)條文內(nèi)容可分為描述型條文實(shí)體和規(guī)定型條文實(shí)體;S(Subject)為標(biāo)準(zhǔn)條文主體,即該標(biāo)準(zhǔn)條文的標(biāo)準(zhǔn)化對(duì)象;V(Value)為標(biāo)準(zhǔn)條文值,即該標(biāo)準(zhǔn)條文的標(biāo)準(zhǔn)化內(nèi)容;R(Relationships)為標(biāo)準(zhǔn)條文關(guān)系,即標(biāo)準(zhǔn)條文主體與標(biāo)準(zhǔn)條文值間的關(guān)系,如表4 所示;A(Attributes)為標(biāo)準(zhǔn)條文屬性,包括條文類型、所屬要素層次等。
表4 標(biāo)準(zhǔn)條文層關(guān)系模式
其中描述型條文包含描述主體和描述值,規(guī)定型條文包含規(guī)定主體和規(guī)定值。如GB 25974.1—2010 中,條文“支架powered support以液壓為動(dòng)力實(shí)現(xiàn)升降、前移等運(yùn)動(dòng),進(jìn)行頂板支護(hù)的設(shè)備”為描述型條文,包含的三元組為:(支架)-(英文名)->(powered support)、(支架)-(定義)->(以液壓為動(dòng)力實(shí)現(xiàn)升降、前移等運(yùn)動(dòng),進(jìn)行頂板支護(hù)的設(shè)備);條文“支架內(nèi)的行人通道的寬度應(yīng)不小于0.6m,高度應(yīng)不小于0.4m”為規(guī)定型條文,包含的三元組為:(支架內(nèi)的行人通道的寬度)-(范圍)->(不小于0.6m)、(支架內(nèi)的行人通道的高度)-(范圍)->(不小于0.4m)。標(biāo)準(zhǔn)條文層實(shí)例如圖4 所示。
圖4 標(biāo)準(zhǔn)條文層實(shí)例
知識(shí)抽取是指從多種數(shù)據(jù)源中提取知識(shí)并存入知識(shí)圖譜,是知識(shí)圖譜構(gòu)建的基礎(chǔ)[18]。煤礦標(biāo)準(zhǔn)文件的數(shù)據(jù)源包括半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),針對(duì)標(biāo)準(zhǔn)文件模式層數(shù)據(jù)的特點(diǎn)采用不同的抽取方式可提高抽取效率,煤礦標(biāo)準(zhǔn)文件知識(shí)抽取流程如圖5 所示。
圖5 煤礦標(biāo)準(zhǔn)文件知識(shí)抽取流程
(1)數(shù)據(jù)預(yù)處理。在國(guó)家標(biāo)準(zhǔn)文件公開(kāi)、行業(yè)標(biāo)準(zhǔn)信息服務(wù)等網(wǎng)站獲取煤礦相關(guān)標(biāo)準(zhǔn)文件數(shù)據(jù),并根據(jù)知識(shí)單元定義對(duì)數(shù)據(jù)進(jìn)行劃分。
(2)半結(jié)構(gòu)化數(shù)據(jù)抽取。標(biāo)準(zhǔn)文件層數(shù)據(jù)的結(jié)構(gòu)規(guī)范書(shū)寫(xiě)邏輯嚴(yán)謹(jǐn),標(biāo)準(zhǔn)核心要素層數(shù)據(jù)具有嚴(yán)格的層次編號(hào),均可視為半結(jié)構(gòu)化數(shù)據(jù)。在分析文件層各屬性關(guān)系和標(biāo)準(zhǔn)核心要素結(jié)構(gòu)位置信息的基礎(chǔ)上,采用基于規(guī)則模板的抽取方法,構(gòu)建標(biāo)準(zhǔn)文件層抽取規(guī)則,獲取標(biāo)準(zhǔn)文件層知識(shí)及標(biāo)準(zhǔn)核心要素層知識(shí)。
(3)非結(jié)構(gòu)化數(shù)據(jù)抽取。標(biāo)準(zhǔn)條文層數(shù)據(jù)多為文本數(shù)據(jù),沒(méi)有固定的特征,是非結(jié)構(gòu)化數(shù)據(jù),構(gòu)建規(guī)則模板成本高且泛用性低。因此,采用基于深度學(xué)習(xí)的方法進(jìn)行抽取:將標(biāo)準(zhǔn)條文數(shù)據(jù)輸入到BERT-BiLSTM-CRF 模型中,利用Bert 模型構(gòu)成的字嵌入層將字轉(zhuǎn)為詞向量,利用BiLSTM(Bi-directional Long Short-Term Memory,雙向長(zhǎng)短期記憶網(wǎng)絡(luò))層提取序列特征,利用CRF(Conditional Random Field,條件隨機(jī)場(chǎng))層預(yù)測(cè)標(biāo)簽,得到標(biāo)準(zhǔn)條文層知識(shí)。
(4)數(shù)據(jù)整合。對(duì)各層知識(shí)單元數(shù)據(jù)抽取結(jié)果進(jìn)行整理,整合為CSV 表格形式。為保證抽取數(shù)據(jù)的準(zhǔn)確性,抽取完成后的結(jié)果需人工對(duì)抽取結(jié)果進(jìn)行審查校正,以滿足標(biāo)準(zhǔn)文件的準(zhǔn)確性需求。
知識(shí)圖譜存儲(chǔ)主要采用關(guān)系型數(shù)據(jù)庫(kù)、RDF(Resource Description Framework,資源描述框架)和圖數(shù)據(jù)庫(kù)方式實(shí)現(xiàn)[19]。關(guān)系型數(shù)據(jù)庫(kù)需要大量表連接實(shí)現(xiàn)實(shí)體關(guān)系表示,運(yùn)算開(kāi)銷大;RDF 三元組需事先制定特定領(lǐng)域RDF 詞匯表,且需借助特定RDF 工具實(shí)現(xiàn)管理。而圖數(shù)據(jù)庫(kù)使用節(jié)點(diǎn)和邊表示實(shí)體關(guān)系,且利用內(nèi)置管理工具實(shí)現(xiàn)靈活、高效的存儲(chǔ)和查詢。因此,煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜選用Neo4j 圖數(shù)據(jù)庫(kù)存儲(chǔ)方案,其中標(biāo)簽對(duì)應(yīng)標(biāo)準(zhǔn)文件圖譜知識(shí)模型分層,節(jié)點(diǎn)及其屬性對(duì)應(yīng)實(shí)體及其屬性,邊對(duì)應(yīng)實(shí)體間關(guān)系,存儲(chǔ)方案如表5 所示。
表5 煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜存儲(chǔ)方案
圖數(shù)據(jù)庫(kù)操作可利用Neo4j 查詢語(yǔ)言Cypher 實(shí)現(xiàn)。本文使用Python 中py2neo 庫(kù)執(zhí)行Cypher 語(yǔ)句實(shí)現(xiàn)數(shù)據(jù)庫(kù)增刪改查操作,常用語(yǔ)句包括:Node、Relationship 類創(chuàng)建節(jié)點(diǎn)及關(guān)系;find、match 語(yǔ)句查詢節(jié)點(diǎn)或關(guān)系;push 語(yǔ)句更新節(jié)點(diǎn);run 語(yǔ)句執(zhí)行Cypher 語(yǔ)句等。
將獲取的標(biāo)準(zhǔn)文件各層知識(shí)單元數(shù)據(jù)存儲(chǔ)到Neo4j 數(shù)據(jù)庫(kù)后,形成的煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜共包含節(jié)點(diǎn)16257 個(gè),關(guān)系22581 條。圖譜數(shù)據(jù)統(tǒng)計(jì)信息如表6 所示。
表6 煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜統(tǒng)計(jì)信息
我們已組織專業(yè)人士,針對(duì)煤礦標(biāo)準(zhǔn)知識(shí)圖譜數(shù)據(jù)進(jìn)行了均勻隨機(jī)采樣檢測(cè),對(duì)圖譜質(zhì)量進(jìn)行了總體評(píng)估,并進(jìn)行了針對(duì)性的修改優(yōu)化,基本保證了圖譜的專業(yè)性和準(zhǔn)確性。需要指出的是,從業(yè)界目前研究現(xiàn)狀看,圖譜質(zhì)量評(píng)估方法和指標(biāo)體系尚處于研究初期,缺乏行之有效的手段,實(shí)踐可行性比較低。而且煤礦標(biāo)準(zhǔn)圖譜構(gòu)建是個(gè)復(fù)雜的系統(tǒng)工程,目前整體系統(tǒng)還在完善中,后續(xù)隨著研究工作進(jìn)展,我們將不定期邀請(qǐng)領(lǐng)域?qū)<遥瑥膶I(yè)性、嚴(yán)謹(jǐn)性、易用性等角度對(duì)圖譜進(jìn)行持續(xù)質(zhì)量評(píng)估。
本文研究的煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜,以煤礦標(biāo)準(zhǔn)文件為切入點(diǎn)進(jìn)行知識(shí)建模,創(chuàng)新性地提出并構(gòu)建了“標(biāo)準(zhǔn)文件-標(biāo)準(zhǔn)核心要素-標(biāo)準(zhǔn)條文”三層知識(shí)單元模型,與其他知識(shí)圖譜對(duì)比特點(diǎn)如表7 所示。
表7 知識(shí)圖譜對(duì)比
基于標(biāo)準(zhǔn)文件知識(shí)模型構(gòu)建的煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜可以為標(biāo)準(zhǔn)制定、檢索、閱讀等提供標(biāo)準(zhǔn)文件、標(biāo)準(zhǔn)核心要素、標(biāo)準(zhǔn)條文三種粒度知識(shí)單元的知識(shí)服務(wù),有利于標(biāo)準(zhǔn)的推廣應(yīng)用。利用知識(shí)圖譜相關(guān)技術(shù)開(kāi)發(fā)的煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜應(yīng)用平臺(tái)可實(shí)現(xiàn)標(biāo)準(zhǔn)可視化、智能檢索問(wèn)答、標(biāo)準(zhǔn)信息服務(wù)等應(yīng)用。
(1)標(biāo)準(zhǔn)可視化
傳統(tǒng)的標(biāo)準(zhǔn)文件數(shù)據(jù)庫(kù)以PDF 圖片或標(biāo)準(zhǔn)全文方式存儲(chǔ)標(biāo)準(zhǔn),煤礦從業(yè)者在閱讀多篇標(biāo)準(zhǔn)文件時(shí)難以找到所需的核心內(nèi)容,閱讀過(guò)程中難以實(shí)現(xiàn)文檔間的自由切換。標(biāo)準(zhǔn)文件知識(shí)圖譜可視化可利用多種可視形式為用戶提供更好的閱讀體驗(yàn)。通過(guò)標(biāo)準(zhǔn)文件知識(shí)圖譜展示可以直接體現(xiàn)各標(biāo)準(zhǔn)知識(shí)單元間的關(guān)系;利用數(shù)據(jù)分析方法將知識(shí)圖譜內(nèi)容以柱狀圖、餅狀圖等圖表的形式展現(xiàn)出來(lái),有助于標(biāo)準(zhǔn)數(shù)據(jù)統(tǒng)計(jì)研究;利用智能圖書(shū)館的文檔表現(xiàn)形式可以全面系統(tǒng)地展示標(biāo)準(zhǔn)文件知識(shí),使用超鏈接跳轉(zhuǎn)查閱方式實(shí)現(xiàn)用戶的自由探索。標(biāo)準(zhǔn)可視化效果如圖6 所示。
圖6 煤礦標(biāo)準(zhǔn)圖譜可視化效果
(2)智能檢索問(wèn)答
現(xiàn)階段標(biāo)準(zhǔn)文件檢索系統(tǒng)多數(shù)只能實(shí)現(xiàn)對(duì)標(biāo)準(zhǔn)名稱、標(biāo)準(zhǔn)編號(hào)的簡(jiǎn)單檢索,搜索過(guò)程和結(jié)果中缺少標(biāo)準(zhǔn)文件內(nèi)部信息,致使煤礦從業(yè)者難以快速、準(zhǔn)確地定位所需標(biāo)準(zhǔn)文件,耗費(fèi)時(shí)間精力研讀標(biāo)準(zhǔn)全文尋找所需信息。借助標(biāo)準(zhǔn)文件知識(shí)圖譜開(kāi)發(fā)的智能檢索問(wèn)答系統(tǒng)可以為用戶提供多級(jí)的、深層次的檢索方式,利用智能問(wèn)答技術(shù)理解用戶檢索語(yǔ)義和意圖,提供自然語(yǔ)言問(wèn)答交互功能。智能檢索問(wèn)答應(yīng)用流程如圖7 所示。
圖7 智能檢索問(wèn)答應(yīng)用流程圖
(3)標(biāo)準(zhǔn)信息服務(wù)
利用標(biāo)準(zhǔn)文件知識(shí)圖譜重組標(biāo)準(zhǔn)文件后,可為煤礦標(biāo)準(zhǔn)化活動(dòng)提供多種標(biāo)準(zhǔn)信息服務(wù)。條文內(nèi)容的細(xì)粒度抽取可將多次出現(xiàn)的關(guān)鍵知識(shí)共享重用,發(fā)掘標(biāo)準(zhǔn)文件的公共性和一致性,同時(shí)能對(duì)現(xiàn)有標(biāo)準(zhǔn)內(nèi)容進(jìn)行沖突性檢測(cè);利用高質(zhì)量標(biāo)準(zhǔn)形成標(biāo)準(zhǔn)文件模板輔助標(biāo)準(zhǔn)文件編寫(xiě),為標(biāo)準(zhǔn)編寫(xiě)者提供涉及標(biāo)準(zhǔn)相關(guān)信息參考,保證標(biāo)準(zhǔn)的準(zhǔn)確性;利用自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)實(shí)際指標(biāo)與標(biāo)準(zhǔn)文件圖譜內(nèi)容比對(duì),輔助煤礦標(biāo)準(zhǔn)實(shí)施監(jiān)督檢查、達(dá)標(biāo)檢測(cè)、指標(biāo)評(píng)價(jià)等活動(dòng),提高監(jiān)督人員效率,指標(biāo)比對(duì)流程如圖8 所示,指標(biāo)比對(duì)效果如圖9 所示。
圖8 指標(biāo)比對(duì)流程
本文在解析標(biāo)準(zhǔn)文件要素、層次和條文的特點(diǎn)的基礎(chǔ)上,創(chuàng)新性地提出并構(gòu)建了包含標(biāo)準(zhǔn)文件、標(biāo)準(zhǔn)核心要素和標(biāo)準(zhǔn)條文的三層知識(shí)單元模型,將標(biāo)準(zhǔn)文件知識(shí)進(jìn)行重組,保留了標(biāo)準(zhǔn)要素內(nèi)容的層次邏輯和復(fù)雜語(yǔ)義,對(duì)標(biāo)準(zhǔn)條文知識(shí)進(jìn)行了細(xì)粒度挖掘;依據(jù)標(biāo)準(zhǔn)文件知識(shí)模型,通過(guò)規(guī)則模板和深度學(xué)習(xí)方法對(duì)不同類型數(shù)據(jù)進(jìn)行了知識(shí)抽取,存儲(chǔ)到Neo4j 圖數(shù)據(jù)庫(kù)中,完成煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜構(gòu)建;探討了煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜的應(yīng)用價(jià)值,為煤礦標(biāo)準(zhǔn)化、數(shù)字化發(fā)展提供了可借鑒思路。后續(xù)筆者計(jì)劃在煤礦標(biāo)準(zhǔn)文件知識(shí)圖譜內(nèi)容的融合更新及深度應(yīng)用方向開(kāi)展更進(jìn)一步研究。