楊躍翔 涂新雨 劉文玲
(中國礦業(yè)大學(北京)管理學院,北京 100083)
標準是為了在一定范圍內獲得最佳秩序,經協(xié)商一致制定并由公認機構批準,共同使用的和重復使用的一種規(guī)范性文件[1]。隨著時代的發(fā)展,標準在經濟社會發(fā)展中所起的作用越來越突出,標準文獻在數量上呈現(xiàn)增長趨勢。
目前,我國標準文獻是以PDF格式或紙質版進行發(fā)布和存儲,不能實現(xiàn)機器可讀,標準尚處于以文獻為基本單元的方式進行知識表示的階段,無法實現(xiàn)標準文獻間知識交叉關聯(lián);現(xiàn)有標準文獻的存儲方式不利于標準體系構建和知識梳理,無法實現(xiàn)標準文獻知識的快速檢索和精確匹配,難以發(fā)揮標準文獻知識輔助決策的作用。同時,標準文獻之間存在對同一術語進行不同定義等知識沖突現(xiàn)象,易造成用戶理解上的歧義,不利于標準的規(guī)范化,影響使用,亟需進行標準的數字化轉型。標準的數字化轉型是利用數字技術對標準化工作的全流程及標準本身的全生命周期賦能,實現(xiàn)靈活高效可交互的標準研制過程,創(chuàng)建標準結構和內容機器可讀的新型標準模式,拓展標準使用的數字化、智能化服務[2]。
知識圖譜技術的出現(xiàn)能夠很好地賦能標準的數字化轉型。知識圖譜是一種解釋實體之間關系的語義網絡,可以實現(xiàn)對事物及其相互關系進行形式化描述,同時也提供了一種全新的信息檢索模式。借助知識圖譜技術對標準文獻進行知識組織可以較好地展示標準的知識語義關聯(lián),實現(xiàn)標準文獻內容知識的可關聯(lián)、可對比、可追溯和可分析。知識圖譜通過實體、屬性和關系來定義標準知識,支持標準知識的共享和重用,同時采用語義相似度計算和實體關系匹配等方法,可以對標準文獻中的使用范圍、術語、關鍵技術指標等知識進行比較分析,為標準立項、審核、使用和修訂等工作提供標準知識的輔助決策,服務于標準全生命周期。
本研究通過對標準文獻的結構特征進行解析,得到標準文獻中共性要素的概念和關系,構建標準文獻知識圖譜本體層,并參照國外標準標簽集對我國標準標簽集進行拓展和細化,完成標準文獻XML格式轉換,實現(xiàn)機器可讀,同時進行知識抽取,從而構建標準文獻知識圖譜,并以自然災害應急標準進行實證研究,構建自然災害應急標準文獻知識圖譜,探討標準文獻知識圖譜的實際應用場景。
國際上已經開展標準數字化轉型的相關研究,但都處于初步探索階段。目前,三大國際標準組織(ISO、IEC、ITU)、歐洲標準化組織(CEN/CENELEC),以及美國、德國、俄羅斯等均已啟動機器可讀標準的研制和實施工作[3]。其中,國際標準化組織(ISO)開發(fā)了標準標簽集ISOSTS(ISO Standards Tag Set)[4],用于描述標準全文內容和元數據,提供可用于發(fā)布和交換標準內容的通用格式。美國國家信息標準組織(NISO)在ISOSTS的基礎上進行豐富和優(yōu)化,形成了標準標簽集NISOSTS(NISO Standards Tag Set)[5]。我國于2019年發(fā)布國家標準《基于XML的國家標準結構化置標框架》(GB/T 37967—2019),規(guī)定了標準文本結構的XML標簽集,但標簽集相對簡略,僅實現(xiàn)了標準結構層面的標注。標準標簽集用于對標準文獻結構和技術內容要素進行標記和分析,可以通過標準標簽集拓展和細化以豐富機器可讀標準內容[6]。借助XML建模語言技術轉化標準文獻為機器可讀,可以實現(xiàn)標準文獻內容信息的直接提取和查詢[7]。但經過轉換的標準文獻XML格式,只能實現(xiàn)機器可讀,對語義關系的表示有限,不能實現(xiàn)不同標準文獻內容知識的語義交叉關聯(lián)和共享重用[8],難以達到標準知識智能化服務的效果。對此,ISO定義了SMART(Standard Machine Applicable,Readable,Transferable)標準的概念[9],認為構建機器可用、可讀、可解析標準是標準數字化的發(fā)展方向。Loibl等[10]提出要實現(xiàn)標準的機器可操作需要將標準文獻信息建模為機器可操作的形式,并從語義關聯(lián)可見性、易擴展性和數據調用速度等角度將傳統(tǒng)關系型數據庫與圖數據庫進行對比,認為圖數據庫更適合機器可操作標準的存儲和應用。劉曦澤等[11]提出利用知識圖譜等技術進行標準內容知識的提取、分類與表達,將標準文本轉化為可自由使用的動態(tài)知識網絡,進而實現(xiàn)“人機交互”,這是標準數字化的發(fā)展趨勢。
關于采用知識圖譜技術對標準文獻進行知識組織,相關學者從不同角度論證了其可行性。Luttmer等[12]以公式為例將標準內容從XML格式轉換為基于圖形表示的知識圖譜,驗證知識圖譜適合于表示機器可操作的標準內容。Sana等[13]分析了基于XML數據進行知識圖譜建模、存儲和處理的可能性。XML標簽可以自定義攜帶語義信息,可以通過XML解析實現(xiàn)批量知識抽取,輔助知識圖譜的構建[8]。劉慧琳等[14]提出在各種文獻信息資源中,標準文獻的自身特點可以較好適配知識圖譜結構。目前學術界對標準文獻知識圖譜構建方法的研究比較缺乏,部分學者只是選取標準文獻中的部分結構要素進行知識抽取。Ren等[15]提出了標準文獻知識圖譜構建和應用的結構框架。張慧等[16]采用基于規(guī)則的知識抽取方法,抽取標準文獻的前言部分和規(guī)范性引用文件部分,構建了描述標準文獻與組織機構關聯(lián)關系的知識圖譜。張鵬飛等[17]通過大量人工標注,采用BERT-TCNN-BiLSTM模型對綠色標準中的部分共性結構要素進行實體抽取,搭建綠色標準知識圖譜?;谝?guī)則的方法可以保證知識抽取的準確率,但需嚴格限制文本語言格式,只能局限于部分知識的識別和抽取,而采用深度學習等方式進行知識抽取需要大量人工標注,且其實驗準確率欠佳,難以滿足標準文獻規(guī)范度的要求。郝文建等[18]提出標準文獻要素抽取的思路,認為可以采用基于規(guī)則的方法與自然語言處理技術相結合的方式進行要素抽取。秦麗等[19]采用基于規(guī)則和人工參與相結合的方式,對標準文獻中引用關系和標準中的部分內容進行知識抽取,構建國家食品安全標準知識圖譜。Jiang等[20]通過分析建筑安全標準體系,設計了由五個層次概念和八種類型關系組成的概念層,構建了建筑安全標準知識圖譜。
綜上,目前標準文獻知識圖譜構建的研究大多停留在僅選取標準文獻的部分結構性內容(如標準文獻引用關系、標準文獻與組織單位之間的關系等),缺少從標準文獻整體結構內容出發(fā),對標準文獻進行知識拆解的研究,對于標準文獻知識抽取方法的研究也處于探索階段,目前尚未形成適用于標準文獻知識抽取的較為成熟的方法。因此,本文從標準文獻整體結構內容出發(fā),采用拓展XML標準標簽集,基于XML標注進行知識抽取的方法,構建標準文獻知識圖譜,實現(xiàn)標準文獻整體結構內容的知識切片和重組,可以更全面地挖掘、分析和展示標準文獻之間知識的關聯(lián)關系,解決現(xiàn)有研究對標準知識加工不充分、知識關聯(lián)不全面,難以有效支持標準文獻知識的實際應用的問題,更好地服務于標準的應用。
標準是為各項活動及其結果提供規(guī)則、指南或特性,共同使用和重復使用的文件,標準的起草和編寫需要按照統(tǒng)一的規(guī)則和規(guī)范,以便于起草者編訂適用性更好的標準,更好地服務于標準使用者。為此,我國先后制定了多項標準編寫規(guī)范類的標準。通過分析標準文獻的結構和內容,可以發(fā)現(xiàn)標準具有文本結構規(guī)范、層次清晰和詞義表述明確、言簡意賅的特點。標準文獻的知識單元和知識關聯(lián)模式是識別、研究和應用標準知識的基本出發(fā)點。構建標準文獻知識圖譜,需要對標準文獻的組成要素、層次和知識關聯(lián)邏輯進行分析,進而確定標準文獻文本特征的知識切片和重組方法。因此,標準文獻的結構解析是采用知識圖譜對其進行表達的基礎。
《標準化工作導則 第1部分:標準化文件的結構和起草規(guī)則》(GB/T 1.1—2020)明確規(guī)定了標準文獻的組成要素,包括封面、目次、前言、引言、范圍、規(guī)范性引用文件、術語和定義、符號與縮略語、分類與編碼/系統(tǒng)構成、總體原則和/或總體要求、核心技術要素、其他技術要素、參考文獻和索引。此外,按照要素存在的狀態(tài)將要素分為必備要素和可選要素,其中,封面、前言、范圍和核心技術要素是必備要素,規(guī)范性引用文件、術語和定義既屬于必備要素也屬于可選要素,其他要素屬于可選要素。封面主要包括標準中文名稱、標準英文名稱、標準號、ICS分類號、CCS分類號、發(fā)布日期、實施日期和發(fā)布單位;前言包括提出單位、歸口單位、起草單位、起草人信息;范圍是標準文獻的摘要信息,主要介紹標準所規(guī)定的內容和適用界限;規(guī)范性引用文件主要包括標準所引用的文件和文件代碼;術語和定義是對標準中所涉及的專業(yè)術語進行定義;核心技術要素是標準的主體內容部分,主要以章、條標題和內容形式呈現(xiàn)。將標準文獻中必備的組成要素定義為標準文獻的共性結構要素,可得標準文獻的共性結構要素如圖1所示。
圖1 標準文獻共性結構要素
由于標準文獻具有共性結構要素,可以對其進行結構化處理。XML格式文檔可以實現(xiàn)對固定文本結構文檔的結構化處理,通過對標準文獻中的共性要素進行自定義標簽標記,將其轉化為XML文檔,可以更便捷地被計算機識別、讀取,進而實現(xiàn)標準文獻的批量解析,從中獲取標準文獻共性要素知識信息。
標準按照功能類型可劃分為術語標準、符號標準、分類標準、試驗標準、規(guī)范標準、規(guī)程標準和指南標準。不同功能類型的標準文獻的核心技術要素存在描述邏輯和內容的不同。例如,術語標準主要包含術語條目,試驗標準主要包括試驗步驟和試驗數據處理。不同功能類型的標準文獻所對應的核心技術要素部分文本內容如表1所示。
表1 標準文獻核心技術要素
對于不同功能類型的標準文獻核心技術要素,可以參照其結構內容進行結構化處理。其中,術語標準的核心技術要素主要以術語條目形式逐條展示,可直接進行XML標簽標記實現(xiàn)結構化處理;符號標準和分類標準的核心技術要素多以表格形式和描述性文本形式呈現(xiàn),表格屬于結構化程度較高的內容展現(xiàn)形式,便于處理和表示;試驗標準、規(guī)范標準、規(guī)程標準和指南標準中的內容多以列項、段落等形式展示,其中試驗步驟和指標類內容等多以列項展示,便于進行結構化處理,但對于要求、指示等多以段落性文本描述存在的文本,需在保留語言描述的完整性和準確性的基礎上做進一步知識加工。
構建標準文獻知識圖譜就是對標準文獻內容進行知識粒度細加工,深入到標準文獻內部的語義知識單元,挖掘標準文獻知識單元之間的關聯(lián)關系,進而對標準文獻內容進行語義組織,實現(xiàn)標準文獻內容的細粒度表達和知識語義關聯(lián)。通過解析標準文獻的結構特征,選取自頂向下的方式進行標準文獻知識圖譜構建,首先應進行本體知識建模,主要包括概念集和屬性的確定以及概念間關系的定義,用于約束數據層實體、關系和屬性的抽取及語義關聯(lián)。
在構建標準文獻本體層的概念知識體系時,要充分考慮標準文獻的結構層級、知識單元和用戶需求,因此,標準文獻本體層的構建應遵循標準文獻內部的結構層次邏輯,將相同或者相近語義的知識片段歸納概括為具有普適性和通用性的概念,以標準文獻中共性必要要素構建模式層的概念體系。另外,概念的定義應充分考慮對應實例知識單元細分程度,既要盡可能細化以保證標準文獻的所有語義可展示,又要恰當切分以避免語義關系缺少和錯亂。
從標準文獻的內容和結構層次來看,標準文獻中存在共性的必要元素,這些元素可以定義為概念,如標準中文名稱、標準號、提出單位、歸口單位、起草單位、起草人、章標題和條標題是標準文獻的共性必備要素,應分別設立為本體層的概念。范圍是標準文獻核心內容的提取,用于界定標準文獻的規(guī)定內容和適用界限,根據標準文獻的范圍部分結構內容,可將范圍中的“規(guī)定內容”和“適用界限”分別設為兩個概念。標準文獻中對于術語進行定義是為了避免引起誤解或對技術內容的理解產生歧義,術語對標準規(guī)范化意義重大,可將“術語”設為一個概念。由于術語存在一詞多義等現(xiàn)象,如果將術語定義設為數據屬性則難以挖掘術語定義的不同來源情況,因此將“術語定義”單設為一個概念。由此,通過對標準文獻進行知識梳理和整合,最終建立包含12個本體概念的標準文獻概念集,具體如表2所示。
表2 標準文獻概念集
就概念的屬性而言,標準英文名稱、ICS分類號、CCS分類號、發(fā)布日期、實施日期和狀態(tài)可設置為概念“標準中文名稱”的屬性,用于描述標準文獻的基本信息;術語英文可設為概念“術語”的屬性;章標題和條標題下對應的段落性文本則可分別設為概念“章標題”和“條標題”的屬性。
知識圖譜本體層的概念之間的關系包含層次關系和非層次關系,其中,層次關系為概念間上下位關系,非層次關系主要基于概念所屬范圍和類型進行定義。標準文獻本體概念間的關系是根據標準文獻結構和內容知識關聯(lián)關系進行定義的,概念間關系以非層次關系為主。通過分析不同概念在標準文獻內部和標準文獻間的語義關聯(lián)關系,可以對標準文獻本體概念間的關系進行定義。
基于已建立的標準文獻概念集,參照標準文獻的結構特征,依據各本體概念在標準文獻文本中的位置,可初步建立標準文獻內部本體概念間的關系。其中,“標準中文名稱”與“標準號”概念之間的關系為“標準號”;標準文獻的前言部分包含“提出單位”“歸口單位”“起草單位”和“起草人”四個概念,“標準中文名稱”與其關系可分別定義為“提出于”“歸口于”“起草于”和“起草人”;標準文獻中術語與術語定義部分包含“術語”和“術語定義”兩個概念,“標準中文名稱”與“術語”之間的關系可定義為“涉及術語”,“術語”和“術語定義”之間關系為“定義”;標準文獻的核心技術要素以章、條標題及內容進行展開,“標準中文名稱”與“章標題”兩個概念之間的關系可定義為“包含”,“章標題”與“條標題”之間關系定義為“包含”。
除了上述標準文獻內部各本體概念之間的關系之外,標準文獻間還存在大量的知識交叉關聯(lián),需要進一步深入挖掘標準文獻間的知識關聯(lián)關系,進而補充和豐富標準文獻本體概念之間的關系。①不同標準文獻間存在引用現(xiàn)象。由于標準文獻的規(guī)范性引用文件也多為標準文獻,即標準文獻之間的引用關系是在概念“標準中文名稱”下的實例之間產生,因此可以在“標準中文名稱”與規(guī)范性引用文件的“標準中文名稱”之間建立引用關系。②標準文獻存在不定期的更新修訂。由于標準文獻之間存在對于已作廢標準文獻的引用,為準確地追蹤溯源,所建立的標準文獻知識圖譜中應保留部分已作廢但被引用的標準文獻。對于不同狀態(tài)的標準文獻,應建立關系為“更新”。③對于標準文獻中的術語與術語定義部分,既存在由于術語在不同標準文獻中應用場景等的不同而對術語定義進行改寫的現(xiàn)象,也存在不同標準文獻之間同一術語和定義引用的現(xiàn)象。由于術語的改寫主要是術語定義發(fā)生改變,即術語定義的改寫關系是在概念“術語定義”下的實例之間產生,因此,部分“術語定義”實例間存在“改寫”關系。為了清晰表明相同術語不同定義的來源情況,可在“術語定義”與“標準中文名稱”之間建立關系為“來源于”。對于同一術語不同標準文獻引用的現(xiàn)象,由于在構建標準文獻知識圖譜時,會自動將重復節(jié)點進行合并,難以直接展示所引用術語的初始位置,可通過“標準中文名稱”之間的引用關系來表明術語的來源。④標準文獻核心技術要素部分也存在知識交叉關聯(lián)現(xiàn)象,由于不同標準文獻之間存在章標題或條標題相互重復現(xiàn)象,構建標準文獻知識圖譜可以實現(xiàn)重復內容的共享重用,但需要標明標題來源,因此在“條標題”與“標準中文名稱”之間建立關系為“來源于”。通過分析和挖掘標準文獻內部和標準文獻之間的知識關聯(lián),得到標準文獻本體概念間的關系(見表3)。
表3 標準文獻本體概念間關系
通過整合標準文獻本體概念、屬性和關系,得到標準文獻知識圖譜本體模型(見圖2)。其中,“組織機構”指標準文獻前言部分所包含的“提出單位”“歸口單位”“起草單位”和“起草人”。
圖2 標準文獻知識圖譜本體模型
該本體模型涵蓋了標準文獻中所有必備要素,但其概念和關系的定義主要針對于標準文獻中共性要素。例如,對于標準文獻核心技術要素部分內容,將各級標題歸納為概念,標題下的內容歸為各級標題對應的數據屬性。此建模方式適用于術語標準;對于符號標準和分類標準,可以通過進一步對表格進行知識抽取,細化對應核心技術要素部分的知識,實現(xiàn)細粒度標準知識組織;對于試驗標準、規(guī)范標準、規(guī)程標準和指南標準,此建模方式可以保證語義完整性和準確性,但進一步知識細粒度加工需結合領域知識搭建知識層級關系進行知識建模。
根據本體層所定義的概念、屬性和關系,通過標準文獻XML格式轉化,使得標準文獻的內容片斷包含語義標簽,將標準文獻的知識組織方式從文獻粒度的樹形分類結構向知識粒度的網絡結構轉變,同時便于進行文檔解析,獲取相關實體、關系和屬性,從而構建標準文獻知識圖譜。
對于標準文獻結構化處理,我國制定了國家標準《基于XML的國家標準結構化置標框架》,其中定義了適用于我國標準格式內容的標準標簽集,涵蓋標準的封面、前言、引言、術語和標題等內容標簽,共包含元素56個、屬性2個。該標準所定義的標準標簽集相對粗略,僅實現(xiàn)了對標準文獻整體結構框架的標簽標記,不能覆蓋標準文獻本體層所定義的概念、屬性和關系,需要進行標準標簽集拓展。
目前,國際上具有代表性的標準標簽集包括ISOSTS和NISOSTS。其中,NISO發(fā)布的對應于美國標準的標準標簽集內容較為詳細,除了對標準結構進行標簽標記外,還包括樣式和表格等具體內容的標記。因此,在對我國標準文獻進行結構化處理時,可以在標準《基于XML的國家標準結構化置標框架》所定義的標準標簽集基礎上,參照NISO標準標簽集,拓展和細化我國標準標簽集,從而增加標準標簽集的語義信息。通過分析NISO標準標簽集,對我國標準標簽集進行拓展,在原有標準標簽集的基礎上,針對標準前言、范圍、規(guī)范性引用文件、核心技術要素中所包含的標準標簽集進行拓展和細化,共拓展了19個元素,目前標準標簽集共包含75個元素,拓展后的核心標準標簽集涵蓋了對于標準文獻封面信息、前言部分信息、范圍、規(guī)范性引用文件、術語、章條標題和段落文本的標簽標記,基于拓展后的標準標簽集進行標準文獻XML轉化可以實現(xiàn)機器可讀,同時便于對標準文獻知識進行細粒度加工,為標準文獻知識切片和重組奠定基礎。
根據拓展后的標準標簽集對標準文獻進行XML轉化,實現(xiàn)標準文獻的結構化處理。首先需要對拓展后的標準標簽集進行定義,標簽定義方式有DTD和XML Schema兩種,由于XML Schema是基于XML語法,且對DTD的數據類型進行了擴充,可選取XML Schema對拓展后的標準標簽集所包含的元素、屬性和嵌套關系進行定義,同時對標準文獻中的必備要素和可選要素進行定義。在標準文獻XML轉化時引入所構建的XML Schema文件,實現(xiàn)標準標簽集自動生成。同時,對于PDF格式的標準文獻,采用OCR文字識別技術,提取標準文獻文本內容,將標準文本內容與標準標簽進行關聯(lián)匹配,實現(xiàn)標準文獻XML轉化,完成標準文獻的結構化處理。
對于轉化后的標準文獻XML文件,采用Dom4j和XPath兩種解析方式相結合編寫Java代碼實現(xiàn)XML文檔解析,批量獲取相關實體、關系和屬性。具體流程如圖3所示。
圖3 實體、關系和屬性獲取流程
通過XML文檔解析,可以獲取標準文獻本體層所對應的實體、關系和屬性,并將其以三元組形式導入Neo4j中,完成標準文獻知識圖譜的構建和可視化,實現(xiàn)標準文獻知識關聯(lián),從而更好地服務于標準文獻的應用。
本文選取自然災害應急國家標準為實例,基于上述標準文獻知識圖譜構建方法構建自然災害應急國家標準文獻知識圖譜,對標準文獻知識圖譜構建思路的可行性進行驗證。
本研究以自然災害事件預防準備、監(jiān)測預警、處置救援和恢復重建的應急管理流程為主線,以城市、社區(qū)、企業(yè)、應急物資等為主要對象,梳理自然災害應急國家標準文獻,其文本主要來源于國家標準全文公開系統(tǒng)、全國標準信息公共服務平臺、中國應急信息網、中國地震局官網、中國氣象局官網等,通過下載獲取標準文獻PDF格式共106份,其中,自然災害基礎通用標準12份、地質地震災害應急標準31份、氣象水文災害應急標準37份、海洋災害應急標準7份、生態(tài)環(huán)境災害應急標準8份、生物災害應急標準11份。所搜集到的自然災害應急標準文獻多為術語標準、分類標準、規(guī)范標準、規(guī)程標準和指南標準,試驗類標準較少。
基于拓展的標準標簽集,對自然災害應急標準進行XML格式轉換和文檔解析,可以獲取自然災害應急標準中文名稱、標準英文名稱、ICS分類號、CCS分類號、發(fā)布時間、實施時間、標準號、提出單位、歸口單位、起草單位、起草人、范圍、術語、術語英文、術語定義、章標題、條標題和內容等信息。由此,可以完全解析自然災害應急術語標準;分類標準可以通過進一步表格知識提取實現(xiàn)完全解析;對于規(guī)范標準、規(guī)程標準和指南標準,通過提取其各級標題和段落列項信息,可以實現(xiàn)標準知識初步解析。最終共獲取實體5 039個,關系7 600個,屬性值1 954個,將所得的實體、關系和屬性導入Neo4j中進行存儲和可視化。
(1)基于標準文獻知識圖譜構建方法得到的自然災害應急標準文獻知識圖譜可以清晰地展示出標準文獻與各組織機構間的關系,通過分析自然災害應急標準文獻與各組織機構的關系,可以輔助挖掘領域權威,為領域相關研究提供指導。例如,通過分析地震應急領域標準文獻的起草人,挖掘出孫柏濤和張令心共同參與了多個地震應急標準的起草,由此可以得出兩位專家在地震應急領域具有一定的權威性,同時可以推理出同時存在兩位起草人的標準文獻內容具有相關性;除此之外,可以進一步根據此類標準文獻的引用文件情況,推斷出標準文獻間的相關性。
(2)通過分析自然災害應急標準文獻知識圖譜,可以檢測不同標準文獻之間是否存在不一致等知識沖突現(xiàn)象?,F(xiàn)行自然災害應急標準文獻中存在同一術語不同定義的現(xiàn)象。例如,共有7份標準文獻中涉及“有害生物”這一術語(見圖4),但對于“有害生物”這一術語的定義有3種,術語存在定義改寫和不同引用現(xiàn)象。當挖掘出標準文獻內容在不同標準中存在內容沖突時,借助知識圖譜易拓展性的優(yōu)勢,通過對單個節(jié)點進行更新修改就可以實現(xiàn)對涉及此內容的所有標準文獻自動更新,從而消除不同標準間存在的知識沖突,減少標準更新修訂時的工作量,更好地服務于標準制定者和標準使用者。
圖4 同一術語不同定義和引用示例
(3)自然災害應急標準文獻知識圖譜實現(xiàn)了標準共性要素的知識關聯(lián),同時將標準文獻的核心技術要素部分以標題和列項進行了細粒度展示。如圖5所示,展示了《自然災害救助應急響應劃分基本要求》(GB/T 29425—2012)的范圍和核心技術要素內容。標準文獻知識圖譜可以服務于標準全生命周期,對于標準制定者,可以通過內容檢索獲取標準知識現(xiàn)行分布情況,進行知識共享重用;對于標準審核者,可以在標準文獻范圍內容進行對比的基礎上結合標準文獻內容進行相似度審查,為內容審核提供參考;對于標準使用者,可以提高用戶搜索的深度、廣度和精確度,便于標準文獻知識的充分應用。
圖5 標準文獻范圍和核心技術要素部分知識組織示例
本研究提出了標準文獻知識圖譜的構建方法,通過剖析標準文獻結構和文本特征,將標準文獻知識進行“切片”,細化了標準文獻知識粒度,建立知識間語義關聯(lián)關系,進行標準文獻知識重組,實現(xiàn)了標準文獻從文檔單元向知識單元的轉化,借助知識圖譜從而挖掘出新的知識關聯(lián)關系,并初步探析了所構建知識圖譜的應用價值,為標準文獻知識組織和數字化發(fā)展提供了思路?,F(xiàn)階段所提出的標準文獻知識圖譜構建方法實現(xiàn)了標準文獻通用知識的細粒度處理,不過標準文獻中所包含的段落型長文本涉及的領域知識的組織模式需要進一步研究。