• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      突發(fā)公共衛(wèi)生事件中的應(yīng)急政策知識圖譜

      2023-09-15 03:34:16管雨涵
      軟件導(dǎo)刊 2023年9期
      關(guān)鍵詞:圖譜實體應(yīng)急

      管雨涵,劉 勘

      (1.華中科技大學(xué) 管理學(xué)院,湖北 武漢 430074;2.中南財經(jīng)政法大學(xué) 信息與安全工程學(xué)院,湖北 武漢 430073)

      0 引言

      突發(fā)公共衛(wèi)生事件多指有擴(kuò)散趨勢、嚴(yán)重危害公眾安全的突發(fā)性重大傳染疾病等,這類事件影響力大、危害程度高、涉及范圍廣,將嚴(yán)重危害經(jīng)濟(jì)發(fā)展、人民健康及社會安定[1]。面對突發(fā)公共衛(wèi)生事件,需要依據(jù)國家政策快速制定和部署綜合性的應(yīng)急管理方案,及時響應(yīng)和解決可能出現(xiàn)的各類突發(fā)問題。

      2020 年初期,新冠疫情暴發(fā),國務(wù)院及各地政府不斷發(fā)布各項應(yīng)對政策和通告,指導(dǎo)各級部門采取相應(yīng)措施;后疫情時期,在大多數(shù)國家選擇與“病毒共存”的趨勢下,中國仍堅持“動態(tài)清零”,總體應(yīng)急管理取得顯著成效。不可忽視的是,疫情初期由于信息輸入渠道單一、跨域部門協(xié)調(diào)薄弱等原因,導(dǎo)致“信息疫情”暴發(fā),政策發(fā)布落后于謠言傳播,群眾陷入恐慌狀態(tài),各種“信息孤島”也導(dǎo)致后續(xù)應(yīng)對策略發(fā)布遲緩,疫情管控和應(yīng)急處理處于弱勢地位。此外,由于政府應(yīng)急管理實行分級條塊管理模式,應(yīng)急中心分散,地方?jīng)Q策參與和風(fēng)險分擔(dān)機(jī)制不足,部門間尤其是橫向部門間協(xié)調(diào)能力低,合作機(jī)制運行不暢,導(dǎo)致部分處理政策出現(xiàn)程序不明確、多頭同質(zhì)化處理、權(quán)責(zé)混亂的情況,極大降低了政府應(yīng)急管理效率[2]。

      基于此,本文以新冠疫情治理為例,構(gòu)建突發(fā)公共衛(wèi)生事件應(yīng)急政策知識圖譜。知識圖譜及其實體、關(guān)系的多層次性能較好地匹配應(yīng)急政策中的多主體、多主題、多對象,因此,考慮將知識圖譜運用于政府應(yīng)急政策。應(yīng)急政策知識圖譜能通過多元的輸入信息、綜合的共享信息,幫助政策快速傳播流轉(zhuǎn),構(gòu)建跨部門的應(yīng)急聯(lián)防聯(lián)控機(jī)制網(wǎng)絡(luò);同時,通過在圖譜中對防控政策進(jìn)行歸納、分類,形成應(yīng)急政策知識深度關(guān)聯(lián),更好地聚焦應(yīng)急政策核心,輔助中央地方聯(lián)合響應(yīng)、共同決策,改進(jìn)應(yīng)急政策部署和執(zhí)行效率。本文主要貢獻(xiàn)在于:①構(gòu)建應(yīng)急管理知識圖譜的Schema 模式框架;②利用深度學(xué)習(xí)和文本處理技術(shù),形成SPO(Subject To Object)政策三元組知識結(jié)構(gòu),進(jìn)而通過推理發(fā)現(xiàn)政策信息傳遞流向,構(gòu)建突發(fā)公共衛(wèi)生事件管理政策知識圖譜;③對應(yīng)急政策通過知識圖譜結(jié)構(gòu)化、規(guī)范化,建立基本應(yīng)急政策知識庫,實現(xiàn)專業(yè)應(yīng)急部門的快速查詢、更新及可視化分析,并為突發(fā)公共衛(wèi)生事件的應(yīng)急管理提供方案生成、自動推薦等決策支持。

      1 相關(guān)工作

      知識圖譜可以被看作是一種特殊的語義網(wǎng)絡(luò),形成一種以信息為節(jié)點、關(guān)系為邊的有向圖,它能將數(shù)據(jù)凝練整合形成智能型知識庫,清楚呈現(xiàn)每一條知識的全息結(jié)構(gòu),同時利用推理機(jī)制發(fā)現(xiàn)數(shù)據(jù)關(guān)系及其邏輯關(guān)聯(lián)。知識圖譜的研究主要從理論與應(yīng)用兩個方面展開。理論研究主要探討知識抽取、知識融合、知識推理等構(gòu)建方法中的關(guān)鍵步驟[3]。在知識圖譜構(gòu)建上,Hogan 等[4]詳細(xì)介紹了知識圖譜的完整構(gòu)建過程與構(gòu)建方法。隨著機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,越來越多的技術(shù)被運用在了知識圖譜構(gòu)建中,劉嶠等[5]介紹了一些最新的知識抽取、融合、加工技術(shù)。在知識抽取方面,目前多采用依存句法分析[6]、深度強(qiáng)化模型[7]等方法進(jìn)行實體與關(guān)系識別;將知識通過Trans 模型[8]進(jìn)行表示,再通過基于邏輯規(guī)則、深度學(xué)習(xí)和強(qiáng)化模型[9]的方式進(jìn)行實體關(guān)系的發(fā)現(xiàn)與推理;對于構(gòu)建完成的知識圖譜,則多采用Neo4j 或Gephi 數(shù)據(jù)庫進(jìn)行可視化[5],或直接使用CiteSpace 軟件構(gòu)建整體關(guān)系知識圖譜。

      應(yīng)用研究則可以分為通用知識圖譜和領(lǐng)域知識圖譜應(yīng)用。其中,通用知識圖譜的構(gòu)建已經(jīng)較為成熟,目前典型的通用知識圖譜包括國外的YAGO、DBpedia、Freebase和國內(nèi)的zhishi.me、CNDBpedia 和OpenKG 等項目,包括谷歌、百度、搜狗在內(nèi)等企業(yè)都構(gòu)建了基于知識圖譜的搜索引擎,如谷歌搜索引擎、搜狗知立方等[10]。這些知識圖譜,將無規(guī)則語言轉(zhuǎn)化為高度結(jié)構(gòu)化可用知識并用于深度搜索和知識問答,有效地提高了網(wǎng)絡(luò)檢索的效率與質(zhì)量。

      近年來,領(lǐng)域知識圖譜應(yīng)用越來越多,針對2020 年初暴發(fā)的新冠肺炎疫情,研究人員構(gòu)建了病毒傳播知識圖譜[11]、醫(yī)療用藥知識圖譜[12]。國內(nèi)OpenKG 平臺[14]則建立了新冠知識圖譜專題,包含病毒科研知識、臨床方案、防控常識等[14]。這些知識圖譜在疫情傳播控制[15]、疫情輿論引導(dǎo)[16]、風(fēng)險防范管理[17]等方面發(fā)揮了重要作用。

      關(guān)于應(yīng)急管理圖譜,李綱等[18]關(guān)注重大國家安全事件構(gòu)建圖譜,全面監(jiān)控掌知全局安全動態(tài)。張海濤等[19-20]以新冠疫情和大旱事件為例構(gòu)建事件圖譜,探究國家安全事件圖譜的態(tài)勢狀態(tài)提取方法。正是由于圖譜的強(qiáng)關(guān)聯(lián)性,能較好地著重于事件發(fā)生狀況和發(fā)展?fàn)顟B(tài),與政策文本處于發(fā)展傳遞狀態(tài)相匹配,故而考慮構(gòu)建政策知識圖譜。

      此外,由于政策的格式規(guī)整性,知識圖譜對于政策文件有較好應(yīng)用。Wang 等[21]基于規(guī)則和機(jī)器學(xué)習(xí)抽取實體關(guān)系,構(gòu)建政策圖譜分析平臺。韓娜等[22]聚焦于“開放數(shù)據(jù)”和“數(shù)據(jù)安全”主題,利用規(guī)則關(guān)聯(lián)和定量分析對政策文本進(jìn)行協(xié)同性語義推理。張雨等[23]構(gòu)建科技垂直領(lǐng)域知識圖譜,更好發(fā)揮科技政策引領(lǐng)科技發(fā)展。單曉紅等[24]構(gòu)建政策影響事理圖譜,找出關(guān)鍵節(jié)點有效進(jìn)行政策管控?;舫獾龋?5]利用TF-IDF 和強(qiáng)化字典構(gòu)建新冠肺炎政策知識圖譜,歸檔重大突發(fā)公共衛(wèi)生事件處理方案,追溯政策法律淵源。

      目前政策圖譜多聚焦于政策計量,集中于關(guān)聯(lián)分析和歸檔處理,多采用人工或簡單規(guī)則方式[26],靈活性與完整性較差;而知識圖譜構(gòu)建方面少有聚焦于重大突發(fā)公共衛(wèi)生突發(fā)事件,且未有完整的可以重復(fù)利用的應(yīng)急管理框架以供未來參考和回溯。

      在應(yīng)急管理方面,盡管目前新冠疫情在國內(nèi)得到了良好的控制,但是不可忽視疫情初期的無序狀態(tài)。丁榮嶸等[27]提出當(dāng)前政府應(yīng)急管理效率低下,需要建立一個統(tǒng)一的應(yīng)急管理體系標(biāo)準(zhǔn),健全協(xié)同管理體系,對政策信息智能分類、簡化歸口、直達(dá)直報。楊雯等[28]認(rèn)為疫情期間政策發(fā)布制度不完善,逐級政策發(fā)布導(dǎo)致跨域部門溝通不充分,建議應(yīng)建立應(yīng)急治理中心指揮樞紐,加強(qiáng)行政系統(tǒng)內(nèi)部合作,共享信息協(xié)調(diào)多部門聯(lián)合調(diào)動。王媛[29]強(qiáng)調(diào)對于突發(fā)公共衛(wèi)生事件,政府應(yīng)急管理缺乏內(nèi)部主動性,過度依賴上級決策,同時應(yīng)急預(yù)案制定溝通不充分,跨區(qū)域協(xié)調(diào)困難,提出中央和地方、多地方、多機(jī)構(gòu)、多部門合作平臺的亟需性。

      基于此,本文聚焦于上述問題,利用知識圖譜在構(gòu)造和應(yīng)用上的獨有特征,構(gòu)建突發(fā)公共衛(wèi)生事件中應(yīng)急政策知識圖譜。

      2 知識圖譜構(gòu)建

      2.1 Schema構(gòu)建

      在邏輯上,知識圖譜分成兩個層系:Schema 本體模式層和Data 數(shù)據(jù)層。其中,Schema 層是知識圖譜構(gòu)建的核心與重點,它定義了各類實體間以及實體屬性間的關(guān)系,通常使用本體庫進(jìn)行管理。本體庫相當(dāng)于知識庫的模型,良好的Schema 層次為知識圖譜的構(gòu)建搭建了框架,這樣形成的知識冗余少、泛化能力強(qiáng),推理出的關(guān)系也更全面。而Data 數(shù)據(jù)層由基本的事件、事實構(gòu)成[30],是知識的基本存儲單位,一般情況下,使用SPO 三元組形式來表達(dá)知識。

      華斌等[31]結(jié)合政策精準(zhǔn)性四大要素,將政策分為主體、客體、目標(biāo)、工具四大類。本文針對疫情應(yīng)急管理知識圖譜設(shè)計的Schema 本體則需要考慮兩個因素:①每則政策公文的結(jié)構(gòu)層次體系;②執(zhí)行部門對政策的落實要求。

      政策數(shù)據(jù)實體關(guān)系如圖1 所示,包括部門、標(biāo)題、內(nèi)容、附件等。本文設(shè)計6 種實體類型和9 種屬性類型,各類實體的定義與實體間的映射關(guān)系如表1、表2所示。

      Table 1 Knowledge graph entity types and examples表1 知識圖譜實體類型及樣例

      Table 2 Knowledge graph attribute types and examples表2 知識圖譜屬性類型及樣例

      Fig.1 Policy data entity relationships圖1 政策數(shù)據(jù)實體關(guān)系

      政策文件的實體間關(guān)系較為簡單,華斌等[31]將政策實體間關(guān)系主要分為六類,張雨等[23]則分為四大類。根據(jù)構(gòu)建的以上實體及屬性,本文主要設(shè)計了6 種關(guān)系類型,將實體之間連接起來,其關(guān)系映射如表3 所示。這樣,通過對實體、關(guān)系、屬性的定義,將來源于國務(wù)院和各省政府政策文件庫的半結(jié)構(gòu)化數(shù)據(jù)和部分非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為知識圖譜所需的結(jié)構(gòu)化格式,通過實體間關(guān)系與屬性,可以實現(xiàn)政策知識的統(tǒng)一表示,使分散的管理政策相互聯(lián)系。

      2.2 知識抽取

      知識抽取過程中可以將實體與關(guān)系分別抽取,也可以采用聯(lián)合抽取模型,聯(lián)合抽取能同時考慮實體與關(guān)系之間的聯(lián)系,故而犯錯較少。但由于本文實驗中使用大量半結(jié)構(gòu)化數(shù)據(jù),可以通過簡單的規(guī)則提取出部分實體與關(guān)系,因而采用實體與關(guān)系分開抽取的流水線模型。

      2.2.1 實體抽取

      本文采取基于BiLSTM+CNN-CRF 的實體抽?。?2]算法,先用NLPIR 漢語工具[33]識別出主要實體,再用少量人工標(biāo)注語料訓(xùn)練BiLSTM+CNN-CRF 模型實現(xiàn)命名實體抽取,這樣能在極大減少人工標(biāo)注的基礎(chǔ)上得到有效的實體識別效果。

      BiLSTM+CNN-CRF 模型由CNN、BiLSTM 和CRF 3 個模塊組成。首先將輸入文本通過Word2vec 分布式嵌入方式將每個詞處理為n維詞向量;然后將處理好的詞向量分別輸入CNN 模塊,提取出文本的字符級特征,再輸入BiLSTM 模塊,提取出全局特征,將得到的字符向量和詞向量進(jìn)行拼接,輸入全連接層和CRF 模塊進(jìn)行解碼,利用已有標(biāo)簽,選取一個最優(yōu)的標(biāo)記序列。只使用BiLSTM 時,如果輸入過長,會對較前的輸入丟失較多的特征,因此引入CNN 先輸入文本的局部特征,減少信息丟失。同時,CRF相比于Softmax 可以更好地考慮標(biāo)簽間的影響與偏置,綜合計算每個詞X 的得分s(X,y),得到實體標(biāo)簽的概率p(y|X),在訓(xùn)練過程中,使用對數(shù)似然最大化正確概率p(y|S),計算公式如式(1)所示,盡可能地優(yōu)化標(biāo)簽序列如式(2)中的結(jié)果y*。

      BiLSTM+CNN-CRF 模型進(jìn)行實體抽取的算法如下:

      輸入:部分標(biāo)注數(shù)據(jù)集、原始數(shù)據(jù)

      輸出:標(biāo)注實體數(shù)據(jù)集

      步驟:(1)將原始數(shù)據(jù)轉(zhuǎn)換為詞向量集

      (2)得到的詞向量輸入CNN和BiLSTM

      (3)初始化雙向長短時層,求解網(wǎng)絡(luò)權(quán)重矩陣

      (4)初始化卷積層,設(shè)置參數(shù)

      (5)拼接輸入(3)、(4)的詞向量

      (6)對結(jié)果進(jìn)行加權(quán)后輸入條件隨機(jī)場,得出最優(yōu)序列標(biāo)注模型

      (7)修改參數(shù)的設(shè)置,比較結(jié)果

      (8)將模型應(yīng)用到數(shù)據(jù)集

      對政策文本進(jìn)行序列標(biāo)注的具體處理過程如圖2所示。

      Fig.2 Entity recognition algorithm flow based on BiLSTM+CNNCRF圖2 基于BiLSTM+CNN-CRF 的實體識別算法流程

      2.2.2 關(guān)系抽取

      關(guān)系抽取主要是為了得到應(yīng)急管理政策公文、實施部門等實體間的關(guān)系。本文關(guān)系抽取通過卷積神經(jīng)網(wǎng)絡(luò)CNN 實現(xiàn)。將對政策信息實體抽取完成后得到的詞向量和相對位置特征作為輸入,加入到CNN 中獲得句子級向量表示,這個句向量通過非線性全連接層計算輸出進(jìn)行關(guān)系分類,通過上述模型訓(xùn)練得到實體間的關(guān)系。關(guān)系抽取流程如圖3所示。

      Fig.3 CNN-based relation extraction process圖3 基于CNN的關(guān)系抽取過程

      2.3 知識表示與推理

      在進(jìn)行知識推理前,首先要通過實體鏈接和實體對齊等方法,統(tǒng)一實體名稱、合并同義三元組,消除知識冗余。由于本文構(gòu)建知識圖譜源數(shù)據(jù)為政策類文件,格式較為工整,并無太多相似或冗余知識,通過定義一些簡單的規(guī)則即可進(jìn)行消歧,如將實體“新冠”“新型冠狀”“COVID-19”看作是同一個實體,將“省政府”“省人民政府”看作同一對象等。數(shù)據(jù)經(jīng)過人工檢測已基本不存在有歧義或多余的三元組。

      知識推理是知識圖譜構(gòu)建中十分重要的一環(huán),通過知識推理可以發(fā)現(xiàn)一些新的政策間和政策部門間的關(guān)系,這對應(yīng)急管理尤為重要,能極大程度地提高政策部署和執(zhí)行過程中眾多實體的深度關(guān)聯(lián)。由于本文知識圖譜所涉及的部門實體大多是上層部門(Department),同時政府應(yīng)急管理政策文本常常較為寬泛,沒有詳述具體部門(Subordinate),為了更方便具體部門內(nèi)部人員查詢和使用,實現(xiàn)政策通知更精準(zhǔn)的發(fā)放,在進(jìn)行知識推理前先補(bǔ)充了600 個常見具體政務(wù)部門實體數(shù)據(jù),加入管理政策知識庫中,數(shù)據(jù)來源于中文通用百科知識圖譜中的部門數(shù)據(jù)[34]。針對其中出現(xiàn)的部門間名稱重復(fù)、簡寫的情況,需要在特定的簡寫前加上部門限制,使其一一對應(yīng)。以教育部為例,導(dǎo)入的子部門節(jié)點如表4和圖4所示。

      Table 4 Example of triplet for a sub-department of the Ministry of Education表4 教育部子部門三元組示例

      Fig.4 Sub-departments of the Ministry of Education imported圖4 導(dǎo)入的教育部所屬子部門

      本文采用基于規(guī)則的推理與基于分布式圖的推理兩種推理方式[35]?;谝?guī)則的推理能利用簡單的邏輯運算推斷出政策通知的傳遞過程;基于分布式的推理則能在信息缺失的情況下更好地關(guān)聯(lián)知識,深入挖掘?qū)嶓w間的關(guān)系,更好地處理復(fù)雜的實體間關(guān)系。

      2.3.1 基于規(guī)則的推理

      按照實體周圍政策節(jié)點的連接推斷出此節(jié)點可能存在的新連接,進(jìn)而推理出實體之間的連接關(guān)系[36]。比如消息在管理部門之間可能的傳遞性,從主部門推理到具體從屬部門,推理過程用一階謂詞邏輯表示為:<通知,notify_to,對象A>∧<對象A,include_of,對象B>→<通知,notify_to,對象B>。實例如圖5、圖6 所示,從<教育部—do_realse(發(fā)布)—新冠肺炎防治方案>∧<教育部,include_of,高等學(xué)校>→<新冠肺炎防治方案,notify_to,高等學(xué)校>。其中,圖5 為教育部發(fā)布通知,通知自動推理到其下屬涉及部門,推理結(jié)果如圖6 所示,從而揭示了教育部疫情防控方案與高等學(xué)校的關(guān)系。這種推理規(guī)則只適用于所屬子部門屬于同一類對象而不適用于各司其職分管不同事物的子部門,如教育部分管所有高校,有關(guān)考試防疫的政策通知應(yīng)傳遞到與通知內(nèi)容相關(guān)的所有高校而不能傳遞到下屬報刊社、傳媒出版集團(tuán)等部門。

      Fig.5 Pre-inference relationship of the three(example of rule reasoning)圖5 推理前三者關(guān)系(規(guī)則推理舉例)

      Fig.6 Post-inference relationship of the three(example of rule reasoning)圖6 推理后三者關(guān)系(規(guī)則推理舉例)

      2.3.2 基于表示學(xué)習(xí)的推理

      本文基于TransR 模型[37]為每個關(guān)系引入一個映射矩陣,將實體投影到對應(yīng)的關(guān)系空間中,得到三元組的映射向量,具有關(guān)系的實體相互靠近,其損失函數(shù)表示如式(3)所示。

      基于表示學(xué)習(xí)的推理,其具體思想是將實體、關(guān)系映射為向量表示,根據(jù)向量的空間距離自動學(xué)習(xí)推理所需特征,使得知識圖譜能夠通過預(yù)設(shè)向量空間的特征表示自動計算實現(xiàn)推理過程。理論上,重復(fù)路徑多的并在同一層次上的實體被通知到的可能性更大,推理過程表示為<通知,notify_to,對象A>→<通知,notify_to,對象B>,其中對象A 與對象B 之間沒有明顯上下層次關(guān)系。如從<強(qiáng)化中醫(yī)醫(yī)療機(jī)構(gòu)新冠肺炎疫情防控工作,notify_to(通知),直轄市>推理到<強(qiáng)化中醫(yī)醫(yī)療機(jī)構(gòu)新冠肺炎疫情防控工作,notify_to(通知),自治區(qū)>,其中自治區(qū)和直轄市都屬于同等層次Target 可通知目標(biāo)實體,它們在許多通知中有相似的傳遞路徑,空間距離向量近,因而可以合理推理出該通知應(yīng)該同時傳遞給兩者。

      3 實驗與分析

      3.1 總體框架

      本文基于新冠肺炎疫情的管理政策文件實現(xiàn)知識抽取、知識推理、知識存儲等知識圖譜構(gòu)建過程。其中,知識抽取從半結(jié)構(gòu)化和非結(jié)構(gòu)化的疫情應(yīng)急政策數(shù)據(jù)中通過人工抽取與自動抽取的方式得到圖譜中的部門節(jié)點與政策節(jié)點,核心是抽取出數(shù)據(jù)中的對象實體、關(guān)系及屬性,形成SPO 三元組知識。知識推理則是發(fā)現(xiàn)實體節(jié)點之間可能存在的關(guān)系,實現(xiàn)政策間互聯(lián),發(fā)現(xiàn)更多潛在的應(yīng)急方案知識。最后,將知識存儲在圖數(shù)據(jù)庫以進(jìn)行可視化且不斷補(bǔ)充完善,形成全面的突發(fā)公共衛(wèi)生事件應(yīng)急管理知識庫。本文總體知識圖譜構(gòu)建模型如圖7所示。

      Fig.7 Knowledge graph construction model of COVID-19 emergency management policy圖7 新冠疫情應(yīng)急管理政策知識圖譜構(gòu)建模型

      3.2 數(shù)據(jù)來源與預(yù)處理

      可供選擇的新冠肺炎疫情應(yīng)急管理政策信息來源主要包括國務(wù)院政府政策文件庫、各省官方網(wǎng)站、人民日報官網(wǎng)等,考慮到國務(wù)院和省政府官網(wǎng)數(shù)據(jù)較為正式明確、數(shù)據(jù)格式規(guī)范,本文選擇國務(wù)院文件庫與各省政府官方網(wǎng)站作為數(shù)據(jù)來源,選擇湖北、湖南、廣東、河南、江西、浙江、安徽7 個疫情較為嚴(yán)重的省份。采集數(shù)據(jù)時設(shè)置檢索關(guān)鍵字為“新冠肺炎”“新型冠狀病毒肺炎”或“COVID-19”,設(shè)置時間“兩年內(nèi)”進(jìn)行篩選,截至2021 年12 月31 日,最終共搜集國務(wù)院政策文件304篇,各省政府文件8 951篇。

      為了后續(xù)政策文本實體抽取,需要先對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注以訓(xùn)練模型,本文采取BIOES 標(biāo)注規(guī)范,只要不在三元組中的字標(biāo)簽都為O,其余字符按照標(biāo)注格式:實體類型(下述6 種實體類型每種用一個字母表示)-位置(B begin/I inside/E end/S single)+順序編號(B/I/O/E 種的第幾位),依次進(jìn)行標(biāo)注,具體方法如圖8 所示。其中,“教”標(biāo)記為“部門Department 類型-處于實體開頭begin+開頭的第1 個字符”,“育”標(biāo)記為“部門Department 類型-處于實體中間inside+中間的第1 個字符”,“部”為“部門Department 類型+處于實體末尾end+最后的第1 個字符”,“關(guān)于……”一律標(biāo)記為“O”表示非實體。

      Fig.8 Schematic diagram of data labeling strategy in the process of entity relation extraction 圖8 實體關(guān)系抽取過程中的數(shù)據(jù)標(biāo)注策略示意圖

      標(biāo)注完成后,按照一定的規(guī)則檢驗標(biāo)注正確性,包括:①同一個實體對象中,B 和E 只能出現(xiàn)在開頭結(jié)尾處且只能被編號為1;②I 只能出現(xiàn)在B 和E 中間且編號遞增;③S只能出現(xiàn)編號1的情況。

      3.3 圖譜構(gòu)建

      目前階段,并沒有專門針對政府文件的標(biāo)注語料庫,實驗中利用中文語料庫以及部分手工標(biāo)注數(shù)據(jù)訓(xùn)練,共選取國務(wù)院發(fā)布的200 篇政策共10 069 條數(shù)據(jù)進(jìn)行了標(biāo)注。實驗中,訓(xùn)練語句取80%,測試語句取20%。

      本文利用BiLSTM+CNN-CRF 模型從9 255 篇政策數(shù)據(jù)中共抽取實體33 072 個,表5 列舉了部分抽取的實體結(jié)果及規(guī)模情況。

      Table 5 Examples and specifications of main entity extraction results表5 主要實體抽取結(jié)果舉例與規(guī)格

      關(guān)系抽取仍采用此前標(biāo)注的10 069 條數(shù)據(jù)進(jìn)行訓(xùn)練。實驗中,經(jīng)過多次參數(shù)調(diào)整,最終選擇學(xué)習(xí)率為0.01,dropout 值為0.1,迭代次數(shù)選擇為10 輪,filter 為3,kernel_size 為4。

      經(jīng)過關(guān)系抽取,共獲得405 368 條關(guān)系,以“新冠肺炎疫情聯(lián)防聯(lián)控機(jī)制”政策為例,關(guān)系抽取后得到的部分結(jié)果如表6 所示,每行展示一組信息,表示為實體1 與實體2之間的關(guān)系,由于一句話可能包含多個實體與關(guān)系,故需將每個關(guān)系分開進(jìn)行單獨處理,如“聯(lián)防聯(lián)控機(jī)制”包括“激活應(yīng)急指揮能力”“提升核酸檢測能力”“加強(qiáng)溯源”等7個小要求,需將每個小要求均與大政策“聯(lián)防聯(lián)控機(jī)制”單獨聯(lián)系為subtitle_of(包含)。

      Table 6 Partial extraction results of policy relationship of joint prevention and control mechanism for COVID-19表6 “新冠肺炎疫情聯(lián)防聯(lián)控機(jī)制”政策關(guān)系部分抽取結(jié)果

      知識抽取完成后,基于簡單部門邏輯的推理后,再將實體映射到對應(yīng)關(guān)系空間進(jìn)行向量表示以預(yù)測鏈路,每次選擇80%三元組作為訓(xùn)練集,設(shè)置向量嵌入維度為200 維并通過10 輪迭代訓(xùn)練,進(jìn)行實體關(guān)系預(yù)測。同時,在訓(xùn)練過程中,對于不符合事實邏輯的錯誤推理,需要及時進(jìn)行修正、刪除,然后重新進(jìn)行訓(xùn)練,經(jīng)過多輪反復(fù),新冠疫情政策知識圖譜內(nèi)容會逐漸完善,推理結(jié)果將會逐漸準(zhǔn)確。以上實驗重復(fù)5 次,最終結(jié)果取均值,實驗結(jié)果如圖9 所示。試驗結(jié)果表明,該模型能較好地在該政策數(shù)據(jù)上進(jìn)行推理。

      Fig.9 Change of loss curve圖9 損失變化曲線

      經(jīng)過兩種推理完成后,本文知識圖譜關(guān)系數(shù)量增長26 933 條,最終圖譜規(guī)模如表7 所示。隨著通知數(shù)目的增加、涉及部門的進(jìn)一步詳細(xì)分類以及圖譜中加入更多的部門實體,圖譜將能夠推理出更多的關(guān)系。

      Table 7 Policy knowledge graph scale表7 政策知識圖譜規(guī)模

      3.4 模型質(zhì)量評估

      在進(jìn)行知識抽取后,對抽取結(jié)果進(jìn)行評估,采用常規(guī)準(zhǔn)確率、召回率和F 值作為評價指標(biāo)。如表8 所示,分別與只使用BiLSTM 的算法和BiLSTM-CRF 算法進(jìn)行對比,最終本文模型準(zhǔn)確率達(dá)85%以上,說明了BiLSTM+CNNCRF 模型的有效性。

      Table 8 Entity extraction algorithm comparison results表8 實體抽取算法對比結(jié)果(%)

      在知識推理環(huán)節(jié),采用損失值Loss 作為判斷指標(biāo),當(dāng)損失函數(shù)不再下降時,認(rèn)為推理完成。在知識推理完成后,還需要進(jìn)行錯誤評估、知識更新等加工過程,以提升知識圖譜的可靠性和結(jié)構(gòu)性。

      構(gòu)建好的知識圖譜可能存在一些錯誤,主要集中在3個方面:上下位問題即圖譜應(yīng)該呈樹狀結(jié)構(gòu)而無環(huán)、實體屬性偏差、實體間關(guān)系邏輯錯誤。推理后得到的圖譜經(jīng)過查找,發(fā)現(xiàn)無環(huán)狀結(jié)構(gòu);對于屬性偏差和邏輯錯誤的問題,通過人工分組隨機(jī)抽檢,從最終圖譜中隨機(jī)抽取500 個實體和500 組推理關(guān)系,經(jīng)過檢驗,認(rèn)為它們的屬性無異常情況,推理均符合實際邏輯。

      此外,在實際應(yīng)用時,每個部門也應(yīng)該自行檢查自己部門的知識可信度,若發(fā)現(xiàn)可能存在的推理錯誤時,可及時更正、刪除,保證圖譜及時更新,這也是進(jìn)一步提升政策傳遞推理準(zhǔn)確性的關(guān)鍵。

      3.5 圖譜可視化

      本文利用RDF 和圖數(shù)據(jù)庫的方式實現(xiàn)政策知識存儲,然后利用Neo4j 圖數(shù)據(jù)庫實現(xiàn)管理政策信息可視化。通過Neo4j 數(shù)據(jù)庫實現(xiàn)實體關(guān)系存儲,實體包括疫情政策的對象、主題、內(nèi)容等。圖10 展示了單個政策信息結(jié)構(gòu)(彩圖掃OSID 碼可見),包括發(fā)布部門Department“中醫(yī)藥局辦公室”(綠色圈)、通知主體Announcement“強(qiáng)化中醫(yī)醫(yī)療機(jī)構(gòu)新冠肺炎疫情防控工作”(粉紅色圈)、內(nèi)容Contents(玫紅色圈)、通知對象Target(藍(lán)色圈)等。圖11 則為部分政策通知的節(jié)點展示。

      Fig.10 Single policy structure圖10 單個政策結(jié)構(gòu)

      Fig.11 Partial management policy nodes圖11 部分管理政策結(jié)點

      以管理政策實體“強(qiáng)化中醫(yī)醫(yī)療機(jī)構(gòu)新冠肺炎疫情防控工作”為例,其屬性情況如圖12 所示,包括公文主題分類、公文種類、發(fā)文字號、發(fā)文機(jī)關(guān)、成文日期等。

      Fig.12 Entity property圖12 實體屬性

      一個通知對象會被若干個具體通知所涉及,這些通知屬于不同主題,其中通知節(jié)點會根據(jù)通知路徑的相似或距離的相近自動推理到可能被通知的對象。圖13 以中醫(yī)藥管理局為中心節(jié)點展示了知識圖譜中發(fā)布政策的代表性細(xì)節(jié)結(jié)構(gòu),一個部門會發(fā)布若干個通知,每一則通知又包含若干個具體通知內(nèi)容,會通知到不同的對象。

      4 圖譜應(yīng)用分析

      4.1 應(yīng)用部署

      整個突發(fā)公共衛(wèi)生事件應(yīng)急管理政策知識圖譜的部署和應(yīng)用結(jié)構(gòu)如圖14 所示。在這種政策發(fā)布模式中,中央政府具有最高權(quán)限,原先政策分級發(fā)布、疫情分級管理模式變?yōu)楸馄交Y(jié)構(gòu),將權(quán)力分散,極大減少了政策傳遞的時間損耗。該結(jié)構(gòu)通過“政策知識圖譜+信息系統(tǒng)”的智能模式,輔助中央機(jī)關(guān)部門實時自動監(jiān)督各地機(jī)關(guān)部門,從全局評估并強(qiáng)化各地應(yīng)急管理能力。這樣知識圖譜的構(gòu)建相當(dāng)于建立了一個全面的政策信息管理平臺,形成了一個專業(yè)的突發(fā)公共衛(wèi)生事件資源庫,輔助實現(xiàn)多元共治、內(nèi)生驅(qū)動的綠色響應(yīng)信息應(yīng)急通道,實現(xiàn)統(tǒng)一快速的應(yīng)急管理。

      Fig.14 The deployment structure of knowledge graph圖14 知識圖譜部署結(jié)構(gòu)

      4.2 政策解讀

      利用Neo4j 數(shù)據(jù)庫,相關(guān)政策人員可以查詢到具體每一則政策文本的細(xì)節(jié),包括內(nèi)容、主題、部門等,對其進(jìn)行可視化操作,發(fā)現(xiàn)政策通知的協(xié)作管理部門及其聯(lián)系,并在圖譜中發(fā)現(xiàn)推理后政策可能的流向。部分查詢語句如表9 所示,查詢界面如圖15 所示,部門關(guān)系查詢實例如圖16、圖17 所示,在圖中可以查詢到“人社部發(fā)(2020)24 號”通知及其在各部門的傳遞網(wǎng)絡(luò)。

      Table 9 Part of the commands to query the graph表9 部分查詢圖譜指令

      Fig.15 User query interface圖15 用戶查詢界面

      Fig.16 Policy notification example圖16 政策通知實例

      知識圖譜的構(gòu)建可以清晰地從長篇政策文章中快速捕捉重點,圍繞核心展開部署。同時,該政策通知與其他子通知、子部門對象之間的關(guān)系也可以展示出來,比如該通知所涉及的司法、人力資源、衛(wèi)生健康、知識產(chǎn)權(quán)等多部門合作,還可以利用多級查詢展示各部門在下一層的圖譜關(guān)系,同時探索出可能存在的多級政策傳遞鏈,快速幫助快速傳遞政策文件,提升政府政策文件管理及傳播效率。

      4.3 主題關(guān)聯(lián)

      政策知識圖譜除可以按照部門查詢信息,還可以從主題視角發(fā)現(xiàn)政策間的關(guān)聯(lián),這些主題通過抽取得到,在數(shù)據(jù)庫中搜索相關(guān)關(guān)鍵詞即可查到相關(guān)政策并可視化觀察它們之間的聯(lián)系。比如,多則政策通知同時涉及物資調(diào)配與復(fù)工復(fù)產(chǎn)相關(guān)主題,通過主題到政策再到部門的鏈接分析可以得到這兩個主題下的相應(yīng)機(jī)構(gòu)(見圖18),進(jìn)而可以給這些關(guān)聯(lián)的物資生產(chǎn)機(jī)構(gòu)推送與其權(quán)責(zé)相關(guān)的政策通知,促進(jìn)相關(guān)機(jī)構(gòu)根據(jù)各級政府發(fā)布的政策合理合規(guī)地安排自己的生產(chǎn)工作,減少信息不對稱和信息傳遞所造成的成本和時間浪費。

      Fig.18 Materials and resumption of work and production policies series(part)圖18 物資與復(fù)工復(fù)產(chǎn)系列處理政策(部分)

      類似地,對于疫情初期救援物資調(diào)度混亂、責(zé)任不清等問題,包括應(yīng)急管理部、物資局在內(nèi)的多個部門之間都發(fā)布了物資調(diào)度政策,有些政策重復(fù)發(fā)布,有些分管部門權(quán)責(zé)不清,導(dǎo)致物流物資一系列處理政策混亂的問題。而通過應(yīng)急管理政策知識圖譜能及時更新所有部門發(fā)布的政策與處理方案,聚合中央及地方政府下達(dá)的物資調(diào)配指令,促進(jìn)援助物資配置優(yōu)化,區(qū)域聯(lián)動資源共享,形成有效的物資聯(lián)動機(jī)制。這樣,疫情防控政策知識圖譜的構(gòu)建相當(dāng)于用另一種方式將政策文件深度關(guān)聯(lián),為一個主題類型的政策制定提供知識庫。

      5 結(jié)語

      本文以新冠疫情防控政策為例,構(gòu)建了一個突發(fā)公共衛(wèi)生事件應(yīng)急管理政策知識圖譜,實現(xiàn)了構(gòu)建的主要步驟,即Schema 構(gòu)建、知識抽取、知識推理、可視化及應(yīng)用分析,進(jìn)而提取和分析新冠疫情應(yīng)急管理的經(jīng)驗知識和管理策略。該知識圖譜的構(gòu)建豐富了突發(fā)公共衛(wèi)生事件應(yīng)急管理知識體系,建立了應(yīng)急政策信息快速響應(yīng)通道,形成整體的信息傳遞網(wǎng)絡(luò)結(jié)構(gòu),在發(fā)生類似事件時能提供應(yīng)急管理政策的整體布局、可視分析、精準(zhǔn)傳達(dá)等智能決策功能。

      知識圖譜的擴(kuò)展和更新是下一步研究的重點,比如不斷加入新頒布政策、加快圖譜更新速度、將時間屬性嵌入到推理過程中、探索更準(zhǔn)確的關(guān)系抽取模型、融合更便捷的人機(jī)交互查詢方式和更有效的知識圖譜檢驗系統(tǒng)等。同時,由知識圖譜帶來的一系列應(yīng)急政策及管理方式的變革思路等也值得探索。

      猜你喜歡
      圖譜實體應(yīng)急
      多維深入復(fù)盤 促進(jìn)應(yīng)急搶險
      繪一張成長圖譜
      完善應(yīng)急指揮機(jī)制融嵌應(yīng)急準(zhǔn)備、響應(yīng)、處置全周期
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      應(yīng)急管理部6個“怎么看”
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
      振興實體經(jīng)濟(jì)地方如何“釘釘子”
      國際新應(yīng)急標(biāo)準(zhǔn)《核或輻射應(yīng)急的準(zhǔn)備與響應(yīng)》的釋疑
      商洛市| 鄂伦春自治旗| 克什克腾旗| 新营市| 台南市| 泸州市| 巴彦县| 安西县| 四会市| 土默特右旗| 武平县| 宁陵县| 滕州市| 保靖县| 萍乡市| 定西市| 渝北区| 汶川县| 甘南县| 新丰县| 新干县| 荣昌县| 桂阳县| 偏关县| 临武县| 筠连县| 聂拉木县| 青铜峡市| 四子王旗| 滨海县| 玉林市| 牙克石市| 改则县| 弋阳县| 邵东县| 枞阳县| 青河县| 大渡口区| 九寨沟县| 宣威市| 哈巴河县|