肖飛龍 張爽 胡志凌
(1.湖北省疾病預(yù)防控制中心 湖北省武漢市 430079 2.中國(guó)地質(zhì)大學(xué)(武漢) 湖北省武漢市 430074)
國(guó)家疾病預(yù)防控制局的成立是我國(guó)疾病預(yù)防控制體系的重大改革與調(diào)整,我國(guó)公共衛(wèi)生和疾病預(yù)防控制的發(fā)展在流行病疫情中面臨挑戰(zhàn)。部分地區(qū)的疾病預(yù)防控制中心工作人員和相應(yīng)的衛(wèi)生人員數(shù)出現(xiàn)不對(duì)稱情況,疾病防控體系存在漏洞,為改善目前的疾病預(yù)防現(xiàn)狀,地區(qū)政府投入的疾病預(yù)防與控制相關(guān)措施的知識(shí)表達(dá)非常重要。
知識(shí)圖譜作為知識(shí)管理的重要手段,以通用直觀的方式展示疾病預(yù)防與控制措施的投入力度。Neo4j圖數(shù)據(jù)庫(kù)作為非關(guān)系型數(shù)據(jù)庫(kù),其查詢性能強(qiáng)、設(shè)計(jì)靈活、易于使用,提升了知識(shí)檢索的效率和準(zhǔn)確度。本文將基于Neo4j圖數(shù)據(jù)庫(kù)構(gòu)建疾病預(yù)防與控制措施知識(shí)圖譜,探索疾病預(yù)防控制機(jī)構(gòu)的數(shù)量、人員等防控措施現(xiàn)狀,為防控體系的完善提供建議。
自2012年Google正式提出知識(shí)圖譜概念以來,學(xué)者們?cè)谘芯恐薪o出了不同的定義。劉嶠[1]等提出知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系。徐增林[2]等認(rèn)為知識(shí)圖譜是一種揭示實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò),可以對(duì)現(xiàn)實(shí)世界的事物及相互關(guān)系進(jìn)行形式化描述。而維基百科中知識(shí)圖譜被定義為“Google用于增強(qiáng)其搜索引擎功能的知識(shí)庫(kù)”。因此,對(duì)知識(shí)圖譜的定義強(qiáng)調(diào)其本身的可推理性,采用本體實(shí)現(xiàn)對(duì)知識(shí)框架的約束及描述。
一般將知識(shí)庫(kù)表述為G=(E,R,S),其中E={e1,e2,…,e|E|}是知識(shí)庫(kù)中實(shí)體的集合,包含|E|種不同的實(shí)體;R={r1,r2,…,r|R|}是知識(shí)庫(kù)中關(guān)系的集合,包含|R|種不同關(guān)系;S?E×R×S代表知識(shí)庫(kù)中三元組的集合,一般表示為(h,r,t),其中h和t分別表示頭實(shí)體和尾實(shí)體。
疾病預(yù)防與控制領(lǐng)域知識(shí)圖譜的應(yīng)用研究主要集中于防控體系及防控機(jī)制。姜茂敏[3]等運(yùn)用知識(shí)圖譜分析法,采用CiteSpace軟件定量研究了傳染病防控機(jī)制的熱點(diǎn)及進(jìn)展。
疾病防控知識(shí)圖譜在疾病診斷及治療領(lǐng)域有廣泛的應(yīng)用。孫敏敏[4]等以醫(yī)學(xué)網(wǎng)站資源為數(shù)據(jù)基礎(chǔ),構(gòu)建肺部疾病知識(shí)圖譜,進(jìn)一步提高了醫(yī)學(xué)診斷與疾病預(yù)測(cè)效率。翟?shī)檴橻5]等提出了融合知識(shí)圖譜和病情畫像的在線醫(yī)療社區(qū)信息推薦,構(gòu)建了融合知識(shí)圖譜和病情畫像的在線醫(yī)療社區(qū)信息推薦方案。但目前針對(duì)地區(qū)政府疾病預(yù)防與控制投入力度及措施的相關(guān)研究較少,知識(shí)圖譜的建立完善了疾病防控體系。
本研究選取中國(guó)經(jīng)濟(jì)與社會(huì)發(fā)展統(tǒng)計(jì)數(shù)據(jù)庫(kù),將指標(biāo)名稱確定為“疾病預(yù)防與控制”,根據(jù)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)提供的年度數(shù)據(jù)進(jìn)行篩選。最終確定2018-2020年的疾病防控相關(guān)數(shù)據(jù)作為知識(shí)圖譜構(gòu)建的數(shù)據(jù)源。
圖1展示了疾病防控知識(shí)圖譜的構(gòu)建思路,對(duì)數(shù)據(jù)源進(jìn)行知識(shí)抽取后,結(jié)合存儲(chǔ)在非關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)根據(jù)相似度計(jì)算結(jié)果進(jìn)行融合,主要包括實(shí)體與關(guān)系對(duì)齊內(nèi)容。知識(shí)應(yīng)用涉及各地區(qū)疾病防控的措施與力度查詢,一定程度上完善了疾病防控體系。
圖1:疾病防控知識(shí)圖譜構(gòu)建路徑
疾病防控知識(shí)圖譜的實(shí)體主要包括國(guó)家地區(qū)與各類防控指標(biāo),指標(biāo)的選取參考疾控機(jī)構(gòu)發(fā)布的相關(guān)指南與疾病預(yù)防控制規(guī)范定義六項(xiàng)防控措施指標(biāo):疾病預(yù)防控制中心數(shù)、分地區(qū)專業(yè)公共衛(wèi)生機(jī)構(gòu)數(shù)、疾病預(yù)防控制中心衛(wèi)生技術(shù)人員數(shù)、衛(wèi)生機(jī)構(gòu)注冊(cè)護(hù)士數(shù)、衛(wèi)生機(jī)構(gòu)床位數(shù)、衛(wèi)生機(jī)構(gòu)業(yè)務(wù)活動(dòng)費(fèi)用。根據(jù)結(jié)構(gòu)化數(shù)據(jù)表現(xiàn)形式進(jìn)行實(shí)體抽取,表1列舉了部分實(shí)體實(shí)例。
表1:實(shí)體抽取舉例
知識(shí)圖譜本質(zhì)為語(yǔ)義網(wǎng)絡(luò),關(guān)系則是聯(lián)系實(shí)體與實(shí)體的重要特征。本文在構(gòu)建疾病預(yù)防與控制知識(shí)圖譜的過程中,定義三類實(shí)體關(guān)系:上下位關(guān)系、整體與部分關(guān)系和并列關(guān)系,具體如表2所示。
表2:關(guān)系抽取舉例
知識(shí)圖譜的關(guān)系建立側(cè)重于實(shí)體與實(shí)體的內(nèi)容連接。各地區(qū)與防控措施實(shí)體的上下位關(guān)系指在本文研究的疾病防控知識(shí)圖譜中,防控措施下屬于各地區(qū);防控措施與防控指標(biāo)的整體與部分關(guān)系指防控措施包括各類已定義的防控指標(biāo);指標(biāo)實(shí)體間的并列關(guān)系則指節(jié)點(diǎn)的重要程度。
知識(shí)圖譜中的屬性抽取難點(diǎn)在于不僅需要識(shí)別實(shí)體的屬性名,還要識(shí)別實(shí)體的屬性值。疾病預(yù)防與控制知識(shí)圖譜面向中國(guó)經(jīng)濟(jì)與社會(huì)發(fā)展統(tǒng)計(jì)數(shù)據(jù)庫(kù),基于規(guī)則進(jìn)行抽取,實(shí)體的屬性名與屬性值如表3所示。
表3:屬性抽取舉例
實(shí)體的屬性值是實(shí)體特征的表達(dá),本文建立的疾病防控知識(shí)圖譜中實(shí)體有國(guó)家地區(qū)、防控措施、各類防控指標(biāo)等,不同的屬性名對(duì)應(yīng)不同的屬性值。屬性名的確定參考知識(shí)圖譜中的實(shí)體名,屬性值的確定則是實(shí)體值的另一表達(dá)形式。
實(shí)體對(duì)齊用于判斷知識(shí)圖譜中的實(shí)體是否指向客觀世界中的同一實(shí)體,其用于消除多結(jié)構(gòu)數(shù)據(jù)源中的實(shí)體沖突、實(shí)體歧義導(dǎo)致的指向不明等問題。例如“疾病預(yù)防控制中心機(jī)構(gòu)數(shù)”又稱“疾病預(yù)防控制中心數(shù)”,可將其表達(dá)進(jìn)行統(tǒng)一。關(guān)系對(duì)齊則指將實(shí)體間的相似關(guān)系進(jìn)行統(tǒng)一,避免指代沖突問題。
實(shí)體與關(guān)系對(duì)齊最常用的方法是相似性度量,將相似程度高的實(shí)體與關(guān)系統(tǒng)一為同一類型。因此可將來自同源數(shù)據(jù)或不同源數(shù)據(jù)中實(shí)體e1和e2的相似性函數(shù)定義為:
sim(e1,e2)=(1-α)simstructure(e1,e2)+αsimATTR(e1,e2)
其中simstructure(e1,e2)指知識(shí)圖譜中實(shí)體結(jié)構(gòu)的相似性,simATTR(e1,e2)指知識(shí)圖譜中實(shí)體屬性的相似度函數(shù),0≤α≤1是調(diào)節(jié)參數(shù)。該式將實(shí)體屬性映射為向量,通過余弦相似度計(jì)算向量間的相似性,最終根據(jù)余弦值衡量實(shí)體與實(shí)體間的相似度,將相似度高的實(shí)體或關(guān)系根據(jù)TF-IDF計(jì)算得到的詞頻高低進(jìn)行命名統(tǒng)一。實(shí)體與關(guān)系對(duì)齊后的知識(shí)圖譜能夠更高程度地進(jìn)行知識(shí)表達(dá),在疾病預(yù)防與控制領(lǐng)域的知識(shí)應(yīng)用也會(huì)更加廣泛。
Neo4j是一種NoSQL的圖數(shù)據(jù)庫(kù)[6],它以圖的結(jié)構(gòu)形式存儲(chǔ)數(shù)據(jù)及屬性關(guān)聯(lián),采用嵌入式Java軟件的持久化引擎,由節(jié)點(diǎn)、關(guān)系和屬性三個(gè)要素構(gòu)成。通過Neo4j圖數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)RDF數(shù)據(jù)的存儲(chǔ),構(gòu)建疾病預(yù)防與控制知識(shí)圖譜,利用Cypher語(yǔ)言對(duì)實(shí)體、關(guān)系以及屬性進(jìn)行設(shè)計(jì),可實(shí)現(xiàn)知識(shí)圖譜的構(gòu)建、查詢與編輯,使其呈現(xiàn)清晰的節(jié)點(diǎn)關(guān)系結(jié)構(gòu),并利用該圖數(shù)據(jù)庫(kù)進(jìn)行交互式查詢和關(guān)聯(lián)化推理,為今后疾病防控體系的完善提供了模型上的借鑒參考。
圖2展示了簡(jiǎn)單的疾病防控知識(shí)圖譜示例,國(guó)家實(shí)體與省市地區(qū)實(shí)體間為包含關(guān)系。此處僅以中國(guó)湖北省為例,湖北省實(shí)體與各類防控措施實(shí)體間的關(guān)系為防控指標(biāo)的提出,防控指標(biāo)也可以根據(jù)指標(biāo)體系進(jìn)一步細(xì)化為子指標(biāo)維度。通過層次化的圖結(jié)構(gòu)將各地區(qū)的疾病預(yù)防與控制的力度及措施呈現(xiàn)出來,此外Neo4j高效的圖查詢功能也拓展了疾病防控知識(shí)圖譜的應(yīng)用。
圖2:疾病防控知識(shí)圖譜示例
新形勢(shì)下我國(guó)疾控體系改革發(fā)展面臨著巨大挑戰(zhàn),知識(shí)圖譜打開了衡量防控措施投入力度及成效的黑匣子。知識(shí)應(yīng)用方面,疾病防控知識(shí)圖譜直觀地呈現(xiàn)出不同省份地區(qū)的疾病防控力度及體系完善度,能更好地根據(jù)地區(qū)差異進(jìn)行改革,提高突發(fā)公共衛(wèi)生事件以及流行性疾病的預(yù)防能力。例如通過不同疾病防控措施的文本相似度計(jì)算可以衡量投入力度的差異性,從而針對(duì)性地為每個(gè)地區(qū)提供較為完善的防控措施作為參考。此外Neo4j中通過Cypher語(yǔ)言可實(shí)現(xiàn)對(duì)中國(guó)各地區(qū)疾病防控措施的查詢,避免出現(xiàn)疾控措施不到位等情況,進(jìn)一步完善疾病防控體系。同時(shí)也可以通過知識(shí)管理進(jìn)一步完善疾病防控知識(shí)圖譜的網(wǎng)絡(luò)結(jié)構(gòu),充分利用Neo4j架構(gòu)靈活、性能可靠、可擴(kuò)展性強(qiáng)且可用性高等優(yōu)勢(shì)為知識(shí)表達(dá)與發(fā)現(xiàn)提供了極大的幫助。
本文通過對(duì)中國(guó)經(jīng)濟(jì)社會(huì)大數(shù)據(jù)研究平臺(tái)收集的疾病防控措施數(shù)據(jù)進(jìn)行實(shí)體、關(guān)系和屬性的提取,在本體構(gòu)建的基礎(chǔ)上,通過Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行知識(shí)的結(jié)構(gòu)化存儲(chǔ),并實(shí)現(xiàn)多種查詢檢索和推理,對(duì)實(shí)體與屬性進(jìn)行了細(xì)化的關(guān)聯(lián)。疾病預(yù)防與控制知識(shí)圖譜也為各地區(qū)的防控力度及措施差異提供了衡量標(biāo)準(zhǔn),進(jìn)一步完善疾病防控體系。
本文研究的不足之處在于,選取的數(shù)據(jù)源較為單一,知識(shí)表示存在范圍受限等問題,并且疾病預(yù)防與控制措施指標(biāo)歸納仍不夠完整,指標(biāo)維度仍有待進(jìn)一步加強(qiáng)。下一步工作可以進(jìn)一步擴(kuò)大數(shù)據(jù)源,實(shí)現(xiàn)多來源多模態(tài)的異構(gòu)數(shù)據(jù)源疾病預(yù)防與控制知識(shí)圖譜建立,進(jìn)一步提高地區(qū)防控體系的完善程度和防控措施水平。同時(shí)也可以將該知識(shí)圖譜進(jìn)行補(bǔ)全,并將其嵌入到疾病預(yù)防與控制的研究方法中,共同完成對(duì)疾病預(yù)防與控制措施發(fā)現(xiàn)與制定的知識(shí)組織與開發(fā)利用。