王華瓊 俞定國
(浙江傳媒學(xué)院媒體工程學(xué)院 杭州 310018)
錢歸平
(1 之江實(shí)驗(yàn)室 杭州 311121 2 浙江傳媒學(xué)院媒體工程學(xué)院 杭州 310018)
隨著醫(yī)生和患者在社交媒體上活躍度的提升,網(wǎng)絡(luò)上積累了大量醫(yī)學(xué)社交數(shù)據(jù),并以富文本形式產(chǎn)生、積累和顯示,包含結(jié)構(gòu)化數(shù)據(jù)、文本、表情、圖片、音頻、視頻等多種不同模態(tài)信息[1]。類似于人類通過視覺、聽覺、嗅覺、觸覺等多種感官感知外界環(huán)境和實(shí)體,這些多模態(tài)信息通過不同的結(jié)構(gòu)特征和表現(xiàn)形式對對象進(jìn)行描述,進(jìn)而形成更加完整而準(zhǔn)確的表示和評價[2-3]。
在傳統(tǒng)知識圖譜構(gòu)建過程中,往往根據(jù)特定研究任務(wù)選擇一種占主導(dǎo)地位的模態(tài)數(shù)據(jù)進(jìn)行分析[4]。Zhang Y等[5]構(gòu)建語義臨床決策支持知識庫,集成醫(yī)療保健本體知識和患者數(shù)據(jù),但仍然以存儲于醫(yī)院信息系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)為主。面向社交媒體中的多模態(tài)數(shù)據(jù),如何解決模態(tài)異構(gòu)性并建立跨模態(tài)關(guān)聯(lián)是構(gòu)建多模態(tài)知識圖譜的核心問題[6]。單模態(tài)知識圖譜中已經(jīng)包含醫(yī)學(xué)領(lǐng)域的診斷、藥物、手術(shù)、臨床路徑等術(shù)語和規(guī)則,為多模態(tài)知識圖譜建立奠定了醫(yī)學(xué)本體基礎(chǔ)。進(jìn)一步將結(jié)構(gòu)化數(shù)據(jù)、文本、表情、圖片、音頻、視頻等模態(tài)信息進(jìn)行歸類,歸納為領(lǐng)域知識、文本知識和視覺知識3類。如何建立這3類模態(tài)知識與現(xiàn)有醫(yī)學(xué)本體之間的映射關(guān)系是本文擬解決的核心問題。
根據(jù)醫(yī)學(xué)社交媒體數(shù)據(jù)的多模態(tài)特征,本文基于現(xiàn)有醫(yī)學(xué)本體進(jìn)行補(bǔ)充和擴(kuò)展,提出一種面向多模態(tài)信息的知識圖譜構(gòu)建方法。首先對醫(yī)學(xué)社交媒體數(shù)據(jù)中的多模態(tài)知識進(jìn)行分析和提取,歸納并提煉出3類模態(tài)信息;然后建立現(xiàn)有醫(yī)學(xué)本體與這3類模態(tài)知識之間的語義關(guān)聯(lián),提高知識圖譜的完整性和智能性。
醫(yī)學(xué)社交媒體數(shù)據(jù)與醫(yī)院信息系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)相比,內(nèi)容更加豐富,形式更加多樣,其中包含圖片視覺知識、純文本知識,以及醫(yī)院、科室、醫(yī)師級別等領(lǐng)域知識,見圖1。對普通用戶而言,圖文并茂能夠幫助其更加直觀、完整地理解文章內(nèi)容;對知識圖譜而言,視覺知識、文本知識的融入是對現(xiàn)有醫(yī)學(xué)本體的重要補(bǔ)充,關(guān)聯(lián)融合多個模態(tài)數(shù)據(jù)能夠提升模型在分類或回歸任務(wù)中的性能[7]。
圖1 醫(yī)學(xué)社交媒體數(shù)據(jù)中的多模態(tài)知識
研究團(tuán)隊在構(gòu)建傳統(tǒng)知識圖譜方面已有多年經(jīng)驗(yàn),在面向院內(nèi)數(shù)據(jù)的單模態(tài)知識圖譜構(gòu)建方面提出“知識源確定-知識抽取-知識表達(dá)-模型評估”4階段法[4]。在此基礎(chǔ)上,通過對醫(yī)學(xué)社交媒體數(shù)據(jù)內(nèi)容和特征的分析,歸納和總結(jié)多模態(tài)醫(yī)學(xué)知識圖譜構(gòu)建方法[8],提出基于醫(yī)學(xué)社交媒體數(shù)據(jù)的多模態(tài)知識圖譜構(gòu)建4階段法。多模態(tài)知識圖譜的構(gòu)建、評估,所采用的技術(shù)和方法與單模態(tài)知識圖譜基本一致,最大區(qū)別在于多模態(tài)知識與現(xiàn)有本體知識之間的映射,即多模態(tài)知識融合。
3.2.1 知識源確定 是指識別和確定醫(yī)學(xué)社交媒體知識源。明確各類模態(tài)信息的數(shù)據(jù)來源對構(gòu)建多模態(tài)圖譜是非常重要的。以濕疹病種為例,從網(wǎng)絡(luò)開放數(shù)據(jù)中獲取“濕疹”相關(guān)的網(wǎng)頁數(shù)據(jù),將結(jié)構(gòu)化數(shù)據(jù)存儲到MySQL數(shù)據(jù)庫中,并將圖片等視覺知識載體以文件方式進(jìn)行保存。
3.2.2 知識抽取 是在信息抽取的基礎(chǔ)之上更加深入發(fā)現(xiàn)隱含知識的過程,為多模態(tài)醫(yī)學(xué)知識圖譜的構(gòu)建提供原始素材和內(nèi)容。傳統(tǒng)知識圖譜搭建過程中知識抽取更多針對領(lǐng)域?qū)<业碾[含知識,抽取過程主要依賴人工實(shí)現(xiàn)?;谏缃幻襟w數(shù)據(jù)的結(jié)構(gòu)和模態(tài)特征,多模態(tài)知識抽取強(qiáng)調(diào)對文本知識和視覺知識的抽取,需要將本體技術(shù)與深度學(xué)習(xí)技術(shù)、自然語言處理技術(shù)相結(jié)合,關(guān)注不同模態(tài)知識間關(guān)系的識別和抽取。
3.2.3 知識表達(dá) 是利用本體技術(shù)將多模態(tài)知識進(jìn)行語義化表達(dá)。醫(yī)學(xué)領(lǐng)域術(shù)語使用網(wǎng)絡(luò)本體語言進(jìn)行描述,明確定義濕疹病種相關(guān)知識的類、屬性和實(shí)例。在Protégé中通過OntoGraf繪制類、實(shí)例關(guān)系。構(gòu)建濕疹臨床路徑知識圖譜,列出“臨床路徑信息庫”“病種”“激素類藥物”3個類以及對應(yīng)的7個實(shí)例,并通過屬性建立實(shí)例“濕疹臨床路徑”和常見外用藥物實(shí)例之間的關(guān)聯(lián),見圖2。知識圖譜中的規(guī)則使用語義網(wǎng)規(guī)則語言描述,支持智能推理。
圖2 濕疹臨床路徑知識圖譜
3.2.4 模型評估 該階段采取面向任務(wù)的模型評估方法。研究結(jié)果中以單一病種“濕疹”為例,采用上述建模方法構(gòu)建面向濕疹病種的多模態(tài)知識模型,并搭建多模態(tài)數(shù)據(jù)瀏覽展示界面,結(jié)合領(lǐng)域?qū)<乙庖妼χR模型進(jìn)行評估與優(yōu)化。
醫(yī)學(xué)社交媒體數(shù)據(jù)中包含部分領(lǐng)域知識,例如醫(yī)生姓名、所屬科室、所屬醫(yī)院等,還包括行業(yè)認(rèn)證、用戶評價等信息,在一定程度上反映其發(fā)布內(nèi)容的權(quán)威性和認(rèn)可度。領(lǐng)域知識在醫(yī)學(xué)社交媒體數(shù)據(jù)中通常以類似于結(jié)構(gòu)化數(shù)據(jù)的形式表達(dá),通過對爬取網(wǎng)頁的正則表達(dá)式解析,快速、便捷地提煉出該領(lǐng)域知識,利用Jena語義框架寫入到現(xiàn)有知識圖譜語義數(shù)據(jù)模型中。網(wǎng)頁中的醫(yī)生“何*青”經(jīng)過語義轉(zhuǎn)換變成語義模型中“門診醫(yī)師”類的一個實(shí)例,其所在醫(yī)院、科室等信息對應(yīng)到語義數(shù)據(jù)模型中的屬性值。
醫(yī)學(xué)社交媒體數(shù)據(jù)中包含大量文本信息,除了醫(yī)生等醫(yī)務(wù)人員發(fā)布的文章,還包含大量評論和回復(fù)信息。以19樓網(wǎng)站為例,通過主題網(wǎng)站爬蟲獲取濕疹相關(guān)開放數(shù)據(jù),合計包含文章1 130篇,評論和回復(fù)7 990條。
文本分析主要包含詞頻統(tǒng)計和情感分析兩個方面。詞頻統(tǒng)計主要統(tǒng)計文章和評論文本中關(guān)鍵詞出現(xiàn)頻次[9]。將濕疹常見外用藥物作為關(guān)鍵詞進(jìn)行詞頻分析,反映出該藥物在濕疹病種治療方案中的受關(guān)注程度。通常,人們在社交媒體上描述藥物時會有不同的表達(dá)方式,例如“糠酸莫米松”“艾洛松”“莫米松”等。藥物實(shí)例通過定義其rdfs:label屬性和rdfs:comment屬性,設(shè)置藥物的中文名稱、主要成分名稱和別名。藥物不同表達(dá)方式通過rdfs:label屬性關(guān)聯(lián)到同一藥物實(shí)例。假定,對病種D存在n種外用激素類藥物可供選擇,每種激素類藥物在數(shù)據(jù)中可能存在m種不同表達(dá)方式,每種表達(dá)方式在社交媒體數(shù)據(jù)中出現(xiàn)的頻次為:Xi,j(i=1,2,...,m;j=1,2,...,n),那么,某種激素類藥物在文章中的詞頻(word frequency,WF)計算式表示為:
(1)
詞頻統(tǒng)計僅能反映藥物在社交媒體數(shù)據(jù)中的受關(guān)注程度,卻無法體現(xiàn)發(fā)布者對該藥物的態(tài)度。因此,進(jìn)一步使用情感極性分析方法挖掘文本知識,提煉各種激素類藥物的受推薦程度。情感極性分析主要有兩種方式:基于情感字典的分析[10]和基于機(jī)器學(xué)習(xí)的分析[11]。由于語料數(shù)據(jù)量限制,采用情感字典分析方法[12]。
將每種激素類藥物的每種表達(dá)方式作為一個關(guān)鍵詞,提取關(guān)鍵詞所在上下文進(jìn)行情感極性分析。通過正負(fù)情感字典分別統(tǒng)計該關(guān)鍵詞的正向情感得分Npj(j=1,2,...,n)和負(fù)向情感得分Nnj(j=1,2,...,n)。通過程度級別字典統(tǒng)計程度等級,假定上下文中共有k個程度級別詞,每個詞的程度級別為Dl,j(l=1,2,...,k;j=1,2,...,n)。綜合正負(fù)向情感得分和程度級別,關(guān)鍵詞情感得分的計算式表示為:
(2)
為了避免出現(xiàn)關(guān)鍵詞所在上下文的程度等級為零的情況,在上下文的程度等級上加1。同樣地,關(guān)鍵詞的情感得分也加1。對具有m種表達(dá)方式的某種激素類藥物,其情感得分計算式為:
(3)
綜上,使用詞頻統(tǒng)計公式(1)計算每種激素類藥物在社交數(shù)據(jù)中的出現(xiàn)頻次,使用情感評分公式(3)計算各藥物的情感評分,得到詞頻統(tǒng)計和情感評分結(jié)果,見圖3。
圖3 基于文本的關(guān)鍵詞詞頻和情感分析
從圖3可以看出,情感分析結(jié)果和詞頻統(tǒng)計結(jié)果并沒有呈現(xiàn)正相關(guān),“氫化可的松”詞頻遠(yuǎn)高于“莫米松”,情感評分卻低于“莫米松”。在社交媒體數(shù)據(jù)中,受關(guān)注程度高表明存在較高的討論度或較大爭議,也可能出現(xiàn)負(fù)面評價,并不能完全代表該藥的使用率,與受推薦程度無直接關(guān)系。因此,兩個指標(biāo)不存在正比關(guān)系。在藥物評價時,體現(xiàn)藥物推薦程度的情感評分指標(biāo)具有更為重要的參考價值;但單一的情感評分指標(biāo)又是不充分的,需要詞頻指標(biāo)進(jìn)行樣本量支持。綜合考慮兩個指標(biāo),有助于為家庭護(hù)理場景中的藥物選擇提供輔助決策支持。將圖3所得結(jié)果寫入知識圖譜是對現(xiàn)有醫(yī)學(xué)本體的重要補(bǔ)充。文本知識極大地豐富和完善了知識圖譜,為后續(xù)藥物推薦系統(tǒng)或者輔助診療專家系統(tǒng)的研發(fā)提供智能性基礎(chǔ)。
社交媒體數(shù)據(jù)中的圖片通常包含網(wǎng)址、標(biāo)題以及簡單的文本描述信息。首先將該部分信息作為知識圖譜中的視覺模態(tài)信息保存,建立圖片與已有實(shí)體之間的關(guān)聯(lián)。例如,濕疹通過屬性hasImage建立與圖片之間的關(guān)聯(lián)。屬性關(guān)聯(lián)只是一種初步關(guān)聯(lián),不同模態(tài)信息交互性較低。為了提高視覺信息對知識圖譜智能性的促進(jìn)作用,本文通過細(xì)粒度視覺實(shí)體抽取,形成面向?qū)嶓w的視覺模型,輔助分類診斷。通過對選取的圖像實(shí)體進(jìn)行不同的視覺細(xì)節(jié)特征計算實(shí)現(xiàn)圖像實(shí)體的多樣化選擇。圖片特征提取過程采用多種現(xiàn)有深度學(xué)習(xí)方法來進(jìn)行特征提取融合和領(lǐng)域泛化,例如Koohbanani N A等[13]提出的自監(jiān)督多任務(wù)學(xué)習(xí)網(wǎng)格框架Self-Path、Meng Q等[14]提出的基于互信息的解糾纏神經(jīng)網(wǎng)絡(luò)MIDNet等,通過在現(xiàn)有模型基礎(chǔ)上調(diào)整參數(shù)實(shí)現(xiàn)。然后通過語義技術(shù)將提取的特性信息關(guān)聯(lián)到知識圖譜的實(shí)體之中。通過特征提取明確圖片中紅疹的部位,并建立與已有實(shí)體之間的細(xì)粒度關(guān)聯(lián)。
以濕疹知識圖譜構(gòu)建過程為例,描述從醫(yī)療社交媒體數(shù)據(jù)中提取的領(lǐng)域知識、文本知識和視覺知識對現(xiàn)有醫(yī)學(xué)本體的補(bǔ)充過程,通過建立現(xiàn)有醫(yī)學(xué)本體與這3類模態(tài)知識之間的語義關(guān)聯(lián),提高知識圖譜的完整性和智能性。盡管本研究以濕疹單一病種為例,但是所提出的多模態(tài)知識圖譜構(gòu)建方法對其他疾病同樣適用,3類模態(tài)信息的提取和融合過程在技術(shù)方法上是一致的。
本文提出的知識圖譜構(gòu)建方法,與已有知識圖譜構(gòu)建方法相比,在數(shù)據(jù)來源和技術(shù)方法兩方面存在明顯差異。本文提出的知識圖譜構(gòu)建方法以醫(yī)學(xué)社交媒體數(shù)據(jù)作為來源,從數(shù)據(jù)來源上擺脫了對醫(yī)療機(jī)構(gòu)的依賴性,具備開放性特征,并提取領(lǐng)域知識、文本知識和視覺知識3種不同模態(tài)信息,綜合運(yùn)用文本分析、視覺實(shí)體識別等技術(shù)對現(xiàn)有醫(yī)學(xué)本體進(jìn)行補(bǔ)充。從醫(yī)學(xué)社交媒體數(shù)據(jù)的開放性特征出發(fā),基于本知識圖譜的應(yīng)用,不受限于醫(yī)療機(jī)構(gòu),有利于開放給公眾、服務(wù)于家庭醫(yī)療,因此所提出的方法對依賴家庭護(hù)理的慢性疾病管理具有更重要的推廣價值。社交媒體數(shù)據(jù)在具備開放性優(yōu)勢的同時存在表達(dá)不準(zhǔn)確、知識矛盾沖突等局限性,從網(wǎng)絡(luò)數(shù)據(jù)中挖掘知識,最終將知識保存到圖譜中,而網(wǎng)絡(luò)數(shù)據(jù)本身并不保存到知識圖譜,降低錯誤樣本對整體疾病知識庫的影響。由于醫(yī)學(xué)社交媒體數(shù)據(jù)依賴網(wǎng)絡(luò)表達(dá),患者對專業(yè)治療手段并不能清晰、準(zhǔn)確地進(jìn)行描述,因此本方法對依賴醫(yī)療機(jī)構(gòu)處理的急性或者復(fù)雜病種并不適合。
在醫(yī)學(xué)領(lǐng)域“多模態(tài)”并不屬于新名詞,對于多模態(tài)醫(yī)學(xué)影像研究非常廣泛,側(cè)重圖像識別與融合。但是多模態(tài)醫(yī)學(xué)數(shù)據(jù)融合屬新興研究領(lǐng)域,近兩年出現(xiàn)結(jié)合醫(yī)學(xué)信息系統(tǒng)和醫(yī)學(xué)影像的模態(tài)融合研究,多采用深度學(xué)習(xí)算法,應(yīng)用于實(shí)體識別、圖文轉(zhuǎn)換等。本文應(yīng)用現(xiàn)有多模態(tài)融合深度學(xué)習(xí)算法,側(cè)重多模態(tài)知識圖譜構(gòu)建,目標(biāo)是提供一個多模態(tài)醫(yī)學(xué)知識圖譜構(gòu)建的技術(shù)框架,多模態(tài)融合深度學(xué)習(xí)算法這一技術(shù)點(diǎn)上直接采用現(xiàn)有前沿算法,因此并沒有展開篇幅詳細(xì)介紹。
基于醫(yī)學(xué)社交媒體數(shù)據(jù)的特征和內(nèi)容分析,提出醫(yī)學(xué)多模態(tài)知識圖譜的4階段構(gòu)建方法。研究結(jié)果以“濕疹”病種為例展開介紹,綜合運(yùn)用本體構(gòu)建、詞頻統(tǒng)計、情感極性分析、視覺實(shí)體識別等技術(shù),描述現(xiàn)有本體構(gòu)建過程,重點(diǎn)闡述文本知識和視覺知識的抽取方法以及其對傳統(tǒng)知識圖譜的擴(kuò)展和補(bǔ)充作用。伴隨社交媒體數(shù)據(jù)的日益積累和標(biāo)準(zhǔn)化,多模態(tài)知識圖譜構(gòu)建成為必然趨勢,多種模態(tài)知識融合有助于進(jìn)一步提高醫(yī)學(xué)專家系統(tǒng)的智能性。