丁國(guó)輝,張 琦,房士超,李 青,孫小宇,,張路霞,,孔桂蘭,
1.北京大學(xué) 健康醫(yī)療大數(shù)據(jù)國(guó)家研究院,北京 100191
2.沈陽(yáng)航空航天大學(xué) 計(jì)算機(jī)學(xué)院,沈陽(yáng) 110136
3.浙江省北大信息技術(shù)高等研究院,杭州 311215
隨著計(jì)算機(jī)與大數(shù)據(jù)技術(shù)在醫(yī)學(xué)領(lǐng)域中的迅速應(yīng)用以及醫(yī)療信息存儲(chǔ)標(biāo)準(zhǔn)的逐漸完善,醫(yī)學(xué)數(shù)據(jù)呈爆炸式增長(zhǎng)。醫(yī)學(xué)數(shù)據(jù)由于其自身特點(diǎn)而呈現(xiàn)出多模態(tài)形式,診斷報(bào)告、多種醫(yī)療成像設(shè)備如X光、計(jì)算機(jī)斷層掃描、磁共振成像、超聲成像和正電子發(fā)射斷層掃描產(chǎn)生的醫(yī)學(xué)影像都被稱為多模態(tài)數(shù)據(jù)。且這些多模態(tài)數(shù)據(jù)往往同時(shí)出現(xiàn),互相補(bǔ)充[1]。如骨折的位置以及斷裂的狀態(tài)和程度可以用X光片來(lái)表示,也可以通過(guò)文字報(bào)告進(jìn)行表示,實(shí)際臨床分析中通常使用以上兩種模態(tài)的數(shù)據(jù)來(lái)準(zhǔn)確描述骨折的情況[2]。在醫(yī)學(xué)領(lǐng)域中,這些多模態(tài)數(shù)據(jù)混合并存,形成了一種語(yǔ)義上相似且相互關(guān)聯(lián)的復(fù)雜特征。如何跨越不同模態(tài)間底層異構(gòu)鴻溝以及底層特征與其抽象語(yǔ)義間的語(yǔ)義鴻溝[3],進(jìn)而實(shí)現(xiàn)多模態(tài)數(shù)據(jù)間的關(guān)聯(lián)是急需解決的問題。
如圖1所示,醫(yī)學(xué)領(lǐng)域多模態(tài)檢索,即用一種模態(tài)的樣本來(lái)檢索多種模態(tài)的醫(yī)學(xué)數(shù)據(jù),如使用文本來(lái)檢索與之語(yǔ)義相似的診斷報(bào)告、CT、X光片、MRI等多種模態(tài)的數(shù)據(jù),是涉及機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺、大數(shù)據(jù)等技術(shù)的交叉領(lǐng)域,具有十分重要的學(xué)術(shù)價(jià)值和研究意義[4]。放射學(xué)科醫(yī)生進(jìn)行診斷時(shí),通常根據(jù)他們之前肉眼觀察過(guò)的病例特征來(lái)判斷,由于數(shù)據(jù)量大、經(jīng)驗(yàn)有限等原因,不可避免會(huì)出現(xiàn)誤診等情況,對(duì)患者治療的準(zhǔn)確性留下很大的隱患。而多模態(tài)醫(yī)學(xué)檢索技術(shù)能夠幫助醫(yī)生檢索到語(yǔ)義相似的多模態(tài)病例信息,從而提高臨床診斷和治療決策的效率與準(zhǔn)確性,并且這些整合的醫(yī)學(xué)資源便于新手醫(yī)生和學(xué)生進(jìn)行學(xué)習(xí),也為促進(jìn)計(jì)算機(jī)輔助診斷系統(tǒng)提供了一個(gè)新視角。因此,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)檢索在醫(yī)療領(lǐng)域具有重要的臨床意義。本文通過(guò)相關(guān)文獻(xiàn)研究,總結(jié)了多模態(tài)檢索在醫(yī)學(xué)領(lǐng)域的研究進(jìn)展,主要貢獻(xiàn)點(diǎn)如下:
圖1 醫(yī)學(xué)領(lǐng)域的單模態(tài)與多模態(tài)檢索Fig.1 Unimodal and multimodal retrieval in medical field
(1)綜述多模態(tài)檢索在醫(yī)學(xué)領(lǐng)域的進(jìn)展,有利于快速了解和熟悉醫(yī)學(xué)大數(shù)據(jù)的多模態(tài)檢索現(xiàn)狀。
(2)對(duì)醫(yī)學(xué)領(lǐng)域多模態(tài)檢索方法進(jìn)行歸類,并介紹不同類別的多模態(tài)檢索方法及其特點(diǎn)。
(3)梳理醫(yī)學(xué)領(lǐng)域多模態(tài)檢索面臨的挑戰(zhàn),并總結(jié)未來(lái)該領(lǐng)域的發(fā)展趨勢(shì)。
當(dāng)前醫(yī)學(xué)領(lǐng)域,為從海量的異構(gòu)醫(yī)學(xué)數(shù)據(jù)中提取出有效信息,幫助醫(yī)生提高臨床診斷與治療的效率及正確率,多模態(tài)檢索技術(shù)已成為一個(gè)研究熱點(diǎn),尤其是在圖像檢索方面得到廣泛應(yīng)用并取得較多研究成果[5-14]。本文系統(tǒng)梳理了醫(yī)學(xué)領(lǐng)域的多模態(tài)檢索方法,將其歸納為三類:基于文本的多模態(tài)檢索、基于內(nèi)容的多模態(tài)檢索及基于融合信息的多模態(tài)檢索。其中,基于內(nèi)容的多模態(tài)檢索可進(jìn)一步劃分為基于傳統(tǒng)特征的檢索和基于深度特征的檢索。
基于文本的多模態(tài)檢索是早期常用的研究方法,如圖2(a)所示,該方法將數(shù)據(jù)庫(kù)中的多模態(tài)醫(yī)學(xué)圖像通過(guò)某種方法以文字的方式表示,通過(guò)將多模態(tài)檢索轉(zhuǎn)變成單模態(tài)檢索解決異構(gòu)數(shù)據(jù)間的“語(yǔ)義鴻溝”問題[15],其依賴的文本數(shù)據(jù)一般需要從圖像描述中提取,故基于此方式的數(shù)據(jù)檢索應(yīng)該提供圖像的上下文或標(biāo)題。為實(shí)現(xiàn)對(duì)大量放射圖像及其相關(guān)文本的快速訪問,Kahn等[16]開發(fā)了一個(gè)包含20萬(wàn)張多模態(tài)醫(yī)學(xué)圖像的搜索引擎,基于圖像標(biāo)題來(lái)構(gòu)建索引,然而圖像中包含的信息豐富,一個(gè)圖標(biāo)題概括不了圖中所有的文本信息。于是Xu等[17]開發(fā)了一個(gè)耶魯圖像檢索系統(tǒng)(Yale image finder,YIF)來(lái)實(shí)現(xiàn)圖像與論文的檢索,不僅可以基于圖像標(biāo)題、相關(guān)論文摘要和論文標(biāo)題中的文字完成相關(guān)圖像及論文的檢索,而且使用光學(xué)字符識(shí)別和分析圖像中的文本,然后基于圖像中攜帶的文本來(lái)檢索生物醫(yī)學(xué)圖像和相關(guān)的論文。在圖像對(duì)應(yīng)的文本描述中,并非所有文字都起到同等重要的作用,以上提到的兩種方法均無(wú)法突出圖像中的重點(diǎn)。為區(qū)分重點(diǎn)與噪音內(nèi)容及得到更匹配的結(jié)果列表,Stathopoulos等[18]創(chuàng)建了圖像的結(jié)構(gòu)化文本表示,并使用基于結(jié)構(gòu)化文本中字段的組合對(duì)它們進(jìn)行索引,由于不同字段對(duì)圖像描述的權(quán)重存在差異,因此該方法采用對(duì)相應(yīng)部分的字段賦予不同的權(quán)重作為檢索階段的特征。
圖2 醫(yī)學(xué)多模態(tài)檢索方法分類Fig.2 Classification of medical multimodal retrieval methods
更早的時(shí)候,基于文本的多模態(tài)圖像檢索方式是通過(guò)醫(yī)學(xué)專家對(duì)圖像的人工注釋來(lái)構(gòu)建索引的,但該方法由于昂貴的人工成本及龐大的數(shù)據(jù)量而難以實(shí)現(xiàn)。后來(lái)研究者使用圖像依附的上下文、圖像標(biāo)題或識(shí)別圖中的文字來(lái)自動(dòng)構(gòu)建圖像的文本索引,然而這種方法仍然有很大的局限性,畢竟不是所有的醫(yī)學(xué)圖像都具有上下文及標(biāo)題,且很多臨床圖像中也不包含文字,所以上文提到的基于文本的多模態(tài)檢索方法不具有普適性。
在醫(yī)學(xué)領(lǐng)域中,基于內(nèi)容的多模態(tài)圖像檢索(content based image retrieval,CBIR)是一種圖像檢索技術(shù),如圖2(b)所示。檢索的目標(biāo)是在包含不同成像方式的多模態(tài)醫(yī)學(xué)圖像數(shù)據(jù)庫(kù)中(例如,CT圖像、X光圖像、MRI圖像、超聲圖像等)搜索與給定查詢圖像具有相似視覺特征的醫(yī)學(xué)圖像。為了實(shí)現(xiàn)這一目標(biāo),算法將圖像的視覺內(nèi)容轉(zhuǎn)換成視覺特征來(lái)表示圖像,然后基于視覺特征之間的距離來(lái)計(jì)算圖片間的相似度。近年來(lái),許多基于內(nèi)容的多模態(tài)圖像檢索系統(tǒng)得到了發(fā)展,但多種模式的醫(yī)療成像設(shè)備給醫(yī)學(xué)圖像的檢索帶來(lái)了挑戰(zhàn),面對(duì)這一挑戰(zhàn),研究者開發(fā)了一系列算法用于實(shí)現(xiàn)基于內(nèi)容的多模態(tài)醫(yī)學(xué)圖像檢索。通過(guò)相關(guān)文獻(xiàn)研究,本文將其劃分為基于傳統(tǒng)特征和基于深度特征兩種。
1.2.1 基于傳統(tǒng)特征的方法
醫(yī)學(xué)領(lǐng)域中使用的圖像特征主要集中于全局顏色、邊緣、紋理等,大多數(shù)檢索方法通常使用這些特征的組合。由于這些特征可以自動(dòng)或半自動(dòng)地從實(shí)際圖像中提取,所以它比昂貴且主觀的人工標(biāo)注更可靠且更具有可擴(kuò)展性[19]。Zhou等[20]提出了一個(gè)基于案例的骨折圖像檢索算法,其可以在混有X光片、計(jì)算機(jī)斷層掃描、核磁共振、血管造影等多模態(tài)圖像數(shù)據(jù)庫(kù)中完成相似圖像的檢索,案例特征(case feature)由一個(gè)視覺關(guān)鍵詞和局部尺度不變特征轉(zhuǎn)換(scale-invariant feature transform,SIFT)[21]共同組成,該方法使用案例特征來(lái)計(jì)算查詢圖像與數(shù)據(jù)庫(kù)中每張圖片的相似度。為了減小多模態(tài)圖像數(shù)據(jù)檢索中的異構(gòu)差異,Liu等[22]提出了一種新的傳播圖融合框架來(lái)實(shí)現(xiàn)基于內(nèi)容的多模態(tài)醫(yī)學(xué)圖像檢索,該方法首先將查詢對(duì)象在不同模態(tài)的特征空間中建模,然后將多個(gè)特征空間中的圖融合為一個(gè)以查詢對(duì)象為中心的有向傳播圖,圖中的邊反映了查詢圖像與其他數(shù)據(jù)間的相關(guān)性,最后根據(jù)結(jié)點(diǎn)之間的相關(guān)度來(lái)進(jìn)行索引排序。同樣使用到圖的多模態(tài)醫(yī)學(xué)圖像檢索,與之不同,Kumar等[23]通過(guò)將圖像壓縮為圖的方式來(lái)實(shí)現(xiàn)正電子發(fā)射與計(jì)算機(jī)斷層掃描的檢索,圖的頂點(diǎn)和邊分別代表人體相關(guān)的組織器官及空間結(jié)構(gòu)。這種基于空間相似性的圖檢索方法雖然有效提高了檢索精度,然而圖的存儲(chǔ)及圖之間相似性的比較在空間和時(shí)間上增大了算法復(fù)雜度,而且大規(guī)模醫(yī)學(xué)影像數(shù)據(jù)也會(huì)消耗巨大的存儲(chǔ)空間。為提高系統(tǒng)的可伸縮性與響應(yīng)速度,Kitanovski等[24]開發(fā)了一種基于內(nèi)容實(shí)現(xiàn)多模態(tài)醫(yī)學(xué)圖像檢索的系統(tǒng),利用編碼和量化技術(shù)極大地縮減了圖像表示的大小,其在生成的向量上使用的乘積量化技術(shù)提高了系統(tǒng)的可擴(kuò)展性和響應(yīng)速度。
1.2.2 基于深度特征的方法
自2006年起,深度學(xué)習(xí)飛速發(fā)展并且在眾多科學(xué)挑戰(zhàn)中取得了成功[25-29],典型的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)、深度置信網(wǎng)絡(luò)(deep belief network,DBN)等深度學(xué)習(xí)方法也被應(yīng)用在多模態(tài)檢索領(lǐng)域[30-32]。深度特征即通過(guò)深度神經(jīng)網(wǎng)絡(luò)在具有不同成像方式的多模態(tài)圖像中學(xué)習(xí)到的特征,其通過(guò)多層網(wǎng)絡(luò)融合了圖像中的低級(jí)、中級(jí)和高級(jí)特征,有效解決了傳統(tǒng)特征在捕捉多模態(tài)醫(yī)學(xué)圖像之間語(yǔ)義相似方面的局限性問題。在組織病理學(xué)中,Wang等[33]和Janowczyl等[34]介紹了深度學(xué)習(xí)在該領(lǐng)域的應(yīng)用,其中使用深度特征實(shí)現(xiàn)醫(yī)學(xué)圖像檢索的研究較少。然而,近幾年利用深度特征實(shí)現(xiàn)信息檢索受到了大家廣泛的關(guān)注,在醫(yī)學(xué)領(lǐng)域也有研究人員將深度特征用于醫(yī)療多模態(tài)圖像的檢索。Shi等[35]利用深度學(xué)習(xí)技術(shù)學(xué)習(xí)映射函數(shù),提出了基于堆棧式自動(dòng)編碼器的無(wú)監(jiān)督方法和基于深度卷積神經(jīng)網(wǎng)絡(luò)的有監(jiān)督方法來(lái)挖掘不同模態(tài)間的語(yǔ)義關(guān)系。2020年,Mbilinyi等[36]提出利用深度特征從包含不同成像方式的多模態(tài)醫(yī)學(xué)圖像數(shù)據(jù)庫(kù)中(例如,CT圖像、X光圖像、MRI圖像、超聲圖像等)中檢索相似的醫(yī)學(xué)圖像,且使用三種圖像特征進(jìn)行實(shí)驗(yàn)對(duì)比:(1)從自然景物圖像訓(xùn)練出的CNN模型中通過(guò)微調(diào)提取深度特征;(2)從基于醫(yī)學(xué)圖像訓(xùn)練得到的CNN模型中提取深度特征;(3)使用哈拉里克和局部二值模式的紋理特征,結(jié)果證明兩種基于深度特征的檢索性能均優(yōu)于傳統(tǒng)的紋理特征。Rossi等[37]于2021年使用有監(jiān)督的深度孿生網(wǎng)絡(luò)來(lái)改進(jìn)簡(jiǎn)單CNN對(duì)醫(yī)學(xué)圖像的特征提取能力,實(shí)現(xiàn)前列腺多模態(tài)和多視圖磁共振圖像間的多模態(tài)檢索,研究表明該網(wǎng)絡(luò)[38-41]在圖像相似性度量方面的能力得到顯著的提升,該方法與成熟的基于深度學(xué)習(xí)的CBIR的實(shí)驗(yàn)相比,在精度-召回率、平均精度等方面有顯著提高。盡管深度學(xué)習(xí)極大地推進(jìn)了多模態(tài)檢索在醫(yī)學(xué)領(lǐng)域的發(fā)展,但該方法通常需要大規(guī)模數(shù)據(jù)來(lái)訓(xùn)練網(wǎng)絡(luò),耗時(shí)且占用大量的計(jì)算空間,引入哈希變換則可以很好地解決這類問題。
哈希變換是跨模態(tài)檢索技術(shù)中一種常見的性能優(yōu)化方法,其在提升檢索速度的同時(shí),能夠降低檢索過(guò)程中的存儲(chǔ)開銷,因此在跨模態(tài)檢索中得到了廣泛的應(yīng)用[42-46]。其思想是利用多模態(tài)數(shù)據(jù)的樣本對(duì)信息學(xué)習(xí)哈希函數(shù),函數(shù)映射的基本依據(jù)是相似樣本的哈希碼也是相似的。因此,將多模態(tài)數(shù)據(jù)映射到一個(gè)漢明空間,最小化相似樣本之間的哈希距離的同時(shí)最大化不相似樣本之間哈希距離,然后在漢明空間中即可實(shí)現(xiàn)快速的跨模態(tài)檢索[47]。Wang等[48]和Cao等[49]將哈希方法與深度學(xué)習(xí)結(jié)合,分別提出了基于堆疊式的自動(dòng)編碼器和深度神經(jīng)網(wǎng)絡(luò)相關(guān)的自動(dòng)編碼器。為增強(qiáng)特征提取與哈希編碼的一致性,Jiang等[50]將特征抽取和哈希碼學(xué)習(xí)進(jìn)行整合,提出了統(tǒng)一框架,實(shí)現(xiàn)了端到端的學(xué)習(xí)。Yang等[51]將深度哈希算法應(yīng)用到醫(yī)療多模態(tài)檢索領(lǐng)域中,提出了一個(gè)深度貝葉斯的學(xué)習(xí)框架,將多模態(tài)數(shù)據(jù)映射到一個(gè)共享的漢明空間,從而在多模態(tài)神經(jīng)圖像中學(xué)習(xí)到能代表該數(shù)據(jù)的哈希碼,哈希碼之間的距離大小代表著多模態(tài)數(shù)據(jù)間的相似程度。實(shí)驗(yàn)結(jié)果表明該方法能夠生成有效的哈希碼,并在三個(gè)多模態(tài)神經(jīng)圖像數(shù)據(jù)集的檢索中取得了良好的性能。然而該方法并未考慮到人體組織間的高度相似性會(huì)帶來(lái)微小病灶信息難以區(qū)分的問題,針對(duì)醫(yī)學(xué)影像視覺差異小這一特點(diǎn),Zhang等[52]通過(guò)加入attention注意力機(jī)制,利用平均池化和局部重復(fù)注意力提取全局特征,遞歸地從圖像的粗粒度移動(dòng)至細(xì)粒度,完成影像中更具鑒別力區(qū)域特征的提取,其在MIMIC-CXR數(shù)據(jù)集中取得了很好的效果。以上兩者中所提到的醫(yī)學(xué)圖像均是二維平面圖,面向三維立體的ROI肺結(jié)節(jié)圖像塊,針對(duì)文獻(xiàn)[53]提出了使用多層面二階融合的特征提取的方法提取肺結(jié)節(jié)特征信息,首先從三個(gè)不同角度對(duì)ROI圖像塊切片并進(jìn)行特征融合,然后通過(guò)改進(jìn)的殘差網(wǎng)絡(luò)進(jìn)行低級(jí)特征與高級(jí)特征的二階融合,提取出更完整的三維肺結(jié)節(jié)的特征信息。雖然基于哈希的多模態(tài)檢索極大地促進(jìn)了計(jì)算機(jī)輔助診斷系統(tǒng)的發(fā)展,但哈希碼的弱鑒別性則對(duì)其發(fā)展造成了阻礙。Shi等[35]使用深度確定性信息瓶頸方法(deep deterministic information bottleneck,DIB)[54]來(lái)避免變分推理和分布假設(shè)從而減少多余的信息,有效地增強(qiáng)了哈希碼的可鑒別性。以上四種方法捕獲兩個(gè)模態(tài)之間的相關(guān)性時(shí)均使用的粗粒度的標(biāo)簽信息或模態(tài)間和模態(tài)內(nèi)的相似性,不利于保留原始空間和漢明空間之間的流形結(jié)構(gòu),針對(duì)這一問題,Xu等[55]直接使用多模態(tài)流行相似度來(lái)保持實(shí)例間的相關(guān)性,且引入高斯二進(jìn)制受限玻爾茲曼機(jī)利用實(shí)值約束直接輸出哈希碼,無(wú)需進(jìn)行任何連續(xù)松弛繼而平滑擬合,其提出的判別項(xiàng)可保證哈希函數(shù)所編哈希碼的每一位各不相同,解決了哈希碼弱鑒別性問題。
從以上提到的模型可以看出:基于內(nèi)容的多模態(tài)檢索技術(shù)逐漸趨于成熟。同時(shí),也經(jīng)歷了從基于傳統(tǒng)特征到基于深度特征方法的改進(jìn),繼續(xù)使用傳統(tǒng)的視覺特征很難在準(zhǔn)確率與召回率方面得到明顯的提升,目前深度神經(jīng)網(wǎng)絡(luò)發(fā)展迅速,其強(qiáng)大的非線性特征提取具有很大的潛力,所以使用基于深度學(xué)習(xí)的方法會(huì)是今后重點(diǎn)研究的方向。鑒于深度模型的參數(shù)龐大,需要大量標(biāo)注的訓(xùn)練樣本,可以考慮結(jié)合遷移學(xué)習(xí)等方法解決這一問題。
盡管基于內(nèi)容的多模態(tài)醫(yī)學(xué)圖像檢索取得了一些進(jìn)展,但現(xiàn)有系統(tǒng)的檢索精度仍然有限,所以將基于內(nèi)容和基于文本的方法結(jié)合起來(lái)進(jìn)行多模態(tài)圖像檢索以克服這兩種方法分別進(jìn)行檢索時(shí)的不足成為一個(gè)研究熱點(diǎn)。如圖2(c)所示,信息融合常用的方法是利用從文本中提取的語(yǔ)義信息與圖像特征信息進(jìn)行組合。Martín-Valdivia等[56]使用信息增益(information gain,IG)度量來(lái)篩選文本中的有效語(yǔ)義信息,然后通過(guò)融合圖像與文本信息對(duì)基于視覺內(nèi)容的多模態(tài)圖像檢索系統(tǒng)進(jìn)行改進(jìn)。融合多模態(tài)異構(gòu)信息提取出更高級(jí)的語(yǔ)義特征,可以更好彌補(bǔ)模態(tài)間語(yǔ)義鴻溝。除了這種特征級(jí)融合算法,Vikram等[57]還探索了決策級(jí)特征融合技術(shù)在醫(yī)學(xué)多模態(tài)檢索中的效果,其使用一種基于潛在狄利克雷分配(latent Dirichlet allocation,LDA)的視覺特征編碼方法,首先利用視覺特征來(lái)與數(shù)據(jù)庫(kù)中的圖像進(jìn)行相似度衡量,然后將文本作為補(bǔ)充語(yǔ)義來(lái)篩選出更理想的結(jié)果列表,研究結(jié)果表明這些特征能夠有效地對(duì)多模態(tài)醫(yī)學(xué)圖像進(jìn)行建模。該文提出的決策級(jí)融合技術(shù)在Image-CLEF2009數(shù)據(jù)集上實(shí)現(xiàn)了比其他技術(shù)更高的平均精度均值,證明了其適用于多模態(tài)醫(yī)學(xué)圖像檢索??紤]到現(xiàn)實(shí)的臨床應(yīng)用中經(jīng)常會(huì)缺失一些模態(tài),Cao等[58]開發(fā)了一種新的基于深度玻爾茲曼機(jī)的多模態(tài)學(xué)習(xí)模型,從多模態(tài)信息中學(xué)習(xí)聯(lián)合密度模型來(lái)生成缺失的模態(tài),然后使用一種新的概率潛在語(yǔ)義分析模型(probabilistic latent semantic analysis,PLSA)整合醫(yī)學(xué)圖像的視覺和文本信息,通過(guò)融合多模態(tài)異構(gòu)信息提取出高級(jí)語(yǔ)義特征彌補(bǔ)語(yǔ)義鴻溝。該方法在很大程度上提高了醫(yī)學(xué)圖像檢索的性能,在臨床實(shí)踐和醫(yī)療保健方面也有很大的應(yīng)用潛力。然而,其中對(duì)生成缺失模態(tài)信息的算法要求會(huì)比較高,生成算法的準(zhǔn)確率直接影響檢索算法的性能。
不同模態(tài)的數(shù)據(jù)從不同角度表達(dá)了多種相關(guān)信息,通過(guò)挖掘多模態(tài)數(shù)據(jù)內(nèi)在內(nèi)容的相關(guān)性可以達(dá)到優(yōu)勢(shì)互補(bǔ)的效果。融合的信息可以更好地反映出用戶的檢索需求,有利于提高使用單一模態(tài)檢索的效率,但是算法最終的準(zhǔn)確率依賴于融合算法的性能,如何有效地對(duì)多個(gè)單模態(tài)的數(shù)據(jù)進(jìn)行特征特取與融合是一個(gè)富有挑戰(zhàn)性的工作[59]。
數(shù)據(jù)集對(duì)開展多模態(tài)檢索方法研究及性能評(píng)價(jià)方面的研究至關(guān)重要,由于多模態(tài)檢索技術(shù)在醫(yī)學(xué)領(lǐng)域應(yīng)用及發(fā)展時(shí)間比較短,所以目前醫(yī)學(xué)領(lǐng)域公開的多模態(tài)數(shù)據(jù)集比較少,而且,多模態(tài)數(shù)據(jù)集的規(guī)模也相對(duì)較小。醫(yī)學(xué)領(lǐng)域中常見的公開的多模態(tài)數(shù)據(jù)集如表1所示。
表1 醫(yī)學(xué)領(lǐng)域中常見多模態(tài)數(shù)據(jù)集Table 1 Common multi-modal datasets in medical field
(1)ImageCLEF:ImageCLEF是跨語(yǔ)言評(píng)估論壇(Cross Language Evaluation Forum,CLEF)的一部分,主要涉及信息檢索(文本、視覺、音頻、多媒體、傳感器數(shù)據(jù)、社交媒體)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語(yǔ)言處理等,尤其關(guān)注多模態(tài)、多語(yǔ)言的交互式方面的挑戰(zhàn)。Image-CLEF醫(yī)學(xué)圖像數(shù)據(jù)來(lái)源廣泛,包括放射學(xué)、病理學(xué)、內(nèi)窺鏡和核醫(yī)學(xué)圖像,包含了2005至2007年間的66 000多幅圖像。在2013年,ImageCLEF數(shù)據(jù)集已經(jīng)擴(kuò)展到30萬(wàn)幅多模態(tài)醫(yī)學(xué)圖像,包括磁共振、計(jì)算機(jī)斷層掃描、正電子發(fā)射斷層掃描、超聲波和組合模式,而且所有的圖像都帶有相關(guān)的文本報(bào)告。該數(shù)據(jù)集被廣泛應(yīng)用于醫(yī)學(xué)領(lǐng)域的多模態(tài)醫(yī)學(xué)圖像檢索中。
(2)LIDC-IDRI數(shù)據(jù)集:Lung image database consortium(LIDC-IDRI)是一個(gè)國(guó)際公開的數(shù)據(jù)庫(kù),也是目前對(duì)肺結(jié)節(jié)研究使用最多的一個(gè)數(shù)據(jù)庫(kù)。該數(shù)據(jù)集由美國(guó)國(guó)家癌癥研究所(National Cancer Institute,NCI)發(fā)起收集,共收錄了1 010個(gè)患者的病例。每條數(shù)據(jù)由CT掃描圖像和一個(gè)相關(guān)的XML文件組成,該XML文件記錄了4位經(jīng)驗(yàn)豐富的胸椎放射科醫(yī)生對(duì)圖像注釋的結(jié)果。每個(gè)放射科醫(yī)生先獨(dú)立檢查每個(gè)CT掃描,并標(biāo)記出“結(jié)節(jié)≥3 mm”“結(jié)節(jié)<3 mm”“非結(jié)節(jié)≥3 mm”3者中的一種。隨后,每個(gè)放射科醫(yī)生分別檢查他們自己的標(biāo)記以及其他3位放射科醫(yī)生的匿名標(biāo)記,以給出最終的意見。每位患者的CT圖像切片有100至300張。
(3)MIMIC-CXR數(shù)據(jù)集:MIMIC-CXR數(shù)據(jù)集[60-61]是一個(gè)大型公開的X射線胸片數(shù)據(jù)庫(kù),收錄于馬薩諸塞州波士頓貝斯以色列女執(zhí)事醫(yī)療中心(Beth Israel Deaconess Medical Center,BIDMC)的227 835項(xiàng)影像學(xué)研究。該數(shù)據(jù)集共有377 110張胸部X射線圖像,格式為醫(yī)學(xué)數(shù)字成像和通信(digital imaging and communications in medicine,DICOM)。每張圖像有其對(duì)應(yīng)的自由文本報(bào)告,該報(bào)告是由放射科臨床醫(yī)生對(duì)特定影像注釋的總結(jié)。每張圖像有14個(gè)影像學(xué)標(biāo)簽,這些標(biāo)簽是從相應(yīng)的放射學(xué)文本報(bào)告中提取出的。為了保護(hù)患者隱私,所有圖像均已取消標(biāo)識(shí),該數(shù)據(jù)集在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛的應(yīng)用。
DICOM是一種存儲(chǔ)了帶有大量像素值元數(shù)據(jù)的二進(jìn)制文件格式,放射學(xué)的復(fù)雜性導(dǎo)致DICOM格式的數(shù)據(jù)體積龐大且難以理解,這給非醫(yī)學(xué)領(lǐng)域的研究人員造成了障礙。為解決這一問題,MIMIC-CXR數(shù)據(jù)庫(kù)提供其簡(jiǎn)便版本MIMIC-CXR-JPG數(shù)據(jù)庫(kù)[62],該數(shù)據(jù)庫(kù)中的內(nèi)容完全來(lái)自于MIMC-CXR,其中圖像使用有損壓縮轉(zhuǎn)化為JPG格式,雖然會(huì)丟失一部分信息,但是極大地減小了圖像的存儲(chǔ)空間同時(shí)便于圖像的處理,以上優(yōu)點(diǎn)使得該數(shù)據(jù)庫(kù)在計(jì)算機(jī)視覺與信息檢索等領(lǐng)域很受歡迎。
(4)ChestX-ray14數(shù)據(jù)集:ChestX-ray14數(shù)據(jù)集[63]是由NIH研究院整理發(fā)布的,其中包含了30 805名患者的112 120張正面胸部X光片,每張X光片有其對(duì)應(yīng)的診斷報(bào)告。研究人員對(duì)數(shù)據(jù)采用NLP方法對(duì)圖像進(jìn)行標(biāo)注,共標(biāo)有14種不同肺部疾病。利用深度學(xué)習(xí)技術(shù)盡量早期發(fā)現(xiàn)并識(shí)別胸透照片中肺炎等疾病,對(duì)增加患者恢復(fù)和生存的最佳機(jī)會(huì)來(lái)說(shuō)至關(guān)重要。
信息檢索中算法的性能通常使用測(cè)試數(shù)據(jù)集來(lái)衡量,常用的性能評(píng)價(jià)指標(biāo)包括準(zhǔn)確率和召回率,也稱查準(zhǔn)率與查全率。準(zhǔn)確率代表返回的結(jié)果中相似樣本所占比例,定義為:
理想情況下希望以上兩指標(biāo)都高,但在實(shí)際情況中兩者是互相影響的,準(zhǔn)確率高時(shí)召回率往往會(huì)低,而召回率高時(shí)準(zhǔn)確率會(huì)低。構(gòu)造一個(gè)高準(zhǔn)確率同時(shí)高召回率的算法是很難實(shí)現(xiàn)的。平均精度均值(mean average precision,MAP)是將準(zhǔn)確率和召回率結(jié)合成一個(gè)單一的綜合指標(biāo)。MAP由3個(gè)遞進(jìn)概念構(gòu)成:P、AP、MAP。P即“precision”即上文的準(zhǔn)確率;AP為平均準(zhǔn)確率(average precision),其計(jì)算公式如下:
其中T為數(shù)據(jù)庫(kù)中與查詢樣本相似的總個(gè)數(shù),R是檢索結(jié)果返回的樣本總個(gè)數(shù),r為檢索結(jié)果序列中的位置索引,P(r)表示返回的前r個(gè)結(jié)果的準(zhǔn)確率,δ(r)表示第r個(gè)檢索結(jié)果是否是查詢數(shù)據(jù)的相似樣本,若相關(guān)則δ(r)=1,否則δ(r)=0。MAP即對(duì)所有的測(cè)試樣本的AP再求均值,MAP值越大代表算法的準(zhǔn)確性越高。對(duì)于單個(gè)主題的檢索任務(wù)來(lái)說(shuō),MAP是反映算法綜合性能的單值指標(biāo)。
如今,人工智能與機(jī)器學(xué)習(xí)的飛速發(fā)展使計(jì)算機(jī)輔助診斷發(fā)生了質(zhì)的飛躍,并普遍應(yīng)用在實(shí)際生活中,多模態(tài)醫(yī)學(xué)數(shù)據(jù)在數(shù)量上呈現(xiàn)出海量化增長(zhǎng)的趨勢(shì)。多模態(tài)醫(yī)學(xué)檢索技術(shù)能夠幫助醫(yī)生檢索到語(yǔ)義相似的多模態(tài)病例信息,從而提高臨床診斷和治療決策的效率與準(zhǔn)確性,本文對(duì)多模態(tài)醫(yī)學(xué)檢索方法進(jìn)行了較為細(xì)致的梳理與分類,對(duì)基于文本的、基于內(nèi)容的以及基于融合信息的多模態(tài)醫(yī)學(xué)檢索分別進(jìn)行介紹,對(duì)每類方法中的代表性算法進(jìn)行了研究、分析與對(duì)比,具體見表2。
表2 (續(xù))
表2 多模態(tài)檢索方法特點(diǎn)分析與對(duì)比Table 2 Analysis and comparison of multi-modal retrieval methods
總的來(lái)看,多模態(tài)檢索在醫(yī)學(xué)領(lǐng)域已經(jīng)取得了很大的進(jìn)展,但還有很大的發(fā)展空間?;谖谋镜亩嗄B(tài)檢索具有很大的局限性,而且文本描述與視覺內(nèi)容差異會(huì)導(dǎo)致準(zhǔn)確率低。為了解決這一問題,提出基于內(nèi)容及基于融合信息的多模態(tài)檢索方法。基于內(nèi)容的多模態(tài)檢索利用醫(yī)學(xué)圖像本身提取灰度、紋理、形狀等特征作為檢索的匹配準(zhǔn)則,在臨床診斷提供了很大的幫助,此外在醫(yī)學(xué)教育和醫(yī)學(xué)研究方面也產(chǎn)生了積極深遠(yuǎn)的影響。其中,基于深度特征的多模態(tài)醫(yī)學(xué)圖像檢索雖然需要大量的樣本使網(wǎng)絡(luò)收斂,但深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性特征提取能力使其有很大的發(fā)展?jié)摿Γ磥?lái)可以考慮與遷移學(xué)習(xí)或者小樣本學(xué)習(xí)結(jié)合?;谌诤闲畔⒌亩嗄B(tài)檢索通過(guò)融合不同模態(tài)的特征信息可以更好地彌補(bǔ)底層特征與高級(jí)語(yǔ)義的語(yǔ)義鴻溝問題,但算法性能依賴于信息融合的好壞,而且模型的復(fù)雜度相對(duì)增高。
(1)圖像數(shù)據(jù)復(fù)雜
與普通相機(jī)的成像方式不同,醫(yī)學(xué)圖像不是直接通過(guò)傳感器檢測(cè)光線來(lái)完成圖片的生成,而是在較為嚴(yán)格的標(biāo)準(zhǔn)下通過(guò)專業(yè)的醫(yī)學(xué)成像設(shè)備產(chǎn)生的,圖像質(zhì)量與許多因素相關(guān)且常伴有噪聲[64]。此外,由于人體組織具有高度的相似性,所以醫(yī)學(xué)圖像之間的視覺差異很小,且差異集中在局部病灶區(qū)。故準(zhǔn)確識(shí)別出這些病灶特征是醫(yī)學(xué)多模態(tài)檢索的一個(gè)難點(diǎn)。
(2)異構(gòu)數(shù)據(jù)的語(yǔ)義鴻溝
在實(shí)際的醫(yī)療應(yīng)用中,器官的檢測(cè)通常需要采用多模態(tài)成像方式(例如,CT圖像、X光圖像、MRI圖像等),如常見的結(jié)合計(jì)算機(jī)斷層掃描和正電子發(fā)射斷層掃描,而不同的成像設(shè)備之間的分辨率和灰度變化范圍很大,如何跨越異構(gòu)數(shù)據(jù)間的語(yǔ)義鴻溝,從而實(shí)現(xiàn)模態(tài)間數(shù)據(jù)的語(yǔ)義對(duì)齊為多模態(tài)數(shù)據(jù)的分析和檢索帶來(lái)巨大的挑戰(zhàn)。
(3)數(shù)據(jù)集限制
另一方面,數(shù)據(jù)集限制也是進(jìn)行醫(yī)療多模態(tài)檢索研究時(shí)的一大難題。目前醫(yī)學(xué)領(lǐng)域中可用的多模態(tài)公開數(shù)據(jù)集較少。為保護(hù)患者隱私,各醫(yī)院必須妥善管理病人的基本信息及診療數(shù)據(jù),當(dāng)在一項(xiàng)研究中需要使用來(lái)自多家醫(yī)院的患者數(shù)據(jù)時(shí),會(huì)存在各種約束條件[65-66]。若能解決隱私限制問題,醫(yī)學(xué)專家便可通過(guò)智能檢索系統(tǒng)實(shí)現(xiàn)對(duì)類似病例的異地訪問,這有助于提高臨床診療效率和水平[67]。而且近年來(lái)的研究主要針對(duì)大規(guī)模數(shù)據(jù)集,尤其基于深度學(xué)習(xí)的醫(yī)學(xué)大數(shù)據(jù)挖掘,該方法需要大量數(shù)據(jù)來(lái)訓(xùn)練深度人工神經(jīng)網(wǎng)絡(luò)模型,故突破數(shù)據(jù)集限制將對(duì)多模態(tài)檢索技術(shù)在醫(yī)療領(lǐng)域中的發(fā)展起到重大推動(dòng)作用。
醫(yī)學(xué)領(lǐng)域的多模態(tài)檢索較其他領(lǐng)域而言發(fā)展較慢,結(jié)合該領(lǐng)域特點(diǎn)進(jìn)行分析,總結(jié)未來(lái)的發(fā)展研究趨勢(shì)如下:
(1)細(xì)粒度的多模態(tài)相關(guān)性建模
由于人體組織大體相似,所以醫(yī)學(xué)圖像較自然圖像而言視覺差異小,且差異一般集中在局部病灶區(qū)?,F(xiàn)有基于深度特征的多模態(tài)檢索方法在學(xué)習(xí)多模態(tài)共同表示時(shí)將多模態(tài)數(shù)據(jù)映射到公共空間,然后在該空間內(nèi)直接度量相似度,這類方法在多模態(tài)共同表示建模時(shí)太過(guò)粗糙,不利于有效挖掘不同模態(tài)的語(yǔ)義一致性。因此針對(duì)不同模態(tài)的數(shù)據(jù)提取出更細(xì)粒度的特征表示會(huì)成為未來(lái)的一個(gè)研究方向。
(2)與最新的深度學(xué)習(xí)技術(shù)結(jié)合
目前將深度學(xué)習(xí)技術(shù)應(yīng)用在醫(yī)學(xué)多模態(tài)檢索的研究還不是很多,從表2中可以看到,基于深度特征與基于傳統(tǒng)特征的方法相比,深度神經(jīng)網(wǎng)絡(luò)在該領(lǐng)域的優(yōu)越性顯而易見,其分層特征提取能力為圖像的表示提供了很好的思路。關(guān)于基于融合信息的方法思路很好,但這方面的研究不多,而且由于對(duì)融合算法的高要求導(dǎo)致已有算法表現(xiàn)并不好。超圖神經(jīng)網(wǎng)絡(luò)有較強(qiáng)數(shù)據(jù)樣本間非線性高階關(guān)聯(lián)的刻畫和挖掘能力,在處理多模態(tài)、異構(gòu)數(shù)據(jù)時(shí)更加靈活,也方便多模態(tài)的融合與擴(kuò)展,多模態(tài)信息融合使用超圖神經(jīng)網(wǎng)絡(luò)等來(lái)進(jìn)行算法改進(jìn)會(huì)是一項(xiàng)可行的研究。類似地,針對(duì)醫(yī)學(xué)領(lǐng)域的特點(diǎn)與需求,將最新的深度學(xué)習(xí)技術(shù)改進(jìn)多模態(tài)檢索算法也是有價(jià)值的研究方向。
(3)輕量級(jí)的多模態(tài)檢索
臨床醫(yī)學(xué)領(lǐng)域中存在著大量的多模態(tài)數(shù)據(jù),與之相應(yīng)的是對(duì)于醫(yī)學(xué)多模態(tài)數(shù)據(jù)檢索的需求與要求也越來(lái)越高,目前的文獻(xiàn)研究中,研究者們都在追求提高檢索精度,所設(shè)計(jì)的算法復(fù)雜度高、耗時(shí)長(zhǎng),難以部署在小型計(jì)算平臺(tái)上完成檢索效率的需求。因此,設(shè)計(jì)高效且性能俱佳的輕量級(jí)檢索算法也是未來(lái)一個(gè)至關(guān)重要的研究方向。
(4)建立大規(guī)模公開數(shù)據(jù)集
目前醫(yī)學(xué)領(lǐng)域可用于多模態(tài)檢索研究的公開數(shù)據(jù)集非常少,而該領(lǐng)域的發(fā)展尤其涉及深度學(xué)習(xí)的一些方法依賴于大批量訓(xùn)練樣本。故建立大規(guī)模、多語(yǔ)義的公開多模態(tài)數(shù)據(jù)集是一項(xiàng)很有價(jià)值的工作。
(5)結(jié)合聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)能夠在滿足用戶隱私保護(hù)、數(shù)據(jù)安全和政府法規(guī)的要求下,進(jìn)行數(shù)據(jù)使用和機(jī)器學(xué)習(xí)建模,這恰好可以解決醫(yī)學(xué)領(lǐng)域中數(shù)據(jù)集限制問題。因此利用聯(lián)邦學(xué)習(xí)的核心優(yōu)勢(shì)來(lái)解決醫(yī)療數(shù)據(jù)的隱私問題在醫(yī)學(xué)多模態(tài)檢索中是一項(xiàng)很有前景的研究。
醫(yī)學(xué)數(shù)據(jù)不僅規(guī)模龐大,而且其自身特點(diǎn)呈現(xiàn)出多模態(tài)形式。面向這些大規(guī)模醫(yī)學(xué)數(shù)據(jù),實(shí)現(xiàn)多模態(tài)檢索的主要挑戰(zhàn)包括跨越多模態(tài)數(shù)據(jù)的異構(gòu)鴻溝、發(fā)現(xiàn)可以表示多模態(tài)數(shù)據(jù)語(yǔ)義信息的特征、挖掘不同模態(tài)數(shù)據(jù)間的復(fù)雜關(guān)聯(lián)。本文對(duì)多模態(tài)檢索在醫(yī)學(xué)領(lǐng)域的研究與應(yīng)用進(jìn)行了文獻(xiàn)研究,介紹了醫(yī)學(xué)領(lǐng)域一些公開的多模態(tài)數(shù)據(jù)集,將多模態(tài)檢索在醫(yī)學(xué)領(lǐng)域的實(shí)現(xiàn)方法歸納為基于文本、基于內(nèi)容以及基于融合信息的多模態(tài)檢索三類,分析了當(dāng)前醫(yī)學(xué)領(lǐng)域多模態(tài)檢索研究與應(yīng)用所面臨的挑戰(zhàn),最后結(jié)合目前醫(yī)學(xué)領(lǐng)域多模態(tài)檢索的一些待解決的問題和部分新興的研究思路,展望了未來(lái)醫(yī)學(xué)領(lǐng)域多模態(tài)檢索的研究發(fā)展趨勢(shì)。