劉靜宇,劉 穎,張 帆*
(河南大學(xué)圖像處理與模式識(shí)別研究所,河南開(kāi)封 475000)
隨著影像技術(shù)的蓬勃發(fā)展,醫(yī)學(xué)影像開(kāi)始成為診斷和治療疾病不可或缺的關(guān)鍵手段。由于腫瘤具有不規(guī)則性與異質(zhì)性,傳統(tǒng)的成像方式無(wú)法滿足人們精準(zhǔn)診斷腫瘤的需要,且傳統(tǒng)的成像方式大多是定性和半定量地提取[1]腫瘤的特征。因此,人們需要開(kāi)發(fā)更成熟,更精準(zhǔn)的技術(shù)去實(shí)現(xiàn)對(duì)腫瘤的評(píng)估,由此影像組學(xué)興起了[2]。影像組學(xué)的目的是深入挖掘醫(yī)學(xué)影像的信息,然后利用這些特征信息來(lái)構(gòu)建模型,以提高疾病早診率和改善個(gè)體化的治療選擇[3]。近年來(lái),越來(lái)越多的學(xué)者開(kāi)始關(guān)注影像組學(xué),致使影像組學(xué)這一技術(shù)極大地增加了醫(yī)學(xué)影像在臨床實(shí)踐中的輔助指導(dǎo)價(jià)值。影像組學(xué)是臨床醫(yī)學(xué)研究的突破和飛躍,對(duì)于目前精準(zhǔn)醫(yī)學(xué)的發(fā)展具有重要價(jià)值。
影像組學(xué)通過(guò)從醫(yī)學(xué)圖像中提取有用特征以揭示疾病潛在信息,并提高生存預(yù)測(cè),而這些影像組學(xué)特征是使用高級(jí)算法從醫(yī)學(xué)圖像中“挖掘”出來(lái)的,它沖破了傳統(tǒng)影像模式的局限。目前,常將影像組學(xué)的處理流程為以下5 個(gè)部分:①獲取影像數(shù)據(jù);②圖像分割;③特征提??;④特征選擇;⑤建立模型。
首先,為了用于疾病的診斷和評(píng)估,影像數(shù)據(jù)是必不可少的,影像組學(xué)需要獲取高質(zhì)量和標(biāo)準(zhǔn)化的影像。圖像是通過(guò)各種物理過(guò)程、檢測(cè)參數(shù)和重建算法獲得的,以創(chuàng)建一個(gè)二維或三維的患者圖像。然而,包括輻射劑量、掃描協(xié)議、重建算法和切片厚度在內(nèi)的圖像采集參數(shù)在常規(guī)臨床實(shí)踐中差異很大。因此,比較從不同圖像采集方法中提取的特征變得十分具有挑戰(zhàn)性。為了得到更有價(jià)值的分析結(jié)果,應(yīng)盡量選擇并使用同種掃描設(shè)備去完成影像的采集,并且選擇合理的管電壓、管電流以及層厚等參數(shù)是必需的。
分割是影像組學(xué)工作流程的關(guān)鍵步驟,因?yàn)樵S多提取的特征可能取決于從周?chē)M織中分割出來(lái)的特定ROI(region of interest)。在大多數(shù)研究中,由經(jīng)驗(yàn)豐富的放射科醫(yī)師或放射腫瘤學(xué)家通過(guò)半自動(dòng)、自動(dòng)切割方式,在所得到的圖像中勾畫(huà)出腫瘤相關(guān)的感興趣區(qū)域,即ROI,進(jìn)而根據(jù)這一特征區(qū)域估算出影像組學(xué)特征。勾勒腫瘤相關(guān)的感興趣區(qū)時(shí)必須注意圖像大小是否需配準(zhǔn),同時(shí)對(duì)腫瘤相關(guān)的感興趣范圍一般不低于5 cm3。而在使用軟件、手動(dòng)、半自動(dòng)和自動(dòng)勾畫(huà)過(guò)程中,則必須根據(jù)時(shí)間、精度等進(jìn)行選擇,以避免對(duì)影像特征的提取計(jì)算造成影響。
目前,已經(jīng)開(kāi)發(fā)了許多用于自動(dòng)或半自動(dòng)分割的算法。區(qū)域生長(zhǎng)法是一種半自動(dòng)方法,通常應(yīng)用于CAD 中的質(zhì)量分割。此外,圖形切割法、活動(dòng)輪廓法和水平集法等都是最常見(jiàn)的分割算法。對(duì)于常用的分割工具也有很多,例如3DSlicer(www.slicer.org)、ITK-SNAP(www.itksnap.org)和MIM 軟件(www.mimsoftware.com)。這些應(yīng)用程序中大多數(shù)都提供了一些手動(dòng)或半自動(dòng)分割選擇,這取決于研究人員選擇最適合他們研究的軟件。但是,在軟件處理后仍然需要進(jìn)行目視檢查,因?yàn)橛袝r(shí)軟件可能會(huì)失敗。
在影像組學(xué)中,高通量的定量特征被提取和分析。影像組學(xué)特征可以分為形態(tài)特征、一階和二階直方圖特征、從特定圖像得到的影像特征,以及僅適用于多模式數(shù)據(jù)集的分形和融合特征[4]。提取出影像組學(xué)特征后為了實(shí)現(xiàn)信息的轉(zhuǎn)化,將腫瘤影像轉(zhuǎn)化為多維特征。目前,用于影像組學(xué)特征提取和分析的軟件包,例如“成像生物標(biāo)記瀏覽器”(IBEX),它還可以計(jì)算影像組學(xué)模型。CGITA 和Mazda 是用于紋理分析的開(kāi)源軟件包,它計(jì)算用戶選擇的VOI 上的許多特征。
特征選擇是影像組學(xué)處理流程中至關(guān)重要的一步,目的是為了避免過(guò)擬合并尋找可重現(xiàn)和可重復(fù)性的特征。從每個(gè)患者圖像中提取大量特征,通常在幾百到幾千的范圍內(nèi),大大超過(guò)患者人數(shù)。然而,并非所有特征對(duì)于模型區(qū)分不同分類(lèi)的患者都是有用的,因?yàn)樗鼈冎械囊恍┛赡鼙舜烁叨认嚓P(guān)或冗余,而其中一些可能與給定的分類(lèi)任務(wù)沒(méi)有強(qiáng)關(guān)聯(lián)。通過(guò)特征選擇,可以使用算法來(lái)為給定任務(wù)選擇“有效”特征,即與將給定輸出解釋為一組特征的函數(shù)相關(guān)的那些特征。最簡(jiǎn)單的特征選擇方法是對(duì)變量制定評(píng)分標(biāo)準(zhǔn),根據(jù)變量的穩(wěn)定性或相關(guān)性程度,剔除排名最差的那些。特征選擇的單變量方法利用變量排名作為主要選擇機(jī)制,有時(shí),它被定義為“強(qiáng)”單變量預(yù)測(cè)變量的臨界值[5]。這些方法的主要缺點(diǎn)是它們沒(méi)有考慮可能導(dǎo)致更好預(yù)測(cè)的不同特征之間的依賴(lài)關(guān)系[6]。多變量方法還研究特征與目標(biāo)/結(jié)果變量的關(guān)聯(lián)。
影像組學(xué)可以通過(guò)影像組學(xué)特征并利用大數(shù)據(jù)分析手段來(lái)構(gòu)建一個(gè)新的模型,用該模型可以預(yù)測(cè)診斷結(jié)果,對(duì)患者疾病進(jìn)行分類(lèi)。目前,運(yùn)用有很多基于影像組學(xué)特征的預(yù)測(cè)和分類(lèi)模型是運(yùn)用機(jī)器學(xué)習(xí)方法構(gòu)建的,并且構(gòu)建的模型效果良好。其中在構(gòu)建模型這一過(guò)程中,邏輯回歸模型由于其簡(jiǎn)單、運(yùn)行速度快的優(yōu)點(diǎn),成為最常用的監(jiān)督分類(lèi)器。
影像組學(xué)從醫(yī)學(xué)圖像中提取大量影像組學(xué)特征,以用于發(fā)現(xiàn)和驗(yàn)證不同疾病的定量成像生物標(biāo)志物,但主要用于不同類(lèi)型的癌癥。影像組學(xué)的最終目標(biāo)是實(shí)現(xiàn)癌癥的準(zhǔn)確診斷和預(yù)后,為患者提供個(gè)性化治療方案,提高他們的生活質(zhì)量。在臨床實(shí)踐中,影像組學(xué)的研究主要應(yīng)用于表1 中的幾個(gè)方面。
表1 影像組學(xué)的臨床應(yīng)用研究
肺癌是世界上最常見(jiàn)的癌癥類(lèi)型之一[7]。然而,大多數(shù)肺癌患者直到出現(xiàn)嚴(yán)重的臨床癥狀時(shí)才會(huì)感覺(jué)到腫瘤的存在,這在一定程度上導(dǎo)致了較差的臨床結(jié)果。因此,早期發(fā)現(xiàn)肺癌高危人群非常重要。影像組學(xué)在肺部小結(jié)節(jié)及肺癌的診斷中取得了一定的成就。通過(guò)對(duì)肺結(jié)節(jié)進(jìn)行影像組學(xué)特征提取,并根據(jù)提取出的特征構(gòu)建輔助診斷模型,經(jīng)實(shí)驗(yàn)證明該模型效果良好。目前該診斷模型已經(jīng)在臨床上得到應(yīng)用,在輔助小結(jié)節(jié)的良、惡性判斷中起到了不可忽視的作用。Choi 等[8]通過(guò)從72 例肺結(jié)節(jié)病例中提取7 416 個(gè)影像特征來(lái)訓(xùn)練影像組學(xué)分類(lèi)器,以改進(jìn)低劑量CT 肺結(jié)節(jié)分級(jí)。結(jié)果顯示,影像組學(xué)分類(lèi)器準(zhǔn)確率比Lung-RADS 高出12%,這顯示了影像組學(xué)在精準(zhǔn)醫(yī)療中的強(qiáng)大力量。在術(shù)前通過(guò)醫(yī)學(xué)影像對(duì)組織學(xué)進(jìn)行分類(lèi),可以幫助醫(yī)生提高肺結(jié)節(jié)定性診斷的準(zhǔn)確率,選擇合適的治療方案,避免活檢等侵入性操作。
精準(zhǔn)醫(yī)療也強(qiáng)調(diào)基因改變對(duì)患者的參與。肺癌是少數(shù)基因變異高的癌癥之一[9],因此,基因組和影像組學(xué)生物標(biāo)志物的組合有可能增強(qiáng)肺癌的管理?;驒z測(cè)是肺癌行靶向治療前必須進(jìn)行的[10]。肺癌靶向治療的重要靶點(diǎn)是對(duì)酪氨酸激酶抑制劑敏感的EGFR 突變。Jia 等[11]對(duì)503 名接受手術(shù)治療的肺腺癌患者進(jìn)行研究,選擇其中345 例患者治療前CT 圖像的影像特征作為訓(xùn)練集,建立模型,結(jié)果顯示,預(yù)測(cè)EGFR的AUC達(dá)82.8%。
郭炎兵等[12]對(duì)145 例肺癌患者的MR T2WI 進(jìn)行分析,建立基于T2WI 的影像組學(xué)模型,其鑒別小細(xì)胞肺癌(small cell lung cancer,SCLC)與非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)的效能較高。影像組學(xué)的應(yīng)用有助于治療前有效鑒別診斷SCLC 與NSCLC,從而使醫(yī)生能夠更好地制定個(gè)體化治療方案。
對(duì)于胃癌的診斷,影像組學(xué)也發(fā)揮著重要作用。趙建娜[13]從59 例胃癌患者CT 圖像中提取了25 個(gè)影像組學(xué)特征,AUG 均在0.9 以上,敏感度及特異度也較高。這表明影像組學(xué)對(duì)胃癌的診斷具有一定的價(jià)值。除了胃癌的鑒別診斷外,胃癌的精準(zhǔn)分期也同樣重要。在分期方面,Wang 等[14]對(duì)244 例經(jīng)病理證實(shí)的胃癌患者進(jìn)行一項(xiàng)回顧性研究,分別從術(shù)前動(dòng)脈期和門(mén)靜脈期CT 圖像提取影像組學(xué)特征,使用隨機(jī)森林方法構(gòu)建分類(lèi)器模型。結(jié)果顯示,術(shù)前動(dòng)脈期的AUC 值為0.825,門(mén)靜脈期AUC 值為0.818,兩者的圖像特征均是重要預(yù)測(cè)因子。目前,影像組學(xué)還被應(yīng)用于胰腺腫瘤的鑒別診斷、惡性程度評(píng)價(jià)、預(yù)后評(píng)估等方面。然而,應(yīng)用影像組學(xué)的胰腺腫瘤診斷研究大多是回顧性的[15],樣本量較小,掃描參數(shù)也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),可能影響研究結(jié)果的準(zhǔn)確度。
膠質(zhì)瘤是最常見(jiàn)的腦腫瘤類(lèi)型,超過(guò)78%的惡性腫瘤是膠質(zhì)瘤,膠質(zhì)瘤的早期診斷將有助于臨床醫(yī)生評(píng)估病人的病情并制定相應(yīng)的治療方案[16]。影像組學(xué)可能在精確醫(yī)療中占主導(dǎo)地位,因?yàn)槟X膠質(zhì)瘤表型的詳細(xì)信息,有助于對(duì)膠質(zhì)瘤的研究。Sasaki 等[17]嘗試建立一個(gè)基于MRI 的影像組學(xué)模型預(yù)測(cè)膠質(zhì)瘤患者的O6-甲基鳥(niǎo)嘌呤-DNA-甲基轉(zhuǎn)移酶(O6-methylguanine DNA methyltransferase,MGMT)基因啟動(dòng)子甲基化狀態(tài),然而其準(zhǔn)確性不能滿足實(shí)際應(yīng)用。Su 等[18]對(duì)220 例膠質(zhì)瘤患者和10 例對(duì)照患者進(jìn)行一項(xiàng)回顧性研究,以評(píng)估基于MRI 的影像組學(xué)診斷膠質(zhì)瘤亞型和預(yù)測(cè)腫瘤增殖的可行性,分析發(fā)現(xiàn)基于多對(duì)比MRI 的影像組學(xué)可以精確區(qū)分膠質(zhì)瘤亞型并預(yù)測(cè)腫瘤增殖行為。影像組學(xué)的應(yīng)用可大大提高膠質(zhì)瘤患者的生存預(yù)測(cè),為膠質(zhì)瘤患者的臨床治療方案提供指導(dǎo)。
近年來(lái),我國(guó)女性甲狀腺癌的發(fā)病率逐漸上升,其中以乳頭狀癌發(fā)病率增加為主。周世崇等[19]研究77 例甲狀腺乳頭狀癌單灶患者的超聲圖像,分析病變超聲特征和淋巴結(jié)轉(zhuǎn)移之間的關(guān)系,分別計(jì)算靈敏度、準(zhǔn)確度及特異度。發(fā)現(xiàn)14 個(gè)高指向性超聲特征,聯(lián)合預(yù)測(cè)淋巴結(jié)轉(zhuǎn)移的靈敏度為71%,準(zhǔn)確率為73%,特異度為74%,診斷率較高。此外,影像組學(xué)也被應(yīng)用于鑒別診斷甲狀腺良、惡性結(jié)節(jié)中。有研究[20]選取336 例有完整的病理檢查結(jié)果及CT 掃描圖像的病例,提取和選擇10 個(gè)鑒別診斷的紋理參數(shù)。結(jié)果顯示特異度為0.986 2,準(zhǔn)確率為0.943 4,由此表明影像組學(xué)在甲狀腺結(jié)節(jié)良惡性診斷中具有一定作用。
近年來(lái)乳腺癌發(fā)病率的持續(xù)增高[21],嚴(yán)重威脅著廣大女性的身體健康。影像組學(xué)特征在預(yù)測(cè)乳腺癌復(fù)發(fā)、鑒別乳腺癌分子分型以及乳腺良惡性腫瘤等方面也發(fā)揮著重要作用,為患者的治療方案提供了最佳的選擇。Li 等[22]對(duì)122 例乳腺癌患者進(jìn)行一項(xiàng)回顧性研究,以評(píng)估基于MRI 影像組學(xué)特征構(gòu)建的模型對(duì)于預(yù)測(cè)乳腺癌分子分型的效能。結(jié)果顯示,建立的影像組學(xué)模型在預(yù)測(cè)乳腺癌分子分型方面具有重要價(jià)值,得到的AUC值較高,這將有助于醫(yī)生做出更精準(zhǔn)的治療方案。Mao 等[23]從173 名患者(包括74 名良性病變和99 例惡性病變)的乳腺X 線圖像中提取影像組學(xué)特征,構(gòu)建了4 個(gè)針對(duì)乳腺病灶的良/惡性分類(lèi)器,得到的AUC 值最高為0.98,有助于提高良惡性乳腺腫瘤鑒別診斷的準(zhǔn)確性。
基于大數(shù)據(jù)挖掘的影像組學(xué)方法對(duì)影像學(xué)數(shù)據(jù)的質(zhì)量具有嚴(yán)格的要求[24]。影像組學(xué)是在CT、MRI以及超聲等傳統(tǒng)影像設(shè)備上采集圖像和特征提取的。通常,大多數(shù)研究中使用的圖像是來(lái)自具有各種采集協(xié)議的不同研究機(jī)構(gòu)或不同制造商的機(jī)器,圖像就可能存在一些差異,且掃描參數(shù)又沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)[25],這就有可能對(duì)提取的影像組學(xué)特征造成影響。此外,在機(jī)器中可能存在不同程度的噪聲,從而導(dǎo)致信號(hào)強(qiáng)度變化,也會(huì)對(duì)提取的影像組學(xué)特征造成一定的影響。因此,很難獲取具有相同或相似參數(shù)的大影像數(shù)據(jù)庫(kù)。建議從影像組學(xué)研究一開(kāi)始就制定好方案,并嚴(yán)格執(zhí)行,以實(shí)現(xiàn)標(biāo)準(zhǔn)化并提高影像組學(xué)的研究質(zhì)量。這包括離散化方法、首選分割方法(手動(dòng)、半自動(dòng)或自動(dòng))、各種影像組學(xué)特征的標(biāo)準(zhǔn)定義[26]以及關(guān)于哪些特征最穩(wěn)定的指標(biāo)。
影像特征的可重復(fù)性和穩(wěn)定性在影像組學(xué)的研究中是極其重要的。在一項(xiàng)研究中,紋理特征之間的可重復(fù)性差異很大,并且在重復(fù)性分析中,許多指標(biāo)被確定為僅差到中等可靠[27]。大數(shù)據(jù)分析和多中心驗(yàn)證都需要穩(wěn)定和可重復(fù)的特征。然而,掃描設(shè)備、參數(shù)、成像算法、特征提取等因素都會(huì)給影像特征的穩(wěn)定性帶來(lái)影響。He 等[28]和Yang 等[29]對(duì)平掃CT和增強(qiáng)CT圖像的特征穩(wěn)定性進(jìn)行研究,比較有關(guān)因素對(duì)特征的影響,從而為肺部腫瘤的臨床決策提供支持。
同時(shí),病變區(qū)域的精確分割是特征提取的前提。對(duì)感興趣區(qū)的分割是基因組工作流程中至關(guān)重要的步驟之一,因?yàn)榉指畹膮^(qū)域會(huì)在一定程度上決定提取的特征,邊緣模糊不清的腫瘤可能會(huì)降低基于形態(tài)、大小和邊界等特征的穩(wěn)定性。近幾年來(lái),很多分割算法已應(yīng)用到腫瘤區(qū)域的標(biāo)定中,但是目前還沒(méi)有一種通用的、認(rèn)可度較高的分割算法。因此高精度、全自動(dòng)特定腫瘤分割算法將是未來(lái)的發(fā)展趨勢(shì)。
在有限樣本中對(duì)大量的特征進(jìn)行分類(lèi)和預(yù)測(cè),不僅費(fèi)時(shí)耗力,效果也不一定理想。在提取出高通量的影像組學(xué)特征后,需要利用機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行降維和特征選擇,從而構(gòu)建模型。Parmar 等[30-31]研究發(fā)現(xiàn),影像組學(xué)的特征數(shù)量、特征選擇方法及模式識(shí)別分類(lèi)器都會(huì)對(duì)預(yù)測(cè)的準(zhǔn)確率造成一定的影響。因此,更科學(xué)、更準(zhǔn)確的模式識(shí)別和特征選擇方法是未來(lái)影像組學(xué)要突破的難點(diǎn)。
大多數(shù)影像組學(xué)研究是單一機(jī)構(gòu)的小樣本探索,結(jié)論尚未得到大范圍的驗(yàn)證,從而限制了對(duì)其他患者群體、不同類(lèi)型掃描設(shè)備成像的普遍性。我們觀察到,對(duì)以前開(kāi)發(fā)的模型進(jìn)行外部驗(yàn)證[32-33]的研究很少,這可能與大多數(shù)研究所開(kāi)發(fā)的模型不易獲取有關(guān)。此外,小樣本數(shù)據(jù)庫(kù)會(huì)降低其效能并增加過(guò)度擬合數(shù)據(jù)的風(fēng)險(xiǎn)。建立數(shù)據(jù)庫(kù)對(duì)推進(jìn)影像組學(xué)的進(jìn)一步發(fā)展具有重要意義,不同區(qū)域的多中心圖像數(shù)據(jù)共享可作為構(gòu)建標(biāo)準(zhǔn)化、大樣本數(shù)據(jù)庫(kù)的解決方案,并且可以作為用于外部驗(yàn)證的高質(zhì)量數(shù)據(jù)庫(kù)。因此,多中心聯(lián)合研究建立影像組學(xué)數(shù)據(jù)庫(kù)將是科研工作者未來(lái)努力的方向。
影像組學(xué)是對(duì)圖像特征與患者數(shù)據(jù)的提取和關(guān)聯(lián),通過(guò)從不同模態(tài)的影像中提取出高通量的醫(yī)學(xué)影像特征,并采用無(wú)創(chuàng)、定量的方法深入挖掘在體腫瘤多元化、深層次的信息,在一定程度上對(duì)臨床醫(yī)生在腫瘤患者的鑒別診斷、治療方案的選擇及預(yù)后預(yù)測(cè)等方面起著重要作用。影像組學(xué)作為一個(gè)新興的交叉學(xué)科領(lǐng)域,雖然已經(jīng)取得了一些可觀的成果,但目前在圖像采集、特征提取以及數(shù)據(jù)共享等方面還存在一些不足之處,這些問(wèn)題亟待解決,需要國(guó)內(nèi)外廣大研究者的共同努力。相信隨著醫(yī)學(xué)影像學(xué)數(shù)據(jù)的不斷積累和標(biāo)準(zhǔn)化,以及每一步工作流程的不斷優(yōu)化,影像組學(xué)會(huì)快速應(yīng)用于臨床決策,發(fā)展為一種真正意義上的輔助診斷工具,最終實(shí)現(xiàn)精準(zhǔn)醫(yī)療。