文章編號(hào):2096-1472(2022)-02-22-03
DOI:10.19644/j.cnki.issn2096-1472.2022.002.006
摘? 要:本文將影像組學(xué)的方法和機(jī)器學(xué)習(xí)算法結(jié)合起來(lái),對(duì)腦部膠質(zhì)瘤進(jìn)行分級(jí)預(yù)測(cè)。利用BraTS2019公開(kāi)數(shù)據(jù)集,從多模態(tài)MRI圖像中分別提取腫瘤的448 維影像組學(xué)特征:腫瘤形態(tài)學(xué)特征、一階灰度特征、紋理特征等;然后通過(guò)最小絕對(duì)收縮和選擇算子(Lasso)算法篩選出15 個(gè)最佳的影像組學(xué)特征;最后根據(jù)篩選出的最佳特征集,利用隨機(jī)森林分類(lèi)算法構(gòu)建腦部膠質(zhì)瘤的分級(jí)預(yù)測(cè)模型?;跈C(jī)器學(xué)習(xí)建立的模型在訓(xùn)練組患者中預(yù)測(cè)膠質(zhì)瘤級(jí)別的準(zhǔn)確率達(dá)到95.6%,ROC曲線下面積(AUC)達(dá)到0.99;在驗(yàn)證組患者中預(yù)測(cè)膠質(zhì)瘤級(jí)別的準(zhǔn)確率達(dá)到89.3%,AUC達(dá)到0.96??梢?jiàn),基于機(jī)器學(xué)習(xí)算法,利用影像組學(xué)的方法可以對(duì)腦部腫瘤的高低級(jí)別進(jìn)行準(zhǔn)確的預(yù)測(cè)和分類(lèi)。
關(guān)鍵詞:腫瘤分級(jí);影像組學(xué);機(jī)器學(xué)習(xí);隨機(jī)森林
中圖分類(lèi)號(hào):TP39? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Research on Grading Model for Brain Glioma based on?Radiomics and Machine Learning
WANG Junxiu
(Taiyuan Institute of Technology, Taiyuan 030008, China)
wangjx@tit.edu.cn
Abstract: This paper proposes to combine radiomics and machine learning algorithm to classify and predict the brain glioma. Based on BraTS2019 public dataset, 448-dimensional radiomics features of tumors are extracted from multimodal MRI (Magnetic Resonance Imaging) images, including tumor morphological features, first-order grayscale features, and texture features, etc. Then 15 best radiomics features are screened through the least absolute shrinkage and selection operator (Lasso) algorithm. Finally, according to the best screened feature set, the random forest classification algorithm is used to construct the brain glioma grading prediction Model. The accuracy of machine learning-based model is 95.6% and the area under the ROC (AUC) is 0.99 in the training group, and 89.3% and 0.96 in the validation group, respectively. Application of machine learning algorithm and radiomics realizes accurate prediction and classification of brain glioma level.
Keywords: brain glioma grading; radiomics; machine learning; random forest
1? ?引言(Introduction)
腦膠質(zhì)瘤是大腦內(nèi)部最常見(jiàn)的惡性腫瘤,按照世界衛(wèi)生組織的認(rèn)定標(biāo)準(zhǔn),根據(jù)膠質(zhì)瘤的嚴(yán)重和惡性程度可劃分為低級(jí)別膠質(zhì)瘤(Low Grade Glioma, LGG)和高級(jí)別膠質(zhì)瘤(High Grade Glioma, HGG)。低級(jí)別膠質(zhì)瘤為分化良好的膠質(zhì)瘤,預(yù)后效果比較好。高級(jí)別膠質(zhì)瘤為低分化膠質(zhì)瘤,這類(lèi)腫瘤為惡性腫瘤,患者預(yù)后效果不佳。膠質(zhì)瘤的準(zhǔn)確分級(jí)對(duì)患者的診斷、治療方案的設(shè)計(jì)及預(yù)后非常重要。影像組學(xué)研究是一個(gè)計(jì)算機(jī)和醫(yī)學(xué)交叉研究的技術(shù)信息領(lǐng)域,它是指從各種類(lèi)型的醫(yī)學(xué)圖像如CT、MRI、PET中提取高通量的數(shù)據(jù)信息,然后進(jìn)一步地挖掘、分析和預(yù)測(cè),最終可以幫助醫(yī)生做出最準(zhǔn)確的診斷與治療。影像組學(xué)包括獲取圖像、腫瘤區(qū)域分割、影像組學(xué)特征提取和分類(lèi)預(yù)測(cè)模型構(gòu)建等步驟。利用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)的影像組學(xué)已經(jīng)很大程度上提高了醫(yī)學(xué)診斷鑒別及預(yù)后預(yù)測(cè)的準(zhǔn)確性。
本文主要采用影像組學(xué)的方法和機(jī)器學(xué)習(xí)算法來(lái)解決腦部膠質(zhì)瘤分級(jí)預(yù)測(cè)的問(wèn)題。本研究使用了BraTS2019數(shù)據(jù)集中膠質(zhì)瘤患者的術(shù)前MRI影像,采用影像組學(xué)方法提取影像學(xué)特征;然后采用最小絕對(duì)收縮和選擇算子(Least absolute shrinkage and selection operator, Lasso)對(duì)高維特征進(jìn)行降維,篩選出最佳的影像學(xué)特征集;最后根據(jù)所選出的最佳特征集,通過(guò)隨機(jī)森林(Random Forest, RF)算法建立膠質(zhì)瘤高低級(jí)別分類(lèi)模型。用受試者工作特征曲線(Receiver Operating Characteristic Curve, ROC曲線)來(lái)評(píng)價(jià)分類(lèi)器模型的預(yù)測(cè)效果。
2? ?數(shù)據(jù)(Data)
磁共振成像(Magnetic Resonance Imaging, MRI)是大腦疾病診斷和治療過(guò)程中的常規(guī)檢查方法,在軟組織檢查中具有敏感性和卓越的圖像對(duì)比度。常見(jiàn)的頭部MRI影像均包含T1加權(quán)成像、增強(qiáng)T1加權(quán)成像(T1ce)和T2加權(quán)成像,以及液體衰減反轉(zhuǎn)恢復(fù)(Flair)成像等序列。每個(gè)成像序列從不同的方面對(duì)腫瘤病灶進(jìn)行描述,為腦膠質(zhì)瘤診斷研究提供多個(gè)互補(bǔ)信息。
本文使用了BraTS2019數(shù)據(jù)集MRI影像進(jìn)行研究,該數(shù)據(jù)集是2019 年腦部腫瘤分割競(jìng)賽數(shù)據(jù)集(Brain Tumor Segmentation Challenge 2019, BraTS2019),包括76 例低級(jí)別膠質(zhì)瘤MRI影像和259 例高級(jí)別膠質(zhì)瘤MRI影像。數(shù)據(jù)集中包含T1加權(quán)像、增強(qiáng)T1加權(quán)像、T2加權(quán)像和液體衰減反轉(zhuǎn)恢復(fù)序列像四個(gè)模態(tài)的MRI影像,另外每例病人還包括醫(yī)學(xué)專(zhuān)家手工標(biāo)記的腫瘤區(qū)域和腫瘤分級(jí)的情況。所有的影像數(shù)據(jù)都進(jìn)行了圖像預(yù)處理,包括配準(zhǔn)、圖像插值和重采樣等。圖1為BraTS2019數(shù)據(jù)集中一例患者的腦部MRI影像。
數(shù)據(jù)集中每例患者的腫瘤區(qū)域都是由多個(gè)經(jīng)驗(yàn)豐富的醫(yī)生按照相同的標(biāo)注規(guī)范進(jìn)行分割和驗(yàn)證的。腫瘤區(qū)域按照病理一般分為四個(gè)區(qū)域:(1)增強(qiáng)腫瘤核心區(qū)(Enhanced Core);(2)腫瘤周?chē)[區(qū)(Edema);(3)非增強(qiáng)腫瘤核心區(qū)(Non-enhancing Solid Core);(4)壞死區(qū)/囊性核心區(qū)(Necrotic/Cystic Core)。其中(3)和(4)為真實(shí)的膠質(zhì)瘤組織,合并為一個(gè)區(qū)域,簡(jiǎn)稱為NET區(qū)域;增強(qiáng)的腫瘤核心區(qū)域簡(jiǎn)稱為ET區(qū)域;腫瘤周?chē)[區(qū)域簡(jiǎn)稱為ED區(qū)域。圖2為一例患者病灶區(qū)域分割的圖像,其中淺灰色ED區(qū)域,深灰色為NET區(qū)域,白色為ET區(qū)域。
3? ?方法(Methods)
3.1? ?特征提取
本文根據(jù)近幾年研究人員提出的對(duì)腦部膠質(zhì)瘤圖像提取的特征,從四種模態(tài)圖像(T1、T2、T1ce和Flair)的不同病灶區(qū)域中分別提取了腫瘤形態(tài)學(xué)特征、一階特征及紋理特征,共計(jì)448 個(gè)影像組學(xué)特征,每種類(lèi)型的特征從不同的方面對(duì)圖像進(jìn)行描述,解析了圖像的隱含特點(diǎn)。(1)腫瘤形態(tài)學(xué)特征:提取腫瘤原始空間的三維特征,可以量化腫瘤的形狀和大小。(2)一階灰度特征:由感興趣區(qū)域影像特征值直方圖計(jì)算而來(lái),可以定量地描述圖像的信號(hào)強(qiáng)度分布。(3)紋理特征:可以對(duì)腦膠質(zhì)瘤內(nèi)異質(zhì)性進(jìn)行定量刻畫(huà)。紋理特征包括:灰度共生矩陣紋理特征(GLCM)、灰度相關(guān)矩陣紋理特征(GLDM)、灰度游程矩陣紋理特征(GLRLM)、灰度區(qū)域大小矩陣紋理特征(GLSZM)、鄰域灰度差矩陣紋理特征(NGTDM)。
3.2? ?特征選擇
本文主要通過(guò)采用L1正則化Lasso回歸分析模型來(lái)進(jìn)行最佳特征篩選。Lasso是一種用于變量壓縮和估計(jì)的方法,它可以有效地將高維變量降到十幾維甚至更少,同時(shí)不影響模型的預(yù)測(cè)能力。目前Lasso算法已經(jīng)被廣泛應(yīng)用在高維數(shù)據(jù)的降維和回歸分析中,特別是影像組學(xué)的特征工程領(lǐng)域。本文采用Lasso回歸模型選擇出和膠質(zhì)瘤高低級(jí)別最相關(guān)的影像組學(xué)特征。簡(jiǎn)單線性回歸模型的定義如下:
為了去掉冗余的特征,本文采用正則方法進(jìn)行特征壓縮。當(dāng)特征維度是2時(shí),我們可以直接在平面上繪制出目標(biāo)函數(shù)的等高線,而取值范圍是平面上半徑為的范數(shù)圓,等高線與范數(shù)圓的交點(diǎn)就是最優(yōu)解。而更高維的情況下,等高線與范數(shù)球的交點(diǎn)除了角點(diǎn)之外還可能在很多邊的輪廓線上,同樣具有稀疏性。
3.3? ?分級(jí)預(yù)測(cè)模型的構(gòu)建
基于篩選出的影像組學(xué)特征和隨機(jī)森林構(gòu)建模型。隨機(jī)森林算法是一種通過(guò)采用Bagging的算法將多個(gè)無(wú)關(guān)聯(lián)的決策樹(shù)組合在一起,以投票機(jī)制進(jìn)行分類(lèi)的有監(jiān)督學(xué)習(xí)算法。隨機(jī)森林算法的泛化能力強(qiáng),分類(lèi)性能比較好,廣泛應(yīng)用于各種分類(lèi)任務(wù)中。
決策樹(shù)是一種樹(shù)形結(jié)構(gòu)的分類(lèi)器。在構(gòu)建決策樹(shù)時(shí),樹(shù)中的每個(gè)節(jié)點(diǎn)都要選擇最優(yōu)的特征對(duì)當(dāng)前樣本進(jìn)行分類(lèi),直到?jīng)Q策樹(shù)能夠滿足所需要的建樹(shù)停止的條件。當(dāng)把一個(gè)樣本輸入決策樹(shù)中時(shí),可以自動(dòng)確定一條從根節(jié)點(diǎn)開(kāi)始到葉節(jié)點(diǎn)的唯一路徑,最后葉節(jié)點(diǎn)也就是這個(gè)樣本的類(lèi)別。隨機(jī)森林中構(gòu)建的每一棵決策樹(shù)都可以是一個(gè)分類(lèi)器,當(dāng)把一個(gè)樣本輸入隨機(jī)森林中時(shí),M 棵決策樹(shù)會(huì)得到M 個(gè)分類(lèi)結(jié)果,根據(jù)所有決策樹(shù)的分類(lèi)結(jié)果,把次數(shù)最高的類(lèi)別作為最終分類(lèi)結(jié)果。本文中隨機(jī)森林算法按照腦部膠質(zhì)瘤高低級(jí)別的分布情況進(jìn)行隨機(jī)抽樣。模型訓(xùn)練的過(guò)程中可采用并行方法,這樣使得模型訓(xùn)練速度快。
決策樹(shù)的深度直接影響隨機(jī)森林分類(lèi)器模型的性能,如果決策樹(shù)的深度過(guò)大會(huì)導(dǎo)致分類(lèi)模型過(guò)擬合,而決策樹(shù)的深度過(guò)小又會(huì)導(dǎo)致分類(lèi)模型欠擬合。決策樹(shù)的數(shù)量也會(huì)影響隨機(jī)森林的分類(lèi)準(zhǔn)確率。在實(shí)現(xiàn)過(guò)程中,采用TPOT(Tree-based Pipeline Optimization Tool)框架實(shí)現(xiàn)隨機(jī)森林的自動(dòng)機(jī)器學(xué)習(xí),以確定最優(yōu)的決策樹(shù)個(gè)數(shù)和決策樹(shù)深度。TPOT框架是由美國(guó)賓夕法尼亞大學(xué)自主研究和設(shè)計(jì)開(kāi)發(fā)的一個(gè)自動(dòng)機(jī)器學(xué)習(xí)的技術(shù)框架。它是一種基于遺傳算法的Python自動(dòng)機(jī)器學(xué)習(xí)工具。TPOT能夠進(jìn)行自動(dòng)算法選擇、自動(dòng)參數(shù)優(yōu)化,為當(dāng)前數(shù)據(jù)集找到最優(yōu)的算法及其參數(shù)。
4? ?結(jié)果(Results)
將BraTS2019數(shù)據(jù)集的335 例膠質(zhì)瘤患者隨機(jī)分為訓(xùn)練集(75%)和驗(yàn)證集(25%)。每個(gè)MRI模態(tài)提取112 個(gè)特征,包括19 個(gè)腫瘤形態(tài)學(xué)特征、18 個(gè)一階灰度特征及75 個(gè)紋理特征,四個(gè)模態(tài)共提取448 個(gè)影像組學(xué)特征。448 個(gè)影像組學(xué)特征的Lasso系數(shù)分布如圖3所示。
使用Lasso回歸模型對(duì)448 個(gè)影像組學(xué)特征進(jìn)行壓縮,通過(guò)交叉驗(yàn)證和二項(xiàng)式偏差最小化確定Lasso回歸模型中懲罰系數(shù)λ的最優(yōu)值,如圖4所示。同時(shí)篩選出系數(shù)非零的最佳特征變量,如表1所示,共篩選出15 個(gè)最佳影像組學(xué)特征。
本文采用TPOT框架實(shí)現(xiàn)隨機(jī)森林分類(lèi)模型的自動(dòng)機(jī)器學(xué)習(xí),從而確定最優(yōu)的隨機(jī)森林分類(lèi)器參數(shù):決策樹(shù)的最大深度(max_depth)為9,基學(xué)習(xí)器的個(gè)數(shù)(n_estimators)為100?;?5 個(gè)最優(yōu)的影像組學(xué)特征,通過(guò)TPOT構(gòu)建的隨機(jī)森林分類(lèi)器來(lái)預(yù)測(cè)膠質(zhì)瘤高低級(jí)別,在訓(xùn)練組患者中預(yù)測(cè)膠質(zhì)瘤級(jí)別的準(zhǔn)確率達(dá)到95.6%,在驗(yàn)證組患者中預(yù)測(cè)膠質(zhì)瘤級(jí)別的準(zhǔn)確率達(dá)到89.3%。繪制ROC曲線來(lái)評(píng)價(jià)分級(jí)模型,訓(xùn)練組的曲線下面積AUC為0.99,驗(yàn)證組的AUC為0.96。ROC曲線如圖5所示。
5? ?結(jié)論(Conclusion)
本文采用影像組學(xué)的方法和機(jī)器學(xué)習(xí)算法對(duì)腦部膠質(zhì)瘤進(jìn)行高低級(jí)別分級(jí)預(yù)測(cè)。從MRI影像的四個(gè)模態(tài)上提取了一系列膠質(zhì)瘤的影像組學(xué)特征,使用Lasso回歸模型進(jìn)行篩選,得到和膠質(zhì)瘤級(jí)別密切相關(guān)的最佳影像組學(xué)特征集,并基于所選的特征建立了隨機(jī)森林分類(lèi)器的預(yù)測(cè)模型。我們發(fā)現(xiàn),該模型在訓(xùn)練組和驗(yàn)證組中均實(shí)現(xiàn)了膠質(zhì)瘤高低級(jí)別的有效預(yù)測(cè)。
參考文獻(xiàn)(References)
[1] MORGAN L L. The epidemiology of glioma in adults: a "state of the science" review[J]. Neuro-Oncology, 2015, 17(4):623-624.
[2] LOUIS D N, PERRY A, REIFENBERGER G, et al. The 2016 world health organization classification of tumors of the central nervous system: A summary[J]. Acta Neuropathologica, 2016, 131(6):803-820.
[3] JANG K, RUSSO C, IEVA A D. Radiomics in gliomas: Clinical implications of computational modeling and fractal-based analysis[J]. Neuroradiology, 2020, 62(7):771-790.
[4] LAMBIN P, RIOS-VELAZQUEZ E, LEIJENAAR R, et al. Radiomics: Extracting more information from medical images using advanced feature analysis[J]. European Journal of Cancer, 2012, 48(4):441-446.
[5] YIP S S, AERTS H J. Applications and limitations of radiomics[J]. Physics in Medicine and Biology, 2016, 61(13):150-166.
[6] FOUKE S J, BENZINGER T, GIBSON D, et al. The role of imaging in the management of adults with diffuse low grade glioma: A systematic review and evidence-based clinical practice guideline[J]. Journal of Neuro Oncology, 2015, 125(3):457-479.
[7] 賈穎,杜學(xué)松,陳君輝,等.基于常規(guī)MRI的定量影像學(xué)特征用于膠質(zhì)瘤分級(jí)診斷[J].中國(guó)醫(yī)學(xué)影像技術(shù),2018,034(008):1137-1142.
[8] MENZE B H, JAKAB A, BAUER S, et al. The multimodal brain tumor image segmentation benchmark (BRATS)[J]. IEEE Transactions on Medical Imaging, 2015, 34(10):1993-2024.
[9] HARALICK R M, SHANMUGAM K, DINSTEIN I. Textural features for image classification[J]. Studies in Media and Communication, 1973, 3(6):610-621.
[10] SUN C, WEE W G. Neighboring gray level dependence matrix for texture classification[J]. Computer Vision Graphics and Image Processing, 1983, 23(3):341-352.
[11] GALLOWAY M. Texture analysis using gray level run lengths[J]. Computer Graphics and Image Processing, 1975, 4(2):172-179.
[12] THIBAULT G, ANGULO J, MEYER F. Advanced statistical matrices for texture characterization: Application to cell classification[J]. IEEE Transactions on Biomedical Engineering, 2014, 61(3):630-637.
[13] AMADASUN M, KING R. Textural features corresponding to textural properties[J]. IEEE Transactions Systems, Man, and Cybernetics, 1989, 19(5):1264-1274.
[14] TIBSHIRANI R. Regression shrinkage and selection via the lasso: A retrospective[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2011, 73(3):267-288.
[15] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1):5-32.
[16] 王奕森,夏樹(shù)濤.集成學(xué)習(xí)之隨機(jī)森林算法綜述[J].信息通信技術(shù),2018(1):51-57.
[17] OLSON R S, MOORE J H. TPOT: A tree-based pipeline optimization tool for automating machine learning[C]// HUTTER F, KOTTHOFF L, VANSCHOREN J. Automatic Machine Learning. Cham: Springer, 2016, 64:66-74.
作者簡(jiǎn)介:
王俊秀(1987-),女,博士生,講師.研究領(lǐng)域:圖像處理,人工智能,醫(yī)學(xué)圖像.
2789500520331