樊知昌,夏雨薇,甄俊平,周宇堃,靳波,邊文瑾,楊潔
宮頸癌是全球女性第四大常見癌癥,同時也是導致女性癌癥死亡的第四大原因,2018年全世界范圍內(nèi)共有51萬宮頸癌患者與31.1 萬死亡病例;而在發(fā)展中國家,宮頸癌的發(fā)生率與死亡率在女性群體中僅次于乳腺癌[1]。高級別鱗狀上皮內(nèi)病變(high-gr ade squamous intr aepit hel ial l esion,HSIL)被認為是宮頸癌的癌前病變,ⅠA期宮頸癌則是只有鏡檢才能確診的早期宮頸癌[2-3]。兩者的術式大相徑庭,HSIL以宮頸錐切為主,ⅠA期宮頸癌原則上需行子宮全切術(ⅠA1期行筋膜外子宮全切術,ⅠA2期行改良廣泛性子宮切除術及盆腔淋巴結(jié)清掃)[4-5]。因此,術前準確識別疾病所處階段對手術方式及范圍的選擇有著重大的意義。然而,ⅠA期宮頸癌與HSIL在MRI圖像上病灶范圍往往較局限,肉眼常難以識別,導致常規(guī)的MRI圖像對兩者識別價值有限。近年來,隨著影像組學研究的興起,圖像所反映的信息不再局限于形態(tài)的改變,其背后所蘊含的數(shù)據(jù)潛力被逐步挖掘并利用。影像組學技術作為醫(yī)學圖像分析最近的一次創(chuàng)新,可以高通量地從醫(yī)學圖像中提取定量特征,從而將視覺層面的圖像轉(zhuǎn)化為可供計算的數(shù)據(jù)[6-8]。將影像組學提取到的數(shù)據(jù)與機器學習相結(jié)合,分析肉眼難以識別的宮頸病變已經(jīng)得到諸多實踐[9]。本研究利用磁共振圖像提取宮頸的組學特征,結(jié)合隨機森林算法(r andom f or est,RF)建立機器學習模型,探討影像組學技術在區(qū)分ⅠA期宮頸癌與HSIL中的作用。
回顧性分析2019年1月至2020年11月于山西醫(yī)科大學第二醫(yī)院婦產(chǎn)科接受手術治療的94例宮頸腫瘤患者,年齡23~82(49.9 ±12.1 )歲。51例HSIL患者,43例ⅠA期宮頸癌。納入標準:①經(jīng)術中或術后病理證實的HSIL或ⅠA期宮頸癌;②術前未接受過任何治療;③術前于本院行MRI檢查,圖像質(zhì)量良好,無明顯偽影。排除標準:①存在宮頸納囊;②存在宮頸肌瘤或低位子宮肌瘤累及宮頸肌層;③宮頸或陰道上部存在先天畸形。本研究經(jīng)過本單位醫(yī)學倫理委員會批準(批準文號:2021YXD024),免除受試者知情同意。
圖像由3.0 T MR設備(GE Discover y Sil ent 750W)使用體線圈掃描獲得,OSag-T2WI(Propel l er序列,TR 4390 ms,TE 90 ms),層厚4 mm,層間距1 mm,視野260 mm×260 mm,矩陣320×320;OAx-T1WI(FSE序列,TR 810 ms,TE 9 ms)與OAx-T2FS(Pr opel l er序列,TR 4530 ms,TE 80 ms),層厚5 mm,層間距1 mm,視野260 mm×260 mm,矩陣384×384;圖像數(shù)據(jù)以DICOM格式進行拷貝(抹除患者隱私)。
使用Pyt hon(3.8 版本)中的Simpl e ITK軟件包對拷貝的圖像進行預處理。N4偏置場校正被用來消除局部磁場不均勻造成的灰度差異;重采樣使用線性插值算法和最近鄰插值算法,達到體素大小均一和各向同性。將預處理完成的圖像上傳至影像組學云平臺(慧影醫(yī)療科技有限公司,北京)。影像組學處理流程圖如圖1,將整個宮頸區(qū)域作為ROI,由兩名年資5年以上具有豐富盆腔閱片經(jīng)驗的醫(yī)師在不知曉病理結(jié)果的情況下協(xié)商勾畫,分別于矢狀位、軸位沿宮頸邊界逐層勾畫,最終融合成VOI。在矢狀位勾畫時,從一側(cè)宮頸出現(xiàn)的第二層勾畫至對側(cè)宮頸消失的前一層,并在宮頸外口處沿邊界外2 mm區(qū)域勾畫;在軸位勾畫時,從上方宮頸出現(xiàn)的第二層勾畫至宮頸消失的后一層。
圖1 影像組學處理流程圖Fig.1 Radiomicsprocessing flowchart.
對VOI中包括一階特征(f ir st or der)、形狀特征(shape)、紋理特征以及高階特征在內(nèi)的1409個組學特征進行提取。其中,紋理特征包括灰度相關矩陣(gr ay l evel dependence mat r ix,GLDM)、灰度共生矩陣(gr ay l evel co-occurr ence mat r ix,GLCM)、灰度區(qū)域矩陣(gray l evel size zone matrix,GLSZM)、灰度游程矩陣(gr ay l evel run l engt h mat rix,GLRLM)以及相鄰灰度差分矩陣(neighbour ing gr ay t one dif f er ence mat r ix,NGTDM);高階特征則是對一階特征、形狀特征以及紋理特征進行對數(shù)(l ogar ithm)、指 數(shù)(index)、梯 度(gr adient)、平 方(squar e)、平方根(squar e r oot)以及小波變換(wavel et),其中,wavel et又包含LLL、LLH、LHL、HLL、LHH、HLH、HHL以及HHH 8種信號。
依次采用方差閾值分析法(Variance Threshol d)、單變量特征選擇法(Sel ect KBest)以及最小絕對值收縮和選擇法(l east absol ut e shr i nkage and sel ect ion oper at or,LASSO)回歸對數(shù)據(jù)進行降維、選擇。其中,Variance Threshol d選擇閾值>0.8 0的特征,Sel ect KBest選擇P<0.0 5的特征,LASSO回歸依據(jù)最佳al pha時的系數(shù),選擇最有價值的特征。
使用RF模型,將各個序列經(jīng)LASSO回歸篩選后的特征值納入計算。按照4∶1的比例設置訓練集(ⅠA=34,HSIL=41)與測試集(ⅠA=9,HSIL=10)?;贠Sag-T2WI、OAx-T1WI、OAx-T2FS以 及OSag-T2WI&OAx-T2FS提取到的特征值,建立4個RF模型,繪制測試集ROC曲線,檢驗模型診斷效能。選擇最佳截斷點(約登指數(shù)最大)處的特異度和敏感度。
影像組學特征篩選的具體結(jié)果見圖2~5?;贠Sag-T2WI共提取到8個組學特征,均為小波特征,其中7個紋理特征,1個一階特征;基于OAx-T1WI共提取到10個組學特征,其中6個小波一階特征,2個梯度一階特征,2個小波紋理特征;基于OAx-T2FS提取到6個組學特征,包括3個小波紋理特征,2個原始形狀特征,1個對數(shù)一階特征;基于OSag-T2WI&OAx-T2FS提取到9個組學特征,4個來自于OSag-T2WI,5個來自OAx-T2FS。
圖2 基于OSag-T2WI的組學特征 圖3 基于OAx-T1WI的組學特征 圖4 基于OAx-T2FS的組學特征 圖5 基于OSag-T2WI&OAx-T2FS的組學特征圖6隨機森林測試集ROC曲線。A:OSag-T2WI;B:OAx-T1WI;C:OAx-T2FS;D:OSag-T2WI&OAx-T2FSFig.2 Radiomics features from Osag-T2WI.Fig.3 Radiomics features from OAx-T1WI.Fig.4 Radiomics features from OAx-T2FS.Fig.5 Radiomics featuresfrom Osag-T2WI&OAx-T2FS.Fig.6 ROCcurveof RFmodels.A:OSag-T2WI;B:OAx-T1WI;C:OAx-T2FS;D:OSag-T2WI&OAx-T2FS.
4個隨機森林模型診斷效能見表1,ROC曲線見圖6,基于OSag-T2WI&OAx-T2FS的組學模型診斷效能在訓練集與測試集中表現(xiàn)均最佳:訓練集AUC為0.9 9,95%CI(0.9 3,1.0 0),準確率為0.9 25;測試集AUC為0.8 9,95%CI(0.7 4,1.0 0),準確率為0.8 35,而基于OAx-T1WI的組學模型診斷效能在訓練集與測試集中表現(xiàn)均最差,訓練集AUC為0.7 1,95%CI(0.5 1,0.9 1),準確率為0.7 1;測試集AUC為0.5 1,95%CI(0.2 3,0.7 8),準確率為0.5 6,不具有實際臨床意義。
表1 不同序列隨機森林模型診斷效能Tab.1 The diagnostic performance of RFmodels in different sequences
早期識別宮頸病變,意義重大,不僅可以挽救患者的生命,而且可以最大限度地保留患者的生殖功能。目前,針對ⅠA期宮頸癌與HSIL,仍采用宮頸細胞學檢查與高危型人類乳頭瘤病毒(human papil l omavir us,HPV)DNA檢測、陰道鏡檢及宮頸活組織檢查的“三階梯”程序[10]。尚沒有一種無創(chuàng)的檢查方法可以將兩者區(qū)分開來。傳統(tǒng)的MRI對于超過ⅠA期的宮頸病變,可以評估病灶的浸潤范圍、淋巴結(jié)的受累情況以及遠處轉(zhuǎn)移情況,從而幫助分期[11-12]。但是,對于ⅠA期宮頸癌與HSIL,反映在圖像上的改變往往是毫米級乃至亞毫米級,人眼的識別存在較大誤差。影像組學與人工智能相結(jié)合,可以發(fā)現(xiàn)肉眼無法識別的微小差異,無創(chuàng)且方便,患者依從性較好,是具有實際研究意義的。
ⅠA期宮頸癌是浸潤深度小于5 mm的病變,HSIL的病變范圍則更加局限,肉眼很難在MRI圖像上觀察到兩者的存在。因此,將宮頸作為ROI進行勾畫。為了防止提取到過多的非強特征干擾建模,在矢狀位進行勾畫時,勾畫層面剔除了左右兩側(cè)宮頸開始出現(xiàn)的層面,因為這兩層往往含有較多的宮旁組織,會產(chǎn)生容積效應,同理,在軸位進行勾畫時,剔除了上方宮頸與子宮交界區(qū)的層面;與此同時,鑒于宮頸癌的好發(fā)部位為宮頸外口的黏膜轉(zhuǎn)換區(qū)[3],為了最大限度地將病灶納入ROI中,在矢狀位勾畫時,宮頸外口處將勾畫至邊界外2 mm區(qū)域(其余部分均沿宮頸邊界勾畫),而軸位則勾畫至下方宮頸消失后一層面。這樣分割,既可以在肉眼難以識別病灶所在的情況下盡可能地將其納入ROI中,又可以減少因勾畫區(qū)域過大產(chǎn)生的計算負擔。最終生成的VOI作為三維圖像,可以更加全面地反映組織的異質(zhì)性,提高模型的診斷效能[13]。
小波變換是在繼承短時傅里葉局部變化的思想基礎上發(fā)展而來的一種變換分析方法,是對時間(空間)頻率的局部化分析,可達到高頻處時間細分,低頻處頻率細分,從而實現(xiàn)對信號細節(jié)的任意聚焦,有數(shù)學顯微鏡之稱。近年來,小波變換被廣泛應用于醫(yī)學圖像處理與信號分析,Liu等[14]在使用MRI組學模型預測直腸癌化療效果時發(fā)現(xiàn),超過90%的特征為小波特征,與本實驗的結(jié)果相似,同時他們發(fā)現(xiàn)與前人的實驗相比,高階變換特征的加入使得分類模型的診斷效能有所提升,AUC達到了0.9 7,經(jīng)小波變換后的紋理特征更能反映腫瘤的異質(zhì)性。
在本研究中,基于OAx-T1WI特征值建立的隨機森林模型的訓練集、測試集的AUC值均不理想,測試集AUC僅有0.5 1,等同于隨機猜測,不具有鑒別價值,筆者推測是成像序列和特征值類型導致了模型的欠擬合。Roy等[13]采集了乳腺癌患者三組不同分辨率下的T1WI與T2WI圖像,并以此為基礎生成了多組不同信噪比的MRI圖像,經(jīng)過比較發(fā)現(xiàn),基于T1WI序列的組學特征值相比于T2WI更容易受到信噪比變化的影響。本實驗中基于OAx-T1WI提取到的10個組學特征值中,80%均為一階特征。一階特征是簡單統(tǒng)計特征,將VOI轉(zhuǎn)換為單個直方圖來描述體素強度的分布,并從中導出如能量(Ener gy)、熵(Ent r opy)、灰度值范圍(Range)以及灰度值偏斜度(Skewness)等特征值。這些特征值簡單且容易提取,但是可靠性不如紋理特征。Wu等[15]的實驗也證實了這一點,在他們的實驗中,雖然Ent r opy、標準攝取值峰度(st andar dized upt ake val ue peak,SUVpeak)等一階特征在早、晚期宮頸癌中存在差異,但基于其建立的支持向量機(suppor t vect or machine,SVM)模型AUC值均低于紋理特征,SUVpeak的AUC(0.6 25)是所有特征值中最低的。綜上所述,筆者認為基于OAx-T1WI序列提取到的一階特征值可能并非強特征,會導致模型的欠擬合,因此未采用OAx-T1WI構(gòu)建聯(lián)合分析模型。
紋理特征是由不同的描述性矩陣提取而來,可以反映給定圖像不同體素之間相關性并捕獲相鄰體素之間的空間關系,因而在研究組織異質(zhì)性方面有著重要的價值[16]。在本實驗中,紋理特征值主要來自以下3組:GLDM描述了以某個體素為中心,距其特定距離內(nèi)灰度值相似的體素個數(shù),是表示周圍相關性的矩陣[17-18];GLRLM則定義了不同方向具有相同灰度值的連續(xù)體素的長度,反映了圖像紋理的粗細及均勻程度[19-20];GLSZM是量化圖像中灰度區(qū)域的特征,可以衡量圖片中體素灰度分布的均一性,是醫(yī)學影像研究中使用頻率較高的一組紋理特征。在此之前,尚未有人利用組學模型對ⅠA期宮頸癌與HSIL進行預測,Wu等[15]按照FIGO分期將宮頸癌分為早期(ⅠB期與Ⅱ期)和晚期(Ⅲ期和Ⅳ期)兩組,基于GLRLM的SVM模型AUC(0.8 8)最高,GLSZM(AUC=0.7 64)則稍次之,與之不同的是在本實驗中最理想的模型(AUC=0.8 9)紋理特征主要來自GLSZM。目前為止,已經(jīng)從經(jīng)驗上驗證了灰度級量化的程度對于紋理分類性能有著重要的影響,因此GLSZM相較于GLDM與GLRLM,在表征紋理一致性、非周期性或斑點狀紋理方面效果更顯著,并且在對細胞核和PET影像紋理方面有更好的性能[21-22]。除了可以用來預測分期,GLRLM還被證明可以用來預測宮頸癌的術后復發(fā)[23],有趣的是有研究發(fā)現(xiàn)[24]GLRLM在宮頸癌的組學特征中可重復性較低,不具有可靠性,Roy等[13]的實驗似乎也印證了這一點,他們認為GLRLM是對信噪比變化最為敏感的紋理特征,目前尚無統(tǒng)一定論。
本研究所篩選的特征值中還包括GLDM,但是尚未在既往的文獻中發(fā)現(xiàn)其與宮頸癌分期相關,筆者推測與ROI的勾畫方式有關。HSIL與ⅠA期宮頸癌的浸潤性不同,前者局限于上皮層內(nèi),尚未突破基底膜,而后者則突破基底膜向間質(zhì)層浸潤,兩者病灶邊緣的過渡區(qū)存在根本差異,而GLDM正是表示中心體素與周圍體素相關性的矩陣。郭冉等[25]發(fā)現(xiàn)GLDM是預測子宮內(nèi)膜癌肌層浸潤的重要特征,Yu等[26]也發(fā)現(xiàn)GLDM與乳腺癌腫瘤組織的Ki-67表達水平高度相關,而Ki-67與腫瘤的生長浸潤以及淋巴結(jié)轉(zhuǎn)移密切相關。既往的實驗往往更關注病灶本身,而忽略了其與正常組織間的關系,本實驗的ROI范圍較廣,可以全面反映病灶周邊的紋理特征。
第一,由于病種的特殊性,本研究的ROI相對過大,可能會造成模型的欠擬合,下一步將尋找新的分割方法,進一步優(yōu)化模型;第二,本研究的樣本量尚不足,且由于臨床中ⅠA期的宮頸癌患者少見,ⅠA期與HSIL兩組數(shù)據(jù)不平衡,需要繼續(xù)擴大樣本容量、平衡兩組數(shù)據(jù)進行多中心研究,以改進模型的診斷效能;第三,由于術前接受增強MRI掃描的患者有限,所以本研究只使用了平掃圖像來提取特征,仍需繼續(xù)收集增強圖像,觀察其影像組學特征在鑒別ⅠA期宮頸癌與HSIL中的作用。
綜上所述,基于MRI的影像組學隨機森林模型可以較好地在沒有明確病灶的情況下區(qū)分ⅠA期宮頸癌與HSIL,對于術前減少侵入性檢查與指導術式有著一定的意義。
作者利益沖突聲明:全體作者均聲明無利益沖突。