• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      整合影像組學(xué)和基因組學(xué)構(gòu)建腎透明細(xì)胞癌腫瘤分級預(yù)測模型

      2023-08-21 08:36:28田占雨李霞李永生陳家齊
      海南醫(yī)學(xué) 2023年15期
      關(guān)鍵詞:基因組學(xué)組學(xué)分級

      田占雨,李霞,李永生,陳家齊

      海南醫(yī)學(xué)院生物醫(yī)學(xué)信息與工程學(xué)院,海南 ???571199

      腎透明細(xì)胞癌(clear cell renal carcinoma,CCRCC)占腎細(xì)胞癌的75%~80%,是惡性程度高,預(yù)后差,死亡率最高的亞型[1]。世界衛(wèi)生組織/國際泌尿病理學(xué)會(huì)(World Health Organization/International Society of Urological Pathology,WHO/ISUP)根據(jù)核仁突出情況對CCRCC 進(jìn)行了分級(I級、Ⅱ級、Ⅲ級、Ⅳ級),隨后根據(jù)預(yù)后結(jié)局進(jìn)一步將患者分為低級別組(I級、Ⅱ級)和高級別組(Ⅲ級、Ⅳ級)[2-3]?,F(xiàn)階段對腫瘤分級主要依靠經(jīng)皮穿刺活檢,需要面臨出血、氣胸以及針道轉(zhuǎn)移等并發(fā)癥的風(fēng)險(xiǎn)。因此,需要一種非侵入性的方法協(xié)助判斷CCRCC的腫瘤分級。隨著醫(yī)學(xué)影像成像技術(shù)的發(fā)展以及高通量基因組學(xué)技術(shù)的進(jìn)步,影像基因組學(xué)應(yīng)運(yùn)而生。影像基因組學(xué)是一個(gè)多學(xué)科交叉的新興領(lǐng)域,是影像組學(xué)和基因組學(xué)的有機(jī)結(jié)合。在之前的研究中,Celli等[4]結(jié)合了影像組學(xué)與基因組學(xué),利用多元邏輯回歸算法構(gòu)建機(jī)器學(xué)習(xí)模型,該模型在鑒別診斷低風(fēng)險(xiǎn)子宮內(nèi)膜癌方面有著出色的分類能力。馬佳琪等[5]通過結(jié)合影像基因組學(xué)信息,在診斷結(jié)直腸癌肝轉(zhuǎn)移、預(yù)測患者預(yù)后和治療敏感性等方面顯示出獨(dú)特的優(yōu)勢。將預(yù)測模型用于臨床實(shí)踐為個(gè)性化治療帶來顯著優(yōu)勢,可以減少患者后續(xù)治療的時(shí)間成本,并為制定臨床治療方案和改善患者總體生存率提供了指導(dǎo)和新的見解。然而,針對惡性程度較高的CCRCC的腫瘤分級仍然具有挑戰(zhàn)性。

      本研究以影像基因組學(xué)為切入點(diǎn),通過結(jié)合醫(yī)學(xué)影像和多組學(xué)數(shù)據(jù)識別不同水平的特征,基于機(jī)器學(xué)習(xí)算法構(gòu)建多種預(yù)測模型,并結(jié)合各類算法優(yōu)勢,篩選最優(yōu)特征組合以達(dá)到準(zhǔn)確預(yù)測CCRCC腫瘤分級的目的。相較于之前的研究,本研究構(gòu)建的復(fù)合型模型取得了更優(yōu)的分類效能。此外,進(jìn)一步探討了多組學(xué)水平特征基因的功能,挖掘基因在CCRCC 中的潛在臨床價(jià)值。

      1 資料與方法

      1.1 一般資料 CCRCC患者的醫(yī)學(xué)影像數(shù)據(jù)來源于TCIA 數(shù)據(jù)庫(The Cancer Imaging Archive,version 3:Updated 2020/05/29),按照入組標(biāo)準(zhǔn)進(jìn)行篩選。入組標(biāo)準(zhǔn):(1)經(jīng)病理診斷確診為CCRCC;(2)CT 增強(qiáng)掃描皮質(zhì)期與髓質(zhì)期期相準(zhǔn)確且完整;(3)圖像中未出現(xiàn)各類偽影;(4)具備合適的信噪比。符合入組標(biāo)準(zhǔn)的樣本共197 例。CCRCC 患者的多組學(xué)數(shù)據(jù)來源于TCGA數(shù)據(jù)庫(The Cancer Genome Atlas Program-NCI,2017年)。數(shù)據(jù)集包含了530例患者的基因組和轉(zhuǎn)錄組信息,基因表達(dá)水平為每千個(gè)堿基的轉(zhuǎn)錄每百萬映射讀取的片段數(shù)(fragment per kilobase method,F(xiàn)PKM)。通過比對注釋文件,獲得了16 769個(gè)編碼基因的表達(dá)譜數(shù)據(jù)和12 903個(gè)基因的遺傳變異數(shù)據(jù)。最后從數(shù)據(jù)集中篩選出同時(shí)具有醫(yī)學(xué)影像數(shù)據(jù)和多組學(xué)數(shù)據(jù)的樣本,包含了197例患者。隨后本研究按照2016年WHO/ISUP簡化分級將I期、II期定義為“低級別組(stage 0)”,III期、IV期定義為“高級別組(stage 1)”。

      1.2 影像組學(xué)數(shù)據(jù)提取及預(yù)測模型構(gòu)建 基于醫(yī)學(xué)影像數(shù)據(jù)利用ITK-SNAP軟件半自動(dòng)形式確定原發(fā)灶邊界,其中窗寬窗位預(yù)設(shè)為腹部窗(level:40 HU;window:600 HU)。隨后應(yīng)用Python軟件(version 3.8)中“Pyradiomics”庫提取影像組學(xué)特征[6],參數(shù)設(shè)定如下:箱寬(bin-width)為25;重采樣像素間距(Pixel Spacing)為3 mm×3 mm×3 mm;內(nèi)插程序選擇最近鄰。提取出的影像特征主要包含7 個(gè)類別維度,形狀特征(shape-based)、一階特征(first-order)、灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)、灰度區(qū)域大小矩陣(Gray Level Size Zone Matrix,GLSZM)、灰度行程矩陣(Gray Level Run-Length Matrix,GLRLM)、鄰域灰度差矩陣特征(Neighbouring Gray Tone Difference Matrix,NGTDM)和灰度依賴矩陣(Gray Level Dependence Matrix,GLDM)。

      1.3 識別與CCRCC 相關(guān)的轉(zhuǎn)錄組和基因組特征 在轉(zhuǎn)錄組數(shù)據(jù)集中,由于FPKM 值包含不同數(shù)量級,為避免表達(dá)值相差過大而對模型產(chǎn)生不良影響,本研究進(jìn)行了數(shù)據(jù)的歸一化,使基因表達(dá)譜數(shù)據(jù)局限在相同數(shù)量級范圍內(nèi)。由于轉(zhuǎn)錄組水平和基因組水平的數(shù)據(jù)形式不同,本研究分別進(jìn)行了差異分析,以篩選在不同CCRCC腫瘤分級之間顯著差異表達(dá)或突變的特征基因。

      1.4 基因功能富集分析 為發(fā)掘在CCRCC腫瘤分級中顯著差異表達(dá)的特征基因的潛在信息,探索基因的生物學(xué)功能以及腫瘤的生物學(xué)行為,本研究使用R 編程軟件中“clusterProfiler”包中的“enrichGO”功能進(jìn)行功能富集分析。對于富集分析得到的生物學(xué)功能,進(jìn)一步篩選出至少包含3 個(gè)重合基因的顯著富集的功能(count>3,P-value<0.05)。隨后使用R“simplify-Enrichment”包中的“GO_similarity”功能進(jìn)行語義相似性計(jì)算,將相似的GO術(shù)語進(jìn)行聚類。最后使用“simplifyGO”功能對功能富集聚類結(jié)果進(jìn)行可視化。

      1.5 構(gòu)建CCRCC腫瘤分級預(yù)測模型 本研究基于單一組學(xué)特征和聯(lián)合多組學(xué)特征,并結(jié)合不同的機(jī)器學(xué)習(xí)算法構(gòu)建了針對CCRCC 腫瘤分級的預(yù)測模型。主要基于支持向量機(jī)算法(Support Vector Machine,SVM)、邏輯回歸算法(Logistic Regression,LR)、隨機(jī)森林算法(Random Forest,RF)以及極端梯度提升算法(Extreme Gradient Boosting,XGB)分別構(gòu)建機(jī)器學(xué)習(xí)模型,用于預(yù)測CCRCC 腫瘤分級。各個(gè)模型模型參數(shù)均采用網(wǎng)格搜索選取最佳輸入?yún)?shù),并且超參數(shù)均位于對應(yīng)值閾內(nèi)。

      1.6 統(tǒng)計(jì)學(xué)方法 本研究通過Wilcoxon 秩和檢驗(yàn)篩選在CCRCC高低分級中存在顯著差異的影像組學(xué)特征和顯著差異表達(dá)基因(P<0.05)。在基因組層面,本研究應(yīng)用Fisher 精確檢驗(yàn)篩選存在顯著差異的突變基因(P<0.05)。最后,針對全部種類的特征應(yīng)用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO),篩選出具備較高權(quán)重的關(guān)鍵特征。

      2 結(jié)果

      2.1 CCRCC 影像組學(xué)的特征 本研究利用Python 軟件中Pyradiomics 庫,提取了197 例入組樣本的107個(gè)影像組學(xué)特征。隨后經(jīng)過Wilcoxon秩和檢驗(yàn)篩選[7],得到在CCRCC 不同分級之間存在顯著差異的24 個(gè)影像組學(xué)特征(圖1)。這些特征共同描述出腫瘤的形態(tài)和特點(diǎn)(圖2),如腫瘤表面積體積比(original shape surface volume ratio),比值越低則說明腫瘤越近似于緊湊的球狀;平均值(original first order mean)是評估ROI 內(nèi)的平均灰度,集群陰影(original GLCM cluster shade)是衡量灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)的偏度和均勻度的指標(biāo),集群陰影的特征值越高則圖像中平均值的不對稱性就更高,這表示原發(fā)灶的內(nèi)腫瘤組織可能出現(xiàn)出血或壞死。按照CCRCC不同的腫瘤分級繪制了各影像組學(xué)特征的表達(dá)值。網(wǎng)格體積(original shape mesh volume)應(yīng)用三角形網(wǎng)格計(jì)算腫瘤原發(fā)灶體積,在高級別組中網(wǎng)格體積特征值較高,這表明高級別腫瘤相較于低級別腫瘤體積較大;體素體積(original shape voxel volume)是指在ROI 中通過體素?cái)?shù)量與單個(gè)體素體積的相乘來計(jì)算ROI體積,體素體積精確性欠佳但可以用來評價(jià)ROI 大致體積,結(jié)果同樣顯示高級別腫瘤具備較大的體積;表面積(original shape surface area)直觀的評價(jià)ROI 表面積,在高級別組中特征值越大則說明腫瘤原發(fā)灶表面積越大。同樣在三維視角下,相較于低級別腫瘤,處于高級別腫瘤階段的腫瘤表面積和腫瘤體積也更大(圖3)。已有研究表明,腫瘤體積和表面積是影響CCRCC 患者預(yù)后的獨(dú)立因素,并且WHO/ISUP 分級較高的患者預(yù)后更差[8]。

      圖1 與CCRCC不同風(fēng)險(xiǎn)分級顯著相關(guān)的影像組學(xué)特征Figure 1 Imaging features significantly associated with different risk grades of CCRCC

      圖2 影像組學(xué)特征在不同腫瘤分級中的特征值Figure 2 Feature values of radiomics features in different tumor grades

      圖3 三維視角下腫瘤表面積及腫瘤體積Figure 3 Tumor surface area and tumor volume in three-dimensional view

      2.2 識別與CCRCC相關(guān)的基因組學(xué)特征 接下來通過Wilcoxon秩和檢驗(yàn),識別了在CCRCC不同腫瘤分級中表現(xiàn)出顯著差異表達(dá)的2 125 個(gè)基因[8](圖4)。此外,通過Fisher精確檢驗(yàn),篩選出了在腫瘤分級中其突變具有顯著差異的37個(gè)基因,其中BAP1和SETD2在高級別CCRCC 患者中具有較高的突變比例(圖5),并且已有研究證實(shí)了,BAP1和SETD2突變在CCRCC疾病具備病理意義,并可能引起較差的臨床結(jié)局[9-10]。

      圖4 在CCRCC不同腫瘤分級中存在顯著差異的表達(dá)基因Figure 4 Expressed genes with significant differences in different tumor grades of renal clear cell carcinoma

      圖5 BAP1和SETD2在高級別CCRCC中突變占比較高Figure 5BAP1 and SETD2 have a high mutation ratio in high-grade CCRCC

      2.3 機(jī)器學(xué)習(xí)模型的建立與評價(jià) 結(jié)合先前識別的影像組學(xué)特征和多組學(xué)特征,進(jìn)一步通過LASSO降維得到整合的關(guān)鍵特征。隨后基于四種機(jī)器學(xué)習(xí)算法分別構(gòu)建預(yù)測模型,以評估影像基因組學(xué)聯(lián)合特征針對CCRCC分級的預(yù)測效能。所有模型訓(xùn)練過程中訓(xùn)練集均占比80%,測試集占比20%。為避免因數(shù)據(jù)集隨機(jī)劃分時(shí)導(dǎo)致的過擬合,在模型構(gòu)建過程中本研究設(shè)定了五折交叉驗(yàn)證。經(jīng)不同機(jī)器學(xué)習(xí)算法擬合后,繪制受試者工作特征曲線(receiver operating characteristic curve,ROC),并通過曲線下面積(area under curve,AUC)評價(jià)模型的預(yù)測效能。結(jié)果表明,使用聯(lián)合特征基于SVM 算法構(gòu)建的預(yù)測模型與其他模型相比具有最好的預(yù)測效能,其訓(xùn)練集AUC 為0.999 (95%CI:0.994~1.004),測試集AUC為0.929(95%CI:0.841~1.018)(圖6)。其次是基于LR算法構(gòu)建的預(yù)測模型,其訓(xùn)練集AUC為1.0(95%CI:1.0~1.0),測試集AUC為0.894(95%CI:0.787~0.100 1)。盡管基于RF 算法和XGB 算法構(gòu)建的預(yù)測模型其預(yù)測效能最差,但是仍然可以較好的區(qū)分CCRCC的腫瘤分級(AUC>0.8),見圖6。

      圖6 基于四種機(jī)器學(xué)習(xí)模型ROC曲線Figure 6 ROC curve based on four machine learning models

      上述結(jié)果表明基于影像基因組學(xué)聯(lián)合特征構(gòu)建的SVM 模型在預(yù)測CCRCC分級中表現(xiàn)最佳,因此隨后使用SVM 算法,基于影像組學(xué)特征、轉(zhuǎn)錄組特征和基因組特征,分別構(gòu)建機(jī)器學(xué)習(xí)模型,以評估不同組學(xué)識別的關(guān)鍵特征在CCRCC 腫瘤分級方面的預(yù)測效能(圖7)。其中影像組學(xué)預(yù)測模型其AUC 為0.715(95%CI:55.1%~87.8%),轉(zhuǎn)錄組預(yù)測模型AUC為0.856(95%CI:73.2%~98%),基因組預(yù)測模型AUC 為0.652(95%CI:47.8%~82.5%)。結(jié)果表明,與其他水平的特征相比,基于轉(zhuǎn)錄組水平關(guān)鍵特征基因構(gòu)建的SVM模型在腫瘤分級方面具有更優(yōu)的預(yù)測效能(AUC=0.856,95%CI:73.2%~98%)。而結(jié)合多組學(xué)特征的影像基因組學(xué)模型(AUC=0.929,95%CI:84.1%~100%)較單一組學(xué)(AUC=0.652~0.856)模型預(yù)測效能更佳。

      圖7 基于支持向量機(jī)的單一組學(xué)模型評價(jià)圖Figure 7 Model evaluation diagram of support vector machine based on single omics

      2.4 CCRCC相關(guān)基因組學(xué)的特征功能 為了進(jìn)一步挖掘特征基因在CCRCC 腫瘤進(jìn)展中發(fā)揮的作用,本研究使用LASSO算法進(jìn)一步篩選在腫瘤分級中顯著差異表達(dá)的關(guān)鍵特征基因進(jìn)行功能富集分析,以探究其參與調(diào)控的通路與功能。關(guān)鍵基因被富集在了多條條通路中,并按照P值排序選取了前8 條通路進(jìn)行可視化展示(圖8)。本研究發(fā)現(xiàn)與腫瘤分級相關(guān)的特征基因主要富集在了T細(xì)胞分化(T cell differentiation)、淋巴細(xì)胞分化(Lymphocyte differentiation)、細(xì)胞基質(zhì)黏附(regulation of cell-matrix adhesion)和非典型Wnt 信號通路(Non-canonical Wnt signaling pathway)等生物學(xué)過程中。隨后對生物學(xué)過程進(jìn)行GO語義相似性聚類,結(jié)果表明特征基因主要富集在免疫相關(guān)細(xì)胞分化、細(xì)胞基質(zhì)調(diào)節(jié)和細(xì)胞周期負(fù)調(diào)控等相關(guān)功能上(圖9)。為進(jìn)一步可視化特征基因與生物學(xué)過程之間的關(guān)系,本研究繪制了基因-功能網(wǎng)絡(luò)圖,結(jié)果顯示W(wǎng)NT4 處于網(wǎng)絡(luò)圖的中心,相比于LBX2 和MCM9 等基因,WNT4 顯然參與了更多的生物學(xué)過程(圖10),并且在高級別腫瘤中WNT4 表達(dá)較高(圖11),WNT4 可能在CCRCC 進(jìn)展中發(fā)揮更重要的作用。

      圖8 基因功能富集分析Figure 8 Gene functional enrichment analysis

      圖9 功能相似性聚類Figure 9 Functional similarity clustering

      圖10 基因功能網(wǎng)絡(luò)圖Figure 10 Gene function network diagram

      圖11 WNT4在不同腫瘤分級中的表達(dá)Figure 11 WNT4 expression in different tumor grades

      3 討論

      影像基因組學(xué)將患者影像資料和基因組數(shù)據(jù)相關(guān)聯(lián),廣泛應(yīng)用在腫瘤診療過程中[11-13]。本研究應(yīng)用影像基因組學(xué)聯(lián)合特征構(gòu)建了預(yù)測CCRCC腫瘤分級模型,對比四種機(jī)器學(xué)習(xí)算法在預(yù)測CCRCC 腫瘤分級效能的不同。SVM在預(yù)測CCRCC腫瘤分級中表現(xiàn)最佳,AUC為0.929(95%CI:0.841~1.018)。RF、LR及XGB 模型同樣能較準(zhǔn)確預(yù)測CCRCC 腫瘤的分級(AUC=0.881~0.894)。國外同樣也有研究發(fā)現(xiàn)SVM較K近鄰模型、RF模型更能反應(yīng)肺癌患者的預(yù)后[14]。其可能原因?yàn)镾VM結(jié)構(gòu)簡單、適應(yīng)性好及泛化能力強(qiáng)等優(yōu)勢和二分類問題更契合有關(guān)[15]。因此本研究利用SVM 分別構(gòu)建預(yù)測CCRCC 腫瘤分級的影像組學(xué)、基因組及轉(zhuǎn)錄組的單組學(xué)模型,并與聯(lián)合模型進(jìn)行對比。結(jié)果顯示影像組學(xué)預(yù)測模型AUC為0.71(95%CI:0.551~0.878),轉(zhuǎn)錄組預(yù)測模型AUC為0.856(95%CI:0.732~0.98),基因組預(yù)測模型AUC 為0.65 (95%CI:0.478~0.825)。這表明轉(zhuǎn)錄組模型在單組學(xué)預(yù)測模型中表現(xiàn)更優(yōu),可能與差異表達(dá)的特征基因數(shù)量較多有關(guān)。同時(shí),聯(lián)合模型中輸入特征數(shù)量及特征維度較多,本實(shí)驗(yàn)研究結(jié)果指出聯(lián)合組學(xué)模型(AUC=0.929)較單一組學(xué)(AUC=0.652~0.856)模型可更準(zhǔn)確預(yù)測腫瘤分級。之前的研究也證實(shí)了聯(lián)合模型的效能更佳[14,16]。本研究為CCRCC腫瘤分級診斷構(gòu)建的影像基因組學(xué)預(yù)測模型具有臨床實(shí)用性,其中基于SVM算法的多組學(xué)預(yù)測模型表現(xiàn)最佳,為個(gè)體化無創(chuàng)性腫瘤分級提供了支持工具,輔助臨床術(shù)前決策。

      本實(shí)驗(yàn)應(yīng)用TCGA 數(shù)據(jù)庫中多組學(xué)數(shù)據(jù),通過Wilcoxon 秩和檢驗(yàn)及Fisher 精確檢驗(yàn)篩選出CCRCC腫瘤不同分級間存在顯著差異表達(dá)和差異突變的基因。通過功能富集分析發(fā)現(xiàn),WNT4 表達(dá)基因在功能網(wǎng)絡(luò)中處在“樞紐”的位置(圖10),能夠調(diào)節(jié)非典型WNT信號通路、T細(xì)胞分化及胸腺T細(xì)胞分化[17]、雌配子傳代和細(xì)胞基質(zhì)的黏附。根據(jù)大多數(shù)臨床研究發(fā)現(xiàn)CCRCC 男性發(fā)病率高于女性,結(jié)合本研究結(jié)果表明可能與WNT4 參與調(diào)控雌配子傳代相關(guān)[18-19]。同時(shí),WNT4 參與調(diào)控細(xì)胞分化會(huì)引起CCRCC 的不良預(yù)后[20],與本研究結(jié)果中WNT4 在高級組中表達(dá)較高相符[21]。本研究探索了與CCRCC相關(guān)的關(guān)鍵基因,揭示了關(guān)鍵基因參與調(diào)控的通路及功能,為CCRCC 的精準(zhǔn)治療提供了潛在生物學(xué)標(biāo)志以及新的治療可能。

      本研究同樣存在局限性。為了拓展特征維度采用多組學(xué)聯(lián)合數(shù)據(jù),符合納入標(biāo)準(zhǔn)的樣本量僅為197例,在未來的研究中可擴(kuò)增數(shù)據(jù)容量,避免選擇性偏差。本研究聯(lián)合影像組學(xué)數(shù)據(jù)與基因組學(xué)數(shù)據(jù)構(gòu)建預(yù)測模型,增加了特征維度,并且研究結(jié)果較目前國內(nèi)外大多數(shù)研究具有更優(yōu)的預(yù)測效能。同時(shí),結(jié)合機(jī)器學(xué)習(xí)算法及功能富富集分析為CCRCC患者提供了無創(chuàng)的分級診斷方式,并為靶向治療提供了潛在的生物學(xué)標(biāo)志。

      猜你喜歡
      基因組學(xué)組學(xué)分級
      基于基因組學(xué)數(shù)據(jù)分析構(gòu)建腎上腺皮質(zhì)癌預(yù)后模型
      系統(tǒng)基因組學(xué)解碼反芻動(dòng)物的演化
      科學(xué)(2020年2期)2020-08-24 07:56:44
      口腔代謝組學(xué)研究
      基于UHPLC-Q-TOF/MS的歸身和歸尾補(bǔ)血機(jī)制的代謝組學(xué)初步研究
      分級診療路難行?
      分級診療的“分”與“整”
      分級診療的強(qiáng)、引、合
      “水到渠成”的分級診療
      代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
      營養(yǎng)基因組學(xué)——我們可以吃得更健康
      宁武县| 斗六市| 广昌县| 镇平县| 遂平县| 航空| 班玛县| 宁乡县| 石屏县| 南开区| 宕昌县| 沙湾县| 元朗区| 西华县| 南岸区| 贵溪市| 兰西县| 龙海市| 西丰县| 伊吾县| 辉南县| 探索| 十堰市| 忻州市| 江北区| 博乐市| 玉山县| 百色市| 武平县| 县级市| 贵德县| 乌鲁木齐市| 邯郸县| 岑巩县| 卓资县| 台山市| 广汉市| 游戏| 互助| 大名县| 海伦市|