徐 鶴 徐劍英 史文杰
(1 江蘇省徐州市第一人民醫(yī)院甲乳外科,徐州市 221005,電子郵箱:553683567@qq.com;2 中山大學(xué)腫瘤防治中心腫瘤內(nèi)科,廣東省廣州市 510060;3 廣西中醫(yī)藥大學(xué)附屬桂林市中醫(yī)醫(yī)院乳腺科,桂林市 541002)
盡管乳腺癌早期篩查和治療的技術(shù)在不斷進(jìn)步,但乳腺癌仍是全球女性癌癥死亡的主要原因[1]。三陰性乳腺癌(triple negative breast cancer,TNBC)發(fā)病率占所有乳腺癌發(fā)病率的12%~17%[1],與非TNBC相比,TNBC缺乏特異性的雌激素受體、孕激素受體以及人表皮生長(zhǎng)因子受體2(human epidermal growth factor receptor 2,HER2)受體,這使TNBC患者使用傳統(tǒng)化療方案后臨床獲益收效甚微[2]。因此,尋找積極有效的生物學(xué)靶點(diǎn)是治療TNBC的關(guān)鍵。
2010年,Prat等[3]進(jìn)行基于基因表達(dá)譜的TNBC聚類分析,并鑒定出了TNBC的claudin-low分子亞型。隨后,2011年Lehmann等[4]在此基礎(chǔ)上進(jìn)一步分析發(fā)現(xiàn)TNBC可分為6種亞型,包括基底細(xì)胞1型和2型、免疫調(diào)節(jié)亞型、間充質(zhì)型、間充質(zhì)-干細(xì)胞型以及管腔/雄激素受體(luminal androgen receptor,LAR)亞型,進(jìn)一步開(kāi)發(fā)和應(yīng)用針對(duì)6種亞型的靶向藥物后,TNBC患者的臨床預(yù)后得到了明顯提升。LAR亞型作為T(mén)NBC的亞型之一,較其他亞型具有較為滿意的臨床預(yù)后。然而,由于腫瘤本身的異質(zhì)性,盡管研究者已經(jīng)嘗試開(kāi)發(fā)多種靶向藥物,但是將這些藥物應(yīng)用于LAR亞型患者時(shí),不同患者的臨床獲益率相差甚遠(yuǎn)[5]。因此,為了實(shí)現(xiàn)該疾病的精準(zhǔn)治療,對(duì)于此類患者,識(shí)別全新的生物學(xué)靶點(diǎn)以指導(dǎo)患者進(jìn)行風(fēng)險(xiǎn)再分層顯得尤為重要。
本文基于多尺度嵌入式基因共表達(dá)網(wǎng)絡(luò)分析(multiscale embedded gene co-expression network analysis,MEGENA)技術(shù),運(yùn)用生物信息學(xué)的方法鑒定出TNBC中LAR亞型患者的全新生物學(xué)靶點(diǎn),并分析其與預(yù)后的關(guān)系,為指導(dǎo)該疾病實(shí)現(xiàn)分類而治的精準(zhǔn)診療提供參考。
1.1 數(shù)據(jù)來(lái)源和預(yù)處理 從TCGA數(shù)據(jù)庫(kù)(https://portal.gdc.cancer.gov/)中下載乳腺癌患者轉(zhuǎn)錄組測(cè)序數(shù)據(jù)及其所對(duì)應(yīng)的臨床樣本文件。根據(jù)患者的年齡、生存資料、臨床分期以及表達(dá)譜數(shù)據(jù)是否完整進(jìn)行篩選,最終納入710例患者進(jìn)行后續(xù)分析,其中TNBC 113例(15.9%),非TNBC 597例(84.1%)。對(duì)所有原始測(cè)序數(shù)據(jù)進(jìn)行TPM標(biāo)準(zhǔn)化處理。此外,從GEO數(shù)據(jù)庫(kù)(https://www.ncbi.nlm.nih.gov/geo/)中下載驗(yàn)證數(shù)據(jù)集GSE76245和Shao數(shù)據(jù)集,并對(duì)數(shù)據(jù)集進(jìn)行TPM標(biāo)準(zhǔn)化處理。
1.2 差異表達(dá)基因分析的篩選 為了避免后續(xù)分析結(jié)果出現(xiàn)偏移和數(shù)據(jù)冗余,首先對(duì)TNBC患者和非TNBC組患者的組織樣本測(cè)序數(shù)據(jù)進(jìn)行差異表達(dá)基因分析。這一步驟通過(guò)使用R軟件的edger包進(jìn)行篩選,限制條件為|log2FC|>2,調(diào)整后P值<0.05。
1.3 多尺度嵌入式基因共表達(dá)網(wǎng)絡(luò)分析 使用MEGENA包(https://cran.uni-muenster.de/web/packages/MEGENA/MEGENA.pdf)對(duì)差異表達(dá)的上調(diào)和下調(diào)基因進(jìn)行分析,并設(shè)置相關(guān)的篩選條件:模塊差異的FDR.cutoff=0.05,模塊聚類的P值=0.05,核心模塊的篩選標(biāo)準(zhǔn)為模塊的Hub.pval=0.05。利用這一限制條件識(shí)別出TNBC患者表達(dá)譜的聚類模塊數(shù)目以及核心模塊,進(jìn)一步對(duì)核心模塊進(jìn)行生物學(xué)功能鑒定。最后,根據(jù)核心模塊中基因與基因之間平均連接度大于8個(gè)節(jié)點(diǎn)的標(biāo)準(zhǔn)定義基因權(quán)重,使用MEGENA包中的多尺度核心基因分析方法(multiscale Hub analysis,MHA)進(jìn)行核心基因篩選。所有模塊基因中,某一個(gè)基因與其他基因的關(guān)聯(lián)度得分最高,該基因即為核心基因。
1.4 核心基因驗(yàn)證 在識(shí)別到核心模塊的核心基因后,為了檢驗(yàn)?zāi)K聚類效能,首先使用GSE76245數(shù)據(jù)集對(duì)模塊的核心基因進(jìn)行外部表達(dá)驗(yàn)證,包括與核心基因共表達(dá)的基因、核心基因與相關(guān)基因表達(dá)的相關(guān)性、不同亞型TNBC患者中核心基因的表達(dá)差異;并使用在線工具UALCAN(http://ualcan.path.uab.edu/index.html)進(jìn)行基于TCGA數(shù)據(jù)庫(kù)的內(nèi)部表達(dá)驗(yàn)證;然后使用CCLE數(shù)據(jù)庫(kù)(https://portals.broadinstitute.org/ccle)進(jìn)行泛癌細(xì)胞系及乳腺癌細(xì)胞系的表達(dá)驗(yàn)證。
1.5 預(yù)后分析 選取Shao數(shù)據(jù)集驗(yàn)證核心基因與LAR亞型患者臨床預(yù)后的關(guān)系。將數(shù)據(jù)集進(jìn)行TPM標(biāo)準(zhǔn)化處理后,對(duì)數(shù)據(jù)集中包含的50例LAR亞型患者的測(cè)序數(shù)據(jù)進(jìn)行批量單因素Cox回歸分析,選取單因素分析中有統(tǒng)計(jì)學(xué)意義的基因以及研究者認(rèn)為臨床上有意義的指標(biāo)作為協(xié)變量進(jìn)行多因素Cox回歸分析。其中,使用R包survminer(https://cran.rstudio.com/web/packages/survminer/index.html)確定核心基因診斷LAR亞型患者復(fù)發(fā)的最佳截?cái)嘀?,使用受試者工作特征曲線獲取年齡和腫瘤大小等臨床指標(biāo)診斷復(fù)發(fā)的最佳截?cái)嘀?。并根?jù)最佳截?cái)嘀祵AR亞型患者分為低表達(dá)者和高表達(dá)者,然后通過(guò)Kaplan-Meier 法繪制生存曲線,比較核心基因不同表達(dá)情況下LAR亞型患者的3年和5年疾病復(fù)發(fā)風(fēng)險(xiǎn)。
1.6 統(tǒng)計(jì)學(xué)分析 采用R軟件(Version 4.0.1)進(jìn)行統(tǒng)計(jì)分析,其中采用Pearson檢驗(yàn)進(jìn)行相關(guān)性分析,采用Wilcoxon檢驗(yàn)分析GSE76245數(shù)據(jù)集亞組間的差異,采用Kruskal-Wallis檢驗(yàn)分析泛癌細(xì)胞系組間的表達(dá)差異,采用Cox回歸模型進(jìn)行單因素和多因素分析,采用log-rank檢驗(yàn)比較組間的復(fù)發(fā)風(fēng)險(xiǎn)差異。以P<0.05表示差異具有統(tǒng)計(jì)學(xué)意義。
2.1 入組患者的基本特征 非TNBC患者、TNBC患者年齡分別為28~90(59.53±13.23)歲、29~90(54.68±12.08)歲;TNBC患者均為女性,但有8例非TNBC患者為男性;無(wú)論是TNBC還是非TNBC患者,浸潤(rùn)性導(dǎo)管癌都是最常見(jiàn)的病理組織學(xué)類型,且腫瘤分期以Ⅰ期和Ⅱ期為主。見(jiàn)表1。
表1 非TNBC患者和TNBC患者的基本特征
2.2 差異表達(dá)基因的篩選結(jié)果以及MEGENA分析結(jié)果 與非TNBC患者相比,TNBC患者中存在1903個(gè)差異表達(dá)上調(diào)基因和1021個(gè)差異表達(dá)下調(diào)基因。使用MEGENA包對(duì)1903差異表達(dá)上調(diào)基因進(jìn)行分析,結(jié)果提示,這些基因被聚類為21個(gè)模塊,其中C3模塊是核心模塊;使用MHA對(duì)篩選到的核心模塊進(jìn)行功能預(yù)測(cè)和核心基因篩選,結(jié)果提示該核心模塊可能與雄激素受體具有相關(guān)性,模塊中的催乳素誘導(dǎo)蛋白(prolactin-induced protein,PIP)基因權(quán)重最大,因此被定義為模塊中的核心基因,見(jiàn)圖1A。
圖1 核心模塊和核心基因的篩選以及核心基因的外部數(shù)據(jù)集表達(dá)驗(yàn)證結(jié)果注:圖A 顯示了C3核心模塊及模塊中基因;圖B顯示了數(shù)據(jù)集GSE76124中與PIP基因共表達(dá)的基因;圖C提示數(shù)據(jù)集GSE76124中PIP基因與雄激素受體基因的表達(dá)具有相關(guān)性;圖D顯示數(shù)據(jù)集GSE76124中PIP基因在不同亞型TNBC中的表達(dá)情況,其中BLIA為基底樣免疫激活亞型,BLIS為基底樣免疫抑制亞型,LAR為管腔雄激素受體亞型,MES為間充質(zhì)亞型。
2.3 核心基因的驗(yàn)證結(jié)果 數(shù)據(jù)集GSE76245驗(yàn)證結(jié)果提示,PIP基因與多種雄激素受體相關(guān)的基因存在共表達(dá),且其表達(dá)水平與雄激素受體表達(dá)水平呈正相關(guān)(r=0.73,P<0.001),見(jiàn)圖1B和圖1C;與其他亞型TNBC患者相比,LAR亞型TNBC患者的PIP基因表達(dá)量增加(均P<0.05),見(jiàn)圖1D。TCGA在線數(shù)據(jù)庫(kù)的分析結(jié)果同樣支持這一結(jié)論,該基因在TNBC的LAR亞型中表達(dá)顯著高于其他亞型,見(jiàn)圖2。
圖2 基于TCGA數(shù)據(jù)庫(kù)數(shù)據(jù)來(lái)源的PIP基因在不同亞型TNBC中的表達(dá)差異(A)和分布差異(B)注:圖A的縱坐標(biāo)為PIP基因的表達(dá)量;橫坐標(biāo)為T(mén)NBC的不同亞型,其中BL1為基底細(xì)胞1型,BL2為基底細(xì)胞2型,IM為免疫亞型,LAR為管腔雄激素受體亞型,MSL為間充質(zhì)干細(xì)胞亞型,M為間充質(zhì)亞型,UNS為未知亞型。圖B表中數(shù)據(jù)為PIP基因表達(dá)的TPM值。
采用CCLE數(shù)據(jù)庫(kù)進(jìn)一步驗(yàn)證,其中,對(duì)泛癌細(xì)胞系中PIP基因表達(dá)差異的分析結(jié)果提示,乳腺癌細(xì)胞系中PIP基因的表達(dá)顯著高于其他癌細(xì)胞系;提取乳腺癌細(xì)胞系進(jìn)行亞組分析,結(jié)果顯示PIP基因在MDAMB453_BREAST乳腺癌細(xì)胞系(雄激素受體陽(yáng)性)中的表達(dá)高于其他乳腺癌細(xì)胞系(P=1.3×10-16)。見(jiàn)圖3。
圖3 基于CCLE數(shù)據(jù)庫(kù)分析的PIP基因在泛癌細(xì)胞系和乳腺癌細(xì)胞系亞組的表達(dá)注:圖A的縱坐標(biāo)為PIP基因的表達(dá)量,橫坐標(biāo)為泛癌中不同細(xì)胞系名稱。
2.4 預(yù)后分析 單因素分析結(jié)果提示,PIP等71個(gè)基因可能是影響LAR亞型TNBC患者預(yù)后的危險(xiǎn)因素,其中與本研究的MEGENA結(jié)果有交集的基因僅有PIP,故將其與臨床上認(rèn)為有意義的指標(biāo)作為自變量進(jìn)行多因素分析。最終納入年齡(“年齡<45歲”=1,“年齡≥45歲”=0)、PIP表達(dá)量(“PIP相對(duì)表達(dá)量<3.45”=1,“PIP相對(duì)表達(dá)量≥3.45”=0)、腫瘤大小(“腫瘤<2.8 mm”=1,“腫瘤≥2.8 mm=0”)、化療方案(使用紫杉醇方案=1,未使用紫杉醇方案=0)作為協(xié)變量,以復(fù)發(fā)狀態(tài)(疾病未復(fù)發(fā)=0,疾病復(fù)發(fā)=1)作為因變量,進(jìn)行多因素Cox回歸分析。結(jié)果顯示,除年齡<45歲、腫瘤≥2.8 mm、未使用紫杉醇方案化療外,PIP基因表達(dá)量降低也是LAR亞型TNBC患者預(yù)后的獨(dú)立危險(xiǎn)因素(均P<0.05),見(jiàn)表2。進(jìn)一步通過(guò)Kaplan-Meier法繪制復(fù)發(fā)風(fēng)險(xiǎn)曲線,結(jié)果顯示,PIP基因相對(duì)表達(dá)量<3.45的LAR亞型患者的3年和5年疾病累計(jì)復(fù)發(fā)風(fēng)險(xiǎn)概率均高于PIP基因相對(duì)表達(dá)量≥3.45者(P=0.005、P=0.009),見(jiàn)圖4。
表2 多因素Cox回歸分析結(jié)果
圖4 不同PIP基因表達(dá)水平的LAR亞型患者3年、5年復(fù)發(fā)風(fēng)險(xiǎn)曲線
與其他類型的TNBC相比,盡管LAR亞型具有明確的治療靶點(diǎn),但是患者的臨床預(yù)后卻存在顯著差異,因此篩選治療獲益顯著的優(yōu)勢(shì)人群,指導(dǎo)患者風(fēng)險(xiǎn)分層是LAR亞型研究的熱點(diǎn)和難點(diǎn)。
生物信息學(xué)的發(fā)展促進(jìn)了生命領(lǐng)域的全新變革,研究者利用多種生物信息學(xué)方法挖掘出乳腺腫瘤的多個(gè)生物學(xué)靶點(diǎn),為乳腺腫瘤的精準(zhǔn)治療提供了參考依據(jù)。例如,2019年Qiu等[6]利用加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)法揭示了與乳腺癌發(fā)生發(fā)展相關(guān)的生物學(xué)靶點(diǎn)基因(KRT8、KRT19、KPNA2和ECT2);2020年,Shi等[7]利用差異基因法識(shí)別到乳腺癌預(yù)后相關(guān)靶點(diǎn),并據(jù)此提出乳腺癌的風(fēng)險(xiǎn)分層策略;Urbaniak等[8]利用蛋白互作網(wǎng)絡(luò)分析預(yù)測(cè)乳腺癌的全新生物學(xué)標(biāo)志物,揭示了乳腺癌發(fā)生相關(guān)蛋白之間可能存在的相互作用機(jī)制。MEGENA技術(shù)是基于拓?fù)浣Y(jié)構(gòu)理論構(gòu)建的嵌入式共表達(dá)網(wǎng)絡(luò),可以較好地避免網(wǎng)絡(luò)鏈接交叉問(wèn)題,與傳統(tǒng)的WGCNA相比,它可以實(shí)現(xiàn)單個(gè)網(wǎng)絡(luò)中共存聚類,用以清晰地展示復(fù)雜網(wǎng)絡(luò)的多次度層次效應(yīng)。與差異基因法相比,WGCNA同樣展示出極大的優(yōu)勢(shì),因?yàn)椴町惢蚍ū举|(zhì)上是一種平均表達(dá)量的對(duì)比分析,僅能展示樣本間的平均差異,這一結(jié)果可能會(huì)受到極值的影響,從而導(dǎo)致結(jié)果產(chǎn)生偏倚;而MEGENA技術(shù)是通過(guò)計(jì)算基因與基因之間的平均連接度來(lái)進(jìn)行聚類,并不依賴于不同樣本的表達(dá)差異,可以避免樣本極值對(duì)于預(yù)測(cè)結(jié)果的影響。蛋白互作網(wǎng)絡(luò)分析是基于實(shí)驗(yàn)驗(yàn)證結(jié)果構(gòu)建的共表達(dá)網(wǎng)絡(luò),因此,不能進(jìn)行新靶點(diǎn)的篩選和識(shí)別;與蛋白互作網(wǎng)絡(luò)分析不同的是,MEGENA識(shí)別的核心基因是根據(jù)平均連接度來(lái)定義的,其核心是一種預(yù)測(cè)分析,也更有可能會(huì)識(shí)別到全新的生物學(xué)標(biāo)志物。因此,本研究利用MEGENA進(jìn)行分析,最終篩選出TNBC中的差異表達(dá)基因PIP,LAR亞型TNBC的特異性生物學(xué)靶點(diǎn)PIP,并利用內(nèi)部數(shù)據(jù)集和外部數(shù)據(jù)集對(duì)該基因在LAR亞型TNBC中的表達(dá)情況進(jìn)行驗(yàn)證。
PIP基因位于7號(hào)染色體長(zhǎng)臂3區(qū)4帶(7q34),編碼含146個(gè)氨基酸殘基組成的前體蛋白,成熟產(chǎn)物為17kD的單鏈糖蛋白[9]。在前期研究中,我們利用UALCAN數(shù)據(jù)庫(kù)分析了乳腺癌和癌旁組織中PIP基因的表達(dá)差異,發(fā)現(xiàn)PIP基因在正常乳腺組織中呈高表達(dá),而在乳腺癌組織中呈低表達(dá)(相關(guān)分析結(jié)果:ualcan.path.uab.edu/cgi-bin/TCGAExResultNew2.pl?genenam=PIP&ctype=BRCA),這提示該基因表達(dá)下調(diào)可能促進(jìn)乳腺癌的發(fā)生。然而本研究結(jié)果顯示,與其他亞型TNBC患者相比,LAR亞型TNBC患者的PIP基因表達(dá)量增加,表明PIP基因在不同亞型TNBC中的表達(dá)存在差異,即其在LAR亞型TNBC中的表達(dá)下調(diào)并不明顯,而呈特異性的高表達(dá)。有研究表明,該基因與雄激素受體表達(dá)具有較強(qiáng)的相關(guān)性,主要原因是該基因在轉(zhuǎn)錄水平會(huì)招募雄激素受體到自身啟動(dòng)子序列,促進(jìn)雄激素受體易位到細(xì)胞核,從而刺激雄激素依賴性基因的表達(dá)[10]。因此,在雄激素受體陽(yáng)性的LAR亞型TNBC中,PIP基因呈特異性高表達(dá)。這或可為開(kāi)發(fā)新的靶點(diǎn)用于TNBC的精準(zhǔn)治療提供理論依據(jù)。
此外,有研究顯示,敲除人乳腺癌細(xì)胞T47D和MDA-MB-453的PIP基因后,抑制PIP表達(dá)可增強(qiáng)乳腺癌細(xì)胞的增殖和遷移潛能[11],這提示低表達(dá)的PIP可能與乳腺癌細(xì)胞的高侵襲性有關(guān)。另一方面,PIP基因在乳腺癌患者臨床預(yù)后中的價(jià)值同樣不可忽略,Jablonska等[12]研究發(fā)現(xiàn),與PIP基因低表達(dá)的患者相比,PIP基因高表達(dá)的乳腺癌患者可獲得更長(zhǎng)的無(wú)病生存期。在本研究中,我們通過(guò)Shao數(shù)據(jù)集進(jìn)行預(yù)后分析,發(fā)現(xiàn)PIP基因表達(dá)量降低是LAR亞型TNBC患者預(yù)后的獨(dú)立危險(xiǎn)因素,低表達(dá)的LAR亞型患者的3年和5年疾病累計(jì)復(fù)發(fā)風(fēng)險(xiǎn)概率均高于高表達(dá)者(均P<0.05),與上述研究的結(jié)論相似。因此,如該基因作為L(zhǎng)AR亞型TNBC的治療靶點(diǎn),建議開(kāi)發(fā)該基因的激動(dòng)劑,以使得患者獲得更好的臨床預(yù)后。
總之,我們利用生物信息學(xué)方法篩選出LAR亞型TNBC的生物學(xué)靶點(diǎn)PIP,與其他TNBC亞型相比,LAR亞型TNBC中PIP基因呈特異性高表達(dá);由于PIP基因表達(dá)下調(diào)與乳腺癌的發(fā)生、發(fā)展有關(guān),因此PIP基因表達(dá)下調(diào)的LAR亞型TNBC患者預(yù)后更差,更易復(fù)發(fā)。這或可為今后實(shí)現(xiàn)該疾病分類而治的精準(zhǔn)診療提供參考。