施雯靖,潘賢潤,呂哲宇,詹超英,沈百榮*
(1. 四川大學(xué)華西醫(yī)院疾病分子網(wǎng)絡(luò)前沿科學(xué)中心 成都 610212;2. 成都中醫(yī)藥大學(xué)醫(yī)學(xué)技術(shù)學(xué)院 成都 610075;3. 四川化工職業(yè)技術(shù)學(xué)院數(shù)字經(jīng)濟(jì)學(xué)院 四川 瀘州 646300)
口腔鱗狀細(xì)胞癌(oral squamous cell carcinoma,OSCC)是一種特發(fā)在口腔的惡性腫瘤,癌變的鱗狀細(xì)胞可發(fā)生在牙齦、硬腭、舌、頰粘膜、唇等器官,屬于頭頸部最惡性的腫瘤,超過50%的頭頸部癌癥為口腔鱗狀細(xì)胞癌[1]。2020 年,全球范圍內(nèi)口腔癌死亡病例177 757 例(占全部癌癥的1.8%),新增病例377 713 例(占全部癌癥的2%)[2],而超過90%的口腔癌為口腔鱗狀細(xì)胞癌[3]。盡管發(fā)病率和死亡率從1975 年起有所下降[4],但目前沒有針對口腔癌的常規(guī)篩查測試或計(jì)劃,也沒有血液測試可以進(jìn)行診斷,幾乎一半口腔癌或口咽癌在首次診斷時(shí)已擴(kuò)散到淋巴結(jié)。2006 年,以EGRF 為靶點(diǎn)的西妥昔單抗被FDA 批準(zhǔn)用于治療口腔鱗狀細(xì)胞癌,是目前唯一可用于口腔鱗狀細(xì)胞癌的分子靶向療法[5],西妥昔單抗的有效性與病人的遺傳和基因表達(dá)譜有關(guān)[6]。
煙草和酒精是口腔鱗狀細(xì)胞癌最強(qiáng)的兩個(gè)生活習(xí)慣相關(guān)的風(fēng)險(xiǎn)因素。文獻(xiàn)[7]指出,口腔癌的發(fā)病風(fēng)險(xiǎn)會隨著吸煙時(shí)間和每日吸煙頻率的增加而顯著增加。煙草中發(fā)現(xiàn)的許多化學(xué)物質(zhì)會直接破壞DNA,造成生長失控。目前的研究并不確定酒精是否會直接損害DNA,但已經(jīng)有研究證明,酒精有助于許多破壞DNA 的化學(xué)物質(zhì)更容易進(jìn)入細(xì)胞[8],并且酗酒和大量吸煙的人患口腔癌的風(fēng)險(xiǎn)比不吸煙不喝酒的人高30 倍[9]。遺傳突變決定了部分人對某些類型的致癌化學(xué)物質(zhì)進(jìn)行分解的能力較差,因此他們對煙草、酒精和某些工業(yè)化學(xué)品的致癌作用更為敏感。文獻(xiàn)[6]提出與非OSCC 的頭頸癌和其他鱗狀細(xì)胞癌相比,HRAS 和PIK3CA 是唯一顯著突變的致癌基因,并且此類突變的分布在具有不同風(fēng)險(xiǎn)習(xí)慣(吸煙、過度飲酒或嚼檳榔)的人群中也是不同的。
2011 年,文獻(xiàn)[10]發(fā)布了口腔癌相關(guān)基因數(shù)據(jù)庫OCDB v.2,包括了374 個(gè)基因。但其相關(guān)性的可信度不足,數(shù)據(jù)庫中并不能提供明確的報(bào)道證實(shí)某一基因與口腔癌相關(guān)。該數(shù)據(jù)庫的初始版本距今已過十年,數(shù)據(jù)在此期間沒有進(jìn)行更新。文獻(xiàn)[11]建立了哥本哈根口腔鱗狀細(xì)胞癌數(shù)據(jù)庫,但該研究重點(diǎn)關(guān)注患者的臨床信息,沒有收錄關(guān)于基因或突變方面的數(shù)據(jù),且出于隱私保護(hù)的考慮,該數(shù)據(jù)庫并未公開發(fā)表。文獻(xiàn)[12]于2021 年發(fā)表了口腔癌基因組變異數(shù)據(jù)庫dbGENVOC,但其數(shù)據(jù)僅包括325 名印度口腔癌患者和手動(dòng)整理出版文獻(xiàn)中的118 名患者數(shù)據(jù),同時(shí)只簡單納入了變異的描述信息,對患者沒有任何描述。遺傳變異與疾病的關(guān)系并不是單一的,在不同的患者間也存在異質(zhì)性的問題。因此,上述3 個(gè)數(shù)據(jù)庫對臨床的參考與應(yīng)用價(jià)值有限。對于目前已有的遺傳變異數(shù)據(jù)庫,如Clinvar和OMIM,盡管它們包含的疾病種類非常全面,但并未收錄研究對象的臨床信息,也就無法直接在臨床上利用其數(shù)據(jù)。
精準(zhǔn)醫(yī)療和數(shù)據(jù)驅(qū)動(dòng)的第四科學(xué)研究范式的發(fā)展[13],需要基因組學(xué)和臨床組學(xué)融合的數(shù)據(jù)。本文通過把碎片性的口腔鱗狀細(xì)胞癌相關(guān)遺傳變異與對應(yīng)的臨床信息融合起來,構(gòu)建了口腔鱗狀細(xì)胞癌遺傳變異數(shù)據(jù)庫(the OSCC genetic variation database,GVDoscc) (http://sysbio.org.cn/GVDoscc)。為 口 腔領(lǐng)域的相關(guān)工作者提供了高質(zhì)量的開源數(shù)據(jù)集。
從美國國家生物信息技術(shù)中心(the national center for biotechnology information, NCBI)建立的Pubmed(https://pubmed.ncbi.nlm.nih.gov/)數(shù)據(jù)庫使用檢索詞“(Oral Squamous Cell Carcinoma[ti] OR OSCC[ti])NOT review[ptyp] AND English[LA] AND (1991/01/01[DP]: 2021/7/1[DP])”獲取英文非綜述類文獻(xiàn)6 137 篇,作為本文的數(shù)據(jù)源。
數(shù)據(jù)庫的收集、搭建流程和功能簡介如圖1 所示,從Pubmed 數(shù)據(jù)庫獲取到口腔鱗狀細(xì)胞癌的相關(guān)文獻(xiàn)后,利用PubTator 對全文中的基因或突變進(jìn)行注釋。PubTator 是一種網(wǎng)絡(luò)服務(wù)工具,為基因與蛋白質(zhì)、遺傳變異、疾病、化學(xué)物質(zhì)、物種和細(xì)胞系提供來自文本挖掘系統(tǒng)的自動(dòng)注釋[14]。若整篇文章中都未曾出現(xiàn)一次基因或突變的名稱,則刪去此文獻(xiàn);然后對篩查得到的3 884 篇文獻(xiàn)進(jìn)行人工注釋,并對Pubtator 的注釋進(jìn)行二次核查。數(shù)據(jù)庫采用B/S 結(jié)構(gòu)(Browser/Server,瀏覽器/服務(wù)器模式),用戶可以通過瀏覽器直接進(jìn)行訪問,前端網(wǎng)頁由html 和JavaScript 完成,后端服務(wù)器采用Apache搭建而成,PHP 用于連接后臺數(shù)據(jù)庫,數(shù)據(jù)存儲在MySQL 數(shù)據(jù)庫中。用戶可以通過在線訪問數(shù)據(jù)庫來進(jìn)行分類瀏覽或檢索自己需要的信息,統(tǒng)計(jì)頁面也提供了對所有收錄數(shù)據(jù)的整體統(tǒng)計(jì),用戶還可以在提交頁面上傳新數(shù)據(jù),經(jīng)管理員審核通過后,將會被添加進(jìn)數(shù)據(jù)庫中。
圖1 GVDoscc 數(shù)據(jù)庫搭建流程
1.2.1 篩選標(biāo)準(zhǔn)
本研究在文獻(xiàn)初篩后,基于人工閱讀方式,采用以下納入和排除標(biāo)準(zhǔn)對文獻(xiàn)進(jìn)行篩選。
納入標(biāo)準(zhǔn)。1) 在Pubmed 數(shù)據(jù)庫中公開發(fā)表的有關(guān)口腔鱗狀細(xì)胞癌遺傳變異的流行病學(xué)研究;2) 具有臨床上確診為口腔鱗狀細(xì)胞癌的患者及其對照樣本信息。
排除標(biāo)準(zhǔn)。1)評論、社論等不予收錄;2)病例報(bào)告所包含的樣本量太少,不具有普適性,不予收錄;3) 綜述及meta 分析文章,追溯文中數(shù)據(jù)來源原文按納入排除標(biāo)準(zhǔn)處理。
1.2.2 數(shù)據(jù)庫結(jié)構(gòu)
數(shù)據(jù)庫主要由3 張實(shí)體表和1 張關(guān)系主表(Main)組成,實(shí)體表包括樣臨床樣本表(Sample)、參考文獻(xiàn)表(Reference)以及變異表(Mutation)。具體描述如下。
樣本表:樣本編號(Sample ID)、試驗(yàn)對象年齡(Age)、試驗(yàn)對象國籍(Country)、試驗(yàn)人數(shù)(Size)、性別(Gender)、樣本來源(Source);
參考文獻(xiàn)表:PMID(該文獻(xiàn)在Pubmed 中的編號)、發(fā)表年份(Year)、文獻(xiàn)題目(Title)、作者(Author)和期刊名(Journal);
變異表:變異編號(Mutation ID)、變異分類(Classification)、變異名稱(Name)、變異位點(diǎn)(Position)、堿 基 變 化(Base variation)、變 異 結(jié) 果(Consequence)、基因(Symbol)、基因所在位點(diǎn)(Gene location)、氨基酸變化(Amino Acid variation);
主表:數(shù)據(jù)唯一的主編號(Main ID)、變異所導(dǎo)致的病理作用(Pathological Function)、臨床特征(Clinical Significance)、臨床應(yīng)用(Application)、患者的變異頻率(Patient-frequency)、對照的變異頻率(Control-frequency)、結(jié)論(Summary)。
1.3.1 PPI 網(wǎng)絡(luò)分析
String 數(shù)據(jù)庫旨在收集、評分和整合所有公開可用的蛋白質(zhì)?蛋白質(zhì)相互作用信息來源,并通過計(jì)算預(yù)測來補(bǔ)充這些信息。String 目前版本為v11.5,已收錄人類(Homo sapiens)的19 303 個(gè)蛋白[15]。將收錄的基因映射到String 數(shù)據(jù)庫中(置信度>0.9),構(gòu)建了蛋白質(zhì)互作(protein protein interaction, PPI)網(wǎng)絡(luò),并通過Cytoscape 計(jì)算節(jié)點(diǎn)的度中心性,以降序排列,取前5%為關(guān)鍵基因。Cytoscape 是一個(gè)專注于網(wǎng)絡(luò)可視化和分析的開源軟件項(xiàng)目,用于將生物分子交互網(wǎng)絡(luò)、高通量基因表達(dá)數(shù)據(jù)和其他的分子狀態(tài)信息整合在一起[16]。
1.3.2 功能富集分析基因本體(gene ontology, GO)是一個(gè)在生物信息學(xué)領(lǐng)域中廣泛使用的本體,包含了生物學(xué)領(lǐng)域知識體系本質(zhì)的表示形式,從基因的分子功能、生物過程和細(xì)胞組分這3 方面對目標(biāo)進(jìn)行注釋[17]。GO可用于系統(tǒng)分析和標(biāo)注基因產(chǎn)物的功能;KEGG 數(shù)據(jù)庫則是用于分子水平信息,尤其是基因組測序等高通量生成的大規(guī)模數(shù)據(jù)集,來了解細(xì)胞、生物和生態(tài)等生物系統(tǒng)的高級功能和效用[18];KEGG 的通路數(shù)據(jù)庫可用于系統(tǒng)層次的疾病機(jī)制的分析。在數(shù)據(jù)庫構(gòu)建的基礎(chǔ)上,本文對數(shù)據(jù)庫中的基因進(jìn)行了GO 富集分析(P值<0.05)和KEGG 通路富集分析(P值<0.05,富集倍數(shù)>2)。
在經(jīng)過上述的篩選和整理后,本文共收錄了1 020種口腔鱗狀細(xì)胞癌相關(guān)遺傳變異,涉及到436 個(gè)蛋白編碼基因和18 個(gè)miRNA 基因,相關(guān)臨床樣本總數(shù)為82 863 個(gè)。其中,明確標(biāo)明為男性和女性的分別為44 475 個(gè)和15 169 個(gè),具體數(shù)據(jù)統(tǒng)計(jì)見表1。其中,部分樣本數(shù)據(jù)沒有注釋性別,導(dǎo)致男性樣本和女性樣本人數(shù)之和小于樣本總?cè)藬?shù)。
表1 數(shù)據(jù)庫基本數(shù)據(jù)統(tǒng)計(jì)
根據(jù)在原始試驗(yàn)中,該遺傳變異參與的正常生物學(xué)過程、病理過程及治療干預(yù)藥理學(xué)反應(yīng),將其按生物標(biāo)志物類型分為診斷、治療和預(yù)后3 類(8%、29%、30%),其中,非單一類型的生物標(biāo)志物(占診斷、治療和預(yù)后的2 種及以上)共182 個(gè),占33%。
按照數(shù)據(jù)庫的結(jié)構(gòu)和應(yīng)用需求,本文設(shè)計(jì)了7 個(gè)在線使用的功能模塊:網(wǎng)頁基本介紹、分類瀏覽、高級檢索、統(tǒng)計(jì)結(jié)果展示、數(shù)據(jù)提交、用戶幫助和管理維護(hù)。
基本介紹:對數(shù)據(jù)庫的內(nèi)容進(jìn)行基本介紹,展示引用相關(guān)資源、相關(guān)數(shù)據(jù)庫和研究機(jī)構(gòu)網(wǎng)址等信息。
分類瀏覽:用戶可根據(jù)3 種分類方式(變異類型、臨床樣本來源、突變的相關(guān)基因分類等)對數(shù)據(jù)進(jìn)行瀏覽。
高級檢索:用戶根據(jù)突變名稱、數(shù)據(jù)來源(地點(diǎn))、基因名稱等條件檢索需要的信息。
統(tǒng)計(jì)結(jié)果:主要由遺傳變異的分類、頻率排前10 位的基因、突變在染色體上分布和臨床樣本來源的地理位置分布熱圖組成。
數(shù)據(jù)提交:用戶只需填寫4 個(gè)條目,包括突變名稱、參考文獻(xiàn)、聯(lián)系郵箱和細(xì)節(jié),即可提交新數(shù)據(jù),其中突變名稱與郵箱為必填項(xiàng)。在審核成功后,系統(tǒng)會將新的數(shù)據(jù)添加進(jìn)本數(shù)據(jù)庫中。
用戶幫助:詳細(xì)介紹了數(shù)據(jù)庫的操作方式,確保用戶能夠正確查找到自己需要的信息。
管理維護(hù):對數(shù)據(jù)庫進(jìn)行更新與維護(hù),更新間隔保持在3~6 個(gè)月,在數(shù)據(jù)更新時(shí),相應(yīng)的統(tǒng)計(jì)也會進(jìn)行更新。
2.3.1 PPI 分析結(jié)果
首先將收錄的436 個(gè)編碼基因通過String 映射到PPI 網(wǎng)絡(luò)中,成功映射了256 個(gè)節(jié)點(diǎn)與1 085 條關(guān)系。通過度中心性,共篩選出了12 個(gè)關(guān)鍵基因,如圖2 與表2 所示,包括PIK3R1、TP53、PIK3CA、MAPK1、HRAS、AKT1、KRAS、RHOA、MYC、EGFR、RELA 以及NRAS。
表2 關(guān)鍵基因在OSCC 中的功能
圖2 口腔鱗狀細(xì)胞癌相關(guān)基因所構(gòu)成的蛋白質(zhì)相互作用網(wǎng)絡(luò)
2.3.2 功能富集分析結(jié)果
將收錄的基因進(jìn)行GO 富集分析,得到了549 個(gè)生物過程、63 個(gè)細(xì)胞組分和106 個(gè)分子功能。在經(jīng)過KEGG 通路分析后,得到了118 個(gè)相關(guān)通路,對上述4 種分析方式的前10 條結(jié)果按基因數(shù)目降序排列,見表3~表6。
表3 根據(jù)基因數(shù)目排列的前十位生物過程
表4 根據(jù)基因數(shù)目排列的前十位細(xì)胞成分
表5 根據(jù)基因數(shù)目排列的前十位分子功能
表6 根據(jù)基因數(shù)目排列的前十位KEGG 通路
由表3 可見,富集最多在RNA 聚合酶II 啟動(dòng)子轉(zhuǎn)錄的正調(diào)控(17.59%)上,RNA 聚合酶II 的作用是催化DNA 轉(zhuǎn)錄,合成mRNA 及大多數(shù)hnRNA和miRNA 的前體;細(xì)胞組分:超過30%的基因富集在細(xì)胞核(43.43%)、細(xì)胞質(zhì)(37.42%)和細(xì)胞膜(32.74%)上;分子功能:富集結(jié)果都與結(jié)合密切相關(guān),其中蛋白結(jié)合(64.14%)上在此次分析中富集的基因最多,牽涉了288 個(gè)基因。在經(jīng)過KEGG通路分析后發(fā)現(xiàn)基因顯著富集在癌癥途徑(pathways in cancer)上,并且參與了PI3K-Akt 信號通路和黏著斑(focal adhesion)。
基于基因表達(dá)模式的分類表明,OSCC 可以分為不同的亞型,文獻(xiàn)[19]通過免疫組化發(fā)現(xiàn)在不同OSCC 亞型中,EGFR、MTDH 和ERCC1 的表達(dá)水平存在顯著的差別。文獻(xiàn)[20]發(fā)現(xiàn)不同的腫瘤亞型對不同類型的療法存在優(yōu)先反應(yīng)[20]。因此,需要高質(zhì)量的數(shù)據(jù)庫來對患者的免疫狀態(tài)進(jìn)行精確判斷,本文將Pubmed 中碎片化的結(jié)論收集起來,基于1991?2021 年間的334 篇文獻(xiàn)中的1 020 條遺傳變異數(shù)據(jù),構(gòu)建了一個(gè)全面、專業(yè)的口腔鱗狀細(xì)胞癌數(shù)據(jù)庫,對變異進(jìn)行分類和對樣本信息進(jìn)行歸納。在生物信息學(xué)分析后發(fā)現(xiàn),PPI 的關(guān)鍵基因包括PIK3、RAS 家族和基因TP53 等。PI3K 參與的PI3K-Akt 通路,調(diào)節(jié)了細(xì)胞的增殖分化、凋亡等多種功能,在KEGG 同樣也被富集,其過度活化與人體腫瘤的發(fā)展密切相關(guān)[21],早在2006 年就有第一個(gè)新型PI3K 抑制劑開始了臨床試驗(yàn)[22];RAS基因的突變存在于30%的人類惡性腫瘤中,其功能是調(diào)節(jié)細(xì)胞的分化增殖,被稱為細(xì)胞信號網(wǎng)絡(luò)傳遞中的“分子開關(guān)”[23];p53 作為TP53 基因表達(dá)的蛋白產(chǎn)物,在人類惡性腫瘤中普遍存在[24],被認(rèn)為是目前最重要的抑癌基因。GO 分析結(jié)果主要富集在細(xì)胞的轉(zhuǎn)錄和調(diào)控、基本組成結(jié)構(gòu)(細(xì)胞核、細(xì)胞膜、細(xì)胞質(zhì))上,說明此類基因與腫瘤的發(fā)生、發(fā)展或轉(zhuǎn)移密切相關(guān)。
癌癥是復(fù)雜的、異質(zhì)的和動(dòng)態(tài)的疾病,將腫瘤的基因分析與個(gè)體生理狀態(tài)的深度縱向分析(深度表型)相結(jié)合是預(yù)防、診斷和治療癌癥的關(guān)鍵,而挖掘深度表型首先需要提高診斷的精度[25]。從建模的角度,可以通過對不同的生物標(biāo)志物進(jìn)行組合和建模,提高預(yù)測口腔鱗狀細(xì)胞癌的發(fā)生和進(jìn)展的準(zhǔn)確性。未來將進(jìn)一步更新數(shù)據(jù)庫的內(nèi)容和結(jié)構(gòu),同時(shí)基于數(shù)據(jù)庫建立知識圖譜和知識引導(dǎo)的模型,通過結(jié)合臨床研究、對口腔鱗狀細(xì)胞癌的基因變異異質(zhì)性進(jìn)行深度分析,為臨床的精準(zhǔn)診療提供數(shù)據(jù)和信息支撐。