黃悅 王婷 胡益祥 張紅偉
摘 要:為實現(xiàn)肺癌的早發(fā)現(xiàn)、早預(yù)防、早治療,從而降低肺癌的發(fā)病概率,提高發(fā)病后的治愈效果,文章從生物醫(yī)學(xué)文獻數(shù)據(jù)庫(PubMed)收集已知的肺癌致病基因位點并建立肺癌樣本數(shù)據(jù)庫,將已建立的肺癌數(shù)據(jù)庫與樣本DNA進行序列比對,根據(jù)比對結(jié)果,判斷樣本人群是否攜帶肺癌的致病基因,然后依據(jù)美國卡內(nèi)基梅隆大學(xué)的關(guān)于肺癌治療數(shù)據(jù)庫,提供預(yù)防及治療意見。
關(guān)鍵詞:肺癌;數(shù)據(jù)庫;DNA序列比對;早期發(fā)現(xiàn);預(yù)防
肺部惡性腫瘤是一種多發(fā)的、嚴重的癌癥,其死亡率在全世界癌癥中居首位,肺癌高死亡率主要是因為癌癥發(fā)現(xiàn)時候已經(jīng)是晚期[1],因此,如何對肺癌的早期發(fā)現(xiàn)、干預(yù)以及治療成為現(xiàn)代醫(yī)學(xué)熱切關(guān)注的問題。癌癥的常規(guī)療法包括外科手術(shù)、化學(xué)治療和放射治療?;瘜W(xué)治療也被稱為藥物治療,在癌癥治療中一直發(fā)揮著重要作用,但是其結(jié)果卻受到其劑量依賴性毒性的影響,目前藥物治療的效果已經(jīng)進入平臺期。而隨著對肺癌發(fā)病機制等認識日益深化,目前研究已發(fā)現(xiàn)一些基因與肺癌相關(guān),包括EGFR,TP53,AKT1,DDR2,F(xiàn)GFR1,KRAS,PTEN等其他基因[2-8],許多針對靶基因的研究已進入臨床實驗階段?;蛑委熥鳛橐环N高效、特異性、靶向性強的治療方法,越來越受到廣大醫(yī)學(xué)者的重視[9]。針對肺癌的發(fā)生、發(fā)展和轉(zhuǎn)移等各個階段以及治療靶位的不同,現(xiàn)代基因療法可以概括為以下幾種類型:阻礙原癌基因過量表達治療、補償抑癌基因表達治療、抗血管生成基因治療、自殺基因治療和免疫基因治療[10]。另外,癌癥致病基因的早發(fā)現(xiàn)、早干預(yù)、早治療也是降低肺癌發(fā)病率、提高治療效果的關(guān)鍵。序列比對作為癌癥致病基因的早發(fā)現(xiàn)、早干預(yù)及基因治療中的關(guān)鍵步驟,以其精確的算法和高準(zhǔn)確率正成為肺癌基因治療中的研究熱點。本研究將增大導(dǎo)致肺癌發(fā)生風(fēng)險率的基因數(shù)據(jù)存入數(shù)據(jù)庫中,將樣本人群的測序基因同數(shù)據(jù)庫中的致病基因進行比對。根據(jù)比對結(jié)果分析是否存在患病風(fēng)險,并設(shè)計相應(yīng)的基因治療方案,從而實現(xiàn)肺癌的早發(fā)現(xiàn)、早干預(yù)、早治療,進而達到降低發(fā)病概率、提高治愈效果的目的。
1 材料與方法
1.1 資料和數(shù)據(jù)
從生物醫(yī)學(xué)文獻數(shù)據(jù)庫PubMed中收集文獻找出肺癌致病基因位點。從高通量基因表達譜數(shù)據(jù)庫(Gene Expression Database,GEO)中下載患者肺癌和癌旁組織樣本。每個樣本的數(shù)據(jù)大小約為15~20 GB。本項目篩選出69組癌與癌旁組織測序數(shù)據(jù),該批樣本中男性患者共計39名,女性患者共計30名,各年齡段患者均有涉及。
1.2 方法
1.2.1 找出肺癌致病基因位點,創(chuàng)建肺癌DNA樣本數(shù)據(jù)庫
在高通量基因表達譜數(shù)據(jù)庫(GEO)中檢索微陣列原始數(shù)據(jù),通過R軟件對原始微陣列數(shù)據(jù)進行標(biāo)準(zhǔn)化。利用GEO2R軟件篩選差異表達基因,并進行聚類分析。利用STRING構(gòu)建由差異表達基因所翻譯的蛋白質(zhì)之間的相互作用(Protein-Protein Interaction,PPI)網(wǎng)絡(luò)。通過Cytoscape選取具有關(guān)鍵蛋白的網(wǎng)絡(luò)模塊并確定樞紐蛋白,找出肺癌致病基因位點。利用MySQL創(chuàng)建肺癌DNA樣本數(shù)據(jù)庫,將找出的致病基因位點存入數(shù)據(jù)庫。
1.2.2 DNA序列比對技術(shù)
DNA序列比對是根據(jù)一個給定的計分函數(shù)計算得到兩個或多個堿基序列的最優(yōu)比對,即對兩個或多個堿基(在核酸中是A,T(或U),C,G,在蛋白質(zhì)中是氨基酸殘基的單字母表示)序列通過匹配相對應(yīng)的堿基或插入“—”來顯示插入或刪除,進行相似度分析,從而得到序列之間的最大相似性排列[11]。通過序列比對,找出序列之間的相似性,發(fā)現(xiàn)與結(jié)構(gòu)相聯(lián)系的保守序列片段,以及檢測新測定序列與數(shù)據(jù)庫中已知結(jié)構(gòu)和功能的序列之間的相似性關(guān)系,從而以足夠的可信度確定新序列的結(jié)構(gòu)和功能信息。研究中將已建立的肺癌數(shù)據(jù)庫與樣本DNA序列進行比對,獲得序列在基因組上的位置信息以及相應(yīng)的比對結(jié)果。
1.2.3 根據(jù)比對結(jié)果提供預(yù)防及治療意見
使用美國卡內(nèi)基梅隆大學(xué)的關(guān)于肺癌治療數(shù)據(jù)庫,將細胞類型、病人存活時間、狀態(tài)、患者生活質(zhì)量評分、治療起始時間、年齡的數(shù)據(jù)作為輸入因子,將要預(yù)測的肺癌治療手段作為輸出因子,在分析與肺癌有關(guān)的各屬性的統(tǒng)計數(shù)值之后,對其中與產(chǎn)量有著密切關(guān)系的屬性加以著重考慮,與DNA序列比對結(jié)果進行比較,給出最佳的治療建議。技術(shù)路線如圖1所示。
2 結(jié)果
首先將已建立的肺癌樣本數(shù)據(jù)庫與用戶DNA序列進行比對,獲得序列在基因組上的位置信息以及相應(yīng)的比對結(jié)果。利用C#實現(xiàn)序列算法將用戶序列數(shù)據(jù)回帖至樣本數(shù)據(jù)庫中以獲得序列在基因組上的準(zhǔn)確位置。再通過聚類分析,識別錯配位點并進行多重校正算法檢驗,識別出癌與癌旁組織中的特異性位點,降低識別結(jié)果中的假陽性,為后續(xù)分析提供良好基礎(chǔ)。
將樣本人群的測序基因同數(shù)據(jù)庫中的致病基因進行序列比對,比對的結(jié)果反映了在多大程度上序列之間的相似性關(guān)系以及它們的生物學(xué)特征,指明序列間的保守區(qū)域和不同之處,為進一步研究它們在結(jié)構(gòu)、功能的聯(lián)系提供了重要的參考依據(jù)。最后根據(jù)比對結(jié)果分析是否存在患病風(fēng)險,并設(shè)計相應(yīng)的基因治療方案,從而實現(xiàn)肺癌的早發(fā)現(xiàn)、早干預(yù)、早治療,進而達到降低發(fā)病概率、提高治愈效果的目的。
3 討論
本研究根據(jù)篩選出的肺癌致病基因位點建立數(shù)據(jù)庫,通過DNA序列比對算法,將樣本DNA序列和數(shù)據(jù)庫內(nèi)的致病基因進行比對,檢測樣本人群是否攜帶肺癌的致病基因,實現(xiàn)肺癌的早發(fā)現(xiàn)、早預(yù)防、早治療,從而降低發(fā)病概率,提高治愈效果。
深入分析DNA序列比對與癌癥發(fā)現(xiàn)及預(yù)防的關(guān)系,著重從創(chuàng)建肺癌DNA樣本數(shù)據(jù)庫、DNA序列比對技術(shù)、分析比對結(jié)果并提供意見這3個方面進行研究。在分析肺癌基因位點并研究多序列比對技術(shù)的基礎(chǔ)上,提出了基于DNA序列比對的肺癌早期發(fā)現(xiàn)及預(yù)防方案,并采用C#程序設(shè)計語言和數(shù)據(jù)庫技術(shù)建立了框架和平臺,實現(xiàn)了樣本數(shù)據(jù)的集成、存儲、管理與利用,保證了各個系統(tǒng)之間數(shù)據(jù)可共享交換,為序列比對及治療建議提供了數(shù)據(jù)支撐,為樣本數(shù)據(jù)的集成應(yīng)用奠定了基礎(chǔ)。
使用PubMed數(shù)據(jù)庫作為查找工具。PubMed是一個免費搜尋引擎,它提供生物醫(yī)學(xué)方面的論文搜尋以及摘要,數(shù)據(jù)庫來源為MEDLINE,核心主題為醫(yī)學(xué)。MySQL是本項目所使用的一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng),用來寫入包含致病基因的DNA序列,關(guān)系數(shù)據(jù)庫將數(shù)據(jù)保存在不同的表中,而不是將所有數(shù)據(jù)放在一個大倉庫內(nèi),這樣就增加了速度并提高了靈活性。MySQL目前屬于Oracle旗下產(chǎn)品,是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,是最好的關(guān)系數(shù)據(jù)庫管理系統(tǒng)(Relational Database Management System,RDBMS)應(yīng)用軟件。使用C#作為實現(xiàn)DNA序列比對算法的主要工具,用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計算的高級技術(shù)計算語言和交互式環(huán)境。
隨著生物信息學(xué)的迅速發(fā)展,國內(nèi)外學(xué)者對該領(lǐng)域的關(guān)注度持續(xù)增高,產(chǎn)生了許多基于基因序列比對的算法研究?;蛐蛄斜葘κ巧镄畔W(xué)最基本、最重要的操作,是進行基因識別、信息分析、結(jié)構(gòu)預(yù)測等問題的前提。本項目采用借用DNA序列比對算法對生物序列進行相似性比較,從而判斷出用戶DNA序列與肺癌樣本數(shù)據(jù)庫中序列的一致性程度。并根據(jù)設(shè)定的閾值,結(jié)合肺癌治療數(shù)據(jù)庫提供治療建議。
[參考文獻]
[1]SIEGEL R L,MILLER K D,JEMAL A.Cancer statistics[J].Ca A Cancer Journal for Clinicians,2014(1):5-29.
[2]CABANERO M,SANGHA R,SHEFFIELD B S,et al.Management of EGFR-mutated non–small-cell lung cancer: practical implications from a clinical and pathology perspective[J].Current Oncology,2017(24):111-119.
[3]LABBE C,CABANERO M,KORPANTY G J,et al.Prognostic and predictive effects of TP53 co-mutation in patients with EGFR-mutated non–small cell lung cancer(NSCLC)[J].Lung Cancer,2017(111):23-29.
[4]RAO G,PIEROBON M,KIM I K,et al.Inhibition of AKT1 signaling promotes invasion and metastasis of non-small cell lung cancer cells with K-RAS or EGFR mutations[J].Scientific Reports,2017(1):7066.
[5]FATHI Z,MOUSAVI S A J,ROUDI R,et al.Distribution of KRAS,DDR2,and TP53 gene mutations in lung cancer: An analysis of Iranian patients[J].PLoS One,2018(7):633.
[6]MALCHERS F,ERCANOGLU M,SCH?TTE D,et al.Mechanisms of primary drug resistance in FGFR1-amplified lung cancer[J].Clinical Cancer Research,2017(18):5527-5536.
[7]VANDERLAAN P A,RANGACHARI D,MOCKUS S M,et al.Mutations in TP53,PIK3CA,PTEN and other genes in EGFR mutated lung cancers: correlation with clinical outcomes[J].Lung Cancer,2017(106):17-21.
[8]PROS E,LANTUEJOUL S,SANCHEZ-VERDE L,et al.Determining the profiles and parameters for gene amplification testing of growth factor receptors in lung cancer[J].International Journal of Cancer,2013(4):898-907.
[9]HANNA E,R?MUZAT C,AUQUIER P,et al.Gene therapies development: slow progress and promising prospect[J].Journal of Market Access & Health Policy,2017(1):1265293.
[10]PRABHA S,SHARMA B,LABHASETWAR V.Inhibition of tumor angiogenesis and growth by nanoparticle-mediated p53 gene therapy in mice[J].Cancer Gene Therapy,2012(8):530-537.
[11]謝少榮,王東紅,羅均,等.基于生物信息學(xué)中雙DNA序列比對算法的圖像立體匹配及其實現(xiàn)[J].光學(xué)精密工程,2007(1):106-111.
Abstract:In order to achieve early detection, early prevention and early treatment of lung cancer, thereby reducing the incidence of lung cancer and improving the healing effect after onset, the article collected known lung cancer pathogenic gene loci and established lung cancer samples from the PubMed database. The database compares the established lung cancer database with the sample DNA, and judges whether the sample population carries the disease-causing gene of lung cancer according to the comparison result, and then provides prevention and treatment advice according to the database of lung cancer treatment of Carnegie Mellon University.
Key words:lung cancer; database; DNA sequence alignment; early detection; prevention