蘇麗萍,郭姍姍,劉 洋,陳雅婧, 朱盈霏, 邢金良,郭 旭,郭海濤
(空軍軍醫(yī)大學(xué)基礎(chǔ)醫(yī)學(xué)院: 1生理與病理生理學(xué)教研室, 2學(xué)員二大隊(duì),陜西 西安 710032)
人的線粒體DNA(mitochondrial DNA,mtDNA)是由16 569個(gè)堿基組成的雙鏈環(huán)狀閉合DNA[1]。mtDNA包括37個(gè)基因,分別負(fù)責(zé)編碼13種蛋白質(zhì)、22種tRNA和2種rRNA,具有多態(tài)性程度高、拷貝數(shù)多、母系遺傳等特點(diǎn)[2]。mtDNA變異包括遺傳性突變和體細(xì)胞突變。研究報(bào)道線粒體的遺傳性突變與癌癥發(fā)生發(fā)展相關(guān),如mtDNA單倍群與腸癌等癌癥的發(fā)生有關(guān)[3-4]。mtDNA體細(xì)胞突變參與多種疾病和衰老的發(fā)生和進(jìn)展[5-6]。此外,與核基因組的兩個(gè)拷貝相比,線粒體基因組在細(xì)胞中以多個(gè)拷貝的形式存在。研究表明mtDNA的拷貝數(shù)異常變化與多種癌癥的發(fā)生相關(guān)聯(lián)[7]。近年來,DNA的片段分布規(guī)律在癌癥研究中受到廣泛關(guān)注[8-9]。因此,準(zhǔn)確定量和定性分析mtDNA的變異、拷貝數(shù)和DNA片段分布對(duì)后續(xù)研究結(jié)果的準(zhǔn)確性具有重大意義。
遺傳物質(zhì)從線粒體轉(zhuǎn)移到細(xì)胞核并將其整合到核基因組的過程中,mtDNA片段被合并為非編碼序列,這樣的片段稱為核線粒體DNA(nuclear mitochondrial DNA,NUMT)[10-11]。NUMT片段是線粒體基因向核基因組轉(zhuǎn)移造成的,在這些核基因組上與mtDNA高度相似的DNA片段容易被通用mtDNA引物擴(kuò)增出來,并被錯(cuò)誤地當(dāng)成mtDNA進(jìn)行后續(xù)分析。顯而易見NUMT的存在給mtDNA的研究帶來潛在的影響[12]。目前,mtDNA檢測最常見的方法是二代測序。在mtDNA二代測序分析過程中主要通過比對(duì)的方法來減少NUMT的影響。而比對(duì)的方法主要是將測序reads同時(shí)與線粒體參考基因組和核參考基因組進(jìn)行比對(duì),比對(duì)到核基因組的reads可能是NUMT,并在后續(xù)分析過程中過濾掉這些reads[13-14]。本研究根據(jù)該方法得到不包含NUMT的測序數(shù)據(jù)。目前尚無研究表明NUMT在mtDNA二代測序數(shù)據(jù)中的影響。因此,本研究旨在從mtDNA的變異、拷貝數(shù)、單倍群和片段分布的角度來研究NUMT對(duì)于mtDNA二代測序分析的影響,減少mtDNA二代測序數(shù)據(jù)分析過程中因NUMT的影響導(dǎo)致的誤差。
本研究對(duì)2020年8月至2020年12月從空軍軍醫(yī)大學(xué)西京醫(yī)院收集的20例卵巢癌組織樣本進(jìn)行mtDNA捕獲測序,并通過空軍軍醫(yī)大學(xué)倫理委員會(huì)批準(zhǔn)(許可證號(hào):KY20193029),且已獲得每位患者的書面同意。
1.2.1 mtDNA的靶向捕獲測序 對(duì)20例卵巢癌組織樣本進(jìn)行全基因組DNA提取、文庫構(gòu)建、mtDNA的靶向捕獲及測序,具體過程見已報(bào)道的研究[15]。捕獲后的DNA產(chǎn)物在Illumina HiSeq X Ten平臺(tái)上進(jìn)行雙端150 bp(PE150)測序。
1.2.2 mtDNA突變分析 使用fastp 0.20.0軟件去除原始測序reads中低質(zhì)量reads(質(zhì)量分?jǐn)?shù)<30)以及接頭序列。接著,使用Burrows-Wheeler-Alignment 0.7.17-r1188軟件將reads比對(duì)到參考基因組上,獲取每個(gè)reads在基因組的位置信息。采用Picard 1.81軟件將比對(duì)結(jié)果進(jìn)行排序和去重。由于mtDNA的插入缺失會(huì)導(dǎo)致比對(duì)錯(cuò)誤,故用GATK 3.2-2軟件進(jìn)行局部重比對(duì)。隨后,統(tǒng)計(jì)mtDNA 16 569個(gè)堿基的主、次要等位堿基位于正反義鏈的reads數(shù),計(jì)算每個(gè)位點(diǎn)的突變頻率,根據(jù)一系列的過濾條件進(jìn)行過濾,獲得mtDNA突變結(jié)果。過濾條件是:①突變頻率≥1%;②不考慮錯(cuò)配數(shù)>3的reads;③位點(diǎn)深度≥100;④正反義鏈上突變的reads數(shù)同時(shí)≥3;⑤不考慮重復(fù)區(qū)域(66~71,303~311,514~523,12 418~12 425,16 184~16 193)上的突變位點(diǎn)。根據(jù)上述步驟最終獲得mtDNA突變結(jié)果[16]。
1.2.3 mtDNA拷貝數(shù)分析 為了計(jì)算mtDNA的拷貝數(shù),根據(jù)文獻(xiàn)[17]方法進(jìn)行mtDNA拷貝數(shù)的計(jì)算,其計(jì)算公式為:mtDNA拷貝數(shù)=(mtDNA的平均測序深度×2)/核基因組DNA的平均測序深度。
本研究對(duì)mtDNA采用的測序方法是mtDNA的捕獲測序而不是全基因組測序,而已有研究應(yīng)用6個(gè)核基因組區(qū)域的平均測序深度代表整個(gè)核基因組DNA的平均測序深度[17]。故本研究在計(jì)算mtDNA拷貝數(shù)的過程中,應(yīng)用6個(gè)核基因組區(qū)域的平均測序深度來表示核基因組DNA的平均測序深度。
1.2.4 mtDNA單倍群分析 本研究利用mitotool 1.1.2工具[18]對(duì)20例卵巢癌組織樣本的測序數(shù)據(jù)進(jìn)行單倍群分析。使用的PhyloTree版本為17[19]。
1.2.5 計(jì)算mtDNA片段數(shù)目 使用Picard 1.81軟件中的CollectInsertSizeMetrics.jar程序計(jì)算每個(gè)樣本中各個(gè)mtDNA片段大小的數(shù)目。將20例卵巢癌組織樣本在各個(gè)mtDNA片段大小的數(shù)目取平均值,得到平均mtDNA片段數(shù)目。
1.2.6 包含和不包含NUMT測序數(shù)據(jù)的獲取 NUMT序列因與mtDNA的相似性,采用只比對(duì)到線粒體參考基因組的比對(duì)方法,NUMT容易被錯(cuò)誤地當(dāng)成mtDNA比對(duì)到線粒體基因組。因此,包含NUMT的測序數(shù)據(jù)是在比對(duì)的過程中僅將reads比對(duì)到修訂的劍橋參考序列上,而不包含NUMT的測序數(shù)據(jù)(指在比對(duì)過程中將reads同時(shí)比對(duì)到核基因組hg19和線粒體基因組修訂的劍橋參考序列上),通過過濾比對(duì)到核參考基因組的reads減少了NUMT的影響。根據(jù)這兩種不同的比對(duì)方式分別獲得包含和不包含NUMT的測序數(shù)據(jù)。
1.2.7 統(tǒng)計(jì)學(xué)分析 使用GraphPad Prism 8.0軟件進(jìn)行統(tǒng)計(jì)學(xué)分析。使用配對(duì)t檢驗(yàn)對(duì)具有連續(xù)變量的兩組之間進(jìn)行比較,P<0.05表示差異有統(tǒng)計(jì)學(xué)意義。
為了研究NUMT對(duì)mtDNA測序數(shù)據(jù)平均測序深度的影響,本研究對(duì)20例卵巢癌組織樣本mtDNA捕獲測序數(shù)據(jù)進(jìn)行分析,結(jié)果發(fā)現(xiàn),包含NUMT的卵巢癌組織樣本測序數(shù)據(jù)mtDNA的平均測序深度顯著高于不包含NUMT的測序數(shù)據(jù)(P<0.01,圖1)。該結(jié)果說明NUMT增加mtDNA的測序深度,其可能影響mtDNA測序數(shù)據(jù)的下一步分析。
bP < 0.01 vs不包含NUMT。圖1 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA測序深度比較
上述分析發(fā)現(xiàn)NUMT顯著增加mtDNA測序數(shù)據(jù)的測序深度,為了進(jìn)一步探究NUMT是否會(huì)影響mtDNA變異位點(diǎn),本研究通過對(duì)20例卵巢癌組織樣本mtDNA捕獲測序數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)包含NUMT的測序數(shù)據(jù)與不包含NUMT的測序數(shù)據(jù)之間,mtDNA變異位點(diǎn)數(shù)量無顯著性差異(P> 0.05,圖2A),兩種測序數(shù)據(jù)同時(shí)檢測到的變異位點(diǎn)頻率無顯著性差異(P> 0.05,圖2B)。該結(jié)果說明NUMT對(duì)mtDNA的變異位點(diǎn)影響較小。
圖2 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA變異數(shù)量(A)及頻率(B)比較
為了進(jìn)一步研究NUMT是否對(duì)mtDNA拷貝數(shù)產(chǎn)生影響,本研究對(duì)20例卵巢癌組織樣本mtDNA捕獲測序數(shù)據(jù)進(jìn)行分析,結(jié)果發(fā)現(xiàn),與不包含NUMT的樣本相比,包含NUMT的測序數(shù)據(jù)的mtDNA拷貝數(shù)顯著增高(P<0.05,圖3)。這說明了NUMT的存在影響二代測序數(shù)據(jù)中mtDNA拷貝數(shù)的計(jì)算。
aP<0.05 vs不包含NUMT。圖3 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA拷貝數(shù)比較
mtDNA的單倍群分析是mtDNA二代測序數(shù)據(jù)分析的常見內(nèi)容。為了進(jìn)一步分析NUMT是否會(huì)影響mtDNA單倍群的計(jì)算,本研究通過對(duì)20例卵巢癌組織樣本的mtDNA捕獲測序數(shù)據(jù)分析發(fā)現(xiàn),無論是包含NUMT還是不包含NUMT的mtDNA測序數(shù)據(jù),mtDNA的單倍群并沒有發(fā)生改變,說明NUMT的存在對(duì)二代測序mtDNA單倍群分析結(jié)果影響較小(表1)。
表1 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA單倍群比較
為了研究NUMT是否會(huì)影響二代測序數(shù)據(jù)中mtDNA片段分布,我們對(duì)20例卵巢癌組織樣本的mtDNA捕獲測序數(shù)據(jù)進(jìn)行了分析,結(jié)果發(fā)現(xiàn),在包含NUMT和不包含NUMT的測序數(shù)據(jù)中,mtDNA的片段分布具有顯著性差異(P<0.01)。雖然兩組數(shù)據(jù)的DNA片段分布峰值所在DNA片段大小的差異不明顯,但在包含NUMT的測序數(shù)據(jù)中,分布在150~300 bp之間的mtDNA片段數(shù)量明顯高于不包含NUMT的測序數(shù)據(jù)(圖4),由此說明NUMT的存在影響mtDNA的片段分布。
bP<0.01 vs不包含NUMT。圖4 包含NUMT和不包含NUMT測序數(shù)據(jù)的mtDNA片段分布比較
二代測序作為研究mtDNA變異、拷貝數(shù)和片段分布的常見方法,NUMT在其中的影響尚未闡明。因此,本研究對(duì)20例卵巢癌組織樣本的mtDNA捕獲測序數(shù)據(jù)進(jìn)行分析,比較了包含NUMT和不包含NUMT的測序數(shù)據(jù)對(duì)mtDNA的測序深度、變異、拷貝數(shù)、單倍群和片段分布分析的影響。結(jié)果顯示,NUMT的存在對(duì)mtDNA的變異和單倍群的分析影響較小,而對(duì)mtDNA的測序深度、拷貝數(shù)和片段分布有較大影響。
由于本研究運(yùn)用嚴(yán)格的多重過濾條件進(jìn)行mtDNA突變的過濾和篩選,因此NUMT的存在對(duì)mtDNA突變分析影響較小。由于mtDNA單倍群是基于mtDNA的變異位點(diǎn)進(jìn)行計(jì)算的,因此NUMT的存在對(duì)mtDNA單倍群分析的影響也較小。而二代測序reads較短,使得原本與mtDNA相似的NUMT更容易在比對(duì)的過程中被錯(cuò)誤地當(dāng)成mtDNA,因此包含NUMT測序數(shù)據(jù)的mtDNA平均測序深度會(huì)高于不包含NUMT的測序數(shù)據(jù)。mtDNA的平均測序深度作為計(jì)算mtDNA拷貝數(shù)的重要組成部分,也會(huì)影響mtDNA拷貝數(shù)的計(jì)算,因此包含NUMT測序數(shù)據(jù)的mtDNA拷貝數(shù)會(huì)高于不包含NUMT的測序數(shù)據(jù)。此外,測序深度存在的差異可解釋為包含NUMT的測序數(shù)據(jù)中mtDNA片段數(shù)目較不包含NUMT測序數(shù)據(jù)高。
然而,本研究也存在一定的局限性:第一,與以往研究中有使用全基因組測序研究mtDNA突變的相關(guān)報(bào)道[20]相比,本研究使用的測序數(shù)據(jù)為mtDNA捕獲測序數(shù)據(jù),尚未考慮到全基因組測序數(shù)據(jù)中NUMT對(duì)mtDNA分析的影響。第二,本研究采用的樣本類型是組織樣本,尚未考慮不同的樣本類型(如血漿)中NUMT存在對(duì)測序結(jié)果的影響。第三,近年來,mtDNA的甲基化也逐漸成為一個(gè)研究熱點(diǎn)[21-22],由于受到實(shí)驗(yàn)條件的限制,尚未研究NUMT對(duì)于mtDNA甲基化的影響,其有待后續(xù)的研究開展。第四,本研究是基于比對(duì)的方式來減少測序數(shù)據(jù)中的NUMT,無法完全去除測序數(shù)據(jù)中的NUMT。由于NUMT的研究較少,目前尚未找到完全去除測序數(shù)據(jù)中NUMT的方法。
綜上所述,本研究探討了 NUMT 的存在對(duì)mtDNA二代測序數(shù)據(jù)分析的影響,為后續(xù)基于二代測序的mtDNA相關(guān)研究的開展奠定了基礎(chǔ),為準(zhǔn)確分析mtDNA變異、拷貝數(shù)和片段分布提供了方向,推動(dòng)了mtDNA相關(guān)研究的進(jìn)展。
空軍軍醫(yī)大學(xué)學(xué)報(bào)2022年3期