李嘉琦,逄洪波,解元坤,李玥瑩,陳 強(qiáng)
(1.沈陽師范大學(xué)生命科學(xué)學(xué)院;2.沈陽師范大學(xué)實(shí)驗(yàn)教學(xué)中心,遼寧 沈陽 110034)
在過去的20年里,用致病基因或?qū)ζ渌麖?fù)雜性狀有影響的基因座繪制基因聯(lián)鎖圖譜,已經(jīng)普遍存在.基因連鎖圖譜依賴于因果變異與系譜內(nèi)標(biāo)記等位基因的共分離,但由于單個(gè)因果變異的影響(外顯率)太弱,無法通過系譜內(nèi)的共分離進(jìn)行檢測,因此連鎖分析不能可靠地識別復(fù)雜性狀基因座[1].GWAS(genome-wide association study,GWAS)是一種基于連鎖不平衡(linkage disequilibrium,LD)原理的分析方法,用于檢測基因變異和來自群體的樣本特征之間的聯(lián)系.
在過去的5年中,GWAS已經(jīng)用于幾乎所有主要的免疫介導(dǎo)的疾病,并且成功地對強(qiáng)直性脊柱炎、類風(fēng)濕關(guān)節(jié)炎、系統(tǒng)性紅斑狼瘡、潰瘍性結(jié)腸炎等7種自身免疫疾病進(jìn)行了基因定位[1].同時(shí)在糖尿病和精神分裂癥的研究上也取得了極大的進(jìn)展[2].目前,在動物培育方面,特別是奶牛產(chǎn)業(yè)中應(yīng)用最為廣泛,雞、豬的培育中也開始應(yīng)用[3,4];在植物育種中,全基因組關(guān)聯(lián)分析的方法在大豆、水稻、玉米等重要作物上取得了極大的成功.Zatybekov et al[5]共鑒定到30個(gè)SNP位點(diǎn),這些標(biāo)記與開花和成熟時(shí)間、株高、可育節(jié)數(shù)、單株產(chǎn)量等相關(guān),研究證實(shí)了GWAS在大豆重要農(nóng)藝性狀的分子標(biāo)記鑒定中的有效性.Li et al[6]利用266個(gè)栽培稻品種的微核心種質(zhì)(mini core collection,MCC)和全基因組序列,基于GWAS和相互作用分析,研究了抽穗期(heading date,HD)與產(chǎn)量性狀之間可能的分子遺傳機(jī)制,為培育出生長時(shí)間短、產(chǎn)量高的水稻品種提供了理論基礎(chǔ).Jiao et al[7]對278個(gè)不同生育階段的溫帶玉米自交系進(jìn)行序列分析,結(jié)果表明,稀有等位基因的相對比例可以作為未來育種計(jì)劃的選擇指數(shù).Yano et al[8]對176個(gè)粳稻品種的全基因組序列分析,同時(shí)計(jì)算了基因組的核苷酸多樣性,確定了4個(gè)與農(nóng)藝性狀相關(guān)的新基因.Yu et al[9]利用504個(gè)栽培稻的1 000萬個(gè)SNP鑒定出99個(gè)與水稻籽粒長度相關(guān)的QTL,其中有92個(gè)是新發(fā)現(xiàn)的位點(diǎn),并通過對每個(gè)基因座雜合度指數(shù)(observed heterozygosity per locus,Ho)進(jìn)行連鎖和關(guān)聯(lián)作圖,鑒定出2個(gè)與籽粒長度相關(guān)的新基因.Si et al[10]使用混合線性模型(mixed linear model,MLM)對381個(gè)粳稻品種進(jìn)行GWAS分析,研究表明,通過GLW7編碼轉(zhuǎn)錄因子OsSPL13,促進(jìn)籽粒穎殼增大,從而使籽粒變長,并增加產(chǎn)量.
以GWAS為關(guān)鍵詞,在谷歌學(xué)術(shù)檢索從2005年至今發(fā)表的文獻(xiàn)數(shù)量,發(fā)現(xiàn)自2010年開始與GWAS相關(guān)的論文數(shù)量大幅增多,從2012年至今,論文年發(fā)表數(shù)量都在10000篇以上(圖1).通過檢索GWAS在幾種植物中的應(yīng)用可以發(fā)現(xiàn),GWAS在擬南芥和水稻中有較為廣泛的應(yīng)用,在大豆、玉米等作物中也有應(yīng)用(圖2).
群體結(jié)構(gòu)會影響QTL定位的準(zhǔn)確性,對GWAS分析的準(zhǔn)確度造成影響[11].由于群體結(jié)構(gòu)的影響通常導(dǎo)致種群間遺傳變異的等位基因頻率存在差異,在與無關(guān)個(gè)體的關(guān)聯(lián)研究中未檢測到或未記錄的種群結(jié)構(gòu)有可能導(dǎo)致混雜和偏差,群體結(jié)構(gòu)易混淆會導(dǎo)致在分析過程中出現(xiàn)虛假關(guān)聯(lián),因而評定GWAS中的群體結(jié)構(gòu)十分重要[12].Chen et al[13]提出了一種邏輯混合模型,即廣義線性混合模型關(guān)聯(lián)測試(generalized linear mixed model association test,GMMAT),在二元特征和個(gè)體遺傳變異之間沒有關(guān)聯(lián)的零假設(shè)下進(jìn)行測試.通過模擬研究和數(shù)據(jù)分析證明,GMMAT在分析各種研究設(shè)計(jì)中的二元特征時(shí)有效地控制了種群結(jié)構(gòu)和相關(guān)性.
上位效應(yīng)用于描述一個(gè)基因座對另一個(gè)基因座的掩蔽效應(yīng)[14],也被廣泛地稱為跨表型的不同基因的聯(lián)合效應(yīng).忽略上位效應(yīng)可能會導(dǎo)致分析結(jié)果偏差并導(dǎo)致遺傳缺失[15].上位關(guān)聯(lián)分析的研究充實(shí)了數(shù)量遺傳學(xué)內(nèi)容.Zhang et al[16]提出了BEMA法,包括兩個(gè)基本組成部分,分別是基于Markov鏈蒙特·卡羅方法(Monte Carlo)的貝葉斯上位推理工具和用于評估統(tǒng)計(jì)顯著性的新型檢驗(yàn)統(tǒng)計(jì)量.Zhang et al[17]提出了基于完整的多基因線性模型的PEPIS,專門為上位遺傳估計(jì)而開發(fā),包括四個(gè)獨(dú)立的模塊,親屬矩陣計(jì)算,多基因成分分析,主要效應(yīng)和上位效應(yīng)的基因組掃描或繪圖.LU et al[18]提出了一種用于純合作物的上位性關(guān)聯(lián)作圖(EAM)方法,用于進(jìn)行EAM作圖的分別是復(fù)雜性狀的表型值以及分子標(biāo)記信息.Gyenesei et al[19]提出的BiForce支持GWAS中上位性的高通量分析,用于定量致病性狀研究.BiForce可以將上位性分析作為GWAS的常規(guī)運(yùn)算,從而幫助我們理解在基因調(diào)控復(fù)雜性狀過程中上位性起到的作用.
單一位點(diǎn)檢驗(yàn)和多位點(diǎn)檢驗(yàn)方法在稀有變量檢驗(yàn)中存在局限性,導(dǎo)致在稀有變量數(shù)據(jù)檢驗(yàn)中功效低和穩(wěn)定性差.而近年來新出現(xiàn)的方法避免了這些問題.針對稀有位點(diǎn)設(shè)計(jì)的首個(gè)檢驗(yàn)方法是由Morgenthaler et al[20]提出的隊(duì)列等位基因加和檢驗(yàn)(cohort allelic sums test,CAST);與CAST以一個(gè)區(qū)域內(nèi)的稀有變量數(shù)目做二分類折疊稍有不同的是Morris et al[21]提出的通過計(jì)算稀有變量進(jìn)行折疊的檢驗(yàn)方法.隨后又發(fā)展了2種方法,即多元與集合合并法(combined multivariate and collapsing,CMC)[22,23]和加權(quán)和法(weighted sum method,WSM)[23]以解決CAST中遇到的問題.Price et al[24]提出的可變閾值(variable-thresholds,VT)合并關(guān)聯(lián)分析方法進(jìn)一步改進(jìn)了由于閾值選擇性帶來的問題.之后,Pan et al[25]提出了一系列的關(guān)聯(lián)分析適應(yīng)方法,根據(jù)不同的檢驗(yàn)統(tǒng)計(jì)量、不同的變量排序方法,可以得到不同的適應(yīng)檢驗(yàn)方法,VT方法可以作為這種適應(yīng)方法的例子.Neale et al[26]提出了C-α檢驗(yàn)方法(C-alpha score),比較所有變量的分布觀測方差和期望方差間的差距,從而能很好地規(guī)避不同作用變量位點(diǎn)帶來的作用相消情況,當(dāng)致病變量和保護(hù)性變量的個(gè)數(shù)相當(dāng)時(shí),此種方法的功效在所有已有方法中是最高的.Wu et al[27]提出序列核關(guān)聯(lián)性檢驗(yàn)(sequencing kernel association test,SKAT)檢驗(yàn)方法,SKAT通過擬合只包含協(xié)變量的空模型,快速計(jì)算出p值,從而方便地應(yīng)用于全基因組數(shù)據(jù),并且具有顯著的速度優(yōu)勢.
環(huán)境因素和基因相互作用下可能會產(chǎn)生許多復(fù)雜的性狀,這些SNP具有較弱的邊際效應(yīng),在全基因組關(guān)聯(lián)分析過程中可能被忽視[28].Aulchenko et al[29]使用probABEL進(jìn)行了全基因組的環(huán)境相互作用研究,并建立了包含4分位數(shù)組的虛擬變量和SNP,并以此測試基因與環(huán)境的交互作用.Zhang et al[28]提出了一種兩步測試法,代替?zhèn)鹘y(tǒng)的一步法,通過篩選優(yōu)先考慮最可能參與基因與環(huán)境相互作用的SNP以提高效率.Kraft et al[30]提出了邊際關(guān)聯(lián)和基因-環(huán)境相互作用的聯(lián)合檢驗(yàn),將該聯(lián)合檢驗(yàn)的功效和樣本大小要求與其他分析進(jìn)行比較,發(fā)現(xiàn)聯(lián)合檢驗(yàn)的結(jié)果更有說服力,結(jié)果的可靠性也不會隨著邊際檢驗(yàn)的增加而降低.Murcray et al[31]提出的兩步法可以通過結(jié)合初步篩選步驟構(gòu)建,以有效地使用數(shù)據(jù)中的所有可用信息,并且證明這種兩步法比各種模型的標(biāo)準(zhǔn)交互測試更強(qiáng)大.
隨著關(guān)聯(lián)分析的快速發(fā)展,GWAS已經(jīng)成功地應(yīng)用于多種數(shù)據(jù)的分析,如單核苷酸多態(tài)性(single nucleotide polymorphisms,SNP)、基因拷貝變異(copy number variations,CNV)、基因、轉(zhuǎn)錄水平等不同類型的數(shù)據(jù).針對這些數(shù)據(jù)類型,關(guān)聯(lián)分析產(chǎn)生了多種分析模型(表1),從而縮短計(jì)算時(shí)間,可以更有效地進(jìn)行數(shù)據(jù)分析.
對于SNP基因座,可以采用廣義線性模型(generalized linear model,GLM)和混合線性模型(mixed linear model,MLM)的方法分析.Wang et al[32]基于重疊基因以及由于LD引起的SNP之間的相關(guān)性兩個(gè)問題,設(shè)計(jì)了廣義線性混合模型.Aulchenko et al[33]提出的兩步法,能夠有效地減少由于個(gè)體數(shù)量龐大而導(dǎo)致的MLM計(jì)算時(shí)間增加.Lu et al[34]提出的BLVS方法,不僅考慮了SNP集之間的相關(guān)性,而且還能夠檢測與性狀略微不相關(guān)的因果SNP集.Wang et al[35]提出了一種基于SNP之間的LD信息的新的標(biāo)簽化SNP集選擇方法,可以含有最多信息的SNP.與傳統(tǒng)分析方法相比,這種方法不僅具有更高功效,而且可以最小化所選標(biāo)簽SNP的數(shù)量,并最大化所選標(biāo)簽SNP提供的信息,具有較低的基因分型成本和較低的時(shí)間復(fù)雜度.
表1 關(guān)聯(lián)分析軟件功能及特點(diǎn)Table 1 Main functions and features of softwares relating to genome-wide association studies
直接基因拷貝變異(copy number variations,CNV)能夠有效地確定致病基因的遺傳風(fēng)險(xiǎn).Yoon et al[36]人開發(fā)了基于讀取深度檢測CNV的方法,可以分成3個(gè)階段.(1)首先,估計(jì)個(gè)體基因組中非重疊區(qū)域的測序深度和覆蓋度;(2)使用CNV-calling算法和EWT測試進(jìn)行位點(diǎn)檢測;(3)比較多個(gè)個(gè)體的數(shù)據(jù),區(qū)分多態(tài)性位點(diǎn)和其他相似拷貝數(shù)的位點(diǎn).計(jì)算窗口內(nèi)的讀取深度時(shí),以100 bp為1個(gè)單位計(jì)算.由于GC堿基會引起讀取深度偏差,首先需要用等式adjusted_read depth=read depth×m /(mGC)調(diào)整每個(gè)窗口的讀取深度,其中adjusted_read depth是調(diào)整的讀取深度,read depth是窗口的讀取深度,m是染色體所有窗口的中值,mGC是與調(diào)整窗口具有相同GC含量的所有窗口的中值讀取深度.調(diào)整GC含量后,再進(jìn)行CNV檢測.
Gamazon et al[37]提出了名為PrediXcan的基于基因的關(guān)聯(lián)方法,可直接測試遺傳變異影響表型的分子機(jī)制.該方法估計(jì)由基因表達(dá)特征推定的基因組成的成分,并將“推定的”基因表達(dá)與研究中的表型相關(guān)聯(lián),以鑒定涉及表型的致病基因,使用參考轉(zhuǎn)錄組數(shù)據(jù)集得到的全基因組組織依賴性預(yù)測模型估計(jì)遺傳調(diào)節(jié)的基因表達(dá).Yano et al[38]使用GWAS的方法對全基因組序列進(jìn)行分析,鑒定了水稻在農(nóng)藝學(xué)上的重要基因,然后根據(jù)核苷酸多態(tài)性的估計(jì)效應(yīng)篩選候選基因,通過使用這種方法,確定了4個(gè)與農(nóng)藝性狀相關(guān)的新基因,并且可以檢測到標(biāo)準(zhǔn)SNP分析無法檢測到的部分基因.
關(guān)于轉(zhuǎn)錄組變異的GWAS,也稱為eQTL作圖,將遺傳標(biāo)記與數(shù)千個(gè)基因的表達(dá)變異聯(lián)系起來,并證明了基因表達(dá)特征的單純遺傳基礎(chǔ),因?yàn)槊總€(gè)eQTL通常解釋了大部分表型(表達(dá)水平)變異.GWAS在處理轉(zhuǎn)錄水平的數(shù)據(jù)時(shí)面臨著兩方面挑戰(zhàn),(1)統(tǒng)計(jì)能力有限,(2)在蛋白質(zhì)非編碼區(qū)存在SNP,使得解釋它們的功能以及復(fù)雜性狀的生物學(xué)機(jī)制變得復(fù)雜[39].Alexander et al[40]提出了應(yīng)對策略,將基因表達(dá)量與GWAS的信息相結(jié)合,以識別其順勢調(diào)控的表達(dá)及與復(fù)雜性狀相關(guān)的基因.利用表達(dá)歸一化關(guān)聯(lián)掃描(transcriptome-wide association study,TWAS)轉(zhuǎn)錄組數(shù)據(jù),以識別顯著的復(fù)雜基因與性狀的關(guān)聯(lián).Kuna et al[41]提出的兩階段貝葉斯方法BAY-TS,不僅優(yōu)于現(xiàn)有方法,而且是一種優(yōu)于缺失數(shù)據(jù)和測量誤差理論的標(biāo)準(zhǔn)方法.為了擬合基因的貝葉斯兩階段回歸模型,使用該基因的k自助模型的βj分布作為第二階段回歸中的先驗(yàn).
GWAS為大量的基因組測序提供了平臺,現(xiàn)在已經(jīng)成為檢測基因變異與表型特征的有力工具.同時(shí)GWAS也面臨著挑戰(zhàn),一些影響因素如缺失基因型、遺傳異質(zhì)性、上位性、低等位基因頻率或復(fù)雜的遺傳結(jié)構(gòu)會直接影響GWAS結(jié)果的精確度.因此,針對此類問題,GWAS分析方法也將不斷完善.隨著功能標(biāo)記開發(fā)、反向遺傳學(xué)研究及生理學(xué)等學(xué)科的綜合推進(jìn),高通量測序成本的降低,GWAS作為一種綜合的分析方法,將會具有更為廣闊的發(fā)展空間,可以快速識別出影響農(nóng)藝植物粒型變異的位點(diǎn),鑒定與農(nóng)藝性狀相關(guān)的基因,定向選育農(nóng)藝作物,提高農(nóng)藝作物產(chǎn)量,推動作物改良育種,在植物遺傳育種中發(fā)揮更大的作用.