基于高密度SNP數(shù)據(jù)的東亞人群遺傳結(jié)構(gòu)研究*

2023-11-23 12:30:28顧佳琪徐景怡魏以梁李彩霞

生物化學(xué)與生物物理進(jìn)展 2023年11期

顧佳琪江麗徐景怡王寒魏以梁李彩霞*

（1）公安部物證鑒定中心，法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室，北京市現(xiàn)場物證檢驗(yàn)工程技術(shù)研究中心，現(xiàn)場物證溯源技術(shù)國家工程實(shí)驗(yàn)室，北京 100038；2）江蘇省系統(tǒng)發(fā)育與比較基因組學(xué)重點(diǎn)實(shí)驗(yàn)室，江蘇師范大學(xué)生命科學(xué)學(xué)院，徐州 221116）

東亞一般包括中國、日本、韓國、朝鮮和蒙古五個(gè)國家。據(jù)2018 年世界人口網(wǎng)統(tǒng)計(jì)，東亞人口約16億，占全球人口的22%，而中國人口約14億，是東亞人口的主體?！胺侵奁鹪凑f”認(rèn)為現(xiàn)代人到達(dá)東亞的時(shí)間約為5~6 萬年前，然后經(jīng)過“南線”為主的路線擴(kuò)散至整個(gè)東亞地區(qū)［1-2］。傳統(tǒng)遺傳標(biāo)記［3-4］、Y 染色體單核苷酸多態(tài)性（Y-SNP）和線粒體DNA（mitochondrial DNA，mtDNA）［5］、常染色體SNP［6-7］等研究均表明東亞人群存在明顯的南北分化。由于受到來自中亞和歐洲遺傳成分的影響，北方人群遺傳成分呈現(xiàn)東西走向的變化趨勢［8］，并且南北方人群遺傳的差異以秦嶺淮河和長江為地理分界［9-11］。

中國作為東亞最主要的國家，人群主要分屬七個(gè)語系：漢藏語系（Sino-Tibetan）、阿爾泰語系（Altaic）、侗臺(tái) 語系（Tai-Kadai）、苗瑤語系（Hmong-Mien）、南亞語系（Austro-Asiatic）、南島語系（Austronesian）及印歐語系（Indo-European）［12］。Y-SNP 單倍群和常染色體SNPs 研究發(fā)現(xiàn)，東亞各個(gè)語系人群之間存在遺傳差異，東亞人群的遺傳結(jié)構(gòu)與族源歷史和語言結(jié)構(gòu)具有對(duì)應(yīng)關(guān)系，同一語系人群有聚類傾向［5，8，10］。最近有研究者對(duì)東亞不同語言人群的精細(xì)遺傳多樣性和混合歷史的研究表明，南島語系和侗臺(tái)語系人群起源于中國南方，而生活在不同地域的侗臺(tái)語系人群有著復(fù)雜的遺傳亞結(jié)構(gòu)［13］。阿爾泰語系人群也具有明顯的亞結(jié)構(gòu)，蒙古語族和北方漢族之間存在復(fù)雜的遺傳混合史［14］。貴州地區(qū)的阿爾泰語系人群形成了獨(dú)特的遺傳梯度，其遺傳結(jié)構(gòu)受到貴州土著人群的影響并顯著有別于居住在西伯利亞南部及東亞北部的阿爾泰語系人群，而毛南族與貴州周圍的侗臺(tái)語系人群聚集在一起［15］。

利用祖先信息性單核苷酸多態(tài)性（AISNPs）進(jìn)行群體遺傳結(jié)構(gòu)分析在醫(yī)學(xué)全基因組關(guān)聯(lián)研究（GWAS）和法醫(yī)生物地理推斷中發(fā)揮著重要作用［16-20］。主成分分析［21］、系統(tǒng)發(fā)育樹［22］、頻率差異［23-24］和群體祖先成分［25］分析常用于研究群體遺傳結(jié)構(gòu)。f3/f4/D檢驗(yàn)等統(tǒng)計(jì)方法［26］常用于群體進(jìn)化歷史分析。本研究運(yùn)用這些方法系統(tǒng)地探討了東亞人群與世界人群的遺傳關(guān)系，并從語系和地理分區(qū)兩個(gè)角度研究了中國不同人群之間的遺傳關(guān)系和遺傳亞結(jié)構(gòu)。

1 材料與方法

1.1 樣本收集與基因分型

本研究使用的5 948名中國個(gè)體的DNA樣本來自國家科技資源共享服務(wù)平臺(tái)計(jì)劃項(xiàng)目。本研究已獲公安部物證鑒定中心倫理委員會(huì)批準(zhǔn)（批準(zhǔn)號(hào)：2021-006），所有參與者均簽署了書面知情同意書。

根據(jù)Illumina 測序儀的標(biāo)準(zhǔn)流程及Novogene（北京）的標(biāo)準(zhǔn)文庫制備，使用Illumina Novaseq 6000 對(duì)3 473 份樣本進(jìn)行5×深度以及2 475 份樣本進(jìn)行3.5×深度的全基因組測序。對(duì)讀序（reads）質(zhì)控后進(jìn)行合并，并用Burrows-Wheeler算法［27］比對(duì) 至人類基因組g1k_v37，通過bcftools 和sentieon［28-29］對(duì)單個(gè)樣本進(jìn)行SNP和Indel檢測。然后由華大基因的lowpassv0.4 根據(jù)參考面板（REFPANEL_b37_KG）進(jìn)行填補(bǔ)。最終所有樣本的vcf文件由bcftoolsv1.10.2［28-29］合并，共79 556 172個(gè)SNP （5×深度）和32 812 390 個(gè)SNP （3.5×深度）。

1.2 公共數(shù)據(jù)收集

通過IBM Asperav3.0.0［30］從IGSR［31］（https://www.internationalgenome.org/data-portal/sample）下載了2 504份（7.4×）的vcf格式全基因組數(shù)據(jù)，包括約8千萬個(gè)SNP。從文獻(xiàn)中［15，32-36］（廈門大學(xué)王傳超課題組）獲取了592 份樣本的plink 和eigenstart 格式數(shù) 據(jù)，由3 款I(lǐng)llumina 和1 款A(yù)ffymetrix 芯片檢測，其中Illumina 芯片含70 萬個(gè)SNP，Affymetrix芯片含50~60萬個(gè)SNP。

1.3 數(shù)據(jù)處理

首先，使用Plinkv1.9［37］對(duì)全基因組測序數(shù)據(jù)進(jìn)行質(zhì)控，參數(shù)分別為過濾檢出率小于5%（geno95%）、Hardy-Weinberg 平衡檢驗(yàn)（Hardy-Weinberg equilibrium，HWE）P值大于10-6（HWE 1×10-6）及次要等位基因頻率（MAF）小于0.02或0.06（根據(jù)測序數(shù)據(jù)中SNP頻率分布所設(shè)）的SNP（表1）。接著，通過KINGv2.2.7［38］計(jì)算全基因組測序樣本間的親緣關(guān)系系數(shù)Ф，共刪除三級(jí)以內(nèi)（Ф為0.044 2~0.088 4）親緣關(guān)系樣本790份，將本實(shí)驗(yàn)室檢測數(shù)據(jù)集和公共數(shù)據(jù)集通過EIGENSOFTv6.1.4［21］的mergeit 參數(shù)合并為世界人群數(shù)據(jù)集，根據(jù)主成分分析對(duì)樣本進(jìn)行二次質(zhì)控，共刪除偏離樣本3 125份，最終世界人群數(shù)據(jù)集共5 147份樣本（表S1）的32 789個(gè)SNP，其中東亞人群包含3 141份樣本。由于SNP 染色體位置相對(duì)固定，我們將所有數(shù)據(jù)集的SNP編號(hào)改成染色體位置信息。

Table 1 Number of SNP in two genotyped datasets

1.4 人群遺傳多樣性和遺傳結(jié)構(gòu)分析

為評(píng)估32 789 個(gè)SNP 是否在研究人群中存在遺傳多樣性，本研究使用Plinkv1.9 計(jì)算了這些SNP 在世界亞人群中的MAF（表S2），并通過Rv4.0.2 進(jìn)行單因素方差分析。隨后，為了研究東亞人群與世界其他人群之間的遺傳關(guān)系，使用Rv4.0.2 的ggplot2、gmodels 包計(jì)算和可視化世界亞人群頻率主成分圖。

1.5 中國人群的聚類、系統(tǒng)發(fā)育及祖先成分分析

對(duì)東亞人群進(jìn)行主成分分析，研究不同地理分區(qū)和語言背景人群間聚類情況。利用Plinkv1.9 計(jì)算東亞人群數(shù)據(jù)集中每個(gè)亞人群共32 789 個(gè)SNP的等位基因頻率，以Affymetrix Human Origins Array 注釋文件為標(biāo)準(zhǔn)，dbsnp 版本為142。隨后使用TreeViewv1.6.6［39］可視化Phylipv3.695［40］基于SNP的等位基因頻率繪制東亞人群系統(tǒng)發(fā)育樹。使用EIGENSOFTv6.1.4 的smartpca 參數(shù)計(jì)算東亞3 143份和中國2 943份樣本的特征向量與主成分特征值，并通過Rv4.0.2 的ggplot2 包繪制主成分圖。最后通過Plinkv1.9 的indep-pairwise 參數(shù)，以滑動(dòng)窗口200、步長20、r2為0.4 進(jìn)行連鎖不平衡分析，SNP 數(shù)過濾為28 481 個(gè)，利用ADMIXTUREv1.3.0［25］進(jìn)行東亞人群的遺傳混合和祖先成分研究，其中K 值范圍2~14，循環(huán)數(shù)隨機(jī)，以Ancestry Painterv5［41］可視化分析結(jié)果。通過分析交叉驗(yàn)證錯(cuò)誤率及不同K值時(shí)群體和個(gè)體層面的族群成分以確定最佳K值。

1.6 中國人群間基因交流的預(yù)測及特異SNP功能分析

使用ADMIXTOOLSv7.0.2［26］的默認(rèn)參數(shù)對(duì)東亞人群進(jìn)行D檢驗(yàn)，研究人群間是否有基因交流事件的發(fā)生。此外，在分析時(shí)也關(guān)注了中國人群特異SNP，通過ANNOVAR［42］和DAVIDv6.8［43］對(duì)東亞人群數(shù)據(jù)集進(jìn)行基因注釋和KEGG 信號(hào)通路的富集。

2 結(jié) 果

2.1 世界人群數(shù)據(jù)集

本研究中的世界人群數(shù)據(jù)集包括5 147 份樣本的32 789個(gè)SNP，人群來自非洲、美洲、歐洲、南亞和東亞，東亞人群包括日本、越南及中國20 個(gè)省份人群，共計(jì)48個(gè)人群的3 141份樣本（表S1）。

2.2 遺傳多樣性和人群遺傳結(jié)構(gòu)分析

首先，計(jì)算32 789 個(gè)SNP 在世界77 個(gè)人群中的等位基因頻率（表S2），去除MAF值為NA（缺失值）的SNP 獲得32 638 個(gè)SNP 數(shù)據(jù)，基于頻率數(shù)據(jù)進(jìn)行單因素方差分析（表2），研究人群間是否存在遺傳多樣性。結(jié)果顯示，P-value 遠(yuǎn)小于0.05 的Bonferroni 校準(zhǔn)值［44］（0.05/77），且F-value大于P-value。說明在α為0.05/77 的情況下，77 個(gè)人群中至少有一組人群的32 638 個(gè)SNP 的等位基因頻率存在顯著差異。

Table 2 Analysis of variance of MAF in 77 world populations

其次，為了研究東亞人群與世界其他人群中的遺傳關(guān)系，本研究進(jìn)行了主成分分析（圖1）。結(jié)果顯示，東亞、非洲、歐洲三大洲際人群各自聚為一簇，南亞和美洲人群居于洲際人群之間，南亞的尼泊爾人群與東亞人群分布較近，其中，尼泊爾夏爾巴族、拉伊族與藏族人群分布較近，這與研究人群的地理分布是一致的。并且東亞人群沿PC1呈東西遺傳差異，沿PC2呈南北遺傳差異。

2.3 東亞人群的遺傳分化研究

為了系統(tǒng)研究東亞人群之間的遺傳距離與遺傳關(guān)系，本研究匯集了來自日本、越南及中國20 個(gè)省份的48 個(gè)人群共3 141 份樣本的32 789 個(gè)SNP。通過系統(tǒng)發(fā)育分析和主成分分析方法，對(duì)中國漢族、少數(shù)民族的遺傳數(shù)據(jù)與語系語族、地理分區(qū)的相關(guān)性進(jìn)行研究。本研究中的東亞人群來自漢藏語系、阿爾泰語系、侗臺(tái)語系、南亞語系和苗瑤語系五個(gè)語系人群。因日語和朝鮮語的語系歸屬存在爭議，故單獨(dú)列出。

首先計(jì)算等位基因頻率進(jìn)行單因素方差分析（表3），結(jié)果顯示P-value 遠(yuǎn)小于0.05 的Bonferroni校準(zhǔn)值（0.05/48），且F-value 遠(yuǎn)大于P-value。說明在α為0.05/48 的情況下，48 個(gè)人群中至少有一組人群的32 638 個(gè)SNP 的等位基因頻率存在顯著差異。隨后根據(jù)上述人群等位基因頻率繪制系統(tǒng)發(fā)育樹（圖2），探索東亞人群間的遺傳關(guān)系。結(jié)果顯示，東亞人群的遺傳聚類與各自語系語族分類是一致的，漢藏語系的兩個(gè)語族人群聚類且漢語族人群呈現(xiàn)南北之分，侗臺(tái)語系的三個(gè)語族人群聚類，并與苗瑤和南亞語系人群有較近的遺傳關(guān)系。其中，北方漢語族人群與中國北方的藏緬語族、阿爾泰語系人群及日本人、朝鮮人相鄰，而南方漢語族人群則與苗瑤、侗臺(tái)和南亞語系人群相鄰。此外，研究觀察到相同民族分布在不同區(qū)域，表現(xiàn)出與當(dāng)?shù)厝巳焊倪z傳關(guān)系，例如：四川甘孜羌族與藏緬語族其他人群相鄰，而四川阿壩羌族與南方漢族和少數(shù)民族相鄰。進(jìn)一步D檢驗(yàn)結(jié)果顯示四川甘孜羌族中存在北方少數(shù)民族顯著基因流，四川阿壩羌族則有南方漢族及少數(shù)民族的顯著基因流信號(hào)（圖S1a）。

Table 3 Analysis of variance of MAF in 48 East Asia populations

分別對(duì)東亞3 141份樣本和中國2 943份樣本的遺傳數(shù)據(jù)進(jìn)行主成分分析，以揭示中國人群之間的遺傳關(guān)系與其地理分區(qū)、語系語族的關(guān)系。研究發(fā)現(xiàn)少數(shù)民族與漢族人群存在遺傳差異（圖3，S2，S3），且不同人群之間的遺傳聚類與其地理分區(qū)、語系語族有很強(qiáng)的相關(guān)性。少數(shù)民族可分為如下七個(gè)亞群（圖3a，S2a，S3a）：南部、西南、東部、中部、東北、北部和西北。其中，中國南部、西南、東部和中部地區(qū)的苗瑤、侗臺(tái)和南亞語系人群聚為一簇，而日本人和中國東北地區(qū)的通古斯語族人群聚為另一簇，與中國北部的阿爾泰語系人群以及中國西北、西南地區(qū)的藏緬語族人群相鄰。貴州地區(qū)的仡佬族（仡央語族）、土家族（藏緬語族）和云南佤族（孟高棉語族），以及江西和浙江畬族、湖南瑤族（苗瑤語系）聚類，位于這兩個(gè)遺傳簇之間。另外，研究觀察到同語族人群的遺傳聚類受到其地理分區(qū)的影響（圖2，3a，S2a，S3a），例如：生活在廣西和貴州的毛南族、廣西和越南的京族表現(xiàn)出了較近的遺傳親和力，但貴州和廣西的仡佬族之間的遺傳差異較大。以及研究發(fā)現(xiàn)同一地區(qū)人群的遺傳分布與其語系語族有關(guān)（圖3a，S3a），例如：云南佤族與北方藏緬語族人群相鄰，云南傣族則與南方侗臺(tái)語系人群相鄰。進(jìn)一步D檢驗(yàn)也揭示貴州仡佬族與北方少數(shù)民族的遺傳親和力更強(qiáng)，廣西仡佬族與同語系南方人群的遺傳親和力更強(qiáng)（圖S1b），并且云南佤族中存在藏緬語族人群的顯著基因流，而云南傣族中存在南方漢族和少數(shù)民族的顯著基因流信號(hào)（圖S1d）。

Fig.2 Phylogenetic analysis based on allele frequencies of 32 638 SNP in 3 141 East Asians

漢族人群的分布較為居中，表現(xiàn)出與少數(shù)民族分布類似的三個(gè)遺傳簇，可分為如下六個(gè)亞群（圖3b，S2b，S3b）：南部、西南、東部、中部、北部和西北。其中，中國西南、東部和南部地區(qū)的漢族聚為一簇，中國北部和西北地區(qū)的漢族聚為另一簇，而居住在中國中部地區(qū)的漢族則位于這兩個(gè)遺傳簇之間。

2.4 東亞人群的遺傳結(jié)構(gòu)研究

Fig.3 Principal component analysis of East Asians

Fig.4 ADMIXTURE results of 28 481 SNP in East Asians

為了進(jìn)一步揭示我國人群之間的遺傳差異度和遺傳亞結(jié)構(gòu)，本研究基于3 141 份樣本的32 789 個(gè)SNP 分型數(shù)據(jù)進(jìn)行遺傳祖先成分分析（ADMIXTURE）。本研究應(yīng)用ADMIXTURE 進(jìn)行東亞人群的遺傳祖先成分分析（K=2~14，圖4b~f），其中，K=6時(shí)的結(jié)果出現(xiàn)了最低的交叉驗(yàn)證誤差（0.566 3）（圖4a），表明6 個(gè)祖先成分可以解釋研究人群的遺傳祖先成分（圖4f）。分別為：a.主要存在于日本和朝鮮人群的紅色遺傳祖先成分；b.主要存在于東亞北方阿爾泰語系人群的紫色遺傳祖先成分；c.主要存在于中國西北和西南地區(qū)藏緬語族人群的黃色遺傳祖先成分；d.主要存在于東亞南北方漢語族人群的湖藍(lán)色遺傳祖先成分；e.主要存在于東亞南方侗臺(tái)和南亞語系人群的綠色遺傳祖先成分；f.主要存在于苗瑤語系人群的藍(lán)色遺傳祖先成分。其中，中國西北、北部的蒙古語族和中國東北、北部的通古斯語族人群遺傳祖先成分混合模擬最相似，由41.2%阿爾泰語系、20.3%藏緬語族、12.5%漢語族和12.1%侗臺(tái)語系人群相關(guān)的成分構(gòu)成，該結(jié)果與主成分分析結(jié)果相印證（圖3a，S2a，S3a）。中國西北和西南地區(qū)藏緬語族三個(gè)語支人群的遺傳祖先成分混合模擬最相似，由46.1%藏緬語族、23.5%漢語族、16.1%侗臺(tái)語系和5.5%阿爾泰語系人群相關(guān)的遺傳祖先成分組成，但藏語支和羌語支人群的阿爾泰語系人群相關(guān)遺傳祖先成分多于彝語支人群，且侗臺(tái)語系人群相關(guān)遺傳祖先成分少于彝語支人群。并且，研究觀察到漢語族人群存在南北方遺傳結(jié)構(gòu)差異，北方漢語族人群擁有更多阿爾泰語系人群相關(guān)成分，南方漢語族人群則擁有更多東亞南方的侗臺(tái)、南亞等語系人群相關(guān)成分。中國西南和南部的侗臺(tái)語系三個(gè)語族人群遺傳祖先成分最相似，由59.7%侗臺(tái)、19.3%漢語族和11.0%苗瑤語系人群相關(guān)遺傳祖先成分構(gòu)成，而侗水語族人群擁有更多苗瑤語系人群相關(guān)成分。此外，本研究還對(duì)東亞人群數(shù)據(jù)集的32 789 個(gè)SNP進(jìn)行了注釋，從中選取外顯子和剪接位置共1 061個(gè)（去重后為951個(gè)基因）并富集KEGG相關(guān)信號(hào)通路（表S3，圖S4）。在選擇的14 個(gè)信號(hào)通路中有10 個(gè)基因富集到黏合連接通路，11 個(gè)基因富集到膽汁分泌通路，10 個(gè)基因富集到藥物代謝其他酶通路，9 個(gè)基因富集到藥物代謝-細(xì)胞色素P450通路以及92 個(gè)基因富集到代謝通路。其中，研究發(fā)現(xiàn)與各種代謝有關(guān)的通路中均有UGT1A6基因，而PTPRJ基因在黏合連接通路中似乎發(fā)揮著更重要的作用，且11 號(hào)染色體48145375 位置和2 號(hào)染色體234601669、234602191 位置的SNP 分別與PTPRJ和UGT1A6基因關(guān)聯(lián)。通過計(jì)算這兩個(gè)基因在東亞人群數(shù)據(jù)集中的等位基因頻率，本研究發(fā)現(xiàn)與黏合鏈接通路相關(guān)的PTPRJ基因在中國東部漢族和西北少數(shù)民族中的突變率最低，而UGT1A6基因在貴州侗族和南方漢族中的突變頻率最低，其次是浙江、江西畬族和西南地區(qū)人群，在湖南侗族和北方漢族中的突變頻率最高（圖5）。

Fig.5 The distribution of ALT in two genes in East Asians

3 討論

群體遺傳學(xué)、分子人類學(xué)等大量研究揭示了人類的演化和遷徙歷史，以及自然選擇對(duì)人類演化的影響。人類在不同環(huán)境中長期生活，適應(yīng)進(jìn)化、遺傳漂變等因素使得不同人群之間產(chǎn)生遺傳分化和差異，最終形成現(xiàn)代人群的遺傳結(jié)構(gòu)［45］?；谇叭藦?地理分區(qū) 角度［7-8，46］和語系語族角度［13-15，32，36，47-48］對(duì)東亞人群的遺傳結(jié)構(gòu)和歷史演化等研究結(jié)果，本研究將實(shí)驗(yàn)室數(shù)據(jù)與公開發(fā)表的數(shù)據(jù)合并開展深入研究，共計(jì)獲得5 147份樣本的32 789 個(gè)SNP，研究人群來自非洲、美洲、歐洲、南亞及東亞（日本、越南及中國七大地理分區(qū)），統(tǒng)計(jì)學(xué)檢驗(yàn)結(jié)果表明這些SNP 在上述人群中存在遺傳多樣性。進(jìn)而，本研究從地理分區(qū)和語系語族兩個(gè)角度對(duì)世界人群尤其是以中國為主的東亞人群進(jìn)行了群體基因組學(xué)分析，發(fā)現(xiàn)東亞人群的遺傳特征與非洲、美洲、歐洲、南亞人群之間存在較大差異，與南亞尼泊爾人群差異較小。同時(shí)，中國人群可分為七個(gè)亞群（即中國七大地理分區(qū)），漢族和少數(shù)民族表現(xiàn)出了不同的遺傳分化和遺傳亞結(jié)構(gòu)，不同人群的遺傳聚類不僅受到語系語族還有地理分布的影響，即同語系或同語族人群表現(xiàn)出相近的遺傳關(guān)系，同地區(qū)人群之間也存在較強(qiáng)的遺傳親和力。

3.1 東亞人群與世界其他人群的遺傳關(guān)系

現(xiàn)代人（Homo sapiens sapiens）大約20 萬年前起源于非洲東部，約6萬年前走出非洲，逐漸分散到世界各地［49］。本研究從SNP 多樣性和世界人群遺傳關(guān)系的分析中發(fā)現(xiàn)，東亞人群內(nèi)部表現(xiàn)出較強(qiáng)的遺傳相關(guān)性，人群呈南北和東西遺傳分化（圖1）。先前的Y 染色體DNA 研究表明在東亞男性中占比最大O-M175單倍群及下游支系來源中國南方和東南亞人群［50-55］，基于常染色體SNP 的研究也證實(shí)越南人群對(duì)東亞人群的遺傳貢獻(xiàn)更大［8］。本研究還發(fā)現(xiàn)，散居在尼泊爾的夏爾巴人與中國北方藏族聚為一簇（圖1），與藏族相比，夏爾巴人包含更多的南亞成分，這與已有研究結(jié)果［56］一致。

3.2 中國不同地域及語系人群間的遺傳連續(xù)性與異質(zhì)性

東亞位于歐亞大陸東部，是研究人類起源歷史及民族演化的重要地區(qū)之一。中國作為東亞最主要的國家，主要分為七大地理分區(qū)。ChinaMAP一期研究顯示出中國多區(qū)域人群遺傳背景的多樣性和復(fù)雜性［57］，本研究通過對(duì)東亞人群SNP 數(shù)據(jù)進(jìn)行群體遺傳學(xué)分析，發(fā)現(xiàn)不同地域和語系人群的遺傳變異特征與中國歷史上的人口遷移和變遷有關(guān)。少數(shù)民族的遺傳聚類與人群分布的地理位置一致，可聚為南部、西南、東部、中部、東北、北部和西北這七個(gè)地理分區(qū)，并表現(xiàn)為南、北和中部這三個(gè)遺傳簇（圖3a）。本研究觀察到不同人群之間的遺傳聚類與地理分區(qū)和語系語族有關(guān)，首先，同地區(qū)同語族人群之間遺傳關(guān)系較為相近，例如：位于中國西南、南部和中部地區(qū)的侗臺(tái)語系三個(gè)語族人群有著相似的遺傳祖先成分并表現(xiàn)出了較強(qiáng)的遺傳親和力，且與同地區(qū)的苗瑤、南亞語系人群分布較近（圖2，3a，4f，S2a，S3a）。Y染色體DNA研究表明單倍群D-M174 在東亞北部藏緬群體中高頻分布［50，52，58-59］，D 下分支D1 在藏語支、羌語支和彝語支人群中廣泛分布［46，60］。本研究在對(duì)東亞人群進(jìn)行系統(tǒng)發(fā)育和主成分分析時(shí)也發(fā)現(xiàn)藏緬語族三個(gè)語支人群聚為一簇（圖2，3a）。另有研究［46，61］證實(shí)，現(xiàn)代藏緬語族人群是由舊石器時(shí)代攜帶單倍群D-M174 人群與黃河流域中部攜帶單倍群O2a2b1a1a-F5 的仰韶文化人群混合形成，隨后仰韶人向西遷移，形成了居住在中國西北的氐羌人，并沿藏彝走廊大規(guī)模遷移至西藏、云南等地區(qū)［60］。本研究也發(fā)現(xiàn)生活在中國北方的漢藏語系人群之間有較近的遺傳關(guān)系，例如：東亞人群系統(tǒng)發(fā)育結(jié)果顯示（圖2）中國西南和西北的藏緬語族人群與中國青海、寧夏漢族相鄰。其次，同語族人群的遺傳關(guān)系和結(jié)構(gòu)會(huì)受到地理分布的影響，從而表現(xiàn)出不同的遺傳模式。例如：四川阿壩羌族與南方人群有較近的遺傳關(guān)系，而四川甘孜羌族卻與北方少數(shù)民族表現(xiàn)出了較強(qiáng)的遺傳親和力（圖2，S1a），這可能是因?yàn)槿巳核诘貐^(qū)的海拔以及與周圍其他人群發(fā)生基因交流事件導(dǎo)致的。同時(shí)，D檢驗(yàn)結(jié)果（圖S1b）也揭示貴州仡佬族中存在中國西南和西北地區(qū)的漢藏和阿爾泰語系人群的顯著基因流信號(hào)，而廣西仡佬族與中國西南和南部的侗臺(tái)及南亞語系人群發(fā)生基因交流事件，這與系統(tǒng)發(fā)育及主成分分析的結(jié)果一致（圖2，3）。但藏族人群因地區(qū)差異表現(xiàn)出遺傳亞結(jié)構(gòu)（圖3a，S2a，S3a），較甘肅藏族（CTG）來說，青海藏族（CTQ）與西藏、四川甘孜藏族的遺傳親和力更強(qiáng)（圖S1c）。最后，同地區(qū)不同語族人群之間存在不同的遺傳關(guān)系，例如：云南地區(qū)的佤族（孟高棉語族）與傣族（壯傣語族）分布較遠(yuǎn)（圖2，3a），本研究在云南佤族中檢測到了西藏和青海藏族的基因流信號(hào)，在云南傣族中檢測到了廣西毛南和壯族的基因流信號(hào)（圖S1d），這一點(diǎn)在人群主成分分析和祖先成分分析中也可以觀察到（圖3a，4f，S2a，S3a）；而甘肅保安族和東鄉(xiāng)族、青海土族（蒙古語族）以及青海撒拉族、甘肅裕固族（突厥語族）聚類（圖3a，S2a，S3a）且遺傳祖先成分較為相似（圖4f），擁有20%~30%與藏緬語族人群相關(guān)遺傳祖先成分，內(nèi)蒙蒙古族以及遼寧滿族、錫伯族（通古斯語族）聚類（圖3a）且遺傳祖先成分較為相似（圖4f），擁有10%~30%與日本和朝鮮人群相關(guān)遺傳祖先成分。

線粒體和Y 染色體DNA 研究［13，35-36，48，62-64］表明，南北方漢族存在遺傳差異，北方漢族優(yōu)勢單倍群為D4、A（線粒體）和O2-M122、C-M130（Y染色體），而南方優(yōu)勢單倍群為B4、F1（線粒體）和O2-M122、O1-F265（Y 染色體），且常染色體DNA研究［7，57］也表明漢族存在南北方的遺傳分化差異。本研究觀察到漢族人群與少數(shù)民族存在遺傳差異（圖3），漢族的分布較為居中，并表現(xiàn)出與少數(shù)民族類似的三個(gè)遺傳簇，可分為南部、西南、東部、中部、北部和西北這六個(gè)亞群（圖3b）。同時(shí)，人群的遷徙還會(huì)導(dǎo)致人群遺傳融合事件的發(fā)生，本研究中漢族人群的六個(gè)亞群簇分布較為分散（圖3b，S2b，S3b），說明不同地區(qū)的漢族人群受到周圍少數(shù)民族的遺傳影響。相關(guān)研究［55，64-65］發(fā)現(xiàn)單倍群A在一些南方地區(qū)（安徽和江蘇）以及單倍群F1 在中國西北地區(qū)（青海）也有較高頻率的分布，單倍群O2-M122 在南北方漢族中均有較高的分布頻率。此外，本研究發(fā)現(xiàn)不同人群之間的遺傳關(guān)系與他們的地理分布有關(guān)，例如：南方漢語族人群與中國南方侗臺(tái)語系和苗瑤語系人群分布較近，北方漢語族人群與中國北方的藏緬語族和阿爾泰語系人群、日本和韓國人分布較近（圖2，3），這也印證了王傳超等前期Y 染色體DNA 文獻(xiàn)報(bào)道［13，35-36］的漢族人中有高頻分布的O2-M122 單倍群，其下游支系O2a2b1a1-M117 在中國北方的藏緬語族人群中廣泛分布，以及O2a2a1a2-M7在中國南方的苗瑤語系人群中高頻出現(xiàn)［51，55］。并且，本研究在東亞人群遺傳結(jié)構(gòu)研究中觀察到南方漢語族人群擁有更多侗臺(tái)語系和苗瑤語系人群相關(guān)的遺傳祖先成分，北方漢語族人群擁有更多藏緬語族和阿爾泰語系人群相關(guān)的遺傳祖先成分（圖4f），這與線粒體單倍群研究［13，48，65］證實(shí)的單倍群B4 和F1在貴州侗族和苗族、廣西布依族中有較高的分布頻率，D4 和A 在甘肅東鄉(xiāng)族、保安族（蒙古語族）和青海裕固族（突厥語族）中有較高的分布頻率，以及單倍群F1 在寧夏回族和青海撒拉族中有較高的分布頻率是一致的。

3.3 中國不同人群的特異性SNP

SNP分析有助于解釋群體的表型差異，不同群體和個(gè)體對(duì)疾病，特別是對(duì)復(fù)雜疾病的易感性以及對(duì)藥物的敏感性。通過對(duì)東亞人群數(shù)據(jù)集32 789個(gè)SNP 的注釋和相關(guān)基因通路分析，本研究發(fā)現(xiàn)PTPRJ和UGT1A6這兩個(gè)基因在東亞人群中的等位基因頻率存在地區(qū)差異性，這與相關(guān)研究報(bào)道［66-67］酪氨酸磷酸酶PTPRJ基因突變率與血型類型相關(guān)，即O 型血人群的PTPRJ基因突變率較低，尤其是中國北方少數(shù)民族及中國東部人群等地O型血的人最多［68］，以及早期研究發(fā)現(xiàn)UGT1A6基因在中國漢族、侗族和畬族人群中的分布存在差異［69］是一致的。近年來，頻率差異分析、機(jī)器學(xué)習(xí)等算法［18-20，70-80］逐漸用于人群特異性SNP 或祖先信息標(biāo)記（ancestry informative marker）篩選和人群遺傳推斷模型構(gòu)建。例如：陳華等［19］利用Fst值和AIM-SNPtag 篩選了中國漢族人、日本人和韓國人的AISNP，并構(gòu)建了人群遺傳推斷模型，Oscar Gaggiotti 等［79］使用回歸分析（邏輯回歸和支持向量機(jī)）、決策樹（隨機(jī)森林和XGboost）等方法篩選AISNP 并構(gòu)建推斷模型。由于本研究側(cè)重東亞人群之間遺傳關(guān)系和遺傳結(jié)構(gòu)的研究，并對(duì)合并質(zhì)控后的SNP 進(jìn)行注釋和功能分析，尚未進(jìn)行系統(tǒng)的東亞人群AISNP 的篩選和遺傳推斷模型構(gòu)建研究。

總之，群體遺傳結(jié)構(gòu)研究對(duì)于醫(yī)學(xué)和法醫(yī)學(xué)都具有重要作用。在醫(yī)學(xué)領(lǐng)域，了解人群遺傳結(jié)構(gòu)差異，可以避免篩選出假陽性的疾病關(guān)聯(lián)基因位點(diǎn)。在法醫(yī)領(lǐng)域，基于DNA 的族群地域分析，可以縮小嫌疑人的范圍，為偵查提供線索［81］。首先，本研究通過將東亞人群的遺傳數(shù)據(jù)與其地理分區(qū)和語系語族分布進(jìn)行亞人群的遺傳關(guān)系和結(jié)構(gòu)分析，并揭示了東亞與世界其他人群、東亞人群之間的遺傳關(guān)系和遺傳亞結(jié)構(gòu)，這些將為后續(xù)東亞人群的群體遺傳學(xué)、法醫(yī)遺傳學(xué)等研究奠定基礎(chǔ)并提供數(shù)據(jù)支撐。其次，本研究所用數(shù)據(jù)集的人群未覆蓋全部少數(shù)民族，而是以不同地理分區(qū)和語系語族的代表人群為主，未來需要繼續(xù)增加人群數(shù)據(jù)，并盡量使用相同的檢測平臺(tái)。在研究東亞人群遺傳關(guān)系時(shí)（圖3），主成分的前兩個(gè)維度解釋度有限，本研究通過結(jié)合主成分的多維度結(jié)果（圖S2，S3）和D檢驗(yàn)（圖S1）進(jìn)行進(jìn)一步分析，后續(xù)需增加人群測序數(shù)據(jù)，增加數(shù)據(jù)合并后的位點(diǎn)數(shù)量，進(jìn)一步提高主成分分析的差異解釋度，并實(shí)現(xiàn)更加精細(xì)的遺傳結(jié)構(gòu)分析。最后，在后續(xù)不同人群AISNP 挑選時(shí)，可以基于本研究獲知的人群遺傳結(jié)構(gòu)和質(zhì)控篩選的AISNP，采用傳統(tǒng)的AISNP 篩選方法和最新的機(jī)器學(xué)習(xí)算法［18-20，70-80］，構(gòu)建東亞人群遺傳推斷模型。

4 結(jié) 論

本研究通過對(duì)收集到的5 147 份世界人群個(gè)體的高密度SNP 數(shù)據(jù)進(jìn)行群體基因組學(xué)分析，揭示了東亞人群尤其是中國人群與世界其他人群的遺傳關(guān)系，并系統(tǒng)研究了中國人群的遺傳關(guān)系和遺傳結(jié)構(gòu)，為豐富東亞人群法醫(yī)遺傳學(xué)等研究奠定了基礎(chǔ)。同時(shí)，經(jīng)過質(zhì)控篩選的AISNP，實(shí)現(xiàn)了地理分區(qū)等層面的亞結(jié)構(gòu)分析，可以將東亞人群按中國七大地理分區(qū)和五大語系分別區(qū)分開。在后續(xù)的研究工作中，將增加人群數(shù)據(jù)，結(jié)合多種群體遺傳學(xué)分析方法，并應(yīng)用最新機(jī)器學(xué)習(xí)算法，構(gòu)建東亞人群遺傳推斷模型，為個(gè)體化醫(yī)療等工作提供數(shù)據(jù)支撐。

附件見本文網(wǎng)絡(luò)版（http://www.pibb.ac.cn或http://www.cnki.net）：

PIBB_20220441_Figure S1.pdf

PIBB_20220441_Figure S2.pdf

PIBB_20220441_Figure S3.pdf

PIBB_20220441_Figure S4.pdf

PIBB_20220441_Table S1.xlsx

PIBB_20220441_Table S2.xlsx

PIBB_20220441_Table S3.xlsx