DNA條形碼不同分析方法對鹿類動物識別效果的比較

2017-04-24 05:06:43馬巍威劉依明董丙君楊寶田沈陽師范大學(xué)生命科學(xué)學(xué)院遼寧沈陽110034

長春師范大學(xué)學(xué)報 2017年4期

馬巍威，劉依明，董丙君，楊寶田(沈陽師范大學(xué)生命科學(xué)學(xué)院，遼寧沈陽 110034)

馬巍威，劉依明，董丙君，楊寶田
(沈陽師范大學(xué)生命科學(xué)學(xué)院，遼寧沈陽 110034)

DNA條形碼技術(shù)的任務(wù)是根據(jù)線粒體COI基因的小片段序列來識別樣本到指定物種。本研究采用11種指派分析方法對8種鹿科動物30個樣本序列進行分析，分別檢測各分析方法的性能。結(jié)果表明，采用隨機森林法和支持向量機法對鹿類動物DNA條形碼分類最為可靠。沒有可以適用任何情況的單一方法，對表現(xiàn)性能影響最大的因素是分子數(shù)據(jù)多態(tài)性。通過增加基因位點、增加測序長度和樣本量可以改進多數(shù)方法的預(yù)測性能，另外，選擇對分類樣本最適用的分析方法可以提高分析質(zhì)量。

COI；DNA條形碼；鹿科動物；物種識別

DNA條形碼技術(shù)旨在應(yīng)用線粒體、核或質(zhì)體DNA的一個較短片段作為標(biāo)記，在物種水平上對現(xiàn)存生物類群和未知生物材料進行識別和鑒定[1]。DNA條形碼具有可靠性強、成本低廉和簡便易行等特性，可以在沒有分類學(xué)專家參與的情況下，提供物種識別功能。線粒體細(xì)胞色素C氧化酶亞單元I(COI)是公認(rèn)的動物識別DNA條形碼候選基因[2]。生命條形碼數(shù)據(jù)系統(tǒng)(Barcode of life data system，BOLD)是挖掘、儲存和應(yīng)用DNA條形碼的全球數(shù)據(jù)庫[3]，截至目前，該數(shù)據(jù)庫共記錄偶蹄目動物210種，條形碼序列3254條，其中鹿科動物40種，條形碼序列804條。

DNA條形碼技術(shù)能夠有效鑒別和分類許多動物物種和類群[4-10]，但這個目標(biāo)的實現(xiàn)需要可靠的數(shù)學(xué)運算和分析方法。DNA條形碼分析方法概括起來有基于系統(tǒng)樹的方法(Tree-based methods)[11-13]、基于相似性的方法(Similarity-based methods)[5, 14]、基于特征(字符或堿基)的方法(Character-based methods)[15-18]、統(tǒng)計方法(Statistical methods)[19-21]、人工智能方法(Artificial intelligence-based methods)[22-23]和模糊集合理論方法(Fuzzy set theory-based methods)[24]。Weitschek等(2014)[25]提出監(jiān)督分類法(Supervised classification methods)概念，也就是通過對已知物種的DNA條形碼參考序列(reference library)分析將需要識別的未知樣本序列(query set)指定到現(xiàn)存物種庫。監(jiān)督分類法包括最近鄰法(1-Nearest neighbour，1-NN)、隨機森林法(Random forest，RF)、基于函數(shù)的支持向量機法(Support vector machines，SVM)、內(nèi)核函數(shù)法(Kernel functions)、基于規(guī)則的RIPPER法(Jrip)、決策樹(Decision tree，J48)法等。

中國有18種鹿科(Cervidae)動物分布[26]，它們在生物多樣性和生態(tài)系統(tǒng)中占有非常重要的地位。受生態(tài)環(huán)境的破壞、棲息地喪失和非法捕獵等因素的影響，其野生種群數(shù)量在急劇減少，有的甚至已經(jīng)滅絕，許多鹿類動物已被列為瀕危物種[27]。為有效保護鹿類野生動物，促進資源的可持續(xù)發(fā)展，需要對這些動物種類及其產(chǎn)品進行有效的分子鑒定。由于需要分類的生物類群不同或采用的DNA條形碼基因位點及序列長度不同，在物種識別能力和效果上存在一定的差異。本文選取DNA條形碼11種分析方法對8種鹿科動物進行鑒別，以檢測不同方法在鹿類動物分子識別中的有效性。

1 材料和方法

1.1 樣本收集

動物樣本分為糞便樣本和皮毛樣本。以河麂(Hydropotesinermis,朝鮮亞種5個)、西伯利亞狍(Capreoluspygargus,7個)、梅花鹿(Cervusnippon,3個)、馬鹿(Cervuselaphus,7個)、馴鹿(Rangifertarandus,1個)、麋鹿(Elaphurusdavidianus,3個)、黇鹿(Damadama,3個)和小麂(Muntiacusreevesi,1個)共8種鹿科動物30個樣本作為研究對象。借助全國第二次陸生野生動物資源調(diào)查工作，在遼寧東部桓仁縣和寬甸縣采集朝鮮河麂糞便樣本3份，其余2份為皮毛樣本，采自老禿頂子國家級自然保護區(qū)標(biāo)本館館藏河麂標(biāo)本。其余動物糞便樣本采自遼寧省遼陽縣特種動物養(yǎng)殖場。糞便樣本采集用一次性手套，裝入塑料自封袋中置于液氮罐中冷凍帶回，于-25℃冰箱中冷藏備用。

在GenBank和BOLD下載43條COI參考序列，除包括上述8個物種外,還有歐洲狍(Capreoluscapreolus)、黑麂(Muntiacuscrinifrons)、赤麂(Muntiacusmuntjak)3種鹿科動物以及馬麝(Moschuschrysogaster)和林麝(Moschusberezovskii)2個麝科(Moschidae)物種在系統(tǒng)樹構(gòu)建中作為外群。

1.2 基因組DNA的提取、PCR擴增及測序

基因組提取試劑盒分別購自上海生工及QIAGEN、TIANGEN、AXYGEN公司，TaqDNA聚合酶購自大連寶生物工程公司，引物由北京華大基因公司合成。毛皮樣本利用TIANGEN、AXYGEN試劑盒提取基因組，糞便樣本用上海生工生產(chǎn)的磁珠法土壤試劑盒和QIAGEN糞便試劑盒提取基因組,-20℃條件下保存?zhèn)溆谩?/p>

COI基因片段擴增采用一對通用引物(COI-F：5’-TTCATTAACCGCTGATTATTTTCAAC-3’；COI-R：5’-CACGATATGAGAAATTATACCAAACC-3’)和簡并引物(DCIF15：5’-CGCAGGRGCTTCAGTAGAC-3’；DCIR12：5’-TRCCTCCRTGRAGTGTTGCT-3’)完成。PCR反應(yīng)體積為25μl，其中Premix TaqTM(Ex TaqTM Version 2.0)混合液12.5μl，上下游引物各0.5μl、BSA 2.5μl、DNA模板2μl、超純水7μl。PCR反應(yīng)條件：95℃預(yù)變性7min，95℃變性45s，54℃退火45s，72℃延伸1min，36個循環(huán)。最后72℃延伸7min。每次PCR設(shè)立不含模板DNA的空白對照。在ABI2720 PCR儀上進行擴增，擴增產(chǎn)物經(jīng)1%瓊脂糖凝膠電泳檢測后送北京華大基因有限公司測序。

1.3 DNA條形碼序列分析

所測得COI序列經(jīng)Blast搜索驗證其可靠性，用MEGA 5軟件[28]進行序列片段的拼接組裝和多重比對，并將序列翻譯成氨基酸以檢驗是否出現(xiàn)終止密碼。把驗證比對后的43條參考序列(reference)和30條查詢序列(query)用于11種算法進行分析：條形碼空隙探查法(ABGD)、鄰接樹法(NJ)、條形碼邏輯公式法(BLOG)、最近鄰法(1-NN)、決策樹法(J48)、規(guī)則算法(Jrip)、隨機森林法(RF)、支持向量機法(SVM)、反向傳播算法(BP-based)、模糊集合算法(fuzzy set-based)和貝葉斯法(Bayesian-based)。

(1)NJ樹：用MEGA 5軟件構(gòu)建基于K2P模型的NJ樹，并進行1000次重復(fù)抽樣的自展值檢驗。(2)ABGD：用ABGD軟件估計分子可操作分類單元[29]。將查詢序列以及由參考序列和查詢序列組成的全部序列(reference+query)分別提交給在線軟件(http://wwwabi.snv.jussieu.fr/public/abgd/abgdweb.html)，選擇K2P模型計算遺傳距離，其余參數(shù)使用默認(rèn)值?；谶z傳距離對樣本進行劃分，將劃分在同一組的樣本認(rèn)定為1個物種。(3)BLOG：將參考序列和查詢序列按照文件格式要求分別輸入BLOG 2.0軟件[15]，SCTYPE參數(shù)設(shè)為2，其余參數(shù)為缺省值。(4)1-NN、J48、Jrip、RF和SVM等5種分析方法在Weka 3.8.0軟件[30]上運行。用Weka軟件包中的fasta2weka程序?qū)⒖夹蛄形募筒樵冃蛄形募謩e轉(zhuǎn)換為ARFF格式，后在Weka軟件的Explorer模塊下將參考序列文件輸入程序，選擇1-NN、J48、Jrip、RF和SVM等5種分類器分別對查詢序列進行分析。(5)BP-based、Fuzzy set-based和Bayesian-based等3種分析方法用基于R的BarcodingR軟件[31]進行。在ape程序包[32]下讀入序列數(shù)據(jù)集并對參考序列與查詢序列分布進行設(shè)置，用“bpNewTraining”“fuzzyId”和“Bayesian”命令進行相應(yīng)分析。為評估種內(nèi)以及種間遺傳距離邊界值,用BarcodingR軟件進行了條形碼空隙分析。

2 結(jié)果

30個樣本中的鹿類動物線粒體COI基因部分序列經(jīng)比對分析得到長度為700bp的片段。

2.1 NJ樹

NJ樹顯示種間序列分歧明顯大于種內(nèi)分歧(圖1)，與目前鹿科動物分類系統(tǒng)一致。但其中馬鹿樣本被聚類為2個枝，表明馬鹿種內(nèi)COI基因存在較高的變異。

2.2 ABGD

以0.001～0.100的先驗值P區(qū)間對查詢序列30個樣本進行劃分，顯示初始劃分(initial partition)和遞歸劃分(recursive partition)兩種情況(圖2)。初始劃分較為穩(wěn)定，30個樣本均被分成7個組，而遞歸劃分出現(xiàn)過度劃分的情況。初始劃分可操作分類單元數(shù)目除了將馬鹿與梅花鹿合并為1個外，其余樣本與采樣物種一一對應(yīng)，物種劃分準(zhǔn)確率87.5%。查詢序列樣本正確識別率90%。

圖1 30個樣本13個物種的NJ樹

2.3 BLOG

BLOG可成功識別所有參考序列特征堿基(表1)。對于查詢序列BLOG成功識別21個樣本，正確識別率為70%。未能識別序列9條，占查詢序列的30%。未能識別序列來自馬鹿5條、西伯利亞狍2條、河麂2條。

表1 基于43條COI參考序列的特征堿基診斷結(jié)果

2.4 1-NN

優(yōu)化選擇1-NN分類器模型對查詢序列進行分類評估，成功識別分類26個樣本，正確辨識率86.67%。3個黇鹿序列分類錯誤，被識別為馬鹿，1個小麂樣本被識別為梅花鹿，誤報率為13.33%。

2.5 J48

基于決策樹的J48算法正確識別查詢序列中18個樣本，占查詢序列樣本總數(shù)的60%。5個西伯利亞狍樣本、1個黇鹿樣本、3個麋鹿樣本、2個河麂樣本和1個馴鹿樣本未能正確識別，占比40%。

2.6 Jrip

Jrip方法設(shè)定了8項規(guī)則，正確識別分類10個查詢序列樣本，包括2個西伯利亞狍樣本、3個梅花鹿樣本、2個黇鹿樣本和3個河麂樣本，正確識別率為33.33%。

2.7 RF

RF計算采用100次迭代抽樣分析，正確識別了所有查詢序列樣本，正確辨識率100%。

2.8 SVM

SVM采用Linear Kernel模型，正確識別分類30個查詢序列樣本，正確識別率100%。

2.9 BP-based

采用人工智能的BP-based算法正確識別26個查詢序列樣本，正確識別率86.67%。識別錯誤的為3個黇鹿樣本和1個小麂樣本。

2.10 Fuzzy set-based

模糊數(shù)據(jù)集算法正確識別了3個河麂樣本、3個梅花鹿樣本和2個馬鹿樣本共8條查詢序列，正確識別率26.67%。

2.11 Bayesian-based

貝葉斯算法的識別率很低，只有3個河麂和2個馬鹿的查詢序列樣本被成功分類，僅占全部查詢序列的16.67%。

3 討論

本研究以8種鹿科動物為例，比較DNA條形碼不同分析方法在該類動物分類中的解析能力和準(zhǔn)確性。結(jié)果顯示，11種分析方法在鹿類動物分類中的解析能力和準(zhǔn)確性存在較大差異。NJ樹分析除馬鹿外，其它各物種的樣本都能夠獨立聚類為一枝，而馬鹿樣本被分割為2個亞枝。馬鹿與梅花鹿親緣關(guān)系密切，屬于近期分離物種，對二者的分子識別鑒定存在一定的復(fù)雜性和難度，這與Cai等(2015)[33]研究結(jié)果一致。其余10種可量化準(zhǔn)確率的分析結(jié)果見圖3，RF和SVM方法正確分類了全部30個查詢序列樣本，正確率達到100%，且二者間無顯著差異(p>0.05)。ABGD、1-NN和BP-based 3種方法也有較強的解析能力，正確率達到或接近90%。而其他5種方法對鹿科動物DNA條形碼的鑒別能力較弱，正確識別率小于(或等于)70%。RF和SVM法與其他方法鑒別結(jié)果存在顯著差異(p<0.001)。

圖3 可量化準(zhǔn)確率的10種DNA條形碼分析方法效果比較

DNA條形碼分析方法不同，其機理和運算手段存在差異。SVM算法是具有較強識別力的分類器，它能夠轉(zhuǎn)化多維向量中的參考數(shù)據(jù)對象并定義對象中的分類超平面邊界，以此作為不同分類標(biāo)準(zhǔn)。來自于查詢序列的新對象按照這個分類超平面被評估分類。該方法最為重要的特性之一是它能夠通過線性核函數(shù)進行有效的輸入空間非線性轉(zhuǎn)換，以實現(xiàn)高分類準(zhǔn)確性[25,34-35]。在DNA條形碼分類運算上，RF方法從參考序列中無重復(fù)地抽取多態(tài)位點作為子集建立大批量分類樹，再用標(biāo)記物種的多數(shù)一致樹將查詢序列樣本分類到物種。上述2種方法實現(xiàn)了對檢測樣本的正確鑒別，顯示其對鹿類動物分子識別的適用性。

ABGD自動探查DNA條形碼序列對之間遺傳距離分布的空隙，并找到空隙位置的距離值[29]，將導(dǎo)入的查詢序列分組到幾個假定物種中。該方法對于有重疊分布的數(shù)據(jù)也能夠有效分配，但要求有適當(dāng)?shù)淖畲蠓N內(nèi)分歧先驗值，這個值一般在1%～3%之間，本研究為3%。少數(shù)情況下ABGD會出現(xiàn)多重物種臆測，即一個物種被分成2個(或相反)，如遞歸劃分的過度劃分和馬鹿與梅花鹿的并組現(xiàn)象。當(dāng)數(shù)據(jù)中不存在條形碼空隙時ABGD就不能作出基本的分類單元劃分。

BLOG診斷方法以DNA條形碼關(guān)鍵核苷酸位點作為物種簡單特征，形成邏輯規(guī)則并以此作為分類依據(jù)診斷查詢序列樣本的物種歸屬。如麋鹿的識別：如果348位點是C，那么這個序列樣本就是麋鹿。BLOG診斷方法對查詢序列樣本有較高的正確識別率[36]。

1-NN方法把參考序列與查詢序列按照K2P距離遠(yuǎn)近排序，將查詢序列中最近鄰樣本歸類到所屬物種，如果有2個以上查詢序列樣本具有相同距離時則將它們歸為一組同級別類群[14]。Jrip算法通過對數(shù)據(jù)集進行重復(fù)增量修剪來構(gòu)建一套初始規(guī)則，再利用這套優(yōu)化規(guī)則對查詢序列樣本逐一分類，直到對所有樣本的全覆蓋。J48分類法按照信息增益為樹的每個節(jié)點尋找最佳分裂點和最優(yōu)特征，但所謂決策樹并非終結(jié)的頂點，其結(jié)構(gòu)簡單，僅代表著1個或幾個檢驗屬性。由于參考序列變異性會產(chǎn)生不同屬性特征，因而決策樹有不穩(wěn)定的弱點。

BP-based算法借鑒最新人工智能技術(shù)，通過定義神經(jīng)網(wǎng)絡(luò)對參考序列網(wǎng)絡(luò)進行驗證，最后利用經(jīng)培訓(xùn)的網(wǎng)絡(luò)對查詢序列樣本進行識別分類。模糊集合是經(jīng)典數(shù)據(jù)集概念的擴展，不同于二進制評估經(jīng)典理論，模糊集理論對數(shù)據(jù)中各元素逐級評估，對于數(shù)據(jù)不完整或不精確的生物信息分析有很好的應(yīng)用價值。該方法通過定義物種從屬函數(shù)，搜索查詢序列樣本最鄰近的潛在物種。

DNA條形碼技術(shù)的目的是利用小DNA片段數(shù)據(jù)來實現(xiàn)對查詢序列樣本的物種分類[37]，這個小片段必須有高信息含量。由于不同物種間可能會共享許多多態(tài)位點(它們在祖先物種中或許是多態(tài)的)，這些多態(tài)位點的固定以及突變在各自物種中的特異體現(xiàn)都需要相當(dāng)長的時間，因而對現(xiàn)生的近期分離物種用DNA條形碼進行物種鑒定存在一定困難。本研究選取的11種分析方法在近期與遠(yuǎn)古分離物種識別能力上就存在差異，總體上看對近期分離物種的識別能力低于遠(yuǎn)古物種。另外，由于不完全的世系排序或低突變率以及缺少條形碼特征位點[37]，DNA條形碼的識別能力會受到很大限制。這些問題可以通過增加取樣數(shù)量、增加測序長度或增加基因位點(如核基因)等手段，適當(dāng)增加信息含量加以解決。

4 結(jié)論

本研究證明，基于COI基因的DNA條形碼能夠有效和準(zhǔn)確識別大多數(shù)鹿科動物。從比較結(jié)果看，沒有普遍適用的方法，RF和SVM法識別正確率最高。對識別檢測性能影響最大的是DNA分子的多態(tài)性程度，通過增加DNA條形碼信息含量或選擇對分類樣本最為適用的分析方法，提高多數(shù)分析方法的預(yù)測性能。

[1]Hebert PDN,Cywinska A,Ball SL,et al.Biological identifications through DNA barcodes[J].Proc. R.Soc.Lond. B,2003,270(1512):313-321.

[2]Hebert PDN,Ratnasingham S,deWaard JR.Barcoding animal life:cytochrome c oxidase subunit 1 divergences among closely related species[J].Proc.R.Soc. Lond. B(Suppl.)2003,270(Suppl_1):S96-S99.

[3]Ratnasingham S,Hebert PDN.BOLD:The barcode of life data system(www.barcodinglife.org)[J].Molecular Ecology Notes,2007,7(3):355-364.

[4]Dellicour S,Flot JF.Delimiting species-poor data sets using single molecular markers: A study of barcode gaps, haplowebs and GMYC[J].Systematic Biology,2015,64(6):900-908.

[5]Meier R,Shiyang K,Vaidya G,et al.DNA barcoding and taxonomy in Diptera:a tale of high intraspecific variability and low identification success[J].Syst Biol,2006,55(5):715-728.

[6]Schmidt S,Schmid-Egger C,Morinière J,et al.DNA barcoding largely supports 250 years of classical taxonomy: identifications for Central European bees (Hymenoptera, Apoidea partim)[J].Molecular Ecology Resources,2015, 15(4):985-1000.

[7]Li J,Zheng X,Cai Y,et al.DNA barcoding of Murinae (Rodentia: Muridae) and Arvicolinae(Rodentia:Cricetidae) distributed in China[J].Molecular Ecology Resources,2014,15(1):153-167.

[8]Clare EL,Lim BK,Engstrom MD,et al.DNA barcoding of Neotropical bats:species identification and discovery within Guyana[J].Molecular Ecology Notes,2007,7(2):184-190.

[9]何鍇,王文智,李權(quán),等.DNA 條形碼技術(shù)在小型獸類鑒定中的探索:以甘肅蓮花山為例[J].生物多樣性,2013,21(2): 197-205.

[10]馬英,李海龍,魯亮,等.DNA 條形碼技術(shù)在青海海東地區(qū)小型獸類鑒定中的應(yīng)用[J].生物多樣性,2012,20(2):193-198.

[11]Saitou N,Nei M.The neighbour-joining method: a new method for reconstructing phylogenetic trees[J].Mol Biol Evol Appl,1987,4(4):406-425.

[12]Farris JS.Estimating phylogenetic trees from distance matrices[J].Am Nat,1972,106(951):645-668.

[13]Munch K,Boomsma W,Huelsenbeck JP,et al.Statistical assignment of DNA sequences using Bayesian phylogenetics [J].Systematic Biology,2008,57(5):750-757.

[14]Austerlitz F,David O,Schaeffer B,et al.DNA barcode analysis: a comparison of phylogenetic and statistical classification methods[J].BMC Bioinformatics,2009,10(14):S10.

[15]Weitschek E,Velzen R,Felici G,et al.BLOG 2.0: a software system for character-based species classification with DNA barcode sequences.What it does,how to use it[J].Molecular Ecology Resources,2013,13(6):1043-1046.

[16]Dasgupta B,Konwar KM,Ndoiu II,et al.DNA-BAR:distinguisher selection for DNA barcoding[J].Bioinformatics, 2005,21(16):3424-3426.

[17]Little DP.DNA barcode sequence identification incorporating taxonomic hierarchy and within taxon variability [J].PLoS ONE,2011,6(8):e20552.

[18]Little DP.BRONX2:Barcode recognition obtained with nucleotide eXposés [R].2012.

[19]Nielsen R,Matz M.Statistical approaches for DNA barcoding[J].Systematic Biology,2006,55(1):162-169.

[20]Matz MV,Nielsen R.A likelihood ratio test for species membership based on DNA sequence data[J].Phil.Trans.R.Soc.B,2005,360(1462):1969-1974.

[21]Abdo Z,Golding GB.A Step toward barcoding life:a model-based,decision-theoretic method to assign genes to preexisting species groups[J].Systematic Biology,2007,56(1):44.

[22]Zhang AB.Inferring species membership using DNA sequences with back-propagation neural networks[J].Systematic Biology,2008,57(2):202-215.

[23]Zhang AB,Feng J,Ward RD,et al.A new method for species identification via protein-coding and non-coding DNA barcodes by combining machine learning with bioinformatic methods[J].PLoS ONE,2012,7(2):e30986.

[24]Zhang AB,Muster C,Liang HB,et al.A fuzzy-set-theory-based approach to analyse species membership in DNA barcoding[J].Molecular Ecology,2012,21(8):1848-1863.

[25]Weitschek E,Fiscon G,Felici G.Supervised DNA barcodes species classification:analysis,comparisons and results[J].BioData Mining,2014,7(1):4.

[26]王應(yīng)祥.中國哺乳動物種和亞種分類明錄與分布大全[M].北京:中國林業(yè)出版社,2003.

[27]蔣志剛,江建平,王躍招,等.中國脊椎動物紅色名錄[J].生物多樣性,2016,24(5):500-551.

[28]Tamura K,Peterson D,Peterson N,et al.MEGA5: Molecular evolutionary genetics analysis using maximum likelihood,evolutionary distance, and maximum parsimony methods[J].Molecular Biology and Evolution,2011, 28(10):2731-2739.

[29]Puillandre N,Lambert A,Brouillet S,et al.ABGD,Automatic barcode gap discovery for primary species delimitation[J].Molecular Ecology,2012,21(8):1864-1877.

[30]Hall M,Frank E,Holmes G,et al.The WEKA data mining software: an update[J].SIGKDD Explorations, 2009,11(1):10-18.

[31]Zhang AB,Hao MD,Yang CQ,et al.Barcoding R:an integrated R package for species identification using DNA barcodes[J].Methods in Ecology and Evolution,2016,DOI:10.1111/2041-210X.12682.

[32]Paradis E,Claude J,Strimmer K.APE:Analyses of phylogenetics and evolution in R language[J]. Bioinformatics, 2004,20(2):289-290.

[33]Cai Y,Zhang L,Wang Y,et al.Identification of deer species(Cervidae,Cetartiodactyla) in China using mitochondrial cytochrome c oxidase subunit I(mtDNA COI)[J].Mitochondrial DNA,2015:1-4.

[34]Fischetti M.Fast training of support vector machines with gaussian kernel[J].Discrete Optimization,2015(22):183-194.

[35]Kuksa P,Pavlovic V.Fast kernel methods for SVM sequence classifiers[J].Lecture Notes in Computer Science,2007,4645:228-239.

[36]Van Velzen R,Weitschek E,Felici G,et al.DNA barcoding of recently diverged species:relative performance of matching methods[J].PLoS ONE,2012,7(1):e30490.

[37]Meusnier I,Singer G,Landry JF,et al.A universal DNA mini-barcode for biodiversity analysis [J].BMC Genomics, 2008,9(1):214.

DNA Barcode Analysis: A Comparison of Performance Between Different Classification Methods in Deer Species

MA Wei-wei, LIU Yi-ming, DONG Bing-jun, YANG Bao-tian

(College of Life Science, Shenyang Normal University, Shenyang Liaoning 110034，China)

DNA barcoding aims to assign individuals to given species according to their sequence at a small locus, generally part of the COI gene. In this context, we examined 11 assignation methods in 8 deer species and investigated the ability of each method to correctly classify 30 query sequences. The results indicated that both of random forest and support vector machines were found to be the most reliable with respect to the data sets from deer. No method was found to be the best in all cases. The element most influencing the performance of the various methods was molecular diversity of the data. All of addition of genetically independent loci, lengthening sequences and increasing the sample size improved the predictive performance of most methods. The study implies that the quality of analyses was enhanced by choosing a method best-adapted to the sample.

COI；DNA barcoding；Cervidae；species identification

2016-12-20

遼寧省自然科學(xué)基金指導(dǎo)計劃項目“東北林蛙個體分子鑒別與群體遺傳學(xué)研究”(201602677)。

馬巍威(1990- )，男，碩士研究生，從事分子生態(tài)學(xué)研究。

楊寶田(1963- )，男，副教授，碩士生導(dǎo)師，博士，從事野生動物保護及分子生態(tài)學(xué)研究。

Q959.5+3

2095-7602(2017)04-0054-07