崔穎, 施丹丹, 徐澤龍, 張兆功, 李建中
(1.哈爾濱醫(yī)科大學(xué) 生物信息科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150086; 2.黑龍江大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150080)
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)已被廣泛地應(yīng)用于很多研究領(lǐng)域[1],如圖像分類、人臉識別、交通標(biāo)志識別等[2]。本文將卷積神經(jīng)網(wǎng)絡(luò)用于生物數(shù)據(jù)核小體DNA序列的識別。核小體是真核生物的染色質(zhì)基本結(jié)構(gòu)單元[3],由約147 bp的DNA雙鏈纏繞組蛋白八聚體約1.75圈形成,是染色體的一級結(jié)構(gòu)[4]。相鄰核小體通過稱短DNA序列連接,其范圍為10 bp~100 bp。DNA序列特征一直被認(rèn)為是核小體定位的重要因素。核小體參與染色質(zhì)形成[5]、拮抗轉(zhuǎn)錄因子[6]、抑制基因表達(dá)[7]等重要的生物學(xué)過程,其DNA序列的精確定位不僅影響基因表達(dá)調(diào)控[8],對DNA復(fù)制[9]、DNA修復(fù)[10]及重組[11]等也有重要作用。當(dāng)前國內(nèi)外核小體定位研究大多針對開發(fā)分類算法,例如通過信息熵[12]、堿基對偏轉(zhuǎn)角度[13]等方法來表示核小體DNA序列特征[14],進(jìn)而訓(xùn)練分類器。本文基于Z曲線理論將核小體DNA序列轉(zhuǎn)換為三維空間曲線坐標(biāo),應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和檢驗(yàn),獲得了較好的分類效能,為今后的核小體定位研究提供一些參考。
Z曲線理論基于正面體表示堿基對稱性[15],將DNA 序列用4 種字母符號表示為一維序列,利用這種形式來表示任意長度的DNA 序列,能夠顯示出DNA序列的新特征,且根據(jù)正四面體的對稱性可以證明,每條序列對應(yīng)唯一一條Z曲線。對于一條長為N的單鏈DNA序列,它的三維坐標(biāo)可表示方法為:
(1)
每次從第1個堿基到第n個堿基,分別統(tǒng)計(jì)1~n這個子序列中4種堿基積累出現(xiàn)的次數(shù),記為An、Cn、Gn、Tn。Xn、Yn、Zn的取值范圍為[-n,n],對其進(jìn)行標(biāo)準(zhǔn)化處理, 將Xn、Yn、Zn的值都除以n得到xn、yn、zn,使其范圍處于[-1,1]:
(2)
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò)[16],包括卷積層(convolutional layer)和池化層(pooling layer),布局更接近于真實(shí)生物神經(jīng)網(wǎng)絡(luò),能降低特征提取和分類過程中數(shù)據(jù)的復(fù)雜程度[17]。卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建包括創(chuàng)建卷積層、創(chuàng)建線性整流層、創(chuàng)建池化層以及創(chuàng)建全連接層4個步驟。
本文基于Z曲線理論,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)提出一種新的核小體定位識別方法,簡稱為ZCN,該方法的流程圖如圖1所示。分類器的構(gòu)建過程使用R軟件包“mxnet”進(jìn)行訓(xùn)練和驗(yàn)證,采用十倍交叉驗(yàn)證方法進(jìn)行效果評估,取10次驗(yàn)證的平均結(jié)果為一次最后結(jié)果,同時,為了減少由于隨機(jī)分類而帶來的結(jié)果誤差,隨機(jī)重復(fù)進(jìn)行50次十倍交叉驗(yàn)證。具體過程如下:將Z曲線模型投入卷積層構(gòu)建模型,卷積核大小為3,并選定卷積核個數(shù)為300創(chuàng)建卷積層;然后加入非線性函數(shù)即雙曲正切函數(shù)創(chuàng)建線性整流層;再采用最大池化,步長設(shè)置為1創(chuàng)建池化層;最后,每一個結(jié)點(diǎn)都與上一層的所有結(jié)點(diǎn)相連,用來把前邊提取到的特征綜合起來,最終得到全連接層,并用“softmax”函數(shù)構(gòu)建分類器模型,使用驗(yàn)證集數(shù)據(jù)進(jìn)行分類器檢驗(yàn);最后,通過驗(yàn)證數(shù)據(jù)集進(jìn)行驗(yàn)證。
圖1 基于Z曲線的卷積神經(jīng)網(wǎng)絡(luò)流程Fig.1 Flow chart of convolutional neural network based on Z-curve
為評價ZCN方法的分類效果,使用敏感性(sensitivity, Sn)、特異性(specificity, Sp)、準(zhǔn)確率(accuracy,Acc)和Matthews相關(guān)系數(shù)(matthews correlation coefficient,MCC)及ROC(receiver operating characteristic)曲線面積AUC(area under ROC)來作為評價參數(shù)[18],前3個指標(biāo)通常被用于在統(tǒng)計(jì)預(yù)測理論中從不同角度衡量預(yù)測系統(tǒng)性能為:
(3)
式中:TP表示真陽性(true positive, TP)數(shù)量;FP表示假陽性(false positive, FP)數(shù)量;TN表示真陰性 (true negative, TN) 數(shù)量;FN表示假陰性(false negative, FN)數(shù)量。
2.1.1 酵母數(shù)據(jù)集
從文獻(xiàn)[19]中獲得酵母(Saccharomyces cerevisiae,S.cerevisiae)核小體數(shù)據(jù),含有5 000條核小體DNA序列作為陽性數(shù)據(jù)集,與5 000條連接DNA序列作為陰性集,每條序列長為150 bp,記為數(shù)據(jù)集S1;同時,采用文獻(xiàn)[20]中的1 880條核小體DNA序列集和1 740條連接區(qū)DNA序列集,記為數(shù)據(jù)集S2。
2.1.2 人類、線蟲和果蠅數(shù)據(jù)集
從Guo文獻(xiàn)中獲得人類(H.sapiens)、線蟲(C.elegans)和果蠅(D.melanogaster)的數(shù)據(jù)集[21],人類共有2 273條核小體DNA序列集和2 300條連接區(qū)DNA序列集,線蟲共有2 067條核小體DNA序列集和2 108條連接區(qū)DNA序列集,果蠅共有2 400條核小體DNA序列集和2 350條連接區(qū)DNA序列集,用于檢驗(yàn)ZCN方法分類效能和可推廣性。
2.1.3 酵母全基因組數(shù)據(jù)
從UCSC數(shù)據(jù)庫獲取釀酒酵母全基因組序列數(shù)據(jù)[22],包含17條染色體序列,其網(wǎng)址為:http://hgdownload.soe.ucsc.edu/downloads.html(版本:SacCer_Apr2011 sacCer3),使用其中16條染色體數(shù)據(jù);另外從SGD(Saccharomyces Genome Database)數(shù)據(jù)庫獲得酵母基因GAL1和基因GAL10的DNA序列數(shù)據(jù),用于核小體預(yù)測,其網(wǎng)址為http://www.yeastgenome.org/。
2.1.4 酵母全基因組核小體數(shù)據(jù)集
從Xu Zhou與Erin O′Shea的文獻(xiàn)中獲得61 532條酵母核小體位置信息數(shù)據(jù)[23],這是一套全基因組的核小體數(shù)據(jù)集,用于檢驗(yàn)預(yù)測結(jié)果。
2.2.1 ZCN方法在酵母數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果
酵母數(shù)據(jù)集S1的核小體DNA序列和連接區(qū)DNA序列經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和驗(yàn)證,結(jié)果如圖2(a),敏感性Sn、特異性Sp、準(zhǔn)確率Acc和MCC值分別為0.91、0.88、0.90、0.80,ROC曲線下面積AUC值為0.96,面積最高值達(dá)到0.970 4,如圖2(b),這表明ZCN方法在酵母的核小體定位識別中的效能良好,能夠較好地識別出核小體序列與連接區(qū)序列。
圖2 ZCN方法實(shí)驗(yàn)結(jié)果和ROC曲線(S1)Fig.2 Results of ZCN method and receiver operating characteristic(S1)
酵母數(shù)據(jù)集S2的核小體DNA序列和連接區(qū)DNA序列,分別經(jīng)過Z曲線轉(zhuǎn)換得到三維空間坐標(biāo)矩陣數(shù)據(jù)集,投入訓(xùn)練出的分類器中進(jìn)行分類,通過十倍交叉驗(yàn)證,結(jié)果如圖3(a)所示,Sn、Sp、Acc和MCC分別達(dá)到0.97、0.84、0.90、0.82。ROC曲線面積AUC值最高達(dá)到0.972 3,如圖3(b)所示,表明ZCN方法在酵母核小體定位中再次取得較好識別效果,且各項(xiàng)性能指標(biāo)穩(wěn)定。實(shí)驗(yàn)表明ZCN方法在酵母中具有較好的應(yīng)用效果。
圖3 ZCN方法實(shí)驗(yàn)結(jié)果和ROC曲線(S2)Fig.3 Results of ZCN method and receiver operating characteristic(S2)
2.2.2 ZCN方法在人類、線蟲和果蠅中的實(shí)驗(yàn)結(jié)果
應(yīng)用ZCN方法識別人類、線蟲和果蠅3個物種的核小體定位,得到人類、線蟲和果蠅的ROC曲線下面積AUC值分別為0.796、0.940和0.772,如圖4所示,Sn、Sp和Acc值如表1所示。ZCN方法不僅可應(yīng)用于酵母也可應(yīng)用于其他多個物種的核小體定位識別,分類效能良好且具有可靠的推廣性。
圖4 人類、線蟲和果蠅的ROC曲線面積Fig.4 ROC curve areas for H.sapiens, C.elegans and D.melanogaster
2.2.3 ZCN方法與其他識別方法的比較
將ZCN方法與其他方法進(jìn)行結(jié)果比較,包括iNuc-STNC方法[21]、iNuc-PseKNC方法[18]、3LS方法和LeNup[14],這4種方法沒有酵母實(shí)驗(yàn)結(jié)果,因此只進(jìn)行人類、線蟲和果蠅的核小體定位識別結(jié)果比較;另外,LeNup方法采用20倍交叉驗(yàn)證,而3LS、iNuc-PseKNC和iNuc-STNC方法采用Jackknife檢驗(yàn)方法,ZCN方法采用10倍交叉驗(yàn)證方法,其訓(xùn)練數(shù)據(jù)集在樣本大小和訓(xùn)練次數(shù)上均小于上述4種方法,如表1所示。
表1ZCN方法與其他方法的實(shí)驗(yàn)結(jié)果比較
Table1ComparisonofexperimentalresultsbetweenZCNmethodandothermethods
種類方法Sn/%Sp/%Acc/%AUCH. sapiensC. elegansD. melan-ogasterLeNup92.1285.6288.890.941 23LS91.6988.3590.010.958 8iNuc-PseKNC87.8684.7086.270.925 0iNuc-STNC89.3185.9187.60—ZCN68.7779.3669.310.796LeNup93.3990.4191.880.965 33LS86.5489.2187.860.950 5iNuc-PseKNC90.3083.5586.900.935 0iNuc-STNC91.6286.6688.62—ZCN91.1683.5185.130.940LeNup89.7487.1388.470.940 13LS84.0782.7483.410.914 7iNuc-PseKNC78.3181.6579.970.874 0iNuc-STNC79.7683.6181.67—ZCN68.5575.1867.530.772 0
ZCN方法在人類和果蠅數(shù)據(jù)集中,敏感性Sn、特異性Sp、準(zhǔn)確性Acc 3項(xiàng)指標(biāo)略低,ROC曲線面積AUC值分別達(dá)到0.796和0.772,而iNuc-STNC方法沒有給出AUC值;在線蟲數(shù)據(jù)中,ZCN方法的敏感性Sn高于3LS方法,特異性Sp、準(zhǔn)確性Acc與iNuc-PseKNC方法基本一致,ROC曲線面積AUC值0.940略高于iNuc-PseKNC方法。ZCN方法在訓(xùn)練數(shù)據(jù)集大小和訓(xùn)練次數(shù)均小于其他4種方法,但在單項(xiàng)指標(biāo)上表現(xiàn)較好,且各項(xiàng)指標(biāo)穩(wěn)定,特別地在酵母中取得較好實(shí)驗(yàn)結(jié)果,表明ZCN方法有識別較好效能和可推廣性。
2.3.1 核小體序列預(yù)測候選序列集
通過滑窗法,設(shè)置滑動窗口大小為150 bp,步長為1 bp,按染色體提取出核小體DNA序列候選預(yù)測集,如表2所示,共得12 068 942條DNA序列作為候選預(yù)測集,將每條DNA進(jìn)行Z曲線轉(zhuǎn)換得到坐標(biāo)矩陣,投入到ZCN方法訓(xùn)練的模型中進(jìn)行預(yù)測。
表2酵母全基因組核小體定位候選預(yù)測集
Table2CandidatepredictionsetofnucleosomelocalizationinthewholegenomeofS.cerevisiae
染色體候選預(yù)測集染色體候選預(yù)測集chr01230 069chr09439 739chr02813 035chr10745 602chr03316 471chr11666 667chr041 531 784chr121 078 028chr05576 725chr13924 282chr06270 012chr14784 184chr071 090 791chr151 091 142chr08562 494chr16947 917
2.3.2 核小體預(yù)測去冗余篩選方法
滑窗法獲得候選序列集存在大量相似序列和冗余數(shù)據(jù),為減少預(yù)測結(jié)果中的重復(fù)和冗余,提出基于染色體上每個堿基位置的去冗余策略,對序列陽性集進(jìn)行篩選,保留預(yù)測為核小體的DNA片段,將這些片段回拼至全基因組對應(yīng)位置上。
篩選方法思想如下:1)每條染色體上的每條候選預(yù)測序列,除去首尾2條候選預(yù)測序列的75 bp堿基外,每條候選預(yù)測序列的每個堿基,將其擴(kuò)展前后共150 bp序列提取出來投入ZCN訓(xùn)練模型中進(jìn)行預(yù)測。若預(yù)測為核小體,則將這一堿基標(biāo)記為核小體。因此,除了每條染色體序列最開始的149個堿基與末尾149個堿基,相當(dāng)于在考慮周圍序列信息的條件下,對染色體上單個堿基進(jìn)行150次記分。堿基所對應(yīng)的得分越高,該堿基前后共150 bp堿基所對應(yīng)的150條序列被分類為核小體序列的數(shù)量越多,即這個位置的堿基更傾向于落到核小體序列片段;2)如果一條DNA片段被分類為核小體,則該序列對應(yīng)堿基150 bp范圍內(nèi)的所有堿基得分加1,否則加0,在對所有序列進(jìn)行分類之后,所有位置的堿基的得分范圍為0~150,設(shè)定初始閾值75,當(dāng)每個位置的堿基得分閾值大于或等于75時,認(rèn)為該位置堿基更加傾向于落在核小體區(qū)域,逐漸提高閾值,找到可以降低假陽性的更加嚴(yán)格的閾值,最后統(tǒng)計(jì)篩選出得到去除有重復(fù)的相鄰候選序列,得到預(yù)測的核小體數(shù)量,如圖5所示,經(jīng)過28次計(jì)算,最后選擇閾值為93篩選所得9 229 869個堿基位置作為核小體預(yù)測結(jié)果。
2.3.3 核小體預(yù)測結(jié)果驗(yàn)證
為檢驗(yàn)其與驗(yàn)證集在單條染色體上的核小體結(jié)果的一致性,使用一套獨(dú)立數(shù)據(jù)集(61 532條核小體序列)來驗(yàn)證結(jié)果,繪制酵母單條染色體上預(yù)測堿基與實(shí)際堿基位置統(tǒng)計(jì)圖。如圖6所示,發(fā)現(xiàn)不僅每一條染色體上的2個數(shù)據(jù)量大小相近,全基因組上的整體數(shù)據(jù)趨勢也相同,如圖6(a)所示;為了精確觀察具體差異程度,計(jì)算出每條染色體2類數(shù)據(jù)的差值在真實(shí)堿基數(shù)量上的比例,結(jié)果顯示差值比例都小于4%,最大值為3.7%,最小值僅為0.1%,如圖6(b)所示,預(yù)測結(jié)果與驗(yàn)證數(shù)據(jù)有較好的一致性,表明核小體去冗余篩選方法得到的閾值具有可靠性。
圖5 候選預(yù)測結(jié)果閾值篩選Fig.5 Threshold selection of candidate prediction result
圖6 預(yù)測位置與實(shí)際位置的驗(yàn)證統(tǒng)計(jì)Fig.6 Statistics of predicted position and actual position
計(jì)算單條染色體預(yù)測位置與實(shí)際位置的交集,以檢驗(yàn)核小體定位的準(zhǔn)確性,可見位置的重疊程度較高,如表3所示。
表3酵母核小體定位的全基因組位點(diǎn)驗(yàn)證
Table3Wholegenomesiteverificationofyeastnucleosomepositioning
染色體預(yù)測結(jié)果集驗(yàn)證集交集準(zhǔn)確率/%chr01174 619174 300136 46078.29chr02633 933621 000500 11580.53chr03232 690241 650185 05676.58chr041 148 1951 173 300910 12377.57chr05435 367443 850345 53977.85chr06207 727207 900166 16979.93chr07825 042828 000645 70877.98chr08433 723428 550343 36180.12chr09344 939336 600271 97780.80chr10581 059571 200451 14978.98chr11504 252507 300388 38276.56chr12826 454818 700647 84279.13chr13705 540711 450561 77178.96chr14619 530598 650487 81481.49chr15835 707838 650661 40878.87chr16721 092728 700572 72778.60總數(shù)9 229 8699 229 8007 275 60178.83
單條染色體交疊堿基數(shù)量真實(shí)驗(yàn)證數(shù)據(jù)集堿基數(shù)的比例最低為76.56%,最高81.49%,平均值為78.83%,根據(jù)比例值,對預(yù)測結(jié)果集與驗(yàn)證集做Wilcoxon秩和檢驗(yàn),P-value為 0.690 5,差異不顯著;根據(jù)位置,對預(yù)測結(jié)果集數(shù)據(jù)與驗(yàn)證集的核小體起始和終止位置,計(jì)算其皮爾森相關(guān)系數(shù)(Pearson correlation coefficient)以驗(yàn)證預(yù)測結(jié)果與驗(yàn)證結(jié)果的相似性,發(fā)現(xiàn)每條染色體上的皮爾森相關(guān)系數(shù)值均大于0.99,P-value<2.2×10-16,這充分說明預(yù)測結(jié)果集與驗(yàn)證集的相關(guān)性接近于100%。根據(jù)結(jié)果分析,發(fā)現(xiàn)核小體序列能夠很大范圍地被預(yù)測出來,通過閾值篩選后,其驗(yàn)證結(jié)果較好,說明ZCN方法可以進(jìn)行全基因組核小體定位預(yù)測,并且在訓(xùn)練集大小為5 000條核小體序列和5 000條連接序列的情況,不僅完成全基因組6萬多條核小體序列預(yù)測,并取得78.83%的預(yù)測準(zhǔn)確率,結(jié)果證實(shí)ZCN方法預(yù)測效果較好。
2.3.4 酵母基因GAL1與基因GAL10的預(yù)測結(jié)果
從SGD數(shù)據(jù)庫獲得基因GAL1和GAL10的DNA序列數(shù)據(jù)及位置數(shù)據(jù),用ZCN方法在這兩個基因上進(jìn)行核小體定位預(yù)測和驗(yàn)證,預(yù)測過程與全基因組上核小體預(yù)測過程一致,GAL1原基因長度為1 587 bp(chrII:279021-280607),加上下游1 kb,共為3 587 bp(chrII:278021-281607),GAL10原基因長度為2 100 bp(chrII:276253-278352),加上下游1 kb,共為4 100 bp(chrII: 275253-279352)。
預(yù)測結(jié)果如圖7所示,計(jì)算該基因上預(yù)測位置與實(shí)際位置的交集,及交集在預(yù)測集與真實(shí)集中的占比。
圖7 預(yù)測位置與實(shí)際位置的驗(yàn)證統(tǒng)計(jì)Fig.7 Statistics of predicted position and actual position
圖7中,粗線表示預(yù)測核小體堿基中交集位點(diǎn)的含量,即預(yù)測核小體堿基的準(zhǔn)確率;細(xì)線表示在真實(shí)核小體堿基中交集位點(diǎn)的比例,也可以表示每個閾值下核小體的檢出率,它越來越低是因?yàn)殡S著閾值升高,預(yù)測堿基位點(diǎn)數(shù)量逐漸降低,導(dǎo)致交集數(shù)量減少,但作為分母的真實(shí)核小體堿基數(shù)量一直不變。當(dāng)閾值設(shè)為1時,表示以卷積神經(jīng)網(wǎng)絡(luò)模型一次分類即為預(yù)測結(jié)果,此時在基因GAL10序列中有3 374個堿基被預(yù)測為核小體位點(diǎn),其中有2954(約87.55%)個為真實(shí)的核小體堿基位點(diǎn),占真實(shí)的核小體堿基位點(diǎn)數(shù)據(jù)集(3 241個)的91.14%。而在基因GAL1序列中有2 699個堿基被預(yù)測為核小體位點(diǎn),其中有2 213(約81.99%)個為真實(shí)的核小體堿基位點(diǎn),占真實(shí)的核小體堿基位點(diǎn)數(shù)據(jù)集(2 700個)的81.96%。可見位置的重疊程度較高,說明在不考慮假陽性的情況下,核小體序列能夠很大范圍地被預(yù)測出來。
為了降低假陽性,逐漸提升閾值來綜合考慮多次分類的結(jié)果,雖然核小體的預(yù)測位點(diǎn)數(shù)量與堿基交集數(shù)量逐漸減少,但該閾值下預(yù)測集中的準(zhǔn)確性卻逐漸增高至92.53%,甚至100%(GAL10中:準(zhǔn)確性最低為87.25%,最高為92.53%,平均值為89.16%;GAL1中:準(zhǔn)確性最低為81.38%,最高為100.00%,平均值為86.25%),結(jié)果證實(shí)ZCN方法預(yù)測效果較好。盡管真實(shí)的核小體位點(diǎn)數(shù)量的檢出率顯著降低,但是預(yù)測集中的準(zhǔn)確性卻波動相對較小,這意味著預(yù)測結(jié)果中假陽性比例不大,且今后也許可以根據(jù)核小體所需數(shù)量來確定閾值,即使將閾值設(shè)置為個位數(shù),預(yù)測的準(zhǔn)確性都能高于81%。根據(jù)預(yù)測核小體堿基位點(diǎn)的得分,繪制峰值圖譜,如圖8所示,結(jié)果顯示在基因GAL1周圍上下游出現(xiàn)7個峰值,基因GAL10周圍上下游出現(xiàn)11個峰值,即預(yù)測的核小體定位數(shù)量,這與理論分析基本一致,再次說明ZCN方法的預(yù)測效能較好。
圖8 基因GAL1和GAL10上的核小體定預(yù)測圖譜Fig.8 Predicted map of nucleosome positioning on GAL1 and GAL10 genes
1)將ZCN方法用于酵母核小體定位識別,通過2套數(shù)據(jù)實(shí)驗(yàn),結(jié)果顯示ZCN方法在酵母中取得較好的識別效果。
2)將ZCN方法能夠推廣到其他物種,包括人類、線蟲和果蠅的核小體定位識別中,與其他4種方法進(jìn)行性能比較,結(jié)果顯示ZCN方法能夠很好進(jìn)行物種推廣。
3)將ZCN方法用于酵母全基因組核小體定位預(yù)測,又提出一個基于堿基位置的閾值篩選方法,既獲得高質(zhì)量的核小體偏好堿基,又降低數(shù)據(jù)冗余性,將篩選后的預(yù)測結(jié)果與實(shí)驗(yàn)獲得的核小體數(shù)據(jù)(驗(yàn)證集)比較驗(yàn)證,同時通過預(yù)測基因GAL1和GAL10周圍的核小體位點(diǎn),進(jìn)而獲得核小體定位的位置分布情況,均顯示出預(yù)測結(jié)果集與驗(yàn)證集的具有較好的一致性和較高的準(zhǔn)確,說明ZCN方法能夠很好地完成核小體定位預(yù)測。
ZCN方法獲得較好的實(shí)驗(yàn)結(jié)果,是由于Z曲線的三維坐標(biāo)矩陣很好地展現(xiàn)出DNA序列特征,卷積神經(jīng)網(wǎng)絡(luò)很好地完成了這些特征的訓(xùn)練,因此,實(shí)驗(yàn)結(jié)果顯示各項(xiàng)性能指標(biāo)都取得不錯效果。ZCN方法對核小體定位預(yù)測和核小體功能研究具有重要的參考和指導(dǎo)意義,特別地,對于深入理解基因表達(dá)的后續(xù)步驟以揭示控制核小體定位所涉及的機(jī)制也有重要作用。