• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一個深度學(xué)習(xí)DNA序列特異性的預(yù)測模型

      2018-11-14 10:27:42黃立群丁雪松張步忠
      小型微型計算機(jī)系統(tǒng) 2018年11期
      關(guān)鍵詞:堿基卷積向量

      黃立群,丁雪松,張步忠,呂 強,2

      1(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006 2(江蘇省計算機(jī)信息處理技術(shù)重點實驗室,江蘇 蘇州 215006)

      1 引 言

      DNA序列上存在一些特殊區(qū)域能夠讓特異性蛋白(轉(zhuǎn)錄因子)結(jié)合在該區(qū)域上,這就是DNA序列特異性.獲知這種序列特異性對轉(zhuǎn)錄和選擇性剪切這類基因調(diào)控過程有至關(guān)重要的作用.通常情況下,這種序列特異性是通過費時費力的生物實驗獲得.如今,像一些人類基因組庫或者蛋白質(zhì)庫等數(shù)據(jù)樣本變得越來越龐大,而且生物特征的維度也在不斷的增加.這兩點使得傳統(tǒng)的生物實驗手段受到極大的挑戰(zhàn),科學(xué)家們可能要花費大量的時間去挑選數(shù)據(jù),做重復(fù)耗費資金的實驗.但是大量的生物數(shù)據(jù)卻能夠給深度學(xué)習(xí)[1]模型提供充足的訓(xùn)練樣本,驗證樣本,以及測試樣本.近幾年深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)[2](Convolutional Neural Network,CNN)由于其提取邊緣特征的能力使其在圖像視覺領(lǐng)域表現(xiàn)優(yōu)異,遞歸神經(jīng)網(wǎng)絡(luò)[3](Recurrent Neural Network,RNN)在基于序列化問題的自然語言處理[4]方面取得了顯著效果.那么遞歸神經(jīng)網(wǎng)絡(luò)在序列化的生物領(lǐng)域可能也存在很大的優(yōu)勢.

      除去生物領(lǐng)域方法,目前預(yù)測DNA序列特異性的方法主要有以gkmSVM[5]為代表的傳統(tǒng)機(jī)器學(xué)習(xí)和以DeepBind[6]為代表的深度學(xué)習(xí)這兩大類方法,DeepBind和DeepSEA[7]是兩款基于深度學(xué)習(xí)算法框架的軟件.這兩款軟件將深度學(xué)習(xí)應(yīng)用到特異性蛋白質(zhì)序列結(jié)合問題上,并且在ENCODE[8]數(shù)據(jù)庫上和傳統(tǒng)的實驗方法相比,DeepBind和DeepSEA表現(xiàn)得更好.2016年DK Gifford[9]等人利用卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)框架,在只有 DNA序列和標(biāo)簽的條件下進(jìn)行了DNA和蛋白質(zhì)的是否結(jié)合的實驗,同樣取得了很好的結(jié)果.

      DeepBind是一種基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,該模型的輸入是一條DNA序列,將輸入的序列看作一張圖,利用卷積層和池化層在輸入序列上進(jìn)行特征提取,再通過多層感知器網(wǎng)絡(luò)對提取的特征進(jìn)行運算輸出,如果DNA能結(jié)合蛋白質(zhì)就輸出1,否則就輸出0,類似圖像領(lǐng)域中的二分類問題.

      gkmSVM是一種基于支持向量機(jī)的分類打分模型,該模型可以用來檢測DNA在細(xì)胞中的可及性,訓(xùn)練好的模型能夠?qū)θ魏蜠NA序列的可及性進(jìn)行分類打分.gkmSVM方法首先通過輸入的正樣本集和負(fù)樣本集計算出核矩陣,然后通過計算出的核矩陣以及兩類樣本數(shù)據(jù)訓(xùn)練模型,最后利用訓(xùn)練好的模型對DNA序列進(jìn)行分類打分.LS-GKM[10]是gkmSVM在訓(xùn)練集容量上的一次升級,gkmSVM只能訓(xùn)練小于等于5000的樣本數(shù),當(dāng)樣本集大于5000條時軟件會運行失敗,LS-GKM解決了這一問題.

      本文使用基于序列詞向量的深度學(xué)習(xí)方法對DNA序列是否結(jié)合蛋白質(zhì)進(jìn)行預(yù)測,所有的實驗數(shù)據(jù)來自ENCODE項目的690個測定實驗使用的數(shù)據(jù).每個實驗數(shù)據(jù)包含若干條長度為101的DNA字母序列,并且每條DNA序列對應(yīng)一個標(biāo)簽0或者1.如果DNA不能結(jié)合特異性蛋白就將標(biāo)簽設(shè)置為0,否則為1.將DNA序列看作自然語言處理中的一條句子序列,將DNA序列中的一些堿基的組合類比成單詞,對蛋白質(zhì)序列的處理就類似于自然語言對語句的處理.本文先用一種算法對DNA序列進(jìn)行分詞操作,然后利用詞向量模型[11]對分詞后的DNA序列訓(xùn)練生成序列詞向量.將生成的序列詞量作為本文深度學(xué)習(xí)模型的輸入,再利用卷積神經(jīng)網(wǎng)絡(luò)提取序列中的高層特征,然后將卷積神經(jīng)網(wǎng)絡(luò)的輸出作為雙向LSTM[12]的輸入,隨后通過雙向LSTM對特征進(jìn)行運算累積輸出,最后進(jìn)行分類.我們把本文方法簡稱為Biovect_CNN_LSTM.本文將訓(xùn)練好的模型在ENCODE的690測定測試集上做了測試,并且和DeepBind方法和LS-GKM方法做了比較.

      本文模型憑借序列詞向量,以及雙向LSTM在空間、時間上的優(yōu)勢,使得模型結(jié)果AUC的分布要優(yōu)于LS-GKM和DeepBind方法.

      2 Biovect_CNN_LSTM模型設(shè)計

      2.1 序列詞向量的預(yù)訓(xùn)練

      傳統(tǒng)方法利用one-hot方法對組成DNA序列的4種堿基A,C,G,T進(jìn)行編碼,這僅僅是單純的將字母轉(zhuǎn)成數(shù)字,而在生物領(lǐng)域不同堿基可以組合成具有生物特性的區(qū)域.本文將實驗中的所有DNA序列按照生物領(lǐng)域中對序列分析經(jīng)常使用的k-mer方法對DNA序列進(jìn)行切分.在計算基因組學(xué)中,k-mer是指所有通過DNA序列測序讀到的所有可能的子序列.這樣一條長度為n的DNA序列經(jīng)過k-mer算法切分后就會生成一條新的復(fù)雜序列,新序列以每k個堿基為一組一共n-k+1組的形式存在.k-mer算法過程就是利用一個游標(biāo)從左往右滑動,每次選取k個堿基將這k個堿基存入新序列中,并將游標(biāo)繼續(xù)向右滑動,直至序列末尾.

      k-mer通常被用作序列比對之前的第一步分析方法.特異性蛋白可以通過轉(zhuǎn)錄因子綁定到DNA特定區(qū)域,考慮到三個堿基編碼一個氨基酸,因此本文的k選取3.

      經(jīng)過上述步驟將每條長度為101的DNA序列切分成3個堿基一詞,一共99個詞的新序列,每個序列詞相當(dāng)于由3個字母組的一個單詞,99個序列詞相當(dāng)于99個單詞組成的一條句子,這樣每個序列詞之間可能存在生物相關(guān)性.再利用詞向量模型訓(xùn)練所有的處理后的序列語料庫,生成序列詞向量.文中使用的詞向量模型是CBOW模型,根據(jù)上下文預(yù)測目標(biāo)詞出現(xiàn)的概率,每個目標(biāo)詞用16維的向量表示.經(jīng)過若干輪的迭代,將原先每條長度為99的堿基組序列,訓(xùn)練生成(99,16)的張量數(shù)據(jù).

      2.2 模型結(jié)構(gòu)描述

      本文使用的深度網(wǎng)絡(luò)模型如圖2所示.深度網(wǎng)絡(luò)模型的輸入是N×T,T是每條DNA序列中含有的序列詞向量的個數(shù),本文實驗每條序列的詞向量個數(shù)是99,N是CBOW模型生成的序列詞向量的維度.

      圖1 深度模型結(jié)構(gòu)

      圖1中模型的輸入是一個序列Xt,此處t是99,對應(yīng)每條序列由99個序列詞構(gòu)成,每個X是通過上文方法提取的16維的序列詞向量. 將序列詞向量序列輸入模型第一層的1D卷積層,利用p×m的卷積核去掃描輸入的序列,其中p是卷積核的個數(shù),m是一維卷積核的長度,每次對m個序列詞向量進(jìn)行卷積.該卷積層相當(dāng)于一個特征掃描器,目的是希望能在生物詞向量的基礎(chǔ)上提取出隱含的高層特征,挖掘更多的生物特征.

      網(wǎng)絡(luò)的第二層與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同,此處利用批規(guī)范化層(Batch Normalization)[13]代替?zhèn)鹘y(tǒng)的池化層(pooling).使用批規(guī)范化層能避免在訓(xùn)練過程中落入飽和區(qū)域?qū)е碌奶荻认?,加速網(wǎng)絡(luò)訓(xùn)練,使得網(wǎng)絡(luò)收斂速度加快.也能避免因為使用池化后丟失部分特征這一缺點.批規(guī)范化層將每個隱藏層的輸出結(jié)果在batch上進(jìn)行批規(guī)范化后再將結(jié)果輸入下一層,就像我們在數(shù)據(jù)預(yù)處理中將χ進(jìn)行規(guī)范化后送入網(wǎng)絡(luò)的第一層一樣.

      第三層是一個雙向的LSTM層,之所以使用雙向LSTM是因為DNA是有兩條鏈組成的雙螺旋結(jié)構(gòu).雙向LSTM每個神經(jīng)元的輸出是由當(dāng)前神經(jīng)元的輸入和該神經(jīng)元左右鄰居神經(jīng)元經(jīng)過計算得到.最后將所有的特征累計到序列的最后一位,作為全連接層的輸入.

      本文還在全連接層之間加入了Dropout層.Dropout的作用是隨機(jī)的屏蔽一定比例的神經(jīng)元,這些被屏蔽的神經(jīng)元不參與層的計算,這樣可以有效的防止模型過擬合.最后的輸出層只有一個神經(jīng)元,對應(yīng)分類的兩種結(jié)果0和1,如果DNA序列能和蛋白質(zhì)綁定那么模型就輸出1,否則模型輸出0.

      2.3 訓(xùn)練模型

      本文的深度學(xué)習(xí)模型利用keras框架搭建,在CentOS7環(huán)境下進(jìn)行訓(xùn)練和測試,硬件資源使用的是兩塊K20GPU.通過兩塊K20并行來加速訓(xùn)練.

      模型的輸入是由生物詞向量組成的DNA序列,模型的minibatch是1024條DNA序列.訓(xùn)練集包含15960000條DNA序列,驗證集的DNA序列條數(shù)是1773469條,總的測試集DNA序列條數(shù)是5113218條,通過監(jiān)測模型的val_loss來判斷模型是否可以提前結(jié)束訓(xùn)練,本文當(dāng)val_loss在6次迭代都沒有一點下降時提前結(jié)束訓(xùn)練.模型訓(xùn)練時間超過100小時.

      模型使用Adam[14]優(yōu)化器指導(dǎo)模型訓(xùn)練,這樣在訓(xùn)練過程中無須復(fù)雜的調(diào)參過程.且計算高效占用內(nèi)存小.

      3 結(jié) 果

      3.1 實驗數(shù)據(jù)和評價指標(biāo)

      本文的實驗數(shù)據(jù)來自ENCODE項目的690個不同的測定實驗使用的數(shù)據(jù),每個實驗數(shù)據(jù)都有各自的訓(xùn)練集和測試集,本文利用所有的訓(xùn)練集訓(xùn)練模型,并且將訓(xùn)練集中的10%的數(shù)據(jù)劃分為驗證集,然后將訓(xùn)練好的模型分別在690個測試集上進(jìn)行測試.每條DNA序列都是由A,C,G,T四個字母組成的字符串,4種字母代表生物領(lǐng)域中的4種堿基.所有數(shù)據(jù)由正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集組成,標(biāo)簽為1是正樣本,標(biāo)簽為0是負(fù)樣本.這些數(shù)據(jù)是本文的方法和其他方法比較的基礎(chǔ).

      二分類的指標(biāo)很多,ACC、Sec、Pec、recall、MCC等,但是最能綜合反映模型性能是AUC(Area Under Curve).指標(biāo).所以,本文在AUC指標(biāo)上進(jìn)行了總體比較,并在幾個典型的數(shù)據(jù)集上進(jìn)行了個案比較.

      (1)

      M是正類樣本的數(shù)目,N是負(fù)類樣本的數(shù)目,通過對樣本score從大到小排序,最小score對應(yīng)樣本的rank1,以此類推ranki.

      3.2 總體性能分析

      統(tǒng)計690個測試數(shù)據(jù)集上的AUC分布來評價本文模型的好壞,并且和DeepBind,LS-GKM的結(jié)果做了比較,結(jié)果如圖2所示.

      圖2 三種方法的AUC分布

      圖2是三種方法的總體比較,縱坐標(biāo)是AUC,橫坐標(biāo)是三種比較的方法.從圖中可以看出LS-GKM方法的AUC結(jié)果主體分布在0.74~0.91之間,DeepBind方法的AUC主體分布在0.78~0.94之間,而本文模型的AUC主體分布在0.89~0.95之間.三個模型的AUC最高都接近1.這說明本文的模型訓(xùn)練結(jié)果要優(yōu)于另外兩個模型.

      3.3 部分轉(zhuǎn)錄組數(shù)據(jù)集對比

      本文從690個ENCODE測定實驗數(shù)據(jù)中隨機(jī)挑選5個實驗數(shù)據(jù)結(jié)果進(jìn)行比較,這5個實驗集都是DNA綁定蛋白中的轉(zhuǎn)錄實驗,轉(zhuǎn)錄是以DNA中的一條單鏈為模板,游離堿基為原料,在DNA依賴的RNA聚合酶催化下合成RNA鏈的過程.轉(zhuǎn)錄是蛋白質(zhì)合成的第一步,對研究遺傳有著起著舉足輕重的作用,結(jié)果如圖3所示,圖3是三種方法在AUC指標(biāo)上的性能比較,數(shù)據(jù)集描述見表1.在測試集4上DeepBind的AUC小于0.85,LS-GKM小于0.9,本文的方法已經(jīng)接近0.95,

      圖3 5個實驗數(shù)據(jù)集的結(jié)果

      測試集5上DeepBind方法的AUC略低于0.9,LS-GKM的AUC略高于0.9,本文的方法依然接近0.95,其余三個樣本集上三者方法AUC差距不大都接近1,由此可見本文的方法優(yōu)于其他兩種方法,尤其在測試集4,5上,本文的方法有著巨大的優(yōu)勢.

      表1 5個實驗數(shù)據(jù)集合名表

      3.4 小結(jié)

      上述實驗結(jié)果表明,本文的基于序列詞向量的深度學(xué)習(xí)模型在預(yù)測DNA和蛋白質(zhì)結(jié)合要優(yōu)于DeepBind和LS-GKM.原因在于本文的深度學(xué)習(xí)模型中,用一層雙向LSTM層,LSTM通過門的機(jī)制解決梯度消失問題,而且LSTM能夠捕捉長距離堿基的相互作用.

      在DNA和蛋白質(zhì)結(jié)合問題上,本文提出一種新的深度學(xué)習(xí)模型.實驗結(jié)果表明,該方法的性能要好于目前的LS-GKM和DeepBind兩種方法.

      未來進(jìn)一步研究可以著手于以更大規(guī)模的全基因序列庫訓(xùn)練更加準(zhǔn)確的序列詞向量.另外在深度學(xué)習(xí)模型的設(shè)計中,嘗試更加簡化模型結(jié)構(gòu),提升模型的可解釋性;可視化并解釋模型提取的中間層特征等.

      猜你喜歡
      堿基卷積向量
      向量的分解
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
      聚焦“向量與三角”創(chuàng)新題
      應(yīng)用思維進(jìn)階構(gòu)建模型 例談培養(yǎng)學(xué)生創(chuàng)造性思維
      中國科學(xué)家創(chuàng)建出新型糖基化酶堿基編輯器
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      生命“字母表”迎來4名新成員
      生命“字母表”迎來4名新成員
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      向量垂直在解析幾何中的應(yīng)用
      昌图县| 北安市| 萍乡市| 凉城县| 古浪县| 阳曲县| 蒙城县| 印江| 雅江县| 中阳县| 上饶县| 舞钢市| 巴塘县| 定安县| 奉化市| 万年县| 岚皋县| 武夷山市| 固安县| 酒泉市| 湖州市| 宜兴市| 依安县| 炎陵县| 福贡县| 五莲县| 绥德县| 阿克苏市| 吴川市| 广饶县| 怀宁县| 泰来县| 皋兰县| 惠来县| 普兰店市| 连江县| 河东区| 涿州市| 定边县| 紫金县| 岳池县|