• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度學習和支持向量機的基因結合蛋白預測

      2021-09-03 09:41:26陳佐瓚丁小軍甘井中
      濟南大學學報(自然科學版) 2021年5期
      關鍵詞:氨基酸蛋白質樣本

      陳佐瓚, 徐 兵, 丁小軍, 甘井中

      (1. 玉林師范學院 計算機科學與工程學院, 廣西 玉林 537000; 2. 南京師范大學 地理科學學院, 江蘇 南京 210023;3. 中南大學 計算機學院, 湖南 長沙 410083)

      基因與蛋白質的結合是生物體的重要功能。隨著科技的進步,基因測序技術不斷完善,諸多專家學者致力于挖掘基因序列,探索蛋白質在生物學上的意義[1-3]。每個生物都有蛋白質,預測蛋白質原始序列是當今生物信息學領域的研究熱點[4-6]。蛋白質與脫氧核糖核酸(DNA)結合的能力稱為DNA結合蛋白(DBP)。 DNA通過與蛋白質結合,可以實現(xiàn)多種功能, 調(diào)節(jié)生物體的機制[7]。 生物信息學領域的熱點問題集中在計算機資源和一些分類算法的集成上[8-9],其中蛋白質數(shù)據(jù)的積累、人工計算工作量以及人力物力成本等都是需要考慮的問題。

      近年來,一些學者認為DNA結合蛋白預測是一個分類任務,因此諸多基于統(tǒng)計學和機器學習方法應用于DNA結合蛋白研究[10-13]。以上方法確實比人工分類方法的效率有所提升,但是在預測精度和速度方面還需要提升和改進?;诮y(tǒng)計學的生物實驗預測方法的優(yōu)點是預測效果好,準確性極高,但也存在成本高、預測時間長的缺點。基于機器學習算法通過蛋白質的結構以及功能特性來學習其特征集合,采用機器學習中非線性映射方法,根據(jù)集合特征實現(xiàn)分類,但是如何保持集合向量分類,獲得可以有效輸出特征分類的結果還需要重點研究[14]。目前,人工智能中的深度學習方法已成為DNA結合蛋白預測方向上生物學信息的研究熱點, 并取得了顯著成果[15],但是,在當今日益增長的生物數(shù)據(jù)中,如何使用當前的深度模型來解釋生物信息甚至生物問題,是一個很有意義的研究課題?;诖耍疚闹刑岢鲆环N基于深度學習和支持向量機(SVM)的DNA結合蛋白預測算法(簡稱本文算法)。

      1 DNA結合蛋白預測方法

      1.1 模型框架

      給定結構序列A1A2A3A4A5A6A7…AL,該結構序列包含20個堿性氨基酸和噪聲蛋白,長度為L。通過嵌入操作,采用卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)和門控循環(huán)單元 (gated recurrent unit, GRU)深度學習方法構建模型(見圖1),構建深層神經(jīng)網(wǎng)絡對原始氨基酸序列進行編碼和解碼,得到氨基酸序列預測結果。通過特定的氨基酸序列的預測實例,分析模型各個模塊的功能。

      GRU—門控循環(huán)單元。

      在圖1所示的模型框架結構中,輸入流為模擬氨基酸序列“MSFMVPT”特征的工作流程,主要包括4個階段: 1)原始氨基酸序列成為固定長度的整數(shù)序列,需要進行編碼; 2)通過嵌入操作將特征序列進行向量化表示; 3)將經(jīng)過編碼標注后的特征序列轉化得到的特征向量饋入Convolution(卷積)中,進行特征提?。?4)不同于傳統(tǒng)卷積神經(jīng)網(wǎng)絡常用的Softmax分類器方法,本文中將提取后的特征序列饋入到GRU中進行解碼輸出,該輸出為一個定長的向量,然后通過SVM進行分類輸出。

      1.2 序列編碼

      本文算法的一個顯著特點是需要對原始的蛋白質序列進行饋入,將原始蛋白質序列編碼為可由計算機處理、分析的數(shù)據(jù)。在生物信息學領域,特征的擴展需要通過嵌入進行擴展,從而構建氨基酸詞典,如表1所示。每個氨基酸都是一一對應于從小到大的整數(shù),其順序不會影響實驗效果,只是完成字符到整數(shù)的轉換[16]。由于輸入深度學習模型所需的數(shù)據(jù)規(guī)模是固定的,因此必須要進行序列填充。當氨基酸序列“MSFMVPT”的長度為7時,輸入長度設置為閾值8,該序列用“X”填充并變?yōu)椤癤MSFMVPT”。

      表1 氨基酸詞典

      2 實驗結果與分析

      2.1 數(shù)據(jù)集

      使用Zhang等[16]設計的蛋白質資料庫PDB14189基準數(shù)據(jù)集進行實驗。該數(shù)據(jù)集是通過搜索“DNA結合”關鍵字,并使用UniProt數(shù)據(jù)庫[17]篩選和收集得到的DNA結合蛋白的集合。為了使數(shù)據(jù)集的品質更加高效,必須篩去全部氨基酸序號小于50且大于6 000的蛋白質序列,還要刪除全部不規(guī)則氨基酸,如表1中的“X”和“Z”等序列蛋白質。最后,使用BLAST軟件對相似程度超40%的序列進行冗余過濾操作[18]。

      2.2 評價指標

      通過在基準數(shù)據(jù)集上進行實驗,根據(jù)實驗指標來評估本文算法的優(yōu)越性,衡量模型的預測效果。由于單一的準確率σacc指標不能完全表征本文算法的預測效果,因此還需要引入其他評估指標,如靈敏度σsen、 特異性σspe等[19-21]。其中,準確率σacc表征算法正確預測的樣本的能力,靈敏度σsen表征算法正確預測的陽性樣本的能力,特異性σspe表征算法正確預測的陰性樣本的能力。評估指標的計算公式分別為

      (1)

      (2)

      (3)

      式中:NTP為正確預測的陽性樣本的數(shù)量;NTN為正確預測的陰性樣本的數(shù)量;NFP為錯誤預測的陽性樣本的數(shù)量;NFN為錯誤預測的陰性樣本的數(shù)量。

      2.3 對比實驗

      2.3.1 蛋白質不同尺度特征對比

      蛋白質不同尺度特征在PDB14189基準數(shù)據(jù)上的表現(xiàn)如表2所示。 由表可以看出, 本文算法獲得的準確率、 靈敏度、 特異性數(shù)值均大于前4個序列的, 表明該算法對基準數(shù)據(jù)的識別能力更強。為了評估本文算法的預測能力,分別繪制了不同方法(文獻[2]、 [22]、 [23]中的方法)的受試者工作特征曲線(ROC)和召回率(PR)曲線,如圖2所示。由圖可以得出,本文算法在單尺度特征的基礎上結合了不同尺度的特征,得到了更有意義的結果。

      (a) ROC曲線

      表2 蛋白質不同尺度特征在基準數(shù)據(jù)上的表現(xiàn)

      2.3.2 與傳統(tǒng)方法的比較

      為了檢驗本文算法的穩(wěn)健性,在獨立數(shù)據(jù)集PDB2272上對其進行了評估,結果見表3。由表可以看出,與文獻[2]、 [22]、 [23]中的方法相比,本文算法的準確率為66.88%,靈敏度為69.93%, 特異性為65.95%, 3個數(shù)值都為最大值, 可見本文算法優(yōu)于的其他傳統(tǒng)方法的, 表現(xiàn)了本文算法的優(yōu)越性。

      表3 不同算法在3個評估指標上的對比

      實際上,非DNA結合蛋白的數(shù)量遠比DNA結合蛋白的多。本文中基于PDB2272基準數(shù)據(jù)集進行仿真實驗,測試了本文算法的性能,并使用不同的陰性樣本與陽性樣本的數(shù)量比率來進行驗證,結果如圖3所示。從圖可以看出,隨著陰性樣本數(shù)與陽性樣本數(shù)比率的減小,準確率緩慢增大。在不平衡測試集的情況下,本文算法的性能仍然穩(wěn)定,并且在DNA結合蛋白的預測中表現(xiàn)良好。

      圖3 本文算法在PDB2272上的預測準確率

      2.3.3 本文算法的應用

      為了測試模型的魯棒性,張戈[7]收集了2 859個蛋白質編號(identity document,ID)。經(jīng)分析發(fā)現(xiàn),果蠅的2種不同蛋白質的ID對應了相同的蛋白質序列。經(jīng)過預收集和排序后,獲得了2 858個DBP(即DBP2858數(shù)據(jù)集)。DBP2858數(shù)據(jù)集中包含人類DBP 的樣本數(shù)量為1 049,擬南芥(A.thaliana)的為929,小鼠(mouse)的為424,啤酒酵母(S.cerevisiae)的為314,而果蠅(D.melanogaster)的為142。使用PDB14189基準數(shù)據(jù)集來訓練模型,結果如表4所示。在DBP數(shù)據(jù)集中,本文算法可以正確識別57.83%的蛋白質序列。

      表4 本文算法對不同生物物種的預測性能

      3 結論

      由于DNA結合蛋白在對生物體的調(diào)控機制中具有重要作用, 因此本文中提出了一種基于深度學習和支持向量機的算法用來預測DNA結合蛋白。 在同一數(shù)據(jù)集上, 分別對本文中提出的深度學習模型和其他傳統(tǒng)預測方法進行了訓練和實驗對比。 實驗結果表明, 本文算法對平衡數(shù)據(jù)集和不平衡數(shù)據(jù)集都有較好的預測效果, 并且具有較高的預測精度和效率。

      猜你喜歡
      氨基酸蛋白質樣本
      蛋白質自由
      肝博士(2022年3期)2022-06-30 02:48:48
      人工智能與蛋白質結構
      海外星云(2021年9期)2021-10-14 07:26:10
      用樣本估計總體復習點撥
      月桂酰丙氨基酸鈉的抑菌性能研究
      推動醫(yī)改的“直銷樣本”
      UFLC-QTRAP-MS/MS法同時測定絞股藍中11種氨基酸
      中成藥(2018年1期)2018-02-02 07:20:05
      隨機微分方程的樣本Lyapunov二次型估計
      蛋白質計算問題歸納
      村企共贏的樣本
      一株Nsp2蛋白自然缺失123個氨基酸的PRRSV分離和鑒定
      威信县| 抚宁县| 玛曲县| 米泉市| 巢湖市| 彰武县| 上犹县| 泸西县| 定西市| 吉木乃县| 咸丰县| 改则县| 仪征市| 余干县| 松江区| 惠来县| 灵寿县| 乌鲁木齐县| 阳原县| 文安县| 高雄市| 天门市| 广州市| 营山县| 黄浦区| 沙湾县| 阳江市| 开平市| 宣恩县| 文山县| 图们市| 秦皇岛市| 万年县| 靖远县| 读书| 繁昌县| 申扎县| 探索| 苗栗县| 凤阳县| 牟定县|