• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于特征融合的DNA- 蛋白質(zhì)結(jié)合位點(diǎn)預(yù)測

      2020-06-28 14:20:40薛廣富
      科學(xué)技術(shù)創(chuàng)新 2020年16期
      關(guān)鍵詞:位點(diǎn)氨基酸卷積

      薛廣富

      (景德鎮(zhèn)陶瓷大學(xué),江西 景德鎮(zhèn)333000)

      1 概述

      蛋白質(zhì)與DNA 的相互作用是分子生物學(xué)的核心問題之一,在基因調(diào)控、轉(zhuǎn)錄、DNA 復(fù)制和DNA 修復(fù)等一系列基生命物活動中發(fā)揮著重要作用[1]。了解DNA 結(jié)合殘基的結(jié)合特異性和親和力不僅有助于理解蛋白質(zhì)-DNA 復(fù)合物的識別機(jī)制,還可以為蛋白質(zhì)功能注釋提供線索[2]。

      為了了解蛋白質(zhì)-DNA 復(fù)合物的識別機(jī)理,研究者往往將研究重點(diǎn)放在蛋白質(zhì)-DNA 結(jié)合位點(diǎn),特別是與DNA 結(jié)合的殘基上。例如電泳移動性測定分析(EMSAs),常規(guī)染色質(zhì)免疫沉淀(ChIP)等。然而這些實(shí)驗(yàn)方法既耗時(shí)又昂貴,隨著大量的蛋白質(zhì)序列數(shù)據(jù)的可用,迫切需要開發(fā)從蛋白質(zhì)序列中識別DNA- 蛋白質(zhì)結(jié)合位點(diǎn)的計(jì)算方法。

      現(xiàn)如今,DNA 和蛋白質(zhì)相互作用的機(jī)理尚未明確,因此使用生物信息學(xué)的方法從海量的蛋白質(zhì)序列中提取有用的信息,并解釋DNA 和蛋白質(zhì)相互作用的機(jī)理不失為有效的途徑[3]。盡管已經(jīng)進(jìn)行了大量研究,但是準(zhǔn)確識別蛋白質(zhì)-DNA 結(jié)合位點(diǎn)的問題仍然有很大的改進(jìn)空間。由于蛋白質(zhì)中與DNA 結(jié)合的和非結(jié)合的氨基酸殘基數(shù)量極不平衡,因此存在訓(xùn)練樣本不平衡的問題,這將導(dǎo)致模型在預(yù)測時(shí)的過度擬合從而導(dǎo)致較差的性能[4]。

      2 數(shù)據(jù)集和特征提取方法

      2.1 數(shù)據(jù)集。為了測試特征提取方法的有效性,使用了PDNA-224 蛋白質(zhì)序列數(shù)據(jù)集。它包括224 個(gè)蛋白質(zhì)序列,并以25%的序列相似性作為指標(biāo),去除了任意兩個(gè)序列之間的冗余度。該數(shù)據(jù)集中有3778 個(gè)DNA 結(jié)合位點(diǎn)和53570 個(gè)非DNA 結(jié)合位點(diǎn)。

      2.2 特征提取。使用兩種特征提取方法:位置特異性打分矩陣(Position Specific Scoring Matrix,PSSM)以及獨(dú)熱(One-hot)編碼來提取每個(gè)蛋白質(zhì)序列的特征。同時(shí)采用滑窗的方法分割序列的特征矩陣。

      通過設(shè)定固定大小的滑窗大小K,可以把長短不一的氨基酸序列分割成固定的長度?;暗闹行奈恢米鳛榘悬c(diǎn),從第一個(gè)氨基酸開始,將其作為靶點(diǎn),則左邊周期性補(bǔ)齊末端的氨基酸序列,從而得到一個(gè)長度為K 的氨基酸序列。由此,一個(gè)長度為L 的氨基酸序列,可以得到L 個(gè)長度為K 的樣本。若靶點(diǎn)位置為DNA-蛋白質(zhì)結(jié)合位點(diǎn),則將該樣本設(shè)為正樣本,靶點(diǎn)位置非結(jié)合位點(diǎn)則全都設(shè)為負(fù)樣本?;斑^程如圖所示。

      滑窗處理氨基酸序列示意圖

      PSSM被廣泛的應(yīng)用在基于蛋白質(zhì)序列的相關(guān)預(yù)測模型中,作為蛋白質(zhì)序列的描述矩陣,PSSM能夠表示某個(gè)特定的氨基酸占據(jù)蛋白質(zhì)序列中某個(gè)位置的頻率,因此在PSSM中,每個(gè)序列位置都由20 個(gè)值表示。

      通過運(yùn)行PSI-BLAST 程序?qū)Ψ侨哂啵∟R)數(shù)據(jù)庫進(jìn)行三次迭代,設(shè)E 值為0.001,從而獲得蛋白質(zhì)序列的PSSM方面的進(jìn)化信息。每一條蛋白質(zhì)序列都被由L×20 大小的PSSM矩陣表示,L是蛋白質(zhì)序列的長度。

      One-Hot 編碼也被稱為一位有效編碼,表示某個(gè)數(shù)據(jù)點(diǎn)屬于某一個(gè)類別,或具有某一種類的特性。其使用了N 位狀態(tài)寄存器來對N 個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有獨(dú)立的寄存器位,并且在任意時(shí)候只有一位有效。這首先要求將所有的狀態(tài)值映射到某一個(gè)整數(shù)值。然后將每一個(gè)整數(shù)值編碼為一個(gè)二進(jìn)制向量,除了狀態(tài)的索引之外,它都是零值,它被標(biāo)記為1。

      本文中,將二十種氨基酸作為20 種狀態(tài),分別進(jìn)行One-Hot編碼,各個(gè)氨基酸由一個(gè)二十位的二進(jìn)制向量表示。通過One-Hot 編碼,可以將蛋白質(zhì)序列編碼成L×20 大小的矩陣。

      本文設(shè)定滑窗大小為23,因此無論是用PSSM 矩陣和One-Hot 編碼提取氨基酸的特征,每一條序列進(jìn)過滑窗處理后得到的樣本維數(shù)為23×20。

      在此,提出特征融合方法,通過對每個(gè)樣本的PSSM 和One-Hot 編碼進(jìn)行拼接,可以得到一個(gè)維數(shù)為23×40 的特征融合矩陣來表示每一個(gè)樣本。

      3 結(jié)果評估

      近年來,深度學(xué)習(xí)技術(shù)與其他機(jī)器學(xué)習(xí)方法相比,已經(jīng)顯示出了提高識別力的能力,并在生物信息學(xué)領(lǐng)域得到了廣泛的應(yīng)用[5]。

      使用全連接層神經(jīng)網(wǎng)絡(luò)和經(jīng)典的LeNet-5 卷積神經(jīng)網(wǎng)絡(luò)對樣本進(jìn)行訓(xùn)練和預(yù)測。同時(shí)采用五折交叉驗(yàn)證來劃分訓(xùn)練集和測試集。

      本文采用Keras 框架進(jìn)行模型構(gòu)建和訓(xùn)練,使用的全連接層神經(jīng)網(wǎng)絡(luò)包含三個(gè)隱藏層,隱藏層的節(jié)點(diǎn)數(shù)量分別為512、256 和128,采用Adam 梯度下降算法,迭代次數(shù)為30,批次大小為256;在LeNet-5 卷積神經(jīng)網(wǎng)絡(luò)中,第一個(gè)卷積層的卷積核數(shù)量為16且大小為3×3,第一個(gè)池化層的池化大小為,第二個(gè)卷積層的卷積核數(shù)量為32 且大小為5×5,第二個(gè)池化層的池化大小為,緊接著的三個(gè)全連接層的節(jié)點(diǎn)數(shù)量分別為800、120 和84,采用Adam 梯度下降算法,迭代次數(shù)為30,批次大小為256。

      在二分類問題中,通常使用六個(gè)典型的指標(biāo)來評估模型的訓(xùn)練效果:靈敏度(SN)、特異性(SP)、準(zhǔn)確性(ACC)、F1 分?jǐn)?shù)Matthews 相關(guān)系數(shù)(MCC)。這五個(gè)指標(biāo)可以通過以下公式計(jì)算:

      在這些等式中,TP,F(xiàn)P,TN 和FN 分別表示真陽性的數(shù)目,假陽性的數(shù)目,真陰性的數(shù)目和假陰性的數(shù)目。由于數(shù)據(jù)集中的不平衡問題,主要用靈敏度(SN)和特異性(SP)進(jìn)行模型的評估。

      不同網(wǎng)絡(luò)結(jié)構(gòu)模型的預(yù)測結(jié)果如下:

      表1 全連接神經(jīng)網(wǎng)絡(luò)模型的預(yù)測結(jié)果

      表2 LeNet-5 卷積神經(jīng)網(wǎng)絡(luò)模型的預(yù)測結(jié)果

      由以上結(jié)果可以看出,無論是使用全連接神經(jīng)網(wǎng)絡(luò)還是使用LeNet-5 卷積神經(jīng)網(wǎng)絡(luò),融合了One-hot 編碼與PSSM矩陣兩個(gè)序列特征的結(jié)果優(yōu)于單個(gè)特征。

      4 結(jié)論

      在這項(xiàng)研究中,提出了一種新的基于序列的DNA- 蛋白質(zhì)結(jié)合位點(diǎn)預(yù)測方法。該方法在PDNA-224 數(shù)據(jù)集上使用PSSM、One-Hot 編碼進(jìn)行特征提取。通過構(gòu)建全連接神經(jīng)網(wǎng)絡(luò)和LeNet-5 卷積神經(jīng)網(wǎng)絡(luò),在訓(xùn)練數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了該特征融合方法的有效性。在今后的工作中,將進(jìn)一步研究用不同的特征融合方法對DNA- 蛋白質(zhì)結(jié)合位點(diǎn)進(jìn)行預(yù)測。

      猜你喜歡
      位點(diǎn)氨基酸卷積
      鎳基單晶高溫合金多組元置換的第一性原理研究
      上海金屬(2021年6期)2021-12-02 10:47:20
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      月桂酰丙氨基酸鈉的抑菌性能研究
      二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      UFLC-QTRAP-MS/MS法同時(shí)測定絞股藍(lán)中11種氨基酸
      中成藥(2018年1期)2018-02-02 07:20:05
      一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
      氨基酸分析儀測定玉米漿中17種游離氨基酸的不確定度評定
      得荣县| 黄龙县| 东源县| 黄大仙区| 静宁县| 两当县| 容城县| 华亭县| 迭部县| 平山县| 西城区| 静海县| 固安县| 浑源县| 东乌珠穆沁旗| 阳江市| 漳浦县| 台安县| 黎川县| 上栗县| 香港 | 晋城| 德江县| 台中县| 福泉市| 阿克| 杭州市| 清流县| 锡林郭勒盟| 廉江市| 辽源市| 靖宇县| 邮箱| 玉山县| 礼泉县| 华阴市| 宿州市| 宕昌县| 大同市| 盐津县| 常熟市|