• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      蛋白質(zhì)二級(jí)結(jié)構(gòu)在線服務(wù)器預(yù)測(cè)評(píng)估

      2019-04-24 06:12:08朱樹平劉毅慧
      生物信息學(xué) 2019年1期
      關(guān)鍵詞:分類器氨基酸準(zhǔn)確率

      朱樹平,劉毅慧

      (齊魯工業(yè)大學(xué)(山東省科學(xué)院) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,濟(jì)南 250353)

      蛋白質(zhì)是人體的有機(jī)大分子,是生命活動(dòng)的主要承擔(dān)者,在生物信息學(xué)領(lǐng)域,一直致力于對(duì)于蛋白質(zhì)的研究。為了研究蛋白質(zhì)的功能,往往從結(jié)構(gòu)入手,但蛋白質(zhì)結(jié)構(gòu)有多種,其中關(guān)于二級(jí)結(jié)構(gòu)的研究,有助于發(fā)現(xiàn)三維立體結(jié)構(gòu)和提供蛋白質(zhì)功能注解,因此大多數(shù)人都致力于蛋白質(zhì)二級(jí)結(jié)構(gòu)的研究。

      在1951年,鮑林和科里首次提出了關(guān)于蛋白質(zhì)二級(jí)結(jié)構(gòu)問題[1],最初對(duì)于蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)方法主要是通過研究氨基酸序列來進(jìn)行,準(zhǔn)確率在60%左右。Rost[2-3]等人在研究中采用PHD算法,把多序列排列中包含的進(jìn)化信息作為神經(jīng)網(wǎng)絡(luò)的輸入,預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)準(zhǔn)確率超過了70%。Zafer[4]等人使用動(dòng)態(tài)貝葉斯分類器的稀疏算法,得到了76.3%的準(zhǔn)確率。Kurniawan[5]等人使用SVM結(jié)合位置特異性打分矩陣(Position-specific scoring matrices,PSSM)和蛋白質(zhì)結(jié)構(gòu)的物理化學(xué)特征來預(yù)測(cè),準(zhǔn)確率達(dá)到80%左右。Wang[6]等人通過結(jié)合PSSM和氨基酸序列信息,并使用一種稱為二級(jí)結(jié)構(gòu)遞歸編碼器-解碼器網(wǎng)絡(luò)(SSREDN)來解決輸入蛋白質(zhì)特征與SS之間的序列-結(jié)構(gòu)映射關(guān)系,使用CullPDB和CB513數(shù)據(jù)庫測(cè)試,分別達(dá)到84.2%,82.9%的Q3準(zhǔn)確率。蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方式不斷注入新的活力,現(xiàn)在很多方法都實(shí)現(xiàn)了在線服務(wù)器的預(yù)測(cè),本文選取了PSRSM、MUFOLD、SPIDER、RAPTORX、JPRED和PSIPRED 6種服務(wù)器,分別闡述其算法原理,并通過測(cè)試數(shù)據(jù)比較每一個(gè)的預(yù)測(cè)準(zhǔn)確度,從而給出當(dāng)前在線服務(wù)器二級(jí)結(jié)構(gòu)的評(píng)估。

      1 在線服務(wù)器原理

      1.1 PSRSM

      該服務(wù)器使用基于數(shù)據(jù)分區(qū)和半隨機(jī)子空間(Partition and semi-random subspace method,PSRSM)的方法[7]。在傳統(tǒng)的隨機(jī)子空間方法中,低維子空間是由高維空間隨機(jī)采樣產(chǎn)生的,PSRSM使用的半隨機(jī)子空間方法能夠有效的保證基礎(chǔ)分類器的準(zhǔn)確性和多樣化。該方法的主要步驟如下:首先把訓(xùn)練數(shù)據(jù)根據(jù)蛋白質(zhì)的長度劃分為不同的子集合,建立模型;然后使用半隨機(jī)子空間的方法生成子空間,并在子空間上訓(xùn)練基礎(chǔ)分類器;最后根據(jù)多數(shù)投票的規(guī)則,在子集上把分類器結(jié)合起來,生成最終的分類器,其中使用SVM作為最基本的分類器。

      具體來說,對(duì)于輸入使用PSI-BLAST程序生成PSSM數(shù)據(jù),并且PSI-BLAST使用BLOSUM62進(jìn)化矩陣搜索NCBI的非冗余(NR)數(shù)據(jù)庫的縮減版本,按照上述原則得到的PSSM是20*L的矩陣,20為氨基酸的個(gè)數(shù),L為每個(gè)蛋白質(zhì)的長度。在實(shí)驗(yàn)中使用13個(gè)滑動(dòng)窗口來獲取蛋白質(zhì)序列信息和預(yù)測(cè)序列中心的蛋白質(zhì)二級(jí)結(jié)構(gòu)。假設(shè)輸入一個(gè)長度為L的蛋白質(zhì),會(huì)產(chǎn)生260*L(13*20*L)的輸入矩陣。從260個(gè)特征值選取160個(gè)作為主要特征,作為網(wǎng)絡(luò)輸入。最后建立12個(gè)分類器進(jìn)行訓(xùn)練。那么一個(gè)新的蛋白質(zhì)序列會(huì)根據(jù)其長度,選擇合適的分類器進(jìn)行預(yù)測(cè)。

      實(shí)驗(yàn)的訓(xùn)練集選取了ASTRAL數(shù)據(jù)集的6 892條蛋白質(zhì)數(shù)據(jù)和CullPDB數(shù)據(jù)集的12 288條蛋白質(zhì)數(shù)據(jù),去掉相似度較高的蛋白質(zhì)后,訓(xùn)練集總共包括15 696條數(shù)據(jù)。測(cè)試集使用99個(gè)CASP10數(shù)據(jù)、81個(gè)CASP11數(shù)據(jù)、19個(gè)CASP12數(shù)據(jù)、513個(gè)CB513數(shù)據(jù)、1 673個(gè)25PDB的數(shù)據(jù)和2018年2月1號(hào)之前的100條數(shù)據(jù)(T100),實(shí)驗(yàn)得到使用6個(gè)GTPCs模型在25PDB、CB513、CASP10、CASP11、CASP12和T100數(shù)據(jù)中的蛋白質(zhì)二級(jí)結(jié)構(gòu)的Q3預(yù)測(cè)準(zhǔn)確率分別是86.38%、84.53%、85.51%、85.89%、85.55%和85.09%。該服務(wù)器預(yù)測(cè)蛋白質(zhì)序列范圍是10到800,預(yù)測(cè)網(wǎng)址為:http://qilubio.qlu.edu.cn:82/protein_PSRSM/default.aspx。

      1.2 MUFOLD

      MUFOLD采用的是一種名為深度初始-內(nèi)部-初始(Deep 3I)的新型網(wǎng)絡(luò)來預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu),并且對(duì)于輸入的特征矩陣做了細(xì)致考量,特征矩陣中結(jié)合了氨基酸的理化性質(zhì)、PSI-Blast特征和HHBlits特征[8]。其中對(duì)于理化性質(zhì)的特征矩陣,設(shè)置了從-1到1之間選取的8個(gè)數(shù)字來表示一個(gè)氨基酸,前7位表示氨基酸理化性質(zhì),后一位用1或0表示是否輸入氨基酸。如表1,“*”表示某一類氨基酸,“n”表示依據(jù)理化性質(zhì)設(shè)置的數(shù)值。MUFOLD設(shè)置默認(rèn)輸入矩陣為700*8,若假設(shè)輸入一個(gè)氨基酸序列個(gè)數(shù)為600的蛋白質(zhì),設(shè)置矩陣時(shí)會(huì)把前600行的前7位按照本身理化性質(zhì)設(shè)置,第8位設(shè)為0,而后100行的前7為全部設(shè)為0,后一位設(shè)置為1。

      對(duì)于PSI-Blast的特征,按照類似原理用從0到1的選取21位數(shù)字表示一個(gè)氨基酸,前20位根據(jù)得到的PSSM值設(shè)置,后一位用1或0表示是否有輸入;對(duì)于HHBlits特征則用0到1之間的31位數(shù)字表示一個(gè)氨基酸,前30位根據(jù)HMM文件設(shè)置,最后一位同樣用0或1表示輸入。以上三個(gè)特征被組合成一個(gè)58位的特征,作為網(wǎng)絡(luò)的輸入。

      Deep3I網(wǎng)絡(luò)是由2個(gè)Deep3I塊、一系列卷積和完全聯(lián)通的致密層構(gòu)成。而Deep3I塊是由初始模塊遞歸嵌套構(gòu)成,初始模塊通過卷積操作能夠有效提取氨基酸殘基之間的非局部相互作用。Deep3I網(wǎng)絡(luò)通過用TensorFlow和Keras不斷進(jìn)行訓(xùn)練和實(shí)驗(yàn)來對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè)。

      表1 按照氨基酸理化性質(zhì)設(shè)置的輸入矩陣Table 1 Input matrix set according to the physical and chemical properties of amino acids

      MUFOLD實(shí)驗(yàn)中的數(shù)據(jù)集使用蛋白質(zhì)序列長度介于50到700之間的數(shù)據(jù),來自CullPDB、JPRED、CASP、CB513和PDB 5個(gè)公開的蛋白質(zhì)數(shù)據(jù)庫。具體來說:從CullPDB選取了9 581條數(shù)據(jù),其中隨機(jī)選出9 000條作為訓(xùn)練集,剩下的581條作為測(cè)試;從JPRED選取的數(shù)據(jù)均來自不同的超級(jí)家族;CASP的數(shù)據(jù)集經(jīng)過篩選后CASP10的98條數(shù)據(jù),CASP11的83條數(shù)據(jù),CASP12的40條數(shù)據(jù)被使用;CB513和385條PDB數(shù)據(jù)也同樣被應(yīng)用于MUFOLD的實(shí)驗(yàn)中。MUFOLD測(cè)試數(shù)據(jù)的范圍是30到700,測(cè)試網(wǎng)址是:http://mufold.org/mufold-ss-angle/。

      1.3 SPIDER

      Hefferman[9]等人提到對(duì)于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)和溶劑接觸表面積的研究,多年一直停滯不前的原因來自于,有些氨基酸殘基在三維結(jié)構(gòu)中距離很近而在蛋白質(zhì)序列中距離很遠(yuǎn),因此較難捕獲氨基酸殘基之間的非局部相互作用?,F(xiàn)有的機(jī)器學(xué)習(xí)的方法基本都使用10~20個(gè)滑動(dòng)窗口來獲取氨基酸的相互作用。而SPIDER不使用滑動(dòng)窗口,采用一種長期短期記憶(Long Short-Term Memory , LSTM)雙向遞歸神經(jīng)網(wǎng)絡(luò)(Bidirectional Recurrent Neural Networks ,BRNNs)的機(jī)器學(xué)習(xí)模型來實(shí)現(xiàn)預(yù)測(cè),能夠捕捉氨基酸殘基之間的非局部相互相互作用,實(shí)驗(yàn)證明它能夠改善蛋白質(zhì)二級(jí)結(jié)構(gòu)、骨干角度、接觸號(hào)碼和溶劑可及性的預(yù)測(cè)。

      該網(wǎng)絡(luò)的LSTM-BRNN模型是由兩個(gè)使用LSTM細(xì)胞的BRNN層和兩個(gè)緊密連接用整流線性單元(Rectified Linear Unit, ReLU)激活的隱含層構(gòu)成,它被用于四次迭代中。對(duì)于該網(wǎng)絡(luò)的輸入,包含了7種具有代表性的蛋白質(zhì)氨基酸理化性質(zhì)(Physio-chemical properties,PP)、20維來自PSI-Blast的PSSM和30維來自HHBlits每個(gè)殘基的隱藏馬爾科夫模型的序列譜(HMM Profiles),把這些數(shù)據(jù)放入由LSTM-BRNNs網(wǎng)絡(luò)構(gòu)成的迭代中,進(jìn)行四次迭代(其中一次迭代包括兩個(gè)LSTM-BRNN),最后得到最終機(jī)器學(xué)習(xí)模型。該過程主要結(jié)構(gòu)如圖1所示。在訓(xùn)練期間為防止過擬合,使用丟失率為50%的丟失算法,并用Adam優(yōu)化訓(xùn)練過程,該網(wǎng)絡(luò)能夠在不使用滑動(dòng)窗口的條件下捕獲長短距離交互。

      圖1 SPIDER 主要結(jié)構(gòu)Fig.1 Main structure of SPIDER

      1.4 RAPTORX

      RAPTORX使用由深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural network , DCNN)和條件隨機(jī)場(chǎng)(Conditional random fields,CRF)組合而成的深度卷積神經(jīng)場(chǎng)(Deep Convolutional Neural Fields,DCNF),來預(yù)測(cè)蛋白質(zhì)二級(jí)結(jié)構(gòu),并且對(duì)網(wǎng)絡(luò)采用一種在ROC曲線下面積的(Area under the ROC curve,AUC)最大化方法來訓(xùn)練,從而能夠很好地解決紊亂序列蛋白質(zhì)的預(yù)測(cè)問題[11]。Wang[12]提到在使用蛋白質(zhì)序列文件后,RAPTORX在數(shù)據(jù)集CASP和CAMEO能夠得到大約為84%的Q3準(zhǔn)確率和72%的Q8準(zhǔn)確率,不使用序列文件能夠獲得約為74%的Q3準(zhǔn)確率和59%的Q8準(zhǔn)確率,它能夠有效的解決復(fù)雜的基因結(jié)構(gòu)關(guān)系建模和相鄰殘基間的建模。Wang[13]指出DCNF使用DCNN代替CNF中使用的淺層神經(jīng)網(wǎng)絡(luò),能夠捕獲輸入和輸出標(biāo)簽之間復(fù)雜的關(guān)系,并且能夠捕獲遠(yuǎn)程的序列信息。

      RAPTORX實(shí)驗(yàn)中使用的數(shù)據(jù)有6 125個(gè)CullPDB數(shù)據(jù),CB513數(shù)據(jù)、123個(gè)CASP10數(shù)據(jù)、105個(gè)CASP11數(shù)據(jù)和CAMEO的數(shù)據(jù),還有JPRED公開的1 338個(gè)訓(xùn)練數(shù)據(jù)和149個(gè)測(cè)試數(shù)據(jù)。RAPTORX測(cè)試數(shù)據(jù)范圍是26到4 000個(gè)蛋白質(zhì)序列,預(yù)測(cè)網(wǎng)址為:http://raptorx.uchicago.edu/StructurePropertyPred/predict/。

      1.5 JPRED

      JPRED服務(wù)器從1998年開始提供蛋白質(zhì)的預(yù)測(cè)到現(xiàn)在已經(jīng)發(fā)展到JPRED4版本。JPRED3版本用JNET算法提供單個(gè)蛋白質(zhì)序列或者多序列比對(duì)(MSA)的預(yù)測(cè),其中JNET使用JNET v2.0。JNET v2.0不使用頻率文件,只使用PSI-BLAST的PSSM配置文件和HMMER的隱馬爾可夫模型,把神經(jīng)網(wǎng)絡(luò)由9個(gè)單元增加到100個(gè)單元,該方法是通過對(duì)超家族級(jí)別的SCOPe數(shù)據(jù)的Astral匯編衍生的序列和結(jié)構(gòu)非冗余數(shù)據(jù)集進(jìn)行7倍交叉驗(yàn)證培訓(xùn)而開發(fā)的[14],最后使用149條盲數(shù)據(jù)進(jìn)行測(cè)試得到了81.5%的Q3準(zhǔn)確率。

      JPRED4版本和JPRED3一樣,同樣使用JNET算法并提供單一序列和多序列比對(duì)的蛋白質(zhì)序列的二級(jí)預(yù)測(cè)。不同的是它選取1 358個(gè)SCOPe/ASTRAL v.2.04 超級(jí)家族中的一個(gè)為代表,用JNET 2.3.1進(jìn)行7倍交叉驗(yàn)證的實(shí)驗(yàn),通過尋找UniRef90 v.2014_07來生成PSI-BLAST文件并為每一個(gè)蛋白質(zhì)序列建立多重序列比對(duì)。最后在150個(gè)訓(xùn)練集上獲得了82%的準(zhǔn)確率[15]。同時(shí)JPRED在線服務(wù)器也可以提供溶劑可及性和卷曲螺旋區(qū)的預(yù)測(cè),預(yù)測(cè)網(wǎng)址為:http://www.compbio.dundee.ac.uk/jpred4/index.html。

      1.6 PSIPRED

      Mcguffin[16]等人指出PSIPRED服務(wù)器結(jié)合了三種先進(jìn)的技術(shù),分別是PSIPRED、GenTHREADER和MEMSAT 2。其中PSIPRED采用嚴(yán)格的交叉驗(yàn)證程評(píng)估性能,并且采用兩個(gè)前饋的神經(jīng)網(wǎng)絡(luò),對(duì)從PSI-BLAST獲得的輸出進(jìn)行分析,從而得到可靠的二級(jí)結(jié)構(gòu)預(yù)測(cè)結(jié)果;GenTHREADER用來推斷跨膜蛋白的結(jié)構(gòu)和拓?fù)浣Y(jié)構(gòu);MEMSAT2能夠快速識(shí)別蛋白質(zhì)的折疊信息,預(yù)測(cè)網(wǎng)址為:http://bioinf.cs.ucl.ac.uk/psipred/。

      從以上6個(gè)服務(wù)器預(yù)測(cè)過程的角度分析,可以看到每個(gè)服務(wù)器各有優(yōu)缺點(diǎn)。其中能夠批量上傳和下載實(shí)驗(yàn)結(jié)果的是PSRSM、SPIDER3和RAPTORX,給定結(jié)果為壓縮包的形式,需進(jìn)一步整合。服務(wù)器JPRED和PSIPRED都必須遵循每次只能上傳一個(gè)蛋白質(zhì)文件(或序列)的約定,而且結(jié)果是以郵件的形式發(fā)送到郵箱里面,并且PSIPRED在同一時(shí)間段內(nèi)最多只允許上傳20條數(shù)據(jù)進(jìn)行預(yù)測(cè),因此預(yù)測(cè)結(jié)果獲取過程較為復(fù)雜。MUFOLD雖然網(wǎng)站上說明一次可以批量上傳少于10條的數(shù)據(jù)但是在實(shí)驗(yàn)中獲取數(shù)據(jù),最多一次只可上傳4條數(shù)據(jù)進(jìn)行預(yù)測(cè)。6個(gè)服務(wù)器預(yù)測(cè)的時(shí)間相差并不是很大,主要在于預(yù)測(cè)結(jié)果的獲取方式上存在很大差距。

      2 數(shù)據(jù)選取和評(píng)估標(biāo)準(zhǔn)

      基于每個(gè)服務(wù)器都可以預(yù)測(cè)為前提,依據(jù)蛋白質(zhì)發(fā)布的月份和其同源性分別選取了150條數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并采用了合適的評(píng)價(jià)標(biāo)準(zhǔn)來評(píng)估。

      2.1 數(shù)據(jù)選取

      數(shù)據(jù)選取遵循以下原則:數(shù)據(jù)選取2018年P(guān)DB最新發(fā)布的數(shù)據(jù),保證了測(cè)試集不在服務(wù)器的訓(xùn)練集中;數(shù)據(jù)來自不同的時(shí)間段,更具有分散性;數(shù)據(jù)量較大,使得實(shí)驗(yàn)結(jié)果更具有說服力;選取的蛋白質(zhì)長度能夠讓每一個(gè)服務(wù)器都可以進(jìn)行測(cè)試,并得到預(yù)測(cè)結(jié)果?;谏鲜龅臈l件從2018年4、5、6月份分別選取了50條蛋白質(zhì)序列進(jìn)行第一次實(shí)驗(yàn),數(shù)據(jù)選取如表2所示。

      并且為了使實(shí)驗(yàn)結(jié)果更具有可靠性,又進(jìn)一步從2018年4到8月,基于同源性的30%,50%和70%隨機(jī)分別選取了50條數(shù)據(jù),共150條數(shù)據(jù)(T150)進(jìn)行第二次實(shí)驗(yàn),該實(shí)驗(yàn)的數(shù)據(jù)選取如表3所示。

      2.2 評(píng)估標(biāo)準(zhǔn)

      本文采用了兩種衡量蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性方法:Q3和Sov的值主要是衡量個(gè)別殘基分配的精度,Sov的值主要是衡量全元素的預(yù)測(cè)精度。

      2.2.1Q3

      按照DSSP[17]的規(guī)定,通常我們把蛋白質(zhì)二級(jí)結(jié)構(gòu)劃分為H、G、I、E、B、T、S和-,8種狀態(tài)。而這8這種狀態(tài),按照H、G、I→H,E、B→E,其他→C的方式,將一條氨基酸序列轉(zhuǎn)化為H(螺旋)、E(折疊)、C(卷曲),3種狀態(tài)。則Q3表示被正確預(yù)測(cè)的三種狀態(tài)的氨基酸數(shù)占整個(gè)氨基酸序列的比例。符合以下計(jì)算公式:

      (1)

      其中:SE是E類蛋白質(zhì)結(jié)構(gòu)準(zhǔn)確預(yù)測(cè)的數(shù)量,SH是H類蛋白質(zhì)結(jié)構(gòu)準(zhǔn)確預(yù)測(cè)的數(shù)量,SC是C類蛋白質(zhì)結(jié)構(gòu)準(zhǔn)確預(yù)測(cè)的數(shù)量,S是指總的氨基酸數(shù)量,Q3指的是三種狀態(tài)下,蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率。

      表2 DB150 數(shù)據(jù)集Table 2 DB150 data set

      表3 T150 數(shù)據(jù)集Table 3 T150 data set

      2.2.2Sov

      Sov的計(jì)算是基于重疊片段比值的一種測(cè)度,它對(duì)預(yù)測(cè)結(jié)果和觀察到的結(jié)果同等對(duì)待。同樣按照上述Q3的思想把蛋白質(zhì)二級(jí)結(jié)構(gòu)劃分為螺旋、折疊和卷曲三種狀態(tài)。如果假設(shè)觀察到的序列記為S1,預(yù)測(cè)到的序列記為S2,S0為S1和S2所有狀態(tài)相同的片段,那么S0必定會(huì)包含一對(duì)重疊和一個(gè)螺旋,接下來S1的長度為length(S1),并且把每對(duì)中S1和S2序列個(gè)數(shù)求并集記為max(S1,S2),把S1和S2的序列個(gè)數(shù)求交集記為min(S1,S2)。在上述基礎(chǔ)上把Sov的計(jì)算公式定義為[18]:

      (2)

      其中關(guān)于δ的設(shè)定是為了允許蛋白質(zhì)結(jié)構(gòu)中邊緣處片段的變化,δ(S1,S2)取值符合以下定義:

      (3)

      3 實(shí)驗(yàn)及結(jié)果

      從PDB中下載得到最新的蛋白質(zhì)數(shù)據(jù),然后分別上傳到6個(gè)預(yù)測(cè)服務(wù)器上進(jìn)行測(cè)試。上傳蛋白質(zhì)序列得到的預(yù)測(cè)結(jié)果后,通過與正確的三態(tài)的DSSP結(jié)果相比較,計(jì)算每一條蛋白質(zhì)的Q3和Sov準(zhǔn)確率。第一次實(shí)驗(yàn)中每月數(shù)據(jù)和DB150的Q3和Sov準(zhǔn)確率如表4所示。第二次實(shí)驗(yàn)中基于30%,50%,70%的同源度數(shù)據(jù)和T150的Q3和Sov的實(shí)驗(yàn)結(jié)果如表5所示。

      表4 實(shí)驗(yàn)1的Q3和 Sov平均準(zhǔn)確率Table 4 Average accuracy of Q3 and Sov in Experiment 1

      表5 實(shí)驗(yàn)2的Q3和Sov平均準(zhǔn)確率Table 5 Average accuracy of Q3 and Sov in Experiment 2

      從實(shí)驗(yàn)結(jié)果中看到,不論是基于月份的蛋白質(zhì)數(shù)據(jù),還是基于同源性不同劃分的數(shù)據(jù),PSRSM都取得了在同一類別中較好的效果,Q3的預(yù)測(cè)準(zhǔn)確率有時(shí)甚至超過90%。按照月份劃分時(shí),4月份的數(shù)據(jù)集中,PSRSM達(dá)到了最好的預(yù)測(cè)效果,Q3和Sov的值分別為87.39%和81.61%;在5月份數(shù)據(jù)集中,MUFOLD的Q3準(zhǔn)確率最高,為88.48%,Sov準(zhǔn)確率僅次于PSRSM的84.00%,為83.52%;在6月份數(shù)據(jù)集中PSRSM的Q3獲得最高準(zhǔn)確率為89.15%,而Sov僅次于MUFOLD的83.53%,為83.36%。在綜合數(shù)據(jù)DB150的結(jié)果中我們得到6種預(yù)測(cè)方式Q3的準(zhǔn)確率由高到低為PSRSM的88.07%,MUFOLD的87.20%,SPIDER的85.98%,RAPTORX的83.80%,PSIPRED的80.02%和JPRED的79.54%;Sov準(zhǔn)確率由高到低為PSRSM的82.99%,SPIDER3的82.35%,RAPTORX的78.47%,JPRED的74.53%和PSIPRED的73.13%,PSRSM得到了Q3和Sov的最高準(zhǔn)確率。

      在基于同源性的實(shí)驗(yàn)中,結(jié)果顯示基于30%時(shí),PSRSM得到了91.44%的Q3準(zhǔn)確度和87.45%的Sov準(zhǔn)確度,比其他服務(wù)器中最好的MUFOLD分別高出3.19和2.89個(gè)百分分點(diǎn);同源度為50%時(shí),PSRSM的Q3為88.12%,Sov為81.95%,分別比MUFOLD高出1.33和0.28個(gè)百分點(diǎn);70%的同源度時(shí)PSRSM的Q3和Sov分別為90.17%和83.36,Q3比其他服務(wù)器中最好的MUFOLD高出2.19%,Sov比預(yù)測(cè)結(jié)果最好的SPIDER高出5%??傮w來看在T150中Q3和Sov準(zhǔn)確率由高到低分別為PSRSM的89.91和84.25%,MUFOLD的87.67%和81.46%,SPIDER的86.50%和80.77%,Raptorx的84.07%和78.45%,PSIPRED的80.06%和74.06%,JPRED的79.73和73.71%。

      無論在哪一種情況下,PSRSM、MUFOLD和SPIDER3都得到了超過84.9%的Q3準(zhǔn)確率和超過78.1%的Sov準(zhǔn)確率,其中PSRSM表現(xiàn)出良好的預(yù)測(cè)性能。

      4 結(jié) 論

      蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確度,將決定人類對(duì)于蛋白質(zhì)功能的了解程度。本文介紹了現(xiàn)在6個(gè)熱門的預(yù)測(cè)服務(wù)器原理,并使用最新的數(shù)據(jù)對(duì)其二級(jí)結(jié)構(gòu)預(yù)測(cè)的準(zhǔn)確率進(jìn)行評(píng)估。比較6個(gè)服務(wù)器的預(yù)測(cè)方法和實(shí)驗(yàn)結(jié)果,可以看到它們的研究方法都在著重解決那些三維結(jié)構(gòu)中距離近而序列中距離遠(yuǎn)的氨基酸殘基的預(yù)測(cè)問題,并為此一再提出新的解決思路。

      PSRSM在上述實(shí)驗(yàn)數(shù)據(jù)中大多都取得了最好的實(shí)驗(yàn)結(jié)果,特別是在基于同源性差異的實(shí)驗(yàn)中,當(dāng)同源度較很低為30%時(shí),其Q3準(zhǔn)確率比其他服務(wù)器中最好的MUFOLD高出3.19%,這更說明PSRSM具有更好的預(yù)測(cè)效果。PSRSM與其他服務(wù)器比較,其優(yōu)點(diǎn)在于基于蛋白質(zhì)長度劃分設(shè)計(jì)模板的使用,另一點(diǎn)在于訓(xùn)練數(shù)據(jù)量非常龐大,當(dāng)然也采用了合理的預(yù)測(cè)方法。通過該實(shí)驗(yàn)和結(jié)果也可以看出,其他服務(wù)器能否獲得優(yōu)越的結(jié)果與其訓(xùn)練數(shù)據(jù)量的大小密切相關(guān),當(dāng)然還與其各自使用的深度學(xué)習(xí)算法有關(guān)。因此今后對(duì)于蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)的研究應(yīng)當(dāng)重點(diǎn)從大數(shù)據(jù)、模板和深度學(xué)習(xí)的角度進(jìn)行突破。

      猜你喜歡
      分類器氨基酸準(zhǔn)確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      月桂酰丙氨基酸鈉的抑菌性能研究
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
      中成藥(2018年1期)2018-02-02 07:20:05
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
      乌苏市| 来安县| 彭山县| 镇坪县| 建昌县| 海阳市| 吉木乃县| 胶州市| 涪陵区| 喀什市| 行唐县| 临海市| 灵宝市| 信阳市| 水城县| 民勤县| 满洲里市| 安新县| 江源县| 富裕县| 鲜城| 湾仔区| 承德县| 乌鲁木齐县| 民勤县| 新建县| 望江县| 宁武县| 武山县| 蓝山县| 沾化县| 兰西县| 阜康市| 鲁山县| 绥滨县| 荣昌县| 葫芦岛市| 丰宁| 中江县| 冀州市| 万宁市|