歐秀娟 肖奕
(華中科技大學(xué)物理學(xué)院,武漢 430074)
RNA分子三級(jí)結(jié)構(gòu)模建是分子生物物理學(xué)研究的基本問(wèn)題之一,對(duì)理解RNA的功能和設(shè)計(jì)新的結(jié)構(gòu)有重要意義[1-3].RNA分子三級(jí)結(jié)構(gòu)模建是給出RNA分子的核苷酸序列構(gòu)建其三級(jí)結(jié)構(gòu)[4-10].RNA三級(jí)結(jié)構(gòu)可以分為主鏈結(jié)構(gòu)和側(cè)鏈結(jié)構(gòu),主鏈結(jié)構(gòu)由螺旋區(qū)和環(huán)區(qū)構(gòu)成,由6個(gè)扭轉(zhuǎn)角(α,β,γ,δ,ε,ζ)確定,側(cè)鏈方向由扭轉(zhuǎn)角χ確定(圖1).RNA分子主鏈和側(cè)鏈結(jié)構(gòu)還涉及共價(jià)鍵鍵長(zhǎng)和鍵角,但這些鍵長(zhǎng)和鍵角會(huì)相對(duì)平衡位置進(jìn)行微振動(dòng),在生理溫度這些參數(shù)的變化關(guān)于平衡位置對(duì)稱,影響將相互抵消[11].因此,扭轉(zhuǎn)角被認(rèn)為是RNA分子三級(jí)結(jié)構(gòu)的決定因素,預(yù)測(cè)這些扭轉(zhuǎn)角可以幫助模建RNA分子的三級(jí)結(jié)構(gòu).
扭轉(zhuǎn)角預(yù)測(cè)在蛋白質(zhì)分子三級(jí)結(jié)構(gòu)模建中已經(jīng)有深入的研究.與RNA分子不同,蛋白質(zhì)分子三級(jí)結(jié)構(gòu)主要由主鏈上的2個(gè)扭轉(zhuǎn)角ψ和φ確定.從2007年以來(lái),人們提出了不同的神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)扭轉(zhuǎn)角ψ和φ.2007年,Real-SPINE1.0使用一層全連接神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)蛋白質(zhì)主鏈ψ角,角度的平均絕對(duì)誤差(mean absolute error,MAE)為54°[12];2008年,Real-SPINE2.0使用同樣神經(jīng)網(wǎng)絡(luò)和輸入特征,角度標(biāo)簽[0°,180°]不變,[-180°,0°]加上360°做一個(gè)平移,同時(shí)預(yù)測(cè)蛋白質(zhì)主鏈ψ和φ角,角度的MAE分別為38°和25°[13];2009年,Real-SPINE2.0使用兩層全連接網(wǎng)絡(luò),ψ和φ角預(yù)測(cè)精度進(jìn)一步改進(jìn),MAE分別為36°和22°[14];2009年和2012年,SPINE XI和SPINE X使用多步神經(jīng)網(wǎng)絡(luò),ψ角預(yù)測(cè)的MAE分別為33°[15]和35°[16];2015年SPIDER2使用深度學(xué)習(xí)3層全連接神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)角度的正弦和余弦值,ψ角預(yù)測(cè)的MAE降低到30°[17];2017年,SPIDER3使用4層雙向LSTM模型使ψ角預(yù)測(cè)的MAE進(jìn)一步下降為27°[18];2019年,SPOT-1D使用10層以上的LSTM(long short-term memory)殘差網(wǎng)絡(luò)預(yù)測(cè)角度的正弦和余弦值,ψ角預(yù)測(cè)的MAE為23°[19];2020年,使用3層全連接網(wǎng)絡(luò),滑動(dòng)窗口特征,ψ角預(yù)測(cè)的MAE僅為18°[20].對(duì)于RNA分子,2021年,SPOTRNA-1D首次使用1層普通卷積和2層膨脹卷積預(yù)測(cè)RNA的7個(gè)扭轉(zhuǎn)角和2個(gè)自定義偽角(η,θ)(圖1)的正弦和余弦值,α,β,γ,δ,ε,ζ,χ,η,θ的平均絕對(duì)誤差分別為43.94°,21.94°,32.98°,14.61°,20.69°,33.27°,19.59°,30.25°和32.91°[21].可以看到,相對(duì)于蛋白質(zhì)分子,RNA分子扭轉(zhuǎn)角預(yù)測(cè)的精度還有待提高.
本文提出了一種基于時(shí)序網(wǎng)絡(luò)深度學(xué)習(xí)模型預(yù)測(cè)RNA分子扭轉(zhuǎn)角的方法1dRNA,分別使用深度殘差卷積模型(deep residual CNN,DRCNN)和深度超長(zhǎng)短期記憶模型(deep HyperLSTM,DHLSTM)預(yù)測(cè)RNA分子的7個(gè)扭轉(zhuǎn)角和2個(gè)偽角,以此分析抓取相鄰核苷酸特征的卷積網(wǎng)絡(luò)和抓取全局核苷酸特征的循環(huán)網(wǎng)絡(luò),哪種網(wǎng)絡(luò)更合適扭轉(zhuǎn)角預(yù)測(cè)問(wèn)題,并將兩個(gè)模型的結(jié)果和抓取間隔核苷酸特征的SPOT-RNA-1D比較.DRCNN模型基于只能看到相鄰核苷酸特征的一維卷積,卷積過(guò)程不改變序列長(zhǎng);DHLSTM模型基于能看到全部核苷酸的特征、并能改變常規(guī)長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)權(quán)重共享范式的超LSTM網(wǎng)絡(luò).結(jié)果表明,本文采用的兩個(gè)深度學(xué)習(xí)模型都可以進(jìn)一步提高RNA分子扭轉(zhuǎn)角的預(yù)測(cè)精度,不同模型在不同角度上各有優(yōu)勢(shì),δ,ζ,χ,η和θ角的預(yù)測(cè)更適合卷積網(wǎng)絡(luò),β和ε角的預(yù)測(cè)更適合循環(huán)網(wǎng)絡(luò),而在α和γ角中,抓取間隔核苷酸的膨脹網(wǎng)絡(luò)更好.
DRCNN模型架構(gòu)如圖2所示,由一個(gè)一維卷積層[22]開(kāi)始,輸入通道為4,輸出通道為512 (卷積輸出通道超參數(shù)512比256效果好和1024效果類似),訓(xùn)練批次為8 (本文模型在一張11G顯存GTX 1080 Ti顯卡上能容下的最大樣本數(shù)),卷積核為15 (卷積核超參數(shù)15比7和30效果好),填充方式為“same”,其他為默認(rèn)值.初始卷積層之后,是4個(gè)殘差塊的依次疊加(殘差塊的數(shù)目1到6測(cè)試顯示4個(gè)殘差塊效果最好),每個(gè)殘差塊[23]依次包含: 一維批歸一化層BatchNorm1d[24](特征維度為512,添加在卷積網(wǎng)絡(luò)中,有助于模型訓(xùn)練的穩(wěn)定,效果比LayerNorm樣本歸一化要好),ReLU激活函數(shù)[25](對(duì)本文模型激活函數(shù)ReLU比tanh和Leaky ReLu效果好),一維卷積層(輸入通道維度為512,輸出通道維度為512,卷積窗口一次能看到的核苷酸數(shù)目為15,填充方式為“same”,其他為默認(rèn)值),再一維批歸一化層,ReLU激活函數(shù)和一維卷積層,最后將此層卷積的輸出和殘差塊的輸入相加,相加的結(jié)果再輸入下一個(gè)殘差塊中,重復(fù)4次.數(shù)據(jù)流出殘差塊后,經(jīng)過(guò)一個(gè)ReLU激活函數(shù)(激活函數(shù)放在殘差塊外訓(xùn)練效果更好),一維批歸一化層(特征維度為512),dropout層(和全連接層連用,減少網(wǎng)絡(luò)的過(guò)擬合,采樣概率0.4,比0.2和0.5效果好),全連接層(輸入維度512,輸出維度18),tanh激活函數(shù)(輸出區(qū)間在[-1,1],和預(yù)測(cè)角度的正弦和余弦值區(qū)間一致)得到輸出.
圖2 DRCNN (a) 模型架構(gòu);(b) 模型中一維卷積層的原理;(c) 輸出層.B,L,N,KS和Filters分別為訓(xùn)練中更新一次模型參數(shù)選擇的序列數(shù)目、序列的長(zhǎng)度、輸入特征維度、卷積核的小大(卷積窗口一次能看到的相鄰核苷酸數(shù)目)、卷積核的數(shù)目(卷積層的輸出維度)Fig.2.DRCNN: (a) Network architecture;(b) Conv1d layer;(c) output layer.B,L,N,KS and Filters are batch size,sequence length,the size of the input,the size of the filter (the filter can see the number of nucleotides at one time),the number of filters.
DHLSTM模型結(jié)構(gòu)如圖3所示,里面的Hyper-LSTM層原理來(lái)自于文獻(xiàn)[26],輸入數(shù)據(jù)的維度是(512,8,4),模型更新一次參數(shù)選取的樣本批次數(shù)目為8,描述一個(gè)核苷酸的初始特征向量維度為4;然后經(jīng)過(guò)一個(gè)HyperLSTM層(這里的超參數(shù),外部大LSTM層[27]的輸出維度Hidden取64、內(nèi)部小LSTM層的輸出維度和改變LSTM層權(quán)重的Hypercell單元里線性投影的維度Hyper都取16;Hidden超參數(shù)64比16,32和128效果好,Hyper超參數(shù)16比32和64效果好),具體來(lái)說(shuō),第t個(gè)核苷酸特征向量和兩類隱藏態(tài)進(jìn)入HyperLSTM cell單元,得到第t+1個(gè)核苷酸新的特征向量和兩類隱藏態(tài),這里每個(gè)核苷酸使用不同的Hyper LSTMcell權(quán)重參數(shù),依次算完所有核苷酸,得到描述一個(gè)批次每個(gè)核苷酸新特征數(shù)據(jù)維度(512,8,64);接著經(jīng)過(guò)另一個(gè)HyperLSTM層(這里三層HyperLSTMcell單元的超參數(shù)Hidden都取64,Hyper都取16),具體來(lái)說(shuō),上一層輸出的第t個(gè)核苷酸特征向量和兩類隱藏態(tài)(維度(8,64))依次進(jìn)入三個(gè)HyperLSTMcell單元,得到第t+1個(gè)核苷酸新的特征向量(維度(8,64))和兩類隱藏態(tài)輸出(維度分別為(8,64),(8,16)),依次算完所有核苷酸,得到描述一個(gè)批次每個(gè)核苷酸的新特征數(shù)據(jù)維度(512,8,64);最后將第二層HyperLSTM的輸出和第一層的HyperLSTM輸出相加,作為一個(gè)殘差塊;數(shù)據(jù)流出殘差塊后,進(jìn)入全連接層(輸入維度512,輸出維度18),tanh激活函數(shù)得到輸出.
圖3 DHLSTM (a) 模型架構(gòu);(b) HyperLSTM層;(c) 對(duì)每個(gè)核苷酸的處理單元HyperLSTMcell,其中ht,ct和ht -1,ct -1分別是外部更大的LSTM在t和 t -1時(shí)刻的隱藏態(tài);,和, 分別是更小的LSTM在t和t -1時(shí)刻的隱藏態(tài);(d) Hypercell單元.L,B,N,Hidden,Hyper和n_z分別為序列的長(zhǎng)度、訓(xùn)練中更新一次模型參數(shù)選擇的序列數(shù)目、輸入特征維度、大LSTM層的輸出維度、內(nèi)部LSTM層的輸出維度和改變大LSTM層權(quán)重的Hypercell單元里線性投影的維度,Px和Ph為動(dòng)態(tài)可訓(xùn)練參數(shù),綁定在內(nèi)部超網(wǎng)絡(luò)里,作用在輸入態(tài)xt -1和隱藏態(tài),初始值為全零張量Fig.3.DHLSTM: (a) Network architecture;(b) HyperLSTM layer;(c) HyperLSTMcell;ht,ct and ht -1,ct -1 are the states of the larger outer LSTM at time t and t -1,respectively;, and , are the states of the smaller LSTM at time t and t -1.(d) Hypercell.L,B,N,Hidden are sequence length,batch size,the size of the input,the size of the LSTM,and Hyper is the size of the smaller LSTM that alters the weights of the larger outer LSTM,n_z is the size of the feature vectors used to alter the larger LSTM weights,Px and Ph are dynamically trainable parameters,bound in the internal hypernetwork,acting on the input state xt -1 and the hidden state,and the initial value is an all-zero tensor.
DHLSTM和DRCNN訓(xùn)練都使用MSE損失函數(shù)和RMSprop優(yōu)化器[28]訓(xùn)練(優(yōu)化器學(xué)習(xí)率取0.001、正則化系數(shù)取0.0001,此優(yōu)化器比Adam和AdamW優(yōu)化器效果好,學(xué)習(xí)率0.01比0.1,0.001,0.0001和0.00001效果好,正則化系數(shù)經(jīng)過(guò)嘗試取學(xué)習(xí)率的百分之一0.0001比較好);同時(shí)預(yù)測(cè)9個(gè)角和單獨(dú)預(yù)測(cè)一個(gè)角,預(yù)測(cè)結(jié)果基本一致,故DHLSTM和DRCNN都同時(shí)預(yù)測(cè)9個(gè)角;DHLSTM模型在訓(xùn)練過(guò)程中,訓(xùn)練損失隨著epoch的增大一直下降,驗(yàn)證損失在第85個(gè)epoch后開(kāi)始逐步上升,如圖4(a)所示,故取第85個(gè)epoch的模型為最終模型;DRCNN模型在訓(xùn)練過(guò)程中,訓(xùn)練損失隨著epoch的增大一直下降,驗(yàn)證損失在第109個(gè)epoch后開(kāi)始逐步上升,如圖4(b)所示,故取第109個(gè)epoch的模型為最終模型.DHLSTM和DRCNN的實(shí)現(xiàn)都使用Facebook的PyTorch深度學(xué)習(xí)框架[29].
圖4 (a) DHLSTM模型和 (b) DRCNN模型驗(yàn)證損失(MAE)隨epoch的變化Fig.4.Validation loss curve with the epoch by (a) DHLSTM and (b) DRCNN.
為了比較,采用了SPOT-RNA-1D 使用的訓(xùn)練集、驗(yàn)證集和測(cè)試集(https://github.com/jaswinder singh2/SPOT-RNA-1D/tree/main/datasets)[21].訓(xùn)練集含有286個(gè)結(jié)構(gòu),從PDB結(jié)構(gòu)數(shù)據(jù)庫(kù)[30]目前可以下載到284個(gè)結(jié)構(gòu)(6N5R_A,6N5L_A下架),本文訓(xùn)練集為這284個(gè)結(jié)構(gòu);驗(yàn)證集含有30個(gè)結(jié)構(gòu),都可從PDB下載;測(cè)試集有3個(gè)分別含有63,30和54個(gè)結(jié)構(gòu),從PDB數(shù)據(jù)庫(kù)分別下載到62 (5Y85_B內(nèi)含脫氧核苷酸下架)、30和54個(gè)結(jié)構(gòu).
SPOT-RNA-1D 數(shù)據(jù)集來(lái)自于2020年10月3日PDB數(shù)據(jù)庫(kù)中所有X衍射分辨率小于3.5 ?的RNA結(jié)構(gòu);用CD-HIT-EST[31]軟件對(duì)所有這些結(jié)構(gòu)的序列設(shè)置相似度0.8進(jìn)行聚類,多簇類中的代表序列構(gòu)成訓(xùn)練集;然后將訓(xùn)練集和單簇類利用BLAST-N[32]軟件設(shè)置截?cái)嘀禐?0處理,訓(xùn)練集與單簇類有命中的序列被刪除,單簇類中有命中的序列也被刪除;經(jīng)過(guò)這些處理,訓(xùn)練集剩下的序列作為最終訓(xùn)練集,單簇類剩下的序列隨機(jī)分為驗(yàn)證集、測(cè)試集I和測(cè)試II;另外,對(duì)2021年4月5日PDB數(shù)據(jù)庫(kù)中所有NMR結(jié)構(gòu),使用相同方法,去除和訓(xùn)練集、驗(yàn)證集、測(cè)試集I和測(cè)試II的冗余,作為測(cè)試集III.數(shù)據(jù)集的長(zhǎng)度和二級(jí)結(jié)構(gòu)分布信息如表1所列.
表1 訓(xùn)練集、驗(yàn)證集和3個(gè)測(cè)試集的長(zhǎng)度和二級(jí)結(jié)構(gòu)信息(百分?jǐn)?shù)是數(shù)據(jù)集不同配對(duì)類型的核苷酸數(shù)目占比)Table 1.Length and secondary-structure information of training,validation and test sets.The number mentioned along with the base pairing type is the percentage of total nucleotides in the region.
模型的輸入為核苷酸序列特征,大小為L(zhǎng)×4的one-hot編碼,四個(gè)核苷酸(A,U,G和C)分別用(1,0,0,0),(0,1,0,0),(0,0,1,0)和(0,0,0,1)表示,L為序列長(zhǎng)度,序列長(zhǎng)度最長(zhǎng)為512,長(zhǎng)度不夠的補(bǔ)0.數(shù)據(jù)集中最長(zhǎng)序列為414,常規(guī)做法是將所有序列用0補(bǔ)齊到最長(zhǎng)序列長(zhǎng)度.在預(yù)測(cè)時(shí),模型預(yù)測(cè)的目標(biāo)序列長(zhǎng)度應(yīng)不大于最長(zhǎng)序列長(zhǎng)度.這里取512是借鑒很多蛋白質(zhì)模型中取值512,又觀察到所有序列長(zhǎng)度補(bǔ)齊到414和512的預(yù)測(cè)結(jié)果類似,故為了模型能預(yù)測(cè)更長(zhǎng)的序列,取值512.在訓(xùn)練中測(cè)試過(guò)將所有序列補(bǔ)0區(qū)域采用mask機(jī)制,補(bǔ)0區(qū)域值雖然被計(jì)算但不參與下層值的計(jì)算,模型性能改善不明顯.輸出具體如圖2(c)所示,有18個(gè)節(jié)點(diǎn)用于預(yù)測(cè)9個(gè)角的正弦和余弦值,然后利用atan2函數(shù)將角度的正弦和余弦值轉(zhuǎn)化為角度的弧度值,再利用rad2deg函數(shù)將角度的弧度值轉(zhuǎn)化為角度值.這種變換在蛋白質(zhì)扭轉(zhuǎn)角預(yù)測(cè)里也常用.
使用MAE評(píng)估整體性能,具體如(1)式,預(yù)測(cè)角度值和實(shí)驗(yàn)確定的角度值的絕對(duì)差,360°和這個(gè)絕對(duì)差的差值,取兩者的小值:
本文兩個(gè)深度學(xué)習(xí)模型使用上面的訓(xùn)練集、驗(yàn)證集和3個(gè)獨(dú)立的測(cè)試集進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試.為了了解模型每個(gè)角度在每個(gè)測(cè)試集的總體表現(xiàn),表2列出了DRCNN,DHLSTM和SPOT-RNA-1D[21]在驗(yàn)證集和3個(gè)測(cè)試集上整體的性能評(píng)估.在含有62個(gè)RNA的測(cè)試集I上,DRCNN預(yù)測(cè)的β,δ,ζ,χ,η和θ角 的MAE比SPOT-RNA-1D分別減小了5%,28%,17%,16%,24%和20%,α,γ和ε角的MAE比SPOT-RNA-1D分別增大了2%,10%和4%;DHLSTM預(yù)測(cè)的β,δ,ε,ζ,χ,η和θ角的MAE比SPOT-RNA-1D分別減小了6%,10%,9%,9%,12%,15%和11%,α和γ角的MAE比SPOT-RNA-1D分別增大了10%和13%,這表明在δ,ζ,χ,η和θ角這些角中,每層考慮相鄰核苷酸特征的DRCNN比每層考慮全部核苷酸特征的DHLSTM要好,在β和ε角中,每層考慮全部核苷酸特征的DHLSTM比每層考慮相鄰核苷酸特征的DRCNN要好,在α和γ角中,每層考慮間隔核苷酸的SPOT-RNA-1D比DRCNN和DHLSTM都要好.MAE值越大預(yù)測(cè)難度越大,在DRCNN中角度預(yù)測(cè)難度δ,χ,ε,β,η,θ,ζ,γ和α依次遞增,在DHLSTM中角度預(yù)測(cè)難度δ,χ,β,ε,η,θ,ζ,γ和α依次遞增,在SPOT-RNA-1D中角度預(yù)測(cè)難度δ,χ,ε,β,η,θ,γ,ζ和α依次遞增,可以看到δ,χ,η,θ和α角在3個(gè)模型里預(yù)測(cè)難度的排序一致,考慮相鄰核苷酸的DRCNN和考慮間隔核苷酸的SPOT-RNA-1D都表明ε比β容易預(yù)測(cè),而對(duì)于DHLSTM,ε比β難預(yù)測(cè),DRCNN和DHLSTM都表明ζ比γ容易預(yù)測(cè),而對(duì)于SPOTRNA-1D,ζ比γ難預(yù)測(cè).這3種方法都認(rèn)為α是最難預(yù)測(cè)的,表明3個(gè)模型在角度預(yù)測(cè)難度方面有一定相似性,也各有特點(diǎn).在測(cè)試集II和測(cè)試集III觀察到類似的性能趨勢(shì),表明模型對(duì)不同類型的測(cè)試集具有魯棒性.
表2 DHLSTM,DRCNN和SPOT-RNA-1D在驗(yàn)證集和3個(gè)測(cè)試集上的MAETable 2.Performance comparison in terms of MAE on validation sets and three test sets by three models.
為了了解模型在單個(gè)序列上的表現(xiàn),圖5 給出了DRCNN,DHLSTM和SPOT-RNA-1D在3個(gè)測(cè)試集上單個(gè)RNA分子扭轉(zhuǎn)角預(yù)測(cè)的MAE分布圖,其中SPOT-RNA-1D繪制每個(gè)盒子需要五類值(最大值、最小值、中位數(shù)、上下四分位數(shù)和異常值),由論文圖形數(shù)據(jù)獲取工具 WebPlotDigitizer[33]得到.每個(gè)模型在3個(gè)數(shù)據(jù)集9個(gè)角度的27個(gè)MAE最小值上,DRCNN占18次,DHLSTM占3次,SPOT-RNA-1D占6次,而在27個(gè)MAE最大值上,DRCNN占4次,DHLSTM占8次,SPOTRNA-1D占15次,表明考慮相鄰核苷酸特征的卷積模型DRCNN最有可能預(yù)測(cè)到最小的MAE值,DHLSTM次之,SPOT-RNA-1D很難預(yù)測(cè)相比比較小的MAE值.箱子越窄意味著每次預(yù)測(cè)MAE變化更小,模型預(yù)測(cè)更穩(wěn)定,每個(gè)模型在3個(gè)測(cè)試集9個(gè)角度的27個(gè)箱子中,DRCNN出現(xiàn)9次,DHLSTM出現(xiàn)15次,SPOT-RNA-1D出現(xiàn)3次,表明預(yù)測(cè)最穩(wěn)定的模型是考慮全部核苷酸特征的DHLSTM,且性能中規(guī)中矩,其次是DRCNN,對(duì)樣本反應(yīng)比較敏感的是SPOT-RNA-1D.在27個(gè)盒子相對(duì)較小的中位數(shù)上,DRCNN占18次,DHLSTM占2次,SPOT-RNA-1D占7次,表明DRCNN預(yù)測(cè)的一半數(shù)目鏈的總MAE比其他兩個(gè)模型值要低.在異常值方面,3個(gè)測(cè)試集9個(gè)角度上,DRCNN,DHLSTM和SPOT-RNA-1D出現(xiàn)的異常值的數(shù)目分別為24,21和38,且DRCNN和DHLSTM出現(xiàn)的異常值本身是比較小,同樣表明DHLSTM預(yù)測(cè)比較穩(wěn)定.以上說(shuō)明,考慮相鄰核苷酸特征的DRCNN模型性能整體更強(qiáng)大,考慮全部核苷酸特征的DHLSTM模型預(yù)測(cè)更穩(wěn)定.
圖5 DRCNN(黃色)、DHLSTM(綠色)和SPOT-RNA-1D(紫色)在測(cè)試集I (a)、測(cè)試集II (b)和測(cè)試集III (c)上單個(gè)RNA鏈的MAE分布圖.每個(gè)盒子顯示出一組數(shù)據(jù)的最大值、最小值、中位數(shù)、上下四分位數(shù)和異常值Fig.5.Distribution of MAE for individual RNA chains on test set I (a),test set II (b) and test set III (c) by DRCNN predictor (yellow),by DHLSTM (in green) and SPOTRNA-1D (in purple).Each box shows the minimum,the maximum,the sample median,the first and third quartiles and outlier.
另外繪制了角度的實(shí)驗(yàn)值分布,如圖6橙色虛線所示,可以看出每個(gè)角度的實(shí)驗(yàn)值的分布是比較陡峭的,大部分角度都集中在跨度在40°左右的角度空間,有少部分角度值分布在跨度在360°的角度空間中,最容易預(yù)測(cè)的δ角跨度也是最窄的,最難預(yù)測(cè)的α角分布有3個(gè)峰,跨度是最廣的.為了了解本文模型在預(yù)測(cè)分布上的能力,繪制了DRCNN和DHLSTM在測(cè)試集I的預(yù)測(cè)分布如圖6黃色和綠色虛線所示,DRCNN預(yù)測(cè)所有的角度分布都比DHLSTM好;在測(cè)試集II和測(cè)試集III上,DRCNN在β和γ角上預(yù)測(cè)的分布比DHLSTM要好,兩個(gè)模型在預(yù)測(cè)其他7個(gè)角的分布類似.
圖6 測(cè)試集I扭轉(zhuǎn)角的實(shí)驗(yàn)值(橙色)、DHLSTM預(yù)測(cè)值(黃色)和DRCNN預(yù)測(cè)值(綠色)分布圖Fig.6.Distribution plots of native (in orange),DHLSTM predicted (in yellow),and DRCNN predicted (in green) nine torsion angles on test set I.
二級(jí)結(jié)構(gòu)對(duì)RNA建模起著重要角色,根據(jù)DSSR軟件[34]輸出的RNA二級(jí)結(jié)構(gòu),可將RNA二級(jí)結(jié)構(gòu)分為三種類型,括號(hào)(['(',')']),假結(jié)(['[',']','{','}','<','>','A','a']),環(huán) 區(qū)['.'].比較了DRCNN和DHLSTM在測(cè)試集III中對(duì)3種二級(jí)結(jié)構(gòu)類型的整體預(yù)測(cè)性能(表3),可以看出,對(duì)DRCNN和DHLSTM來(lái)說(shuō)括號(hào)類型的核苷酸的扭轉(zhuǎn)角最容易預(yù)測(cè)的,處于環(huán)區(qū)的核苷酸的扭轉(zhuǎn)角是最難預(yù)測(cè);還可以觀察到,DRCNN預(yù)測(cè)3種類型的MAE誤差都比相應(yīng)的DHLSTM預(yù)測(cè)的要低;在其他兩個(gè)測(cè)試集觀察到同樣結(jié)果,因此,扭轉(zhuǎn)角預(yù)測(cè)的誤差主要來(lái)自于環(huán)區(qū)和假結(jié)區(qū)域,在預(yù)測(cè)括號(hào)、假結(jié)和環(huán)區(qū)區(qū)域的扭轉(zhuǎn)角上DRCNN都比DHLSTM好.
表3 DHLSTM和DRCNN在測(cè)試集III不同配對(duì)類型中扭轉(zhuǎn)角預(yù)測(cè)的MAETable 3.Performance according to mean absolute error by DHLSTM and DRCNN for nucleotides in different pairing type on test set III.
表1統(tǒng)計(jì)了訓(xùn)練集、驗(yàn)證集和3個(gè)測(cè)試集的序列長(zhǎng)度分布.由表1可以看出,在訓(xùn)練集和驗(yàn)證集中各個(gè)長(zhǎng)度分布并不均勻,長(zhǎng)度在50到100區(qū)間的有179個(gè)結(jié)構(gòu),在100到200區(qū)間的只有46個(gè).為了了解這種差異是否會(huì)導(dǎo)致DRCNN和DHLSTM對(duì)長(zhǎng)RNA扭轉(zhuǎn)角預(yù)測(cè)性能較差,圖7繪制了兩個(gè)模型在9個(gè)角度上的表現(xiàn)與序列長(zhǎng)度的關(guān)系.觀察DHLSTM和DRCNN的預(yù)測(cè)結(jié)果,9個(gè)角的MAE值在數(shù)目少的長(zhǎng)度區(qū)間[78,94],[155,171]和[171,186]并不大;還觀察到DRCNN在短長(zhǎng)度區(qū)間[1,47]結(jié)果比DHLSTM結(jié)果好;因此,雖然訓(xùn)練集和驗(yàn)證集對(duì)不同長(zhǎng)度的RNA數(shù)目分布不均勻,但并沒(méi)有造成DRCNN和DHLSTM在預(yù)測(cè)上的長(zhǎng)度偏好.
圖7 (a) DHLSTM和 (b) DRCNN分別在3個(gè)測(cè)試集(147個(gè)RNA)的9個(gè)扭轉(zhuǎn)角的MAE與RNA序列長(zhǎng)度的函數(shù)Fig.7.On 147 RNAs in the three test sets,the MAE is measured as a function of the length for the nine torsion angles by (a) DHLSTM and (b) DRCNN.
和SPOT-RNA-1D方法一樣,為了了解扭轉(zhuǎn)角之間的相關(guān)性,在測(cè)試集I上繪制了如圖8所示的扭轉(zhuǎn)角相關(guān)矩陣.一般情況下,相鄰扭轉(zhuǎn)角之間高度相關(guān),而較遠(yuǎn)扭轉(zhuǎn)角相關(guān)性較小,但是矩陣顯示,對(duì)于DRCNN和DHLSTM,α和γ角有很強(qiáng)的相關(guān)性,兩者也是模型預(yù)測(cè)難度最大的兩個(gè)角,ζ和θ有最強(qiáng)的相關(guān)性,兩者預(yù)測(cè)難度排名也是相鄰的.在其他兩個(gè)測(cè)試集的結(jié)果相同.
圖8 (a) DHLSTM和 (b) DRCNN分別在測(cè)試集I上扭轉(zhuǎn)角的MAE的相關(guān)系數(shù)(CCs),值越大表示兩個(gè)角度越相關(guān)Fig.8.Correlation coefficient (CCs) for MAE of between the nine torsion angles of test set I by (a) DHLSTM and (b) DRCNN,the larger the CC value,the more correlated between the two torsions.
觀察一條鏈中預(yù)測(cè)的每個(gè)角度,預(yù)測(cè)的大部分扭轉(zhuǎn)角比一些近天然態(tài)或者類天然態(tài)結(jié)構(gòu)的扭轉(zhuǎn)角更接近天然態(tài)結(jié)構(gòu)扭轉(zhuǎn)角的值.和SPOT-RNA-1D方法一樣,也測(cè)試了DRCNN和DHLSTM這兩種深度學(xué)習(xí)模型預(yù)測(cè)的角度和不同RMSD結(jié)構(gòu)的角度之間的差異是否可以用于結(jié)構(gòu)的質(zhì)量評(píng)估.為此,使用3dRNA[3]測(cè)試集85個(gè)RNA和它們的decoys進(jìn)行了測(cè)試.圖9繪制了DRCNN和DHLSTM在其中一個(gè)RNA(PDB ID號(hào)1Y69,鏈9)在預(yù)測(cè)角度與誘餌模型結(jié)構(gòu)角度之間的MAE和結(jié)構(gòu)精度的函數(shù)關(guān)系,MEA隨RMSD持續(xù)增加.在85個(gè)數(shù)據(jù)集中的其余84個(gè)RNA中也觀察到類似的趨勢(shì),這表明與模型預(yù)測(cè)角度的偏差或結(jié)合其他參量可用于模型質(zhì)量評(píng)估.
圖9 (a) DRCNN和(b) DHLSTM分別在RNA 1Y69(鏈9)上預(yù)測(cè)角度與decoys結(jié)構(gòu)角度之間的MAE與RMSD的關(guān)系Fig.9.On RNA 1Y69 (chain 9),the MAE is measured as a function of RMSD for the nine torsion angles by (a) DRCNN and(b) DHLSTM.
本文提出了一種預(yù)測(cè)RNA分子扭轉(zhuǎn)角的深度學(xué)習(xí)方法1dRNA,采用了DRCNN和DHLSTM兩個(gè)基于時(shí)序網(wǎng)絡(luò)的模型去預(yù)測(cè)RNA的7個(gè)扭轉(zhuǎn)角(α,β,γ,δ,ε,ζ和χ)和2個(gè)偽角(η和θ),并和現(xiàn)有方法SPOT-RNA-1D進(jìn)行了比較.結(jié)果表明不同網(wǎng)絡(luò)在不同角度上各有優(yōu)勢(shì),當(dāng)序列長(zhǎng)度不超過(guò)50時(shí),在預(yù)測(cè)9個(gè)角時(shí),考慮相鄰核苷酸特征的DRCNN比考慮全部核苷酸特征的DHLSTM和考慮間隔核苷酸特征的SPOT-RNA-1D都好;當(dāng)序列長(zhǎng)度超過(guò)50,在δ,ζ,χ,η和θ角這些角中,DRCNN預(yù)測(cè)的結(jié)果整體上比DHLSTM和SPOTRNA-1D要好,在β和ε角中,DHLSTM預(yù)測(cè)的結(jié)果整體上比DRCNN和SPOT-RNA-1D要好,在α和γ角中,SPOT-RNA-1D預(yù)測(cè)的結(jié)果整體上比DHLSTM和DRCNN要好;3個(gè)模型在9個(gè)角度的預(yù)測(cè)難度上類似,角度的實(shí)驗(yàn)值和預(yù)測(cè)值分布可以看出角度預(yù)測(cè)的難度主要在于角度分布的復(fù)雜程度,分布越復(fù)雜越難預(yù)測(cè),DRCNN和SPOTRNA-1D預(yù)測(cè)出來(lái)的角度分布比DHLSTM豐富;序列環(huán)區(qū)的角度分布比配對(duì)區(qū)域復(fù)雜,角度預(yù)測(cè)難度也比配對(duì)區(qū)域大很多;每個(gè)模型在鏈長(zhǎng)度集中在非長(zhǎng)鏈區(qū)的訓(xùn)練集和驗(yàn)證集上訓(xùn)練,但在預(yù)測(cè)時(shí)對(duì)長(zhǎng)鏈預(yù)測(cè)效果也不錯(cuò);在模型預(yù)測(cè)穩(wěn)定性上,考慮全鏈核苷酸的DHLSTM比考慮相鄰核苷酸的DRCNN和考慮間隔核苷酸的SPOT-RNA-1D要穩(wěn)定很多,異常值少;模型的各個(gè)結(jié)果在3個(gè)測(cè)試集上表現(xiàn)類似,表明模型性能對(duì)不同數(shù)據(jù)集穩(wěn)定.從結(jié)果來(lái)看,面對(duì)比較短序列,9個(gè)角度都用考慮相鄰核苷酸特征的卷積網(wǎng)絡(luò)更好,當(dāng)序列長(zhǎng)時(shí),在預(yù)測(cè)δ,ζ,χ,η和θ角用考慮相鄰核苷酸特征的卷積網(wǎng)絡(luò)更好,預(yù)測(cè)β和ε用考慮全鏈核苷酸特征的超循環(huán)網(wǎng)絡(luò)更好,預(yù)測(cè)α和γ角用考慮間隔核苷酸特征的膨脹卷積網(wǎng)絡(luò)更好.在數(shù)據(jù)集方面,嘗試過(guò)加入新發(fā)表的RNA結(jié)構(gòu)增大數(shù)據(jù)集訓(xùn)練,精度能提高但不明顯;可以設(shè)計(jì)其他類型的網(wǎng)絡(luò),嘗試使用單純的全連接網(wǎng)絡(luò)和Transformer[35]網(wǎng)絡(luò)訓(xùn)練,角度預(yù)測(cè)整體MAE比DRCNN和DHLSTM更好,但預(yù)測(cè)的角度分布很差,很難預(yù)測(cè)出角度分布峰值之外的區(qū)域;嘗試過(guò)在DRCNN和DHLSTM這個(gè)兩個(gè)模型上改進(jìn),精度能提高但不明顯;在加入新特征方面,加入二級(jí)結(jié)構(gòu)特征,能提高精度但也不明顯.在改進(jìn)角度預(yù)測(cè)方面,從結(jié)果可以看出角度分布決定了預(yù)測(cè)難度,在預(yù)測(cè)前如何預(yù)先處理這種分布,和如何把這種分布加入損失函數(shù),應(yīng)該可以很大提高預(yù)測(cè)精度;另外直接預(yù)測(cè)角度實(shí)值難度大,可以考慮將跨度360°的角度分布分成36個(gè)bin去預(yù)測(cè).