• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      PVsiRNAPred-LSTM:基于長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)預(yù)測植物病毒衍生的小干擾RNA

      2022-06-26 13:08:04李博文賀碧芳
      科技風(fēng) 2022年15期
      關(guān)鍵詞:核苷酸準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)

      李博文 賀碧芳

      摘 要:植物病毒衍生的小干擾RNA(Virus-derived siRNAs,vsiRNAs)能夠調(diào)節(jié)多種生物學(xué)過程,在抗病毒免疫中發(fā)揮著非常重要的作用。因此,植物vsiRNAs的識(shí)別有助于了解其生物發(fā)生機(jī)制,對研究抗病毒植物具有重要意義。雖然,現(xiàn)在已有多種實(shí)驗(yàn)方法通過檢測RNA來尋找vsiRNAs,但是實(shí)驗(yàn)測試費(fèi)時(shí)費(fèi)力費(fèi)錢。在本文中,我們從PVsiRNAdb數(shù)據(jù)庫中提取植物vsiRNAs序列,基于長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory neural network,LSTM)與vsiRNAs序列,開發(fā)了一種深度學(xué)習(xí)算法——PVsiRNAPred-LSTM,用于預(yù)測植物vsiRNAs。PVsiRNAPred-LSTM可以自動(dòng)學(xué)習(xí)并選擇與預(yù)測任務(wù)相關(guān)的重要特征。為了防止模型過擬合,我們使用了五折交叉檢驗(yàn)來訓(xùn)練模型。在五折交叉檢驗(yàn)測試中,該模型的準(zhǔn)確率為64.38%,靈敏度(Sn)為66.44%,精確度(Pr)為60.51%,F(xiàn)1值為0.64,特異性(Sp)為56.63%,馬修斯相關(guān)系數(shù)(MCC)為0.23,AUCROC為0.67。以上結(jié)果表明PVsiRNAPred-LSTM取得了良好的預(yù)測效果,我們希望通過PVsiRNAPred-LSTM這一生物信息學(xué)算法來預(yù)測植物vsiRNAs,幫助找到新的植物vsiRNAs。

      關(guān)鍵詞:植物病毒衍生的小干擾RNA(vsiRNAs);長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM);深度學(xué)習(xí);五折交叉檢驗(yàn);生物信息學(xué)算法;vsiRNA預(yù)測

      非編碼RNA(Non-coding RNA,ncRNA)是轉(zhuǎn)錄自基因組的不編碼蛋白質(zhì)的RNA分子。除了在轉(zhuǎn)錄和轉(zhuǎn)錄后水平上發(fā)揮作用以外,ncRNA在基因表達(dá)的表觀遺傳學(xué)調(diào)控中也有著非常重要的作用。小干擾RNA(Small interfering RNA,siRNA)、microRNA(miRNA)、Piwi相互作用RNA(piRNA)是三種主要的調(diào)控型ncRNA,負(fù)責(zé)調(diào)控基因表達(dá)和宿主抗微生物免疫[1]。

      siRNA是長度為20到30個(gè)核苷酸的雙股RNA(dsRNA),在生物學(xué)上有多種用途。植物vsiRNAs(Virus-derived siRNAs)來源于RNA病毒的雙鏈復(fù)制過程中的dsRNA分子。植物vsiRNAs可參與調(diào)控植物的生長、發(fā)育和抗病毒免疫等多種生物過程[2]。在受病毒感染的植物體內(nèi),vsiRNAs可以作為RNA干擾(RNA interference,RNAi)靶向入侵病毒的向?qū)?,以達(dá)到對病毒擴(kuò)增的抑制效果[2-3]。除此之外,vsiRNAs還可以下調(diào)宿主基因轉(zhuǎn)錄,達(dá)到對宿主基因表達(dá)抑制的作用[4-5]。近年來大量研究項(xiàng)目表明,vsiRNAs在保護(hù)宿主植物免受病毒感染方面具有廣泛應(yīng)用。例如,2020年陳玲等人發(fā)表了vsiRNAs在果樹病毒研究中的應(yīng)用,為果樹病毒研究防控提供了新思路[6]。因此,植物vsiRNAs的識(shí)別有非常重要的意義,能幫助我們進(jìn)一步了解vsiRNAs的發(fā)生機(jī)制,為進(jìn)一步研究抗病毒植物做出貢獻(xiàn)。

      為了存儲(chǔ)與集中管理vsiRNAs,研究者們開發(fā)了很多的vsiRNAs數(shù)據(jù)庫。例如,2019年Kumar等人開發(fā)了PVsiRNAdb數(shù)據(jù)庫[7]。此外,其他課題組也構(gòu)建了存儲(chǔ)siRNAs和vsiRNAs的數(shù)據(jù)庫,如siRNAdb[8]、VIRsiRNAdb[9]和HIVsirDB[10]?;趘siRNAs數(shù)據(jù)庫的數(shù)據(jù),研究者們也開發(fā)了許多生物信息學(xué)算法來預(yù)測vsiRNAs。盡管現(xiàn)階段植物vsiRNAs數(shù)據(jù)非常豐富,但是用于預(yù)測植物vsiRNAs的工具卻不多。此外,雖然實(shí)驗(yàn)方法能夠準(zhǔn)確地識(shí)別入侵植物的RNAs序列,識(shí)別新的vsiRNAs。然而與計(jì)算方法相比,實(shí)驗(yàn)方法檢測vsiRNAs投入的時(shí)間和人力物力及費(fèi)用成本都很高,往往付出與回報(bào)不成正比,所以現(xiàn)在需要一種可開發(fā)性高的計(jì)算方法來預(yù)測vsiRNAs。

      針對上述問題,我們提出了基于植物vsiRNAs序列組成的PVsiRNAPred-LSTM深度學(xué)習(xí)模型,用于預(yù)測植物vsiRNAs。PVsiRNAPred-LSTM模型的關(guān)鍵部分是LSTM模塊,它可以自動(dòng)學(xué)習(xí)植物vsiRNAs相關(guān)的RNA序列層次表示,降低試驗(yàn)成本,作為為數(shù)不多的生物信息學(xué)算法為發(fā)現(xiàn)新的vsiRNAs和抗病毒植物的研究提供幫助。

      1 數(shù)據(jù)與預(yù)處理

      1.1 數(shù)據(jù)來源

      本文使用的植物vsiRNAs數(shù)據(jù)集來自2019年Kumar等人發(fā)布的PVsiRNAdb數(shù)據(jù)庫[7],構(gòu)造非植物vsiRNAs數(shù)據(jù)集的方法跟本課題組2019年發(fā)表的文章[11]所用方法一致,這里就不再贅述。最終訓(xùn)練數(shù)據(jù)集共包括12570條植物vsiRNAs序列和12570條非植物vsiRNAs序列,如圖1所示。此外,我們采用雙樣本t檢驗(yàn)對陽性數(shù)據(jù)集和陰性數(shù)據(jù)集的長度進(jìn)行分析,兩個(gè)數(shù)據(jù)集的長度分布無統(tǒng)計(jì)性差異(p>005)。兩個(gè)數(shù)據(jù)集的長度分布為17~30個(gè)核苷酸殘基。

      1.2 數(shù)據(jù)預(yù)處理

      本數(shù)據(jù)集內(nèi)序列長度不一致,長度最短為17個(gè)核苷酸殘基,最長為30個(gè)核苷酸殘基。所以,首先將數(shù)據(jù)轉(zhuǎn)換成相同長度的序列,不足30個(gè)核苷酸殘基的序列用“X”補(bǔ)齊,方便后續(xù)采用Embedding進(jìn)行特征編碼。

      2 分析方法

      2.1 特征編碼

      目前,越來越多的研究者采用深度學(xué)習(xí)的方法預(yù)測DNA、RNA和蛋白質(zhì)序列,但是這一過程中的輸入必須是數(shù)值而不能是字符。構(gòu)建一個(gè)實(shí)用性強(qiáng)且準(zhǔn)確率高的測序模型,除了基準(zhǔn)數(shù)據(jù)集可靠之外,還需要選取合適的特征編碼方法,將序列數(shù)據(jù)不失真地轉(zhuǎn)變?yōu)閿?shù)值進(jìn)行表征,這對于描述序列數(shù)據(jù)結(jié)構(gòu)和功能屬性的內(nèi)在關(guān)聯(lián)是非常重要的。在本研究當(dāng)中,我們使用Embedding來進(jìn)行特征編碼,將每條序列轉(zhuǎn)換為一個(gè)5×30的二維向量。

      2.2 分類算法

      長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),它是由Hochreiter & Schmidhuber提出的。LSTM在一定程度上可以更有效地解決信息的長期依賴,從而防止梯度消失或爆炸。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)相比,LSTM在結(jié)構(gòu)上設(shè)計(jì)了循環(huán)體結(jié)構(gòu),它主要使用兩個(gè)門來控制單元狀態(tài)c的內(nèi)容:其中一個(gè)是遺忘門(forget gate),遺忘門決定了上一時(shí)刻的單元狀態(tài)ct-1有多少保留到當(dāng)前時(shí)刻ct;另外一個(gè)是輸入門(input gate),輸入門決定了當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入xt有多少保存到單元狀態(tài)ct。此外,還有一個(gè)輸出門(output gate)來控制單元狀態(tài)ct有多少輸出到LSTM的當(dāng)前輸出值ht。簡單地說,LSTM比普通循環(huán)神經(jīng)網(wǎng)絡(luò)有更好的表現(xiàn)。張永清等人在2018年申請的預(yù)測DNA-蛋白質(zhì)結(jié)合的雙向LSTM和CNN模型專利[12]、Ismalia Bouba等人的IncRNA基因調(diào)控關(guān)系的分析與預(yù)測等都基于LSTM進(jìn)行預(yù)測建模[13]。以上研究結(jié)果表明,LSTM在預(yù)測DNA和蛋白質(zhì)方面擁有廣泛的應(yīng)用前景。

      2.3 PVsiRNAPred-LSTM的設(shè)計(jì)

      PVsiRNAPred-LSTM是一種用于預(yù)測植物病毒衍生的vsiRNAs的深度學(xué)習(xí)架構(gòu),它以RNA序列為輸入,可以自動(dòng)學(xué)習(xí)與植物vsiRNAs相關(guān)的RNA序列層次表示。PVsiRNAPred-LSTM模型使用TensorFlow(https://tensorflow.google.cn/)和Keras(http://keras.io)庫開發(fā)。如圖2所示,PVsiRNAPred-LSTM的工作流程如下:

      (1)嵌入層:Embedding嵌入層將每條序列轉(zhuǎn)換為一個(gè)5×30的二維向量;

      (2)隱藏層:PVsiRNAPred-LSTM有兩個(gè)隱藏層,分別有8和4個(gè)神經(jīng)元,將第一個(gè)隱層的結(jié)果作為下一個(gè)隱層的輸入,應(yīng)用“tanh”非線性函數(shù)為激活函數(shù)進(jìn)行激活;

      (3)PVsiRNAPred-LSTM有一個(gè)全連接的Dense層,其中有兩個(gè)神經(jīng)元,使用“softmax”非線性函數(shù)為激活函數(shù)進(jìn)行激活;

      (4)輸出層:最后輸出層對植物vsiRNAs進(jìn)行預(yù)測。

      2.4 模型評(píng)價(jià)

      在本文中,為了防止模型過擬合,我們采用五折交叉檢驗(yàn)評(píng)估PVsiRNAPred-LSTM的預(yù)測性能。為了量化預(yù)測模型的性能,我們使用了六種常見的評(píng)估指標(biāo),包括靈敏度(Sensitivity,Sn)、精確度(Precision,Pr)、F1值、特異性(Specificity,Sp)、準(zhǔn)確度(Accuracy,Acc)和馬氏相關(guān)系數(shù)(MCC)。這些指標(biāo)的計(jì)算公式如下:

      在上述公式中,TP表示正確預(yù)測的植物vsiRNAs的數(shù)量,TN代表正確預(yù)測的非植物vsiRNAs的數(shù)量。FP表示被錯(cuò)誤預(yù)測為植物vsiRNAs的非植物vsiRNAs數(shù)量,F(xiàn)N代表被錯(cuò)誤預(yù)測為非植物vsiRNAs的植物vsiRNAs的數(shù)量。除此之外,我們也繪制了模型的受試者操作特征曲線(receiver operating characteristic curve,簡稱ROC曲線),同時(shí)計(jì)算了該曲線下的面積(area under the ROC,AUCROC),進(jìn)一步采用AUCROC來評(píng)估模型的預(yù)測效果。

      3 實(shí)驗(yàn)結(jié)果

      3.1 PVsiRNAPred-LSTM模型預(yù)測結(jié)果

      PVsiRNAPred-LSTM基于LSTM構(gòu)建,可自動(dòng)學(xué)習(xí)與植物vsiRNAs相關(guān)的RNA序列層次表示,預(yù)測植物vsiRNAs。在評(píng)估模型時(shí),我們使用了五折交叉檢驗(yàn)?;贚STM的模型準(zhǔn)確率為64.38%,靈敏度為66.44%,精確度為60.51%,F(xiàn)1值為0.64,特異性為56.63%,馬氏相關(guān)系數(shù)為0.23。如圖2所示,PVsiRNAPred-LSTM的AUCROC為0.67。以上結(jié)果表明PVsiRNAPred-LSTM具有良好的預(yù)測效果。

      3.2 與其他傳統(tǒng)機(jī)器學(xué)習(xí)模型的比較

      我們還采用iLearnplus軟件中的幾種機(jī)器學(xué)習(xí)算法來對本數(shù)據(jù)集進(jìn)行預(yù)測,包括隨機(jī)森林(RF)、K-最鄰近(KNN)、決策樹(DecisionTree)、lightGBM和支持向量機(jī)(SVM)。選取累積核苷酸頻率(Accumulated Nucleotide Frequency,ANF)進(jìn)行特征提取。其中,ANF特征表示核苷酸密度和RNA片段中每個(gè)核苷酸的分布。然后,使用五折交叉檢驗(yàn)對訓(xùn)練的模型進(jìn)行評(píng)估。如下表所示,PVsiRNAPred-LSTM分別比基于RF、KNN、DecisionTree、lightGBM和SVM的預(yù)測模型準(zhǔn)確率高12.33%、14.3%、13.78%、11.97%和13.33%。綜上所述,在基于PVsiRNAdb數(shù)據(jù)集的植物vsiRNAs的預(yù)測當(dāng)中,深度學(xué)習(xí)模型要優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。

      4 討論

      PVsiRNAPred-LSTM的預(yù)測性能并不令人滿意。眾所周知,深度學(xué)習(xí)算法的預(yù)測性能在極大程度上依賴于訓(xùn)練數(shù)據(jù)集的數(shù)量和質(zhì)量,所以使得模型預(yù)測性能不高的因素可能有以下兩個(gè)方面。第一,用于訓(xùn)練的數(shù)據(jù)集數(shù)量太小。第二,用于訓(xùn)練的數(shù)據(jù)集質(zhì)量不高,這主要體現(xiàn)在數(shù)據(jù)不夠多樣化上。因此,我們認(rèn)為基于LSTM的深度學(xué)習(xí)模型——PVsiRNAPred-LSTM可以在數(shù)量更多并且更多樣化的植物病毒衍生的vsiRNA數(shù)據(jù)集上實(shí)現(xiàn)更高的性能。

      文中基于LSTM的PVsiRNAPred-LSTM的模型性能明顯高于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。該模型的核心是LSTM模塊,它以RNA序列為輸入,可以自動(dòng)學(xué)習(xí)與植物vsiRNA相關(guān)的序列層次表示,最終實(shí)現(xiàn)對于植物vsiRNA的預(yù)測。雖然PVsiRNAPred-LSTM的預(yù)測性能不夠理想。但是,對于本文提到的其他五種基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的分類器來說,該模型的預(yù)測能力還是比較優(yōu)秀的。

      結(jié)語

      植物vsiRNAs的快速識(shí)別為了解植物vsiRNAs的生物發(fā)生和生物學(xué)功能提供重要線索。在這項(xiàng)研究中,我們采用包含12570條植物vsiRNAs和12570條非植物vsiRNAs的基準(zhǔn)數(shù)據(jù)集,利用Embedding函數(shù)將序列轉(zhuǎn)成特征向量,進(jìn)一步建立了基于LSTM的植物vsiRNAs預(yù)測模型PvsiRNAPred-LSTM。此外,我們還發(fā)現(xiàn)PvsiRNAPred-LSTM的五折交叉檢驗(yàn)準(zhǔn)確率分別比基于RF、KNN、DecisionTree、lightGBM和SVM的預(yù)測器準(zhǔn)確率高12.33%、143%、1378%、11.97%和13.33%。PvsiRNAPred-LSTM在五折交叉檢驗(yàn)中取得的準(zhǔn)確率為64.38%,靈敏度為66.44%,精確度為60.51%,F(xiàn)1值為0.64,特異性為5663%,馬氏相關(guān)系數(shù)為0.23,AUCROC為0.67。此結(jié)果表明,深度學(xué)習(xí)方法在一定程度上要優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,能夠更好的預(yù)測植物病毒衍生的vsiRNA,此外深度學(xué)習(xí)方法在生物信息學(xué)領(lǐng)域有著遠(yuǎn)大的前景,可以極大地促進(jìn)生物信息學(xué)領(lǐng)域的發(fā)展。

      參考文獻(xiàn):

      [1]Guo Z,Li Y,Ding SW.Small RNA-based antimicrobial immunity.Nat Rev Immunol,2019,19(1):31-44.

      [2]Zhang C,Wu Z,Li Y,Wu J.Biogenesis,F(xiàn)unction,and Applications of Virus-Derived Small RNAs in Plants.Front Microbiol,2015,6:1237.

      [3]Szittya G,Moxon S,Pantaleo V,Toth G,Rusholme Pilcher RL,Moulton V,et al.Structural and functional analysis of viral siRNAs.PLoS Pathog,2010,6(4):e1000838.

      [4]Li YF,Zheng Y,Jagadeeswaran G,Sunkar R.Characterization of small RNAs and their target genes in wheat seedlings using sequencing-based approaches.Plant Sci.2013;203-204:17-24.

      [5]Miozzi L,Gambino G,Burgyan J,Pantaleo V.Genome-wide identification of viral and host transcripts targeted by viral siRNAs in Vitis vinifera.Mol Plant Pathol,2013,14(1):30-43.

      [6]陳玲,段續(xù)偉,張曉明,等.植物病毒來源的小干擾RNA及其在果樹病毒研究中的應(yīng)用[J].果樹學(xué)報(bào),2020,37(7):1080-1088.2020.

      [7]Gupta N,Zahra S,Singh A,Kumar S.PVsiRNAdb:a database for plant exclusive virus-derived small interfering RNAs.Database (Oxford),2018,2018.

      [8]Chalk AM,Warfinge RE,Georgii-Hemming P,Sonnhammer EL.siRNAdb:a database of siRNA sequences.Nucleic Acids Res.2005;33(Database issue):D131-4.

      [9]Thakur N,Qureshi A,Kumar M.VIRsiRNAdb:a curated database of experimentally validated viral siRNA/shRNA.Nucleic Acids Res.2012;40(Database issue):D230-6.

      [10]Tyagi A,Ahmed F,Thakur N,Sharma A,Raghava GP,Kumar M.HIVsirDB:a database of HIV inhibiting siRNAs.PLoS One,2011,6(10):e25917.

      [11]He B,Huang J,Chen H.PVsiRNAPred:Prediction of plant exclusive virus-derived small interfering RNAs by deep convolutional neural network.J Bioinform Comput Biol,2019,17(6):1950039.

      [12]張永清,曾圓麟,盧榮釗,等.一種預(yù)測DNA-蛋白質(zhì)結(jié)合的雙向LSTM和CNN模型,2019.

      [13]Bouba I.lncRNA基因調(diào)控關(guān)系的分析與預(yù)測[D].大連理工大學(xué),2019.

      [14]Chen Z,Zhao P,Li C,Li F,Xiang D,Chen YZ,et al.iLearnPlus:a comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis,prediction and visualization.Nucleic Acids Res,2021,49(10):e60.

      作者簡介:李博文(1998— ),男,漢族,山東濟(jì)南人,碩士,研究方向:醫(yī)學(xué)信息工程。

      *通訊作者:賀碧芳。

      猜你喜歡
      核苷酸準(zhǔn)確率神經(jīng)網(wǎng)絡(luò)
      單核苷酸多態(tài)性與中醫(yī)證候相關(guān)性研究進(jìn)展
      徐長風(fēng):核苷酸類似物的副作用
      肝博士(2022年3期)2022-06-30 02:48:28
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      Acknowledgment to reviewers—November 2018 to September 2019
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      新竹县| 板桥市| 盐城市| 横峰县| 苍溪县| 楚雄市| 大同县| 霍城县| 东城区| 宝坻区| 贡山| 和硕县| 漾濞| 镇安县| 格尔木市| 喀喇| 阳信县| 无极县| 金平| 方城县| 定西市| 绩溪县| 康定县| 潼南县| 莫力| 游戏| 苗栗市| 黄浦区| 临湘市| 平舆县| 宜城市| 亳州市| 外汇| 射阳县| 巨野县| 兴文县| 敖汉旗| 兰西县| 江油市| 萨嘎县| 普兰店市|