• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于神經(jīng)網(wǎng)絡(luò)的LncRNA 與蛋白質(zhì)互作關(guān)系預(yù)測(cè)算法*

    2022-04-07 03:43:00李巧君李江岱王愛菊
    關(guān)鍵詞:編碼器蛋白質(zhì)矩陣

    李巧君 李江岱 王愛菊

    (1.河南工業(yè)職業(yè)技術(shù)學(xué)院電子信息工程學(xué)院 南陽 473000)(2.鄭州工程技術(shù)學(xué)院信息工程學(xué)院 鄭州 450000)

    1 引言

    長(zhǎng)鏈非編碼RNA(Long non-coding RNA,LncRNA)是一種不具有顯著開放性讀碼框而長(zhǎng)度大于200 個(gè)核苷酸的非編碼功能細(xì)胞內(nèi)源性RNA[1]。與信使RNA(mRNA)相比,由于LncRNA 拼接效率較低常被認(rèn)為是轉(zhuǎn)錄噪聲,然而,實(shí)驗(yàn)證明LncRNA 在植物的發(fā)育、激素依賴性信號(hào)傳導(dǎo)和脅迫反應(yīng)中具有不可或缺的作用[2],特別是LncRNA 與蛋白相互作用與基因表達(dá)調(diào)控和植物抗病等細(xì)胞過程有關(guān)。LncRNA 均是通過與相應(yīng)的RNA 結(jié)合蛋白的相互作用而發(fā)揮作用的,RNA 結(jié)合蛋白也可以與不同的LncRNA 相互作用,調(diào)節(jié)不同的細(xì)胞過程[3]。因此,識(shí)別潛在的LncRNA 與蛋白質(zhì)相互作用對(duì)于理解LncRNA功能至關(guān)重要。

    目前,對(duì)于LncRNA 和蛋白質(zhì)相互調(diào)控機(jī)制的研究大多集中在動(dòng)物和人類癌癥方面,在植物中還沒有廣泛的研究,為深入探索LncRNA 和蛋白質(zhì)的相互作用,本文借鑒PLRPIM[4]方法,使用K-mer 和One-hot 分別提取LncRNA 和蛋白質(zhì)的數(shù)字向量,利用棧式自編碼器(Autoencoder,AE)[5]和融合神經(jīng)網(wǎng)絡(luò)分別提取特征向量,對(duì)特征向量進(jìn)行點(diǎn)乘方法形成整體特征的融合矩陣,最后通過訓(xùn)練以整體特征為輸入并且融合了注意力機(jī)制[6]的深層網(wǎng)絡(luò)結(jié)構(gòu),獲得了具有期望功能的預(yù)測(cè)模型。該模型結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(ConvoLutionaL NeuraL Networks,CNN)[7]和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[8]的不同優(yōu)勢(shì),充分獲得具有時(shí)間依賴和參數(shù)共享特點(diǎn)的更加高級(jí)的特征,實(shí)現(xiàn)了對(duì)LncRNA和蛋白質(zhì)互作關(guān)系的關(guān)聯(lián)預(yù)測(cè)。通過以玉米和擬南芥為樣本的試驗(yàn),可以看出本方法具有較為穩(wěn)定且良好的表現(xiàn)。

    2 相關(guān)工作

    預(yù)測(cè)LncRNA與蛋白質(zhì)的相互作用研究一般分為實(shí)驗(yàn)法和計(jì)算預(yù)測(cè)兩種方法。2015年Marinbejar和Huarte 提出RNA 下拉法(RNA-puLLdown)[9],2016 年GagLiardi 和Matarazzo 提出RNA 結(jié) 合蛋 白免疫共沉淀技術(shù)(RIP)[10]等,這些均是通過實(shí)驗(yàn)方法獲取相互作用,傳統(tǒng)的濕實(shí)驗(yàn)方法不僅耗時(shí)費(fèi)力,在實(shí)驗(yàn)過程中僅有少量的LncRNA 與蛋白質(zhì)相互作用關(guān)系被證實(shí),所以使用計(jì)算預(yù)測(cè)的方法來作為L(zhǎng)ncRNA-蛋白質(zhì)互作研究的補(bǔ)充機(jī)制顯得尤為重要。

    深度學(xué)習(xí)(Deep Learning,DL)方法已被研究人員廣泛應(yīng)用于人類和植物疾病中的分子機(jī)制[11]。2011 年,MuppiraLa 等提出了一種名為RPISeq 的方法,該方法提取了3-mer 和4-mer 序列特征來訓(xùn)練RF和SVM模型,用于預(yù)測(cè)蛋白質(zhì)-RNA相互作用[12]。2013年,王等基于樸素貝葉斯(NB)和擴(kuò)展的NB分類器,提出了一種預(yù)測(cè)蛋白質(zhì)和RNA 之間相互作用的模型[13]。2016 年,Pan 等開發(fā)了一種基于序列的方法IPMiner,基于堆疊式自動(dòng)編碼器預(yù)測(cè)LncRNA-蛋白質(zhì)相互作用[14]。2018 年Yi等提出了基于堆疊式自動(dòng)編碼器和RF 的RPI-SAN 用于LncRNA-蛋白質(zhì)相互作用的方法[15],同年,Hu 等提出了一種新的工具HLPI-EnsembLe,該工具基于SVM、極端梯度增強(qiáng)(XGB)和RF 來預(yù)測(cè)人類LncRNA-蛋白質(zhì)相互作用[16]。

    以上的方法均與序列的生物學(xué)或理化性質(zhì)有關(guān),但是通常不同物種中的生物性質(zhì)和特點(diǎn)會(huì)有所不同,因此,利用生物特性作為特征用于預(yù)測(cè)是蛋白質(zhì)和LncRNA 否具有關(guān)聯(lián)性的方法可能在不同物種中的性能會(huì)有較大差異,所以尋找一個(gè)以大部分物種共性為特征的新方法,可能有助于預(yù)測(cè)模型獲得更好的泛化性能。本文提出了一種基于學(xué)習(xí)的混合方法,使用融合神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)LncRNA 和蛋白質(zhì)關(guān)聯(lián)作用,稱為PIPAFNN,在擬南芥和玉米兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法優(yōu)于RPISeq-RF、RPI-SAN和IPMiner方法。

    3 數(shù)據(jù)預(yù)處理

    3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

    本模型在Python 3.7.3 環(huán)境下利用Keras 2.3.1實(shí)現(xiàn),選取擬南芥和玉米的LncRNA 及其結(jié)合蛋白質(zhì)的序列數(shù)據(jù)作為樣本數(shù)據(jù)集。數(shù)據(jù)集源自植物L(fēng)ncRNA 數(shù)據(jù)庫(kù)(PLncRNADB),網(wǎng)站:http://bis.zju.edu.cn/PLncRNADB。擬南芥擁有390 個(gè)LncRNA和163 個(gè)RNA 結(jié)合蛋白,包含948 個(gè)陽性樣本(互動(dòng)對(duì)),玉米擁有1107 個(gè)LncRNA 和190 個(gè)RNA 結(jié)合蛋白,包含22,133 個(gè)陽性樣本。通過將蛋白質(zhì)與LncRNA 隨機(jī)配對(duì)并進(jìn)一步去除現(xiàn)有的陽性對(duì),擬南芥包含2867 個(gè)陰性樣本,玉米包含24361 個(gè)陰性樣本。

    表1 擬南芥和玉米樣本數(shù)據(jù)集統(tǒng)計(jì)

    3.2 數(shù)據(jù)預(yù)處理及特征編碼

    1)K-mer 矩陣

    特征是LncRNA 和蛋白質(zhì)的基于序列的整合屬性,這些屬性編碼為用于預(yù)測(cè)的數(shù)字載體。本文選擇k-mer 模型從LncRNA 和蛋白質(zhì)中提取特征,其中遺傳序列子集S的長(zhǎng)度用一個(gè)整數(shù)k表示。為了獲得高效的特征,我們從由LncRNAs 和蛋白質(zhì)的各種性質(zhì)編碼的特征向量中提取了一組599 個(gè)描述子。從LncRNA 序列中共獲得256 個(gè)特征,從蛋白質(zhì)序列中獲得343個(gè)氨基酸描述符。

    我們通過從左到右搜索每個(gè)序列提取RNA 序列(A,C,G,T)的4聚體稀疏矩陣,得到256(4×4×4×4)特征圖。對(duì)于蛋白質(zhì)序列,我們根據(jù)它們的化學(xué)相似性來劃分氨基酸組成。根據(jù)偶極矩(<1.0,<1.0,(1.0,2.0),(2.0,3.0),>3.0,>3.0,and<1.0)和鏈體積(<50,>50,>50,>50,>50,>50,>50,>50和<50)對(duì)蛋白質(zhì)序列的7 組物理化學(xué)性質(zhì){VaL,GLy,ALa},{Phe,Pro,Leu,ILe},{Ser,Tyr,Met,Thr},{His,Asn,Tpr,GLn},{Arg,Lys},{GLu,Asp}和{Cys}進(jìn)行編號(hào),提取3聚體標(biāo)記,形成343個(gè)(7×7×7)稀疏矩陣特征圖。

    2)One-hot 編碼

    本文除K-mer 矩陣外,還使用One-hot 方法來獲取序列的可計(jì)算特征。One-hot 就是每個(gè)位點(diǎn)只具有一個(gè)熱點(diǎn)的信息提取方法。本文的每個(gè)LncRNA 和蛋白質(zhì)樣本數(shù)據(jù),在One-hot 編碼后可分別得到大小為4 × L 和20 × L 的特征矩陣。由于相互作用的LncRNA 和蛋白質(zhì)片段均為不定長(zhǎng)的序列,這給后續(xù)的模型計(jì)算和預(yù)測(cè)研究造成了很大阻力,我們通過利用K-mer 和One-hot 補(bǔ)0 的方法對(duì)序列文本信息進(jìn)行編碼,即可將變長(zhǎng)的序列轉(zhuǎn)化為定長(zhǎng)的特征矩陣,以便輸入到后續(xù)的特征提取和模型學(xué)習(xí)。

    4 PIPAFNN模型

    本文提出的PIPAFNN 模型由特征提取、特征融合、注意力機(jī)制和評(píng)分預(yù)測(cè)四個(gè)階段組成。模型的整體結(jié)構(gòu)如圖1所示。

    圖1 模型整體結(jié)構(gòu)圖

    4.1 特征提取階段

    本文使用棧式自編碼器和融合神經(jīng)網(wǎng)絡(luò)分別對(duì)兩種特征向量進(jìn)行特征提取。我們采用單層棧式自編碼器將LncRNA 和蛋白質(zhì)由K-mer 特征編碼得到的稀疏矩陣進(jìn)行壓縮,得到大小為32 維的特征矩陣。為了便于區(qū)分,此處將壓縮LncRNA 得到的特征矩陣記為θu,而對(duì)于蛋白質(zhì)得到的特征矩陣記為φi。其中θu代表樣本中第u 條LncRNA 的自編碼器特征矩陣,φi代表樣本中第i 條蛋白質(zhì)經(jīng)自編碼器提取出的特征矩陣。

    本文運(yùn)用CNN-LSTM 融合神經(jīng)網(wǎng)絡(luò)對(duì)經(jīng)過One-hot 處理的特征矩陣進(jìn)行特征提取,結(jié)合CNN和LSTM 的不同優(yōu)勢(shì),獲得具有時(shí)間依賴和參數(shù)共享特點(diǎn)的更加高級(jí)的特征。在模型中,對(duì)LncRNA用大小為3×3,步長(zhǎng)為1 的卷積核進(jìn)行卷積,并用最大池化對(duì)數(shù)據(jù)降維,一共經(jīng)過三次卷積層和池化層交替得到更加顯著的深層信息,并且在經(jīng)過展開后接入到到LSTM 層中,進(jìn)行以ReLU 為激活函數(shù)的更加精確學(xué)習(xí),最后再加入全連接層將其展開為32 維,以對(duì)應(yīng)用自編碼器提取出的特征大小,便于后續(xù)的特征融合。對(duì)于蛋白質(zhì)也采用同樣的流程,有所不同的是蛋白質(zhì)中對(duì)應(yīng)的卷積核大小為5×5。

    4.2 特征融合階段

    特征融合部分將嵌入的特征和基于回顧的特征進(jìn)行融合,以便更好地進(jìn)行表征學(xué)習(xí)。在以往的研究中,將基于評(píng)分和基于評(píng)論的特征相結(jié)合的策略被廣泛采用來提高推薦性能。加法融合方法已經(jīng)在RBLT 和ITLFM 中得到應(yīng)用,為了獲取更佳的預(yù)測(cè)效果,我們?cè)诩臃ㄈ诤现笾苯犹砑右粋€(gè)全連接神經(jīng)層,全連接層采用非線性ReLU 激活函數(shù)。在實(shí)驗(yàn)過程中,我們發(fā)現(xiàn)附加層可以有效地提高性能。

    在經(jīng)過兩種不同的管道分別對(duì)LncRNA 和蛋白進(jìn)行特征提取后,它們均得到兩個(gè)類別的特征。分別將兩者的兩個(gè)特征進(jìn)行融合,得到LncRNA 的整體特征pu以及蛋白質(zhì)的組合特征qi,pu代表第u個(gè)LncRNA 樣本的特征矩陣,qi代表第i 個(gè)蛋白質(zhì)樣本的特征矩陣。最后再將LncRNA 和蛋白質(zhì)的特征矩陣都結(jié)合起來,形成一個(gè)總體的樣本特征矩陣。

    4.3 注意力機(jī)制階段

    Mnih 等在2014 年提出了注意力機(jī)制,以觀察使用者在其關(guān)注項(xiàng)目中更加注重的特征,同時(shí)對(duì)關(guān)注度有所差異的屬性賦予不同的關(guān)注向量。

    本文將注意力機(jī)制應(yīng)用于LncRNA 與蛋白質(zhì)互作的預(yù)測(cè)模型中,通過將在歷史學(xué)習(xí)中得到的信息添加到模型里,以識(shí)別在預(yù)測(cè)中對(duì)于不同樣本具有突出貢獻(xiàn)的特征空間中的不同主要屬性,并對(duì)其賦予不同的關(guān)注度,形成具有特征偏好的模型,獲得更優(yōu)的預(yù)測(cè)效果。注意向量是在將自編碼器得到的LncRNA 和蛋白質(zhì)特征加上融合后的特征矩陣作為注意向量的輸入后,經(jīng)過權(quán)重和偏置運(yùn)算,在經(jīng)過激活層后被賦予輸出權(quán)重得到的,詳見式(1)。其中au,i即為期望的注意向量,θu、φi、pu、qi四者的聯(lián)合向量是輸入層的輸入,Wa為輸入層的權(quán)重矩陣,ba則為偏置向量,激活函數(shù)為ReLU,vT為輸出權(quán)重。而含有棧式自編碼器特征和含有歷史信息的CNN-LSTM 提取特征的樣本融合特征矩陣也作為感知器的輸入,將學(xué)習(xí)到的注意力加權(quán)到樣本的特征屬性中去,最終得到模型的預(yù)測(cè)打分,見式(2)。F 為互作特征,由注意向量點(diǎn)乘對(duì)應(yīng)樣本的LncRNA 和蛋白質(zhì)融合特征向量得到。

    4.4 評(píng)分預(yù)測(cè)階段

    評(píng)分預(yù)測(cè)部分本質(zhì)上是一個(gè)多層感知機(jī)(MuLti-Layer Perceptorn,MLP)。該部分將得到的交互特征向量F按如下方式饋入全連接層。

    L為隱藏層數(shù),WL,bL和σL分別是第L層的權(quán)值矩陣、偏置向量和激活函數(shù)。我們對(duì)所有層采用ReLU激活函數(shù)。預(yù)測(cè)等級(jí)r?u,i通過回歸層得到。

    其中W和b分別為權(quán)值矩陣和偏差向量。

    4.5 模型實(shí)現(xiàn)

    PIPAFNN 模型首先將K-mer 的向量矩陣輸入到棧式自編碼器中進(jìn)行特征提取,獲得一個(gè)大小為32 維的特征矩陣,而One-hot 矩陣則運(yùn)用CNN-LSTM 融合神經(jīng)網(wǎng)絡(luò)來獲得特征向量,對(duì)LncRNA 用大小為3 × 3,步長(zhǎng)為1 的卷積核進(jìn)行卷積,經(jīng)過3 次卷積層和池化層交替得到更加顯著的深層信息,展開后接入到LSTM 層中,進(jìn)行以ReLU為激活函數(shù)的更加精確學(xué)習(xí),再加入全連接層將其展開為32 維,對(duì)蛋白質(zhì)設(shè)置卷積核大小為5 × 5。將LncRNA 和蛋白質(zhì)分別通過兩個(gè)途徑獲得的特征進(jìn)行融合,經(jīng)過ReLU激活層后,把LncRNA 和蛋白質(zhì)的特征向量進(jìn)行點(diǎn)乘,得到一個(gè)包含LncRNA和蛋白質(zhì)整體特征的融合矩陣,最后通過訓(xùn)練以整體特征為輸入且融合注意力機(jī)制的深層網(wǎng)絡(luò)結(jié)構(gòu),獲得具有期望功能的預(yù)測(cè)模型。

    5 結(jié)果分析及對(duì)比

    為了驗(yàn)證模型預(yù)測(cè)的結(jié)果是否準(zhǔn)確可靠,本算法運(yùn)用五折交叉驗(yàn)證方法:通過隨機(jī)函數(shù)得到互不相交的5 個(gè)子數(shù)據(jù)集,將其中4 個(gè)子集用于模型訓(xùn)練,而剩余未用于訓(xùn)練的一個(gè)集合,即為常說的測(cè)試集,用于預(yù)測(cè)模型的運(yùn)行結(jié)果,此過程重復(fù)五次,最終得到五次驗(yàn)證結(jié)果的平均值,即可視為是較為穩(wěn)定且可靠的評(píng)估數(shù)據(jù)。通過多次重復(fù)實(shí)驗(yàn),模型對(duì)擬南芥和玉米正負(fù)樣本比按照1∶1 的比例進(jìn)行實(shí)驗(yàn)并得到相應(yīng)結(jié)果,選取準(zhǔn)確率(ACC)、精確率(PRE)、召回率(RecaLL)、特效度(SPE)、接受者操作特征曲線(ROC)下的面積(AUC)作為評(píng)價(jià)指標(biāo)。

    我們將PIPAFNN 模型與另外三種基于序列的計(jì)算模型RPISeq-RF,RPI-SAN 和IPMiner 進(jìn)行比較,比較各種模型在準(zhǔn)確率、精確率、召回率、特效度和AUC 方面的表現(xiàn),見表2。在準(zhǔn)確率方面,PIPLPFNN 表現(xiàn)較好,對(duì)兩種植物的準(zhǔn)確率分別為91.61%和85.72%。如圖2(a)所示,擬南芥在PIPLPFNN,IPMiner,RPISeq-RF 和RPI-SAN 的AUC 值分別為0.9582,0.8823,0.8761 和0.8164。對(duì)于玉米數(shù)據(jù)集,AUC 值分別為0.9251,0.9034,0.8980和0.8792,如圖2(b)所示。

    圖2 不同方法在擬南芥和玉米數(shù)據(jù)集上的ROC曲線

    通過利用稀疏約束的性能優(yōu)勢(shì),PIPAFNN 模型學(xué)習(xí)了最豐富的序列特征信息。在表2 中,本方法在擬南芥和玉米數(shù)據(jù)集的準(zhǔn)確率、精確率、召回率、特效度和曲線下面積(AUC)方面都優(yōu)于其他方法。

    表2 其他方法和PIPAFNN方法的預(yù)測(cè)性能(%)

    圖2(a)顯示本方法在擬南芥數(shù)據(jù)集上的AUC方面有更好的性能,與其他方法相比,AUC 提升了7%。圖2(b)顯示我們的方法在玉米數(shù)據(jù)集上AUC方面具有更好的性能,與其他方法相比,該方法的AUC提高了2%,表明模型的分類效果十分顯著。

    6 結(jié)語

    本文提出了一種預(yù)測(cè)LncRNA 和蛋白質(zhì)相互作用的新方法PIPAFNN,該方法利用CNN-LSTM融合神經(jīng)網(wǎng)絡(luò)應(yīng)用于特征提取,將注意力機(jī)制應(yīng)用于模型預(yù)測(cè),提升了模型的學(xué)習(xí)性能,與其他方法相比,預(yù)測(cè)性能得到明顯提升。通過充分利用多個(gè)分類器,該方法對(duì)基于基因組序列的LncRNA-蛋白質(zhì)相互作用預(yù)測(cè)具有很高的成功率。但是,該方法仍有一些潛在的限制需要解決,首先,由于已知LncRNA-蛋白質(zhì)互作關(guān)系稀疏,因此不同物種的植物L(fēng)ncRNA 相關(guān)蛋白的研究程度受到限制;其次,數(shù)據(jù)集數(shù)據(jù)的偏差可能會(huì)影響植物中LncRNA 與蛋白質(zhì)之間相互作用概率的測(cè)量,因此,掌握具有更多經(jīng)過實(shí)驗(yàn)驗(yàn)證的數(shù)據(jù)源會(huì)進(jìn)一步提高模型性能。

    猜你喜歡
    編碼器蛋白質(zhì)矩陣
    蛋白質(zhì)自由
    肝博士(2022年3期)2022-06-30 02:48:48
    人工智能與蛋白質(zhì)結(jié)構(gòu)
    海外星云(2021年9期)2021-10-14 07:26:10
    基于FPGA的同步機(jī)軸角編碼器
    基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
    蛋白質(zhì)計(jì)算問題歸納
    初等行變換與初等列變換并用求逆矩陣
    JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
    電子器件(2015年5期)2015-12-29 08:42:24
    矩陣
    南都周刊(2015年4期)2015-09-10 07:22:44
    矩陣
    南都周刊(2015年3期)2015-09-10 07:22:44
    矩陣
    南都周刊(2015年1期)2015-09-10 07:22:44
    隆子县| 左云县| 临夏市| 遂川县| 龙南县| 东方市| 德江县| 涿州市| 潞西市| 巫溪县| 祥云县| 青田县| 丹江口市| 筠连县| 铜梁县| 青阳县| 四子王旗| 东乡| 舟山市| 扶沟县| 宁德市| 哈密市| 西乌珠穆沁旗| 尚义县| 灵川县| 霍城县| 新龙县| 板桥市| 大新县| 广西| 九江县| 开江县| 钟山县| 阿巴嘎旗| 驻马店市| 贵阳市| 绥阳县| 连山| 鹤岗市| 五河县| 赤城县|