• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合多機(jī)器學(xué)習(xí)方法的siRNA在線設(shè)計系統(tǒng)

    2015-12-12 08:38:50璿,張法,陳
    燕山大學(xué)學(xué)報 2015年5期
    關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)有效性軟件

    王 璿,張 法,陳 偉

    (1.燕山大學(xué)信息科學(xué)與工程學(xué)院,河北秦皇島066004;2.中國科學(xué)院計算技術(shù)研究所,北京100083;3.中國環(huán)境管理干部學(xué)院信息工程系,河北秦皇島066102)

    融合多機(jī)器學(xué)習(xí)方法的siRNA在線設(shè)計系統(tǒng)

    王 璿1,?,張 法2,陳 偉1,3

    (1.燕山大學(xué)信息科學(xué)與工程學(xué)院,河北秦皇島066004;2.中國科學(xué)院計算技術(shù)研究所,北京100083;3.中國環(huán)境管理干部學(xué)院信息工程系,河北秦皇島066102)

    siRNA設(shè)計是RNAi研究中的一個重要部分。由于靶向基因可分割成數(shù)以千計的候選siRNA,找到其中最有效的siRNA具有一定的挑戰(zhàn)性。本文融合特征分析研究成果和多機(jī)器學(xué)習(xí)方法,設(shè)計并實現(xiàn)了一個siRNA在線設(shè)計系統(tǒng)。將目標(biāo)RNA的二級結(jié)構(gòu)作為影響siRNA干擾效率的評分因素,以挑選靶向合適位置的siRNA序列。對于給定的目標(biāo)基因,系統(tǒng)經(jīng)過設(shè)計得出若干高效siRNA序列的沉默效率及其相關(guān)信息。實驗測試結(jié)果表明,本系統(tǒng)具有較高的siRNA有效性預(yù)測精度。

    siRNA;有效性預(yù)測;機(jī)器學(xué)習(xí)方法;在線設(shè)計

    0 引言

    RNA干擾(RNA interference,RNAi)是生物進(jìn)化過程中,由雙鏈RNA(Double?stranded RNA,dsR?NA)誘發(fā),使得同源mRNA特異性降解,轉(zhuǎn)錄后水平的基因沉默現(xiàn)象[1]。由于采用RNAi技術(shù)能迅速阻斷特定基因表達(dá),該方法廣泛應(yīng)用于基因功能分析、藥物靶標(biāo)發(fā)現(xiàn)、傳染病防治及抗腫瘤研究等領(lǐng)域[2-3]。從作用機(jī)制上分析,長的dsRNA通常被切割成19~23 nt的干擾性小RNA(Short interfering RNA,siRNA),由經(jīng)過設(shè)計的 siRNA識別靶向mRNA從而導(dǎo)致特定基因沉默[4?5]。針對靶基因不同點位設(shè)計的siRNA差別很大,因此有效的siRNA的選取是RNAi是否發(fā)揮效用的關(guān)鍵因素。

    隨著siRNA技術(shù)的深入研究,國內(nèi)外陸續(xù)推出一些免費的siRNA設(shè)計軟件。BIOPREDsi[6]是將機(jī)器學(xué)習(xí)方法引入到siRNA設(shè)計中的軟件。它采用神經(jīng)網(wǎng)絡(luò)進(jìn)行有效的siRNA預(yù)測,其沉默效率用0~1之間的小數(shù)表示。siDRM[7]用DRM算法對與siRNA有效性相關(guān)的特征進(jìn)行合并和重組,最終得到一組規(guī)則集。SiDirect 2.0[8]將高TM值、轉(zhuǎn)錄過程中產(chǎn)生的移位等產(chǎn)生脫靶效應(yīng)因素考慮到 siRNA設(shè)計中,設(shè)計出減少脫靶效應(yīng)的siRNA序列。這 3個軟件共同缺點是沒有將siRNA分子及目標(biāo)mRNA靶點的二級結(jié)構(gòu)引入siRNA有效性設(shè)計的過程。siRNA[9]是Sfold軟件中進(jìn)行siRNA設(shè)計的一個功能模塊,提供RNA二級結(jié)構(gòu)預(yù)測功能,但是缺乏特異性檢查。并且由于二級結(jié)構(gòu)特征的計算耗時,軟件限制目標(biāo)基因序列長度。麻省理工學(xué)院的Whitehead[10]能夠選擇21nt的siRNA來阻斷特定目標(biāo)基因的表達(dá)。Dharmacon公司開發(fā)的siRNA設(shè)計軟件采用SM?ARTpool[11]形式提供,將4條由SMARTselection技術(shù)設(shè)計的siRNA按比例混合,確保對任何人、小鼠和大鼠3個物種已知基因有高效沉默性。雖然混合siRNA提高了實驗的成功率,但混合siRNA使得無法了解到底哪個siRNA真正有效,同時混合siRNA有引發(fā)副反應(yīng)的可能且難以排除。siRNA Pro2.0[12]是華南理工大學(xué)設(shè)計的在線分析軟件,規(guī)則設(shè)計中增加了經(jīng)驗、理性等綜合因素,以提高siRNA預(yù)測準(zhǔn)確性。

    綜合考慮已有的siRNA有效性設(shè)計方法,設(shè)計并開發(fā)了一個siRNA在線軟件(siRNA Online)。用戶可輸入基因訪問標(biāo)識符或基因序列,經(jīng)過設(shè)計分析獲得多個高效的、特異的siRNA候選序列。該系統(tǒng)在有效性評分規(guī)則中考慮了mRNA二級結(jié)構(gòu)信息,并采用融合BP神經(jīng)網(wǎng)絡(luò)和SVM多種機(jī)器學(xué)習(xí)方法實現(xiàn)評分,提高了有效性預(yù)測的準(zhǔn)確性。

    1 在線設(shè)計系統(tǒng)工作流程

    siRNA在線分析系統(tǒng)根據(jù)用戶輸入的基因信息來設(shè)計有效的siRNA。用戶可選3種輸入形式:Accession訪問標(biāo)識符,GI訪問標(biāo)識符,mRNA序列。選擇相關(guān)設(shè)計選項后系統(tǒng)進(jìn)入設(shè)計階段,如是否限定siRNA的起始序列;Blast等級選擇等。設(shè)計結(jié)束后顯示結(jié)果,也可保存或查詢歷史的設(shè)計記錄。

    siRNA設(shè)計階段是系統(tǒng)的核心功能,設(shè)計流程如圖1所示。首先從堿基、序列和自由能三方面入手,針對siRNA的19個堿基位制定各自位置的打分規(guī)則。剔除含有有害規(guī)則的siRNA序列,并提取靶標(biāo)mRNA的二級結(jié)構(gòu)信息,以挑選位于環(huán)區(qū)域效率高的 siRNA候選序列。其次,利用SVM特性篩選以及BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練出較高精度的預(yù)測模型進(jìn)行siRNA序列的有效性選擇。采用BLAST將選擇結(jié)果與非同源mRNA進(jìn)行比對,完成特異性分析。最后,獲得多個高效的、特異的siRNA候選序列。

    2 系統(tǒng)關(guān)鍵技術(shù)

    2.1 二級結(jié)構(gòu)預(yù)測

    目前mRNA二級結(jié)構(gòu)預(yù)測分為基于序列比較和能量最小化兩種方法。前者通過多重序列比對,根據(jù)相似序列具有相似結(jié)構(gòu)的原理實現(xiàn)二級結(jié)構(gòu)預(yù)測。后者通過能量優(yōu)化或分析動力學(xué)計算評價所有可能配對的能量,以搜索具有最小能量的穩(wěn)定結(jié)構(gòu)。Zuker開發(fā)的MFold采用最近鄰能量規(guī)則計算一個結(jié)構(gòu)的能量[13]。其原理是考慮到環(huán)區(qū)內(nèi)所有堿基均存在相互作用的可能,因此計算環(huán)區(qū)內(nèi)所有堿基對的能量。本系統(tǒng)采用MFold實現(xiàn)二級結(jié)構(gòu)預(yù)測。確定目標(biāo)mRNA的單鏈環(huán)環(huán)區(qū),根據(jù)mFold輸出的mRNA的各堿基間配對情況,計算19nt的siRNA結(jié)合區(qū)域中未配對堿基的百分比,從而確定最佳的靶向位置,選擇合適位置的siRNA序列。

    圖1 siRNA設(shè)計階段工作流程Fig.1 Workflow of siRNA design phase

    2.2 特征分析

    為保證設(shè)計結(jié)果的應(yīng)用普遍性和設(shè)計規(guī)則的合理性,在前期工作中搜集和整理了3個siRNA數(shù)據(jù)集中的有效數(shù)據(jù),如表1所示。通過統(tǒng)計學(xué)分析的方法進(jìn)行了特征提?。?4]。

    表1 siRNA數(shù)據(jù)集Tab.1 siRNA dataset

    特征提取的具體方案為:1)SR和FR數(shù)據(jù)集分別劃分為兩個部分,作為特征分析集和內(nèi)部測試集。由于SG與特征分析集來自不同的源數(shù)據(jù)集,SG作為外部測試集。2)由于SG數(shù)據(jù)集中的數(shù)據(jù)是靶向一個基因的所有可能的siRNA,沒有經(jīng)過挑選和設(shè)計,能夠反映自然狀態(tài)下siRNA沉默效率的整體分布規(guī)律。經(jīng)統(tǒng)計分析得知其整體分布近似于正態(tài)分布,按此規(guī)律從SR和FR中隨機(jī)抽取特征分析集的樣本數(shù)據(jù)。3)采用SPSS11.5作為特征分析工具,SR特征集采用列聯(lián)分析法,F(xiàn)R特征集采用方差分析法,且兩組分析獨立進(jìn)行。分析過程中涉及到與siRNA沉默效率相關(guān)的已知的所有序列特征,例如特定位置的堿基偏好、特征片段、GC含量、siRNA雙鏈穩(wěn)定性差異等。當(dāng)一個特征與siRNA沉默效率相關(guān)的顯著性檢驗水平α≤0.05時,判定它是與siRNA的沉默效率相關(guān)的特征。對比兩組特征得到最終的含有20個特征的相關(guān)特征集,并表示成一組siRNA設(shè)計規(guī)則。4)應(yīng)用設(shè)計規(guī)則在內(nèi)部測試集和外部測試集上對siRNA序列進(jìn)行打分,根據(jù)得分結(jié)果評估該方案的可靠性。

    2.3 BP神經(jīng)網(wǎng)絡(luò)模型

    研究發(fā)現(xiàn),各相關(guān)特征對siRNA有效性的影響各異。BP神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)特性能夠挖掘出各特征上的影響因子,從而給出更準(zhǔn)確的siRNA有效性評分結(jié)果?;讷@取的20個特征,構(gòu)建了三層BP神經(jīng)網(wǎng)絡(luò)模型。采用FR數(shù)據(jù)集作為樣本數(shù)據(jù)集,將反義鏈轉(zhuǎn)換成19nt的正義鏈用于BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。20個特征向量化為20維列向量,每個維度表示 siRNA序列的特征分,作為BP的輸入。模型輸出一個siRNA序列沉默效率,表示為0和1之間的小數(shù)。隱含層節(jié)點數(shù)目設(shè)定為6。利用遺傳算法從初始輸入中挑選適當(dāng)?shù)某踔担瑴p少訓(xùn)練過程的隨機(jī)性。

    為了有效評估BP神經(jīng)網(wǎng)絡(luò)模型,采用十折交叉驗證的方法分別在FR和SG兩個數(shù)據(jù)集上進(jìn)行測試,并對比同等條件下不考慮權(quán)值的線性評分結(jié)果,如表2所示。測試結(jié)果表明,在兩個數(shù)據(jù)集中BP神經(jīng)網(wǎng)絡(luò)的預(yù)測效果好于線性評分結(jié)果。SG數(shù)據(jù)集上的評分結(jié)果略高于FR數(shù)據(jù)集,由于SG數(shù)據(jù)集未參與模型訓(xùn)練,表明系統(tǒng)所設(shè)計模型具有良好的自學(xué)習(xí)能力和一定的泛化能力。

    2.4 SVM學(xué)習(xí)方法

    SVM采用的二次尋優(yōu)的方法得到全局最優(yōu)點,能夠解決神經(jīng)網(wǎng)絡(luò)方法存在的局部極值問題。將SVM應(yīng)用于siRNA有效性預(yù)測,能夠提高結(jié)果的泛化性。利用LIBSVM軟件包構(gòu)建SVM模型,輸入siRNA候選序列,輸出siRNA序列的有效集和無效集。定義沉默效率>50%的為有效siRNA序列,沉默效率<50%的為無效siRNA序列。將SVM模型與 BP神經(jīng)網(wǎng)絡(luò)模型線性組合用于siRNA有效性預(yù)測。首先,SVM將siRNA候選序列劃分為有效和無效兩類。然后,選擇有效候選序列中的siRNA作為BP神經(jīng)網(wǎng)絡(luò)模型的輸入,通過BP模型篩選得到siRNA序列最終評分結(jié)果。

    表2 BP神經(jīng)網(wǎng)絡(luò)模型與線性評分方法比較結(jié)果Tab.2 Comparison of BP neutral network model and linear scored method

    實驗中選取FR數(shù)據(jù)集中800條序列作為訓(xùn)練集,SG數(shù)據(jù)集中400條序列作為測試集,其中有效和無效序列數(shù)各占一半。圖2對比了BP、SVM和SVM+BP 3種方法在兩個數(shù)據(jù)集上測試結(jié)果。其中EP為有效序列的查準(zhǔn)率,ER為有效序列的查全率,NR為無效序列的查全率。計算公式如下:EP=α/(α+γ),ER=α/(α+β),NR=δ/(δ+γ),式中α、β、γ、δ分別代表有效序列被預(yù)測為有效、有效序列被預(yù)測為無效、無效序列被預(yù)測為有效、無效序列被預(yù)測為無效的數(shù)目。由圖2可知,在FR訓(xùn)練集中,SVM+BP方法表現(xiàn)出了接近BP方法良好的學(xué)習(xí)能力。在SG測試集中,SVM+BP表現(xiàn)出了接近SVM的良好的泛化能力。

    圖2 3種機(jī)器學(xué)習(xí)方法的比較Fig.2 Comparison of three machine learning methods

    2.5 BLAST特異性分析

    為避免siRNA與非目標(biāo)基因結(jié)合而產(chǎn)生脫靶效應(yīng),系統(tǒng)從兩個方面來進(jìn)行特異性分析。一方面針對siRNA序列與全基因組數(shù)據(jù)庫內(nèi)的非目標(biāo)基因進(jìn)行比對,剔除匹配過高的 siRNA序列。另一方面針對siRNA的seedregion區(qū)域(2nt~9nt)與非目標(biāo)基因的3’UTR區(qū)域進(jìn)行比對,剔除匹配過高的記錄。經(jīng)過兩次匹配性篩選,有效地降低了siRNA與非目標(biāo)基因結(jié)合的概率,減少了脫靶效應(yīng)。系統(tǒng)中使用BLAST[15]并以mRNA數(shù)據(jù)庫為目標(biāo)數(shù)據(jù)庫進(jìn)行分析比對,并將篩選結(jié)果中的進(jìn)行降序排列,取其中前十位作為最后的輸出記錄。

    3 軟件測試分析

    為了測試siRNA在線設(shè)計系統(tǒng)的設(shè)計效果,與現(xiàn)有的White?head和Dharmacon軟件進(jìn)行了比對。針對P53mRNA,White?head和Dharmacon分別設(shè)計合成 14條,siRNA在線軟件(siRNA Online)設(shè)計合成13條siRNA。用設(shè)計結(jié)果轉(zhuǎn)染Hela細(xì)胞,并提取RNA通過熒光定量Real?time PCR檢測其RNAi效果。3種軟件產(chǎn)生干擾效率如表3所示。

    表3 3種軟件干擾效率的比較Tab.3 The interference efficiency comparison of three softwares

    表3中,ΔCt值表示RNAi實現(xiàn)效果的變量,其值越大則RNAi效果越好。分析各軟件設(shè)計得到的siRNA分子對應(yīng)RNAi實驗得到的平均ΔCt值:White?head(10.93)>Dharmacon(10.81)>siRNA Online(10.68),表明siRNA Online的設(shè)計效果與White?head和Dharmacon軟件設(shè)計效果相當(dāng)。從各軟件產(chǎn)生的有效 siRNA的個數(shù)分析,White?head(4個)>siRNA Online(2個)>Dharmacon(1個),表明siRNA Online系統(tǒng)具有良好的尋找有效siRNA的能力。

    此外,siRNA Online還與siRNA Pro2.0軟件進(jìn)行了比較。數(shù)據(jù)測試采用SR數(shù)據(jù)集。隨機(jī)選取14個目標(biāo)mRNA,針對每個目標(biāo)mRNA,在SR中有多條沉默效率已知的靶向該mRNA的siRNA分子記錄。對于每個目標(biāo) mRNA,分別用 siRNA Online和siRNA Pro2.0進(jìn)行設(shè)計,兩個軟件設(shè)計結(jié)果如表4中所示。通過與SR數(shù)據(jù)集中的數(shù)據(jù)比對,siRNA Online的設(shè)計結(jié)果比siRNA Pro2.0獲得的有效siRNA數(shù)量多,且候選siRNA序列的沉默效果多為 Very High和 High。表明 siRNA Online具有較好的發(fā)現(xiàn)有效siRNA的能力。

    表4 siRNA Online與siRNA Pro2.0設(shè)計結(jié)果比較Tab.4 Comparison of siRNA Online and siRNA Pro2.0 on design results

    4 結(jié)論

    1)設(shè)計并實現(xiàn)了一個siRNA有效性在線分析系統(tǒng)。利用統(tǒng)計分析方法提取了20個siRNA有效性特征用于siRNA有效性預(yù)測,并考慮了二級結(jié)構(gòu)對預(yù)測結(jié)果的影響。采用SVM和BP神經(jīng)網(wǎng)絡(luò)兩種機(jī)器學(xué)習(xí)方法應(yīng)用于siRNA有效性預(yù)測,提高了預(yù)測精度。

    2)采用了全序列BLAST比對以及seed region區(qū)域與mRNA的3’UTR區(qū)域的匹配的特異性分析方法,排除了大部分可能引起脫靶效應(yīng)的候選siRNA序列,減少了脫靶效應(yīng)的發(fā)生。

    [1]Fire A,Xu S,Montgomery M K,et al.Potent and specific genetic interference by double?stranded RNA in Caenorhabditis elegans[J].Nature,1998,391(6669):806?811.

    [2]Hayden C,Erika.RNA interference rebooted[J].Nature,2014,508(7497):443.

    [3]Singh S K,Gaur R K.Progress towards therapeutic application of RNA interference for HIV infection[J].BioDrugs,2009,23(5):269?276.

    [4]Hannon G J.RNA interference[J].Nature,2002,418(6894):244?251.

    [5]Carthew R,Sontheimer E.Origins and mechanisms of miRNAs and siRNAs[J].Cell,2009,136(4):642?655.

    [6]Huesken D,Lange J,Mickanin C,et al.Design of a genome?wide siRNA library using an artificial neural network[J].Nature Bio?technology,2005,23(8):995?1001.

    [7]Gong W,Ren Y H,Wang Y,et al.siDRM:an effective and gen?erally applicable online siRNA design tool[J].Bioinformatics,2008,24(20):2405?2406.

    [8]Naito Y,Ui?Tei K.Designing functional siRNA with reduced off?target effect[J].Methods in Molecular Biology,2013,942:57?68.[9]Ye D,Yu C C,Lawrence C E.Sfold web server for statistical fold?ing and rational design of nucleic acids[J].Nucleic Acids Re?search,2004,32(12):W135?W141.

    [10]Yuan B,Latek R,Hossbach M,et al.siRNA selection server:an automated siRNA oligonucleotide prediction server[J].Nucleic Acids Research.2004,32(1):W130?W134.

    [11]Montenmuros F D,Parise P.New technologies from siRNA world[J].Minerva Biotecnologica,2008,20(1):3?11.

    [12]方翔,杜正平,曹以誠,等.siRNA pro 2.0:siRNA理性設(shè)計在線程序[J].中國生物化學(xué)與分子生物學(xué)報,2007,23(9):751?756.

    [13]Zuker M.Mfold web server for nucleic acid folding and hybridiza?tion prediction[J].Nucleic Acids Research,2003,31(13):3406?3415.

    [14]Wang Dongfang,Chen Xiang,Zhang Fa,et al.A method to im?prove the universality of siRNA design rules based on siRNA effi?ciency distribution[C]//2008 International Symposium on Infor? mation Science and Engineering,Shanghai,2008:84?87.

    [15]Altschul S F,Gish W,Miller W,et al.Basic local alignment search tool(BLAST)[J].Journal of Molecular Biology,1990,215(3):403?412.

    siRNA online design system based on multi?machine learning methods

    WANG Xuan1,ZHANG Fa2,CHEN Wei1,3
    (1.School of Information Science and Engineering,Yanshan University,Qinhuangdao,Hebei 066004,China;2.Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100083,China;3.Department of Information Engineering,Environmental Management College of China,Qinhuangdao,Hebei 066102,China)

    siRNA Design has attracted attention as an important issue in RNAi research.As a targeted gene could have thousands of potential siRNAs,finding the most efficient siRNAs among them had a huge challenge.In this paper,a siRNA online design system was developed.It included multiple technologies such as feature analysis,machine learning methods.For filtering siRNA sequences on suitable location,the secondary structure of target RNA was also acted as a scoring factor which effect siRNA interference effi?ciency.To given target genes,this system showed effective siRNA sequences and related information sorting by the silencing effi?ciency.Compared with existing software and methods,siRNA Online has higher prediction accuracy.

    siRNA;efficiency prediction;machine learning method;online design;

    TP393;Q811

    A

    10.3969/j.issn.1007?791X.2015.05.013

    1007?791X(2015)05?0458?06

    2015?06?28 基金項目:國家自然科學(xué)基金資助項目(61232001,61202210);河北省高等學(xué)??茖W(xué)技術(shù)研究青年基金資助項目(QN2015133)

    ?王璿(1977?),女,黑龍江齊齊哈爾人,博士,副教授,主要研究方向為并行計算、生物計算、數(shù)據(jù)庫理論,Email:wangxuan@ysu.edu.cn。

    猜你喜歡
    神經(jīng)網(wǎng)絡(luò)有效性軟件
    禪宗軟件
    英語文摘(2021年10期)2021-11-22 08:02:26
    如何提高英語教學(xué)的有效性
    甘肅教育(2020年6期)2020-09-11 07:45:28
    制造業(yè)內(nèi)部控制有效性的實現(xiàn)
    提高家庭作業(yè)有效性的理論思考
    甘肅教育(2020年12期)2020-04-13 06:24:56
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    軟件對對碰
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
    談軟件的破解與保護(hù)
    精品(2015年9期)2015-01-23 01:36:01
    曲松县| 民乐县| 来安县| 喀喇沁旗| 侯马市| 桐柏县| 年辖:市辖区| 五台县| 绥滨县| 汝阳县| 荆州市| 灌阳县| 东源县| 防城港市| 昂仁县| 达孜县| 电白县| 遵义县| 德格县| 长垣县| 伊春市| 石台县| 修水县| 阜南县| 乡宁县| 穆棱市| 广宗县| 白水县| 杭锦后旗| 甘德县| 安西县| 襄汾县| 昌邑市| 铁岭市| 泾川县| 读书| 鱼台县| 军事| 微博| 小金县| 满洲里市|