劉立婷++臧鴻雁++劉秀芹
摘 要:本文主要討論斑馬魚piRNA的預(yù)測方法。本文通過選取恰當(dāng)?shù)陌唏R魚piRNA特征,使用SVM方法訓(xùn)練正訓(xùn)練集和負訓(xùn)練集,然后利用5-fold交叉驗證去預(yù)測正負測試集。完成上述工作后,使用Python語言進行編程,模擬理論研究成果,使用測試集進行預(yù)測,得到敏感性為83.2%,特異性為74.6%,預(yù)測精度為78.9%。
關(guān)鍵詞:斑馬魚piRNA;支持向量機;預(yù)測
中圖分類號:Q74 文獻標(biāo)識碼:A 文章編號:1671-2064(2017)12-0251-01
2006年7月,雜志Science和Nature均報道了一種最新發(fā)現(xiàn)的非編碼類小RNA[1],這些非編碼類小RNA主要分布于哺乳動物的生殖細胞中,經(jīng)科學(xué)家們研究發(fā)現(xiàn),這種小RNA可以與PIWI蛋白質(zhì)之間相互結(jié)合而產(chǎn)生重大作用,被稱為piRNA。經(jīng)過多年的研究,研究人員發(fā)現(xiàn)piRNA可以調(diào)控哺乳動物體內(nèi)生殖細胞的生長和發(fā)育進程,從而對各種生物體產(chǎn)生重要作用[2]。因此,piRNA的預(yù)測能夠促進人們對piRNA生成過程和結(jié)構(gòu)特點的認識,進一步研究piRNA的結(jié)構(gòu)特點和功能特點,對腫瘤的診斷和治療,對新藥的研發(fā)提供了重要的科學(xué)理論依據(jù)。
1 數(shù)據(jù)來源
由于斑馬魚基因與人類基因的相似度程度高,而且容易獲取大數(shù)量的實驗數(shù)據(jù),這樣可以有效的減少時間消耗和實驗成本,提高預(yù)測精度。
根據(jù)本文的研究目的選擇斑馬魚piRNA序列作為正集,斑馬魚非編碼序列作負集,因為使用同一物種的基因序列可以避免由于不同物種之間的同源性差所造成的結(jié)果偏差,提高預(yù)測精度。從http://www.regulatoryrna.org/database/piRNA/download.html下載斑馬魚piRNA序列,共1330692條。從http://www.noncode.org/download.php上下載了12836條斑馬魚非編碼序列。
2 訓(xùn)練集與測試集
本文正集和負集序列均為1500條,這個數(shù)字是作者任意選取的,當(dāng)然,可以通過多次試驗選取最合適的樣本條數(shù)。
從斑馬魚piRNA序列中隨機選擇1500條序列作為正集,其中2/3的序列(即1000條序列)作為訓(xùn)練集,剩余的1/3序列(即500條序列)作為測試集。從斑馬魚非編碼序列中隨機選擇1500條序列作為負集,其中2/3的序列作為訓(xùn)練集,剩余的1/3序列作為測試集。使用python編程統(tǒng)計了正集序列的長度為17-36,因此為了提高預(yù)測精度,負集序列的長度應(yīng)該也在此范圍內(nèi)。所以,編程實現(xiàn)了從負集的非編碼序列中隨機截取相似程度的序列作為試驗中用到的負集。
3 特征的提取
使用軟件Teiresias提取訓(xùn)練集的特征。選項選擇為“Exact Discovery”,“Seq Version”和“Only nucleic acid characters”。經(jīng)多次試驗,參數(shù)選擇為L=2,W=5,K=600,它表示1000條序列中有共同特征的至少有600條序列,長度最大為5的motifs中至少有兩個核苷酸[3]。
從訓(xùn)練集的正集中共提取出了59條特征,從訓(xùn)練集負集中共提取出了62條特征。去除提取出的motifs特征中的冗余特征后剩余62條特征,如特征“T..A”,“T”和“A”分別表示胸腺嘧啶和腺嘌呤,“T”和“A”之間的“.”表示任意核苷酸。
計算每個motif在每條序列中出現(xiàn)的頻數(shù),構(gòu)成了一個特征矩陣,如(3,0,1,2,1,3,1,4,2,1,2,0,2,2,0,0,2,2,1,2,1,2,1,0,0,0,3,0,1,3,2,2,4,2,1,2,0,1,0,1,2,3,0,2,1,1,0,3,1,1,1,2,0,0,1,1,0,0,1,1,0,0)為其中某一條序列的特征向量,其中第一個元素“3”表示在該序列中第一個特征“TG”的個數(shù),第二個元素為第二個特征“TA”在該序列中的個數(shù),之后的數(shù)字依次類推。
4 訓(xùn)練和預(yù)測
在網(wǎng)址http://www.csie.ntu.edu.tw/~cjlin/libsvm/oldfiles/上下載libsvm。
首先,統(tǒng)計訓(xùn)練集中每條序列的motifs頻數(shù),使用python編程將統(tǒng)計的motifs頻數(shù)轉(zhuǎn)換成libsvm所接受的特征矩陣的形式,然后使用libsvm軟件包中的svm-scale.exe對訓(xùn)練集特征矩陣train.txt進行標(biāo)準化處理,對測試集進行同樣的標(biāo)準化處理。
本文使用的訓(xùn)練函數(shù)為RBF核函數(shù)。因為這個核函數(shù)可以非線性的映射到高維空間中,能夠處理類標(biāo)簽和屬性是非線性時的關(guān)系,并且線性核函數(shù)是RBF的一個特殊情況。使用libsvm tools目錄下的grid.py來選擇參數(shù),選擇結(jié)果為=512。0,=0。00390625,它的交叉驗證率為77.35%。使用得到的最佳參數(shù)對訓(xùn)練集進行訓(xùn)練,然后使用該訓(xùn)練模型對標(biāo)準化后的測試集進行預(yù)測。經(jīng)預(yù)測,得到了測試集的預(yù)測結(jié)果為78.9%。
5 特異性和靈敏性
使用SVM訓(xùn)練訓(xùn)練集得到了預(yù)測模型來預(yù)測測試集中的序列,由于測試集中的序列分類是已知的,因此,本文使用已知分類和預(yù)測得到的分類結(jié)果求得特異性為74.6%,靈敏性為78.9%。
特異性表明500條斑馬魚非編碼序列被預(yù)測正確的概率是74.6%,靈敏性表明500條斑馬魚piRNA序列中被預(yù)測正確的概率是78.9%。預(yù)測精度為特異性和靈敏性的平均值,表示整個測試集中序列被預(yù)測正確的概率。
6 結(jié)語
本文使用高斯核函數(shù)(RBF)建立了一個斑馬魚piRNA的分類模型,由于斑馬魚piRNA序列和斑馬魚非編碼序列之間具有不同的特征,因此使用motifs特征可以識別斑馬魚piRNA序列和非編碼序列。然后統(tǒng)計訓(xùn)練集中每條序列中motifs的頻數(shù),構(gòu)成特征矩陣。使用支持向量機對訓(xùn)練集和測試集進行分類和預(yù)測,得到的預(yù)測精度為78。9%,其中特異性為74.6%,敏感性為83.2%。特異性和靈敏性結(jié)果表明,在提取特征過程中,負集的特征提取不完善,如果想要得到更高的預(yù)測精度,就需要提取盡可能多的特征。
參考文獻
[1]Aravin A,Gaidatzis D,Pfeffer S,et al. A novel class of small RNAs bind to MILI protein in mouse testes[J]. Nature,2006,442(7099):203-207.
[2]郭艷合,劉立,蔡榮,等.小 RNA 家族的新成員—piRNA[J].遺傳,2008,30(1):28-34.
[3]Liu X,He S,Skogerb G,et al. Integrated sequence-structure motifs suffice to identify microRNA precursors[J]. PloS one,2012,7(3):e32797.