劉曉燕,陳希,郭茂祖,2,車凱,王春宇
(1. 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001; 2. 北京建筑大學(xué) 電氣與信息工程學(xué)院,北京 100044)
MicroRNAs(miRNAs)是一類很小的內(nèi)源性非編碼RNA,長(zhǎng)度約為20~24個(gè)核苷酸,通過堿基配對(duì)與其靶向的mRNA的3'端非編碼區(qū)相結(jié)合,導(dǎo)致靶mRNA的降解或翻譯抑制,從而在轉(zhuǎn)錄后水平上調(diào)控基因表達(dá)[1-3]。越來越多的證據(jù)表明,miRNA在免疫反應(yīng)、轉(zhuǎn)錄、增殖、分化、信號(hào)傳導(dǎo)和胚胎發(fā)育等[4-7]生物過程中起著重要的作用,miRNA突變、miRNA的生物合成和miRNA與其靶mRNA的功能失調(diào)可能會(huì)導(dǎo)致各種疾病。因此,識(shí)別miRNA與疾病之間的互作關(guān)系至關(guān)重要。早期研究采用生物學(xué)實(shí)驗(yàn)方法確定miRNA與特定疾病的關(guān)系,然而生物學(xué)實(shí)驗(yàn)方法實(shí)驗(yàn)周期長(zhǎng)、成本高。因此計(jì)算生物學(xué)方法分析、預(yù)測(cè)miRNAs和疾病的關(guān)聯(lián)問題成為了當(dāng)前的研究熱點(diǎn)。
目前,miRNA和疾病的關(guān)聯(lián)預(yù)測(cè)主要分為基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的方法和機(jī)器學(xué)習(xí)的方法。
基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的研究方法建立在“功能相似的miRNA調(diào)控的疾病也比較相似,反之亦然[8-9]”這個(gè)假設(shè)基礎(chǔ)上,文獻(xiàn)[10-19]就此展開了一系列研究工作。2010年,Jiang等[10]首次提出一種計(jì)算方法,構(gòu)建功能相關(guān)miRNA網(wǎng)絡(luò)和人類疾病表型-miRNA網(wǎng)絡(luò),將人類的miRNA組按照與疾病關(guān)聯(lián)得分的大小排序,預(yù)測(cè)miRNA與疾病的關(guān)聯(lián)。這是以前用基于網(wǎng)絡(luò)的方法預(yù)測(cè)與疾病相關(guān)的編碼蛋白基因的合理延伸。2010年,Jiang等[11]又提出一種基于基因組數(shù)據(jù)融合的新方法,用樸素貝葉斯模型融合多種來源的數(shù)據(jù),構(gòu)建一個(gè)模型預(yù)測(cè)基因之間的功能相關(guān)性。分別用兩個(gè)向量表示疾病與基因之間的關(guān)聯(lián)、miRNA與靶基因之間的關(guān)聯(lián)。對(duì)于給定的疾病,計(jì)算其與每個(gè)miRNA的相似得分,并從高到低排序,最高得分為與該疾病相關(guān)的miRNA。Chen等[12]將隨機(jī)游走算法應(yīng)用到miRNA-miRNA功能相似網(wǎng)絡(luò),在給定的種子結(jié)點(diǎn)處開始,將已知的關(guān)聯(lián)關(guān)系的大小作為轉(zhuǎn)移概率,模擬網(wǎng)絡(luò)中當(dāng)前結(jié)點(diǎn)擴(kuò)散到其鄰結(jié)點(diǎn)的過程,以此來挖掘網(wǎng)絡(luò)中可能潛在的關(guān)聯(lián)關(guān)系。Chen等[13]在2013年又提出一種基于相似度的方法,分為3個(gè)策略:基于miRNA的相似度推斷 (miRNA-based similarity inference,MBSI)、基于表型的相似度推斷(phenotype-based similarity inference,PBSI)和基于網(wǎng)絡(luò)一致性的推斷(networkconsistency-based inference,NetCBI);Shi等[14]于2013年提出一種基于可重啟的隨機(jī)游走 (random walk with restart,RWR)算法的新方法,將疾病基因和miRNA靶基因映射到蛋白質(zhì)?蛋白質(zhì)互作(protein-protein interaction,PPI)網(wǎng)絡(luò)上,設(shè)置不同的種子應(yīng)用RWR算法;Xuan等[15]后又提出名為HDMP的方法——基于加權(quán)最相似k近鄰的方法,預(yù)測(cè)與疾病相關(guān)的miRNA;Xu等[16]主要通過比對(duì)miRNA與mRNA表達(dá)譜融合多種疾病的表型關(guān)聯(lián),預(yù)測(cè)與癌癥相關(guān)的miRNA;2013年,Mork等[17]提出一種蛋白質(zhì)介導(dǎo)的預(yù)測(cè)方法,通過miRNA與蛋白質(zhì)之間的關(guān)聯(lián)、蛋白質(zhì)與疾病之間的關(guān)聯(lián)預(yù)測(cè)miRNA與疾病之間的關(guān)系;2016年,Sun等[19]提出了基于已知的miRNA-疾病網(wǎng)絡(luò)拓?fù)湎嗨菩?,以挖掘更多潛在的與疾病相關(guān)的miRNA,利用二分投影的方法,來完成miRNA與疾病的關(guān)聯(lián)預(yù)測(cè)工作。
到目前為止,基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的研究方法處理miRNAs和疾病的關(guān)聯(lián)預(yù)測(cè)問題上,更多的傾向于基于已知的關(guān)聯(lián)關(guān)系來挖掘其中潛在的關(guān)系,而對(duì)缺少已知關(guān)聯(lián)信息的miRNAs和疾病,其結(jié)果往往呈現(xiàn)隨機(jī)化。
在機(jī)器學(xué)習(xí)方法研究上。2012年,Xu等[20]首先使用機(jī)器學(xué)習(xí)方法預(yù)測(cè)miRNA與疾病之間的關(guān)系。這種方法旨在從大規(guī)模的反例中分辨出正例關(guān)聯(lián),核心是從miRNA-疾病網(wǎng)絡(luò)中提取特征,訓(xùn)練一個(gè)SVM分類器。2013年,Jiang等[21]又通過構(gòu)建不同于Xu的特征集——一個(gè)關(guān)于miRNA信息的特征集和一個(gè)關(guān)于疾病表型信息的特征集,應(yīng)用此方法得到相近的結(jié)果。2014年,Chen等[22]提出一種半監(jiān)督的全局化方法(regularized least squares for mirna-disease association,RLSMDA),在沒有負(fù)例集的情況下預(yù)測(cè)miRNA與疾病的關(guān)聯(lián)。用正則化最小二乘法構(gòu)建一個(gè)連續(xù)的分類函數(shù),表示每個(gè)miRNA與給定疾病相關(guān)的概率,對(duì)于未知相關(guān)miRNA的疾病,該方法也適用。
基于機(jī)器學(xué)習(xí)的方法能夠取得與“基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)方法”相近或者更好結(jié)果,有的甚至很好地處理未知miRNA的疾病,例如RLSMDA。而機(jī)器學(xué)習(xí)主要受制于miRNAs與疾病特征的表示,以及對(duì)如何處理有正樣本數(shù)據(jù)的模型設(shè)計(jì)。
基于矩陣分解的算法用高維空間的向量解決了特征表示的問題,算法同時(shí)構(gòu)建miRNAs和疾病在高維空間的表示,并以此為基礎(chǔ)獲得其關(guān)聯(lián)關(guān)系,用迭代最小二乘法求解出最終的miRNA-疾病關(guān)聯(lián)關(guān)系的概率。這個(gè)求解思路來源于推薦系統(tǒng)中當(dāng)前所流行的矩陣分解方法,對(duì)解決類似的關(guān)聯(lián)關(guān)系預(yù)測(cè)問題在近年來也被證明非常有效。Shen[23]在2017年首次提出基于矩陣分解的方法對(duì)miRNAs和疾病的關(guān)聯(lián)關(guān)系進(jìn)行預(yù)測(cè),并取得了比Chen[22]更好的效果,但在其迭代求解的過程中,受到其損失函數(shù)的影響無法使用最小二乘法,導(dǎo)致其每個(gè)變量都需要迭代求解,這在同時(shí)要求多個(gè)變量迭代求解的情況下,其結(jié)果很大程度上依賴于初始解的選擇,在很多的情況下甚至無法收斂,算法的穩(wěn)定性難以保證。
本文提出的LMFMDA算法,首先構(gòu)建miRNAs相似性網(wǎng)絡(luò)、疾病相似性網(wǎng)絡(luò)和miRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò);進(jìn)而構(gòu)建矩陣分解算法模型,算法在利用迭代最小二乘法優(yōu)化求解的過程中,通過引入輔助miRNAs和疾病變量的方法,提高計(jì)算速度,解決收斂結(jié)果最優(yōu)的問題,確保算法的穩(wěn)定性。
在本節(jié)介紹LMFMDA算法所使用的數(shù)據(jù)和處理方法。數(shù)據(jù)來源如表1所示。
表 1 數(shù)據(jù)材料及其來源表題Table 1 Data materials and the sources
直接從MISIM數(shù)據(jù)庫(kù)獲得miRNAs的功能相似度網(wǎng)絡(luò)MS,網(wǎng)絡(luò)中miRNA之間的相似度被表示為[0, 1]的實(shí)數(shù)。
疾病的語(yǔ)義相似性通過MeSH得到,計(jì)算方法來自Wang[24],假設(shè)疾病t是疾病d的一個(gè)祖先,或者 d=t,令:
疾病1和疾病2之間的語(yǔ)義相似性DS(d1,d2)即
在HMDD數(shù)據(jù)庫(kù)下載了現(xiàn)有的miRNAs-疾病關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)。網(wǎng)絡(luò)包含了378個(gè)疾病、571個(gè)miRNAs及其構(gòu)成的10 381個(gè)關(guān)聯(lián)關(guān)系。關(guān)聯(lián)矩陣R中,如果miRNA m(i)和疾病 d(j)被認(rèn)為有關(guān),則 R(m(i)、d(j))為 1,否則,為 0。
將上述3個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行融合,最終得到了重合的446個(gè)miRNAs和322個(gè)疾病,和已經(jīng)確認(rèn)的5 152條miRNAs-疾病關(guān)聯(lián)關(guān)系。
在疾病上的分布如圖1所示。
圖1 miRNAs-疾病關(guān)聯(lián)關(guān)系在疾病中的分布圖Fig. 1 Distribution map of the miRNAs-disease association in diseases
在miRNA上的分布如圖2所示。
圖2 miRNAs-疾病關(guān)聯(lián)關(guān)系在miRNA中的分布圖Fig. 2 Distribution map of the miRNAs-disease association in miRNAs
本文中,引入了矩陣分解的思想來解決miRNAs-疾病關(guān)聯(lián)關(guān)系預(yù)測(cè)問題。
首先,通過整合miRNAs功能相似度網(wǎng)絡(luò)和疾病語(yǔ)義相似性網(wǎng)絡(luò)得到最終的miRNAs相似度矩陣MS和疾病相似度矩陣DS,以及已經(jīng)被實(shí)驗(yàn)驗(yàn)證的miRNAs-疾病關(guān)聯(lián)網(wǎng)絡(luò)R。
首先,對(duì)每個(gè)miRNA和疾病,給定它們?cè)诠潭ㄩL(zhǎng)度為k的維度空間的初始化投影向量,并以其內(nèi)積來表示miRNAs和疾病的關(guān)聯(lián)關(guān)系,可以用式(3)表示:式中:M是由m(本文中m=446)個(gè)k維列向量組成的k行m列的矩陣,同樣的,D是k行d列(本文中d=322)的矩陣。我們的目標(biāo)即是通過求解合適的M和D來最小化R′和真實(shí)關(guān)系R的距離,即
考慮到這樣的函數(shù)是二次的形式,在迭代優(yōu)化時(shí)很難化簡(jiǎn)為不含有自身變量的等式,這會(huì)使得在迭代的過程中無法取得最優(yōu)解,我們引入了輔助矩陣X和Y來進(jìn)行優(yōu)化,式(4)可以變形為
經(jīng)驗(yàn)性地,我們對(duì)需要約束的M、D加入二范數(shù)的約束,以防止模型陷入過擬合。最終的損失函數(shù)如式(6)所示:
我們采用迭代最小二乘的方式來優(yōu)化這個(gè)問題,先固定D、X、Y,求解M。對(duì)M求導(dǎo),有
同樣,固定其他參數(shù),分別求解D、X、Y,有:
具體算法步驟如下:
1) 初始化miRNAs和疾病的向量矩陣M、D,以及輔助向量X、Y,并構(gòu)建損失函數(shù);
2) 用迭代最小二乘法求解M和D;
3)根據(jù)M和D預(yù)測(cè)miRNAs-疾病的關(guān)聯(lián)關(guān)系。
算法框架如圖3所示。
圖3 LMFMDA算法模型框圖Fig. 3 The flow chat of LMFMDA algorithm model
空間復(fù)雜度上,LMFMDA要求MS、DS、R、M、D、X和Y的存儲(chǔ)空間,其空間復(fù)雜度為
實(shí)驗(yàn)采用留一交叉驗(yàn)證方式進(jìn)行,對(duì)每個(gè)關(guān)系,將同一疾病下的未知關(guān)聯(lián)視為負(fù)例,當(dāng)前關(guān)聯(lián)視為正例,最終得到的AUC作為評(píng)價(jià)結(jié)果。
miRNAs與疾病的向量矩陣M與D初始化為取值在[0, 1]上的隨機(jī)向量,X與Y分別初始化為等同于M和D。
在第1節(jié)得到的446個(gè)miRNAs和322個(gè)疾病上分別實(shí)驗(yàn)了 RWRMDA[13]、RLSMDA[22]、CMFMDA[23]以及本文提出的LMFMDA算法。實(shí)驗(yàn)結(jié)果如圖4所示,LMFMDA的效果明顯好于其他3種方法。
圖4 RWRMDA、CMFMDA、RLSMDA和LMFMDA的AUC結(jié)果Fig. 4 The AUC results of RWRMDA, CMFMDA, RLSMDA and LMFMDA
我們分別記錄了已知關(guān)聯(lián)數(shù)>60的21個(gè)疾病的實(shí)驗(yàn)結(jié)果(見表2、表3),以及已知關(guān)聯(lián)數(shù)=1的部分疾病的實(shí)驗(yàn)結(jié)果。已知關(guān)聯(lián)數(shù)為1的疾病在進(jìn)行留一法實(shí)驗(yàn)時(shí),會(huì)將唯一一個(gè)已知的關(guān)聯(lián)miRNA抹去,此時(shí)其已知關(guān)聯(lián)數(shù)變?yōu)?,可以用于考察算法在新疾病中的應(yīng)用效果。
表 2 高關(guān)聯(lián)疾病在不同算法下的AUC結(jié)果Table 2 The AUC results of high association diseases on different algorithm
續(xù)表2
表 3 新疾病在不同算法下的AUC結(jié)果Table 3 The AUC results of new diseases on different algorithm
可以看到,不論是在關(guān)聯(lián)數(shù)較多的疾病或關(guān)聯(lián)數(shù)極少的疾病上,LMFMDA均表現(xiàn)出了優(yōu)異的效果。
在提出LMFMDA的損失函數(shù)前,曾試圖對(duì)每個(gè)miRNA和疾病標(biāo)注一個(gè)先驗(yàn)關(guān)聯(lián)值,作為第k+1維,也是不參與運(yùn)算的常數(shù)維。即:
然而其k值和AUC關(guān)聯(lián)關(guān)系如圖5所示。
圖5 帶常數(shù)維模型中k與AUC關(guān)系圖Fig. 5 The relation diagram of k and AUC in a model with constant dimensional
可以看到,在k>100時(shí),AUC值基本趨于穩(wěn)定。而對(duì)k=100維這樣的子空間來說,單獨(dú)的常數(shù)維并不會(huì)對(duì)結(jié)果有很大的影響,于是刪除了假設(shè)的先驗(yàn)關(guān)聯(lián)值,最終確定了預(yù)測(cè)模型。
本文基于矩陣分解和迭代最小二乘的方法(LMFMDA)對(duì)miRNAs和疾病的關(guān)聯(lián)關(guān)系進(jìn)行預(yù)測(cè)。首先對(duì)miRNAs相似度矩陣、疾病相似度矩陣和miRNAs-疾病關(guān)聯(lián)關(guān)系進(jìn)行數(shù)據(jù)融合,采用迭代最小二乘法求解miRNAs和疾病的表達(dá)向量,最后利用miRNAs和疾病的表達(dá)向量完成對(duì)miRNA與疾病關(guān)聯(lián)關(guān)系的預(yù)測(cè)。同時(shí),通過引入輔助miRNAs和疾病變量的方法,解決了收斂結(jié)果的最優(yōu)問題。實(shí)驗(yàn)顯示,LMFMDA在高關(guān)聯(lián)疾病和新疾病預(yù)測(cè)中相對(duì)于其他方法均取了較優(yōu)的結(jié)果。
綜上,本文提出的miRNA與疾病關(guān)聯(lián)預(yù)測(cè)算法LMFMDA,一方面可以處理未知相關(guān)miRNAs的疾病、或者未知相關(guān)疾病的miRNAs;另一方面,實(shí)驗(yàn)結(jié)果也表明,LMFMDA算法在miRNAs和疾病的關(guān)聯(lián)關(guān)系預(yù)測(cè)上相較其他算法有更好的效果。