• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于GAT 雙聚合運(yùn)算與歸納式矩陣補(bǔ)全的關(guān)聯(lián)預(yù)測(cè)

    2022-12-13 13:51:58張奕鄭婧蔡鋼生王真梅
    計(jì)算機(jī)工程 2022年12期
    關(guān)鍵詞:相似性注意力關(guān)聯(lián)

    張奕,鄭婧,蔡鋼生,王真梅

    (1.桂林理工大學(xué) 信息科學(xué)與工程學(xué)院,廣西 桂林 541004;2.廣西嵌入式技術(shù)與智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)

    0 概述

    長(zhǎng)鏈非編碼RNA(long non-coding RNA,lncRNA)是非編碼RNA 家族中的一個(gè)組成部分,它擁有長(zhǎng)度超過(guò)200 個(gè)核苷酸的轉(zhuǎn)錄產(chǎn)物[1]。研究表明lncRNA 異常表達(dá)會(huì)導(dǎo)致多種復(fù)雜疾病。探尋導(dǎo)致疾病的lncRNA,有助于理解疾病產(chǎn)生的機(jī)理,為疾病治療及預(yù)后提供參考[2]。

    由于生物實(shí)驗(yàn)費(fèi)時(shí)費(fèi)力,在現(xiàn)實(shí)生活中大多采用可計(jì)算模型代替生物實(shí)驗(yàn)來(lái)實(shí)現(xiàn)lncRNA-疾病的關(guān)聯(lián)預(yù)測(cè),為生物實(shí)驗(yàn)提供高效的更準(zhǔn)確的候選項(xiàng)。目前,常用基于生物網(wǎng)絡(luò)和基于機(jī)器學(xué)習(xí)這兩類計(jì)算方法預(yù)測(cè)lncRNA-疾病關(guān)聯(lián)。

    基于生物網(wǎng)絡(luò)的方法通常需要構(gòu)建基因相似性網(wǎng)絡(luò),構(gòu)建完成后,根據(jù)lncRNA-疾病的關(guān)聯(lián)得分大小對(duì)候選的lncRNA 進(jìn)行排序來(lái)預(yù)測(cè)致病基因。最常用的是標(biāo)簽傳播算法,如重啟隨機(jī)游走和KATZ 算法,它們的主要區(qū)別在于不同的傳播算法應(yīng)用的底層網(wǎng)絡(luò)不同。文獻(xiàn)[3]根據(jù)lncRNA 功能相似性網(wǎng)絡(luò)建立了全局的重啟隨機(jī)游走算法RWRlncD,從而對(duì)潛在的關(guān)聯(lián)信息進(jìn)行預(yù)測(cè)。但是該模型不能預(yù)測(cè)沒(méi)有任何已知相關(guān)lncRNA 的新疾病或沒(méi)有任何已知相關(guān)疾病的孤立lncRNA。文獻(xiàn)[4]基于“與多種相同miRNA 有關(guān)的lncRNA 會(huì)導(dǎo)致相似疾病”這一生物假設(shè)建立了RWRHLD 模型,從而預(yù)測(cè)lncRNA-疾病的關(guān)聯(lián)信息。該模型將miRNA 信息加入到lncRNA-lncRNA 網(wǎng)絡(luò)中,與疾病相似性網(wǎng)絡(luò)和已知的lncRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò)整合成新網(wǎng)絡(luò),在這個(gè)新網(wǎng)絡(luò)中實(shí)施重啟隨機(jī)游走。但是該模型不適用于預(yù)測(cè)沒(méi)有已知lncRNA-miRNA 相互作用的lncRNA,模型實(shí)用性較差。文獻(xiàn)[5]結(jié)合已知的lncRNA-疾病關(guān)聯(lián)、lncRNA 表達(dá)譜、lncRNA 功能相似性、疾病語(yǔ)義相似性和高斯相互作用譜核相似性建立基于KATZ 的lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)模型KATZLDA。雖然該模型可以發(fā)現(xiàn)新疾病或孤立lncRNA,但是模型預(yù)測(cè)精度不高。

    基于機(jī)器學(xué)習(xí)的方法是根據(jù)與疾病相關(guān)的已知lncRNA 和沒(méi)有任何已知關(guān)聯(lián)的lncRNA-疾病對(duì)來(lái)訓(xùn)練分類器和建立模型的。文獻(xiàn)[6]將已知的疾病-lncRNA 關(guān)聯(lián)和lncRNA 表達(dá)譜信息進(jìn)行整合,構(gòu)建了LRLSLDA 計(jì)算模型來(lái)預(yù)測(cè)潛在的lncRNA-疾病關(guān)聯(lián)。該模型不需要負(fù)樣本且適用于預(yù)測(cè)孤立lncRNA,但是模型最優(yōu)參數(shù)的選取復(fù)雜,且模型分別將疾病空間和lncRNA 空間作為兩個(gè)分類器,對(duì)于同一個(gè)lncRNA-疾病對(duì)會(huì)產(chǎn)生兩個(gè)不同的得分,不同分?jǐn)?shù)的選取會(huì)得出不同的預(yù)測(cè)結(jié)果。文獻(xiàn)[7]基于貝葉斯算法整合已知的與疾病相關(guān)的lncRNA 和多種生物學(xué)數(shù)據(jù)(基因組數(shù)據(jù)、調(diào)控和轉(zhuǎn)錄生物數(shù)據(jù)),預(yù)測(cè)潛在的lncRNA-疾病關(guān)聯(lián)。該模型雖然預(yù)測(cè)性能良好,但是貝葉斯分類器想要提高預(yù)測(cè)性能必須使用足夠多的負(fù)樣本,而此類研究缺少負(fù)樣本,隨機(jī)選擇負(fù)樣本不利于優(yōu)化貝葉斯分類器的性能。文獻(xiàn)[8]提出基于矩陣分解的lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)模型MFLDA。該模型通過(guò)矩陣分解將數(shù)據(jù)轉(zhuǎn)換為低秩矩陣,不同的數(shù)據(jù)擁有各自的權(quán)重,并進(jìn)一步引入迭代解,同時(shí)對(duì)權(quán)重矩陣和低秩矩陣進(jìn)行優(yōu)化。優(yōu)化后得到的矩陣用來(lái)重建lncRNA-疾病關(guān)聯(lián),從而預(yù)測(cè)出潛在的lncRNA-疾病關(guān)聯(lián)。MFLDA 具有較好的適用性,很容易集成各種異構(gòu)數(shù)據(jù)源來(lái)預(yù)測(cè)不同類型實(shí)體之間的關(guān)聯(lián),但是該模型尋找低秩矩陣最優(yōu)秩過(guò)程復(fù)雜,且模型更偏向于選擇稀疏的數(shù)據(jù)矩陣,導(dǎo)致模型預(yù)測(cè)精度不高。

    為彌補(bǔ)上述不足,深度學(xué)習(xí)技術(shù)逐漸成為研究的熱點(diǎn)。圖作為一種能夠抽象出實(shí)體與實(shí)體之間關(guān)系的數(shù)據(jù)結(jié)構(gòu)得到廣泛應(yīng)用[9],圖結(jié)構(gòu)可以將節(jié)點(diǎn)與節(jié)點(diǎn)間的關(guān)系通過(guò)邊的權(quán)重表現(xiàn)出來(lái)。目前,圖神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于相鄰節(jié)點(diǎn)間的信息傳遞和匯聚。文獻(xiàn)[10]將圖神經(jīng)網(wǎng)絡(luò)中的雙向門(mén)控循環(huán)網(wǎng)絡(luò)和標(biāo)簽注意力機(jī)制結(jié)合,提出基于圖深度學(xué)習(xí)的金融文本多標(biāo)簽分類算法,提升了文本分類性能。文獻(xiàn)[11]在動(dòng)態(tài)網(wǎng)絡(luò)異常檢測(cè)中引入圖神經(jīng)網(wǎng)絡(luò),使得結(jié)構(gòu)和屬性上的異??梢酝瑫r(shí)被獲知,提升了異常檢測(cè)的準(zhǔn)確度。文獻(xiàn)[12]將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用到會(huì)話序列推薦算法中,引入注意力機(jī)制,提出基于復(fù)雜結(jié)構(gòu)信息的圖神經(jīng)網(wǎng)絡(luò)序列推薦算法,提升了會(huì)話向量在推薦過(guò)程中的準(zhǔn)確性。文獻(xiàn)[13]將圖神經(jīng)網(wǎng)絡(luò)用于網(wǎng)絡(luò)中物理鏈路與路由方案路徑建模,實(shí)現(xiàn)了對(duì)延遲抖動(dòng)等端到端性能指標(biāo)的有效預(yù)估。

    近年來(lái),圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT)[14-15]也被應(yīng)用于一些生物信息學(xué)任務(wù)中,如文獻(xiàn)[16]提出一種新的基于圖注意力網(wǎng)絡(luò)的方法GATMDA 識(shí)別微生物-疾病關(guān)聯(lián),文獻(xiàn)[17]基于圖注意力網(wǎng)絡(luò)提出預(yù)測(cè)circRNA-疾病關(guān)聯(lián)的方法GATCDA,文獻(xiàn)[18]基于圖注意力網(wǎng)絡(luò)預(yù)測(cè)藥物ADMET 分類。但截止到目前,較少有使用圖注意力網(wǎng)絡(luò)進(jìn)行l(wèi)ncRNA-疾病關(guān)聯(lián)預(yù)測(cè)的工作。另一方面,歸納矩陣補(bǔ)全(Inductive Martix Completion,IMC)技術(shù)廣泛應(yīng)用于生物信息領(lǐng)域[19-21],但也普遍存在預(yù)測(cè)精度不高的問(wèn)題。如何更好地將生物信息相似性網(wǎng)絡(luò)與歸納矩陣補(bǔ)全技術(shù)相結(jié)合,進(jìn)一步提升預(yù)測(cè)性能,是有待研究的一個(gè)問(wèn)題。

    本文提出一種基于圖注意力網(wǎng)絡(luò)和歸納矩陣補(bǔ)全技術(shù)的雙融合機(jī)制lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)模型(Dual Fusion Mechanism Prediction model for lncRNADisease Association,DFMP-LDA)。引入n頭注意力機(jī)制,設(shè)計(jì)帶有雙重聚合器的圖注意力網(wǎng)絡(luò)。傳統(tǒng)的圖注意力網(wǎng)絡(luò)雖然可以穩(wěn)定自我注意的過(guò)程,但由于節(jié)點(diǎn)的獨(dú)立性,訓(xùn)練后的節(jié)點(diǎn)特征不明顯,本文通過(guò)設(shè)計(jì)雙重聚合器增強(qiáng)lncRNA 節(jié)點(diǎn)與疾病節(jié)點(diǎn)特征,避免傳統(tǒng)可計(jì)算模型中因已知數(shù)據(jù)稀疏性導(dǎo)致預(yù)測(cè)精度不高的問(wèn)題。在此基礎(chǔ)上,利用歸納矩陣補(bǔ)全技術(shù)恢復(fù)lncRNA-疾病關(guān)聯(lián)矩陣中缺失的元素,應(yīng)用增強(qiáng)后的節(jié)點(diǎn)特征重建lncRNA-疾病關(guān)聯(lián),并使用Adam 優(yōu)化器[22]進(jìn)一步提高預(yù)測(cè)精度。

    1 DFMP-LDA 模型

    1.1 模型框架

    如圖1 所示,DFMP-LDA 模型框架主要包括3 個(gè)步驟,具體如下:

    圖1 DFMP-LDA 模型框架Fig.1 Framework of DFMP-LDA model

    1)相似性網(wǎng)絡(luò)建立。整合疾病集成相似性網(wǎng)絡(luò)∈Rnd×nd和lncRNA 集成相似性網(wǎng)絡(luò)∈Rnl×nl,得到lncRNA-疾病的特征矩陣X∈R(nl+nd)×(nl+nd)。其中,nl和nd代表lncRNA 和疾病的數(shù)量。

    2)lncRNA 特征、疾病特征增強(qiáng)。使用帶有雙重聚合器的n頭圖注意力網(wǎng)絡(luò)訓(xùn)練特征矩陣X,先計(jì)算矩陣X中任意節(jié)點(diǎn)i與鄰居節(jié)點(diǎn)集的注意力分?jǐn)?shù),再將節(jié)點(diǎn)i的特征和鄰居節(jié)點(diǎn)集特征進(jìn)行“加”和“連接”雙重聚合操作,得到帶有注意力分?jǐn)?shù)的特征矩陣Z∈R(nl+nd)×(nl+nd)。

    3)lncRNA-疾病關(guān)聯(lián)重建。將第2)步得到的特征矩陣Z進(jìn)行分解,得到疾病特征矩陣ZD∈Rnd×(nl+nd)和lncRNA特征矩陣ZD∈Rnl×(nl+nd),通過(guò)歸納矩陣補(bǔ)全技術(shù)重建原始ALD關(guān)聯(lián)網(wǎng)絡(luò),得到新的補(bǔ)全后的lncRNA-疾病關(guān)聯(lián)Q∈Rnl×nd,再通過(guò)Adam優(yōu)化器進(jìn)行模型優(yōu)化。

    1.2 相似性網(wǎng)絡(luò)建立

    1.2.1 疾病語(yǔ)義相似性網(wǎng)絡(luò)建立

    利用文獻(xiàn)[23]提出的有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG)計(jì)算疾病之間的語(yǔ)義相似性。任意疾病dt對(duì)疾病di的語(yǔ)義貢獻(xiàn)值用(dt)表示,計(jì)算公式如下:

    其中:參數(shù)γ為語(yǔ)義貢獻(xiàn)系數(shù),參考文獻(xiàn)[23]的研究結(jié)果,將γ設(shè)為其最優(yōu)值0.5。

    由文獻(xiàn)[23]可知,兩種疾病的DAG 圖的重疊部分越多,兩者相似程度越高。矩陣DS∈Rnd×nd表示疾病語(yǔ)義相似性網(wǎng)絡(luò),矩陣元素DS(di,dj)表示疾病di和dj的語(yǔ)義相似性,計(jì)算公式如下:

    其中:表示疾病di的DAG 圖;S(di)表示疾病di的語(yǔ)義值。S(di)計(jì)算公式如下:

    1.2.2 lncRNA 功能相似性網(wǎng)絡(luò)建立

    由文獻(xiàn)[23]可知,功能相似的lncRNA 往往與表型相似的疾病有關(guān),計(jì)算兩個(gè)lncRNA 的功能相似性首先要理解疾病的語(yǔ)義相似性及其與lncRNA之間的關(guān)系。用集合D={d1,d2,…,dt,…,dnd}表示疾病集,max(dt,D)表示任意疾病dt在疾病集合D中語(yǔ)義相似性最大值,如式(4)所示:

    矩陣FS∈Rnl×nl表示lncRNA 功能相似性網(wǎng)絡(luò),矩陣元素FS(li,lj)表示lncRNAli和lj之間的功能相似性,計(jì)算公式如式(5)所示:

    其中:集合D1表示與lncRNAli有關(guān)聯(lián)的疾病集合;集合D2表示與lncRNAlj有關(guān)聯(lián)的疾病集合;m、n分別表示集合D1和集合D2中疾病的數(shù)目。

    1.2.3 高斯譜核相似性網(wǎng)絡(luò)建立

    如果疾病di與lncRNAlj存在經(jīng)實(shí)驗(yàn)驗(yàn)證的已知關(guān)聯(lián),則定義IP(di)=1;如果疾病di與任何lncRNA都不存在經(jīng)實(shí)驗(yàn)驗(yàn)證的已知關(guān)聯(lián),則定義IP(di)=0。因?yàn)槟承┘膊〔痪邆湔Z(yǔ)義相似性,所以為了降低數(shù)據(jù)稀疏性對(duì)模型的影響,將高斯核函數(shù)[24]應(yīng)用到生物信息節(jié)點(diǎn)之間拓?fù)浣Y(jié)構(gòu)的關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)中。核函數(shù)在機(jī)器學(xué)習(xí)以及諸多生物信息分類中被證實(shí)是高效有用的方法,使用高斯核函數(shù)計(jì)算出的疾病高斯譜核相似性(以下簡(jiǎn)稱高斯相似性)可以代替疾病語(yǔ)義相似性。矩陣GD∈Rnd×nd表示疾病的高斯相似性網(wǎng)絡(luò),矩陣元素GD(di,dj)表示疾病di和疾病dj的高斯相似性,計(jì)算公式如式(6)所示:

    在式(6)中,λD是標(biāo)準(zhǔn)化的核帶寬,計(jì)算公式如式(7)所示:

    同理,用矩陣GL∈Rnl×nl表示lncRNA 的高斯相似性網(wǎng)絡(luò),矩陣元素GL(li,lj)表示lncRNAli和lj的高斯相似性,計(jì)算公式如式(8)所示:

    在式(8)中,λl是標(biāo)準(zhǔn)化的核帶寬,計(jì)算公式如式(9)所示:

    1.2.4 集成相似性網(wǎng)絡(luò)建立

    由于并非所有疾病都可以找到相關(guān)的lncRNA,如果給定疾病缺乏相關(guān)基因,將無(wú)法得到該疾病與其他疾病的語(yǔ)義相似性。為了提高疾病語(yǔ)義相似性的準(zhǔn)確性,將疾病的高斯相似性和疾病語(yǔ)義相似性進(jìn)行集成。如果疾病di與疾病dj之間存在語(yǔ)義相似性,則將di與dj之間的語(yǔ)義相似性定義為疾病語(yǔ)義相似性DS(di,dj)和疾病高斯相似性GD(di,dj)的平均值,否則等于疾病高斯相似性GD(di,dj),由此得到疾病集成相似性網(wǎng)絡(luò),矩陣元素(di,dj)表示疾病di與dj的集成相似性,計(jì)算公式如式(10)所示:

    同理,用矩陣表示lncRNA 集成相似性網(wǎng)絡(luò),矩陣元素(li,lj)表示lncRNAli和lj的集成相似性,計(jì)算公式如式(11)所示:

    將疾病集成相似性網(wǎng)絡(luò)和lncRNA 集成相似性網(wǎng)絡(luò)結(jié)合,定義對(duì)角矩陣X表示lncRNA-疾病的特征矩陣,用于后續(xù)的模型計(jì)算。矩陣X如式(12)所示:

    1.3 lncRNA 特征與疾病特征加強(qiáng)

    1.3.1 帶有雙重聚合器的n頭圖注意力網(wǎng)絡(luò)構(gòu)建

    原始圖注意力網(wǎng)絡(luò)通過(guò)注意力分?jǐn)?shù)在節(jié)點(diǎn)更新時(shí)自適應(yīng)聚合鄰居節(jié)點(diǎn)信息,通過(guò)為不同的鄰居節(jié)點(diǎn)分配不同的權(quán)重來(lái)學(xué)習(xí)圖上節(jié)點(diǎn)的表示。GAT 利用多頭注意力機(jī)制穩(wěn)定自我注意的過(guò)程,每個(gè)注意頭采用“連接”的方式聚合特征,對(duì)于特征向量的提取效果還有待改進(jìn)。為更好地提取lncRNA 特征向量和疾病特征向量,根據(jù)文獻(xiàn)[16]設(shè)計(jì)帶有雙重聚合器的n頭圖注意力網(wǎng)絡(luò),在每個(gè)注意頭設(shè)計(jì)中加入雙重聚合器,對(duì)節(jié)點(diǎn)特征進(jìn)行“加”和“連接”雙重操作,并將前一個(gè)注意頭的輸出特征作為下一個(gè)注意頭的輸入特征,經(jīng)過(guò)n次迭代,構(gòu)造出帶有雙重聚合器的n頭圖注意力網(wǎng)絡(luò),達(dá)到強(qiáng)化節(jié)點(diǎn)間特征的目的。

    1.3.2 注意頭中的特征增強(qiáng)過(guò)程

    在注意頭中,特征增強(qiáng)過(guò)程具體如下:

    1)注意特征訓(xùn)練層

    在特征矩陣X中任選一個(gè)元素作為節(jié)點(diǎn)i,根據(jù)圖注意力網(wǎng)絡(luò)的設(shè)計(jì)思想,計(jì)算節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)j對(duì)節(jié)點(diǎn)i在第k次迭代中的注意力分?jǐn)?shù),計(jì)算公式如下:

    其中:f(·)表示單層神經(jīng)網(wǎng)絡(luò);表示節(jié)點(diǎn)i在第k次(1≤k≤n)迭代過(guò)程中的特征向量;W∈R(nl+nd)×l表示權(quán)重矩陣。

    為了使特征矩陣X中所有節(jié)點(diǎn)的注意力分?jǐn)?shù)值在[0,1]區(qū)間,使用Softmax 函數(shù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化后的注意力分?jǐn)?shù)用表示,計(jì)算公式如式(14)所示:

    其中:Ni表示矩陣X中節(jié)點(diǎn)i的鄰居節(jié)點(diǎn)集合。

    表示節(jié)點(diǎn)i在第k次迭代時(shí)鄰居節(jié)點(diǎn)集特征,計(jì)算公式如式(15)所示:

    2)神經(jīng)特征聚合層

    在原始圖注意力網(wǎng)絡(luò)中,神經(jīng)特征聚合層僅僅是將注意特征訓(xùn)練層的特征進(jìn)行“連接”操作,為增強(qiáng)節(jié)點(diǎn)特征,本文在注意特征訓(xùn)練層得到節(jié)點(diǎn)i在第k次迭代時(shí)的鄰居節(jié)點(diǎn)集特征后,根據(jù)文獻(xiàn)[16]設(shè)計(jì)雙重聚合器,通過(guò)“加”和“連接”雙重聚合操作,實(shí)現(xiàn)對(duì)特征和的聚合。以Zk表示第k次聚合后的特征向量,計(jì)算公式如下:

    其中:LeakyReLU(·)表示激活函數(shù);“+”表示加操作;“||”表示連接操作;W1∈R(nl+nd)×k表示權(quán)重矩陣。

    最后,每次聚合后的特征Zk經(jīng)過(guò)n頭圖注意力網(wǎng)絡(luò),得到最終的特征矩陣Z:

    其中:ZD表示疾病特征矩陣;ZL表示lncRNA特征矩陣。

    注:特征矩陣Z是原始特征矩陣X經(jīng)過(guò)n頭圖注意力網(wǎng)絡(luò)得到的,故特征矩陣Z的前nd行表示疾病特征矩陣,其維數(shù)為nd×(nl+nd),其余行表示lncRNA 特征矩陣。

    1.4 lncRNA-疾病關(guān)聯(lián)重建

    在lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)方面,研究者常采用矩陣補(bǔ)全的方式,用低秩的關(guān)聯(lián)矩陣表示lncRNA-疾病的關(guān)聯(lián)關(guān)系,通過(guò)較少的已知關(guān)聯(lián)恢復(fù)原始矩陣[25]。但傳統(tǒng)的矩陣補(bǔ)全技術(shù)依賴于現(xiàn)存的lncRNA-疾病關(guān)聯(lián)進(jìn)行預(yù)測(cè),由于關(guān)聯(lián)矩陣中存在整行、整列數(shù)據(jù)缺失的情況,會(huì)導(dǎo)致冷啟動(dòng)發(fā)生,因此不能達(dá)到理想的預(yù)測(cè)效果。DFMP-LDA 采用歸納式矩陣補(bǔ)全技術(shù),打破傳統(tǒng)矩陣補(bǔ)全的局限,使矩陣補(bǔ)全不只是單純依賴關(guān)聯(lián)矩陣,而是還加入了樣本和未標(biāo)記信息,實(shí)現(xiàn)預(yù)測(cè)未知樣本的功能。

    DFMP-LDA 模型使用上一步推導(dǎo)得到的疾病特征向量ZD和lncRNA 特征向量ZL補(bǔ)全已知的關(guān)聯(lián)矩陣ALD,重建lncRNA-疾病關(guān)聯(lián),得到補(bǔ)全后的關(guān)聯(lián)矩陣Q,計(jì)算公式如下:

    在此基礎(chǔ)上,通過(guò)最小化損失函數(shù)實(shí)現(xiàn)參數(shù)訓(xùn)練,根據(jù)文獻(xiàn)[22],選擇Adam 優(yōu)化器對(duì)矩陣Q進(jìn)行優(yōu)化,具體優(yōu)化過(guò)程如下:

    其中:L表示損失函數(shù);η表示衰減系數(shù);λ表示平衡正則項(xiàng)的平衡因子,其值設(shè)置為1;W2表示權(quán)重矩陣。

    2 實(shí)驗(yàn)與評(píng)價(jià)

    2.1 實(shí)驗(yàn)數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

    對(duì)原始數(shù)據(jù)庫(kù)LncRNA Disease v2.0[26]進(jìn)行預(yù)處理,收集與人類疾病關(guān)系密切的lncRNA 及其關(guān)聯(lián),去除重復(fù)疾病和lncRNA,最終得到本文使用的數(shù)據(jù)集Dataset1。Dataset1中含有352個(gè)經(jīng)實(shí)驗(yàn)驗(yàn)證的lncRNA-疾病已知關(guān)聯(lián)對(duì),涉及156 種lncRNA 和190 種疾病。為了建立模型,用矩陣Ald表示352 個(gè)已知的lncRNA-疾病關(guān)聯(lián),nl和nd代表lncRNA 和疾病的數(shù)量。矩陣元素ALD(i,j)=1,表示lncRNAli與疾病dj之間存在經(jīng)實(shí)驗(yàn)驗(yàn)證的已知關(guān)聯(lián);矩陣元素ALD(i,j)=0,表示lncRNAli與疾病dj之間不存在經(jīng)實(shí)驗(yàn)驗(yàn)證的已知關(guān)聯(lián)。所有實(shí)驗(yàn)均在配置Intel Core i5-10210U,1.60 GHz CPU和64位處理器以及Windows 10 操作系統(tǒng)的計(jì)算機(jī)上完成。

    2.2 評(píng)價(jià)指標(biāo)

    本文采用五折交叉驗(yàn)證法,將已知的lncRNA-疾病關(guān)聯(lián)隨機(jī)分成5組,實(shí)驗(yàn)過(guò)程中依次選擇1組lncRNA-疾病關(guān)聯(lián)(即正樣本)和1 組相同大小的未知關(guān)聯(lián)lncRNA-疾病對(duì)(即負(fù)樣本)作為測(cè)試樣本,剩下的4 組lncRNA-疾病關(guān)聯(lián)以及其余未知lncRNA-疾病對(duì)用來(lái)訓(xùn)練模型。通過(guò)設(shè)置不同的閾值,獲得真陽(yáng)率(True Positive Rate,TPR)、假陽(yáng)率(False Positive Rate,F(xiàn)PR)、召回率、精度4 個(gè)模型評(píng)價(jià)指標(biāo),根據(jù)這4 個(gè)評(píng)價(jià)指標(biāo)繪制ROC 曲線和PR 曲線,模型性能通過(guò)ROC 曲線下面積(AUC)和PR 曲線下面積(AUPR)衡量。為了避免隨機(jī)分組的影響,每組實(shí)驗(yàn)重復(fù)進(jìn)行10 次,最后根據(jù)10 次重復(fù)實(shí)驗(yàn)的平均值計(jì)算AUC 值和AUPR 值。

    2.3 參數(shù)選擇

    本節(jié)分析注意頭數(shù)目n和Adam 優(yōu)化器中衰減系數(shù)η對(duì)模型DFMP-LDA 預(yù)測(cè)性能的影響。首先根據(jù)文獻(xiàn)[16]將注意頭數(shù)目n設(shè)置為4,分析衰減系數(shù)η對(duì)DFMP-LDA 的影響。將參數(shù)值η從5E-6 增加到5E-1(步長(zhǎng)為E-1),對(duì)數(shù)據(jù)集Dataset1 執(zhí)行五折交叉驗(yàn)證,得到的AUC值如圖2所示??梢钥闯?,當(dāng)η為5E-3時(shí),AUC值為最優(yōu)值0.9528;當(dāng)η為5E-2時(shí),得到AUC的最小值0.822 8。類似地,將η設(shè)置為5E-3 后,改變注意頭數(shù)目n,發(fā)現(xiàn)當(dāng)n為5 時(shí),得到最優(yōu)值0.932 2,如圖3 所示。綜合以上兩步,通過(guò)設(shè)置注意頭數(shù)目n為5,衰減系數(shù)η為5E-3,DFMP-LDA獲得最佳AUC 值0.932 2。

    圖2 不同衰減系數(shù)下的AUC值Fig.2 AUC values under different delay factors

    圖3 不同數(shù)目注意頭下的AUC值Fig.3 AUC values under different number of attention heads

    2.4 性能比較

    將DFMP-LDA與現(xiàn)有的3種基于機(jī)器學(xué)習(xí)和基于矩陣分解的計(jì)算方法SDLDA[27]、DMF-LDA[28]、TPGLDA[29]在相同的數(shù)據(jù)集Dataset1上進(jìn)行比較。SDLDA使用奇異值分解提取lncRNA和疾病的線性特征,使用具有2 個(gè)完全連接層的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)lncRNA和疾病的非線性特征,將線性特征和非線性特征結(jié)合成一個(gè)向量用于最終預(yù)測(cè)。DMF-LDA 使用帶有一系列非線性隱藏層的神經(jīng)網(wǎng)絡(luò),從lncRNA-疾病關(guān)聯(lián)矩陣中提取lncRNA 和疾病的潛在特征,然后將這2 個(gè)特征融合成一個(gè)新的向量,用其執(zhí)行預(yù)測(cè)任務(wù)。TPGLDA將基因疾病關(guān)聯(lián)與lncRNA 疾病關(guān)聯(lián)相結(jié)合,基于分配算法預(yù)測(cè)潛在的lncRNA 疾病關(guān)聯(lián)。五折交叉驗(yàn)證后,得到DFMP-LDA 與其他3 種模型的ROC 曲線、PR 曲線、AUC 值、AUPR 值和預(yù)測(cè)時(shí)間,分別如圖4、圖5 和表1 所示。

    圖4 DFMP-LDA 與其他模型的ROC 曲線Fig.4 ROC curves of DFMP-LDA and other models

    圖5 DFMP-LDA 與其他模型的PR 曲線Fig.5 PR curves of DFMP-LDA and other models

    表1 DFMP-LDA 與其他模型的預(yù)測(cè)性能對(duì)比Table 1 Prediction performance comparison of DFMP-LDA and other models

    由表1 可知,從AUC 值和AUPR 值來(lái)看,DFMPLDA的預(yù)測(cè)性能優(yōu)于SDLDA和DMFLDA,雖然DFMPLDA 的AUC 值比TPGLDA 低了0.76%,但是AUPR 值比TPGLDA 高1.75%,而且在預(yù)測(cè)時(shí)間上DFMP-LDA較TPGLDA 節(jié)省了16.12%。從AUC 值、AUPR 值和預(yù)測(cè)時(shí)間3 個(gè)方面得出,DFMP-LDA 的綜合性能最優(yōu)。

    3 結(jié)束語(yǔ)

    本文建立一種融合圖注意力網(wǎng)絡(luò)和歸納矩陣補(bǔ)全技術(shù)的lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)模型,該模型利用圖注意力網(wǎng)絡(luò)的n頭注意力機(jī)制對(duì)節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)集特征進(jìn)行加權(quán),并通過(guò)注意頭中的雙重聚合操作進(jìn)一步增強(qiáng)節(jié)點(diǎn)特征。在此基礎(chǔ)上,增強(qiáng)后的特征矩陣輸入到歸納矩陣補(bǔ)全過(guò)程中,補(bǔ)全原始關(guān)聯(lián)矩陣中缺失元素,重建lncRNA-疾病關(guān)聯(lián)網(wǎng)絡(luò)。五折交叉驗(yàn)證結(jié)果顯示,DFMP-LDA 與對(duì)比的3 種計(jì)算模型相比AUPR值最優(yōu),AUC 值分別比SDLDA 模型和DMFLDA 模型高7.64%、10.18%,雖然AUC 略低于TPGLDA 模型,但是預(yù)測(cè)時(shí)間節(jié)省了16.12%。以上結(jié)果顯示,DFMP-LDA模型是一個(gè)可靠的lncRNA-疾病關(guān)聯(lián)預(yù)測(cè)模型。

    如何整合多種lncRNA 和疾病的生物信息是未來(lái)主要的研究方向。此外,因?yàn)闊o(wú)法獲得新lncRNA和孤立疾病的特征,所以DFMP-LDA 不能對(duì)這些基因和疾病進(jìn)行預(yù)測(cè)。后續(xù)將考慮結(jié)合基因測(cè)序等手段收集更多的生物信息,同時(shí)對(duì)聚合器進(jìn)行優(yōu)化,進(jìn)一步提高預(yù)測(cè)準(zhǔn)確性。

    猜你喜歡
    相似性注意力關(guān)聯(lián)
    一類上三角算子矩陣的相似性與酉相似性
    讓注意力“飛”回來(lái)
    淺析當(dāng)代中西方繪畫(huà)的相似性
    “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
    奇趣搭配
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    智趣
    讀者(2017年5期)2017-02-15 18:04:18
    A Beautiful Way Of Looking At Things
    低滲透黏土中氯離子彌散作用離心模擬相似性
    V4國(guó)家經(jīng)濟(jì)的相似性與差異性
    饶平县| 湄潭县| 阿坝县| 盐山县| 通州区| 涞源县| 临朐县| 五莲县| 环江| 庄浪县| 新和县| 视频| 哈巴河县| 伊宁市| 榆林市| 台湾省| 盐山县| 崇左市| 滦平县| 吉木萨尔县| 视频| 沂水县| 晴隆县| 广昌县| 徐州市| 昌乐县| 札达县| 肃南| 伽师县| 镇雄县| 淄博市| 钟祥市| 南平市| 永康市| 望奎县| 古丈县| 建宁县| 泾阳县| 怀安县| 新巴尔虎左旗| 建湖县|