• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      差異網(wǎng)絡(luò)分析方法在組學(xué)數(shù)據(jù)變量篩選中的應(yīng)用*

      2019-09-17 11:45:20哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室150081蔡雨晴
      關(guān)鍵詞:網(wǎng)絡(luò)分析全局權(quán)重

      哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室(150081) 蔡雨晴 宋 微 徐 歡 李 康

      組學(xué)數(shù)據(jù)(omics data),如基因組、轉(zhuǎn)錄組、蛋白質(zhì)組和代謝組等數(shù)據(jù)能夠反映疾病的發(fā)生、發(fā)展和預(yù)后的情況。對(duì)于組學(xué)數(shù)據(jù)的分析,主要是篩選有用的生物標(biāo)志物、分析調(diào)控網(wǎng)絡(luò)和建立預(yù)測(cè)模型。一般是通過變量差異表達(dá)量分析不同類別之間的差別。但在實(shí)際中,也可能有這樣一種情況,即在不同分類中,變量的量值變化不大,但其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(network topology structure,NTS)卻發(fā)生了變化,這種情況同樣能反映不同的生物學(xué)特征,并據(jù)此發(fā)現(xiàn)重要的生物標(biāo)記物。差異網(wǎng)絡(luò)分析方法是近年來新提出的一種以網(wǎng)絡(luò)為基礎(chǔ)的生物信息算法,注重不同狀態(tài)(如健康或患病等)下NTS的差異,從而發(fā)現(xiàn)導(dǎo)致不同生物進(jìn)程的重要差異物質(zhì)[1]。與傳統(tǒng)的差異變量分析方法相比,差異網(wǎng)絡(luò)分析方法更側(cè)重于分析變量間關(guān)系的改變,在調(diào)控關(guān)系發(fā)生變化時(shí)使用這種分析方法更為有效[2]。本文對(duì)近年來提出和發(fā)展的幾種差異網(wǎng)絡(luò)分析方法做一綜述。

      基于NTS局部改變的分析方法

      差異網(wǎng)絡(luò)分析將不同分組情況下的數(shù)據(jù)分別構(gòu)建網(wǎng)絡(luò),如圖1a和圖1b為兩不同分組的網(wǎng)絡(luò)調(diào)控關(guān)系,圖1c標(biāo)示了兩組變化的調(diào)控邊。

      圖1 兩不同分組的調(diào)控網(wǎng)絡(luò)及差異邊

      網(wǎng)絡(luò)圖中描述局部連接參數(shù)的指標(biāo)較多,其中應(yīng)用最多的為網(wǎng)絡(luò)連接權(quán)重(connectivity),其意義為節(jié)點(diǎn)之間的調(diào)控關(guān)系強(qiáng)弱。在圖1中,節(jié)點(diǎn)之間的連接邊粗細(xì)代表不同權(quán)重大小。連接權(quán)重的求解方法有互信息法、相關(guān)系數(shù)法、偏相關(guān)系數(shù)法、回歸系數(shù)法及其他非線性回歸方法等[3]。網(wǎng)絡(luò)連接權(quán)重可以通過隨機(jī)置換試驗(yàn)選擇合適的閾值,減少不顯著的假陽性邊,得到更為優(yōu)化的網(wǎng)絡(luò)關(guān)系。Zhang等學(xué)者提出權(quán)重基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)[4],將WGCNA的思想應(yīng)用在網(wǎng)絡(luò)中的連接邊上,可以得到比未加權(quán)更具穩(wěn)定性的網(wǎng)絡(luò)。

      1.DiffK算法

      (1)

      其中,u為網(wǎng)絡(luò)內(nèi)任一節(jié)點(diǎn),Nu是在網(wǎng)絡(luò)中與節(jié)點(diǎn)u相關(guān)聯(lián)的節(jié)點(diǎn)集合。kA(u,v)和kB(u,v)分別表示不同網(wǎng)絡(luò)A、B中節(jié)點(diǎn)u與其關(guān)聯(lián)節(jié)點(diǎn)的連接權(quán)重。DiffK值用于比較節(jié)點(diǎn)在不同網(wǎng)絡(luò)中連接權(quán)重的差異,以網(wǎng)絡(luò)中節(jié)點(diǎn)連接權(quán)重最大值max(kA)和max(kB)進(jìn)行標(biāo)準(zhǔn)化以便比較。從公式(1)中可以看出,節(jié)點(diǎn)u與其他節(jié)點(diǎn)的連接權(quán)重和越大,節(jié)點(diǎn)u的DiffK值越大。DiffK值可在一定程度上反映節(jié)點(diǎn)在網(wǎng)絡(luò)中的作用大小。Fuller等人在小鼠基因組數(shù)據(jù)中應(yīng)用WGCNA方法,與傳統(tǒng)的差異表達(dá)分析方法相比,找到了與小鼠體重有關(guān)的生物標(biāo)志物和通路信息,表明結(jié)合網(wǎng)絡(luò)特性的DiffK算法效果更好[5]。

      網(wǎng)絡(luò)連接權(quán)重從節(jié)點(diǎn)間的關(guān)聯(lián)強(qiáng)度考慮節(jié)點(diǎn)重要性。在實(shí)際生物學(xué)現(xiàn)象中,節(jié)點(diǎn)的度(degree)同樣重要。度即節(jié)點(diǎn)的連接邊數(shù)量,如在圖1a中,節(jié)點(diǎn)G1在網(wǎng)絡(luò)中有4條連接邊,即節(jié)點(diǎn)G1度為4。實(shí)際中的多數(shù)網(wǎng)絡(luò)為無標(biāo)度網(wǎng)絡(luò)(scale-free network),其特性是僅少數(shù)節(jié)點(diǎn)有較大的度數(shù),如中心基因(hub genes),多數(shù)節(jié)點(diǎn)只有少量的連接邊。中心基因表達(dá)水平的微小變化雖不容易識(shí)別,卻能明顯改變網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。在蛋白互作網(wǎng)絡(luò)中,重要的功能性蛋白通常具有較高的度[6]。

      2.NC算法

      (2)

      其中,Nu為與節(jié)點(diǎn)u相關(guān)聯(lián)的節(jié)點(diǎn)集合,Zu,v表示在網(wǎng)絡(luò)圖中由節(jié)點(diǎn)u和v與其他任意相關(guān)節(jié)點(diǎn)連接邊所組成的三角形數(shù)量,du、dv分別代表節(jié)點(diǎn)u和v的度。公式(2)每個(gè)單項(xiàng)式分母含義為節(jié)點(diǎn)u和v與其他節(jié)點(diǎn)連接組成的三角形最大數(shù)量,分子為相應(yīng)的三角形實(shí)際數(shù)量。如圖1a,G1與G3的度都為4,理論上由G1和G3構(gòu)成的三角形最大數(shù)量為3個(gè),但實(shí)際只有Δ1391個(gè)。NC算法既能考慮到節(jié)點(diǎn)的中心性,也能考慮到節(jié)點(diǎn)與相鄰節(jié)點(diǎn)之間的聯(lián)系。Wang等人將NC算法應(yīng)用于三個(gè)不同的酵母菌蛋白交互網(wǎng)絡(luò)中,與其他六種差異網(wǎng)絡(luò)分析方法對(duì)比,NC算法在所有網(wǎng)絡(luò)中的陽性結(jié)果,均能得到更多的必需蛋白質(zhì),同時(shí)NC算法具有更高的靈敏度和特異度[7]。

      3.DCloc算法

      (3)

      4.PageRank算法

      Page在1998年首次在網(wǎng)頁瀏覽重要性應(yīng)用上提出PageRank概念[9],即網(wǎng)頁的重要性取決于網(wǎng)頁鏈接指向該網(wǎng)頁的其他網(wǎng)頁的重要性。同理,可將其理解為網(wǎng)絡(luò)圖中一節(jié)點(diǎn)的連接重要性取決于相鄰節(jié)點(diǎn)的度。如與某一節(jié)點(diǎn)連接的相鄰節(jié)點(diǎn)的度大,則該節(jié)點(diǎn)在網(wǎng)絡(luò)中可能起到傳播或橋梁作用。其計(jì)算公式為

      (4)

      PageRank算法首先對(duì)所有節(jié)點(diǎn)進(jìn)行一個(gè)簡(jiǎn)單的排秩,通過不斷使用公式(4)迭代計(jì)算使其收斂。Pu表示指向節(jié)點(diǎn)u的節(jié)點(diǎn)集合,Bu為節(jié)點(diǎn)u指向的節(jié)點(diǎn)集合,Nu為Bu內(nèi)節(jié)點(diǎn)數(shù)量。該方法假設(shè)節(jié)點(diǎn)u的秩R(u)被其指向的節(jié)點(diǎn)集合Bu均分,由于一些節(jié)點(diǎn)可能沒有Bu而損失了u的秩,因此cA和cB分別為A、B網(wǎng)絡(luò)的標(biāo)準(zhǔn)化系數(shù),它可使網(wǎng)絡(luò)中所有節(jié)點(diǎn)的秩和恒定。Omranian等人以PageRank算法為基礎(chǔ)在擬南芥轉(zhuǎn)錄組數(shù)據(jù)中發(fā)現(xiàn)了不同信號(hào)通路的關(guān)鍵基因[10]。值得注意的是,PageRank算法是基于有向網(wǎng)絡(luò)的一種方法,對(duì)網(wǎng)絡(luò)中心節(jié)點(diǎn)的發(fā)現(xiàn)有重要意義,尤其當(dāng)變量數(shù)量較多時(shí)。

      基于NTS全局改變的分析方法

      以上基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)局部改變的方法都是以節(jié)點(diǎn)的直接連接節(jié)點(diǎn)出發(fā)計(jì)算其差異統(tǒng)計(jì)量,而無法考慮網(wǎng)絡(luò)中的所有節(jié)點(diǎn)對(duì)被分析節(jié)點(diǎn)的影響,包括直接連接點(diǎn)和間接連接點(diǎn)?;诖耍現(xiàn)reeman在1977年提出中介中心性(between centrality,BC)這一概念[11],其公式為

      (5)

      其中,s、t為網(wǎng)絡(luò)中任意兩點(diǎn),ρ(s,t)表示網(wǎng)絡(luò)中以s為起點(diǎn)、t為終點(diǎn)的最短路徑的總數(shù),ρ(s,u,t)表示在經(jīng)過s、t節(jié)點(diǎn)的所有最短路徑(沿節(jié)點(diǎn)s到節(jié)點(diǎn)t的所有路徑中,各邊的權(quán)重總和最小的路徑)中,同時(shí)經(jīng)過節(jié)點(diǎn)u的數(shù)量。當(dāng)節(jié)點(diǎn)u的關(guān)聯(lián)節(jié)點(diǎn)數(shù)目較少或節(jié)點(diǎn)之間連接權(quán)重較小,卻是網(wǎng)絡(luò)中最短路徑的必經(jīng)節(jié)點(diǎn)時(shí)(如圖2中,G6雖然只與G5和G7相關(guān)聯(lián),但網(wǎng)絡(luò)中大部分最短路徑都要經(jīng)過G6),仍可認(rèn)為u是網(wǎng)絡(luò)中的重要節(jié)點(diǎn),此時(shí)BC(u)值能夠反映節(jié)點(diǎn)u在網(wǎng)絡(luò)全局中的重要程度。在蛋白網(wǎng)絡(luò)應(yīng)用中,一些度低但中介中心性很高(high betweenness low degree,HBLC)的蛋白也發(fā)揮著十分重要的作用[11]。Potapov將其應(yīng)用于哺乳動(dòng)物轉(zhuǎn)錄組數(shù)據(jù)的兩個(gè)網(wǎng)絡(luò)中,發(fā)現(xiàn)中介中心性對(duì)描述生物網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)有重要意義,更具有實(shí)際生物學(xué)意義[12]。

      圖2 BC算法適用的網(wǎng)絡(luò)圖示

      基于NTS的全局和局部改變分析方法

      既然網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的局部改變與全局改變同樣重要,Odibat即提出DiffRank算法[13]。DiffRank算法根據(jù)節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)差異改變的貢獻(xiàn)排序,從而篩選出引起網(wǎng)絡(luò)差異的重要節(jié)點(diǎn)。局部和全局結(jié)構(gòu)改變?cè)u(píng)價(jià)指標(biāo)為

      (6)

      (7)

      (8)

      基于每一節(jié)點(diǎn)的差異評(píng)分π給所有節(jié)點(diǎn)排序,π越大表示在差異網(wǎng)絡(luò)中貢獻(xiàn)越大,即我們所需要篩選的差異位點(diǎn)。DiffRank算法既考慮了網(wǎng)絡(luò)中節(jié)點(diǎn)的局部信息,又考慮了網(wǎng)絡(luò)全局信息,Lichtblau評(píng)價(jià)了十種差異網(wǎng)絡(luò)分析方法對(duì)4個(gè)相同數(shù)據(jù)集的篩選效果,其中包括多個(gè)局部與全局NTS差異網(wǎng)絡(luò)算法,根據(jù)給出的差異基因金標(biāo)準(zhǔn)(gold standard list,GSL)[14]判斷,DiffRank算法在前40個(gè)差異位點(diǎn)中重合概率最高,F(xiàn)isher確切檢驗(yàn)表明結(jié)果具有統(tǒng)計(jì)學(xué)意義[1]。

      結(jié) 語

      本文主要介紹了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的一些基本概念以及近年來提出和發(fā)展的幾種差異網(wǎng)絡(luò)分析方法,其主要特點(diǎn)是通過不同分組各節(jié)點(diǎn)或拓?fù)浣Y(jié)構(gòu)的變化篩選重要的變量,克服了單純比較變量均值變化的不足。本文介紹的三類方法各有特點(diǎn),如局部度數(shù)檢驗(yàn)?zāi)軌蜃R(shí)別直接調(diào)控其他節(jié)點(diǎn)的關(guān)鍵調(diào)控因子,但不能發(fā)現(xiàn)間接調(diào)控其他節(jié)點(diǎn)的重要節(jié)點(diǎn);全局中介中心性算法考慮了網(wǎng)絡(luò)中各節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)的影響,更強(qiáng)調(diào)中間調(diào)節(jié)點(diǎn);局部與全局結(jié)合在一起的DiffRank算法則能夠更全面地分析網(wǎng)絡(luò)調(diào)控信息。實(shí)際中,當(dāng)變量數(shù)過大時(shí),在差異網(wǎng)絡(luò)分析之前,可以結(jié)合差異表達(dá)分析對(duì)變量進(jìn)行篩選或選取與分組信息有關(guān)的通路進(jìn)行分析。

      網(wǎng)絡(luò)的基本概念還包括接近中心性(closeness centrality,CC)、特征向量中心性(eigenvector centrality,EC)等,基于這些概念的差異網(wǎng)絡(luò)分析方法也有很多,不僅能通過網(wǎng)絡(luò)的信息篩選組學(xué)數(shù)據(jù)中的差異位點(diǎn),還可以得到導(dǎo)致不同結(jié)局的差異邊,如根據(jù)貝葉斯算法判斷差異邊等[15]。目前大部分差異網(wǎng)絡(luò)分析都是基于排秩方法判斷差異物質(zhì),但不同數(shù)據(jù)情況無法確定取前幾位,因此如何通過統(tǒng)計(jì)學(xué)方法選取合適的顯著性差異物質(zhì)是亟需解決的問題。同時(shí),由于基因間真實(shí)的相關(guān)關(guān)系未知,缺乏可用的金標(biāo)準(zhǔn)來評(píng)估差異網(wǎng)絡(luò)分析方法用于真實(shí)數(shù)據(jù)的可靠性,目前可借助已有的通路信息(如KEGG、GO等數(shù)據(jù)庫(kù))對(duì)其進(jìn)行驗(yàn)證和支持。

      猜你喜歡
      網(wǎng)絡(luò)分析全局權(quán)重
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      基于ISM模型的EPC項(xiàng)目風(fēng)險(xiǎn)網(wǎng)絡(luò)分析
      權(quán)重常思“浮名輕”
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      鐵路有線調(diào)度通信的網(wǎng)絡(luò)分析
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      2016年社交網(wǎng)絡(luò)分析
      大班幼兒同伴交往的社會(huì)網(wǎng)絡(luò)分析
      娄烦县| 大方县| 葫芦岛市| 旅游| 兴化市| 兴山县| 阜南县| 清河县| 卢氏县| 荔波县| 定州市| 彝良县| 新绛县| 讷河市| 县级市| 杭锦后旗| 即墨市| 长寿区| 克山县| 绍兴县| 芦溪县| 华安县| 新乡县| 方城县| 桂阳县| 增城市| 长寿区| 阳泉市| 论坛| 奉贤区| 喀喇沁旗| 吕梁市| 任丘市| 密云县| 平凉市| 保德县| 彭水| 筠连县| 兴国县| 西城区| 翁源县|