• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于復(fù)雜關(guān)聯(lián)網(wǎng)絡(luò)的生物醫(yī)學(xué)研究結(jié)構(gòu)的挖掘

      2015-03-22 03:17:30,,,,
      關(guān)鍵詞:連通分支生物醫(yī)學(xué)關(guān)聯(lián)

      ,, ,,

      隨著文獻(xiàn)數(shù)量的急速增長(zhǎng),文本挖掘技術(shù)不斷應(yīng)用于大規(guī)模文獻(xiàn)處理,基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)已經(jīng)成為文獻(xiàn)挖掘領(lǐng)域的重要內(nèi)容。1986年,Swanson教授提出基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)思想,即對(duì)非相關(guān)的文獻(xiàn)進(jìn)行整合分析,發(fā)現(xiàn)其中隱含的聯(lián)系,進(jìn)而形成新的科學(xué)假設(shè)[1-2]?;谖墨I(xiàn)的知識(shí)發(fā)現(xiàn)的核心是通過ABC模型來挖掘概念間的間接關(guān)系,即當(dāng)不相關(guān)的實(shí)體A與C同時(shí)與實(shí)體B相關(guān)時(shí),A與C也可能相關(guān),這種關(guān)聯(lián)假設(shè)的方法在藥物發(fā)現(xiàn)、藥物重定位[3-4]等領(lǐng)域得到了較好的應(yīng)用。隨著大量文獻(xiàn)富集,內(nèi)容相關(guān)性會(huì)涌現(xiàn)出知識(shí)網(wǎng)絡(luò),并通過知識(shí)網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián)挖掘。如通過對(duì)文獻(xiàn)詞語(yǔ)共現(xiàn)網(wǎng)絡(luò)的研究,總結(jié)出當(dāng)前的研究熱點(diǎn),分析科研結(jié)構(gòu),發(fā)現(xiàn)研究?jī)?nèi)容的相關(guān)性等[5-6]。還有一些研究針對(duì)具體實(shí)體的關(guān)聯(lián)網(wǎng)絡(luò)進(jìn)行分析,如基因調(diào)控網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)等[7]。此外,部分研究轉(zhuǎn)向系統(tǒng)層面上考察信息間的整合分析,通過多領(lǐng)域多數(shù)據(jù)源交叉融合,發(fā)現(xiàn)間接的隱含聯(lián)系[8]。然而,面對(duì)龐大的關(guān)聯(lián)知識(shí)網(wǎng)絡(luò),如何從網(wǎng)絡(luò)微觀結(jié)構(gòu)與關(guān)聯(lián)形成的規(guī)律,探討其對(duì)文獻(xiàn)知識(shí)發(fā)現(xiàn)的影響,對(duì)提高知識(shí)發(fā)現(xiàn)的效率具有重要作用。

      本文基于免費(fèi)開放的PubMed文獻(xiàn)數(shù)據(jù)集,構(gòu)建了一個(gè)由文獻(xiàn)數(shù)據(jù)衍生出的生物醫(yī)學(xué)實(shí)體關(guān)聯(lián)演化網(wǎng)絡(luò),從而整合不同時(shí)期文獻(xiàn)中的關(guān)聯(lián)知識(shí),并利用復(fù)雜網(wǎng)絡(luò)理論分析該關(guān)聯(lián)網(wǎng)絡(luò)的拓?fù)涮卣鳎瑥南到y(tǒng)層面分析研究大量文獻(xiàn)集中于科學(xué)知識(shí)的結(jié)構(gòu)及相關(guān)性,為文獻(xiàn)的知識(shí)發(fā)現(xiàn)引入新的視角與方法,提高知識(shí)發(fā)現(xiàn)的效率,引導(dǎo)科研人員進(jìn)行知識(shí)發(fā)現(xiàn)。

      1 網(wǎng)絡(luò)簡(jiǎn)介

      1.1 網(wǎng)絡(luò)的定量描述

      一個(gè)簡(jiǎn)單的無向無權(quán)網(wǎng)絡(luò)可標(biāo)記為G=(V,E)。其中集合V稱為節(jié)點(diǎn)集:V={v1,v2,…,vn},集合E稱為邊集:E={e1,e2,…,em},任意一條邊對(duì)應(yīng)一個(gè)節(jié)點(diǎn)的二元組:ex=(vi,vj),E是V×V的一個(gè)子集。對(duì)于用節(jié)點(diǎn)和邊描述的圖,可以用幾個(gè)定量指標(biāo)來描述圖的性質(zhì),包括節(jié)點(diǎn)的度、連通性、路徑與聚類系數(shù)。

      節(jié)點(diǎn)的度:即節(jié)點(diǎn)V在圖G的度,指圖G中與節(jié)點(diǎn)V連接的邊數(shù),記為d(v)或k(v)。節(jié)點(diǎn)的度主要用于描述節(jié)點(diǎn)的連通性。

      連通性:若G中每對(duì)不同節(jié)點(diǎn)U,V之間都存在一條通路,則G是連通的,即G為連通圖。

      路徑:即圖的路徑,指兩個(gè)與邊交替出現(xiàn)的序列,且所有節(jié)點(diǎn)與邊都不相同。路徑長(zhǎng)度是連接兩個(gè)節(jié)點(diǎn)之間邊的數(shù)量,網(wǎng)絡(luò)距離可以通過路徑長(zhǎng)度來描述,一般采用最短路徑作為連接兩個(gè)節(jié)點(diǎn)的路徑。平均路徑長(zhǎng)度是網(wǎng)絡(luò)中所有節(jié)點(diǎn)對(duì)之間最短路徑長(zhǎng)度的平均值。

      聚類系數(shù):表示圖中節(jié)點(diǎn)聚集程度的系數(shù),定義為其鄰居真實(shí)連接數(shù)目占鄰居最大可能連接數(shù)比例的平均。

      1.2 網(wǎng)絡(luò)的拓?fù)湫再|(zhì)

      圖是一種用來表示實(shí)際系統(tǒng)的一種模型。對(duì)于圖G=(V,E),如果存在一個(gè)映射函數(shù)f,即

      f:E→V×V(公式1)

      若將網(wǎng)絡(luò)中的邊映射到節(jié)點(diǎn)對(duì),那么圖是結(jié)構(gòu)化的,即圖存在一定的拓?fù)浣Y(jié)構(gòu);如果映射是隨機(jī)的,那么圖就是隨機(jī)的。通常按度序列分布與熵定義圖的結(jié)構(gòu),其中度序列分布按拓?fù)鋵?duì)圖的分類提供了一種機(jī)制,而熵提供了一種對(duì)隨機(jī)性的測(cè)量。一般來說,度序列分布表達(dá)了圖的結(jié)構(gòu)信息,熵則表達(dá)了圖的結(jié)構(gòu)是否具有規(guī)則性。

      網(wǎng)絡(luò)規(guī)模很大但平均距離卻很小的性質(zhì)被稱為小世界效應(yīng)。小世界網(wǎng)絡(luò)一般是指具有相對(duì)較小的平均路徑長(zhǎng)度、相對(duì)較大的聚類系數(shù)的網(wǎng)絡(luò)。如果一個(gè)圖的度序列分布符合冪函數(shù)的形式,由于冪函數(shù)是標(biāo)度不變的,通常稱這類圖為無標(biāo)度網(wǎng)絡(luò)。無標(biāo)度網(wǎng)絡(luò)同小世界網(wǎng)絡(luò)類似,很多真實(shí)網(wǎng)絡(luò)都具有無標(biāo)度特征。

      2 生物醫(yī)學(xué)實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建與分析

      2.1 基于共現(xiàn)方法的實(shí)體關(guān)聯(lián)提取

      生物醫(yī)學(xué)文獻(xiàn)挖掘研究通常利用共現(xiàn)方法來提取實(shí)體的關(guān)聯(lián),即當(dāng)兩個(gè)詞語(yǔ)共現(xiàn)于一定的語(yǔ)境中時(shí),詞語(yǔ)之間存在一定的語(yǔ)義相關(guān)性[9]。對(duì)于實(shí)體共出現(xiàn)而言,以句子為最大分析單元最常見。本文基于句子共現(xiàn)的實(shí)體關(guān)聯(lián)提取的基本步驟如下。

      根據(jù)基于自然語(yǔ)言的方法識(shí)別出句子的實(shí)體NP及其位置。

      如果在同一個(gè)句子中得到的實(shí)體按其在句子中的順序依次為NP1、NP2、NP3,則得到關(guān)聯(lián)(NP1,NP2),(NP1,NP3),(NP2,NP3)。例如,文獻(xiàn)標(biāo)題(PMID: 20856896):β1-syntrophin modulation by miR-222 in mdx mice,提取得到實(shí)體及其位置的列表為:

      [(β1-syntrophin modulation, 1),(miR-222, 4),(mdx mouse, 6)]

      進(jìn)一步得到關(guān)聯(lián):(β1-syntrophin modulation, miR-222),(β1-syntrophin modulation, mdx mouse),(miR-222, mdx mouse)。

      2.2 網(wǎng)絡(luò)構(gòu)建

      考慮到PubMed數(shù)據(jù)庫(kù)中所有摘要的數(shù)據(jù)量過大,本文以PubMed中2000-2009年共10年記錄的標(biāo)題數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)集,抽取其中的實(shí)體及關(guān)聯(lián)后,建立關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)。為了觀察科學(xué)研究的動(dòng)態(tài)結(jié)構(gòu),構(gòu)建了按時(shí)間(年)增長(zhǎng)的演化網(wǎng)絡(luò)序列,如表1所示。

      由于網(wǎng)絡(luò)過于龐大,本文未能給出關(guān)聯(lián)網(wǎng)絡(luò)的可視化效果,但從表1的統(tǒng)計(jì)結(jié)果來看,仍可以觀察到一些有用的特征與規(guī)律。從網(wǎng)絡(luò)的演化情況來看,網(wǎng)絡(luò)的節(jié)點(diǎn)與關(guān)聯(lián)每年都在增長(zhǎng),表明整個(gè)研究領(lǐng)域的知識(shí)量是不斷增加的,這與每年文獻(xiàn)數(shù)量不斷增長(zhǎng)的情況是一致的。在關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)中,每年都存在新節(jié)點(diǎn)新關(guān)聯(lián)的加入,表明在生物醫(yī)學(xué)研究領(lǐng)域每年都有新發(fā)現(xiàn),而且每年新增加的關(guān)聯(lián)數(shù)遠(yuǎn)大于新增加的節(jié)點(diǎn)數(shù)。這也反映在較短的時(shí)間內(nèi),真正具有較大創(chuàng)新性的發(fā)現(xiàn)相對(duì)較少,大部分文獻(xiàn)仍然是在已有研究問題基礎(chǔ)上的延續(xù)研究??偟膩碚f,通過關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)的演化分析,一定程度上反映了知識(shí)的形成與發(fā)展的規(guī)律。關(guān)聯(lián)網(wǎng)絡(luò)中節(jié)點(diǎn)與關(guān)聯(lián)的增長(zhǎng),都能反映出新知識(shí)的不斷出現(xiàn)。

      表1 關(guān)聯(lián)演化網(wǎng)絡(luò)的基本信息

      2.3 關(guān)聯(lián)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)分析

      2.3.1 網(wǎng)絡(luò)的連通性

      從表1的計(jì)算結(jié)果可知,提取到的關(guān)聯(lián)網(wǎng)絡(luò)是一個(gè)非連通網(wǎng)絡(luò)。從2000年開始,每一年的關(guān)聯(lián)網(wǎng)絡(luò)都有很多個(gè)連通分支,比如2009年的關(guān)聯(lián)網(wǎng)絡(luò)有11 770個(gè)連通分支。盡管存在如此多的大小不一的連通分支,但每個(gè)關(guān)聯(lián)網(wǎng)絡(luò)都有一個(gè)最大連通分支,能夠覆蓋網(wǎng)絡(luò)的絕對(duì)多數(shù)的節(jié)點(diǎn)與邊,比如2009年的關(guān)聯(lián)網(wǎng)絡(luò)中最大連通分支包含1 294 509個(gè)節(jié)點(diǎn)與6 667 590條邊,分別占整個(gè)網(wǎng)絡(luò)中節(jié)點(diǎn)的98.03%以及邊的99.78%。因此,主要對(duì)最大連通分支進(jìn)行網(wǎng)絡(luò)的特征分析。

      除了最大的連通分支,關(guān)聯(lián)網(wǎng)絡(luò)中其他連通分支的規(guī)模都很小,表明科學(xué)研究的專業(yè)化變得更精細(xì),生物醫(yī)學(xué)領(lǐng)域研究?jī)?nèi)容極具豐富性與多樣性;同時(shí)也表明在一些特定的領(lǐng)域,領(lǐng)域之間缺乏互通融合,形成了一個(gè)個(gè)獨(dú)立的知識(shí)“孤島”。出現(xiàn)大量的相對(duì)極小的連通分支,也說明在整個(gè)領(lǐng)域存在一些比較“冷門”的研究。

      2.3.2 網(wǎng)絡(luò)的度序列分布

      如圖1所示,關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)呈現(xiàn)冪函數(shù)形式,是一個(gè)無標(biāo)度網(wǎng)絡(luò)。根據(jù)冪律分布的特性,絕大多數(shù)節(jié)點(diǎn)擁有較少的連接數(shù),而少量的節(jié)點(diǎn)擁有極大的連接數(shù)。這些擁有極大連接數(shù)的節(jié)點(diǎn)是關(guān)聯(lián)網(wǎng)絡(luò)的HUB節(jié)點(diǎn),基本都是一些生物醫(yī)學(xué)研究領(lǐng)域通用的概念。盡管它們無法代表整個(gè)領(lǐng)域的研究重點(diǎn)或研究熱點(diǎn),但其他眾多概念都圍繞它們展開。說明它們?cè)谡麄€(gè)生物醫(yī)學(xué)科研體系中起著非常重要的連接橋梁的作用,而一些連接數(shù)較少的節(jié)點(diǎn)只代表某個(gè)具體的研究對(duì)象。關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)的無標(biāo)度特征表明在生物醫(yī)學(xué)領(lǐng)域中研究重點(diǎn)突出,而圍繞研究重點(diǎn)開展了很多細(xì)致的研究工作。

      圖1 2000-2009年的關(guān)聯(lián)網(wǎng)絡(luò)的度序列分布雙對(duì)數(shù)坐標(biāo)(Log-Log)

      2.3.3 計(jì)算網(wǎng)絡(luò)的聚類系數(shù)

      考慮到計(jì)算能力的限制,我們僅以2000年的數(shù)據(jù)作為測(cè)試數(shù)據(jù),計(jì)算得到網(wǎng)絡(luò)的平均聚類系數(shù)為 0.209390339012,而最大連通分支的平均聚類系數(shù)為0.215289709462。接下來構(gòu)建與原網(wǎng)絡(luò)、最大連通分支的節(jié)點(diǎn)數(shù)邊數(shù)都相同的隨機(jī)網(wǎng)絡(luò),其平均聚類系數(shù)分別為3.37415559158e-05與4.98993799995e-05。顯然,關(guān)聯(lián)網(wǎng)絡(luò)的聚類系數(shù)遠(yuǎn)大于隨機(jī)網(wǎng)絡(luò)的聚類系數(shù),表明關(guān)聯(lián)網(wǎng)絡(luò)具有高集群性。

      關(guān)聯(lián)網(wǎng)絡(luò)的高集群性說明圍繞一個(gè)研究主題所開展的各種研究之間具有很高的相關(guān)性,相關(guān)研究之間更容易形成連接,而它們之間的連接可以形成新的研究成果,這有助于對(duì)研究主題進(jìn)行更深層次的分析和挖掘。根據(jù)綜合聚類系數(shù)與冪律分布的特征,可推斷出關(guān)聯(lián)網(wǎng)絡(luò)中存在很多集團(tuán),集團(tuán)內(nèi)部成員之間聯(lián)系緊密,而集團(tuán)之間的聯(lián)系相對(duì)疏遠(yuǎn),這表明某領(lǐng)域中存在一些研究重點(diǎn)和研究熱點(diǎn)。圍繞這些重點(diǎn)和熱點(diǎn)所展開的大量相關(guān)研究之間聯(lián)系緊密,形成網(wǎng)絡(luò)結(jié)構(gòu)中的集團(tuán),并使得集團(tuán)內(nèi)部成員的聚類系數(shù)很大,最終使得整個(gè)網(wǎng)絡(luò)的聚類系數(shù)較大。

      2.3.4 計(jì)算網(wǎng)絡(luò)的平均距離

      根據(jù)網(wǎng)絡(luò)距離的定義,當(dāng)網(wǎng)絡(luò)不連通時(shí),網(wǎng)絡(luò)的平均距離是無窮大,該關(guān)聯(lián)網(wǎng)絡(luò)是不連通的,因此只計(jì)算關(guān)聯(lián)網(wǎng)絡(luò)中最大連通分支的平均距離。以最小的2000年的關(guān)聯(lián)網(wǎng)絡(luò)的最大連通分支作為測(cè)試對(duì)象,該連通分支的平均距離長(zhǎng)度為3.76923247599,表明關(guān)聯(lián)網(wǎng)絡(luò)中的節(jié)點(diǎn)平均只需經(jīng)過4步就可到達(dá)其他節(jié)點(diǎn)。然后根據(jù)2000年的關(guān)聯(lián)網(wǎng)絡(luò)的最大連通分支的大小,建立一個(gè)相同大小的隨機(jī)網(wǎng)絡(luò)模型。該隨機(jī)網(wǎng)絡(luò)的平均路徑長(zhǎng)度約為5.79725740556,顯然,相對(duì)于相同大小的關(guān)聯(lián)網(wǎng)絡(luò)來說其平均路徑長(zhǎng)度相當(dāng)小。綜合關(guān)聯(lián)網(wǎng)絡(luò)的聚類系數(shù)與平均路徑長(zhǎng)度,表明該實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)是一個(gè)小世界網(wǎng)絡(luò)。

      關(guān)聯(lián)網(wǎng)絡(luò)的小世界特征表明,在生物醫(yī)學(xué)研究領(lǐng)域,研究主題和研究?jī)?nèi)容之間關(guān)聯(lián)的緊密程度非常高,而平均路徑長(zhǎng)度很小則說明主題與內(nèi)容相互之間存在很強(qiáng)的影響。此外,小世界特征也說明在同一個(gè)大的研究領(lǐng)域中,從一個(gè)研究對(duì)象可以很快轉(zhuǎn)移到另外一個(gè)研究對(duì)象,二者結(jié)合很容易形成新的研究?jī)?nèi)容。

      3 結(jié)語(yǔ)

      基于自然語(yǔ)言處理方法得到的網(wǎng)絡(luò)是一個(gè)普適的由文獻(xiàn)衍生的關(guān)聯(lián)知識(shí)網(wǎng)絡(luò),它不同于已有的衍生于文獻(xiàn)的生物網(wǎng)絡(luò),不依賴于任何領(lǐng)域特異性的實(shí)體關(guān)系。因此,通過該網(wǎng)絡(luò)可以更好地研究知識(shí)本身的發(fā)展規(guī)律,反映科研問題、概念間的相互關(guān)系。

      從測(cè)試數(shù)據(jù)衍生而來的關(guān)聯(lián)網(wǎng)絡(luò)的演化情況來看,網(wǎng)絡(luò)的節(jié)點(diǎn)與關(guān)聯(lián)每年都在增長(zhǎng),表明整個(gè)研究領(lǐng)域的知識(shí)量在不斷增加,每年都有新節(jié)點(diǎn)新關(guān)聯(lián)的加入。同時(shí),關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)的小世界無標(biāo)度特征,表明在生物醫(yī)學(xué)研究領(lǐng)域,研究主題和研究?jī)?nèi)容之間關(guān)聯(lián)的緊密程度非常高。在同一個(gè)研究領(lǐng)域中,從一個(gè)研究對(duì)象可以很快轉(zhuǎn)移到另外一個(gè)研究對(duì)象,二者結(jié)合很容易形成新的研究?jī)?nèi)容,這也驗(yàn)證了基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)的思想。

      總的來說,關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)的演化分析,一定程度上反映了知識(shí)的形成與發(fā)展的規(guī)律。關(guān)聯(lián)知識(shí)網(wǎng)絡(luò)中節(jié)點(diǎn)與關(guān)聯(lián)的增長(zhǎng),反映出新知識(shí)的不斷出現(xiàn),而且知識(shí)網(wǎng)絡(luò)的結(jié)構(gòu)與相關(guān)性可以更好用于發(fā)現(xiàn)有用的關(guān)聯(lián),提高文獻(xiàn)的知識(shí)發(fā)現(xiàn)效率。

      猜你喜歡
      連通分支生物醫(yī)學(xué)關(guān)聯(lián)
      芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
      偏序集的序連通關(guān)系及其序連通分支
      靈長(zhǎng)類生物醫(yī)學(xué)前沿探索中的倫理思考
      關(guān)于圖的距離無符號(hào)拉普拉斯譜半徑的下界
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      國(guó)外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評(píng)與啟示
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
      一個(gè)圖論問題的簡(jiǎn)單證明
      新課程(下)(2015年9期)2015-04-12 09:23:30
      内江市| 白城市| 邢台县| 镇雄县| 五原县| 南溪县| 永安市| 剑阁县| 文安县| 蓝田县| 穆棱市| 和田市| 安国市| 锦屏县| 延吉市| 柞水县| 太谷县| 乐平市| 隆回县| 资兴市| 和林格尔县| 莱州市| 峨眉山市| 永昌县| 合川市| 铜川市| 孟津县| 濮阳县| 台江县| 连平县| 思茅市| 日土县| 台北市| 镇巴县| 合江县| 兖州市| 宝山区| 桦川县| 余庆县| 罗田县| 开原市|