李一飛 周開宇 華益民 母得志
·特稿·
大數(shù)據(jù)時代的兒科學(xué)研究
——整合、優(yōu)化、挑戰(zhàn)與機(jī)遇
李一飛1,2周開宇1,3華益民1,3母得志1,3
一系列來自于信息技術(shù)及生命科學(xué)研究的突破,正在引領(lǐng)醫(yī)療行業(yè)及生物醫(yī)學(xué)產(chǎn)業(yè)發(fā)生重大的變革,這些變革使得患者、醫(yī)生和生物制藥等相關(guān)個體之間的關(guān)系更為緊密[1]。大數(shù)據(jù)(big data)存儲與分析技術(shù)的應(yīng)用,正是推動這場變革的因素之一[2,3]。大數(shù)據(jù)分析使得相關(guān)研究者能充分的獲取患者的基因組信息及相關(guān)醫(yī)療信息,并通過互聯(lián)網(wǎng)信息裝置實現(xiàn)儲存、轉(zhuǎn)移、讀取、分析和再利用[4]。因此越來越多患病群體的基因及相關(guān)生物學(xué)信息被記錄,從而引發(fā)生物信息知識爆發(fā),促使醫(yī)學(xué)及生命科學(xué)研究人員從經(jīng)典的特定人群抽樣研究方式逐步轉(zhuǎn)變,未來相關(guān)研究對象則可能無限接近于“總體”[5]。
大數(shù)據(jù)分析采用新一代信息學(xué)技術(shù)和架構(gòu),通過高速捕捉數(shù)據(jù),從中發(fā)現(xiàn)和分析得到有用信息[6]。目前大數(shù)據(jù)分析需要在傳統(tǒng)計算架構(gòu)上進(jìn)行轉(zhuǎn)變,以滿足研究人員能夠同時儲存并處理海量數(shù)據(jù),并保證這些數(shù)據(jù)取用的方便性與安全性[7,8]。由于激增的大數(shù)據(jù)信息量絕大部分為非結(jié)構(gòu)化信息,需要存儲條件靈活多變,使得研究者不得不放棄傳統(tǒng)格式化的數(shù)據(jù)庫[8]。
盡管實現(xiàn)大數(shù)據(jù)分析需要面臨諸多挑戰(zhàn),但伴隨著數(shù)據(jù)生成、采集、存儲、傳輸和信息安全等革命性的突破,使得大數(shù)據(jù)分析的成本更加低廉、方便和快捷。此外,生物學(xué)和醫(yī)學(xué)數(shù)據(jù)比任何其他學(xué)科的信息更加多樣化,這使得大數(shù)據(jù)分析更加注重資源整合性。隨著信息技術(shù)快速發(fā)展,一系列IT或者互聯(lián)網(wǎng)公司也加入其中,為生物醫(yī)學(xué)領(lǐng)域的大數(shù)據(jù)研究提供硬件及整體解決方案的支持,如亞馬遜、恩科、戴爾、GE、BM、英特爾、微軟和甲骨文。上述多種整合解決方案,使大數(shù)據(jù)分析不在僅僅局限于特定的實驗室或機(jī)構(gòu),而逐步擴(kuò)展至全球范圍,并通過互聯(lián)網(wǎng)/云端存儲等技術(shù)在較短時間內(nèi)募集海量的病例信息,以完成特定疾病的數(shù)據(jù)整合,這正是未來的生物醫(yī)學(xué)研究模式。即生物醫(yī)學(xué)證據(jù)的產(chǎn)生將逐步依賴于大數(shù)據(jù)分析,這些分析將包含數(shù)十萬個、甚至上百萬個體,并通過分析給出相應(yīng)結(jié)論,使醫(yī)學(xué)證據(jù)的產(chǎn)生源從群體向“總體”轉(zhuǎn)變。
生物學(xué)相關(guān)的大數(shù)據(jù)分析基礎(chǔ)是基因或者氨基酸等測序技術(shù),通過大樣本測序分析可以充分掌握特定生物體的生物學(xué)信息[6,9]。但對于醫(yī)學(xué)來講,大數(shù)據(jù)不只限于基因或者氨基酸相關(guān)的序列,還來自于醫(yī)院的病歷記錄、相關(guān)檢查資料、影像資料、暴露風(fēng)險因素、保險記錄及復(fù)診記錄等信息[10,11]。這些一同構(gòu)成了醫(yī)學(xué)相關(guān)的大數(shù)據(jù)集合,這些整合過后的數(shù)據(jù)有利于更集中且針對性的闡明問題,而這些結(jié)論是傳統(tǒng)抽樣調(diào)查所不能達(dá)到的。例如,大數(shù)據(jù)集可以確定對個人影響較小,但對于群體卻具有一定累積效應(yīng)的風(fēng)險事件。同樣通過大數(shù)據(jù)整合,可以得到足夠數(shù)量的罕見病或者受小概率暴露事件影響的病例,解決在獨立臨床研究中難以招募到足夠的成員進(jìn)行亞組分析的困境,以便在大數(shù)據(jù)整合后的資料分析中獲得足夠的統(tǒng)計學(xué)檢驗效能[10,12,13]。并且大數(shù)據(jù)整合后的醫(yī)療記錄能用來跟蹤個體疾病進(jìn)程及健康狀態(tài),以評估干預(yù)措施的長期影響。但需要注意的是,通過互聯(lián)信息技術(shù)手段整合而來的大數(shù)據(jù)資源必然將存在一定的異質(zhì)性,這也是以后大數(shù)據(jù)整合過程中需要解決的問題。
兒科較成人學(xué)科有更多的年齡分期,而且這些分期與解剖、生理、生化和心理行為等功能密不可分。胎兒期:從受精卵形成致胎兒娩出臍帶結(jié)扎,胎兒在宮內(nèi)經(jīng)受各種因素(感染、創(chuàng)傷、營養(yǎng)等)影響;嬰兒期:出生自1歲,各系統(tǒng)器官在生長、發(fā)育和完善中逐漸適應(yīng)第1次生長高峰,期間包括的新生兒期(胎兒至28 d)更為特殊,脫離母體后環(huán)境變化轉(zhuǎn)而獨立生存,特別是早產(chǎn)兒器官功能發(fā)育都不成熟;介于胎兒期和新生兒期之間的圍產(chǎn)期(胎齡28周至生后7 d),圍生兒易受到宮內(nèi)、分娩過程及生后(特別是生后1周)各種因素影響而患?。挥變浩冢骸?歲,消化系統(tǒng)功能和飲食接近于成人;學(xué)齡前期:至6~7歲,語言思維發(fā)展迅速;學(xué)齡期:至青春期前,各系統(tǒng)器官發(fā)育已接近成人(除生殖系統(tǒng));青春期:11~20歲,體格生長發(fā)育迎來第2個高峰,生殖系統(tǒng)迅速發(fā)育趨于成熟,易發(fā)生分泌和自主神經(jīng)系統(tǒng)異常表現(xiàn)。
基于生理和心理成熟度的分期,是兒科學(xué)的重要特點,反映了兒科學(xué)的自身特點,新生兒與產(chǎn)科的銜接,青春期與成人的銜接,圍產(chǎn)期介于胎兒期和新生兒期之間,兒童始終處于不斷生長發(fā)育的階段和兒童保??;隨著DOHaD理論的建立與發(fā)展[14],從胎兒期以后所經(jīng)歷生理、心理行為變化和環(huán)境因素的作用,與日后尤其是成年后的健康與疾病狀態(tài)緊密相關(guān),這也意味著實現(xiàn)兒科學(xué)大數(shù)據(jù)整合具有更高的難度。一方面是基于兒科學(xué)學(xué)科自身發(fā)展規(guī)律探索的大數(shù)據(jù)采集與整合,另一方面要適應(yīng)成人健康與疾病調(diào)取的兒科學(xué)大數(shù)據(jù)并進(jìn)行縱向資料的分析與信息識別。例如父母親和胎兒的信息、新生兒信息、生長發(fā)育數(shù)據(jù)和(或)相關(guān)社會信息等。
兒童時期是整個完整生命過程中環(huán)境因素相對單純和簡單的時期,所以雙親,尤其是來自母親的多種因素對于兒科疾病的發(fā)生發(fā)展具有重要的意義。在Ludwig等[15]研究中,基于大數(shù)據(jù)整合的研究設(shè)計,總共募集了50萬名婦女和110萬后代樣本資料,精確界定了在妊娠期間增重>24 kg孕婦其新生兒超重(出生體重>4 kg)的比例為妊娠期間增重8~10 kg孕婦的2.26倍。Reichenberg等[16]基于大數(shù)據(jù)整合設(shè)計的出生資料回顧研究,闡述了圍生期環(huán)境暴露與兒童孤獨癥的相關(guān)性。通過大數(shù)據(jù)整合后的提取識別功能,研究者不僅納入了孤獨癥兒童,同時獲取了其兄弟姐妹的人口統(tǒng)計信息、健康狀況以及父母親的相關(guān)信息。在500萬份個體信息中,有18 731名兒童被診斷為孤獨癥;但是與既往研究結(jié)論不同的是,他們發(fā)現(xiàn)在1992至2000年任何一個出生隊列中,母親的妊娠年齡與兒童孤獨癥密切相關(guān),而不是父親或者是雙親平均年齡。在既往研究中,由于未能募集到足夠的大數(shù)據(jù)整合信息,使得研究因為樣本量有限,而得到父親或者是雙親平均年齡與兒童孤獨癥相關(guān)。這既體現(xiàn)了大數(shù)據(jù)整合對于兒科學(xué)研究的推動作用,也反映了對于妊娠期資料及雙親特征信息納入兒科學(xué)信息整合的重要性。
兒童時期是先天遺傳性疾病表型暴露與發(fā)現(xiàn)最多的時期,隨著新一代基因測序技術(shù)的快速應(yīng)用且成本的快速下降,使得基因測序能夠高效地完成。在醫(yī)學(xué)研究的大數(shù)據(jù)整合中,基因測序是其重要的組成部分[17]。當(dāng)先天性遺傳性疾病的患兒出現(xiàn)臨床表型暴露時,全基因組數(shù)據(jù)的收集則成為兒科學(xué)大數(shù)據(jù)整合的一個重要方面,通過相應(yīng)數(shù)據(jù)的不斷積累,通過后文提到的大數(shù)據(jù)優(yōu)化后的醫(yī)療決策方案可以預(yù)測一部分先天性遺傳性疾病發(fā)生,并為青少年期,乃至成年后這類疾病的治療和控制提供最初始的大數(shù)據(jù)資源。
隨著計算機(jī)運算能力快速提升及存儲技術(shù)的迅速改善,基因組測序的成本從曾經(jīng)數(shù)百萬美元每基因組驟降至數(shù)千美元,并且還在持續(xù)下降?,F(xiàn)階段某些基于臨床實踐整合的數(shù)據(jù)庫已經(jīng)被應(yīng)用于藥物研發(fā)和臨床研究,表明信息技術(shù)正逐步改變現(xiàn)有的生物醫(yī)學(xué)研究模式[18],而這種趨勢將徹底改變生命科學(xué)與醫(yī)學(xué)的研究方式。
基于大數(shù)據(jù)整合的兒科學(xué)診療優(yōu)化方案一般包含以下幾個方面(圖1)。
首先是數(shù)據(jù)的生成:包含如DNA測序及氨基酸測序等基因組學(xué)信息的產(chǎn)生,以及來自于臨床的生物樣本與相關(guān)臨床記錄、健康記錄等信息。
其次是數(shù)據(jù)的移動、加密和儲存:在數(shù)據(jù)產(chǎn)生之后, 通過網(wǎng)絡(luò)或移動存儲技術(shù)將原始數(shù)據(jù)轉(zhuǎn)移至可靠的存儲設(shè)備中,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大數(shù)據(jù)存儲已經(jīng)不僅局限于傳統(tǒng)的“房間內(nèi)”存儲設(shè)備,“云端”存儲將成為未來的發(fā)展趨勢,這一改變將使得大數(shù)據(jù)的轉(zhuǎn)移更為快捷;在存儲過程中需要對原始數(shù)據(jù)進(jìn)行加密,面對多樣性極其豐富的醫(yī)學(xué)大數(shù)據(jù),數(shù)據(jù)加密將是未來醫(yī)學(xué)大數(shù)據(jù)存儲所面臨的關(guān)鍵問題;完成存儲之后,大數(shù)據(jù)需要能夠被隨時調(diào)取,現(xiàn)行的診療與研究模式已經(jīng)跨越傳統(tǒng)的數(shù)據(jù)讀取的界限,移動設(shè)備已經(jīng)開始逐步滲透到研究的各個領(lǐng)域,這就要求大數(shù)據(jù)存儲設(shè)備不僅需要滿足“云端”儲存,同樣需要支持移動設(shè)備的調(diào)取。
圖1 兒科學(xué)大數(shù)據(jù)整合與應(yīng)用過程流程圖(原圖出處為參考文獻(xiàn)[4])
最后則需要完成大數(shù)據(jù)分析、可視化和轉(zhuǎn)化:大數(shù)據(jù)的產(chǎn)生最終目的之一是促進(jìn)兒科學(xué)研究以優(yōu)化相關(guān)診療模式,通過對募集的大數(shù)據(jù)進(jìn)行分析之后,再與所需臨床資料、暴露因素及社會因素交互分析之后,得出清晰準(zhǔn)確且易讀的可視化分析報告,使得臨床醫(yī)生及相關(guān)研究者能夠輕松識別結(jié)果同時給出合適的解讀,并應(yīng)用于臨床終端;再與個體化患者基因組學(xué)及暴露因素匹配,給出準(zhǔn)確的疾病診斷、準(zhǔn)確的治療目標(biāo)和藥物選擇,最終實現(xiàn)個體化診療。這便是大數(shù)據(jù)整合與分析對醫(yī)學(xué)知識的優(yōu)化,將群體性的醫(yī)療方案或經(jīng)驗轉(zhuǎn)變?yōu)閭€體化的醫(yī)療決策[9,19]。
由于這些技術(shù)的快速廣泛應(yīng)用,加之大數(shù)據(jù)整合所帶來的醫(yī)學(xué)知識的快速聚集和對疾病認(rèn)識的深入,使患者接受的醫(yī)療服務(wù)將從群體策略,最終發(fā)展為個體化方案,其中包括根據(jù)每個患者的病史、種族和基因譜進(jìn)行有針對性診斷和治療[1,11,20,21]。臨床醫(yī)生或醫(yī)學(xué)研究者通過應(yīng)用大數(shù)據(jù)分析服務(wù)于個體化醫(yī)療的主要優(yōu)勢在于,能在有限時間內(nèi)做出準(zhǔn)確判斷,提高醫(yī)療水平和治療效果。隨著各種基因組學(xué)測序信息和醫(yī)療信息的不斷積累和理解的深入,醫(yī)生將可能完整掌握遺傳致病和相關(guān)暴露因素,并有助于優(yōu)化治療方案,即準(zhǔn)確的疾病診斷、治療目標(biāo)及藥物選擇。這其中就要求充分募集和整合基因組學(xué)數(shù)據(jù)、出生信息、臨床信息、醫(yī)療數(shù)據(jù)、社會信息和保險資料,使其成為一個開放且安全的數(shù)據(jù)庫,易于二次分析。兒科學(xué)大數(shù)據(jù)整合最終將實現(xiàn)以改善患兒治療效果為目的的個體化醫(yī)療方案[22],促進(jìn)兒科學(xué)研究,同時降低成本[23~25]。
伴隨著大數(shù)據(jù)時代的來臨,越來越豐富的信息得到募集。但是這些數(shù)據(jù)的轉(zhuǎn)移及取用也帶來相應(yīng)的倫理學(xué)風(fēng)險。大數(shù)據(jù)整合下的兒科學(xué)研究主要涉及到以下兩個方面的倫理學(xué)問題[22,26]。
首先是患兒信息的私密性和安全性[27~29]。在大數(shù)據(jù)整合的一般流程中,數(shù)據(jù)往往產(chǎn)生于第一地點,之后經(jīng)由傳輸設(shè)備轉(zhuǎn)移至儲存系統(tǒng),而后期需對大數(shù)據(jù)進(jìn)行分析或者二次調(diào)取。在這個過程之中,大數(shù)據(jù)研究者及整合方案開發(fā)者所強(qiáng)調(diào)的往往是便捷和迅速。然而在這個過程中該如何保護(hù)這些參與者的隱私及保障相關(guān)獲益??傮w來說,大數(shù)據(jù)整合和分析將給兒科學(xué)甚至是生物醫(yī)學(xué)研究帶來重大的變革,也將成為科學(xué)研究的重要組成部分,原始數(shù)據(jù)/生物樣本提供者為生物醫(yī)學(xué)研究所帶來的利益。必需明確的是,這些潛在獲益往往回歸于社會,即這種獲益?zhèn)€體往往不確定。相關(guān)疾病社會個體或者研究者往往是這類資料的首批獲益者,而原始數(shù)據(jù)/生物樣本提供者在其中獲益的概率極小,反而要承擔(dān)一定程度的風(fēng)險。這些風(fēng)險都?xì)w結(jié)于敏感信息的泄露,其中包括性傳播疾病、人工流產(chǎn)或慢性疾病等。目前雖然采取了多種方法盡量減少敏感信息泄露的風(fēng)險,部分?jǐn)?shù)據(jù)處理人員將所募集到的信息進(jìn)行去身份化,給予充分的加密,并且在原始數(shù)據(jù)中可能還參雜一些無用的混雜信息,同時也限制數(shù)據(jù)的公開性。但是由于醫(yī)學(xué)數(shù)據(jù)和樣本的特殊性,大數(shù)據(jù)整合往往合并有一些行政記錄、保險記錄等信息;在兒科學(xué)大數(shù)據(jù)研究中,出生信息和生長發(fā)育環(huán)境也通常被帶入數(shù)據(jù)包中。這些具有指向性的行政數(shù)據(jù)往往可以結(jié)合并最終指向某個特定個體。所以在相關(guān)數(shù)據(jù)加密中,兒科學(xué)醫(yī)學(xué)大數(shù)據(jù)的加密工作較一般生物樣本更為復(fù)雜。同時還需要注意的是,大數(shù)據(jù)整合最終將落實到個體化治療,并且長期研究需要對原始個體進(jìn)行長時間的追蹤,這使得數(shù)據(jù)在加密的同時還需要具有易還原性。即當(dāng)特定患兒個體需要利用大數(shù)據(jù)資源來優(yōu)化臨床診療決策時,能夠快捷的重新在大數(shù)據(jù)海量信息中命中他的資料;同時在后續(xù)追蹤時能夠易于重新接入數(shù)據(jù)庫,完成資料的補(bǔ)充[1,5,27]。
其次,更為棘手的倫理問題是知情同意。在使用大數(shù)據(jù)進(jìn)行研究時,即使在必需情況下也不可能對數(shù)以百萬計的個體進(jìn)行“再同意”。而如果進(jìn)行再次分析時僅針對獲得“再同意”許可的樣本,則會引起重大的偏倚性。Hayden等[30]研究也闡述了對于生物樣本再利用或基于首次研究數(shù)據(jù)的二次分析所面臨的倫理學(xué)困境,指出原始的生物樣本/臨床信息往往是患兒對于某一特定研究所給予的知情同意,而后續(xù)再次使用或分析時,極有可能超出原來知情同意的范圍。為此多家大數(shù)據(jù)研究機(jī)構(gòu)指出,在初次生物樣本/臨床信息募集的時候,則應(yīng)在相關(guān)知情同意書上增加適當(dāng)擴(kuò)大知情同意范圍內(nèi)容,以確定提供者是否有意愿接受原始資料/數(shù)據(jù)的二次利用或分析。大數(shù)據(jù)使用的生物/醫(yī)療信息有效地促進(jìn)了社會獲益,如何更具成本效益的利用現(xiàn)有的數(shù)據(jù)來解決新的研究問題,并規(guī)避相應(yīng)的倫理學(xué)困境,是現(xiàn)階段亟需明確的問題。應(yīng)避免盲目利用已有大數(shù)據(jù)資源多次分析,而損害原始數(shù)據(jù)提供者利益并提高相關(guān)風(fēng)險的激進(jìn)性研究行為。
除此以外,兒科學(xué)大數(shù)據(jù)研究還將面臨一項重大挑戰(zhàn),那就是如何從海量生物數(shù)據(jù)中得到相關(guān)的可視化圖形。先前Science于2005年發(fā)文提出相關(guān)問題,即如何從海量生物數(shù)據(jù)中產(chǎn)生可視化圖形(125個亟待科學(xué)家解決的關(guān)鍵問題之一)[31]。通過大數(shù)據(jù)分析的初始資料往往具有高度的專業(yè)性,需要特定的計算機(jī)/信息或者基因組學(xué)相關(guān)研究者予以闡述。而大數(shù)據(jù)整合的初衷則在于取用的便捷性,如何使一線研究人員及臨床醫(yī)生輕松地解讀大數(shù)據(jù)報告,則是大數(shù)據(jù)整合與分析從幕后走到臺前的關(guān)鍵因素[32]。有研究基于文獻(xiàn)的大數(shù)據(jù)分析兒童保健學(xué)科知識可視化研究[33]和兒童心血管學(xué)科知識可視化研究[34],對于相關(guān)領(lǐng)域的研究有一定的參考意義,但上述研究是基于已發(fā)表文獻(xiàn)的二次分析,并非直接應(yīng)用生物數(shù)據(jù),可視化難度較低且獲得可視化資料具有一定的延后性。所以及時利用原始生物學(xué)數(shù)據(jù)給出可視化圖形,是兒科學(xué)大數(shù)據(jù)研究與臨床實踐間的關(guān)鍵節(jié)點。一旦能夠快速生成直接來源于生物樣本/醫(yī)療信息的可視化圖形,不需要專業(yè)技術(shù)人員進(jìn)行解讀,則能夠使臨床醫(yī)生快速響應(yīng),用以優(yōu)化個體化診療決策。
從1998年John R. Masey提出大數(shù)據(jù)理念以來,大數(shù)據(jù)研究在近年來經(jīng)歷了飛速的發(fā)展。隨著信息技術(shù)的變革,大數(shù)據(jù)的研究進(jìn)展超出了先前的預(yù)期。通過PubMed以“big data”進(jìn)行檢索,可以命中4 719篇相關(guān)文獻(xiàn),并且近年來出現(xiàn)“井噴”態(tài)勢??梢钥闯龃髷?shù)據(jù)研究越來越受到相關(guān)生物醫(yī)學(xué)研究者的關(guān)注。同時對于某些熱點的醫(yī)學(xué)問題,大數(shù)據(jù)整合資源已經(jīng)完成了初步的成果轉(zhuǎn)化,開始“反哺”臨床工作。如HIV相關(guān)的大數(shù)據(jù)分析,已經(jīng)都通過整合的方式完成大數(shù)據(jù)成果轉(zhuǎn)化,Los Alamos HIV Databases、UNAIDS、Stanford University HIV Drug、Resistance Database GPS-Prot、This week in virology HIV Replication Cycle及Gene Overlapper多個網(wǎng)站使得研究者能夠從中獲得所需的資源,并用于優(yōu)化臨床診療決策[35]。腫瘤學(xué)大數(shù)據(jù)研究也已經(jīng)相對成熟,成為生物醫(yī)學(xué)大數(shù)據(jù)研究的重要組成部分[24,36]。而在PubMed以“big data pediatric(s)”進(jìn)行檢索僅可命中103篇文獻(xiàn);在兒科學(xué)研究方面,目前還沒有像上述HIV多個數(shù)據(jù)轉(zhuǎn)化平臺。雖然國內(nèi)現(xiàn)階段已經(jīng)探索性地整合先天性心臟病介入治療相關(guān)的大數(shù)據(jù)資源,但該數(shù)據(jù)系統(tǒng)相對封閉,并沒有設(shè)置多用戶的分析接口,限制了整合資源的應(yīng)用,兒科學(xué)大數(shù)據(jù)研究相對滯后,但同時也是兒科學(xué)大數(shù)據(jù)研究面臨的機(jī)遇。
圖2顯示,以陳超美創(chuàng)建的Citespace可視化研究方法建立了生物醫(yī)學(xué)大數(shù)據(jù)研究的知識區(qū)時圖形(具體方法參照文獻(xiàn)[37,38])。隨著20世紀(jì)80年代末的測序技術(shù)的成熟,大數(shù)據(jù)研究也由此展開。說明雖然大數(shù)據(jù)概念于20世紀(jì)末才提出,但現(xiàn)階段的生物醫(yī)學(xué)大數(shù)據(jù)研究的基礎(chǔ)知識結(jié)構(gòu)已于1990年左右成型,隨著后續(xù)信息技術(shù)的快速發(fā)展,生物醫(yī)學(xué)大數(shù)據(jù)研究也獲得了長足的發(fā)展機(jī)會。而兒科學(xué)大數(shù)據(jù)研究由于檢索命中的文獻(xiàn)過少,未能繪制出知識區(qū)時圖形,但在其中引用次數(shù)最高的3篇文獻(xiàn)分別為Sach TH 2004IntJPediatrOtorhi、Sach Tracey H 2003ApplHealthEconHealthPolicy、Odonoghue GM 1996JRoySocMed??梢娖渲R基礎(chǔ)結(jié)構(gòu)成型較晚(主要參考文獻(xiàn)發(fā)表于2000年左右),相較整體大數(shù)據(jù)研究滯后約10年左右。
圖2 基于Citespace的生物醫(yī)學(xué)大數(shù)據(jù)研究知識區(qū)時圖形
同時利用主題詞社會網(wǎng)絡(luò)分析圖進(jìn)行進(jìn)一步分析(具體方法參照先前發(fā)表的研究[39]),對于生物醫(yī)學(xué)大數(shù)據(jù)整體研究而言(圖3),社會網(wǎng)絡(luò)圖形較為豐富,高頻主題詞囊括了從數(shù)據(jù)產(chǎn)生、轉(zhuǎn)移、存儲、分析及應(yīng)用的多個過程,也基本體現(xiàn)現(xiàn)階段生物醫(yī)學(xué)大數(shù)據(jù)研究的整體發(fā)展思路。而兒科學(xué)大數(shù)據(jù)研究由于研究數(shù)量的不足,也導(dǎo)致其結(jié)構(gòu)分布欠佳(圖4)。其大數(shù)據(jù)產(chǎn)生的應(yīng)用技術(shù)并未與臨床問題較好的結(jié)合,這也是發(fā)展滯后的一個因素。同時在兒科學(xué)大數(shù)據(jù)主題詞社會網(wǎng)絡(luò)圖顯示,圍生期保健和兒童保健占據(jù)重要位置,這也是兒科學(xué)大數(shù)據(jù)研究的特色與優(yōu)勢[22,40~42]。由此可以看出,兒科學(xué)大數(shù)據(jù)研究基礎(chǔ)知識結(jié)構(gòu)成型較晚,知識結(jié)構(gòu)還有待進(jìn)一步改善,但同時也具有自身的特色與優(yōu)勢。參考生物醫(yī)學(xué)大數(shù)據(jù)研究的發(fā)展模式,未來一段時間內(nèi)兒科學(xué)大數(shù)據(jù)研究將迎來自己的發(fā)展機(jī)遇,完善大數(shù)據(jù)整合和分析研究,規(guī)避相應(yīng)的倫理學(xué)困境,最終優(yōu)化兒科學(xué)臨床診療決策。
兒科學(xué)研究人員已經(jīng)越來越意識到大數(shù)據(jù)研究的優(yōu)勢和對學(xué)科發(fā)展所帶來的驅(qū)動性。通過整合基因組學(xué)等相關(guān)信息以及病歷記錄、檢查數(shù)據(jù)、影像資料、相關(guān)暴露風(fēng)險因素、保險記錄、就診等信息及所需行政信息所形成的兒科學(xué)大數(shù)據(jù)資源,通過進(jìn)一步的分析和資源的二次利用,將產(chǎn)生出巨大的研究成果和研究價值,進(jìn)而優(yōu)化臨床診療方案。隨著大數(shù)據(jù)研究的不斷深入,研究人員將從傳統(tǒng)的抽樣研究逐步過渡到“總體”研究,獲得在抽樣研究中可能錯過或不同的研究成果。并伴隨可視化進(jìn)程的深入,國內(nèi)外兒科研究人員將共同享受其所帶來的進(jìn)步和便捷,平衡各個地區(qū)研究水平的差異性。大數(shù)據(jù)研究將從人群中來,到人群中去,最終服務(wù)于人群(of the people, for the people, by the people)[43]。
圖3 生物醫(yī)學(xué)大數(shù)據(jù)研究核心主題詞社會網(wǎng)絡(luò)圖
圖4 兒科學(xué)大數(shù)據(jù)研究核心主題詞社會網(wǎng)絡(luò)圖
[1]Costa FF. Social networks, web-based tools and diseases: Implications for biomedical research. Drug Discov Today, 2013, 18(5-6):272-281
[2]Carneiro HA, Mylonakis E. Google trends: A web-based tool for real-time surveillance of disease outbreaks. Clin Infect Dis, 2009, 49(10):1557-1564
[3]Dugas AF, Jalalpour M, Gel Y, et al. Influenza forecasting with google flu trends. PLoS One, 2013, 8(2):e56176
[4]Costa FF. Big data in biomedicine. Drug Discov Today, 2014, 19(4):433-440
[5]Knoppers BM, Zawati MH, Kirby ES. Sampling populations of humans across the world: Elsi issues. Annu Rev Genomics Hum Genet, 2012, 13:395-413
[6]Clarke L, Zheng-Bradley X, Smith R, et al. The 1000 genomes project: Data management and community access. Nat Methods, 2012, 9(5):459-462
[7]Jensen PB, Jensen LJ, Brunak S. Mining electronic health records: Towards better research applications and clinical care. Nat Rev Genet, 2012, 13(6):395-405
[8]Issa SA, Kienzler R, El-Kalioby M, et al. Streaming support for data intensive cloud-based sequence analysis. Biomed Res Int, 2013, 2013:791051
[9]Schweiger MR, Barmeyer C, Timmermann B. Genomics and epigenomics: New promises of personalized medicine for cancer patients. Brief Funct Genomics, 2013, 12(5):411-421
[10]Bennett F. Use the power of big data. Health Serv J, 2014, 124(6376):18
[11]Lupse OS, Crisan-Vida M, Stoicu-Tivadar L, et al. Supporting diagnosis and treatment in medical care based on big data processing. Stud Health Technol Inform, 2014, 197:65-69
[12]Barlow RD. Great expectations for big data: Will the next wave of analytics lead to a great awakening or more strife? Health Manag Technol, 2014, 35(3):18-21
[13]Naimi AI, Westreich DJ. Big data: A revolution that will transform how we live, work, and think. Am J Epidemiol. 2014 Apr 8. Epub ahead of print
[14]Silveira PP, Portella AK, Goldani MZ, et al. Developmental origins of health and disease (dohad). J Pediatr (Rio J), 2007, 83(6):494-504
[15]Ludwig DS, Currie J. The association between pregnancy weight gain and birthweight: A within-family comparison. Lancet, 2010, 376(9745):984-990
[16]Reichenberg A, Gross R, Sandin S, et al. Advancing paternal and maternal age are both important for autism risk. Am J Public Health, 2010, 100(5):772-773
[17]Hofker MH, Fu J, Wijmenga C.The genome revolution and its role in understanding complex diseases.Biochim Biophys Acta,2014
[18]Skow A, Douglas I, Smeeth L. The association between parkinson's disease and anti-epilepsy drug carbamazepine: A case-control study using the uk general practice research database. Br J Clin Pharmacol, 2013, 76(5):816-822
[19]Howland RH. Future prospects for pharmacogenetics in the quest for personalized medicine. J Psychosoc Nurs Ment Health Serv, 2012, 50(12):13-16
[20]Lin C, Karlson EW, Canhao H, et al. Automatic prediction of rheumatoid arthritis disease activity from the electronic medical records. PLoS One, 2013, 8(8):e69932
[21]Zhang Z, Xu Y, Liu J, et al. Automatic diagnosis of pathological myopia from heterogeneous biomedical data. PLoS One, 2013, 8(6):e65736
[22]Currie J. "Big data" versus "big brother": On the appropriate use of large-scale data collections in pediatrics. Pediatrics, 2013, 131 Suppl 2:S127-132
[23]Berger ML, Doban V. Big data, advanced analytics and the future of comparative effectiveness research. J Comp Eff Res, 2014, 3(2):167-176
[24]Bolouri H. Modeling genomic regulatory networks with big data. Trends Genet, 2014, 30(5):182-191
[25]Szlezak N, Evers M, Wang J, et al. The role of big data and advanced analytics in drug discovery, development, and commercialization. Clin Pharmacol Ther, 2014, 95(5):492-495
[26]Docherty A. Big data--ethical perspectives. Anaesthesia, 2014, 69(4):390-391
[27]Schadt EE. The changing privacy landscape in the era of big data. Mol Syst Biol, 2012, 8:612
[28]Erdmann J. As personal genomes join big data will privacy and access shrink? Chem Biol, 2013, 20(1):1-2
[29]Jee K, Kim GH. Potentiality of big data in the medical sector: Focus on how to reshape the healthcare system. Healthc Inform Res, 2013, 19(2):79-85
[30]Hayden EC. Informed consent: A broken contract. Nature, 2012, 486(7403):312-314
[31]125 big questions that face scientific inquiry over the next quarter-century (2005). http://www.sciencemag.org/site/feature/misc/webfeat/125th/
[32]Ola O, Sedig K. The challenge of big data in public health: An opportunity for visual analytics. Online J Public Health Inform, 2014, 5(3):223
[33]Li YF(李一飛), Zhou KY, Zhang CF et al. Visualized subject knowledge-mapping study in the subject of children health care based on multiple statistical and social network analysis. Chin J Evid Based Pediatr(中國循證兒科雜志), 2012, 7(6):409-417
[34]Li YF(李一飛), Ding JJ, Zhou KY, et al. Visualized subject knowledge-mapping study on the subject of pediatric cardiovascular medicine based on multiple statistical and social network analysis. Chin J Evid Based Pediatr(中國循證兒科雜志), 2014, 9(2):89-100
[35]Bushman FD, Barton S, Bailey A, et al. Bringing it all together: Big data and hiv research. AIDS, 2013, 27(5):835-838
[36]Van Allen EM, Wagle N, Levy MA. Clinical analysis and interpretation of cancer genome data. J Clin Oncol, 2013, 31(15):1825-1833
[37]Chen C, Chen Y. Searching for clinical evidence in citespace. AMIA Annu Symp Proc, 2005:121-125
[38]Chen C, Hu Z, Liu S, et al. Emerging trends in regenerative medicine: A scientometric analysis in citespace. Expert Opin Biol Ther, 2012, 12(5):593-608
[39]Zhou KY(周開宇), Li YF, Shen JT, et al. Visualized subject knowledge-mapping study on interventional diagnosis and therapy of congenital heart disease based on multiple statistical and social network analysis. Chin J Evid Based Pediatr(中國循證兒科雜志), 2012, 7(1):44-49
[40]Hunt J, Chang A. Big data in pediatric cardiac care: Is it time? Pediatr Crit Care Med, 2013, 14(5):548-549
[41]Litman RS. Complications of laryngeal masks in children: Big data comes to pediatric anesthesia. Anesthesiology, 2013, 119(6):1239-1240
[42]Simpson L, Owens PL, Zodet MW, et al. Health care for children and youth in the united states: Annual report on patterns of coverage, utilization, quality, and expenditures by income. Ambul Pediatr, 2005, 5(1):6-44
[43]Lister C, Davies M. Big data-of the people, for the people, by the people. Anaesthesia, 2014, 69(5):513-514
(本文編輯:張崇凡)
10.3969/j.issn.1673-5501.2014.04.002
國家自然科學(xué)基金:81070136,81270226;四川省衛(wèi)生廳課題:130110;長江學(xué)者和創(chuàng)新團(tuán)隊發(fā)展計劃:IRT0935
1 四川大學(xué)華西第二醫(yī)院兒童心血管科;2 四川大學(xué)華西臨床醫(yī)學(xué)院;3 婦兒疾病與出生缺陷教育部重點實驗室 成都,610041
華益民,E-mail:nathan_hua@163.com
2014-05-03
2014-06-05)