紀(jì)兆華 王春云 高春紅 于靜紅
【摘? 要】論文探討生物大數(shù)據(jù)可視化直觀展現(xiàn)測(cè)序數(shù)據(jù)、分子結(jié)構(gòu)數(shù)據(jù)等多種生物學(xué)數(shù)據(jù)。數(shù)據(jù)可視化幫助生物大數(shù)據(jù)科學(xué)分析數(shù)據(jù)結(jié)果,如同時(shí)間或空間相關(guān)的信息等,通過(guò)計(jì)算機(jī)圖形學(xué)、統(tǒng)計(jì)學(xué)等技術(shù)轉(zhuǎn)變?yōu)楦又庇^生動(dòng)的圖或表。計(jì)算機(jī)可視化操作能夠?qū)⒊橄蟮男畔⑦M(jìn)行直觀的分析并表示出來(lái),有助于更好地理解數(shù)據(jù),增強(qiáng)認(rèn)知數(shù)據(jù)。
【Abstract】This paper discusses the biological big data visualization and visual presentation of sequencing data, molecular structure data and other biological data. Data visualization helps biological big data analyze data results scientifically, such as information related to time or space, etc., which can be transformed into more intuitive and vivid graphs or tables through computer graphics, statistics and other technologies. Computer visualization can analyze and represent abstract information intuitively, which is helpful to better understand data and enhance cognitive data.
【關(guān)鍵詞】云計(jì)算技術(shù);生物大數(shù)據(jù);可視化
【Keywords】cloud computing technology; biological big data; visualization
【中圖分類號(hào)】TP311.1;Q811.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號(hào)】1673-1069(2021)01-0193-02
1 引言
生物大數(shù)據(jù)中蘊(yùn)含著生命起源、疾病健康和農(nóng)作物培育等重要信息,對(duì)生物大數(shù)據(jù)的高效準(zhǔn)確解讀事關(guān)人類健康、糧食安全等重要問(wèn)題。由于生物大數(shù)據(jù)有著類型復(fù)雜、結(jié)構(gòu)異質(zhì)、冗余性高和體積龐大等特點(diǎn),科研人員需要借助數(shù)據(jù)可視化等方法才能理解其組成特征和內(nèi)在聯(lián)系,進(jìn)而更加快速和有針對(duì)性地從中挖掘出相關(guān)知識(shí)信息[1]。
2 生物學(xué)進(jìn)入了大數(shù)據(jù)時(shí)代
隨著生物技術(shù)的不斷發(fā)展,海量數(shù)據(jù)信息正在得以飛速累計(jì),生物學(xué)跨入大數(shù)據(jù)時(shí)代,以二代高通量測(cè)序?yàn)榇淼母鞣N新型實(shí)驗(yàn)技術(shù)正在快速產(chǎn)生和累積出海量的數(shù)據(jù)集合,這些蘊(yùn)藏著豐富知識(shí)信息的數(shù)據(jù)集合被稱為生物大數(shù)據(jù)。近年來(lái),世界范圍內(nèi)產(chǎn)生多個(gè)大型生物學(xué)大數(shù)據(jù)產(chǎn)出項(xiàng)目,如癌癥基因組圖譜計(jì)劃(TCGA)、千人基因組計(jì)劃等,這些數(shù)據(jù)存儲(chǔ)在歐洲生物信息學(xué)研究所(EBI)、美國(guó)國(guó)立生物技術(shù)信息中心(NCBI)等公共數(shù)據(jù)庫(kù)中,我國(guó)自主創(chuàng)辦的生命與健康大數(shù)據(jù)中心(BIGD)也已建成并對(duì)外提供服務(wù)[2]。
3 數(shù)據(jù)可視化有利于科學(xué)地展示數(shù)據(jù)分析的結(jié)果
數(shù)據(jù)可視化將具有大量數(shù)據(jù)的數(shù)據(jù)庫(kù)中的文本或者二進(jìn)制數(shù)據(jù)的特征信息,如同時(shí)間或空間相關(guān)的信息等通過(guò)計(jì)算機(jī)圖形學(xué)、統(tǒng)計(jì)學(xué)等技術(shù)轉(zhuǎn)變?yōu)楦又庇^生動(dòng)的圖或表,計(jì)算機(jī)可視化操作能夠?qū)⒊橄蟮男畔⑦M(jìn)行直觀的分析并表示出來(lái),有助于更好地理解數(shù)據(jù),增強(qiáng)認(rèn)知數(shù)據(jù),并挖掘出大量數(shù)據(jù)中蘊(yùn)含的事務(wù)之間的規(guī)律或內(nèi)在信息[3]。生物學(xué)大數(shù)據(jù)可視化分析的作用主要包括三個(gè)方面:幫助科研人員快速?gòu)捏w積龐大、缺乏組織脈絡(luò)的原始數(shù)據(jù)集中抽取出本質(zhì)特征,為研究工作提供理論指引;抽取出生物學(xué)大數(shù)據(jù)中某一維度的特征,以圖形化的方式進(jìn)行直觀展示和強(qiáng)調(diào);可以有效地將生物學(xué)大數(shù)據(jù)進(jìn)行解構(gòu),去除其中的冗余信息和背景噪音,得到更加具有科學(xué)意義的數(shù)據(jù)分析結(jié)果[4]。
4 基于云計(jì)算生物大數(shù)據(jù)可視化
4.1 云計(jì)算
隨著生物學(xué)大數(shù)據(jù)的不斷快速累積,國(guó)內(nèi)外科研人員一直在尋找高效快速解決大數(shù)據(jù)問(wèn)題的有效途徑,其中云計(jì)算技術(shù)是被廣泛認(rèn)可的一種較為成熟的技術(shù)體系。云計(jì)算的常用服務(wù)模式包括“平臺(tái)即服務(wù)”(PaaS)、“軟件即服務(wù)”(SaaS)、“基礎(chǔ)設(shè)施即服務(wù)”(IaaS),這些服務(wù)模式的出現(xiàn)都旨在使用戶更加容易地獲取和使用到足夠的計(jì)算資源,同時(shí)免除自行維護(hù)計(jì)算機(jī)硬件的負(fù)擔(dān)。常用的云計(jì)算框架則包括了Hadoop、Spark等,通過(guò)將整體運(yùn)算、存儲(chǔ)和數(shù)據(jù)傳輸負(fù)載均勻分配到計(jì)算機(jī)集群中的每個(gè)節(jié)點(diǎn),達(dá)到了加速數(shù)據(jù)分析速度的目的,基于這些技術(shù)構(gòu)建的應(yīng)用程序在處理大數(shù)據(jù)時(shí)可以表現(xiàn)出優(yōu)異的性能。
云計(jì)算技術(shù)是計(jì)算機(jī)科學(xué)中為了解決大數(shù)據(jù)問(wèn)題而提出的一套技術(shù)體系,在生物學(xué)大數(shù)據(jù)分析中也被多次證明其實(shí)用性和可行性。基于云計(jì)算技術(shù)可以構(gòu)建生物學(xué)大數(shù)據(jù)可視化平臺(tái),進(jìn)行高效易用的大數(shù)據(jù)可視化分析,各可視化工具密切配合,共同協(xié)作完成生物學(xué)大數(shù)據(jù)可視化這一重要分析任務(wù)。
鑒于此,近年來(lái)先后出現(xiàn)了多個(gè)基于云計(jì)算技術(shù)的生物學(xué)大數(shù)據(jù)分析軟件,在相關(guān)文獻(xiàn)的評(píng)價(jià)測(cè)試中,這些軟件也取得了較為令人滿意的成績(jī)。隨著輸入數(shù)據(jù)集大小的增加,這些基于云計(jì)算技術(shù)開(kāi)發(fā)的生物學(xué)分析軟件性能指標(biāo)超過(guò)了傳統(tǒng)軟件乃至數(shù)倍。
4.2 傳統(tǒng)數(shù)據(jù)可視化軟件
常用的可視化工具通常采用一些專業(yè)工具如Tableau、DataV等,開(kāi)發(fā)簡(jiǎn)單并且不用開(kāi)發(fā)代碼,具有較好的展示效果。傳統(tǒng)的數(shù)據(jù)可視化方案大多是針對(duì)規(guī)模較小的數(shù)據(jù)集進(jìn)行設(shè)計(jì)和實(shí)現(xiàn),無(wú)法高效、直觀地展現(xiàn)出生物學(xué)大數(shù)據(jù)所蘊(yùn)含的關(guān)鍵信息。這些軟件所存在的共有問(wèn)題還包括了可定制程度低,只能在其提供的可視化樣式之中選擇。對(duì)于有更深層次定制化需求的用戶,使用基于R語(yǔ)言或者Python語(yǔ)言的可視化工具,如BioConductor(http://www.bioconductor.org/)和BioPython(http:// biopython.org/)等[5]。
4.3 基于云計(jì)算生物大數(shù)據(jù)可視化技術(shù)
近年來(lái)先后出現(xiàn)了多個(gè)基于云計(jì)算技術(shù)的生物學(xué)大數(shù)據(jù)分析軟件,隨著輸入數(shù)據(jù)集大小的增加,這些基于云計(jì)算技術(shù)開(kāi)發(fā)的生物學(xué)分析軟件性能指標(biāo)超過(guò)了傳統(tǒng)軟件乃至數(shù)倍。采Web技術(shù)和Web前端技術(shù)相互結(jié)合實(shí)現(xiàn),如常用的技術(shù)為Web技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和前端技術(shù),其特點(diǎn)是可定制能力強(qiáng)。Web的生物大數(shù)據(jù)挖掘,采用了云計(jì)算存儲(chǔ)和處理架構(gòu)、分布式數(shù)據(jù)挖掘算法和大數(shù)據(jù)存儲(chǔ)、處理服務(wù)模式,易于使用基于Web的大數(shù)據(jù)挖掘技術(shù)構(gòu)建基于Web的大數(shù)據(jù)分析環(huán)境[6]。
Hadoop和Spark技術(shù)是云計(jì)算領(lǐng)域中常用的數(shù)據(jù)分析技術(shù),在生物大數(shù)據(jù)可視化工具的后端分析計(jì)算任務(wù),通過(guò)盡量均勻地將分析任務(wù)計(jì)算負(fù)載和數(shù)據(jù)傳輸負(fù)載分散到計(jì)算機(jī)器中的每個(gè)節(jié)點(diǎn),達(dá)到提高系統(tǒng)整體并行加速性能指標(biāo)的目的。Hadoop是開(kāi)源分布式計(jì)算框架,在大數(shù)據(jù)分析和半結(jié)構(gòu)化數(shù)據(jù)集方便具有良好的存儲(chǔ)功能,其中HDFS提高了大數(shù)據(jù)文件的存取速率,MapReduce將大規(guī)模數(shù)據(jù)集切分成多個(gè)不同大小的數(shù)據(jù)分片map,執(zhí)行map任務(wù),之后將結(jié)果通過(guò)hash分區(qū)分發(fā)到reduce任務(wù)的多個(gè)節(jié)點(diǎn)進(jìn)行存儲(chǔ)。Spark為基于內(nèi)存計(jì)算的大數(shù)據(jù)并行計(jì)算框架,可以處理實(shí)時(shí)的大數(shù)據(jù),在性能上比MapReduce高,有較強(qiáng)的容錯(cuò)性和高可伸縮性。Spark與Hadoop結(jié)合,共享集群節(jié)點(diǎn)提供的資源,提高運(yùn)行效率,速度快、通用性強(qiáng)[7]。
基于云計(jì)算技術(shù)的生物大數(shù)據(jù)可視化分析平臺(tái)可視化強(qiáng)、效率高。雖然目前在生物學(xué)大數(shù)據(jù)可視化的相關(guān)研究領(lǐng)域中,云計(jì)算技術(shù)缺乏成熟應(yīng)用,但是許多通用型大數(shù)據(jù)可視化軟件已經(jīng)流行開(kāi)來(lái),如Highcharts(https://www.highcharts.com/)、D3(https://d3js.org/)和ZoomData(https://www.zoomdata.com/)等。這些軟件大多采用HTML5技術(shù)來(lái)實(shí)現(xiàn),有著交互性強(qiáng)、界面美觀、易于使用等特點(diǎn),并且提供動(dòng)態(tài)網(wǎng)頁(yè)作為輸出可視化結(jié)果選項(xiàng),大大方便了軟件工具間的整合。基于HTML5的可視化技術(shù),相比于傳統(tǒng)的靜態(tài)可視化展現(xiàn)方式,基于HTML5的可視化展現(xiàn)方式有著高交互性、界面更加美觀、易于和其他軟件工具相互結(jié)合和便于傳播分享等優(yōu)點(diǎn)。D3圖形可視化庫(kù)來(lái)完成項(xiàng)目設(shè)計(jì)的可視化展示,更加適應(yīng)生物大數(shù)據(jù)可視化需求。采用云計(jì)算技術(shù)可以構(gòu)建運(yùn)行效率高、實(shí)用性強(qiáng)和可擴(kuò)展性好的生物學(xué)大數(shù)據(jù)可視化平臺(tái),科研人員通過(guò)該平臺(tái)可以直觀展現(xiàn)測(cè)序數(shù)據(jù)、分子結(jié)構(gòu)數(shù)據(jù)、關(guān)系網(wǎng)絡(luò)數(shù)據(jù)等多種生物學(xué)數(shù)據(jù),為生物學(xué)和醫(yī)學(xué)等領(lǐng)域中的可視化問(wèn)題提供基礎(chǔ)軟件設(shè)施[8]。
5 結(jié)語(yǔ)
生物大數(shù)據(jù)在處理流程上和傳統(tǒng)的生物數(shù)據(jù)處理流程沒(méi)有大的差異,關(guān)鍵在于生物大數(shù)據(jù)處理要分析大量非結(jié)構(gòu)化數(shù)據(jù)。生物學(xué)數(shù)據(jù)可視化貫穿科研工作的各個(gè)階段,在實(shí)驗(yàn)材料選擇、實(shí)驗(yàn)方案設(shè)計(jì)、結(jié)果分析討論和論文發(fā)表等階段均起到不可替代的重要作用,生物學(xué)數(shù)據(jù)可視化軟件的運(yùn)行效率、易用與否將直接決定了相關(guān)科研人員的工作效率。生物大數(shù)據(jù)規(guī)模大、維度高、非結(jié)構(gòu)化,通過(guò)生物大數(shù)據(jù)可視化分析展現(xiàn)了數(shù)據(jù)實(shí)時(shí)場(chǎng)景及交互性能,更有利于理解數(shù)據(jù)及對(duì)相關(guān)數(shù)據(jù)時(shí)間、空間信息知識(shí)的展現(xiàn)。
【參考文獻(xiàn)】
【1】周琳,孔雷,趙方慶.生物大數(shù)據(jù)可視化的現(xiàn)狀及挑戰(zhàn)[J].科學(xué)通報(bào),2015,60(Z1):547-557.
【2】張廣旭.基于Spark的基因數(shù)據(jù)聚類分析及可視化[D].長(zhǎng)沙:湖南大學(xué),2017.
【3】傅耀威,賈燕紅,張軍,等.大數(shù)據(jù)可視分析發(fā)展現(xiàn)狀與趨勢(shì)[J].中國(guó)基礎(chǔ)科學(xué),2019,21(04):53-58.
【4】楊立博.云計(jì)算技術(shù)發(fā)展分析及其應(yīng)用探討[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(04):89+92.
【5】劉江濤,邢輝.淺析生物大數(shù)據(jù)可視化的現(xiàn)狀及挑戰(zhàn)[J].中國(guó)新通信,2016,18(02):152.
【6】王玉.大數(shù)據(jù)時(shí)代Hadoop和Spark技術(shù)研究[J].品牌研究,2020(04):88-90.
【7】檀照望.基于Spark的大數(shù)據(jù)處理可視化工具的設(shè)計(jì)和實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2017.
【8】李萬(wàn)鋒.基于Java EE的數(shù)據(jù)可視化平臺(tái)設(shè)計(jì)及主要功能實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院工程管理與信息技術(shù)學(xué)院),2017.