王麗 王蘋 沈俊輝
[摘要] 大數(shù)據(jù)技術(shù)在當(dāng)下被廣泛關(guān)注,構(gòu)建中醫(yī)藥大數(shù)據(jù)平臺是未來強(qiáng)化中醫(yī)藥行業(yè)競爭力的有力武器。本文通過解析中醫(yī)藥大數(shù)據(jù)特性,設(shè)計(jì)和研究中醫(yī)藥大數(shù)據(jù)平臺的基礎(chǔ)架構(gòu),通過合理設(shè)計(jì)和部署集群、網(wǎng)絡(luò)和服務(wù)器等環(huán)境,力求提供穩(wěn)定可靠的中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺環(huán)境。
[關(guān)鍵字] Hadoop;大數(shù)據(jù)平臺;中醫(yī)藥;基礎(chǔ)架構(gòu)
[中圖分類號] R2-05 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673-7210(2018)02(c)-0158-05
Design and research of traditional Chinese medicine big data platform infrastructure based on Hadoop
WANG Li WANG Ping SHEN Junhui
Information Center, Beijing University of Chinese Medicine, Beijing 100029, China
[Abstract] Big data technology has been widely concerned in the present and building a big data platform for traditional Chinese medicine is a powerful weapon to strengthen the competitiveness of traditional Chinese medicine in the future. In this paper, through the analysis of traditional Chinese medicine data characteristics, architecture design and research of traditional Chinese medicine data platform, through reasonable design and deployment of cluster, server and network environment, so as to provide a stable and reliable traditional Chinese medicine data base platform.
[Key words] Hadoop; Big data; Traditional Chinese medicine; Infrastructure
在當(dāng)今社會(huì),信息技術(shù)與經(jīng)濟(jì)社會(huì)的交匯融合已近引發(fā)了數(shù)據(jù)迅猛增長,數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源。2015年8月31日,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(以下簡稱《綱要》),系統(tǒng)部署大數(shù)據(jù)發(fā)展工作[1]?!毒V要》明確指出,推動(dòng)大數(shù)據(jù)發(fā)展和應(yīng)用,在未來5~10年打造精準(zhǔn)治理、多方協(xié)作的社會(huì)治理新模式,建立運(yùn)行平穩(wěn)、安全高效的經(jīng)濟(jì)運(yùn)行新機(jī)制,構(gòu)建以人為本、惠及全民的民生服務(wù)新體系,開啟大眾創(chuàng)業(yè)、萬眾創(chuàng)新的創(chuàng)新驅(qū)動(dòng)新格局,培育高端智能、新興繁榮的產(chǎn)業(yè)發(fā)展新生態(tài)。堅(jiān)持創(chuàng)新驅(qū)動(dòng)發(fā)展,加快大數(shù)據(jù)部署,深化大數(shù)據(jù)應(yīng)用,已成為穩(wěn)增長、促改革、調(diào)結(jié)構(gòu)、惠民生和推動(dòng)政府治理能力現(xiàn)代化的內(nèi)在需要和必然選擇。
近幾年,中醫(yī)藥醫(yī)療行業(yè)的數(shù)據(jù)增長迅猛,中醫(yī)藥醫(yī)療行業(yè)也應(yīng)抓住契機(jī)緊跟時(shí)代的步伐,大力發(fā)展信息化建設(shè)。2015年,國務(wù)院公布的《中醫(yī)藥健康服務(wù)發(fā)展規(guī)劃(2015-2020)》,特別提到了運(yùn)用云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等信息技術(shù)開發(fā)智能化中醫(yī)健康服務(wù)產(chǎn)品[2]。2016年2月22日,國務(wù)院發(fā)布了《中醫(yī)藥發(fā)展戰(zhàn)略規(guī)劃綱要(2016-2030年)》,其中明確了未來十五年我國中醫(yī)藥發(fā)展方向和工作重點(diǎn),以及今后一個(gè)時(shí)期中醫(yī)藥發(fā)展的重點(diǎn)任務(wù)?!吨嗅t(yī)藥健康服務(wù)發(fā)展規(guī)劃(2015-2020)》中明確指出推動(dòng)“互聯(lián)網(wǎng)+”中醫(yī)醫(yī)療作為重點(diǎn)任務(wù)之一,將推進(jìn)中醫(yī)藥信息化建設(shè)作為完成重點(diǎn)任務(wù)的保障舉措[3]。在推進(jìn)中醫(yī)藥信息化建設(shè)的保障舉措中要求按照健康醫(yī)療大數(shù)據(jù)應(yīng)用工作部署,在健康中國云服務(wù)計(jì)劃中,加強(qiáng)中醫(yī)藥大數(shù)據(jù)應(yīng)用。在若干政策的大力支持下,大數(shù)據(jù)技術(shù)與中醫(yī)藥醫(yī)療行業(yè)相結(jié)合,必將產(chǎn)生巨大的經(jīng)濟(jì)和社會(huì)效益。
1 行業(yè)背景
目前在學(xué)術(shù)界和產(chǎn)業(yè)界對于大數(shù)據(jù)(Big data)并沒有一個(gè)嚴(yán)格的定義[4]。研究機(jī)構(gòu)Gartner定義“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。麥肯錫全球研究所對大數(shù)據(jù)給出的定義是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征[5]。而對于大數(shù)據(jù)的特征也是眾說紛紜,基本上容量、種類和速度是大數(shù)據(jù)公認(rèn)的3個(gè)基本特征[6-8]。
在中醫(yī)藥醫(yī)療行業(yè)領(lǐng)域中,中醫(yī)藥信息具有非常典型的大數(shù)據(jù)特征。首先從數(shù)據(jù)量上看,北京的一所三甲中醫(yī)醫(yī)院平均1 d的門診量可達(dá)1萬人次,每年住院患者可達(dá)5萬以上,如果將這些患者的診療過程全部數(shù)據(jù)化,每人次就診產(chǎn)生的醫(yī)學(xué)數(shù)據(jù)以10 M計(jì),那么每年產(chǎn)生的數(shù)據(jù)量將高達(dá)70 TB,如果把全國中醫(yī)院的臨床數(shù)據(jù)都匯聚起來,其規(guī)模之大可想而知。其次,數(shù)據(jù)類型復(fù)雜。在中醫(yī)醫(yī)院,每個(gè)患者不但要經(jīng)過辨證論治的個(gè)體化診療,還會(huì)經(jīng)過各種檢查檢測進(jìn)行疾病及其預(yù)后診斷,所以不光有病歷資料中包含的信息,還包括檢查、多種影像或病理切片檢查的生物學(xué)信息。這些眾多類別的數(shù)據(jù)通過分析處理可以產(chǎn)生多種多樣的數(shù)據(jù)存儲(chǔ)形式。再者,在數(shù)據(jù)的時(shí)效性方面,醫(yī)療數(shù)據(jù)每時(shí)每刻都在產(chǎn)生,例如臨床診斷等都具有實(shí)時(shí)處理的需求,具有時(shí)效性。
但是目前絕大多數(shù)中醫(yī)藥醫(yī)療行業(yè)數(shù)據(jù)均處于歸檔狀態(tài),使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫技術(shù)使得數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)結(jié)構(gòu)擴(kuò)展、數(shù)據(jù)分析和檢索都無法發(fā)揮數(shù)據(jù)的真正的價(jià)值,數(shù)據(jù)的價(jià)值和利用率受到了嚴(yán)重制約,大數(shù)據(jù)技術(shù)的引入將很好的解決這些問題,并為使用者帶來超乎預(yù)期的數(shù)據(jù)服務(wù)。
而在技術(shù)層面,在大數(shù)據(jù)技術(shù)發(fā)展的初期,大數(shù)據(jù)基礎(chǔ)平臺是一個(gè)單獨(dú)的大集群,雖然在資源分配和數(shù)據(jù)共享方面具有靈活易用的優(yōu)勢,但問題也逐漸凸顯[9-12]。一方面隨著平臺上越來越多業(yè)務(wù)應(yīng)用系統(tǒng)共同使用基礎(chǔ)資源,不同保障級別和重要性的業(yè)務(wù)應(yīng)用無法分級維護(hù),經(jīng)常出現(xiàn)一般應(yīng)用對資源的占用過高影響其他重要應(yīng)用的情況;另一方面隨著業(yè)務(wù)應(yīng)用系統(tǒng)占用資源的增加,基礎(chǔ)平臺規(guī)模也將突破管理上限,需要規(guī)劃多個(gè)集群,便于合理分級管理。另外,由于大數(shù)據(jù)平臺與其他業(yè)務(wù)應(yīng)用混合組網(wǎng),不便于網(wǎng)絡(luò)流量管控,需要規(guī)劃單獨(dú)的大數(shù)據(jù)平臺機(jī)房模塊,按其特點(diǎn)進(jìn)行網(wǎng)絡(luò)規(guī)劃,構(gòu)建適應(yīng)大數(shù)據(jù)基礎(chǔ)平臺發(fā)展的基礎(chǔ)架構(gòu)。
2 平臺基礎(chǔ)架構(gòu)設(shè)計(jì)
2.1 功能需求分析
隨著醫(yī)療衛(wèi)生行業(yè)信息化的建設(shè)和發(fā)展,醫(yī)療數(shù)據(jù)的來源非常廣泛,既包括大型醫(yī)院、社區(qū)醫(yī)院的臨床診療數(shù)據(jù),也包括醫(yī)保數(shù)據(jù)和健康數(shù)據(jù)。這些數(shù)據(jù)占據(jù)了大量的存儲(chǔ)資源,但是還沒有發(fā)揮它們真正的作用[13-16]。中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺根據(jù)中醫(yī)藥大數(shù)據(jù)的特征,應(yīng)該具有以下功能:①能夠管理大量復(fù)雜數(shù)據(jù),這些數(shù)據(jù)不僅包含結(jié)構(gòu)化數(shù)據(jù),還包含大量的非結(jié)構(gòu)化數(shù)據(jù);②良好的中醫(yī)藥大數(shù)據(jù)分析和處理能力,通過對大數(shù)據(jù)的分析和處理挖掘其中蘊(yùn)含的價(jià)值,為發(fā)現(xiàn)中醫(yī)藥知識和規(guī)律提供幫助;③具有靈活性和可擴(kuò)展性,對于某些業(yè)務(wù)應(yīng)用的調(diào)整既不會(huì)影響原有業(yè)務(wù)應(yīng)用,也不會(huì)對整個(gè)平臺造成大的負(fù)擔(dān)。
2.2 技術(shù)選型
Hadoop框架具備可靠、高效、可伸縮的特點(diǎn),這是中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺設(shè)計(jì)與實(shí)現(xiàn)的基礎(chǔ)前提。Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)。HDFS是Google File System的開源實(shí)現(xiàn),HDFS有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在通用硬件上(通常是X86服務(wù)器)。它提供高傳輸能力來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。MapReduce是Google MapReduce的開源實(shí)現(xiàn)。這個(gè)分布式框架有極大的擴(kuò)展性,滿足系統(tǒng)高吞吐量的需求。HDFS和MapReduce是Hadoop框架最核心的設(shè)計(jì)。HDFS為大數(shù)據(jù)提供了存儲(chǔ)能力,而MapReduce為大數(shù)據(jù)提供了計(jì)算能力。
Hadoop生態(tài)將持續(xù)向前迭代并蓬勃發(fā)展,這是中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺架構(gòu)可持續(xù)優(yōu)化的重要保障。Hadoop已經(jīng)成為大數(shù)據(jù)技術(shù)事實(shí)上的標(biāo)準(zhǔn)架構(gòu),多個(gè)因素共同造就了其在短短十年間取得的統(tǒng)治性地位[17-19]。
2.3 基礎(chǔ)平臺架構(gòu)設(shè)計(jì)
2.3.1 總體架構(gòu) 中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺設(shè)計(jì)由3個(gè)層次組成,分別是業(yè)務(wù)層、功能層和平臺層。業(yè)務(wù)層為用戶提供基于大數(shù)據(jù)分析與處理的一系列操作和相關(guān)接口,同時(shí)可以進(jìn)行用戶信息管理;功能層提供對大數(shù)據(jù)的存儲(chǔ)和挖掘的功能;平臺層則是為整個(gè)大數(shù)據(jù)基礎(chǔ)平臺提供基礎(chǔ)的分布式環(huán)境支持。見圖1。
2.3.2 硬件架構(gòu) 中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺是基于Hadoop分布式處理環(huán)境,所以需要在多個(gè)分布式的節(jié)點(diǎn)上部署Linux系統(tǒng)并安裝Hadoop環(huán)境。中醫(yī)藥大數(shù)據(jù)平臺建設(shè)是一個(gè)長期的循序漸進(jìn)的過程,也是一個(gè)不斷創(chuàng)新和完善的過程,其伴隨著醫(yī)療系統(tǒng)的發(fā)展而不斷完善。中醫(yī)藥大數(shù)據(jù)集群設(shè)計(jì)結(jié)合中醫(yī)藥醫(yī)療行業(yè)自身的業(yè)務(wù)特點(diǎn)、系統(tǒng)建設(shè)現(xiàn)狀和未來發(fā)展藍(lán)圖來進(jìn)行,并依據(jù)數(shù)據(jù)類型對應(yīng)用場景進(jìn)行合理地分類,打造一個(gè)可擴(kuò)展、高可用、安全、高效的海量數(shù)據(jù)處理和挖掘的中醫(yī)藥大數(shù)據(jù)集群環(huán)境[20-21]。
結(jié)合中醫(yī)藥醫(yī)療行業(yè)自身的實(shí)際情況,根據(jù)以下3個(gè)基本原則來建設(shè)大數(shù)據(jù)集群。一是根據(jù)中醫(yī)藥行業(yè)應(yīng)用場景進(jìn)行分類:批量計(jì)算、在線計(jì)算和流式計(jì)算。這種模式的劃分同時(shí)考慮到不同應(yīng)用場景對于資源占用、系統(tǒng)響應(yīng)時(shí)間和基礎(chǔ)平臺架構(gòu)的實(shí)際需求。批量計(jì)算場景下的響應(yīng)時(shí)間一般要求不高,且對計(jì)算資源的使用可以通過YARN總體管控;在線計(jì)算場景下的響應(yīng)時(shí)間要求高,對資源占用度高,獨(dú)立構(gòu)建集群也避免了與其他集群形成資源搶占,降低了不同類型應(yīng)用互相干擾的風(fēng)險(xiǎn);流式計(jì)算的基礎(chǔ)平臺架構(gòu)使用的是Kafka和Storm組件,根據(jù)技術(shù)架構(gòu)獨(dú)立構(gòu)建集群。二是根據(jù)可靠性級別進(jìn)行區(qū)分:高保障級別和低保障級別。高保障級別集群承載的是核心應(yīng)用系統(tǒng)以及需要最高級別可靠性保障的應(yīng)用系統(tǒng),這部分業(yè)務(wù)應(yīng)用系統(tǒng)保障要求高,保障方式也有別于其他集群,采用訂閱服務(wù)模式提供保障服務(wù)。低保障級別承載的是除核心業(yè)務(wù)應(yīng)用系統(tǒng)以外的其他應(yīng)用系統(tǒng),是規(guī)模最大的集群。三是根據(jù)集群節(jié)點(diǎn)數(shù)量上限進(jìn)行拆分:由于集群內(nèi)部的數(shù)據(jù)可以共享使用,數(shù)據(jù)的使用效率最高,從這個(gè)優(yōu)勢來看,單個(gè)集群規(guī)模越大越好。但從Hadoop架構(gòu)的設(shè)計(jì)原理來看,單個(gè)集群內(nèi)數(shù)據(jù)節(jié)點(diǎn)的增多將導(dǎo)致元數(shù)據(jù)節(jié)點(diǎn)內(nèi)存計(jì)算和元數(shù)據(jù)存儲(chǔ)的需求相應(yīng)增加,而元數(shù)據(jù)節(jié)點(diǎn)的資源有限,限制了集群內(nèi)節(jié)點(diǎn)數(shù)不能過多。另外,從可管理性的角度看,集群內(nèi)節(jié)點(diǎn)數(shù)量過多也給統(tǒng)一管理帶來了額外的復(fù)雜性。因此結(jié)和基礎(chǔ)平臺的技術(shù)能力,確??煽氐募盒阅芘c管理水平,一般控制在每個(gè)集群內(nèi)20~30個(gè)節(jié)點(diǎn)數(shù)量為宜。見圖2。
在集群設(shè)計(jì)和平臺架構(gòu)中,必須清晰地認(rèn)識到?jīng)]有萬能的軟件架構(gòu)能解決所有問題,不同的場景、需求、限制下需要有針對性的架構(gòu)模式才能滿足大數(shù)據(jù)項(xiàng)目需求。根據(jù)大數(shù)據(jù)集群設(shè)計(jì)原則,為了保障中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺高可靠性,平臺劃分為如下幾個(gè)集群。見圖3。
無論是Hadoop架構(gòu)還是流處理架構(gòu),均被設(shè)計(jì)為運(yùn)行在標(biāo)準(zhǔn)X 86服務(wù)器硬件上,但是這并不意味著可以隨意選擇服務(wù)器配置。Hadoop集群能夠充分發(fā)揮作用,需要足夠好的硬件,以及足夠好的軟件。實(shí)際部署中根據(jù)應(yīng)用系統(tǒng)隔離、資源隔離、利舊、成本、負(fù)載以及差異化組件對服務(wù)器硬件的要求(HDFS、MapReduce等不同組件對服務(wù)器硬件要求不同)不同,會(huì)使用不同節(jié)點(diǎn)甚至部署不同的集群??紤]到各種因素,中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺的服務(wù)器有兩種類型:A型服務(wù)器主要用于Hadoop架構(gòu)中的NameNode節(jié)點(diǎn)(元數(shù)據(jù)節(jié)點(diǎn))、Kafka和Storm服務(wù);B型服務(wù)器主要用于Hadoop架構(gòu)中的DataNode節(jié)點(diǎn)(數(shù)據(jù)節(jié)點(diǎn))。配置見表1。
通過對這兩類服務(wù)器在測試環(huán)境中進(jìn)行的性能分析,在一般業(yè)務(wù)壓力下,A型與B型服務(wù)器的平均可用內(nèi)存和CPU空閑率均衡,均在50%以上。雖然以上服務(wù)器選型能最大化發(fā)揮其計(jì)算與存儲(chǔ)能力。但是需要說明的是,隨著業(yè)務(wù)系統(tǒng)的變化和工作負(fù)載的改變,中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺的服務(wù)器硬件選型將需要不斷調(diào)整和優(yōu)化。而無論服務(wù)器配置如何變化,都需要結(jié)合完善的資源分配和管控手段來充分發(fā)揮基礎(chǔ)硬件的作用。
2.3.3 網(wǎng)絡(luò)架構(gòu)設(shè)計(jì) 中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺的物理服務(wù)器網(wǎng)絡(luò)架構(gòu)分為3層:接入層、匯聚層和核心層??紤]物理服務(wù)器的網(wǎng)絡(luò)冗余、帶寬等問題,大數(shù)據(jù)服務(wù)器內(nèi)部之間采用雙鏈路萬兆網(wǎng)絡(luò)連接到接入層的交換機(jī)。接入層到匯聚層使用雙路的40 Gb帶寬的網(wǎng)絡(luò),這樣可以確保大數(shù)據(jù)集群內(nèi)部節(jié)點(diǎn)之間數(shù)據(jù)交換和數(shù)據(jù)移動(dòng)的高帶寬需求。匯聚層到核心層使用雙路的10 Gb帶寬的網(wǎng)絡(luò),這部分帶寬主要用于業(yè)務(wù)系統(tǒng)和大數(shù)據(jù)集群環(huán)境之間的數(shù)據(jù)導(dǎo)入導(dǎo)出和管理需求。大數(shù)據(jù)集群環(huán)境和其他業(yè)務(wù)系統(tǒng)間通過核心層的交換機(jī)互相訪問。見圖4。中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺因其各種應(yīng)用系統(tǒng)規(guī)模,適合獨(dú)立機(jī)房模塊部署。大數(shù)據(jù)服務(wù)器間的網(wǎng)絡(luò)架構(gòu)見圖5。
在這種網(wǎng)絡(luò)架構(gòu)中,使用EOR列頭接入模式。這種部署模式使得接入交換機(jī)的數(shù)量最小,接入交換機(jī)與匯聚交換機(jī)之間的線纜數(shù)量也最小。另外,服務(wù)器內(nèi)部網(wǎng)絡(luò)采用鏈路聚合模式,相比于一般的主備網(wǎng)卡模式能夠增加1倍的帶寬。
2.3.4 軟件環(huán)境 本文中設(shè)計(jì)的中醫(yī)藥大數(shù)據(jù)基礎(chǔ)平臺是基于Cloudera的CDH 5構(gòu)建的,是大數(shù)據(jù)解決方案的商用Hadoop版本,具有良好的易用性。該平臺支持全文檢索與切面導(dǎo)航;支持實(shí)時(shí)數(shù)據(jù)索引;支持友好的多用戶交互;支持批處理、實(shí)時(shí)索引;支持多類型、多格式數(shù)據(jù)源;原生與Hadoop生態(tài)系統(tǒng)相結(jié)合;提供豐富的API與完善的生態(tài)系統(tǒng);100%開源,具有成熟的代碼,活躍的社區(qū)。
Cloudera Manager可集成Hadoop生態(tài)圈的相關(guān)組件,以交互式的方式,進(jìn)行配置的更新,任務(wù)及運(yùn)行情況的監(jiān)控等。通過Cloudera Manager可以自動(dòng)化完成Hadoop的安裝過程,大幅縮短部署時(shí)間。Cloudera Manager提供實(shí)時(shí)的集群概況,提供了集中的中央控制臺對集群的配置進(jìn)行更改。Cloudera Manager還提供了全面的報(bào)告和診斷工具,幫助優(yōu)化性能和利用率。此外,良好的API、活躍的開源社區(qū)也為個(gè)性化的開發(fā)定制提供可能。
在基礎(chǔ)平臺層面上,本文的核心基礎(chǔ)平臺采用的是Hadoop等開源技術(shù)架構(gòu)。Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。Hadoop依賴于通用服務(wù)器設(shè)備和專用的硬件和軟件投入相比,中醫(yī)藥大數(shù)據(jù)系統(tǒng)的建設(shè)成本相對較低。但是Hadoop也有自身的局限。由于Hadoop的控制節(jié)點(diǎn)把文件的元數(shù)據(jù)存儲(chǔ)在內(nèi)存中,所以大量的小文件會(huì)產(chǎn)生大量的元數(shù)據(jù)。百萬級別的文件數(shù)目還可行,如果小文件數(shù)據(jù)過多就會(huì)無法處理。不過對于中醫(yī)藥大數(shù)據(jù)來說,這個(gè)顯然不是問題。Hadoop適用的場景更加傾向于一次寫入多次讀取的情況。這很符合中醫(yī)藥大數(shù)據(jù)的特點(diǎn)。
3 小結(jié)
中醫(yī)藥大數(shù)據(jù)研究是未來中醫(yī)藥研究一個(gè)重要方向,通過大數(shù)據(jù)平臺可以實(shí)現(xiàn)醫(yī)療衛(wèi)生數(shù)據(jù)的匯聚、存儲(chǔ)、管理和挖掘等應(yīng)用。而在大數(shù)據(jù)基礎(chǔ)平臺方面通過集群、服務(wù)器和網(wǎng)絡(luò)等基礎(chǔ)環(huán)境的部署方式,可以將大數(shù)據(jù)環(huán)境與其他業(yè)務(wù)應(yīng)用環(huán)境按功能進(jìn)行獨(dú)立劃分,避免了數(shù)據(jù)流之間的互相干擾,降低了接入、匯聚、核心層數(shù)據(jù)交換模式的設(shè)計(jì)復(fù)雜度,且可以針對大數(shù)據(jù)自身的設(shè)計(jì)網(wǎng)絡(luò)收斂比,使用適配的網(wǎng)絡(luò)交換設(shè)備,容易利用其規(guī)模效應(yīng)大幅降低建設(shè)成本。由于中醫(yī)藥行業(yè)的業(yè)務(wù)應(yīng)用系統(tǒng)情況各異,基礎(chǔ)環(huán)境還需要根據(jù)應(yīng)用系統(tǒng)實(shí)際運(yùn)行情況不斷調(diào)整和優(yōu)化,以適配不同類型的作業(yè)負(fù)載。雖然從不同原則出發(fā)設(shè)計(jì)了多個(gè)集群,便于分級保障、分類維護(hù)、安全可控,但多個(gè)集群卻給數(shù)據(jù)共享帶來了不便,在必要的情況下需通過數(shù)據(jù)導(dǎo)入導(dǎo)出的方式進(jìn)行集群間的數(shù)據(jù)共享。
目前面向中醫(yī)藥的大數(shù)據(jù)基礎(chǔ)平臺主要為用戶提供存儲(chǔ)和高性能計(jì)算服務(wù),對中醫(yī)藥大數(shù)據(jù)的處理研究還有待完善。如何為用戶提供其實(shí)可行的大數(shù)據(jù)處理方法將是下一步的研究任務(wù)。
[參考文獻(xiàn)]
[1] 國務(wù)院.促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要[M].北京:人民出版社,2015.
[2] 國務(wù)院.中醫(yī)藥健康服務(wù)發(fā)展規(guī)劃(2015-2020年)[EB/OL].(2015-5-7)http://www.gov.cn/zhengce/content/2015-05/07/content_9704.htm.
[3] 國務(wù)院.中醫(yī)藥發(fā)展戰(zhàn)略規(guī)劃綱要(2016-2030年)[EB/OL].(2016-2-26)http://www.gov.cn/zhengce/content/2016-02/26/content_5046678.htm.
[4] 維克托·邁爾·舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2012.
[5] 董曉婷.大數(shù)據(jù)的定義特征及其應(yīng)用分析[J].硅谷,2013(11):120.
[6] Marx V. The big challenges of big data [J]. Nature,2013, 498(7453):255-260.
[7] Trelles O,Prins P,Snir M,et al.Big Data,But Are We Re?鄄ady? [J]. Nature Rev Genet,2011,12(3):224.
[8] Murdoch TB,Detsky AS. The inevitable application of big data to health care [J]. JAMA,2013,309(13):1351-1352.
[9] 于琦,崔蒙,李海燕,等.從大數(shù)據(jù)角度探討中醫(yī)藥信息學(xué)特征[J].中國數(shù)字醫(yī)學(xué),2014,9(4):33-34.
[10] 崔蒙,李海燕,雷蕾,等.“大數(shù)據(jù)”時(shí)代與中醫(yī)藥“知識密集型”數(shù)據(jù)[J].中國中醫(yī)藥圖書情報(bào)雜志,2013,37(3):1-3.
[11] 芮益芳.大數(shù)據(jù)醫(yī)療:下一個(gè)產(chǎn)業(yè)“風(fēng)口”[J].商學(xué)院,2015,12(4):100-103.
[12] 張振,周毅.醫(yī)療大數(shù)據(jù)及其面臨的機(jī)遇與挑戰(zhàn)[J].醫(yī)學(xué)信息學(xué)雜志,2014,35(6):1-8.
[13] 周雪晴,羅亞玲.信息化建設(shè)中醫(yī)療大數(shù)據(jù)現(xiàn)狀[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2015,24(11):48-51.
[14] 李國杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(9):8-15.
[15] 鄭傳峰等.企業(yè)大數(shù)據(jù)系統(tǒng)構(gòu)建實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2017.
[16] 周光華,辛英,張雅潔,等.醫(yī)療衛(wèi)生領(lǐng)域大數(shù)據(jù)應(yīng)用探討[J].中國衛(wèi)生信息管理雜志,2013,10(4):296-300, 304.
[17] 崔文斌,牟少敏,王云誠,等.Hadoop大數(shù)據(jù)平臺的搭建與測試[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2013,44(4):550-555.
[18] 劉昱圻,陳韻岱.探討臨床大數(shù)據(jù)庫對臨床醫(yī)生在科研和臨床實(shí)踐中的應(yīng)用[J].科學(xué)時(shí)代,2015(12):25-27.
[19] 吳朝暉,姜曉紅,陳華鈞.知識服務(wù):大數(shù)據(jù)時(shí)代下的中醫(yī)藥信息化發(fā)展趨勢[J].中國中醫(yī)藥圖書情報(bào)雜志,2013, 37(2):4-5.
[20] 孟永偉,黃建強(qiáng),曹騰飛,等.Hadoop集群部署實(shí)驗(yàn)的設(shè)計(jì)與實(shí)現(xiàn)[J].實(shí)驗(yàn)技術(shù)與管理,2015,32(1):145-149.
[21] 許禮捷.基于CentOS 的Hadoop分布式集群的構(gòu)建方法研究[J].沙洲職業(yè)工學(xué)院學(xué)報(bào),2016,19(1):23-28.
(收稿日期:2017-10-27 本文編輯:王 娟)