南陽醫(yī)學(xué)高等專科學(xué)校 李新獻(xiàn)
近年來,醫(yī)療影像信息化技術(shù)得到了廣泛的應(yīng)用,在醫(yī)療衛(wèi)生信息化不斷發(fā)展的過程中,它被應(yīng)用在各級、各類醫(yī)院。這些醫(yī)學(xué)影像數(shù)據(jù)不斷增加,伴隨著各級各類醫(yī)院病人的不斷增多以及醫(yī)療儀器的不斷換代更新,有許多非結(jié)構(gòu)化的大量醫(yī)學(xué)數(shù)字影像醫(yī)療數(shù)據(jù),并且,傳統(tǒng)的信息系統(tǒng)來存儲(chǔ)這類醫(yī)療數(shù)據(jù),考慮滿足高容量、高可靠性、可擴(kuò)展性、低成本的需求,它必然滿足不了現(xiàn)代的存儲(chǔ)需求。所以,遠(yuǎn)程診斷平臺(tái)系統(tǒng)為了長遠(yuǎn)發(fā)展,必須考慮滿足高容量、高可靠性、可擴(kuò)展性、低成本的需求。
由于Hadoop分布式文件系統(tǒng)的設(shè)計(jì)理念是存儲(chǔ)大文件,然而,在醫(yī)學(xué)上通常一次拍攝的醫(yī)學(xué)圖像大小每一張都比較小,單張大約為512KB,一次拍攝的醫(yī)學(xué)圖像大小約為5MB。因此,根據(jù)在醫(yī)學(xué)上醫(yī)學(xué)圖像文件大小和Hadoop分布式文件系統(tǒng)的特點(diǎn),采用SequenceFile文件格式來合并多次拍攝的醫(yī)學(xué)圖像大小的眾多的小文件[1]。
SequenceFile是一種存儲(chǔ)醫(yī)學(xué)影像數(shù)據(jù)的文件格式,它主要以鍵值對的形式持久化存儲(chǔ)病人的醫(yī)學(xué)圖像信息數(shù)據(jù)。它的醫(yī)學(xué)影像數(shù)據(jù)格式應(yīng)用在傳統(tǒng)的病人醫(yī)學(xué)影像信息數(shù)據(jù),將會(huì)使傳統(tǒng)的病人醫(yī)學(xué)影像數(shù)據(jù)適合分布式文件系統(tǒng)的存儲(chǔ)。而Hadoop分布式文件系統(tǒng)存儲(chǔ)和計(jì)算所用的醫(yī)學(xué)影像數(shù)據(jù)格式也是鍵值對形式的數(shù)據(jù),因此如果將SequenceFile而且SequenceFile作為小文件的存儲(chǔ)容器還支持多種壓縮格式。將醫(yī)學(xué)影像文件以SequenceFile文件的格式進(jìn)行壓縮,形成大文件,從而可提高Hadoop分布式文件系統(tǒng)處理能力,同時(shí)防止NameNode節(jié)點(diǎn)因元數(shù)據(jù)過多而降低系統(tǒng)的性能[2]。
將每個(gè)病人的DICOM圖像信息數(shù)據(jù)文件轉(zhuǎn)化為鍵值對的形式,它的具體文件格式如圖1所示。然后合并成一個(gè)S-DICOM文件,其中里面的信息包括結(jié)束標(biāo)志、文件名以及文件類型、元數(shù)據(jù)等信息;Key代表原始文件名;Record代表圖像文件,其中含有文件的長度、文件名的長度等信息;Header表示文件起始位置;Value代表文件內(nèi)容,由Key和Value組成鍵值對。
圖1 S-DICOM文件格式
(1)高可靠性
醫(yī)學(xué)影像數(shù)據(jù)丟失或者損毀都會(huì)帶來巨大的損失,它是重要的醫(yī)學(xué)影像數(shù)據(jù)資料,因此存儲(chǔ)平臺(tái)須具備高安全性、可靠性,確保醫(yī)學(xué)影像數(shù)據(jù)的可靠安全。
(2)高容量
隨著社人口老齡化的到來,看病的人的數(shù)量越來越多,海量醫(yī)療醫(yī)學(xué)圖像數(shù)據(jù)就這樣產(chǎn)生。同時(shí),醫(yī)療行業(yè)信息化不斷發(fā)展,如X光片、CT片、核磁共振等技術(shù)的出現(xiàn),數(shù)字化醫(yī)學(xué)影像數(shù)據(jù)已經(jīng)成為診斷疾病的重要依據(jù)。傳統(tǒng)的醫(yī)療系統(tǒng)已經(jīng)無法滿足對于這種非結(jié)構(gòu)醫(yī)學(xué)圖像數(shù)據(jù)的存儲(chǔ)需要。因此,迫切需要一種新的存儲(chǔ)架構(gòu)解決方案來滿足高容量的需求。
(3)低成本
目前,高性能服務(wù)器的價(jià)格高昂,而且維護(hù)升級困難,需要專人維護(hù)而且容量擴(kuò)充不方便。然而,國內(nèi)的醫(yī)療信息系統(tǒng)主要采用這種高性能服務(wù)器來存儲(chǔ)醫(yī)學(xué)圖像數(shù)據(jù),這就導(dǎo)致醫(yī)療數(shù)據(jù)存儲(chǔ)成本的增加。因此,構(gòu)建一種低成本的醫(yī)療數(shù)據(jù)存儲(chǔ)系統(tǒng)很有必要,在節(jié)約成本的同時(shí)也能高效管理醫(yī)學(xué)圖像數(shù)據(jù),降低醫(yī)療醫(yī)學(xué)圖像數(shù)據(jù)存儲(chǔ)成本。
(4)可擴(kuò)展性
由于我國缺少統(tǒng)一規(guī)范的存儲(chǔ)系統(tǒng)進(jìn)行醫(yī)學(xué)圖像數(shù)據(jù)的存儲(chǔ),并且醫(yī)療資源比較分散,因此影響醫(yī)生對病情的判斷,造成對公共資源的浪費(fèi),對于目前這種情況,需要一種嚴(yán)格統(tǒng)一的醫(yī)學(xué)圖像數(shù)據(jù)存儲(chǔ)系統(tǒng)來存儲(chǔ)醫(yī)療數(shù)據(jù)。同時(shí)這種醫(yī)療醫(yī)學(xué)圖像數(shù)據(jù)存儲(chǔ)系統(tǒng)需要具備良好的可擴(kuò)展性。
圖2 平臺(tái)存儲(chǔ)架構(gòu)圖
HDFS分布式文件系統(tǒng)不太適合對實(shí)時(shí)性要求較高的應(yīng)用,因?yàn)樗膶?shí)時(shí)性較差。但是,HDFS分布式文件系統(tǒng)具有極高的安全性,并且它的性能高、成本低。傳統(tǒng)的集中存儲(chǔ)和它剛好相反,傳統(tǒng)的集中存儲(chǔ)雖然擴(kuò)張性差、成本高,但傳統(tǒng)的集中存儲(chǔ)具有較高的實(shí)時(shí)性,它也非常適合對較小數(shù)據(jù)文件的讀寫。因此,如果能將兩者有效的結(jié)合起來,那么一定會(huì)實(shí)現(xiàn)醫(yī)學(xué)圖像數(shù)據(jù)的完美存儲(chǔ)。因此,設(shè)計(jì)一種HDFS分布式存儲(chǔ)和高性能PC服務(wù)器集中式存儲(chǔ)相結(jié)合的醫(yī)學(xué)圖像數(shù)據(jù)存儲(chǔ)系統(tǒng),將需要長期保存且海量巨大的醫(yī)學(xué)圖像數(shù)據(jù)存儲(chǔ)到HDFS集群當(dāng)中,對實(shí)時(shí)性要求較高且數(shù)據(jù)短期內(nèi)存儲(chǔ)的高性能的應(yīng)用服務(wù)器中,即“Hadoop集群分布式存儲(chǔ)”與“集中式存儲(chǔ)”相結(jié)合,來對海量醫(yī)學(xué)圖像數(shù)據(jù)進(jìn)行存儲(chǔ)和調(diào)用,平臺(tái)存儲(chǔ)架構(gòu)如圖2所示。
數(shù)據(jù)存儲(chǔ)這一層主要由兩個(gè)部分組成:集中式存儲(chǔ)的一級數(shù)據(jù)庫部分和分布式存儲(chǔ)的二級數(shù)據(jù)庫部分。其中一級數(shù)據(jù)庫是基于高性能應(yīng)用服務(wù)器;二級數(shù)據(jù)庫是基于HDFS分布式存儲(chǔ)系統(tǒng)。
其中,超過三個(gè)月的病人醫(yī)學(xué)圖像信息數(shù)據(jù)轉(zhuǎn)換成S-DICOM文件數(shù)據(jù),然后轉(zhuǎn)存到二級數(shù)據(jù)庫當(dāng)中,即HDFS分布式集群中。從而提供數(shù)據(jù)分析、圖像存儲(chǔ)、遠(yuǎn)程災(zāi)備等服務(wù)。三個(gè)月時(shí)間內(nèi)的原始DICOM圖像文件數(shù)據(jù)則保留在遠(yuǎn)程診斷信息平臺(tái)中,為方便診斷數(shù)據(jù)調(diào)用存儲(chǔ)在高性能的應(yīng)用服務(wù)器中;數(shù)據(jù)存儲(chǔ)層向外部提供統(tǒng)一的數(shù)據(jù)訪問接口。
本平臺(tái)存儲(chǔ)系統(tǒng)采用分布式存儲(chǔ)和高性能PC存儲(chǔ)相結(jié)合的二級存儲(chǔ)架構(gòu)的總體布局,不經(jīng)常使用的病人醫(yī)學(xué)圖像信息數(shù)據(jù)經(jīng)過格式轉(zhuǎn)換后,存儲(chǔ)到HDFS分布式集群當(dāng)中進(jìn)行一個(gè)長期保存,而短期內(nèi)需要經(jīng)常調(diào)用的數(shù)據(jù)存儲(chǔ)在高性能的PC機(jī)。[3]
(1)后臺(tái)HDFS分布式存儲(chǔ):價(jià)格低廉是HDFS分布式存儲(chǔ)醫(yī)學(xué)圖像數(shù)據(jù)的主要的優(yōu)勢,HDFS分布式存儲(chǔ)醫(yī)學(xué)圖像數(shù)據(jù)采用普通的PC機(jī)集群就可以實(shí)現(xiàn),主要對存儲(chǔ)醫(yī)學(xué)圖像時(shí)間比較長的數(shù)據(jù)進(jìn)行長期存儲(chǔ),并且醫(yī)學(xué)圖像數(shù)據(jù)存儲(chǔ)空間巨大,使得醫(yī)學(xué)圖像數(shù)據(jù)可以長時(shí)間安全的存儲(chǔ)。
(2)前臺(tái)高性能PC服務(wù)器存儲(chǔ):由于高性能PC服務(wù)器的讀取醫(yī)學(xué)圖像數(shù)據(jù)速度較快,適應(yīng)于對實(shí)時(shí)性要求比較高的場景,在高性能PC服務(wù)器內(nèi)存儲(chǔ)醫(yī)學(xué)圖像數(shù)據(jù)短期內(nèi)需要診斷的醫(yī)學(xué)圖像數(shù)據(jù),這些醫(yī)學(xué)圖像數(shù)據(jù)供醫(yī)生和患者使用時(shí)查閱,但是高性能PC服務(wù)器存儲(chǔ)也有一定的缺點(diǎn),例如價(jià)格昂貴而且存儲(chǔ)空間有限。
本文分別對高性能PC服務(wù)器和HDFS分布式文件系統(tǒng)進(jìn)行了分析。其中,HDFS具有高可靠性、成本低、擴(kuò)展性好等一些特點(diǎn),但在實(shí)際的診斷醫(yī)學(xué)圖像數(shù)據(jù)的應(yīng)用過程中,它仍然存在一些缺點(diǎn),比如它的實(shí)時(shí)性差以及它不適合小文件醫(yī)學(xué)圖像數(shù)據(jù)的存儲(chǔ)等。[4]因此,針對以上這些方面的不足,把HDFS分布式文件系統(tǒng)和高性能PC服務(wù)器結(jié)合起來,采用Hadoop的SequenceFile文件格式來存儲(chǔ)醫(yī)學(xué)圖像數(shù)據(jù)文件。同時(shí),形成了HDFS分布式存儲(chǔ)和高性能PC服務(wù)器集中式存儲(chǔ)醫(yī)學(xué)圖像數(shù)據(jù)相結(jié)合的存儲(chǔ)架構(gòu),該混合式存儲(chǔ)架構(gòu)能夠滿足本研究中平臺(tái)對醫(yī)學(xué)圖像存取性能的要求。
[1]胡濤,周兵,鄭明輝,等.基于Hadoop的移動(dòng)云存儲(chǔ)系統(tǒng)研究與實(shí)現(xiàn)[C].2013年第四屆中國計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集,2013:181-183.
[2]方勝吉.云環(huán)境下基于Hadoop的醫(yī)學(xué)圖像海量存儲(chǔ)與檢索的研究與實(shí)現(xiàn)[D].北方民族大學(xué),2013,4.
[3]張得震.基于Hadoop的分布式文件系統(tǒng)優(yōu)化技術(shù)研究[D].蘭州交通大學(xué),2013.
[4]方勝吉.云環(huán)境下基于Hadoop的醫(yī)學(xué)圖像海量存儲(chǔ)與檢索的研究與實(shí)現(xiàn)[D].北方民族大學(xué),2013,4.
[5]降國棟,厲力華.基于云計(jì)算的計(jì)算機(jī)輔助診斷及遠(yuǎn)程診斷平臺(tái)研究[D].杭州電子科技大學(xué)碩士論文,2016-03-01.