丁長松 瞿昊宇 吳世雯
摘要:針對傳統(tǒng)數據管理模式難以有效管理中醫(yī)藥信息的問題,本文從中醫(yī)藥信息資源本質特性角度分析并歸納其原因在于中醫(yī)藥信息資源具有大數據的4V特征,提出了基于大數據技術管理中醫(yī)藥信息資源的策略,并對其可行性進行了闡述。
關鍵詞:中醫(yī)藥信息;大數據;數據管理
DOI:10.3969/j.issn.1005-5304.2016.09.003
中圖分類號:R2-05 文獻標識碼:A 文章編號:1005-5304(2016)09-0010-05
TCM Data Management Based on Object Characteristics under the Background of Big Data DING Chang-song, QU Hao-yu, WU Shi-wen (School of Management and Information Engineering, Hunan University of Chinese Medicine, Changsha 410208, China)
Abstract: Targeting the problem that it is difficult for traditional data management mode to effectively manage TCM information, this article analyzed from the aspect of object characteristics of TCM information resources and summarized that the reason lies in the TCM information resources with big data 4V features, proposed strategies for TCM information resource management based on big data technology, and expounded the feasibility.
Key words: TCM information; big data; data management
中醫(yī)藥信息作為中醫(yī)藥技術的主要載體,對其進行高效管理與利用,對促進中醫(yī)藥事業(yè)的發(fā)展起著關鍵作用。然而,中醫(yī)藥技術和信息技術發(fā)展不同步、傳統(tǒng)中醫(yī)學長期缺乏規(guī)范、缺少統(tǒng)一的術語定義標準,以及海量中醫(yī)藥數據且與日俱增,使傳統(tǒng)的數據管理模式難以對其進行有效管理與利用。因此,分析中醫(yī)藥信息本質特征并提出相應的管理策略,已成為有效利用中醫(yī)藥信息資源亟需解決的核心問題。為此,筆者結合中醫(yī)藥信息特征,對傳統(tǒng)的中醫(yī)藥信息技術手段、成果及局限性進行分析和總結,提出大數據背景下的中醫(yī)藥數據管理解決方案,并從中醫(yī)藥信息的個性特征角度分析論證借助大數據技術對其進行有效管理的可行性。
1 中醫(yī)藥信息特征分析
中醫(yī)藥是中華民族發(fā)展歷程中對人自身和自然認識了解過程的成果,具有明顯的自然屬性和社會屬
基金項目:國家自然科學基金(81573985);湖南省科技廳 項目(2011RS4025、2013GK3143);湖南省教育廳優(yōu)秀青年 基金(13B079)
性。其中,自然屬性體現(xiàn)在中藥與中醫(yī)知識的客觀存在特性,社會屬性源于人類活動對中醫(yī)藥自然屬性的影響,如藥物加工、藥種的人工干預、信息的再生產等方面。中醫(yī)藥信息是認識論層次的信息,具有明顯的主客觀融合特征,相對重視系統(tǒng)時間上的延續(xù)變化狀態(tài),是開放環(huán)境下獲取的包含本質的現(xiàn)象信息[1]。從數據管理角度而言,中醫(yī)藥信息具有以下特性。
1.1 描述對象屬性模糊、抽象
中醫(yī)學理論體系受陰陽五行學說的影響以整體觀念為主導,基于系統(tǒng)和經驗而缺少客觀量化依據,判別標準模糊,導致屬性描述模糊和抽象。一般對藥物的描述多采用諸如“溫”“辛”等詞,對其用法多采用“?!薄耙擞凇钡瘸橄笤~,如對細辛的描述為“本品辛溫發(fā)散……長于解表散寒……宜于外感風寒,頭身疼痛較甚者,常與羌活、防風、白芷等祛風止痛藥同用……”。又如脈象信息作為中醫(yī)獲取四診信息的手段之一,其收集僅靠醫(yī)生指腹的感覺,對其描述采用形象化的詞語,如滑脈“替替然如珠之應指”、浮脈“舉之有余,按之不足”。
1.2 采集對象屬性不完備,古籍校本不一
中醫(yī)古籍文獻著作者在對中醫(yī)藥的屬性描述過程中多帶有主觀因素,且受限于其時代的認知水平,導致采集的對象屬性存在片面性和局限性。同時,由于古醫(yī)籍文獻數字化工作量巨大,導致現(xiàn)有的中藥數據庫大多僅提供題錄式或文摘式數據而全文數據庫少,使用戶難以獲取全面詳細的信息。
中醫(yī)藥古籍中一些比較重要的醫(yī)籍,由于多次再版,導致同一古籍存在多種校本,而且在古籍傳承過程中采用的金石、簡牘、帛書、抄本和印本等載體易導致出錯,使現(xiàn)存的中醫(yī)藥文獻中對象屬性不完備甚至存在錯誤。
1.3 名詞術語不規(guī)范,對象屬性描述多樣
中醫(yī)藥名詞術語不規(guī)范,一詞多義、同義多詞的現(xiàn)象十分普遍。如針灸學中任脈“關元”穴有多種別名,氣功學中稱“丹田”,《素文·氣穴論篇》稱“下紀”,《靈樞·寒熱病》稱“三結交”,《針灸甲乙經》稱“次門”,《針灸資生經》稱“大中極”。又如中藥“金銀花”,《植物名實圖考》稱“鷺鷥花”或“忍冬花”,在處方中有二寶花、二花、金花、銀花等別名,按產地區(qū)別又有蘇花(江蘇)、濟銀花(山東費縣)、密銀花(河南密縣)、杜銀花(甘肅)等名稱。另外,中醫(yī)方劑學也存在著不規(guī)范的中藥炮制名,以及劑量單位不統(tǒng)一、同方異名等問題,如粗略統(tǒng)計發(fā)現(xiàn)《中華名醫(yī)方劑大全》9031首方劑異名達1004個[2]。
對象屬性描述多樣主要是由于中醫(yī)藥自身復雜多樣特征所決定。如對藥材的描述中,產地多采用文字描述,用量采用數字描述,而形狀特征則采用圖文結合進行描述。
1.4 中醫(yī)藥文獻或數據庫之間關系復雜
以中醫(yī)藥數據為內容構建的數據庫之間關系復雜。同一藥物常出現(xiàn)在不同數據庫中,方劑中的藥與藥典中的藥之間關系、不同醫(yī)師對相同病癥用藥之間的內在關系、同一醫(yī)師對不同病癥開具的處方之間的用藥關系等,由于傳統(tǒng)的中醫(yī)藥數據信息未共享,各自為“信息孤島”,導致在分析對象間關系,尤其是當分析的數據海量時,采用傳統(tǒng)關系數據庫難以實現(xiàn)。
1.5 數據海量且增長快速
中醫(yī)藥在其發(fā)展過程中產生了海量數據,如中國中醫(yī)科學院中醫(yī)藥數據中心數據存儲容量目前已達PB級[3]。隨著現(xiàn)代信息技術在中醫(yī)藥領域中的廣泛應用,使中醫(yī)藥信息快速增長,尤其在臨床診斷、治療、檢測方面產生的臨床數據,以及在現(xiàn)代實驗研究方面產生的相關數據方面更為突出,如中藥現(xiàn)代研究文獻數據庫,其數量約占現(xiàn)有中醫(yī)藥文獻數據庫總量的3/4[4]。
2 中醫(yī)藥信息管理現(xiàn)狀與困惑
目前,中醫(yī)藥信息管理主要集中在基礎數據庫、數字化圖書館建設、相關標準(規(guī)范)整理、文獻信息檢索和電子政務系統(tǒng)建設等方面,尤其在數字化方面取得了顯著成果。如“國家中醫(yī)古籍整理與數字化研究中心”累計已完成1690種中醫(yī)古籍的圖像掃描,實現(xiàn)了部分古籍資源圖文對照和全文檢索功能,建設了800種中醫(yī)古籍的影像數據庫和全文數據,并形成了解決中醫(yī)古籍數據化問題的“基于知識元的中醫(yī)古籍計算機知識表示方法”,制定了《中醫(yī)古籍數字化文本校勘整理規(guī)范》等系列指導古籍數字化建設的技術標準及系列古籍知識標引手冊等[5],為中醫(yī)古籍大規(guī)模數字化、數據化建設,以及面向臨床的知識服務提供了技術保障,解決了中醫(yī)古籍數字化及數據化的技術難題。
在數據庫建設方面,中國中醫(yī)科學院中醫(yī)藥信息研究所自1984年開始進行中醫(yī)藥學大型數據庫的建設,目前數據庫總數40余個、數據總量約110萬條,包括中醫(yī)藥期刊文獻數據庫、各類中藥數據庫、民族醫(yī)藥數據庫等相關數據庫,并在建設數據庫的過程中制定了中醫(yī)藥元數據標準、中醫(yī)藥一體化語言系統(tǒng)等相關標準。以中國中醫(yī)科學院為中心建立的中醫(yī)科技文獻共建平臺,創(chuàng)建了中醫(yī)、中藥、針灸、古籍文獻類數據庫100余個,同時為了充分利用這些科學數據資源還建立了數據挖掘方法的整合平臺與高性能運算的技術平臺[5]。
在綜合系統(tǒng)和平臺建設方面,國家啟動了旨在集成現(xiàn)有中醫(yī)藥科技數據庫群的“中國中醫(yī)藥科學數據網格服務應用”項目,該項目已經構建了面向中醫(yī)領域的應用網格框架,并在開發(fā)面向中醫(yī)藥領域的特定網格應用軟件[6]??萍疾繂恿恕搬t(yī)藥衛(wèi)生科學數據共享網”項目,該項目旨在建立一個物理上分布、邏輯上高度統(tǒng)一的醫(yī)藥衛(wèi)生科學數據管理與共享服務系統(tǒng),以提供數據共享和信息服務[7]。中國中醫(yī)科學院中醫(yī)藥信息研究所針對單一實體機構受到自身發(fā)展規(guī)模、人員及設施等方面的限制,牽頭提出了“中醫(yī)藥信息數字化虛擬研究院”[8]的理念。
借助現(xiàn)代信息技術對中醫(yī)信息資源的綜合利用、挖掘也進行了一些嘗試。如湖南中醫(yī)藥大學從20世紀70年代的“中醫(yī)辨證論治電腦系統(tǒng)”到21世紀初的“WF-Ⅲ中醫(yī)(輔助)診療系統(tǒng)”,系統(tǒng)內編制有病癥1000種,標準證候模式1800個,演繹證候模式5000余個,疾病病種 460種,辨證要素54項,常見證200個,常用方劑670首(驗方在外),常用中藥720種(含中成藥),能為中醫(yī)內、婦、兒科全病域診療[9]。中國中醫(yī)科學院從2001年開始著手建立中醫(yī)臨床科研信息共享的技術體系,用以解決將臨床實際診療信息實時數據化及對復雜海量臨床數據的分析利用的問題,目前已建立了多個應用系統(tǒng),其中中醫(yī)臨床數據倉庫中已經存儲超過10余萬份的數據化病歷[5]。
當然,中醫(yī)藥信息化建設相對于現(xiàn)代醫(yī)學或其他科學起步較晚,信息化水平遠落后于用戶對其實際使用的需求。如現(xiàn)存的中藥數據庫中大部分數據庫僅提供題錄式或文摘式數據,難以滿足用戶希望獲得全面且詳細內容的實際需求。另一方面,已有的中醫(yī)藥信息化建設主要集中在中醫(yī)藥信息數據資源的收集、整理,綜合利用或從數據服務的性能及質量方面考慮較少。因此,隨著所采集數據量的增加和用戶對其服務質量要求的提高,現(xiàn)有的中醫(yī)藥信息化水平將更加難以滿足用戶對其使用的客觀需求。
支持海量中醫(yī)藥數據的管理系統(tǒng)應具有高可擴展性以滿足數據量的快速增長、高性能以滿足對數據的高性能查詢、良好的容錯性以及有效解決對象多樣性問題的措施,但目前中醫(yī)藥數據管理主要采用的關系型數據模型無法解決這些問題,主要體現(xiàn)在以下幾方面。
第一,關系型數據庫內存中的數據結構與關系模型之間存在“阻抗失諧”,需將不同數據之間的關系進行轉換,雖然采用“模式匹配”能解決“阻抗失諧”,但降低了系統(tǒng)查詢性能,因而無法解決中醫(yī)藥信息中對象屬性項的不確定性問題。
第二,關系型數據庫雖然采用分割、非規(guī)范化、分布式緩存等技術能增強其存儲和管理能力,但無法解決諸如中醫(yī)藥數據規(guī)模巨大、數據類型多樣的問題,而且一些半結構化數據強行使用關系模型建模后在系統(tǒng)性能和擴展能力上沒有好的表現(xiàn)。
第三,在提高對數據的存儲與并行處理能力、保障強一致性及容錯性方面,關系型數據庫雖然發(fā)展了并行處理系統(tǒng)、采用NRW策略、兩階段提交協(xié)議、分布式鎖等諸多技術,但根據CAP理論[10-11],一致性、可用性、分區(qū)耐受性在分布式系統(tǒng)中三者不可兼得,因而并行數據庫無法獲得良好的擴展性,這導致了擴展性受限的關系型數據庫無法對中醫(yī)藥大數據進行深度分析[12]。
第四,中醫(yī)藥數據海量且增加快速,需要與之相匹配的具有良好橫向擴展能力的數據庫,但傳統(tǒng)關系型數據庫對性能的擴展傾向于縱向擴展,該方式對性能的增加速度遠低于需處理數據的增長速度,且性能提升有限;傳統(tǒng)關系型數據庫處理多個數據源協(xié)同查詢操作時其效率低,而中醫(yī)藥信息中各數據對象間存在的關系尤為復雜,使關系模型數據庫在面向海量、多數據源進行讀寫或查詢操作時難以滿足用戶對性能的要求。
總之,傳統(tǒng)的關系型數據庫難以有效管理中醫(yī)藥數據,是由于中醫(yī)藥數據自身的固有特性和傳統(tǒng)的關系型數據庫本身局限所致。因而要從本質上解決中醫(yī)藥數據的管理問題,需打破傳統(tǒng)的數據管理模式,借助現(xiàn)代信息的發(fā)展成果尤其是數據管理方面的新技術,從中醫(yī)藥信息本身的特征出發(fā),對其進行高效管理和利用。
3 中醫(yī)藥信息管理新趨勢
3.1 大數據技術
大數據最典型的特征為“數據量大(volume)”、“數據增長高速(velocity)”“數據類型多樣(variety)”和“數據價值密度低(value)”,即4V特征,該特征使用常規(guī)軟件工具難以對其進行獲取、管理和分析。
作為一種新的計算模式,云計算源于并行計算、分布式計算和網格計算,主要依靠分布式處理、云存儲、分布式數據庫及虛擬化技術,實現(xiàn)“基礎設施及服務”“平臺及服務”和“軟件及服務”功能。大數據存儲、管理及數據分析往往借助云計算技術,最為典型的應用為云計算體系結構底層文件系統(tǒng)用于管理大數據文件及運用分布計算框架如MapReduce、Spark進行數據處理和分析。MapReduce作為Google提出的分布式計算框架,提供了一種簡單的編程模型,讓用戶通過設定Map功能,將一組Key/value對轉換為一組中間Key/value對。Reduce功能將具有相同中間Key值的中間Value值進行整合,從而得到計算結果。MapReduce中的一個作業(yè)就是一組Map和Reduce函數,它們被提交給調度系統(tǒng),然后被調度到可用的機器上去。為克服MapReduce的機器學習算法性能低下、不能很好地利用內存資源、編程復雜度較高等不足,Matei Zaharia主導開發(fā)了新型計算框架Spark。不同于MapReduce,Spark的Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此,Spark能更好地適用于數據挖掘與機器學習等需要迭代的MapReduce算法。
目前諸多大型IT企業(yè)為解決自身所從事領域的數據管理,開展了相關研究并提出一些可行的解決方案或服務,其中典型的成功實例有:為解決海量數據環(huán)境中面向全球用戶提供實時的搜索引擎服務,Google提出了文件系統(tǒng)GFS、分布式計算編程模型MapReduce框架、分布式鎖Chubby、分布式存儲系統(tǒng)Megastore、分布式結構化數據表Bigtable及分布式監(jiān)控系統(tǒng)Dapper等技術。Apache開源組織提出了一個開源的分布式計算框架Hadoop,其核心技術HDFS、MapReduce和HBase分別對應Google的GFS、MapReduce、Bigtable的開源實現(xiàn)。Amazon提出了Dynamo平臺基礎存儲架構以及彈性計算云EC2、簡單存儲服務S3、簡單數據庫服務Simple DB、簡單隊列服務SQS、彈性MapReduce服務等系列服務,其中Dynamo作為Amazon的電子商務平臺基礎完全分布式、去中心化,已被Twitter和Facebook作為存儲架構。另外,微軟推出了AZURE,IBM推出了藍云服務。
上述大數據較普遍采用了以下技術:①對數據庫不事先定義結構(schemaless)以解決“阻抗失諧”問題,即先有數據再確定模式,不需事先修改結構定義從而可以自由添加字段;②采用弱一致性模型或最終一致性模型以適應集群處理大數據;③通過并行計算模型實現(xiàn)在可伸縮的大規(guī)模集群上執(zhí)行并行操作,以從系統(tǒng)層面解決擴展性及容錯性問題。
3.2 基于大數據技術的中醫(yī)藥信息管理措施
中醫(yī)藥數據難以管理和利用,可以歸結為對象屬性復雜、數據海量及對象間關系復雜,這些問題本質上屬于大數據的4V特征,目前業(yè)界已有成熟且實踐中得到廣泛驗證的解決方案,因而可以借鑒大數據技術解決中醫(yī)藥信息的管理問題。
3.2.1 對象屬性多樣 中醫(yī)藥數據中操作對象的屬性描述多樣,即其數據類型存在著不確定性,傳統(tǒng)關系型數據庫需事先預定數據結構,導致無法存儲類型不統(tǒng)一的數據,而大數據技術通常采用“無模式”數據庫,可解決大數據特征的“數據類型多樣(variety)”問題。如Dynamo存儲架構對數據以位(bit)的形式存儲、不解析數據的具體內容,對數據結構不進行識別,從而可以處理不同的數據類型。
中醫(yī)藥信息存在大量非結構化、半結構化的數據,如古醫(yī)籍、藥典、處方等,目前已有許多成熟的數據庫可以存儲非結構化、半結構化的數據,最為典型的為鍵值數據庫Riak、文檔數據庫、列族數據庫HBase。這些數據庫通過聚合構建,每個聚合都有一個鍵或ID以獲取數據。其中,鍵值數據庫可以根據鍵值查出整個聚合,而文檔數據庫的聚合是透明的,因而文檔數據庫可用聚合中的字段查詢。列族數據庫與傳統(tǒng)數據庫以行為單元存儲來滿足需要經常寫入操作的場景最大不同之處在于,其將所有行的某一組列作為基本數據單元進行存儲以適應經常需要一次讀取若干行中多列的情況。這些數據存儲模型能較好地解決中醫(yī)藥信息中復雜的數據存儲對象,如處方可以用患者的ID作為鍵值采用鍵值數據庫進行存儲,便于查詢以該ID存儲的聚合內容;而藥典中對藥的描述組織結構大體相同,因而可采用文檔數據,便于通過其中的字段進行查詢以提高查詢效率。
3.2.2 數據海量、增長迅速 中醫(yī)藥數據中操作對象的屬性模糊、不完備、古籍校本混亂,為獲取全面、準確的信息,需綜合多個數據源進行綜合分析,即從大量數據價值相對低的中醫(yī)藥信息中進行抽取。該問題可歸結為“數據量大(volume)”和“數據價值密度低(value)”的大數據特征。
解決中醫(yī)藥數據的海量性需具有可擴展性的分布式文件系統(tǒng),而且文件的規(guī)模不同,則需采取的策略不同。在處理大文件方面,Google的分布式文件系統(tǒng)GFS可構建在大量廉價服務器之上,主要適用于讀操作遠大于寫操作的應用場景且具有可擴展性,如中醫(yī)藥文獻古籍存儲后主要進行讀操作一般不需進行再寫,因而可采用GFS文件系統(tǒng)。在存儲海量小文件如圖片存儲場景時,Haystack文件系統(tǒng)通過多個邏輯文件共享同一個物理文件、增加緩存層、加載部分元數據到內存等方式,解決GFS在解決海量小文件由于頻繁讀取元數據導致效率低的問題。
3.2.3 各數據對象間復雜關系 中醫(yī)藥文獻記載或中醫(yī)藥數據庫中存儲的對象之間復雜關系實際上是客觀存在的聯(lián)系,圖作為表示事物之間聯(lián)系的有效手段,可以表示這種復雜關系。需要記載或存儲的對象即實體,對象間關系即為邊,實體和邊都有各自的屬性。關系型數據庫中存儲的圖結構通常采用單一關系類型,如在增加一條關系往往需修改多個模式并轉移大批數據,因而不適用于中醫(yī)藥數據分析的場景。圖數據庫與關系型數據庫存儲圖結構不同之處在于實體間的關系在創(chuàng)建時被持久化,因而對其進行遍歷的效率高。在大數據圖處理方面,Google提出了主要用于圖計算的Pregel模型,其核心思想源于BSP計算模型;微軟提出了Dryad數據處理模型,主要用來構建支持有向無環(huán)圖類型數據的并行程序。Pregel模型和Dryad模型相結合,能較好地分析中醫(yī)藥信息中對象間存在的相互關系。
4 結語
如何有效管理和利用中醫(yī)藥信息資源是充分利用中醫(yī)藥技術服務社會的核心問題。本文在分析中醫(yī)藥信息資源的發(fā)展歷程和其本質特征的基礎上,闡述了中醫(yī)藥信息資源具有大數據4V特征,從理論上分析了大數據技術解決中醫(yī)藥信息資源管理的可行性。今后研究將主要集中在具體存儲對象的存儲模型選取及其實現(xiàn)方面,以期最終實現(xiàn)一個有效管理中醫(yī)藥信息資源的綜合云平臺。
參考文獻:
[1] 于琦,崔蒙.中醫(yī)藥信息的特征研究[J].中國中醫(yī)基礎醫(yī)學雜志, 2012,18(10):1137-1139.
[2] 丁志平,王家輝,喬延江.中藥信息學研究淺釋[J].中國中醫(yī)藥信息雜志,2003,10(4):92-94.
[3] 羅朝淑.我首個國家級中醫(yī)藥數據中心成立[N].科技日報, 2015-01-08(10).
[4] 李湘君.中醫(yī)藥信息資源現(xiàn)狀分析[J].衛(wèi)生軟科學,2007,21(3):227-228.
[5] 劉保延.大數據繪制當代中醫(yī)航海圖[N].中國中醫(yī)藥報, 2013-06-05(3).
[6] 尹愛寧,崔蒙,范為宇,等.中醫(yī)藥虛擬研究院[J].國際中醫(yī)中藥雜志, 2006,28(3):141-143.
[7] 趙紅,尹嶺,王建國,等.國家醫(yī)藥衛(wèi)生領域科學數據共享網建設目的與現(xiàn)狀[J].中國中醫(yī)藥現(xiàn)代遠程教育,2008,6(6):570-572.
[8] 崔蒙,謝琪,尹愛寧,等.中醫(yī)藥信息數字化虛擬研究院建設模式研究[J].上海中醫(yī)藥大學學報,2008,23(3):5-8.
[9] 朱文鋒.WF文鋒-Ⅲ中醫(yī)(輔助)診療系統(tǒng)[J].醫(yī)學研究雜志,2007, 36(9):62.
[10] ERIC A BREWER. Towards robust distributed systems[EB/OL]. (2000-07-19)[2016-04-19].http://people.eecs.berkeley.edu/~brewer/cs262b-2004/PODC-keynote.pdf.
[11] LYNCH N, GILBERT S. Brewer's conjecture and the feasibility of consistent, available, partition-tolerant Web services[J]. ACM SIGACT News,2002,33(2):51-59.
[12] 覃雄派,王會舉,杜小勇,等.大數據分析——RDBMS與MapReduce的競爭與共生[J].軟件學報,2012,23(1):32-45