蔣發(fā)俊 覃 琳 黃柏福
(廣西壯族自治區(qū)計算中心,廣西 南寧 530022)
基于大數(shù)據(jù)技術(shù)的藥用植物研究成果管理平臺設(shè)計
蔣發(fā)俊 覃 琳 黃柏福
(廣西壯族自治區(qū)計算中心,廣西 南寧 530022)
藥用植物研究是一門數(shù)據(jù)量巨大而又復雜的學科, 大量專業(yè)的研究數(shù)據(jù)不僅難于記憶查找,而且也不利于成果的深度開發(fā)利用。通過設(shè)計開發(fā)藥用植物研究成果管理平臺,將大數(shù)據(jù)技術(shù)等現(xiàn)代互聯(lián)網(wǎng)技術(shù)引進到藥用植物研究領(lǐng)域,把藥用植物研究過程中產(chǎn)生的數(shù)據(jù)、資料、圖片等結(jié)構(gòu)化及非結(jié)構(gòu)化的研究成果存儲到管理平臺中并通過數(shù)據(jù)整理、清理、裝載、轉(zhuǎn)換等大數(shù)據(jù)算法技術(shù)進行數(shù)據(jù)挖掘分析形成規(guī)范化、模塊化的數(shù)據(jù)倉庫,最終在平臺中提供數(shù)據(jù)采集、統(tǒng)計查詢、分析預測等功能服務(wù),為藥用植物研究成果的管理提供科學有效的辦法,創(chuàng)造更高的社會價值。
藥用植物;大數(shù)據(jù)技術(shù);研究成果;數(shù)據(jù)挖掘;分析預測
我國自古以來就有著藥用植物研究與應(yīng)用的悠久歷史,據(jù)統(tǒng)計目前我國境內(nèi)有超過 12000種的藥用植物,隨著中藥材在醫(yī)學界的廣泛應(yīng)用,藥用植物研究已經(jīng)成為了現(xiàn)代醫(yī)藥研究的熱點。
通過實際調(diào)研發(fā)現(xiàn),現(xiàn)階段藥用植物研究成果記錄缺乏先進的方法和技術(shù)手段,大部分仍然使用幾十年前手寫記錄的方式。大量的研究信息和復雜的原始試驗數(shù)據(jù)記錄之后就堆積在檔案室無人問津,既不利于中醫(yī)藥事業(yè)的傳承交流,也給藥用植物研究成果的查詢應(yīng)用帶來了很大的困難。同時由于研究成果除了文字、數(shù)字之外,還包含了圖像、文本、報表等大量的非結(jié)構(gòu)化數(shù)據(jù),用于管理結(jié)構(gòu)化數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫缺點以及局限性越來越明顯。在不斷增加的數(shù)據(jù)量和日趨的復雜數(shù)據(jù)結(jié)構(gòu)等因素的影響下,原始藥用植物研究成果勢必要借助大數(shù)據(jù)、非關(guān)系型數(shù)據(jù)庫等新技術(shù)進行管理、加工才能得到更加有效的資源加以利用,發(fā)揮其巨大的價值和效應(yīng)。
基于這一目的設(shè)計了一個以大數(shù)據(jù)分析為核心,藥用植物研究成果管理應(yīng)用為目的藥用植物研究成果管理平臺,將大數(shù)據(jù)技術(shù)運用到藥用植物研究領(lǐng)域,保存分析藥用植物研究過程中產(chǎn)生的大量數(shù)據(jù)、資料、圖片等結(jié)構(gòu)化及非結(jié)構(gòu)化研究成果,探索大數(shù)據(jù)技術(shù)在藥用植物研究領(lǐng)域的應(yīng)用。
藥用植物的研究包括了種子保存、活體試驗、離體試驗、病蟲害研究、餾分試驗以及標本保存各個階段,每個階段都有大量的實驗數(shù)據(jù)和植物藥理藥性信息需要記錄,而且信息資源具有有別于其他學科信息資源的典型大數(shù)據(jù)特征:數(shù)量龐大又極具復雜性。
藥園植物研究涉及到的信息包括了植物的基本屬性、生理信息、藥用植物特性、地理分布、試驗數(shù)據(jù)、圖像信息、文件數(shù)據(jù)等多種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),同時由于各階段工作的相對獨立性,研究過程中又會產(chǎn)生大量的重復數(shù)據(jù)。
要實現(xiàn)藥用植物研究成果的管理利用,首先就需要解決大量研究成果的數(shù)據(jù)化、數(shù)字化以及存儲分析問題,為此首先要整合藥用植物六個不同研究階段所產(chǎn)生的數(shù)據(jù), 把每個研究階段的大量結(jié)構(gòu)化及非結(jié)構(gòu)化信息進行數(shù)據(jù)化、數(shù)字化并加以組合去重,然后把其中包含的不同內(nèi)容進行關(guān)聯(lián),形成蘊含豐富內(nèi)容的大數(shù)據(jù)資源。
大數(shù)據(jù)技術(shù)的核心作用在于從數(shù)據(jù)里面找出有價值的東西來,迅速完成數(shù)據(jù)價值的提純。通過數(shù)據(jù)挖掘、數(shù)據(jù)可視化等技術(shù)對海量藥用植物研究成果進行整理、清理、裝載、轉(zhuǎn)換,形成規(guī)范化、模塊化的數(shù)據(jù)倉庫,把復雜數(shù)據(jù)里面的的知識挖掘出來,這樣我們才可以對研究內(nèi)容進行利用,進而提供更多的信息服務(wù)。
藥用植物數(shù)據(jù)管理平臺的設(shè)計需要滿足數(shù)據(jù)集成、分析處理、綜合查詢、分析預測及輔助決策等功能,所以在設(shè)計過程中首先要對藥用植物研究過程進行數(shù)據(jù)建模選擇合理的業(yè)務(wù)模型。
根據(jù)藥用植物研究工作的業(yè)務(wù)活動流程及其研究成果類型,我們把藥用植物信息分成了基本屬性、地理位置、生理特征、藥用特性、研究成果、文件資料、圖像資料七大數(shù)據(jù)模塊?;緦傩园幱弥参锏闹形拿⒗∶?、科屬種等基本信息;地理位置包含植物的分布地點、采集地點、保存地點信息;生理特征包含植物的形態(tài)習性、生長周期信息;藥用特性包含植物的藥用部位、藥材名、藥理作用、臨床應(yīng)用信息;研究成果包含研究階段的各種實驗數(shù)據(jù)以及結(jié)論等內(nèi)容;文件資料包含和研究有關(guān)的相關(guān)文獻論文;圖像資料包含植物各生長期以及標本等圖像信息。
每個模塊數(shù)據(jù)都分別存儲于基本屬性數(shù)據(jù)庫、地理位置數(shù)據(jù)庫、生理特征數(shù)據(jù)庫、藥用特性數(shù)據(jù)庫、研究成果數(shù)據(jù)庫、文件數(shù)據(jù)庫、圖像數(shù)據(jù)庫七個獨立的子數(shù)據(jù)庫。分數(shù)據(jù)庫的模式不僅可以保證系統(tǒng)擁有更快的響應(yīng)速度,而且各個子庫的內(nèi)容既可以獨立使用也可根據(jù)實際需要互相結(jié)合形成更加完整全面的數(shù)據(jù)信息。
按照數(shù)據(jù)模塊的劃分,管理平臺分為數(shù)據(jù)采集子系統(tǒng)、地理位置子系統(tǒng)、統(tǒng)計查詢子系統(tǒng)、生理特征子系統(tǒng)、藥用特性子系統(tǒng)、趨勢預測子系統(tǒng)、文件子系統(tǒng)、圖像子系統(tǒng),每個子系統(tǒng)都提供特定的功能,方便不同平臺使用人員根據(jù)實際需求快速地找到所需信息。藥用植物研究成果管理平臺的整體系統(tǒng)架構(gòu)圖如圖1:
圖1 平臺系統(tǒng)架構(gòu)圖
大數(shù)據(jù)平臺的搭建,使用了針對超大數(shù)據(jù)集合的低延遲集群分布式計算系統(tǒng)Spark作為基礎(chǔ)引擎。Spark是一個基于內(nèi)存計算的開源的集群計算系統(tǒng),提供了多種數(shù)據(jù)處理函數(shù),包括基本匯總、map-reduce等,同時還提供Count, collect, reduce, lookup, save等多種 actions。通過使用這些多種多樣的數(shù)據(jù)集操作類型來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序,給平臺上層應(yīng)用提供了方便。平臺利用 Spark強大的數(shù)據(jù)處理能力來對采集數(shù)據(jù)進行分布式數(shù)據(jù)處理、數(shù)據(jù)異構(gòu)、數(shù)據(jù)可視化及數(shù)據(jù)挖掘等操作,最終提供數(shù)據(jù)分布式索引、統(tǒng)計查詢、分析預測等功能。
在數(shù)據(jù)安全方面還設(shè)計了備份恢復功能,自動對平臺上重要的數(shù)據(jù)定期進行備份,當數(shù)據(jù)因故障丟失或者順壞時平臺能夠及時地通過備份數(shù)據(jù)庫進行恢復。同時平臺設(shè)計過程中預留了數(shù)據(jù)接口以及二次開發(fā)接口,方便與其他系統(tǒng)的集成和今后對平臺功能進行升級。
圖2 平臺系統(tǒng)分層結(jié)構(gòu)圖
藥用植物研究成果管理平臺完成后,最終將實現(xiàn)集科研究數(shù)據(jù)采集、信息發(fā)布共享、統(tǒng)計查詢、分析預測于一體的目標,通過現(xiàn)代軟件技術(shù)及大數(shù)據(jù)技術(shù)幫助研究人員提高藥用植物研究工作的質(zhì)量及效率;研究成果的數(shù)字化可以極大程度地避免以往紙質(zhì)文件或 Excel記錄容易丟失難以查找的情況再次發(fā)生;而原始的研究成果經(jīng)過平臺海量數(shù)據(jù)挖掘分析整合處理之后,將會得到更加簡單規(guī)律且易于理解的高價值數(shù)據(jù),便于藥用植物研究成果的分享及深度利用。
目前系統(tǒng)架構(gòu)的搭建、數(shù)據(jù)庫設(shè)計、各子系統(tǒng)的開發(fā)和基礎(chǔ)數(shù)據(jù)錄入都已經(jīng)全部完成,藥用植物研究成果管理平臺中總共保存了接近3000條的植物研究數(shù)據(jù),包含藥用植物的基本屬性、藥用特性、生理特征、地理分布、實驗數(shù)據(jù)、圖像、文件等內(nèi)容,為平臺的大數(shù)據(jù)分析挖掘提供了數(shù)據(jù)基礎(chǔ)。
圖3 平臺已錄入的藥用植物列表
通過各個子系統(tǒng),平臺已經(jīng)實現(xiàn)了數(shù)據(jù)采集、信息發(fā)布共享、統(tǒng)計查詢、地理位置分析、趨勢預測等功能。其中數(shù)據(jù)采集除了可以通過人工錄入外,我們還提供了批量導入的接口,方便對歷史研究數(shù)據(jù)的快速處理;統(tǒng)計查詢功能能夠通過圖表、餅狀圖以及柱狀圖的方式對藥用植物科、屬、種、分布區(qū)域等內(nèi)容歸類展現(xiàn);地理位置分析功能結(jié)合百度地圖進行顯示,藥用植物分布一目了然;趨勢預測可以通過植物的地理位置、生理特性等信息分析預測植物分布范圍、生長規(guī)律、生命周期甚至植物進化趨勢等內(nèi)容。
圖4 植物地理位置分布功能
借助藥用植物研究成果管理平臺,利用 Spark大數(shù)據(jù)技術(shù)來對藥用植物研究成果進行保存和整理挖掘分析,不僅提高了藥用植物研究工作的效率,而且通過對原始數(shù)據(jù)的深度挖掘分析歸納,有效解決了傳統(tǒng)的紙質(zhì)研究成果查詢不便、難以閱讀等問題,提高了研究成果利用價值價值。
在下一步的研究過程中,我們將繼續(xù)探索優(yōu)化大數(shù)據(jù)模型算法,提高平臺數(shù)據(jù)挖掘處理能力,通過搭建分布式數(shù)據(jù)庫、數(shù)據(jù)集群等措施提高系統(tǒng)并發(fā)處理能力,進一步改善平臺的不足及缺點,提供更加全面高效的服務(wù)。
大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)成為了一個新興的國家戰(zhàn)略性產(chǎn)業(yè),而大數(shù)據(jù)在藥用植物研究領(lǐng)域還處于起步階段,今后還將會有更大的研究發(fā)展空間,相信借助新技術(shù)新應(yīng)用的幫助,藥用植物研究成果的利用一定能夠更上一個臺階,在推進藥用植物研究進步的同時產(chǎn)生更大的社會效益。
[1] 艾鐵民.中國藥用植物志.第 12卷[M].北京大學醫(yī)學出版社, 2013.
[2] (美) Jiawei Han [加]Micheline Kamber [加]Jian Pei.數(shù)據(jù)挖掘:概念與技術(shù)[M].機械工業(yè)出版社,2012.
[3] 李智慧.大型網(wǎng)站技術(shù)架構(gòu):核心原理與案例分析[M].電子工業(yè)出版社,2013.
[4] (美) Holden Karau.Spark快速數(shù)據(jù)處理[M].機械工業(yè)出版社,2014.
Management platform based on the results of a large study of medicinal plants data technology
Medicinal Plant Research is a huge and complex amount of data subjects, data is not only a large number of professional studies find difficult to remember, but not conducive to the depth of exploitation outcomes. Through the design and development of medicinal plants research management platform, big data technology and other modern Internet technology into the field of medicinal plant research, the study of medicinal plant research data generated in the process, information, pictures and other structured and unstructured results of stored data management platform and through consolidation, cleaning, loading, and other large data conversion technology for data mining algorithms analyze a standardized, modular data warehouse, ultimately providing data collection, statistical inquiry, analysis and forecasting services and other functions in the platform providing scientific and effective way to manage medicinal plants research and create a higher social value.
Medicinal plants; Big data technologies; research; data mining; analysis and forecast
S567
A
1008-1151(2015)02-0038-03
2015-01-13
蔣發(fā)俊,供職于廣西壯族自治區(qū)計算中心。