孫智強
(江蘇省科學技術情報研究所 江蘇南京210042)
當前,很多科研院所的信息化建設水平不高,對科研數(shù)據(jù)的存儲、管理、分析和挖掘使用還停留在低層次,造成了數(shù)據(jù)資源的極大浪費。推進科研院所大數(shù)據(jù)中心建設,可以有效解決以上問題。
大數(shù)據(jù)技術實際上就是一種從數(shù)量龐大、種類繁多的數(shù)據(jù)中提取出有用信息的技術。大數(shù)據(jù)中心是集各相關領域的數(shù)據(jù)資源,形成一個大規(guī)模的數(shù)據(jù)庫平臺,通過各種先進的數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘等技術,實現(xiàn)為政府、社會各界提供便捷的數(shù)據(jù)收集、查詢、分析、再加工等服務,為科學研究、創(chuàng)業(yè)規(guī)劃、社會治理等提供必要的數(shù)據(jù)支撐和決策依據(jù)。
自2001年以來世界各地的大數(shù)據(jù)中心建設高速發(fā)展。據(jù)統(tǒng)計,全球大數(shù)據(jù)中心數(shù)量在 2015年達到855萬座。從大數(shù)據(jù)中心的發(fā)展來看,2012—2017年全球大數(shù)據(jù)中心年平均增長率為 17.39%,中國為39.57%;從大數(shù)據(jù)涉及的領域來看,目前大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和領域。美國大數(shù)據(jù)戰(zhàn)略發(fā)布后12個聯(lián)邦部門啟動開展了82個大數(shù)據(jù)相關項目,涵蓋國防、國土安全、國家安全、能源、醫(yī)療衛(wèi)生、食品藥物、航空航天、人文社會科學、地質(zhì)勘查等眾多領域。我國的各大數(shù)據(jù)中心在新的發(fā)展規(guī)劃中,重點加強大數(shù)據(jù)與教育、醫(yī)療衛(wèi)生、生活娛樂、電子商務、金融、工業(yè)、農(nóng)牧業(yè)、能源產(chǎn)業(yè)、公共服務、地理空間等領域的深度融合。業(yè)界普遍認為,大數(shù)據(jù)將成為新發(fā)明和新服務的源泉,大數(shù)據(jù)時代將為人類的生活創(chuàng)造前所未有的變革。所以,建設大數(shù)據(jù)中心,利用大數(shù)據(jù)的思維和先進的技術手段,有效管理和挖掘大規(guī)模數(shù)據(jù)資源中蘊藏的價值,是當下各行各業(yè)的關注焦點和發(fā)展方向。
目前,國內(nèi)多數(shù)科研院所的信息系統(tǒng)相互獨立、無關聯(lián),各自向政府、社會提供服務,存在著數(shù)據(jù)資源閑置,利用率不高;數(shù)據(jù)存儲和使用簡單粗放,缺乏整理、清洗和分析功能,對領導宏觀決策幫助較小;各數(shù)據(jù)庫關聯(lián)性弱,數(shù)據(jù)之間缺乏支撐,不能被系統(tǒng)性使用;各個信息系統(tǒng)單獨維護,維護成本相對較高;數(shù)據(jù)庫與外部數(shù)據(jù)連接接口較少,外部資源不能得到很好的利用和整合。這些問題嚴重制約了科研院所數(shù)據(jù)業(yè)務的發(fā)展和信息化建設水平。
一是促進系統(tǒng)集成,將原有的多個系統(tǒng)整合集成為一個或幾個大的信息系統(tǒng),破除信息孤島,節(jié)約運營和維護資源,降低網(wǎng)絡安全風險;二是促進現(xiàn)有數(shù)據(jù)資源的管理使用水平,減少重復研發(fā)投入和研發(fā)工作,同時使現(xiàn)有數(shù)據(jù)得到有效的分析挖掘,提升數(shù)據(jù)資源的使用效率;三是將主流的先進信息技術引入單位信息化建設當中,提升單位信息系統(tǒng)的智能化水平,提升用戶使用感受和單位信息化建設水平。
當前,多數(shù)大數(shù)據(jù)中心采用平臺化建設原則。筆者認為,科研院所大數(shù)據(jù)中心建設應圍繞主體業(yè)務,以各部門需求為導向,集成現(xiàn)有的數(shù)據(jù)、系統(tǒng)及業(yè)務流程,形成統(tǒng)一的大數(shù)據(jù)資源中心,支撐全部業(yè)務全流程管理。同時,筆者認為,著眼未來發(fā)展,可以適當引入云計算、區(qū)塊鏈等技術,為相關業(yè)務預留發(fā)展接口,利用區(qū)塊鏈技術為跨級別、跨部門的數(shù)據(jù)互聯(lián)互通提供安全可信任的環(huán)境,形成可持續(xù)發(fā)展的運維服務保障機制。
2.2.1 資源共享及業(yè)務協(xié)同原則
遵循資源共享和業(yè)務協(xié)同原則,總體設計,合理布局,由情報所統(tǒng)一規(guī)劃,各部門配合建設,提升所數(shù)據(jù)資源共享和業(yè)務協(xié)同能力,并具備良好的系統(tǒng)集成能力、信息共享和交換能力、外部接口能力以及對標準規(guī)范的支持能力。
2.2.2 經(jīng)濟性和資源節(jié)約原則
大數(shù)據(jù)中心建設應充分利用現(xiàn)有網(wǎng)絡資源、硬件設備、軟件系統(tǒng)、人力資源和數(shù)據(jù)資源,保護前期投資,確?,F(xiàn)有系統(tǒng)與目標系統(tǒng)之間的平滑過渡和無縫集成;慎重權衡性能與代價的關系,選擇適度超前的軟硬件產(chǎn)品,在保證系統(tǒng)先進性的同時,控制投資成本。
2.2.3 開放性和可擴展性原則
平臺建設要按照開放性和可擴展性原則設計,必須既滿足當前業(yè)務發(fā)展需求,又要考慮未來大數(shù)據(jù)處理及應用的發(fā)展趨勢,設計合理的擴展架構(gòu),采用開放的、標準化的平臺設計,合理分配利用基礎設施資源,實現(xiàn)現(xiàn)有業(yè)務系統(tǒng)平滑接入和擴展。
2.2.4 易用性和便捷性原則
在系統(tǒng)建設時,針對不同層面的使用者的應用水平,充分考慮系統(tǒng)的易用性,充分考慮到使用者計算機操作水平,操作簡單、方便,以保障信息化應用的順利推廣。
當前,科研院所大數(shù)據(jù)中心建設,按照“大平臺、大系統(tǒng)、大集成、大數(shù)據(jù)”的建設思想,基于云計算技術,構(gòu)建可擴展的一體化業(yè)務平臺,形成人員、數(shù)據(jù)、管理等有機統(tǒng)一的大數(shù)據(jù)資源中心,利用采集、歸集、交換、網(wǎng)絡抓取等多種數(shù)據(jù)獲取技術和手段,實現(xiàn)對涉及主導業(yè)務的政策信息、科研數(shù)據(jù)等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)資源的整合處理、體系管理、共享交換、數(shù)據(jù)接口服務等功能。依托大數(shù)據(jù)中心,建立一體化業(yè)務處理平臺,主要將對外服務功能進行集成整合,實現(xiàn)資源與數(shù)據(jù)互聯(lián)互通,提供統(tǒng)一身份認證、工作流引擎、數(shù)據(jù)挖掘引擎、系統(tǒng)管理等基礎平臺功能,通過數(shù)據(jù)、消息及界面實現(xiàn)與現(xiàn)有業(yè)務系統(tǒng)的集成應用,通過統(tǒng)一身份認證實現(xiàn)單點登錄?;诖髷?shù)據(jù)資源和一體化業(yè)務處理平臺,全面集成現(xiàn)有的應用業(yè)務,整合內(nèi)部管理、對外服務、政務服務等業(yè)務管理流程,形成數(shù)據(jù)一致、流程協(xié)同、功能完整的應用體系,提供兼容 PC端和移動端的多種應用整合的服務。
當前,新建的大數(shù)據(jù)中心,至少要實現(xiàn)以下 8項功能:①系統(tǒng)集成。實現(xiàn)科研院所業(yè)務系統(tǒng)高度集成目標,分散系統(tǒng)集中到統(tǒng)一平臺,利用虛擬化和云計算技術,實現(xiàn)硬件環(huán)境和網(wǎng)絡安全統(tǒng)一管理。業(yè)務部門負責提需求和使用,數(shù)據(jù)中心負責系統(tǒng)開發(fā)、升級、運維和網(wǎng)絡安全,數(shù)據(jù)集中管理共享,提升數(shù)據(jù)資源使用效率,壓縮運維和安全管理成本。②數(shù)據(jù)交換。實現(xiàn)科研院所各業(yè)務系統(tǒng)數(shù)據(jù)實時全流程無障礙交換,并構(gòu)建與上下級管理部門和業(yè)務單位的大數(shù)據(jù)中心相關系統(tǒng)的數(shù)據(jù)交換接口,實現(xiàn)數(shù)據(jù)實時無障礙交換對接。③數(shù)據(jù)加載清洗。實現(xiàn)各級業(yè)務系統(tǒng)的數(shù)據(jù)抽取和加載,主要包括數(shù)據(jù)源管理、數(shù)據(jù)關系匹配與轉(zhuǎn)換規(guī)則、審核規(guī)則設置、數(shù)據(jù)交換流程管理、數(shù)據(jù)交換引擎、任務異常監(jiān)控。④即席查詢。提供一個靈活的即席查詢工具,用戶可以根據(jù)自己的需要,靈活地設置查詢項及查詢條件,同時支持查詢條件的任意組合及與或關系。⑤多維在線分析。要能夠為用戶提供可視化、簡單易用的多維在線分析工具,通過鼠標拖拽的方式,實現(xiàn)復雜多變的報表分析與展示。⑥智能圖表。提供圖表制定工具,用戶可以自行設置圖表展現(xiàn)形式、圖表間聯(lián)動交互邏輯等。⑦智能檢索。利用關鍵字索引、字段索引技術,實現(xiàn)智能搜索功能,根據(jù)用戶輸入的搜索內(nèi)容,自動查詢相關指標、報表、文檔、分析報告等內(nèi)容并實現(xiàn)一體化展示。⑧智能挖掘。用戶可以自己編寫數(shù)據(jù)挖掘算法,支持在線編譯、可視化分析、數(shù)據(jù)和圖表互動、算法模型管理等功能。
科研院所建設大數(shù)據(jù)中心,應該搞好頂層規(guī)劃,優(yōu)化總體架構(gòu),并精確定位功能模塊作用。在架構(gòu)設計方面,通常包括以下 5個方面:①基礎設施層,提供數(shù)據(jù)綜合管理平臺建設部署所依賴的軟硬件基礎設施,包括計算資源、存儲設備、網(wǎng)絡設備及其他基礎設施。②數(shù)據(jù)層,實現(xiàn)各類數(shù)據(jù)資源的存儲及數(shù)據(jù)訪問接口服務。③平臺層,作為對應用系統(tǒng)的支撐保障,主要功能為業(yè)務支撐及協(xié)同管理、系統(tǒng)集成及接口服務管理、數(shù)據(jù)交換與共享平臺、元數(shù)據(jù)與數(shù)據(jù)資源體系管理、數(shù)據(jù)資源整合與分析展現(xiàn)平臺等。④應用層,主要集成各類應用服務系統(tǒng),提供全新的流程優(yōu)化、集中的信息展示和系統(tǒng)之間的協(xié)作等功能。⑤展現(xiàn)層,通過 PC端或移動端實現(xiàn)數(shù)據(jù)查詢展現(xiàn)門戶功能,通過直觀的、多維度的信息展示,可為用戶提供服務領導決策、改進工作方式、實時動態(tài)監(jiān)控等作用。
3.4.1 應用平臺建設
應用平臺建設是大數(shù)據(jù)中心建設的關鍵環(huán)節(jié),它是平臺化建設思想的主要體現(xiàn),也是大數(shù)據(jù)主要功能的引擎和主要發(fā)力點。筆者認為,科研單位大數(shù)據(jù)中心建設,應該至少包括數(shù)據(jù)資源共享交換平臺、數(shù)據(jù)資源體系管理平臺、數(shù)據(jù)資源整合和分析展示平臺、業(yè)務協(xié)同管理平臺、系統(tǒng)集成和接口服務平臺。
3.4.2 系統(tǒng)安全建設
信息資產(chǎn)安全運營威脅的來源主要包括:通過對外服務區(qū)來自于惡意用戶的攻擊、不同部門間人員的非法訪問、內(nèi)部人員的越權訪問、設備運行故障、重要數(shù)據(jù)泄密等。全面地對信息系統(tǒng)網(wǎng)絡安全威脅進行分析和歸類,根據(jù)安全風險的來源,參照業(yè)界通用的分析方法和國家《信息安全風險評估指南》《信息系統(tǒng)安全等級保護基本要求》,制定安全總體架構(gòu)。通用的安全架構(gòu)如圖1所示。
圖1 安全總體框架示意圖Fig.1 Map of the overall security framework
建議以項目形式,申請專項經(jīng)費補助,完成項目建設。同時,每年要列支專項運維經(jīng)費,保障大數(shù)據(jù)中心的可持續(xù)發(fā)展。
對原有信息系統(tǒng)的運維力量進行整合,成立單位的大數(shù)據(jù)中心專門運維部門,形成數(shù)據(jù)的產(chǎn)生、數(shù)據(jù)的存儲管理、數(shù)據(jù)的挖掘、數(shù)據(jù)的整理、數(shù)據(jù)的分析使用全鏈條運維和保障力量,能夠?qū)崿F(xiàn)依靠自身力量完成上級和客戶賦予的數(shù)據(jù)處理、數(shù)據(jù)查詢、模型設計、數(shù)據(jù)分析和結(jié)果解讀等任務。
從日常工作、人員管理、任務分工、安全管理等方面,分別制定大數(shù)據(jù)中心建設、工作管理、人員職責、經(jīng)費保障、安全預案等規(guī)章和制度,確保大數(shù)據(jù)日常工作的有序開展。
要建立相關工作計劃,加快建設進度,搶占先發(fā)優(yōu)勢。積極爭取上級部門對單位大數(shù)據(jù)中心的支持,爭取將所大數(shù)據(jù)中心納入上級相關信息化項目中同步建設,同步運維和發(fā)展,爭取相關資金和制度支持,提升單位大數(shù)據(jù)中心在上級部門宏觀決策層面的作用和影響力。