謝恩
(湖南省食品藥品安全信息中心,湖南 長(zhǎng)沙 410013)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和應(yīng)用,如何加快中國(guó)信息處理技術(shù)的發(fā)展,實(shí)現(xiàn)建立大數(shù)據(jù)應(yīng)用的體系也受到社會(huì)的廣泛關(guān)注。在這些工程中,大數(shù)據(jù)應(yīng)用基礎(chǔ)設(shè)施的建設(shè)是最基本、最核心的問題[1]。大數(shù)據(jù)處理已成為現(xiàn)代社會(huì)最重要的問題之一,也是關(guān)系到國(guó)家網(wǎng)絡(luò)安全的重大問題。隨著信息產(chǎn)業(yè)作為國(guó)家戰(zhàn)略的發(fā)展,大數(shù)據(jù)應(yīng)用處理體系的建設(shè)成為近期工作的重點(diǎn)。更重要的是,大數(shù)據(jù)網(wǎng)絡(luò)的發(fā)展和普及對(duì)信息傳輸提出了更高的要求。因此,大數(shù)據(jù)應(yīng)用體系的建立和發(fā)展在眼下就顯得尤為重要。
近些年來,我們正面臨這一場(chǎng)巨大的變革,這場(chǎng)變革的引起者就是信息和數(shù)據(jù)。大數(shù)據(jù)應(yīng)用已經(jīng)充分滲透進(jìn)了社會(huì)的各個(gè)領(lǐng)域以及人們?nèi)粘I畹母鱾€(gè)方面,并成為推動(dòng)社會(huì)經(jīng)濟(jì)的一種新的動(dòng)力。根據(jù)市場(chǎng)數(shù)據(jù)顯示,2010年-2015年,全球流量激增26倍,在2012年我國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模上升至4.5億元人民幣,同比上漲40.6%, 從2013年開始,大數(shù)據(jù)市場(chǎng)呈爆發(fā)式增長(zhǎng),2016達(dá)到101億元。信息技術(shù)的革新、社會(huì)經(jīng)濟(jì)的改善,都表現(xiàn)出大數(shù)據(jù)應(yīng)用引起的諸多變化。在信息化建設(shè)的競(jìng)爭(zhēng)階段,大數(shù)據(jù)應(yīng)用已然成為世界各國(guó)競(jìng)相發(fā)展的重點(diǎn)。大數(shù)據(jù)影響著各國(guó)之間的競(jìng)爭(zhēng),成為了一種國(guó)家必備的軟實(shí)力。也將引領(lǐng)未來國(guó)際競(jìng)爭(zhēng)的戰(zhàn)略格局[2]。
正如前文所述,大數(shù)據(jù)應(yīng)用體系的建設(shè)是十分有必要的,同時(shí)也是國(guó)家發(fā)展規(guī)劃中的重要技術(shù)組成。目前大數(shù)據(jù)技術(shù)同樣廣泛應(yīng)用在政府機(jī)構(gòu)中,例如在上海早在2006年便開始通過公開金融信息,從而催生了一大批金融咨詢服務(wù)企業(yè),極大的拉動(dòng)了就業(yè);再例如交通部門通過大數(shù)據(jù)技術(shù)實(shí)現(xiàn)交通狀況的動(dòng)態(tài)檢測(cè)等。通過立體的探索和研究并通過深度的發(fā)掘大數(shù)據(jù)應(yīng)用領(lǐng)域,將會(huì)成為未來大數(shù)據(jù)發(fā)展最主流以及最核心的方向。如圖是近年來我國(guó)的大數(shù)據(jù)應(yīng)用的比例:
大數(shù)據(jù)建設(shè)的意義所在是其在現(xiàn)實(shí)中的應(yīng)用,需要通過調(diào)研從而發(fā)掘大數(shù)據(jù)在不同場(chǎng)景下的應(yīng)用,因?yàn)橹挥猩钊肓私鈶?yīng)用場(chǎng)景的本質(zhì),才能對(duì)客戶的需求充分掌握并做出真正符合市場(chǎng)需求的高性價(jià)比應(yīng)用。通過細(xì)分行業(yè)的充分規(guī)劃可以實(shí)際高效的大數(shù)據(jù)平臺(tái)打造,必須發(fā)掘大數(shù)據(jù)在細(xì)分行業(yè)的應(yīng)用點(diǎn)才可以實(shí)現(xiàn)大數(shù)據(jù)的價(jià)值體現(xiàn)并將其最大限程度的利用。
圖1 大數(shù)據(jù)應(yīng)用比例(數(shù)據(jù)來源:國(guó)家統(tǒng)計(jì)局)
大數(shù)據(jù)的出現(xiàn)不是憑空的,技術(shù)的變革才是關(guān)鍵和基底。核心技術(shù)從來都是大數(shù)據(jù)價(jià)值體現(xiàn)的根本。從數(shù)據(jù)信息的獲取到數(shù)據(jù)信息研究從再到算法模型與數(shù)據(jù)呈現(xiàn),必須都要以關(guān)鍵的技術(shù)支持。大數(shù)據(jù)時(shí)代的到來,是通過刺激經(jīng)濟(jì)發(fā)展需要的間接手段,從而極大的驅(qū)動(dòng)技術(shù)的創(chuàng)新[3]。
大數(shù)據(jù)所需的資料量以及數(shù)據(jù)量極其龐大,主流的軟件無法在合理的時(shí)間內(nèi)進(jìn)行有效的處理。而眼下,對(duì)大數(shù)據(jù)主要的定義為:規(guī)模龐大、信息種類多樣以及處理效率極高。規(guī)模龐大就是:數(shù)據(jù)量積累到一定的程度,就無法用主流軟件進(jìn)行分析處理,大多需要用定性模式來操作;數(shù)據(jù)多樣是指,面對(duì)需要處理的信息類型,將這些信息分為結(jié)構(gòu)化、本結(jié)構(gòu)化和非結(jié)構(gòu)化,將這些特征加在相應(yīng)信息的屬性上,提升操作的效率。
大數(shù)據(jù)技術(shù)的關(guān)鍵意義不僅僅是對(duì)大量數(shù)據(jù)的接收,關(guān)鍵在于對(duì)這些海量數(shù)據(jù)的針對(duì)處理分析。換句話說,大數(shù)據(jù)實(shí)現(xiàn)經(jīng)濟(jì)價(jià)值的關(guān)鍵是提高數(shù)據(jù)分析的水平,從而實(shí)現(xiàn)實(shí)現(xiàn)數(shù)據(jù)處理的價(jià),而大數(shù)據(jù)的基礎(chǔ)設(shè)施就是指實(shí)現(xiàn)數(shù)據(jù)的獲取存儲(chǔ)與管理并實(shí)現(xiàn)分析的基礎(chǔ)設(shè)施——即大數(shù)據(jù)處理中心,它涵蓋了計(jì)算機(jī)系統(tǒng)以及其他的配套設(shè)備,例如通信和存儲(chǔ)設(shè)備等。它的特點(diǎn)在于可以對(duì)大量數(shù)據(jù)進(jìn)行專門的挖掘與處理。
數(shù)據(jù)中心的概念最早起源于上世紀(jì)60年代,主要與計(jì)算機(jī)信息存儲(chǔ)等相關(guān)。在上世紀(jì)90年代,數(shù)據(jù)中心又逐漸發(fā)展成為——將服務(wù)器放在一定的空間并實(shí)現(xiàn)布線和連接設(shè)備,到來21世紀(jì),互聯(lián)網(wǎng)的發(fā)展十分迅猛,從而讓數(shù)據(jù)中心的建設(shè)需要也隨之不斷增加。到了2021年,云數(shù)據(jù)中心的概念與技術(shù)開始出現(xiàn),因此數(shù)據(jù)中心也采用了超級(jí)融合架構(gòu)管理的技術(shù)與模式——即將計(jì)算內(nèi)存網(wǎng)絡(luò)資源、服務(wù)器虛擬化技術(shù)相互結(jié)合,并整理在同一組服務(wù)器上從而實(shí)現(xiàn)使用的管理軟件的統(tǒng)一管理,且可以將網(wǎng)絡(luò)上的多組設(shè)備聚合在一起,以形成一個(gè)單一的資源池。近年來伴隨著用戶的平均流量不斷增加,數(shù)據(jù)中心的建設(shè)又迎來了新的需求和變化[4]。
大數(shù)據(jù)系統(tǒng)軟件將大數(shù)據(jù)處理平臺(tái)與大數(shù)據(jù)應(yīng)用軟件相結(jié)合,是大數(shù)據(jù)系統(tǒng)的基礎(chǔ),大數(shù)據(jù)系統(tǒng)軟件是分布式計(jì)算機(jī)平臺(tái)資源的統(tǒng)一抽象,提供基本的通用功能,如集成存儲(chǔ)管理、分析框架、全生命周期數(shù)據(jù)工程、大數(shù)據(jù)處理安全等,為大數(shù)據(jù)應(yīng)用的開發(fā)和運(yùn)行提供環(huán)境,是大數(shù)據(jù)產(chǎn)業(yè)的“主要驅(qū)動(dòng)力”。
國(guó)際大數(shù)據(jù)系統(tǒng)軟件開發(fā)主要以O(shè)SS為基礎(chǔ),逐步形成了以Hadoop、spark、tensorflow為代表的,大數(shù)據(jù)應(yīng)用開發(fā)的共同核心軟件和工具平臺(tái)。國(guó)際開放源碼軟件基金會(huì)(APACHE)和其他社區(qū)被用作快速技術(shù)開發(fā)的平臺(tái)。IBM和其他基于開源軟件的商業(yè)版本也打包在hadweb中,hadweb是一個(gè)非常重要的開源框架,用于在大型數(shù)據(jù)流程序中使用數(shù)據(jù)流分析數(shù)據(jù)流,包括批處理、連續(xù)操作、統(tǒng)計(jì)分析、計(jì)算圖和tensorflow,是一個(gè)開源軟件平臺(tái),通過與數(shù)據(jù)處理和數(shù)據(jù)處理系統(tǒng)中成熟的關(guān)系數(shù)據(jù)庫技術(shù)的比較,針對(duì)大數(shù)據(jù)時(shí)代的負(fù)載優(yōu)化問題,提出了一種,基于列族和鍵索引的無模型存儲(chǔ)系統(tǒng),并給出了計(jì)算框架。從大數(shù)據(jù)系統(tǒng)軟件開發(fā)的實(shí)踐來看,注重區(qū)域創(chuàng)新和生態(tài)創(chuàng)新是大數(shù)據(jù)系統(tǒng)軟件的發(fā)展方向。大數(shù)據(jù)領(lǐng)域國(guó)家工程實(shí)驗(yàn)室作為公共平臺(tái),通過創(chuàng)新和突破,是大數(shù)據(jù)系統(tǒng)軟件的核心技術(shù),促進(jìn)了大數(shù)據(jù)與各種行業(yè)應(yīng)用的深度融合,推動(dòng)了大數(shù)據(jù)系統(tǒng)軟件技術(shù)和產(chǎn)品的研發(fā),形成具有代表性的示范應(yīng)用案例。
通過大數(shù)據(jù)的基本原理可以到處——大數(shù)據(jù)是憑借多種渠道來達(dá)到獲取信息的目的。計(jì)算機(jī)和移動(dòng)終端(如手提電腦等)分布在有線、無線網(wǎng)絡(luò)中從而增加獲取信息的渠道,而各種傳感器又廣泛的應(yīng)用在不同的移動(dòng)終端上,憑借這些傳感器,用戶可以實(shí)現(xiàn)獲得各種信息的目的,并通過網(wǎng)絡(luò)傳輸數(shù)據(jù)。因此在大數(shù)據(jù)時(shí)代,移動(dòng)端是其大數(shù)據(jù)傳輸?shù)年P(guān)鍵媒介。
實(shí)現(xiàn)信息數(shù)據(jù)的共享是目前技術(shù)研究的關(guān)鍵,這其中涵蓋了針對(duì)實(shí)現(xiàn)為大數(shù)據(jù)信息的獲得提供保障傳感器研究,以實(shí)現(xiàn)高速優(yōu)化自身網(wǎng)絡(luò)結(jié)構(gòu)的技術(shù)目的。以Wed2.0為例,它可以實(shí)現(xiàn)將網(wǎng)絡(luò)上的各項(xiàng)信息由被動(dòng)的信息接受轉(zhuǎn)化為信息研究分析,為網(wǎng)上“沖浪”增加體驗(yàn)感,可以說在大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)技術(shù)手段的成熟與移動(dòng)端的大力開發(fā),為人們的生活帶來了很多的便捷。
隨著大數(shù)據(jù)技術(shù)的不斷深入應(yīng)用,信息安全所面臨的風(fēng)險(xiǎn)相比,也發(fā)生了根本性的變化。從這個(gè)角度考慮和出發(fā),對(duì)大數(shù)據(jù)建立完善的管理體系的要求十分迫切。
整體的數(shù)據(jù)安全管理體系通常通過分層建設(shè)、防護(hù),利用平臺(tái)能力及應(yīng)用的可成長(zhǎng)、可擴(kuò)充性,創(chuàng)造管理體系系統(tǒng)框架,形成完整的安全管理體系。其中,數(shù)據(jù)采集和分析是基本要求。收集匯總各類業(yè)務(wù)系統(tǒng)產(chǎn)生的海量信息數(shù)據(jù),并運(yùn)用實(shí)時(shí)關(guān)析技術(shù)、智推技術(shù)和風(fēng)管技術(shù),對(duì)數(shù)據(jù)事件統(tǒng)一加工分析,實(shí)現(xiàn)對(duì)數(shù)據(jù)安全風(fēng)險(xiǎn)的統(tǒng)一監(jiān)管和風(fēng)險(xiǎn)預(yù)警處理。敏感數(shù)據(jù)隔離交換層通過數(shù)據(jù)指紋采集、內(nèi)容檢測(cè)和響應(yīng)處理三個(gè)步驟,極大提高了工作效率。數(shù)據(jù)防泄露層擊破:數(shù)據(jù)易流動(dòng)、易復(fù)制、難管理等難題,深度分析和識(shí)別、監(jiān)視和保護(hù)靜止的數(shù)據(jù)、移動(dòng)的數(shù)據(jù)以及使用中的數(shù)據(jù),達(dá)到在敏感數(shù)據(jù)利用的,事前、事中、事后完整保護(hù)和響應(yīng),實(shí)現(xiàn)數(shù)據(jù)的合規(guī)用,防止數(shù)據(jù)泄漏。
在大數(shù)據(jù)的發(fā)展過程中,不得不提到一個(gè)非常關(guān)鍵的問題——安全以及隱私問題。隨著目前科技的提升,以攝像頭為代表的監(jiān)控設(shè)備在不斷增加,為人們提供位置信息記錄、監(jiān)控的同時(shí),但也有被不法分子利用的風(fēng)險(xiǎn)。他們通過對(duì)數(shù)據(jù)的竊取,從而掌握人們的出行、消費(fèi)等信息情況,從而達(dá)到為自己提供非法牟利的目的。另一方面由于云計(jì)算技術(shù)的不斷提升,這為僵尸網(wǎng)絡(luò)的發(fā)展帶來了便利的同時(shí),也增加了密碼被破譯的風(fēng)險(xiǎn),由于人們對(duì)于計(jì)算機(jī)的依賴程度不斷提升,所以信息安全技術(shù)是目前大數(shù)據(jù)發(fā)展的同時(shí)一直是不容忽視的風(fēng)險(xiǎn)[5]。
數(shù)據(jù)輸入規(guī)范的不統(tǒng)一,造成不同的業(yè)務(wù)部門、不同時(shí)間、甚至在處理相同業(yè)務(wù)的時(shí)候造成數(shù)據(jù)沖突或矛盾。并且,不是所有行業(yè)都有公認(rèn)可信的數(shù)據(jù)標(biāo)準(zhǔn),而組織標(biāo)準(zhǔn)制定過程中容易出現(xiàn)數(shù)據(jù)元描述及理解錯(cuò)誤;代碼不正確、不完整等情況都會(huì)導(dǎo)致大數(shù)據(jù)不準(zhǔn)確的主要因素。
由于大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展較為迅速,因此也就導(dǎo)致了大數(shù)據(jù)在具體的行業(yè)應(yīng)用中存在一些運(yùn)營(yíng)管理問題的存在,包括運(yùn)營(yíng)管理制度的建設(shè)不完善、對(duì)于大數(shù)據(jù)在具體應(yīng)用場(chǎng)景中的掌握不充分等,從而大大限制了大數(shù)據(jù)技術(shù)的實(shí)際應(yīng)用效果。
在目前的時(shí)代發(fā)展背景下,大數(shù)據(jù)在發(fā)展過程中會(huì)遇到很多機(jī)遇,同時(shí)也會(huì)遭遇不同的挑戰(zhàn),因此做好系統(tǒng)化的規(guī)劃是非常重要的,同時(shí)針對(duì)數(shù)據(jù)的分析處理也十分關(guān)鍵,因?yàn)樗梢詾槠髽I(yè)的發(fā)展提供準(zhǔn)確的信息,從而為企業(yè)創(chuàng)造極大的經(jīng)濟(jì)效益;另一方面,大數(shù)據(jù)的的發(fā)展也為百姓的提供了更好的生活條件。綜上來看,全面的掌握大數(shù)據(jù)的核心內(nèi)涵、并規(guī)范大數(shù)據(jù)的處理步驟,針對(duì)大數(shù)據(jù)處理技術(shù)上存在的缺陷進(jìn)一步研究并解決,可以達(dá)到大數(shù)據(jù)信息的處理品質(zhì)并使得大數(shù)據(jù)在實(shí)際應(yīng)用中的水準(zhǔn)得到提高,同時(shí)針對(duì)大數(shù)據(jù)技術(shù)中的安全性性等問題也需要提上日程。