李 浩
(中國(guó)電子科技集團(tuán)公司第三十九研究所,陜西 西安 710065)
目前,云計(jì)算技術(shù)是國(guó)際網(wǎng)絡(luò)產(chǎn)業(yè)中的熱門技術(shù)之一,其誕生標(biāo)志著以低成本為核心的超級(jí)計(jì)算機(jī)服務(wù)的時(shí)代已經(jīng)來臨。云計(jì)算技術(shù)全面構(gòu)建了新一代互聯(lián)網(wǎng)計(jì)算資源,為互聯(lián)網(wǎng)上的大部分高層數(shù)據(jù)處理系統(tǒng)提供必要的支持,不論是大數(shù)據(jù)和人工智能,還是其他各種應(yīng)用,都離不開云計(jì)算所提供的基礎(chǔ)建設(shè)。對(duì)職業(yè)人員而言,核心是理解云計(jì)算技術(shù),文章將以通俗的語言剖析云計(jì)算技術(shù)及其業(yè)務(wù)形態(tài),并簡(jiǎn)要介紹了云計(jì)算和大數(shù)據(jù)、人工智能之間的聯(lián)系,以期幫助讀者理解云計(jì)算技術(shù)下大數(shù)據(jù)分析平臺(tái)的具體設(shè)計(jì)。
大數(shù)據(jù)是抽象概念,并沒有完整定義。目前,有關(guān)網(wǎng)站對(duì)大數(shù)據(jù)的定義為一個(gè)用于數(shù)據(jù)采集、管理以及處理,并分析數(shù)據(jù)集的軟件。與曾經(jīng)的“海量”數(shù)據(jù)相比,如今的數(shù)據(jù)流量已經(jīng)以幾何級(jí)數(shù)的速度增加,并融合了采集、分類、處理等多元操作,使得人們可以從中發(fā)現(xiàn)更多的內(nèi)在信息。大數(shù)據(jù)具有以下特征。
(1)大容量。隨著大數(shù)據(jù)的發(fā)展,目前企業(yè)數(shù)據(jù)規(guī)模已經(jīng)接近艾字節(jié)(Exabyte,EB)級(jí)數(shù)量。
(2)多元化類型。過去常常使用結(jié)構(gòu)化數(shù)據(jù),其在存儲(chǔ)上有一些優(yōu)點(diǎn)。例如:組件程序之間可以更好的協(xié)同工作,共享同一個(gè)文件夾;數(shù)據(jù)可以通過磁盤文件系統(tǒng)統(tǒng)一管理。目前,圖像和視頻等數(shù)據(jù)正逐步發(fā)展為非結(jié)構(gòu)特點(diǎn)[1]。同時(shí),由于數(shù)據(jù)種類的差異,處理信息的技巧有了更高的要求。
(3)價(jià)值密度過低。多數(shù)數(shù)據(jù)具有較高的固有價(jià)值,而大數(shù)據(jù)本身并不具有較高的價(jià)值密度,因此處理海量信息可以得到更多具有實(shí)際作用的數(shù)據(jù)。
(4)高速化。與傳統(tǒng)的數(shù)據(jù)挖掘方法相比,大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)的處理要求更高,因此處理數(shù)據(jù)的效率對(duì)決策效果產(chǎn)生直接影響。具體應(yīng)用時(shí),應(yīng)該基于數(shù)據(jù)的特征選擇處理形式,或有效整合各種數(shù)據(jù),顯示對(duì)應(yīng)的結(jié)果。
此外,云計(jì)算的顯著特征是規(guī)模龐大、虛擬化以及可擴(kuò)展。其服務(wù)種類包括以下3 項(xiàng):一是可以在服務(wù)結(jié)束后,打包各種基本的資源,如Amazon EC2/S3 云服務(wù)、硬件設(shè)備等,并將基礎(chǔ)設(shè)施提供給用戶使用;二是能夠?qū)⒊橄蟮男畔⑽镔|(zhì)化,為使用者創(chuàng)造一個(gè)類似于谷歌Enjine 軟件的運(yùn)行平臺(tái);三是針對(duì)性的軟件,例如Salesforce online CRM 軟件可以包裝一些特殊的功能。
對(duì)于云計(jì)算機(jī)理而言,可以使用Web Services 作為使用者互動(dòng)界面的存取界面,實(shí)時(shí)獲取使用者的需求;使用服務(wù)目錄作為使用者的服務(wù)清單。該系統(tǒng)的管理接口可以有效調(diào)度現(xiàn)有的資源,確保網(wǎng)絡(luò)的負(fù)荷平衡[2]。
設(shè)計(jì)研發(fā)大數(shù)據(jù)分析平臺(tái)的過程中,首先要考慮的是如何有效地存儲(chǔ)數(shù)據(jù)。由于大數(shù)據(jù)技術(shù)的特性,需要以分布式的體系架構(gòu)為基礎(chǔ),構(gòu)建一個(gè)能夠滿足用戶多元化、個(gè)性化需求的分析平臺(tái),從而實(shí)現(xiàn)數(shù)據(jù)采集與處理的多樣性。構(gòu)建分布式文件系統(tǒng)時(shí),除利用好系統(tǒng)中已有的各種資源之外,可以利用其他的一些可靠方式來檢測(cè)數(shù)據(jù)信息,以便能夠滿足用戶多元化的要求。由于大數(shù)據(jù)中存在大量的信息數(shù)據(jù)以及各種形式的文件圖片,且大量的信息存量都屬于半結(jié)構(gòu)、非結(jié)構(gòu)類型,為有效地處理這些信息數(shù)據(jù),需要構(gòu)建一個(gè)性能可靠的存儲(chǔ)模塊。目前,相關(guān)行業(yè)還沒有標(biāo)準(zhǔn)化描述鍵值、圖表類型的數(shù)據(jù)存儲(chǔ),因此此處構(gòu)建的存儲(chǔ)模型包含了該類型的數(shù)據(jù)存儲(chǔ),用數(shù)據(jù)庫的方法管理鍵值和圖表數(shù)據(jù),從而滿足現(xiàn)代的互聯(lián)網(wǎng)技術(shù)的要求。同時(shí),與常規(guī)方式的數(shù)據(jù)庫建設(shè)相比,該模型省去了申請(qǐng)應(yīng)用過程,有著顯著的優(yōu)點(diǎn)。
互聯(lián)網(wǎng)技術(shù)快速發(fā)展的背景下,將會(huì)產(chǎn)生越來越多的匯集數(shù)據(jù),因此要想提高數(shù)據(jù)采集和存儲(chǔ)的效率,就必須高效跟進(jìn)數(shù)據(jù)發(fā)展。使用遠(yuǎn)程內(nèi)存訪問協(xié)議技術(shù),可以明顯提高數(shù)據(jù)計(jì)算的效率和品質(zhì),同時(shí)可以有效處理存儲(chǔ)需求耗費(fèi)過大的問題。滿足應(yīng)具備規(guī)范的數(shù)據(jù)采集方法比較豐富,通過構(gòu)建數(shù)據(jù)流處理系統(tǒng),可以提高數(shù)據(jù)采集的效能,從而有效減少成本,最大限度地體現(xiàn)信息的價(jià)值[3]。
大數(shù)據(jù)分析平臺(tái)集云計(jì)算、分布式、存儲(chǔ)等多種能力于一身,提高了信息數(shù)據(jù)的處理速度和質(zhì)量。云計(jì)算數(shù)據(jù)處理一體化平臺(tái)的體系架構(gòu)分為3 部分:一是頂層,其作用是接口子系統(tǒng)處理工作流;二是中層,其作用是數(shù)據(jù)預(yù)處理;三是數(shù)據(jù)中心層,其作用是數(shù)據(jù)存儲(chǔ)。
一個(gè)Segment 主機(jī)通常會(huì)有多個(gè)節(jié)點(diǎn),采用互聯(lián)網(wǎng)技術(shù)整合、連接Segment 主機(jī)、Master 主機(jī)以及相應(yīng)的數(shù)據(jù)庫。整個(gè)系統(tǒng)的運(yùn)作中,各存儲(chǔ)節(jié)點(diǎn)沒有發(fā)生任何的數(shù)據(jù)交互,相應(yīng)的工作狀況也通常獨(dú)立,因此只能利用Master 的有關(guān)功能,讓整個(gè)Segment 主機(jī)與其數(shù)據(jù)庫之間建立起信息交流,且所有的應(yīng)用程序都要利用Master 主機(jī)設(shè)定的權(quán)限,順利存取有關(guān)數(shù)據(jù)信息。各節(jié)點(diǎn)在Segment 服務(wù)器中的運(yùn)轉(zhuǎn)有著同樣的工作任務(wù),通過網(wǎng)絡(luò)媒介將各節(jié)點(diǎn)高效地聯(lián)系在一起,從而構(gòu)成一個(gè)完整的服務(wù)器系統(tǒng)。
非交互的信息平臺(tái)體系結(jié)構(gòu)中,為使該體系能夠在線操作數(shù)據(jù),需要對(duì)數(shù)據(jù)庫、主機(jī)存儲(chǔ)區(qū)域網(wǎng)絡(luò)(Storage Area Network,SAN)/共享硬盤、硬盤SAN/網(wǎng)狀通道(Fibre Channel,F(xiàn)C)網(wǎng)絡(luò)進(jìn)行特殊設(shè)計(jì)。該設(shè)計(jì)方式適合于小型的信息數(shù)據(jù)查詢。在非交互數(shù)據(jù)平臺(tái)的運(yùn)作體制下,可以將客戶的信息詢問要求劃分為多個(gè)過程,并在一個(gè)完整的簇中進(jìn)行統(tǒng)一的分析和計(jì)算,客戶的所有信息和數(shù)據(jù)要求都可以在基于因特網(wǎng)的高帶寬運(yùn)作體制中迅速地得到滿足。該架構(gòu)不僅結(jié)構(gòu)簡(jiǎn)單,而且獨(dú)立節(jié)點(diǎn)和硬盤之間都有一條可以讓所有節(jié)點(diǎn)單獨(dú)工作的高速信道,為高效、高質(zhì)量地處理數(shù)據(jù)提供強(qiáng)大的數(shù)據(jù)支撐和安全保障。完全共享性架構(gòu)如圖1 所示。
圖1 完全共享性架構(gòu)
基礎(chǔ)設(shè)施即服務(wù)模式(Infrastructure as a Service,IaaS)中,用戶不必為其所需要的基礎(chǔ)設(shè)備支付高昂的費(fèi)用,可以以租賃的形式,利用云計(jì)算服務(wù)商提供的服務(wù)器、存儲(chǔ)資源、網(wǎng)絡(luò)資源等,自行設(shè)定操作系統(tǒng)以及安裝運(yùn)行軟件。此外,IaaS 云具有以下7 項(xiàng)基礎(chǔ)特性。
(1)資源抽象。資源抽象模式可以高效地分配和管理網(wǎng)絡(luò)中的資源流向。
(2)資源監(jiān)控。監(jiān)測(cè)整個(gè)網(wǎng)絡(luò)資源,可以確保網(wǎng)絡(luò)底層的設(shè)備高效運(yùn)轉(zhuǎn)。
(3)負(fù)載管理??刂粕暾?qǐng)負(fù)載,不僅可以提高應(yīng)用程序?qū)o急事件的反應(yīng)能力,而且可以提高系統(tǒng)資源的利用率。
(4)數(shù)據(jù)管理。云計(jì)算中,IaaS 模式最根本的需求就是數(shù)據(jù)的完整性、可靠性以及可管理性。
(5)資源部署。將資源從創(chuàng)造到利用的全部過程實(shí)現(xiàn)自動(dòng)化。
(6)安全管理。IaaS 安全管理的首要目的就是要確保合法存取、保留IaaS 架構(gòu)及其所提供的資源。
(7)計(jì)費(fèi)管理?;诰?xì)的收費(fèi)管理方式,方便用戶更加靈活地應(yīng)用資源[4]。
該項(xiàng)技術(shù)的原則是通過使用多層次的分類方式,管理隸屬于平臺(tái)的身份信息,加密信息權(quán)限的接入設(shè)定。當(dāng)數(shù)據(jù)操作員存取使用者的信息時(shí),該技術(shù)可以使系統(tǒng)自適應(yīng)記錄,并快速處理。工作人員可以解析操作痕跡,以確保使用者在存取數(shù)據(jù)時(shí)的安全。
訪問安全技術(shù)的存儲(chǔ)審計(jì)通常包含2 項(xiàng)流程:一是在訪問接入用戶大數(shù)據(jù)平臺(tái)前,必須進(jìn)行接入認(rèn)證,即一般性證書頒發(fā)機(jī)構(gòu)(Certificate Authority,CA)認(rèn)證技術(shù),該技術(shù)是較核心的網(wǎng)絡(luò)信息保護(hù)部分,只有經(jīng)過認(rèn)證的訪問者才可以使用該架構(gòu)系統(tǒng);二是進(jìn)入該平臺(tái)的安全體系后,使用者需要通過認(rèn)證進(jìn)入監(jiān)測(cè)模塊,平臺(tái)系統(tǒng)以用戶的身份和授權(quán)的有關(guān)情況為依據(jù)作出響應(yīng),確定用戶能否獲得某種資源。進(jìn)入監(jiān)測(cè)模塊也具有多元的認(rèn)證方法。其中,雙因子主要指利用加密和數(shù)字證書、數(shù)字簽名、指紋虹膜等特性中的2 項(xiàng)相融合的方法,來完成對(duì)用戶的身份認(rèn)證方法,是目前最簡(jiǎn)單、最容易實(shí)現(xiàn)的一種身份認(rèn)證技術(shù)。
本系統(tǒng)采用口令機(jī)制實(shí)現(xiàn)對(duì)技術(shù)的授權(quán)與登錄操作,并通過雙因子身份認(rèn)證登錄大數(shù)據(jù)分析平臺(tái)。同時(shí),以計(jì)算機(jī)網(wǎng)絡(luò)作為中介的新型互聯(lián)網(wǎng)技術(shù),利用數(shù)據(jù)行為審核分析機(jī)制,分析用戶的接入紀(jì)錄和權(quán)限,并利用數(shù)據(jù)庫審計(jì)的方法,高效地即時(shí)記錄互聯(lián)網(wǎng)上的數(shù)據(jù)庫活動(dòng),進(jìn)而提升數(shù)據(jù)庫的運(yùn)行行為的規(guī)范化以及審核工作的整體性。此外,功能完善的數(shù)據(jù)庫信息系統(tǒng)在遇到風(fēng)險(xiǎn)異常的情況下,會(huì)自動(dòng)開啟告警,并迅速地阻斷危險(xiǎn)行動(dòng)。通過數(shù)據(jù)庫審計(jì),可以從內(nèi)部和外部2 方面強(qiáng)化對(duì)數(shù)據(jù)庫網(wǎng)絡(luò)信息的行為記錄,從而更好地提高數(shù)據(jù)庫信息資產(chǎn)的安全性,該行為機(jī)理是對(duì)審計(jì)用戶進(jìn)行數(shù)據(jù)訪問與解析的一種有效方式。
在云計(jì)算融合于大數(shù)據(jù)分析平臺(tái)應(yīng)用階段,Master 主機(jī)將保存最原始的信息,每個(gè)節(jié)點(diǎn)上的Segment 主機(jī)功能是保存用戶圖片,通過鏡像技術(shù)處理多個(gè)差異性Segment主機(jī),進(jìn)而保存鏡像數(shù)據(jù)。因此,如果Segment 服務(wù)器在運(yùn)行過程中發(fā)生故障,那么負(fù)責(zé)鏡像數(shù)據(jù)保存的Segment 服務(wù)器可以將自己保存的鏡像數(shù)據(jù)恢復(fù)到原來的數(shù)據(jù)庫系統(tǒng)中,從而有效保障數(shù)據(jù)安全[5]。
為保障平臺(tái)的安全穩(wěn)定運(yùn)行,服務(wù)器的選擇應(yīng)當(dāng)標(biāo)準(zhǔn)。為保證系統(tǒng)的運(yùn)轉(zhuǎn)效果,本次設(shè)計(jì)使用的是X86 的公開結(jié)構(gòu)個(gè)人計(jì)算機(jī)(Personal Computer,PC)服務(wù)器。該服務(wù)器有著十分顯著的優(yōu)點(diǎn),不僅可以迅速、安全地分布存儲(chǔ)數(shù)據(jù),而且可以高效、穩(wěn)定地統(tǒng)一處理海量數(shù)據(jù),甚至能夠出色解決復(fù)雜棘手的輸入/輸出(Input/Output,I/O)問題。
可以通過利用外部表進(jìn)行比較簡(jiǎn)單的處理來更新數(shù)據(jù)流結(jié)構(gòu)化查詢語言(Structured Query Language,SQL),該處理具有很大的優(yōu)勢(shì),可以進(jìn)行平行加載,加載的最高速度通??梢赃_(dá)到4.5 TB/h。
隨著我國(guó)互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展,大數(shù)據(jù)技術(shù)已經(jīng)在各產(chǎn)業(yè)領(lǐng)域得到了廣泛應(yīng)用,而隨著新技術(shù)和新方案的不斷涌現(xiàn),以大數(shù)據(jù)為中心的制造服務(wù)也不斷推向市場(chǎng)。文章分析闡述了云計(jì)算技術(shù)構(gòu)建的大數(shù)據(jù)分析平臺(tái)的可用性,嘗試建立了一套分析平臺(tái),該平臺(tái)可以有效、精準(zhǔn)地處理結(jié)構(gòu)復(fù)雜、關(guān)聯(lián)度高的信息數(shù)據(jù),同時(shí)該設(shè)計(jì)方式可以很好地處理拍字節(jié)(Petabytes,PB)級(jí)的數(shù)據(jù),為提高信息資料的處理效率和準(zhǔn)確度提供了有力的保障,對(duì)建設(shè)基于云計(jì)算的大數(shù)據(jù)分析平臺(tái)的企業(yè)而言是一個(gè)極佳選擇。