徐建紅
(山東經(jīng)貿(mào)職業(yè)學(xué)院,山東 濰坊 261011)
大數(shù)據(jù)時代,數(shù)據(jù)資源是企業(yè)發(fā)展中不能忽視的重要資源之一,企業(yè)通過構(gòu)建大數(shù)據(jù)分析系統(tǒng),可以更好地掌握行業(yè)數(shù)據(jù)、企業(yè)內(nèi)部數(shù)據(jù)信息的規(guī)律和潛在信息等,為促進企業(yè)決策和發(fā)展戰(zhàn)略制定提供必要依據(jù)。在構(gòu)建大數(shù)據(jù)分析系統(tǒng)中,云計算技術(shù)也是重要的組成部分,這一技術(shù)的有效應(yīng)用,對于優(yōu)化系統(tǒng)設(shè)計、提升系統(tǒng)性能等都具有重要作用。
云計算技術(shù)應(yīng)用中,需要借助相關(guān)硬軟件資源支持,結(jié)合客戶的具體需要,在多個端口以及規(guī)格應(yīng)用,為客戶提供服務(wù)[1]。在云計算技術(shù)應(yīng)用過程中,搭建云平臺是基礎(chǔ)工作,這是支撐平臺運作的前提,可以幫助獲取大量的信息資源,進行業(yè)務(wù)計算等,還可以進行數(shù)據(jù)存儲,借助云平臺對相關(guān)數(shù)據(jù)開展計算,結(jié)合客戶需求快速為客戶獲取資源提供支持??紤]到不同客戶的需求存在一定差異,云平臺能夠為客戶提供對應(yīng)服務(wù),具體的服務(wù)模式也能體現(xiàn)云計算技術(shù)的應(yīng)用價值。云計算技術(shù)的出現(xiàn)提升了客戶的業(yè)務(wù)辦理效率[2]。公司借助云平臺,可以避免針對某個具體業(yè)務(wù)發(fā)展購置相關(guān)配置,不需要單獨構(gòu)建數(shù)據(jù)庫和機房等,客戶只需要表達自己的需求,就實現(xiàn)數(shù)據(jù)處理效率的顯著提升。
1.2.1 可視化
基于云計算構(gòu)建大數(shù)據(jù)分析系統(tǒng),可以確保實現(xiàn)信息處理中的可視化目標。以此為基礎(chǔ)形成的重要因素也是大數(shù)據(jù)分析的重要前提和基礎(chǔ)。大數(shù)據(jù)分析結(jié)果需要結(jié)合云計算可視化功能,確保數(shù)據(jù)分析者可以有效地進行數(shù)據(jù)分析,確保大數(shù)據(jù)可以實現(xiàn)分析判斷,提升數(shù)據(jù)處理水平和效率[3]。
1.2.2 數(shù)據(jù)挖掘算法
這種算法能夠為計算處理系統(tǒng)提供數(shù)據(jù)信息,協(xié)助實現(xiàn)數(shù)據(jù)挖掘的終極目標。云計算能夠為數(shù)據(jù)處理分析提供有效的分割、集群、孤立點、運算方式等服務(wù),促進計算系統(tǒng)有效開展數(shù)據(jù)挖掘[4]。在數(shù)據(jù)挖掘中,還需要做好海量數(shù)據(jù)處理,提升數(shù)據(jù)快速處理能力,確保及時挖掘出數(shù)據(jù)的潛在價值。
1.2.3 預(yù)測分析能力
針對挖掘得出的結(jié)果,云計算能夠滿足預(yù)測分析功能實現(xiàn)需求,相關(guān)數(shù)據(jù)分析人員可以在此過程中形成分析結(jié)果和處理方式的系統(tǒng)范式,基于可視化結(jié)果以及數(shù)據(jù)挖掘技術(shù)支持,理性分析能夠促進數(shù)據(jù)分析,實現(xiàn)對未來決策的有效判斷。
要進行大數(shù)據(jù)處理系統(tǒng)應(yīng)用,必須把握其不同系統(tǒng)結(jié)構(gòu)。
第一,融合式機構(gòu)[5]。這種結(jié)構(gòu)主要是客戶機/服務(wù)器架構(gòu)模式,相關(guān)服務(wù)器主要是對于系統(tǒng)管理以及控制進行相關(guān)邏輯處理和數(shù)據(jù)調(diào)度??蛻舳藙t是實現(xiàn)人機交互,在用戶想要進行數(shù)據(jù)分析時,可以及時向服務(wù)器傳輸指令,服務(wù)器完成處理后將信息返回到客戶端。這種融合式的大數(shù)據(jù)處理架構(gòu),整體結(jié)構(gòu)比較簡單,方便維護管理,但是缺點是服務(wù)器功能的依賴性比較強,會限制數(shù)據(jù)處理系統(tǒng)應(yīng)用。
第二,分散式架構(gòu)。這種結(jié)構(gòu)的優(yōu)勢是能夠?qū)崿F(xiàn)協(xié)同控制,確保節(jié)點平等,在處理系統(tǒng)的控制和管理模塊中,能夠?qū)崿F(xiàn)在相應(yīng)客戶端的分散。這種結(jié)構(gòu)中的客戶端具有很強的自治性、靈活性、通用性以及可拓展性。不過因為數(shù)據(jù)是以分布式為存儲和分布操作的,所以這種結(jié)構(gòu)中,系統(tǒng)維護難度大,且節(jié)點之間實時同步以及用戶動態(tài)注冊應(yīng)用也很難確保有效開展[6]。
第三,混合式結(jié)構(gòu)。這一系統(tǒng)結(jié)構(gòu)具備上述兩種結(jié)構(gòu)的優(yōu)勢,系統(tǒng)借助服務(wù)器對數(shù)據(jù)信息實施統(tǒng)一維護,客戶端可以進行信息傳輸,也能夠和用戶在相關(guān)方面實現(xiàn)交互,可以有效地緩解服務(wù)器端的壓力,消除服務(wù)器端發(fā)展面臨的阻礙,促進系統(tǒng)靈活性和魯棒性的顯著提高。
如目前在企業(yè)大數(shù)據(jù)分析中應(yīng)用比較多的D-EYE大數(shù)據(jù)分析平臺。D-EYE大數(shù)據(jù)分析平臺是以大數(shù)據(jù)平臺為基礎(chǔ),對IP網(wǎng)數(shù)據(jù)(移動網(wǎng)、固網(wǎng))和客戶歷史重要數(shù)據(jù)、外部導(dǎo)入數(shù)據(jù)等進行智能挖掘分析和關(guān)聯(lián),為客戶提供智能化高收益的行業(yè)完整解決方案。該系統(tǒng)通過線索的發(fā)現(xiàn)、追溯、復(fù)原及綜合分析手段可以從海量數(shù)據(jù)中“快、準、全”地挖掘用戶最想要的高價值業(yè)務(wù)線索。D-EYE大數(shù)據(jù)分析平臺整體分為4層架構(gòu),分別是數(shù)據(jù)采集層、數(shù)據(jù)平臺層、應(yīng)用支撐層和業(yè)務(wù)應(yīng)用層。通過實時和離線采集固定網(wǎng)絡(luò)、移動網(wǎng)絡(luò)、網(wǎng)絡(luò)流量采集數(shù)據(jù)及第三方數(shù)據(jù),D-EYE大數(shù)據(jù)分析平臺可利用地理信息引擎、建模引擎、標簽引擎、人工智能的動態(tài)知識圖譜、自然語言處理引擎、語音圖像識別引擎等方式,對數(shù)據(jù)進行預(yù)處理并存儲到數(shù)據(jù)倉庫中,為客戶提供決策支持。
2.2.1 數(shù)據(jù)采集技術(shù)應(yīng)用
在企業(yè)大數(shù)據(jù)分析系統(tǒng)設(shè)計中,數(shù)據(jù)采集是實現(xiàn)大數(shù)據(jù)分析處理的前提和基礎(chǔ),只有確保采集的企業(yè)相關(guān)數(shù)據(jù)信息資源足夠全面、多樣,才能夠確保數(shù)據(jù)分析結(jié)果準確可靠[7]。企業(yè)管理中的數(shù)據(jù)類型呈現(xiàn)多樣性,包含企業(yè)基礎(chǔ)信息、行業(yè)數(shù)據(jù)、營銷數(shù)據(jù)、支出數(shù)據(jù)、售后數(shù)據(jù)、客戶數(shù)據(jù)、投訴建議數(shù)據(jù)等,針對不同類型的數(shù)據(jù)信息,需要構(gòu)建相應(yīng)的數(shù)據(jù)信息庫,這些數(shù)據(jù)信息庫的構(gòu)建一般是企業(yè)財務(wù)管理的工作,僅僅是一個數(shù)據(jù)信息庫,其中包含的企業(yè)管理數(shù)據(jù)表可能多達幾百個,相關(guān)數(shù)據(jù)也呈現(xiàn)不一樣的特征,例如企業(yè)階段性經(jīng)營業(yè)績數(shù)據(jù)、盈利數(shù)據(jù)等,都是結(jié)構(gòu)化的數(shù)據(jù),而還有一些企業(yè)培訓(xùn)和業(yè)務(wù)拓展產(chǎn)生的數(shù)據(jù)則是非結(jié)構(gòu)化數(shù)據(jù),需要從不同渠道對相關(guān)數(shù)據(jù)進行采集,這對于提升數(shù)據(jù)質(zhì)量以及大數(shù)據(jù)分析結(jié)果的精準性和可靠性都十分必要。在數(shù)據(jù)采集中,應(yīng)用傳感器,可以及時對產(chǎn)生的數(shù)據(jù)進行傳輸,確保數(shù)據(jù)及時采集并有效傳輸?shù)焦潭ㄎ恢茫瑢崿F(xiàn)數(shù)據(jù)積累。
2.2.2 數(shù)據(jù)存儲技術(shù)應(yīng)用
現(xiàn)階段,很多企業(yè)對于內(nèi)部數(shù)據(jù)信息的存儲采用的是服務(wù)器存儲方式,但是這類服務(wù)器在遇到停電等突發(fā)狀況時,數(shù)據(jù)信息很可能面臨丟失的風險,雖然有些企業(yè)有備用電源,但是不間斷電源的維持時間也是有限的,所以不能確保數(shù)據(jù)的萬無一失。在企業(yè)發(fā)展規(guī)模不斷擴大的今天,企業(yè)經(jīng)營相關(guān)的數(shù)據(jù)量以及數(shù)據(jù)類型越來越多樣化,數(shù)據(jù)急劇增加,服務(wù)器分散,不能為數(shù)據(jù)處理和共享提供必要支持。而借助大數(shù)據(jù)技術(shù)應(yīng)用,以云架構(gòu)為基礎(chǔ),構(gòu)建分布式的文件系統(tǒng),這樣的系統(tǒng)具備很好的拓展性、冗余性等,能夠滿足海量數(shù)據(jù)存儲和分析的需要,滿足企業(yè)對于數(shù)據(jù)管理的需要[8]。通過對企業(yè)重要的數(shù)據(jù)信息進行有效存儲,為進一步的數(shù)據(jù)挖掘提供素材。
2.2.3 數(shù)據(jù)挖掘技術(shù)應(yīng)用
基于云計算的企業(yè)大數(shù)據(jù)分析系統(tǒng)中,數(shù)據(jù)挖掘技術(shù)是在海量的企業(yè)數(shù)據(jù)中進行挖掘,從中分析出數(shù)據(jù)背后隱藏的重要信息,為企業(yè)的生產(chǎn)經(jīng)營和發(fā)展決策制定提供必要的依據(jù)?;谠朴嬎愕钠髽I(yè)大數(shù)據(jù)挖掘流程如圖1所示。
圖1 基于云計算下的企業(yè)大數(shù)據(jù)挖掘流程
可見,通過相關(guān)數(shù)據(jù)在大數(shù)據(jù)分析系統(tǒng)中輸入,借助云計算技術(shù),實現(xiàn)數(shù)據(jù)預(yù)處理,最后通過圖形化流程來建模,得出輸出結(jié)果,這一結(jié)果可以作為企業(yè)決策制定的重要參考依據(jù)。數(shù)據(jù)挖掘技術(shù)是在海量的數(shù)據(jù)處理和分析中,總結(jié)出數(shù)據(jù)的規(guī)律,挖掘出潛在的數(shù)據(jù)信息[9]。數(shù)據(jù)挖掘功能用于指定數(shù)據(jù)挖掘任務(wù)中要找的模式類型。一般數(shù)據(jù)挖掘任務(wù)包含兩類,一類是描述,一類是預(yù)測。描述性挖掘任務(wù)是對數(shù)據(jù)庫中的數(shù)據(jù)一般特性進行挖掘,預(yù)測性挖掘任務(wù)是基于現(xiàn)有的數(shù)據(jù)規(guī)律進行推理,做出預(yù)測和判斷。所以在數(shù)據(jù)挖掘系統(tǒng)中,要實現(xiàn)多類型的模式挖掘,適應(yīng)多樣化需要,數(shù)據(jù)挖掘系統(tǒng)需要把握相應(yīng)的粒度模式,為用戶提供必要提示,促進挖掘有效性提升。
目前在企業(yè)大數(shù)據(jù)分析系統(tǒng)應(yīng)用中,大數(shù)據(jù)分析技術(shù)還處在對表面信息的提取上,通過隱性知識整合對數(shù)據(jù)倉庫中相關(guān)信息挖掘,將海量信息中隱藏的信息挖掘出來,基于云計算技術(shù)的大數(shù)據(jù)分析技術(shù)應(yīng)用,構(gòu)建分布式并行技術(shù)系統(tǒng),開展數(shù)據(jù)挖掘,可以實現(xiàn)在短時間內(nèi)對機器集群進行任務(wù)拆分,實現(xiàn)多臺空閑設(shè)備同時進行計算和處理,切實提升了大數(shù)據(jù)的數(shù)據(jù)處理速度和效率[10]。云計算能夠為系統(tǒng)數(shù)據(jù)分析提供必要的挖掘模型,相關(guān)技術(shù)人員可以借助映射MAP函數(shù)內(nèi)特定分塊數(shù)據(jù)實現(xiàn)數(shù)據(jù)處理,實現(xiàn)數(shù)據(jù)處理效率的顯著提升,并將和本次數(shù)據(jù)分析中關(guān)系不大的計算集群及時排除。
以云計算技術(shù)為基礎(chǔ),可以為大數(shù)據(jù)分析處理創(chuàng)建一個可靠的平臺,讓研發(fā)者能夠基于這個平臺進行相關(guān)技術(shù)和性能開發(fā)。以云計算為算法構(gòu)建分布式計算框架,其中包含分布式文件系統(tǒng)、分布式數(shù)據(jù)庫等功能模塊相關(guān)的完整生態(tài)系統(tǒng),是目前大數(shù)據(jù)處理平臺中最常見的、也是應(yīng)用最為廣泛的一種方式。在此基礎(chǔ)上,用戶可以編寫處理海量數(shù)據(jù)的分布式并行程序,使其在成千上萬的節(jié)點中,組件大規(guī)模計算機集群,實現(xiàn)對海量數(shù)據(jù)的有效分析處理,為企業(yè)的生產(chǎn)經(jīng)營決策提供有效的信息參考。目前,很多企業(yè)已經(jīng)意識到大數(shù)據(jù)技術(shù)在企業(yè)運行管理中應(yīng)用的重要性,并積極在管理中引入大數(shù)據(jù)分析系統(tǒng),在這類系統(tǒng)構(gòu)建中,云計算技術(shù)都是不可缺少的部分,云計算技術(shù)是基于大數(shù)據(jù)技術(shù)基礎(chǔ)上發(fā)展而來的,應(yīng)用于大數(shù)據(jù)分析中,具有很好的應(yīng)用成效。