基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究

2019-02-13 09:15:51平金珍班婭萌

數(shù)字通信世界 2019年5期

關(guān)鍵詞：數(shù)據(jù)處理數(shù)據(jù)挖掘預(yù)處理

王茜，平金珍，班婭萌

（石家莊信息工程職業(yè)學(xué)院，石家莊 050035）

所謂的大數(shù)據(jù)挖掘技術(shù)，其實就是從海量數(shù)據(jù)信息中進(jìn)行有價值信息提取的技術(shù)。伴隨著物聯(lián)網(wǎng)、云計算等技術(shù)的發(fā)展，數(shù)據(jù)信息復(fù)雜程度不斷提高，采用傳統(tǒng)數(shù)據(jù)挖掘算法已經(jīng)無法實現(xiàn)數(shù)據(jù)實時挖掘?；谠朴嬎隳Ｊ浇⒋髷?shù)據(jù)挖掘體系架構(gòu)，需要結(jié)合大數(shù)據(jù)特征實現(xiàn)相關(guān)技術(shù)集成，達(dá)到有效實現(xiàn)數(shù)據(jù)挖掘的目標(biāo)，繼而使大數(shù)據(jù)挖掘技術(shù)優(yōu)勢得到充分發(fā)揮。

1 基于云計算的大數(shù)據(jù)挖掘內(nèi)涵

云計算實際就是建立在網(wǎng)絡(luò)基礎(chǔ)上的超級計算模式，能夠借助分布式計算機(jī)和互聯(lián)網(wǎng)提供計算或存儲等服務(wù)。采用云計算，用戶能夠從不同應(yīng)用平臺登錄數(shù)據(jù)中心，實現(xiàn)數(shù)據(jù)存儲、下載或計算分析。該種模式帶有虛擬化的特點，具有較強(qiáng)的可拓展性，能夠?qū)崿F(xiàn)數(shù)據(jù)分布式存儲和并行計算。在云計算模式下實現(xiàn)大數(shù)據(jù)挖掘，需要構(gòu)建融合多種計算模式和存儲模式的體系架構(gòu)。根據(jù)功能，可以將架構(gòu)劃分為支撐平臺層、功能層和服務(wù)層。在平臺層，可以為大數(shù)據(jù)挖掘分析提供豐富資源，為數(shù)據(jù)分析和存儲提供支持，運(yùn)用云計算相關(guān)技術(shù)及工具實現(xiàn)大數(shù)據(jù)處理，提供豐富云環(huán)境[1]。

借助云環(huán)境，不僅可以獲得數(shù)據(jù)和軟硬件資源，也能實現(xiàn)數(shù)據(jù)預(yù)處理和分析。功能層負(fù)責(zé)結(jié)合用戶需求進(jìn)行挖掘工具調(diào)用，實現(xiàn)數(shù)據(jù)智能化分析。服務(wù)層需要采用可視化等技術(shù)實現(xiàn)數(shù)據(jù)處理結(jié)果的展示，為用戶提供服務(wù)?，F(xiàn)階段，基于云計算的大數(shù)據(jù)挖掘體系通常存在功能少的問題，無法滿足用戶多樣化需求，因此需要針對用戶大數(shù)據(jù)挖掘需求提出科學(xué)解決方案。

2 基于云計算的大數(shù)據(jù)挖掘解決方案

2.1 平臺解決方案

結(jié)合大數(shù)據(jù)挖掘體系架構(gòu)可知，平臺層是實現(xiàn)大數(shù)據(jù)挖掘與分析的關(guān)鍵環(huán)節(jié)。采用Hadoop 平臺，能夠為多功能大數(shù)據(jù)挖掘體系架構(gòu)的實現(xiàn)提供支持。從結(jié)構(gòu)上來看，Hadoop 平臺包含數(shù)據(jù)源、大數(shù)據(jù)挖掘平臺、用戶層三個部分，數(shù)據(jù)源為復(fù)雜處理對象，由結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)組成。在大數(shù)據(jù)挖掘平臺上上，包含各種計算模式，面對實時數(shù)據(jù)可以提供多種分析與挖掘功能。用戶層可以提供系統(tǒng)認(rèn)知與接受服務(wù)，實現(xiàn)數(shù)據(jù)信息交互。Hadoop 以HDFS、MapReduce 和HBase 為核心，能夠快速運(yùn)行，并且具有較高擴(kuò)展性和容錯性，能夠?qū)崿F(xiàn)數(shù)據(jù)批處理和流處理，增強(qiáng)數(shù)據(jù)流的可伸縮性。但采用Hadoop 難以進(jìn)行擁有復(fù)雜關(guān)系的圖數(shù)據(jù)處理，無法為內(nèi)存計算提供支持，因此需要融入并行計算PowerGraph 等工具，促使數(shù)據(jù)處理和查詢速率得到提高。

2.2 數(shù)據(jù)預(yù)處理

采用Hadoop 平臺進(jìn)行數(shù)據(jù)預(yù)處理，不同于傳統(tǒng)數(shù)據(jù)挖掘，無需采用既定ETL 等驅(qū)動方法實現(xiàn)靜態(tài)數(shù)據(jù)處理，而是能夠根據(jù)數(shù)據(jù)變化進(jìn)行技術(shù)的選用，實現(xiàn)動態(tài)數(shù)據(jù)預(yù)處理。具體來講，就是采用多模式實體識別、遠(yuǎn)程自動采集融合、數(shù)據(jù)流實時處理等各種技術(shù)獲得更強(qiáng)迭代計算、并行計算等能力。在數(shù)據(jù)傳輸遷移期間，采用Sqoop 等流式計算技術(shù)完成數(shù)據(jù)流同步處理，使數(shù)據(jù)能夠得到即時處理。而大數(shù)據(jù)的處理不關(guān)注因果聯(lián)系，只是根據(jù)數(shù)據(jù)間的關(guān)聯(lián)關(guān)系進(jìn)行數(shù)據(jù)處理，因此更能增強(qiáng)數(shù)據(jù)預(yù)處理的實時性。

2.2 數(shù)據(jù)存儲管理

以往數(shù)據(jù)挖掘需要采用行存儲方式，利用關(guān)系數(shù)據(jù)庫系統(tǒng)進(jìn)行多維數(shù)據(jù)模型、結(jié)構(gòu)化數(shù)據(jù)等各種數(shù)據(jù)的存儲，數(shù)據(jù)將被隨機(jī)存儲。由系統(tǒng)內(nèi)部進(jìn)行存儲模式定義，導(dǎo)致數(shù)據(jù)存儲相對被動，缺乏可擴(kuò)展性，并且無法實現(xiàn)數(shù)據(jù)靈活管理。采用大數(shù)據(jù)挖掘技術(shù)，主要采用列存儲或行存儲模式，能夠?qū)Y(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)進(jìn)行存儲。采用該種數(shù)據(jù)存儲管理方法，能夠使數(shù)據(jù)得到靈活存儲管理，增強(qiáng)體系可拓展性。為保證數(shù)據(jù)一致性，同時對關(guān)系數(shù)據(jù)模型進(jìn)行兼容，需要采用Spanner 系統(tǒng)，為同步跨數(shù)據(jù)中心復(fù)制提供支持。采用不確定關(guān)系模型進(jìn)行數(shù)據(jù)存儲，能夠?qū)討B(tài)數(shù)據(jù)進(jìn)行直接存儲。

2.3 數(shù)據(jù)計算分析

在數(shù)據(jù)計算分析方面，過去采用集中批處理方式。針對大數(shù)據(jù)，需要實現(xiàn)多種計算模式相融合，完成數(shù)據(jù)分布并行處理。面對多維、立體、海量數(shù)據(jù)，可以實現(xiàn)云平臺和數(shù)據(jù)挖掘平臺功能融合，促使平臺分析能力和分布式并行計算能力得到增強(qiáng)。集成R 分析軟件，能夠整合傳統(tǒng)和現(xiàn)有挖掘算法。在對動態(tài)圖數(shù)據(jù)進(jìn)行計算時，需要采用數(shù)據(jù)管理系統(tǒng)進(jìn)行低延遲查詢。針對數(shù)據(jù)流，需要運(yùn)用滑動窗口模型實現(xiàn)概率維度索引，完成數(shù)據(jù)單次近似連續(xù)分析。實際查詢數(shù)據(jù)的過程中，需要采用PigLatin 等相應(yīng)查詢語言，能夠?qū)崿F(xiàn)數(shù)據(jù)靈活查詢。

2.4 數(shù)據(jù)挖掘展示

對采用數(shù)據(jù)挖掘算法處理得到的數(shù)據(jù)，還要進(jìn)行展示。過去采用的挖掘技術(shù)僅能展示出簡單數(shù)據(jù)結(jié)果集，所以只適用于數(shù)量小、關(guān)系簡單的情況。針對大數(shù)據(jù)挖掘得到的信息，需采用文字、報表和可視化圖形等各種方式進(jìn)行模型效果展示。能夠采用的圖形包含餅狀圖、散點圖、GainLift 圖等，受I/O 限制，難以對多維、海量和動態(tài)數(shù)據(jù)間的聯(lián)系進(jìn)行反映[2]。采用人機(jī)交互方式，能夠采用圖像、動畫等方式增強(qiáng)數(shù)據(jù)解釋直觀性，達(dá)到較好的可視化效果。現(xiàn)階段，能夠采用的可視化技術(shù)包含聚類分析可視化技術(shù)、宇宙星球圖、標(biāo)簽云等，需要采用并行算法實現(xiàn)數(shù)據(jù)并行處理，完成高效原位分析，獲得協(xié)同可視化效果。

3 結(jié)束語

大數(shù)據(jù)作為新興事物，目前依然未能得到較好的挖掘處理。在云計算基礎(chǔ)上，針對大數(shù)據(jù)挖掘體系架構(gòu)存在的問題提出相應(yīng)解決方案，采用Hadoop 平臺豐富體系功能，能夠?qū)崿F(xiàn)數(shù)據(jù)信息實時處理，為用戶提供有效信息資源。實際采用該方案時，需要結(jié)合數(shù)據(jù)預(yù)處理、存儲、分析計算和展示需求進(jìn)行技術(shù)的合理應(yīng)用，繼而取得良好大數(shù)據(jù)挖掘效果。