【摘 要】隨著計算機技術的快速發(fā)展,社交網絡分析、語義Web分析、生物信息網絡分析等新技術也被快速廣泛的推廣和應用。作為目前高性能計算領域的研究和開發(fā)熱點,對大規(guī)模數(shù)據處理能力的需求也變得愈來愈迫切。本文主要就在大規(guī)模數(shù)據處理中引入云技術,提出在集中或分布管理的大量廉價計算機集群上構建可擴展的、易使用的、動態(tài)的、高性價比的、性能較高的計算平臺,創(chuàng)建一種云計算環(huán)境下的大規(guī)模數(shù)據處理的框架進行了分析研究。
【關鍵詞】云計算環(huán)境 大規(guī)模數(shù)據處理 應用 計算平臺
一、引言
隨著世界經濟的快速發(fā)展,科學技術水平的不斷提高,計算機技術日新月異,互聯(lián)網時代信息與數(shù)據處理技術發(fā)展相當迅速,越來越多的行業(yè)領域在日常事物的處理中運用到了計算機技術對大規(guī)模的數(shù)據進行處理,如鐵路公路等交通售票業(yè)務、各大型電子商務平臺的交易處理、人口普查、商業(yè)貿易等,數(shù)據處理可比較輕松的達到GB,TB,例如淘寶網每天的交易數(shù)據就很多,這些就需要運用到計算機的大規(guī)模數(shù)據處理技術。云計算技術作為新一代的計算模型代表,可以通過網絡計算、效用計算、服務計算等技術進行綜合演化,具有處理上述問題的關鍵技術特點。
二、對大規(guī)模廉價計算平臺的研究
針對目前對大規(guī)模數(shù)據信息以及計算資源的特征及對大規(guī)模數(shù)據進行數(shù)據處理的要求,可以對眾多閑置的計算機資源進行重新組建,組建成大規(guī)模的廉價集群計算平臺,在原有的云計算基礎上,對Hadoop進行資源整合,采用MapReduce編程規(guī)模,將大規(guī)模的數(shù)據處理任務進行相應的任務分解,分解成很多的細粒度的子任務,然后在多個計算節(jié)點上對這些子任務進行計算處理,從而實現(xiàn)在云環(huán)境下對大規(guī)模數(shù)據進行處理的能力。
當計算資源和存儲資源虛擬化被創(chuàng)建之后,需要一個與其對應的虛擬化的解決方案對其進行處理,從而需要創(chuàng)建一個大規(guī)模的計算平臺對云環(huán)境下的大規(guī)模數(shù)據進行處理,作為大規(guī)模數(shù)據處理的一個重要環(huán)節(jié),這一過程可以通過以下幾個步驟進行實現(xiàn):
(一)對數(shù)據處理所需的資源進行參數(shù)化的配置
各用戶在對計算節(jié)點資源池進行部署和使用前,首先都要對需要部署和使用的計算資源進行選擇,并對相應的參數(shù)進行設置,通過這一選擇部署的過程獲得自己所需要的計算資源和存儲資源,提供者則需要在不同的操作模式中,對底層計算資源屬性進行部署,從而為用戶提供需要的參數(shù)服務。
(二)對計算資源和存儲資源進行部署
這一步驟需要根據第一步定制的設置參數(shù),來確定部署大規(guī)模數(shù)據處理中的計算資源以及存儲資源,以及設計相應的數(shù)據處理和計算流程的部署方案。
(三)對定制化參數(shù)進行保存
將在第一步驟中產生的相關參數(shù)設置信息寫入到計算資源以及存儲資源的相關配置文件中,用來實現(xiàn)資源流程調度的分配,從而啟動相應計算節(jié)點的計算資源以及存儲資源,或者管理部署計算節(jié)點的定制處理服務。
(四)進行計算節(jié)點的選擇,配置相應計算流程
在對大規(guī)模數(shù)據盡心處理的過程,對所需要的軟硬件資源進行檢測管理中,部署工具會通過網絡連接到目標計算節(jié)點上,并且對相應的計算流程進行相關配置,配置成功后,開始對大規(guī)模數(shù)據的處理的方案進行執(zhí)行分析。同時通過代碼對計算資源和存儲資源進行相應的執(zhí)行分配。
(五)對計算流程進行部署實施
在以上步驟實施后,并通過外部數(shù)據處理資源管理實施方案的監(jiān)測,在眾多的計算節(jié)點上,對大規(guī)模數(shù)據處理的部署進行實施。
(六)激活計算流程和計算資源、存儲資源
在步驟五開始實施后,通過計算機網絡,對各個計算節(jié)點發(fā)布一系列的數(shù)據處理命令,完成對大規(guī)模數(shù)據計算的部署調度,對整個計算過程進行激活處理,成功激活后,在各計算節(jié)點具體執(zhí)行相應的計算流程。
三、基于云計算的大規(guī)模數(shù)據處理框架模型
根據大規(guī)模數(shù)據處理的要求,將計算機網絡技術和云計算技術引入到大規(guī)模數(shù)據的計算處理中,提出了基于云計算的大規(guī)模數(shù)據處理的框架模型。此模型可以分為兩級,第一級是底層的大規(guī)模廉價計算機集群及虛擬資源;第二級是對第一級的數(shù)據資源的處理和監(jiān)測管理體系。可以在此基礎上,創(chuàng)建一個大規(guī)模數(shù)據處理的計算平臺,實現(xiàn)數(shù)據處理的資源配置、回收、問題及錯誤處理,為各個領域的不同用戶提供大規(guī)模數(shù)據處理的計算平臺的相應軟件支持。通過編程和相應的任務處理,將最終的結果以云服務形式提供給終端用戶。并可以通過Web Service方式提供接口進行訪問,并對大規(guī)模數(shù)據進行處理以及接受相應的反饋。
本文探討了對此框架的初步實現(xiàn),并使用HDFS以及MapReduce對大規(guī)模數(shù)據進行協(xié)調處理。
(一)搭建大規(guī)模計算機集群環(huán)境
通過將MapReduce任務進行分解,將大規(guī)模數(shù)據分解為各個子任務,根據子任務的大小和數(shù)目的多少,分別將子任務分別放置在相應的計算機節(jié)點中,并對不同的節(jié)點分別進行角色設置。
(二)數(shù)據處理任務的轉移
將大規(guī)模數(shù)據載入到Hadoop提供的分布式文件系統(tǒng)中,并將MapReduce的各個數(shù)據處理子任務轉移到相應的計算節(jié)點上。
(三)大規(guī)模數(shù)據處理的分布化
大規(guī)模數(shù)據處理的分布化,需要Map函數(shù)、Reduce函數(shù)以及相關的程序進行對數(shù)據處理的實現(xiàn)。并運行MapReduce。MapReduce的實現(xiàn)機理見圖1.
(四)數(shù)據處理結果的反饋
在反饋數(shù)據處理結果時,需要用戶驗證接口,通過相應的云服務平臺將數(shù)據處理結果反饋給相應的需求者。
四、大規(guī)模數(shù)據處理的實例
通過對上述大規(guī)模數(shù)據處理的框架模型的分析,以淘寶商城的大規(guī)模Web日志的數(shù)據處理為實例,對多個站點前段的原始Web日志文件進行收集以及數(shù)據處理,可以通過以下步驟進行。
(一)首先需要對站點前段的Web日志進行收集整理,并將這些Web日志進行相應的存儲。
(二)對收集的Web日志的相應數(shù)據配置統(tǒng)一的格式。因為收集的Web日志是從不同的站點進行收集的,Web日志的來源相對來說比較復雜,沒有統(tǒng)一的格式,所以需要對這些大量的日志配置統(tǒng)一的格式,在格式統(tǒng)一化時,要在不改變相應數(shù)據的前提下進行,要保證數(shù)據的完整性。
(三)將所收集的Web日志導入到HDFS中,利用HDFS的備份機制和數(shù)據存儲的原理,分別建立各個節(jié)點的通訊方式,并對其配置相對應的名稱節(jié)點和數(shù)據節(jié)點等。
(四)將數(shù)據進行統(tǒng)一格式化,以及對其配置相應的節(jié)點信息之后,要利用MapReduce模型的處理相關數(shù)據的規(guī)則設計和計算功能。這部分作為數(shù)據處理的核心內容,也是整個大規(guī)模數(shù)據處理工作的重心所在。
(五)在數(shù)據處理完畢,并將處理完的數(shù)據導出之后,要按照規(guī)定的輸出格式和要求對數(shù)據進行保存,以方便用戶對相應處理結果的分析處理工作的進行。
(六)最后,用戶收到相應的數(shù)據處理結果后,需要將處理結果進行反饋,并且對處理過程中所產生的垃圾數(shù)據進行相應的清理。
數(shù)據處理需要較多的環(huán)節(jié),在每一個環(huán)節(jié)的數(shù)據處理中,都需要對相應的數(shù)據處理進行一定的監(jiān)控,并對整個框架模型的工作情況進行監(jiān)控,以盡早的發(fā)現(xiàn)運行中出現(xiàn)的問題,及時對數(shù)據處理中出現(xiàn)的問題及錯誤進行解決糾正。
五、結論
綜上所述,本文對云計算環(huán)境下的大規(guī)模數(shù)據處理技術進行了分析研究,通過對數(shù)據處理廉價計算平臺的創(chuàng)建以及對云計算環(huán)境下大規(guī)模數(shù)據處理的框架模型的研究,分析了云計算技術在大規(guī)模數(shù)據處理中的用途。并且通過實例分析,對電子商務平臺的Web日志的大規(guī)模數(shù)據進行計算分析,更清晰明了的闡述了云計算環(huán)境下的大規(guī)模數(shù)據處理的方式方法。
參考文獻:
[1]于戈,谷峪,鮑玉斌,王志剛:《云計算環(huán)境下的大規(guī)模圖數(shù)據處理技術》,計算機學報,2011(10)
[2]王嘉,陳超:《云計算環(huán)境下大規(guī)模數(shù)據處理的研究》,中國電子商務,2013(09)
[3]白亞魯:《云計算環(huán)境下大規(guī)模數(shù)據處理的研究》,軟件雜志,2013(5)
[4]陳康:《云計算后臺大規(guī)模數(shù)據處理技術探討》,電子工程技術與標準化,2009(11)
[5]侯建,帥仁俊,侯文:《基于云計算的海量數(shù)據存儲模型》, 通信技術. 2011(05)