摘 要:隨著時(shí)代的不斷發(fā)展,對(duì)于數(shù)據(jù)處理平臺(tái)的需求也越來越高,傳統(tǒng)的技術(shù)已經(jīng)無法滿足時(shí)代的需求,再加之?dāng)?shù)據(jù)處理的難度與標(biāo)準(zhǔn)不斷提高,大型數(shù)據(jù)倉庫平臺(tái)的構(gòu)件呼之欲出,新技術(shù)、新手段的應(yīng)用進(jìn)一步的提高了計(jì)算機(jī)技術(shù)。當(dāng)然目前的計(jì)算機(jī)技術(shù)仍然存在著諸多問題,所以采用云計(jì)算技術(shù)來構(gòu)建大型數(shù)據(jù)倉庫平臺(tái)成為大勢(shì)所趨。本文首先介紹了大型數(shù)據(jù)倉庫平臺(tái)的應(yīng)用現(xiàn)狀,并指出了其應(yīng)用中所面臨的問題,再結(jié)合云計(jì)算技術(shù)進(jìn)行分析,提出了相關(guān)的解決策略。
關(guān)鍵詞:云計(jì)算技術(shù);大型數(shù)據(jù)倉庫平臺(tái);現(xiàn)狀;對(duì)策
中圖分類號(hào):TP311.13
隨著信息化時(shí)代的到來,科技水平不斷提高,企業(yè)想要獲得更大空間的發(fā)展,在日益激烈的競(jìng)爭(zhēng)中脫穎而出,就必須提升自身的信息處理能力,做好數(shù)據(jù)倉庫平臺(tái)的創(chuàng)建與優(yōu)化。原有的數(shù)據(jù)處理平臺(tái)數(shù)據(jù)的處理、查詢以及準(zhǔn)確性上都存在著較大的缺陷,不利于企業(yè)的發(fā)展,所以必須要提升企業(yè)的數(shù)據(jù)處理能力與技術(shù),引入云技術(shù)計(jì)算,不斷的優(yōu)化大型數(shù)據(jù)倉庫平臺(tái),進(jìn)而提升企業(yè)實(shí)力。
1 大型數(shù)據(jù)倉庫平臺(tái)的構(gòu)建現(xiàn)狀
企業(yè)想要更好的掌握運(yùn)營(yíng)狀況,了解運(yùn)營(yíng)成本,就必須加強(qiáng)數(shù)據(jù)的處理與分析能力,這樣才能綜合分析公司的各項(xiàng)業(yè)務(wù),再經(jīng)過加工處理將其制成數(shù)據(jù)報(bào)表。特別是近年來經(jīng)濟(jì)的飛速發(fā)展,企業(yè)業(yè)務(wù)功能日益復(fù)雜化,進(jìn)而使得數(shù)據(jù)的收集與處理更加的多元化,這樣傳統(tǒng)的數(shù)據(jù)處理方式精準(zhǔn)性與時(shí)效性都無法達(dá)到相應(yīng)的標(biāo)準(zhǔn),為了更好的提升數(shù)據(jù)處理的準(zhǔn)確性,就需要一個(gè)能將數(shù)據(jù)收集、加工與處理集于一體的平臺(tái)。
2 云計(jì)算技術(shù)構(gòu)建大型數(shù)據(jù)倉庫平臺(tái)的特點(diǎn)
云計(jì)算技術(shù)的引入給數(shù)據(jù)的處理加入了新的力量,符合了資源集聚的需求形成了私有云平臺(tái),然后在根據(jù)相關(guān)的要求標(biāo)準(zhǔn),引入X 86分布式集群的MPP結(jié)構(gòu),進(jìn)而能夠更好地促進(jìn)企業(yè)的發(fā)展。
2.1 比較SMP架構(gòu)和MPP架構(gòu)
SMP是一個(gè)較為傳統(tǒng)的方式,主要是指在一臺(tái)電腦上有多個(gè)CPU,并帶有一組處理器,并且內(nèi)存能在各個(gè)CPU之間共享,但是它的功能與單臺(tái)計(jì)算機(jī)一樣,每一個(gè)處理器都是可以訪問內(nèi)存。再有眾多松耦合處理單元組成進(jìn)而形成了MPP架構(gòu)。在MPP系統(tǒng)中,CPU都有自帶的內(nèi)存、硬盤與總線。最為典型的代表當(dāng)屬X 86分布式集群。但是SMP與MPP相比還存在著諸多問題,例如擴(kuò)展性較受限制,并且需要大量的資金來維持其擴(kuò)展,但是在MPP系統(tǒng)中,因?yàn)椴荒軐?shí)現(xiàn)資源的共享,所以相對(duì)而言資源總數(shù)更多,處理能力更強(qiáng)。所以MPP系統(tǒng)的應(yīng)用會(huì)更加的廣泛,無論是運(yùn)行速度還是運(yùn)行效率都有較大的優(yōu)勢(shì),特別是在處理OLAP大型數(shù)據(jù)時(shí)能夠更好的發(fā)揮系統(tǒng)的性能。
2.2 MPP系統(tǒng)的技術(shù)線路
根據(jù)上述分析可以看出MPP系統(tǒng)的巨大優(yōu)勢(shì),所以也需要配以相應(yīng)的技術(shù)線路。具有代表性的有兩種。一種是軟硬化一體化的線路,它所包括的設(shè)施有Teradata一體機(jī)、IBM一體機(jī)等,性能較高,硬件優(yōu)化的能力較強(qiáng),當(dāng)然其缺陷在于需要支付較高的研發(fā)費(fèi)用。另一種是軟件數(shù)據(jù)庫管理系統(tǒng),主要包括的工具設(shè)備有HBASE、EMC Greenplum. Hadoop等,它的組件一般都是使用較為常見的硬件,沒有具體的特殊要求。
2.3 MPP云化數(shù)據(jù)倉庫的系統(tǒng)介紹
MPP云化數(shù)據(jù)倉庫系統(tǒng)由三個(gè)層面共同組成,構(gòu)建方案一般較為復(fù)雜。首先是能力層,需要2個(gè)以上的性能較高的X 86分布式集群主機(jī)來組成,該層的主要任務(wù)在于發(fā)揮其管理職能,很好的調(diào)動(dòng)數(shù)據(jù)節(jié)點(diǎn),并且提供存儲(chǔ)能力池與計(jì)算能力池。同時(shí),它還需要由多臺(tái)X 86存儲(chǔ)服務(wù)器所構(gòu)成的數(shù)據(jù)節(jié)點(diǎn)集群,其中網(wǎng)絡(luò)通信平臺(tái)也是由性能較高的局域網(wǎng)交換機(jī)組成。其次是管理層面,它一方面能夠支持SQL語言,能夠分布式的管理底層數(shù)據(jù),承擔(dān)好調(diào)動(dòng)功能,從一定程度上減輕底層節(jié)點(diǎn)的負(fù)載量,另一方面能夠?qū)崿F(xiàn)對(duì)關(guān)系型數(shù)據(jù)庫的管理。最后是應(yīng)用層,該層的實(shí)用性較強(qiáng),并且在進(jìn)行應(yīng)用分析時(shí)能夠根據(jù)具體情況來運(yùn)行,主要的基礎(chǔ)功能包括多維分析與KPI等等。
2.4 對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行驗(yàn)證
測(cè)量云計(jì)算數(shù)據(jù)方案是否符合標(biāo)準(zhǔn)的主要方式是POC,它不僅能夠測(cè)算出運(yùn)行處理的效率,還能夠準(zhǔn)確的分析出時(shí)間的耗費(fèi)情況,且能夠和傳統(tǒng)的計(jì)算方式進(jìn)行對(duì)比分析,進(jìn)而更好地優(yōu)化硬件資源。
3 采用云計(jì)算技術(shù)構(gòu)建大型數(shù)據(jù)倉庫平臺(tái)的優(yōu)勢(shì)
首先,采用云技術(shù)在分析MPP節(jié)點(diǎn)上的數(shù)據(jù)時(shí)能夠依據(jù)固定的對(duì)策來進(jìn)行,且處理的方式公平合理,使得每個(gè)部分的功效能夠得到最大化的發(fā)揮,這樣I/O能力將擺脫主機(jī)運(yùn)行情況的束縛,進(jìn)而使得數(shù)據(jù)節(jié)點(diǎn)保持正比發(fā)展的態(tài)勢(shì),解決了發(fā)展中的瓶頸。如果是數(shù)據(jù)的需求量有所增大,只需要調(diào)動(dòng)節(jié)點(diǎn),便能夠?qū)崿F(xiàn)對(duì)它的擴(kuò)展。如果是需求量較為平穩(wěn),那么只需要在保證過程連續(xù)性的情況下,來實(shí)現(xiàn)節(jié)點(diǎn)的自動(dòng)分布。其次,引入云計(jì)算技術(shù)能夠省去I/O的操作步驟,只需要經(jīng)過列存儲(chǔ)技術(shù)來完成數(shù)據(jù)的整合,實(shí)現(xiàn)數(shù)據(jù)的聚合存儲(chǔ),很大程度上節(jié)省了時(shí)間,并且在數(shù)據(jù)訪問頻繁的條件下,性能得到了極大的提高,不僅符合了OLAP的應(yīng)用功能,同時(shí)也實(shí)現(xiàn)了硬件資源的效益。再次,如果各節(jié)點(diǎn)之間的網(wǎng)絡(luò)寬帶較為充裕,那么引入云計(jì)算技術(shù),能夠更好擴(kuò)展性能,提升數(shù)據(jù)的處理能力。據(jù)相關(guān)數(shù)據(jù)表明,MPP架構(gòu)在云技術(shù)的支持下,其擴(kuò)展規(guī)模可以達(dá)到1000個(gè)節(jié)點(diǎn),并且數(shù)據(jù)的存儲(chǔ)能力和存儲(chǔ)時(shí)間也有巨大的提升。不過云技術(shù)所支撐的SQL語言是藏匿于MPP之下的,所以在使用過程中不用進(jìn)行語言的轉(zhuǎn)換,大大節(jié)省了運(yùn)行時(shí)間。最后,引入云計(jì)算技術(shù)可以更好的保證服務(wù)的穩(wěn)定性,因?yàn)樗軌蛲ㄟ^各個(gè)計(jì)算節(jié)點(diǎn)之間的互換以及同構(gòu)來實(shí)現(xiàn)。其中數(shù)據(jù)多副本容錯(cuò)機(jī)制的引入還能夠幫助其降低錯(cuò)誤發(fā)生的概念,即使某個(gè)節(jié)點(diǎn)出現(xiàn)了故障,也不會(huì)影響整個(gè)系統(tǒng)的運(yùn)行,當(dāng)然也會(huì)對(duì)性能產(chǎn)生一定的影響。由此可以看出,在MPP中,性能的指數(shù)與節(jié)點(diǎn)有較大的關(guān)聯(lián)性,節(jié)點(diǎn)過多,容錯(cuò)能力會(huì)越好。
4 結(jié)束語
根據(jù)上述分析不難看出,云計(jì)算技術(shù)的引入對(duì)大型數(shù)據(jù)倉庫平臺(tái)產(chǎn)生了較為巨大的影響,并且企業(yè)的基礎(chǔ)設(shè)施系統(tǒng)在不斷的得到提升,給云計(jì)算技術(shù)的推廣提供了較為豐厚的物質(zhì)基礎(chǔ),在后期的推廣中也會(huì)較為順暢。云計(jì)算技術(shù)最大的優(yōu)勢(shì)在于能夠?qū)崿F(xiàn)彈性化的管理,可進(jìn)可退,快速伸縮,這樣使其更好的符合了大規(guī)模節(jié)點(diǎn)設(shè)備的要求,因此對(duì)云計(jì)算在大型數(shù)據(jù)倉庫平臺(tái)中的應(yīng)用與推廣將成為大勢(shì)所趨。
參考文獻(xiàn):
[1]陳獻(xiàn)輝,張治元,劉麗波.基于云計(jì)算的數(shù)據(jù)倉庫ETL系統(tǒng)研究與優(yōu)化[J].湘南學(xué)院學(xué)報(bào),2014(02):26-56.
[2]王忠凱,史天運(yùn),張惟皎.動(dòng)車組管理信息系統(tǒng)的云計(jì)算支撐平臺(tái)研究[A].第六屆中國智能交通年會(huì)暨第七屆國際節(jié)能與新能源汽車創(chuàng)新發(fā)展論壇優(yōu)秀論文集(上冊(cè))——智能交通[C].中國智能交通協(xié)會(huì),2011:6.
[3]徐玉.云計(jì)算發(fā)展推動(dòng)數(shù)據(jù)中心轉(zhuǎn)型我國應(yīng)加強(qiáng)監(jiān)管積極應(yīng)對(duì)[J].世界電信,2011(11):14-18+6.
[4]陳煜,王樹偉,王冠華.水利工程建設(shè)管理云計(jì)算平臺(tái)的研究與實(shí)踐[A].中國水利學(xué)會(huì)2013學(xué)術(shù)年會(huì)論文集——S4水利信息化建設(shè)與管理[C].中國水利學(xué)會(huì),2013:6.
[5]曾令康,李祥珍,歐清海.物聯(lián)網(wǎng)?云計(jì)算在智能電網(wǎng)信息通信調(diào)度中的應(yīng)用[A].2012年電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C].中國通信學(xué)會(huì)普及與教育工作委員會(huì),2013:4.
作者單位:四川樂山職業(yè)技術(shù)學(xué)院,四川樂山 614000