黃紫青 徐云娟
摘 要:在大數(shù)據(jù)技術(shù)普及的背景之下,計算機信息處理技術(shù)的生態(tài)系統(tǒng)越來越復(fù)雜化、多樣化,企業(yè)在信息化轉(zhuǎn)型的過程中,面對各類多計算引擎和云處理平臺,必須根據(jù)企業(yè)自身的需求,選擇適合的多計算引擎和云處理平臺。文章對其中主要的幾類多計算引擎和云處理平臺進行了探究,分析了各自不同的適用場景以及各自存在的優(yōu)劣,為企業(yè)決策提供輔助信息。
關(guān)鍵詞:大數(shù)據(jù);多計算引擎;云處理平臺
0? ? 引言
大數(shù)據(jù)的技術(shù)受到了國家的政策支持,已經(jīng)不僅僅是企業(yè)組織用于分析市場經(jīng)營活動的技術(shù)工具,現(xiàn)在它被用于生活生產(chǎn)的方方面面。在大數(shù)據(jù)技術(shù)普及的背景之下,計算機信息處理技術(shù)也發(fā)生著由單一處理向多引擎處理,單機處理向集群處理,私有處理向云上處理,抽樣處理向全量處理,因果關(guān)系向相關(guān)關(guān)系,低質(zhì)量分析向高質(zhì)量智能化,無隱私性向高安全性的方向發(fā)展。其他信息處理技術(shù)如云計算、人工智能、區(qū)塊鏈等在大數(shù)據(jù)技術(shù)的發(fā)展下也進行著深層次的融合,信息處理技術(shù)的生態(tài)系統(tǒng)的復(fù)合性和規(guī)?;潭纫渤尸F(xiàn)出不斷加強的趨勢。
1? ? 多計算引擎
隨著互聯(lián)網(wǎng)的發(fā)展,海量的數(shù)據(jù)需要處理,傳統(tǒng)的單一機器處理這些數(shù)據(jù)顯得力不從心,各式各樣的數(shù)據(jù)計算處理引擎層出不窮??偟膩碚f,分為傳統(tǒng)的DBMS數(shù)據(jù)處理引擎、鍵值數(shù)據(jù)處理引擎、列數(shù)據(jù)處理引擎、文檔型數(shù)據(jù)處理引擎、圖數(shù)據(jù)處理引擎。這些數(shù)據(jù)處理引擎有著各自的應(yīng)用場景。
1.1? DBMS數(shù)據(jù)處理引擎
DBMS數(shù)據(jù)處理引擎支持外鍵對事務(wù)的支持很好,事務(wù)的提交、回滾和崩潰恢復(fù)都有其對應(yīng)的工具和完整的方法。它的存儲不以單獨的引擎模塊存在,基本日常的事務(wù)處理一般是OLTP進行數(shù)據(jù)處理,統(tǒng)計分析的業(yè)務(wù)查詢通常交給其對應(yīng)的OLAP系統(tǒng)進行聯(lián)機處理,OLTP和OLAP所依賴的底層的存儲可以根據(jù)具體的業(yè)務(wù)場景選擇按一行行地進行存儲數(shù)據(jù)或者按一列列地存儲數(shù)據(jù)。通用的SQL語言是DBMS數(shù)據(jù)處理引擎默認(rèn)的接口語言,可以支持很多復(fù)雜場景下的業(yè)務(wù)需求,關(guān)系型數(shù)據(jù)處理引擎的關(guān)系代數(shù)模式為了維護ACID的強一致性以及其必須預(yù)先定義的固定二維表的結(jié)構(gòu)缺乏一定的靈活性和容錯性。
1.2? 鍵值數(shù)據(jù)處理引擎
鍵值數(shù)據(jù)處理引擎的存儲結(jié)構(gòu)比較簡單,數(shù)據(jù)的存取都直接通過定義好的key。在不需要傳統(tǒng)DBMS的事務(wù)支持,完善的統(tǒng)一的查詢引擎和固定的模式的情況下,注重對大數(shù)據(jù)量的數(shù)據(jù)高并發(fā)的讀寫性能的提升,目前主要的KV類型的數(shù)據(jù)庫無中心節(jié)點協(xié)調(diào),支持?jǐn)?shù)據(jù)的復(fù)制和單節(jié)點的故障恢復(fù),有常見的列表類型,數(shù)據(jù)支持自動的跨區(qū)移動,所有的KV都存于內(nèi)存之中,速度很快,支持主從同步,適用于消息隊列、實時系統(tǒng)和高頻讀低頻寫的場景。
1.3? 列數(shù)據(jù)處理引擎
列數(shù)據(jù)處理引擎出現(xiàn)在數(shù)據(jù)倉庫查詢密集型的OLAP場景下,因為此場景對表的數(shù)據(jù)處理,一般是取其中的某幾列的數(shù)據(jù),對數(shù)據(jù)表的讀取按行讀非常消耗網(wǎng)絡(luò)的性能,并不是需要行中的所有數(shù)據(jù)。一般列存儲都可以將數(shù)據(jù)塊放在內(nèi)存中并行的計算,也方便做分布式的存儲同時列存儲可以對相同數(shù)據(jù)類型的數(shù)據(jù)進行壓縮但在增加刪除修改數(shù)據(jù)頻繁的OLTP場景下不太適用。列存儲通常會根據(jù)不同的數(shù)據(jù)特征來做數(shù)據(jù)的壓縮,減少數(shù)據(jù)移動和必須讀的成本,傳統(tǒng)RDBMS應(yīng)對復(fù)雜關(guān)系運算、關(guān)系挖掘能力有限,列存儲可以讓服務(wù)器具備橫向擴展的能力,在批處理下可以顯著地減少CPU的使用率。
1.4? 圖數(shù)據(jù)處理引擎
圖數(shù)據(jù)處理引擎適用于需要多對多關(guān)系表示和模式挖掘的時候,使用上述任意的一種存儲結(jié)構(gòu)都不能很好地表示多對多的實體之間的關(guān)系,且底層的關(guān)系模型、列模型等都制約了業(yè)務(wù)應(yīng)用的性能。Graph模型是基于圖論的點和邊表達數(shù)據(jù)之間關(guān)系的模型,是多對多自然符合人類思維模式的一類存儲方式,專注于數(shù)據(jù)對象之間的關(guān)聯(lián)關(guān)系的存儲和表達。知識圖譜、社交關(guān)系等都依賴圖模型的表示,其適用于模式挖掘、推薦系統(tǒng)等業(yè)務(wù)場景。
2? ? 云處理平臺
信息處理技術(shù)的生態(tài)系統(tǒng)越來越復(fù)雜化、多樣化,傳統(tǒng)的私有化的處理方式只能將數(shù)據(jù)放到企業(yè)政府各自的數(shù)據(jù)中心進行處理。云計算平臺的出現(xiàn)使得計算機處理信息的地點發(fā)生了轉(zhuǎn)變,目前各類業(yè)務(wù)都需要移動化、線上化、網(wǎng)絡(luò)化,這必須借助云計算處理平臺強大的資源虛擬能力和彈性計算能力。云處理平臺通常提供3種大類的服務(wù):IaaS,PaaS和SaaS服務(wù),IaaS服務(wù)主要虛擬服務(wù)器的硬件資源,PaaS服務(wù)主要虛擬中間件資源,SaaS服務(wù)主要虛擬服務(wù)器的軟件資源。
2.1? IaaS服務(wù)
基礎(chǔ)設(shè)施即服務(wù)[1],這類提供云計算處理計算機的信息的方式主要是提供虛擬化的硬件服務(wù),它包含云爆發(fā)、多租戶計算、資源共用和虛擬機監(jiān)控程序這幾個方面的內(nèi)容。云爆發(fā)指的是企業(yè)政府組織為了擴展內(nèi)部部署工作負載并將部分或全部業(yè)務(wù)遷移到公共云中的過程,應(yīng)對業(yè)務(wù)峰值需求,側(cè)重于將整個應(yīng)用程序或應(yīng)用程序組永久性地移動到公共云中,是IaaS的初級服務(wù)模式;多租戶計算和資源共用指的是多用戶的環(huán)境下共用相同的程序組件且各自相互的隔離用戶的數(shù)據(jù)資源計算處理信息,云上系統(tǒng)對接主要考慮租戶的隔離,虛擬機監(jiān)控程序是快速管理IaaS服務(wù)的一種軟件,能查看VM的執(zhí)行狀態(tài),動態(tài)修改元數(shù)據(jù)做到快速管理。IaaS服務(wù)使得企業(yè)和政府無須投資利用率很低的服務(wù)器,它獨立于平臺,基礎(chǔ)的設(shè)施被多個租戶共享,但使用這類云計算服務(wù)需要集中式的管理,以應(yīng)對虛擬硬件所帶來的安全隱私方面的挑戰(zhàn)。
2.2? PaaS服務(wù)
平臺即服務(wù)[2],這類提供云計算處理計算機的信息的方式主要是提供虛擬化的平臺服務(wù),PaaS服務(wù)對應(yīng)的用戶是應(yīng)用的開發(fā)者和運維人員。PaaS并不是IaaS的擴展特性,它們的區(qū)別是IaaS虛擬化的基本單元是硬件如服務(wù)器、磁盤、內(nèi)存、帶寬等,而PaaS服務(wù)虛擬化的基本單元是平臺應(yīng)用,如DBMS數(shù)據(jù)處理引擎應(yīng)用、郵件應(yīng)用、Spring、.NET等。PaaS的服務(wù)通常有APaaS和IPaaS兩大類,APaaS是面向IT機構(gòu)和企業(yè)的開發(fā)部署平臺,提供的是直接的應(yīng)用,如開發(fā)的運行環(huán)境和數(shù)據(jù)存儲的平臺環(huán)境,而IPaaS針對的是各類PaaS云平臺之間的集成,提供的是建構(gòu)復(fù)合應(yīng)用的平臺。目前APaaS提供商提供的是云容器和各類IaaS之上的平臺,通過buildpack擴展運行不同平臺的應(yīng)用,即使沒有豐富的計算機專業(yè)知識和代碼能力,它也能讓非IT技術(shù)人員簡單地構(gòu)建業(yè)務(wù)應(yīng)用,但這些通用軟件不是特別符合某些企業(yè)的需求,且軟件之間的數(shù)據(jù)無法打通,IT運維成本也提高了,IPaaS可以很好地解決集成平臺IT運維成本高的問題??傊?,PaaS服務(wù)可以使用云基礎(chǔ)架構(gòu)服務(wù)敏捷項目,但需要按人員的專業(yè)能力選擇適合自身的平臺。
2.3? SaaS服務(wù)
軟件即服務(wù)[3],這類云計算服務(wù)采用最新的技術(shù)虛擬化處理計算機的信息,直接提供軟件,囊括了應(yīng)用軟件許可證費、軟件維護費以及技術(shù)支持費,只需要繳納租金即可開箱使用處理企業(yè)內(nèi)部的信息,極大地方便了企業(yè),不再需要花費大量的人力物力財力去投資硬件、軟件、人員,只需要租賃軟件獲取云服務(wù)。它可以靈活地根據(jù)業(yè)務(wù)需求進行快速的迭代更新,擁抱變化,對快速變化的業(yè)務(wù)需求快速響應(yīng)和迭代,但其服務(wù)的業(yè)務(wù)效率和生產(chǎn)力極大地依賴供應(yīng)商的能力。
3? ? 結(jié)語
大數(shù)據(jù)云計算技術(shù)逐步成為數(shù)字經(jīng)濟的基礎(chǔ)設(shè)施,規(guī)?;?、業(yè)務(wù)化、智能化的海量信息的處理需要多計算引擎和逐步地搬移到云上。本文研究了當(dāng)前各類多計算引擎處理信息的不同應(yīng)用場景和云處理平臺對信息處理的3種模式,企業(yè)組織可以根據(jù)自身的業(yè)務(wù)發(fā)展需要靈活的選擇對應(yīng)的信息處理技術(shù),降低企業(yè)信息化進程中的門檻與風(fēng)險。
[參考文獻]
[1]PATEL Y S,MALWI Z,NIGHOJKAR A,et al.Truthful online double auction based dynamic resource provisioning for multi-objective trade-offs in IaaS clouds[J].Cluster Computing,2021(3):1-25.
[2]符涵,張之江.基于PaaS平臺的定制化教學(xué)管理功能開發(fā)研究[J].工業(yè)控制計算機,2020(3):110-112.
[3]王炯賢,孔令輝.基于軟件即服務(wù)的高校學(xué)生事務(wù)實務(wù)中信息服務(wù)的設(shè)計及實現(xiàn)[J].教育教學(xué)論壇,2020(13):145-148.
(編輯 何 琳)
Analysis of computer information processing technology
under the background of Big Data
Huang Ziqing, Xu Yunjuan
(Suzhou Top Institute of Information Technology, Kunshan 215311, China)
Abstract:Under the background of the popularization of Big Data technology, the ecosystem of computer information processing technology is becoming more and more complex and diversified. In the process of information transformation, facing all kinds of multi computing engines and cloud processing platforms, enterprises must choose suitable multi computing engines and cloud processing platforms according to their own needs. This paper explores the main types of multi computing engines and cloud processing platforms, analyzes their different application scenarios and their advantages and disadvantages, and provides auxiliary information for enterprise decision-making.
Key words:Big Data; multi computing engine; cloud processing platform