Greenplum是一家總部位于美國加利福尼亞州,為全球大型企業(yè)用戶提供新型企業(yè)級數(shù)據(jù)倉庫(EDW)、企業(yè)級數(shù)據(jù)云(EDC)和商務智能(BI)提供解決方案和咨詢服務公司(現(xiàn)已被EMC收購)。在全球已有納斯達克、紐約證券交易所、Skype.、FOX、T-Mobile等,在中國有中信實業(yè)銀行、東方航空公司、阿里巴巴、華泰保險、中國遠洋(Cosco)等大型企業(yè)用戶選擇了Greenplum的產(chǎn)品。
當前使用的OLTP程序中,用戶訪問一個中心數(shù)據(jù)庫,如果采用SMP系統(tǒng)結構,它的效率要比采用MPP結構要快得多;而MPP(大規(guī)模并行處理)系統(tǒng)在決策支持和數(shù)據(jù)挖掘方面顯示了優(yōu)勢。如果操作相互之間沒有關系,處理單元之間需要進行的通信比較少,那采用MPP系統(tǒng)就會比較適合,相反就不合適。Greenplum的架構就采用了MPP,在MPP系統(tǒng)中每個SMP節(jié)點也可以運行自己的操作系統(tǒng)、數(shù)據(jù)庫等。
眾所周知,數(shù)據(jù)庫本身是非常復雜的,分布式系統(tǒng)更是復雜中的復雜,兩者結合就需要更高的條件。在當今這個數(shù)據(jù)不斷膨脹的時代,采取MPP架構的數(shù)據(jù)庫系統(tǒng)可以對海量數(shù)據(jù)進行管理。Greenplum支持50PB(1PB=1000TB)級海量數(shù)據(jù)的存儲和處理,將來自不同源系統(tǒng)的、不同部門、不同平臺的數(shù)據(jù)集成到數(shù)據(jù)庫中集中存放,并且存放詳盡的歷史數(shù)據(jù)軌跡,業(yè)務用戶不用再面對一個又一個信息孤島,也不再困惑于不同版本數(shù)據(jù)導致的偏差,同時對于IT人員也可降低管理維護工作的復雜度。
另外,Greenplum提供資源管理功能(workload management)來管理數(shù)據(jù)庫資源,利用資源隊列管理可實現(xiàn)按用戶組進行資源分配,如Session同時激活數(shù)、最大資源值等。通過資源管理功能,可以按用戶級別進行資源分配和管理用戶SQL查詢優(yōu)先級別,同時也能防止低質量SQL(如沒有條件的多表join等)對系統(tǒng)資源的消耗。
Greenplum作為一個數(shù)據(jù)庫產(chǎn)品,同樣如此。怎樣幫助客戶從現(xiàn)有的平臺進行遷移,甚至包含以前用的一體機,遷移到分布式的數(shù)據(jù)架構上。例如歐洲非常大的保險公司,最近剛剛把企業(yè)級倉庫遷移到Greenplum。因為之前寫了大量腳本,包含存儲過程,量級很大,迫切需要完成遷移,完成遷移后再寫新的腳本就會變得更容易。另外,完成遷移后性能會更好。Greenplum本身可以只買軟件,也可以買DCA,所以用了DCA V2產(chǎn)品使性能有了90%的提升。
可以有效用于欺詐檢測。例如美國的一家公司,設置了一個內部平臺防止識別欺詐性的報稅信息,而現(xiàn)有平臺并不能滿足對大量數(shù)據(jù)的快速分析以及性能識別。該公司現(xiàn)在用SaaS產(chǎn)品來完成模型構建以及數(shù)據(jù)分析,但是SaaS在現(xiàn)有平臺上運行速度非常慢,而且不能滿足大量政府人員運行查詢的需要,這樣遷移到Greenplum中去,性能就會變得很快。
除此之外,還會涉及到實時分析, 企業(yè)同樣也有這樣的需求。有的人可能聽說過12306使用GemFire來服務春節(jié)期間票務查詢和訂購,這個報道之后印度鐵道部也采用了GemFire產(chǎn)品處理他們的票務信息。
在投資銀行的風控方面,摩根斯坦利利用Greenplum解決了數(shù)據(jù)存儲不了,存儲之后不能分析的痛點,遷移之后性能有十幾倍的提升。使開發(fā)人員、BI人員或者數(shù)據(jù)科學家可以用很多種語言寫模型,最典型的主要有R語言,PaaS語言,java等,以至于擴展GPDB的功能實現(xiàn)需求。
Greenplum研發(fā)最主要幾點優(yōu)勢主要在于這樣一個集群,或者很多集群,包括幾百臺機器,甚至是上千臺機器,很容易管理和使用,出了故障可以很快得到維修。這就在于Greenplum是高可用的系統(tǒng),在已有案例中最多使用了96臺機器的集群MPP環(huán)境。除了硬件級的Raid技術外,Greenplum還提供數(shù)據(jù)庫層Mirror機制保護,即每個節(jié)點數(shù)據(jù)在另外的節(jié)點中同步鏡像,單個節(jié)點的錯誤不影響整個系統(tǒng)的使用。對于主節(jié)點,Greenplum提供Master/Stand by機制進行主節(jié)點容錯,當主節(jié)點發(fā)生錯誤時,可以切換到Stand by節(jié)點繼續(xù)服務。
Greenplum數(shù)據(jù)引擎是為了支持新一代數(shù)據(jù)倉庫和分析處理大規(guī)模數(shù)據(jù)而建立的軟件解決 方案。Greenplum支持SQL和MapReduce的并行處理功能,并能以較低的成本向管理TB量到PB量級數(shù)據(jù)的企業(yè)提供業(yè)界領先的性能。
與Postgre SQL一致,可以有效持續(xù)保持和Postgre SQL社區(qū)的一致性,滿足客戶的痛點和最主要的需求。另外對云的支持也在發(fā)展中,從GPDB中可以讀寫S的數(shù)據(jù),對External HDFS支持也在繼續(xù)提升的規(guī)劃中。