何春濤
Forester曾有一份調(diào)查報告顯示,在擁有傳統(tǒng)BI的企業(yè)或機構(gòu)中,大約83%的數(shù)據(jù)分析需求未能得到滿足。甚至,大多數(shù)時候,用戶還是會用Excel等工具去分析數(shù)據(jù)。這是一個可怕的現(xiàn)象,它說明了企業(yè)或機構(gòu)投資建設(shè)的BI系統(tǒng)只滿足了少量需求。
彌補傳統(tǒng)BI的短板
傳統(tǒng)BI系統(tǒng)的經(jīng)典架構(gòu)是這樣的,底層是數(shù)據(jù)源,中層是ETL(抽取、轉(zhuǎn)換、裝載),上層的數(shù)據(jù)倉庫形成DWD。為了進行數(shù)據(jù)分析,用戶一般會把數(shù)據(jù)預(yù)先匯總,形成DWA(匯總數(shù)據(jù)層),或者抽取到數(shù)據(jù)集市,或者抽取到Cube Server打Cube,然后再通過前端展現(xiàn)工具讓用戶進行數(shù)據(jù)分析。
那么,傳統(tǒng)BI架構(gòu)在處理企業(yè)數(shù)據(jù)時存在哪些短板呢?首先,整個系統(tǒng)由諸多個單獨產(chǎn)品組成,總體擁有成本比較昂貴。其次,建好一套BI系統(tǒng)通常需要幾個月甚至跨年,上線周期太長。第三,完成系統(tǒng)計劃之后,實施人員開始從前往后的瀑布式實施,但是,每一步都涉到比較“重”的數(shù)據(jù)形態(tài)轉(zhuǎn)變。這種情況有點類似于我國多年前提出的“計劃經(jīng)濟”,不夠靈活。
而對于傳統(tǒng)BI面臨的這些短板,敏捷BI都能夠有針對性地提出解決方案。敏捷BI直接把數(shù)據(jù)裝載到內(nèi)存數(shù)據(jù)集市中,內(nèi)存數(shù)據(jù)集市存儲的是細節(jié)數(shù)據(jù)而不是匯總數(shù)據(jù),所以不存在DWA或Cube,然后用戶就能直接在前端BI平臺上開始數(shù)據(jù)分析了。另外,基于細節(jié)數(shù)據(jù),用戶就能做探索式分析了。TDWI一旦有數(shù)據(jù),用戶就可以在數(shù)據(jù)中做探索式分析,而不是僅僅地利用現(xiàn)有的分析模型,將用戶找到答案的成功率從原本的23%提升近50%。
對比傳統(tǒng)BI,敏捷BI的特點在于:整個敏捷BI系統(tǒng),只需要一個產(chǎn)品,成本一般會低很多;由于數(shù)據(jù)集市中存儲的是細節(jié)數(shù)據(jù),建模工作比較輕量級,BI系統(tǒng)的上線周期大大縮短;實施過程是自下而上,由業(yè)務(wù)來驅(qū)動。
敏捷BI快速步入成熟期
2006年,Gartner公布的BI魔力象限中,標(biāo)榜為領(lǐng)導(dǎo)者區(qū)域的第一象限還看不到一家敏捷BI廠商,全部是大家熟知的傳統(tǒng)BI廠商,例如Cognos、Business Objects等。直到2012年,Gartner公布的BI魔力象限第一象限中才見到第一家敏捷BI廠商QlikTech。但是,到了2014年,Gartener的BI魔力象限的第一象限中就已經(jīng)出現(xiàn)三家敏捷BI廠商了,在數(shù)量上占據(jù)了近半數(shù)的規(guī)模。
在傳統(tǒng)BI增長勢頭依舊非常強勁的今天,敏捷BI的發(fā)展速度令業(yè)界感到驚訝。這種趨勢也說明了,不管從廠商還是從用戶的角度來看,敏捷BI都已經(jīng)步入了成熟期,成為一種主流的BI系統(tǒng)建設(shè)方法。
目前,中國市場上已經(jīng)涌入了一些敏捷BI廠商,比較活躍的有三家,它們分別是Tableau、QlikView和永洪BI??傮w來看,這三家廠商各有優(yōu)勢。首先,在計算方面,Tableau可基于數(shù)據(jù)庫和本地緩存,QlikView可基于數(shù)據(jù)庫和內(nèi)存計算,永洪BI可基于數(shù)據(jù)庫、內(nèi)存計算,或者分布式的集群。其次,在支持的操作系統(tǒng)平臺方面,Tableau和QlikView都是基于桌面操作系統(tǒng)產(chǎn)品起家的,也正是由于這個歷史原因,大量代碼集都運營在Windows上,永洪BI可以兼容Windows和Linux兩種操作系統(tǒng)。
綜合來看,Tableau在數(shù)據(jù)可視化方面很突出,QlikView則在內(nèi)存計算方面是強項,永洪BI在內(nèi)存計算和分布式計算方面都不錯。
“計劃經(jīng)濟”與“市場經(jīng)濟”
如果說傳統(tǒng)BI是一種類似“計劃經(jīng)濟”的理念,那么,敏捷BI更像是“市場經(jīng)濟”。
一方面,企業(yè)用類似“計劃經(jīng)濟”的那套理念建設(shè)BI系統(tǒng),因為分析組合和分析指標(biāo)是之前已經(jīng)確定的,用它們來決定明天的決策,顯然缺少實效性;另一方面,經(jīng)濟建設(shè)如果一味地開放市場,而不做引導(dǎo)和監(jiān)管,整個系統(tǒng)又有失控的風(fēng)險。因此,傳統(tǒng)BI與敏捷BI分不清孰優(yōu)孰劣,它們適用于不同需求的企業(yè)而已。
同時,傳統(tǒng)BI存在了幾十年,最初建設(shè)時,企業(yè)可選取的信息技術(shù)并不多,硬件水平低,軟件系統(tǒng)一般都基于關(guān)系型數(shù)據(jù)庫,所以數(shù)據(jù)科學(xué)家想了很多辦法來把數(shù)據(jù)分析推動起來,比如數(shù)據(jù)層可能有這些步驟:Stage、ODS、DWA、DWD、OLAP等。
隨著硬件水平的大幅提升:內(nèi)存和CPU的價格逐漸下降、計算能力提升非常大,分布式存儲和計算技術(shù)都開始走向成熟期。因此,現(xiàn)在要建設(shè)一個數(shù)據(jù)分析系統(tǒng),企業(yè)有很多的辦法可以選用。
那么,傳統(tǒng)BI與敏捷BI兩者的差異到底在哪里呢?第一,傳統(tǒng)BI一般會建立統(tǒng)一視圖,這是一個重量級的建模工作;而敏捷BI一般不會試圖建立統(tǒng)一視圖,而是按主題分類,給每個分析主題分別建一個視圖。
綜合看來,兩者的做法對于企業(yè)來說各有利弊。傳統(tǒng)BI建立的統(tǒng)一試圖,更有利于用戶宏觀地把握數(shù)據(jù),但是工作量會很大;敏捷BI建立的按主題分類的視圖,建立的速度比較快,但是缺乏整體感。
第二,傳統(tǒng)BI一般會分層次處理數(shù)據(jù),例如預(yù)先把處理好的數(shù)據(jù)匯總存儲到DWA中,或在Cube Server中打Cube。而敏捷BI一直都是基于細節(jié)數(shù)據(jù),所以最終用戶能用的數(shù)據(jù)依舊是細節(jié)數(shù)據(jù)。從數(shù)據(jù)分析的角度來說,匯總數(shù)據(jù)基本已經(jīng)固化了分析組合和分析指標(biāo),而敏捷BI的細節(jié)數(shù)據(jù)將給業(yè)務(wù)帶來更大的靈活性。從理論上來說,分析組合可以隨意,分析指標(biāo)可以隨意,最終用戶的決定空間較大,可以做探索式分析。
知名雜志DM Review(數(shù)據(jù)管理評論)在美國曾做的一份調(diào)查報告顯示,敏捷BI在部署周期、項目成本、成功率、用戶覆蓋等方面完勝傳統(tǒng)BI。
那么,用戶應(yīng)該如何看待傳統(tǒng)BI和敏捷BI的關(guān)系呢?筆者的建議是“守正出奇”。用戶應(yīng)該融合傳統(tǒng)BI和敏捷BI的各自優(yōu)勢為我所用。
一方面,傳統(tǒng)BI發(fā)展多年,其經(jīng)驗成熟、產(chǎn)品穩(wěn)定,不能否定更不能拋棄,可將其用于企業(yè)決策、洞察、監(jiān)控整體業(yè)務(wù)狀況,尤其是那些較少變化的宏觀指標(biāo)。
另一方面,敏捷BI可以提升企業(yè)洞察力和決策力,讓更多的人擁抱BI。企業(yè)需要更快地實現(xiàn)BI,快速而準(zhǔn)確地開展商業(yè)工作。
兩個角度開啟敏捷BI之旅
傳統(tǒng)BI系統(tǒng)一般用于監(jiān)控相對靜態(tài)的指標(biāo),也提供一些基于模型的數(shù)據(jù)分析工作,只要運行良好就可以保留。為了提升內(nèi)部的數(shù)據(jù)分析工作,提升大家的洞察力,提升企業(yè)的決策力,企業(yè)可以從部門級和企業(yè)級兩個角度考慮建設(shè)敏捷BI系統(tǒng)。
對于部門級BI應(yīng)用。如果部門級數(shù)據(jù)量不大,直接基于數(shù)據(jù)庫進行分析既對業(yè)務(wù)沒有太大影響,而且性能也足夠好,企業(yè)則可以直接基于數(shù)據(jù)庫搭建分析系統(tǒng)。當(dāng)然,有些部門級應(yīng)用數(shù)據(jù)量不一定小,有的可能達到TB級甚至PB級。對于這種情況,企業(yè)可以把細節(jié)數(shù)據(jù)直接抽取到敏捷BI系統(tǒng)自帶的數(shù)據(jù)集市中,解決性能問題。
同時,對于部門級應(yīng)用,由于數(shù)據(jù)層比較簡單,部門人員也不多,因而計算和分析資源分配起來比較簡單。不過,敏捷BI也應(yīng)該提供比較完備的Audit機制,讓企業(yè)可以知道在數(shù)據(jù)和計算上有沒有錯配,如果有的話及時做一些小調(diào)整即可。
對于企業(yè)級BI應(yīng)用,筆者比較認同F(xiàn)orester推崇的一種架構(gòu)。這種典型的架構(gòu)被稱為“Hub & Spoke”,意思是輻射狀架構(gòu)。
該架構(gòu)的最中央是一個大型數(shù)據(jù)中心(Hub),最底部是各種數(shù)據(jù)源。通過選取各種合理的ETL途徑,企業(yè)將各個數(shù)據(jù)源的細節(jié)數(shù)據(jù)抽取到數(shù)據(jù)中心里。數(shù)據(jù)中心甚至可以存儲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而且是非常輕量級的建模,主要是做好數(shù)據(jù)管理。數(shù)據(jù)中心的建設(shè)可以采用商業(yè)產(chǎn)品也可以用開源產(chǎn)品。
同時,該架構(gòu)的兩側(cè)是部門級BI應(yīng)用和企業(yè)級BI應(yīng)用,頂部是分析師工作臺。部門級BI應(yīng)用和企業(yè)級BI應(yīng)用,都可以把數(shù)據(jù)從數(shù)據(jù)中心抽取到敏捷BI系統(tǒng)自帶的數(shù)據(jù)集市中并做輕量建模,實現(xiàn)快速發(fā)布和快速應(yīng)對變化。分析師工作臺的工作者是數(shù)據(jù)科學(xué)家,他們會做一些挖掘、預(yù)測、探索式的分析工作,數(shù)據(jù)可以移入專用工具里計算,也可以直接在數(shù)據(jù)中心進行計算。endprint