趙艷秋
“大數(shù)據(jù)過熱了”是華為FusionInsight大數(shù)據(jù)平臺(tái)總經(jīng)理朱照生在訪談中的第一句話,這有些令人出乎意料。朱照生2000年進(jìn)入華為做研發(fā),就開始與通信主機(jī)系統(tǒng)中實(shí)時(shí)、海量的數(shù)據(jù)處理打交道,那時(shí),還沒有“大數(shù)據(jù)”這個(gè)詞。
“任何人都必須用數(shù)據(jù)來說話”——朱照生非常認(rèn)可世界質(zhì)量管理大師愛德華·戴明的這一金句。但數(shù)據(jù)本身不會(huì)說話,如何讓數(shù)據(jù)會(huì)說話,并且具備智慧呢?朱照生談起了他心中的大數(shù)據(jù)哲學(xué):數(shù)據(jù)是一個(gè)個(gè)的比特位。本質(zhì)上,大數(shù)據(jù)就是現(xiàn)實(shí)物理世界在數(shù)字空間的一個(gè)映射。數(shù)據(jù)要說話,前提是要有可以說話的平臺(tái),通過平臺(tái)把各類數(shù)據(jù)有效組織起來,來表現(xiàn)出它在物理世界的屬性。自然而然的,利用的數(shù)據(jù)維度越多,就越發(fā)能精準(zhǔn)地反映出物理世界,這就是智慧的基礎(chǔ)。
大數(shù)據(jù)可以利用各種維度的數(shù)據(jù),分析的維度可以是數(shù)十萬、百萬維,甚至是全量的分析,而不僅依賴于少量的抽樣。這就像黑白照相、彩色照相一直到數(shù)千萬像素的高清照相一樣,而大數(shù)據(jù)平臺(tái)就如同照相機(jī)中的鏡頭和CCD,大數(shù)據(jù)平臺(tái)可處理的維度越多、越精細(xì),你所擁有的數(shù)據(jù)就越會(huì)說話了,應(yīng)該是“慧”說話了。
大數(shù)據(jù)是一種觀念轉(zhuǎn)變
從事了10多年數(shù)據(jù)工作的朱照生觀察到,現(xiàn)在大家對(duì)大數(shù)據(jù)的反應(yīng)有些過熱——似乎一夜之間,每個(gè)人都需要大數(shù)據(jù)。但從他個(gè)人接觸的行業(yè)狀況看,數(shù)據(jù)的積累量、采集量還遠(yuǎn)遠(yuǎn)沒有達(dá)到生產(chǎn)巨大價(jià)值的量級(jí)。他估計(jì),現(xiàn)在企業(yè)或者行業(yè)采集來的數(shù)據(jù),只有20%到30%會(huì)被用來分析,而采集的數(shù)據(jù)又遠(yuǎn)遠(yuǎn)小于企業(yè)或行業(yè)實(shí)際產(chǎn)生的數(shù)據(jù)。以發(fā)動(dòng)機(jī)為例,一個(gè)發(fā)動(dòng)機(jī)每天產(chǎn)生的數(shù)據(jù)在20TB以上,但這些數(shù)據(jù)大部分被扔掉了?!叭绻麤]有從源頭拉動(dòng)數(shù)據(jù)的采集、沒有把采集的各類數(shù)據(jù)加以分析,大數(shù)據(jù)將是一個(gè)童話。要避免在概念上‘橫看成嶺側(cè)成峰,現(xiàn)在大數(shù)據(jù)應(yīng)用還處于早期”。
那么,華為為什么會(huì)投入大數(shù)據(jù)?這與華為多年聚焦的通信業(yè)務(wù)相關(guān)。通信業(yè)一直是個(gè)海量數(shù)據(jù)行業(yè),華為也就自然而然地介入進(jìn)來。
實(shí)際上,大數(shù)據(jù)也是一種文化觀念的轉(zhuǎn)變。大數(shù)據(jù)的重要意義在于,它不是用來堆積的,而是用來分析和服務(wù)現(xiàn)實(shí)世界。
以華為大數(shù)據(jù)業(yè)務(wù)近兩年服務(wù)的銀行業(yè)為例,金融行業(yè)正在積極發(fā)掘大數(shù)據(jù)的兩類價(jià)值:一是通過把各類數(shù)據(jù)整合在一起,去發(fā)現(xiàn)以前被忽略的機(jī)會(huì),另一類則是降低曾被忽略掉的風(fēng)險(xiǎn)。就拿信用卡盜刷現(xiàn)象為例,如果銀行能結(jié)合用戶行為信息,像位置信息,發(fā)現(xiàn)客戶已回國(guó),信用卡卻在海外被刷,就可以在授權(quán)之前攔住這筆交易,而不是亡羊補(bǔ)牢。
無論電信和金融,很多業(yè)務(wù)背后都越來越需要一個(gè)大數(shù)據(jù)平臺(tái)支撐。朱照生說,華為就是要形成這樣一個(gè)平臺(tái),能夠讓“數(shù)據(jù)慧說話”,能夠讓數(shù)據(jù)幫助人們智慧地洞察,所以這個(gè)平臺(tái)最終取名Fusionlnsight。
不只是Hadoop發(fā)行版
從2006年到現(xiàn)在,華為大數(shù)據(jù)業(yè)務(wù)一直處于投入期。除了數(shù)百人的產(chǎn)品團(tuán)隊(duì),華為各類基礎(chǔ)實(shí)驗(yàn)室也開展算法、機(jī)器語言、自然語言處理等基礎(chǔ)研究。
華為的大數(shù)據(jù)業(yè)務(wù)定位與業(yè)界其他一些企業(yè)有所不同。它不像一些StartUp公司,做一段時(shí)間就賣掉;也沒有歷史包袱,因此可以采用新架構(gòu)、新技術(shù)。華為希望通過這個(gè)數(shù)據(jù)平臺(tái),能夠改善客戶的業(yè)務(wù),幫助客戶更好地利用數(shù)據(jù),這是一個(gè)長(zhǎng)期戰(zhàn)略。
雖然采用了Hadoop開源技術(shù),但從模塊占比來看,Hadoop僅是Fusionlnsight中的一個(gè)分布式引擎,F(xiàn)usionlnsight包含Hadoop,但不僅僅是Hadoop的發(fā)行版。
在Fusionlnsight平臺(tái)中,有兩大創(chuàng)新之處。一是提供完全開放的API接口,如SQL、NoSQL等,能讓現(xiàn)有的應(yīng)用廠商和ISV基于開放接口做應(yīng)用,也能實(shí)現(xiàn)現(xiàn)有應(yīng)用的無縫遷移,以快速培育大數(shù)據(jù)生態(tài);另一個(gè)是全量數(shù)據(jù)分析平臺(tái)。傳統(tǒng)的商業(yè)智能基于抽樣數(shù)據(jù),而大數(shù)據(jù)則基于全量數(shù)據(jù)。全量數(shù)據(jù)有數(shù)百萬個(gè)、數(shù)千萬個(gè)維度,這導(dǎo)致原來的數(shù)據(jù)分析模型失效。全球頂級(jí)互聯(lián)網(wǎng)公司現(xiàn)在可實(shí)現(xiàn)1000萬維度甚至1億個(gè)維度的數(shù)據(jù)分析,這在傳統(tǒng)數(shù)據(jù)分析行業(yè)是不可想象的。為此,華為團(tuán)隊(duì)有很多數(shù)據(jù)科學(xué)家,構(gòu)筑全量數(shù)據(jù)模型能力。Fusionlnsight最終是讓傳統(tǒng)行業(yè)也能享受到互聯(lián)網(wǎng)行業(yè)所擁有的數(shù)據(jù)洞察力。