本刊記者/朱琨
常雷帶領著偶數(shù)科技著力打造的基于HAWQ的分析型數(shù)據(jù)倉庫OushuDB應運而生,同時,該數(shù)據(jù)倉庫融合了機器學習技術,在利用人工智能技術處理海量數(shù)據(jù)上擁有得天獨厚的優(yōu)勢。
在數(shù)字化時代,個人移動設備快速普及,各企業(yè)機構紛紛利用大數(shù)據(jù)與各終端設備進行相互連接,來幫助企業(yè)提高生產(chǎn)效率,制定經(jīng)營決策,導致整個社會每天都會產(chǎn)生海量數(shù)據(jù)。據(jù)預測,到2020年,一個人每天將產(chǎn)生約1.5GB數(shù)據(jù),一個家庭每天將產(chǎn)生約50GB數(shù)據(jù),一輛無人駕駛汽車每天將產(chǎn)生5TB數(shù)據(jù)。而在整個社會體系中,各機構每日將產(chǎn)生上百TB數(shù)據(jù)。隨著終端設備的不斷接入,使得數(shù)據(jù)呈指數(shù)級增長,最終形成龐大的數(shù)據(jù)洪流。
盡管數(shù)據(jù)的增長可以為社會帶來巨大的商業(yè)機會,但同時對于數(shù)據(jù)的處理也帶來了嚴峻的挑戰(zhàn)。對于企業(yè)而言,由于項目或業(yè)務的多元化發(fā)展,導致企業(yè)面臨不同的數(shù)據(jù)源。當數(shù)據(jù)產(chǎn)生時,企業(yè)可以利用My SQL或Post gr eSQL等數(shù)據(jù)庫對數(shù)據(jù)進行存儲、查詢和處理。有一種說法認為,傳統(tǒng)數(shù)據(jù)庫行將就木,而以企業(yè)的分析報告和決策支持為目的,對多樣的業(yè)務數(shù)據(jù)進行篩選與整合的數(shù)據(jù)存儲集合—數(shù)據(jù)倉庫技術將成燎原之勢不斷滿足數(shù)據(jù)存儲與分析帶來的苛刻需求。
作為北京偶數(shù)科技有限公司(以下簡稱偶數(shù)科技)的掌舵人,常雷在2016年創(chuàng)立了偶數(shù)科技。在短短兩年時間內(nèi),偶數(shù)科技依靠自身成熟的數(shù)據(jù)倉庫技術以及Apache HAWQ、Oushu Dat abase新一代數(shù)據(jù)倉庫、OushuLit t l eBoy人工智能系統(tǒng)、Oushu Lava人工智能云平臺等產(chǎn)品在市場中迅速站穩(wěn)腳跟,成為國內(nèi)領先的AI和大數(shù)據(jù)軟件企業(yè)。與此同時,偶數(shù)科技在常雷的帶領下,在通往第四代數(shù)據(jù)倉庫的快車道上持續(xù)邁進,碩果累累。
那么什么是第四代數(shù)據(jù)倉庫?數(shù)據(jù)倉庫的發(fā)展又是如何演進的?
在1990年,數(shù)據(jù)倉庫概念由比爾·恩門(Bi l l Inmon)提出,發(fā)展至今已有近30年的歷史。在常雷看來,數(shù)據(jù)倉庫在30年的發(fā)展過程中,主要分為三個階段。在上世紀80年代,出現(xiàn)了關系型數(shù)據(jù)庫,而Or ac l e和DB2成為關系型數(shù)據(jù)庫的主流產(chǎn)品,被廣泛作用到金融行業(yè)的交易系統(tǒng)中。
但是金融行業(yè)的理財、貸款等業(yè)務的不斷拓展,導致數(shù)據(jù)量不斷增加。金融行業(yè)需要利用數(shù)據(jù)分析技術來處理數(shù)據(jù),所以需要將關系型數(shù)據(jù)庫中的數(shù)據(jù)和數(shù)據(jù)源中的數(shù)據(jù)以及互聯(lián)網(wǎng)中的數(shù)據(jù)進行整合,并統(tǒng)一進行分析。因此,依靠其自身小型機或一體機專有的硬件平臺,面向傳統(tǒng)BI分析的第一代數(shù)據(jù)倉庫由此產(chǎn)生,企業(yè)需要將關系型數(shù)據(jù)庫中的數(shù)據(jù)導入到數(shù)據(jù)倉庫中進行數(shù)據(jù)分析。
但是由于第一代數(shù)據(jù)倉庫采取的是集中式存儲,存儲是系統(tǒng)的瓶頸,很難支持突發(fā)的應用或密集復雜的計算需求。所以出現(xiàn)了無共享構架的第二代數(shù)據(jù)倉庫。第二代數(shù)據(jù)倉庫是基于專有硬件的Mpp平臺,比如Ter adat a。但是常雷講到,雖然無共享架構是一種技術的突破,但是其價格昂貴,同時在架構方面缺乏彈性,規(guī)模很難擴展到上千個機器。
在2000年左右,由于軟件技術發(fā)展并不成熟,而第二代數(shù)據(jù)倉庫采用的是專有的硬件平臺,軟件系統(tǒng)只能進行大量的制定化處理,導致第二代數(shù)據(jù)倉庫的使用成本較高,而且由于軟件定制化的緣故,使得操作系統(tǒng)的擴展性有限,最終逐漸被歷史所淘汰。
為了解決第二代數(shù)據(jù)倉庫的使用成本和系統(tǒng)的擴展性問題,在2010年左右,以X86為基礎架構的第三代數(shù)據(jù)倉庫隨之出現(xiàn),第三代數(shù)據(jù)倉庫可根據(jù)工作負載彈性伸縮,靈活配置,按需分配資源,可以快速支持突發(fā)的應用計算需求。在常雷看來,第三代數(shù)據(jù)倉庫可以分為兩個部分:基于X86構架的MPP技術和基于X86構架的Hadoop技術。基于X86構架的MPP普遍采用普通硬件,極大地降低了使用成本,而Hadoop可以形成千、萬個節(jié)點,解決了擴展性問題,而這兩部分并稱為第三代數(shù)據(jù)倉庫。
2015年,大數(shù)據(jù)已經(jīng)被廣泛應用到各行各業(yè)中,相關技術也日臻成熟,各類新興應用場景和商業(yè)模式開始呈爆發(fā)式增長,大數(shù)據(jù)驅動下的人工智能技術也逐漸呈現(xiàn)出遍地開花之勢向各個領域延伸。在常雷看來,以人工智能技術為基礎的應用模式正在使市場需求發(fā)生變化,所以偶數(shù)科技提出了“重塑”概念,希望通過新興技術來重塑企業(yè)的辦公方式和人們的生活方式。而數(shù)據(jù)積累和深度學習便成為了常雷的“手術刀”,并在市場中叫響了打造第四代數(shù)據(jù)倉庫的口號。
在常雷看來,傳統(tǒng)的數(shù)據(jù)倉庫對數(shù)據(jù)進行在線統(tǒng)計、在線分析、數(shù)據(jù)挖掘、隨機查詢等工作時具有一定優(yōu)勢,但是伴隨著整個社會向人工智能的方向邁進,使得各個應用場景中都充斥著人工智能的影子,而在人工智能場景的影響下,面對海量的數(shù)據(jù)分析需求,第三代數(shù)據(jù)倉庫就顯現(xiàn)出弊端。無論從反饋時長還是設備性能嚴苛的要求看,第三代數(shù)據(jù)倉庫已無法滿足人工智能的發(fā)展需求,所以對數(shù)據(jù)倉庫進行迭代迫在眉睫。
而在這一背景下,常雷帶領著偶數(shù)科技著力打造的基于HAWQ的分析型數(shù)據(jù)倉庫OushuDB應運而生,同時,該數(shù)據(jù)倉庫融合了機器學習技術,在利用人工智能技術處理海量數(shù)據(jù)上擁有得天獨厚的優(yōu)勢。在大數(shù)據(jù)和人工智能時代的背景下,在安防、金融、工業(yè)等領域對于數(shù)據(jù)倉庫的海量數(shù)據(jù)處理和分析能力提出了更高的要求,而第四代數(shù)據(jù)倉庫可以通過深度學習、Aut o ML、強化學習、計算機視覺、自然語言處理、知識圖譜等進行深層的認知和推理。
此外,在安防領域,在人員身份識別、人類軌跡分析等方面,可對視頻、圖片、電子車牌等不同種類的數(shù)據(jù)進行快速分析,并發(fā)現(xiàn)潛在的聯(lián)系,抽取有價值的信息,并對可疑行為發(fā)出預警,對案件進行關聯(lián),協(xié)助提高公安部門的案件的偵破效率。
在金融領域,銀行在辦理貸款業(yè)務時,需要對審貸企業(yè)進行核查,再通過評委會對核查結果進行評估,而整個審核流程全部需要人工的方式完成。但是一旦核查流程涉及公司業(yè)務,銀行需要將該企業(yè)所有的外部和內(nèi)部數(shù)據(jù)按主題進行整合,這就極大地耗費了時間和人工成本,同時也給數(shù)據(jù)分析帶來巨大困難。而借助“第四代數(shù)據(jù)倉庫”的技術優(yōu)勢,偶數(shù)科技可以利用數(shù)據(jù)存儲、管理、分析和人工智能算法建模,幫助用戶構建審核流程模型并進行模型管理,簡化傳統(tǒng)的審核過程,減少人工參與并縮短審核時間。
目前,物聯(lián)網(wǎng)技術在工業(yè)領域得到長足發(fā)展,在工業(yè)企業(yè)內(nèi)部可能部署有近百萬甚至千萬的物聯(lián)網(wǎng)傳感器,并實時提供傳感器數(shù)據(jù),而第四代數(shù)據(jù)倉庫完全摒棄了繁瑣的存儲方案,依靠時空維度和列存儲的思想,建立了一種以物聯(lián)網(wǎng)模式的數(shù)據(jù)倉庫,并根據(jù)物聯(lián)網(wǎng)的時空特性,設計了一種支持連續(xù)聚集查詢的多時空粒度數(shù)據(jù)結構和快速更新算法,來解決物聯(lián)網(wǎng)的數(shù)據(jù)管理等問題。
偶數(shù)科技所打造的“第四代數(shù)據(jù)倉庫”是以HAWQ為基礎所構建的,而在HAWQ的研發(fā)層面,常雷也可謂是別出心裁。常雷認為,在2004年左右,Hadoop技術出現(xiàn),在那個時期有兩個系統(tǒng)使用得十分廣泛:分布式軟件存儲HDFS和面向大數(shù)據(jù)并行處理的計算模型Map Reduce。但是Map Reduce自身的復雜性使得該項技術的使用量逐漸減少,同時Hadoop社區(qū)也發(fā)現(xiàn)了該項問題。這種情況促進了Hive的出現(xiàn),Hive可以將SQL語言轉換成MapReduce任務運行。
在常雷加入Gr eenpl um之后,2011年常雷便開始組建中國研發(fā)團隊進行HAWQ的產(chǎn)品化工作。常雷介紹到,SQL-on-Hadoop的引擎的運行速度并不理想,而傳統(tǒng)的MPP的運行速度卻非???,所以常雷帶領團隊將兩項技術進行融合形成了HAWQ。同時,常雷從兼容性、性能和可擴展性等方面對新型的SQL-on-Hadoop引擎與傳統(tǒng)引擎進行比對并發(fā)現(xiàn),以SQL-on-Hadoop新引擎為代表的HAWQ在運行速度方面提升了近400倍。
在2013年HAWQ正式公布1.0版本,時隔一年HAWQ已成為全球眾多大型企業(yè)采購的重要產(chǎn)品之一,同時在2015年,HAWQ開源成為Apac he項目。在2016年常雷另立山頭,宣告成立了偶數(shù)科技。為了滿足市場需求,常雷基于HAWQ打造新一代數(shù)據(jù)倉庫Oushu DB,原生支持云計算和人工智能,并在2017年帶領偶數(shù)科技發(fā)布了OushuDB 3.0企業(yè)版。
基于原創(chuàng)性HAWQ技術,Oushu DB已經(jīng)成為目前全球最快的新一代分析型數(shù)據(jù)倉庫引擎。作為偶數(shù)的核心產(chǎn)品,OushuDB采用了全新執(zhí)行器,性能比傳統(tǒng)數(shù)據(jù)倉庫與SQL-on-Hadoop引擎快一個數(shù)量級,并支持In-Dat abase AI。目前,Oushu DB已經(jīng)在金融、電信、制造、醫(yī)療和互聯(lián)網(wǎng)等行業(yè)得到廣泛部署和應用。在今年8月,ApacheHAWQ畢業(yè)為頂級項目,彰顯了其在業(yè)內(nèi)的非凡影響力,并得到了包括VMware、阿里巴巴、海爾、中興軟創(chuàng)等數(shù)百個全球知名企業(yè)的認可。
在2010年,常雷在EMC公司組建中國研發(fā)團隊研發(fā)HAWQ引擎,并在2016年成立偶數(shù)科技,著力于研究與發(fā)展數(shù)據(jù)倉庫技術,雖然偶數(shù)科技的發(fā)展并不長,卻已在數(shù)據(jù)倉庫領域極具影響力,而常雷也時常調侃自己真正創(chuàng)業(yè)其實是在2010年。此外,隨著人工智能、云計算等新興技術不斷涌入市場,常雷也緊跟時代利用人工智能的深度學習技術,自主研發(fā)了基于人工智能技術的OushuLit t l eBoy產(chǎn)品,Lit t l eBoy是偶數(shù)科技最新推出的人工智能產(chǎn)品,搭載了全球頂尖的自動機器學習Aut o ML技術,該技術可以自動調優(yōu),幫助非工程師建模。
常雷坦言,打造“第四代數(shù)據(jù)倉庫”主要目的是為了重塑傳統(tǒng)的辦公環(huán)境和應用場景,我們的發(fā)展愿景就是希望一個沒有技術背景的人員,在培訓半個小時后,可以運用我們“第四代數(shù)據(jù)倉庫”和人工智能產(chǎn)品獨立地進行建模?!芭紨?shù)的數(shù)據(jù)庫可以比傳統(tǒng)數(shù)據(jù)倉庫快10倍。性能是數(shù)據(jù)庫的核心,偶數(shù)科技的核心產(chǎn)品OushuDB的每個版本迭代都是性能的再一次升級,不斷地為客戶帶來更快、更強的優(yōu)質產(chǎn)品?!?/p>
而對于人工智能如何與新一代數(shù)據(jù)倉庫技術相結合,常雷認為:“目前,市場中的人工智能技術包括人臉識別、語音識別等都屬于感知層,我們現(xiàn)在所做的是人工智能的認知層。認知層往往是最難的人工智能技術,它可以獨立地思考人們的行為并給出相應的解決方案。”
訪談實錄
Q:中國大數(shù)據(jù)產(chǎn)業(yè)生態(tài)聯(lián)盟、《軟件和集成電路》雜志社
A:偶數(shù)科技創(chuàng)始人兼CEO 常雷
Q:如何定義第四代數(shù)據(jù)倉庫?
A:之前還沒有人將此進行正式的定義,偶數(shù)正在人工智能的背景下定義第四代數(shù)據(jù)倉庫。隨著時代的不斷變化,人們會發(fā)現(xiàn)每隔10~15年,一定會有一個巨大變革。當大數(shù)據(jù)和人工智能等技術出現(xiàn)時,怎樣才能滿足該項技術的需求,也是現(xiàn)在的人們所津津樂道的事情。如果現(xiàn)在的數(shù)據(jù)庫不能支持人工智能,那么在人工智能環(huán)境的影響下,發(fā)展數(shù)據(jù)分析顯然是不可能的事情,所以這也是驅使著我們開發(fā)第四代數(shù)據(jù)倉庫的主要原因之一。目前,人工智能技術的發(fā)展時間并不長,還沒有出現(xiàn)真正成熟的人工智能技術,所以我們希望偶數(shù)科技能夠定義這個問題。
Q:打造第四代數(shù)據(jù)倉庫,偶數(shù)科技為何要進行市場培育?
A:若要做好一個產(chǎn)品,進行市場培育工作是必然的,而我們從事HAWQ技術的研發(fā)時也進行了大量的市場培育。如果沒有市場培育工作,你永遠會跟著別人的步子走路。我們希望偶數(shù)科技所做的事情可以引領世界潮流,而不是等別人把概念變成現(xiàn)實,我們再跟隨別人走過的路。無論從技術上突破,還是從應用領域上等待爆發(fā)的時機,成功的創(chuàng)業(yè)型公司都會經(jīng)歷一些本質上的變化。我認為偶數(shù)科技正處在這一階段,所以我們希望重新定義第四代數(shù)據(jù)倉庫。
Q:偶數(shù)科技產(chǎn)品的核心競爭力如何體現(xiàn)?
A:目前有9個城市的公安和多個銀行在用我們的產(chǎn)品,在能源領域國家電網(wǎng)和南方電網(wǎng)都是我們的客戶,同時我們的產(chǎn)品在向制造業(yè)延伸,比如海爾是我們很早期的用戶。
我們的產(chǎn)品有較好的市場沉淀,而且我們在開發(fā)HAWQ時也得到市場的廣泛認可。另外,我們的產(chǎn)品確實解決了用戶的痛點,比如當數(shù)據(jù)量很大的時候用戶在計算一個報表時,可能需要等待1小時,而這一問題傳統(tǒng)數(shù)據(jù)庫無法解決,那么如何才能解決這一問題呢?我們的人工智能數(shù)據(jù)倉庫,使用了新型硬件指令和算法來提升產(chǎn)品的性能,這就使得我們第四代數(shù)據(jù)倉庫的運行速度比第三代快一個數(shù)量級,可以應對龐大的數(shù)據(jù)分析需求,這也是我們產(chǎn)品的賣點之一,同時也給我們的發(fā)展帶來更多的機會。
Q:目前,各行業(yè)的痛點存在哪些共性?
A:從需求的角度來說,當前人工智能的需求比較強烈,我們也把數(shù)據(jù)倉庫中的機器學習部分獨立出來,開發(fā)了Lit t l eBoy。那么在業(yè)界第一大痛點是什么?其實是人工智能還未形成規(guī)?;?,比如企業(yè)想構建深度學習算法,它需要有統(tǒng)計背景和計算機背景的數(shù)據(jù)科學家才能進行工作,但是就目前來看,這方面人才十分稀缺。那么如何使普通人員可以使用人工智能技術,就成為了偶數(shù)科技的發(fā)展愿景。目前,我們的Lit t l eBoy和OushuDB產(chǎn)品,可以使一個沒有技術背景的人員,在經(jīng)過半個小時的培訓后,獨立做出一個反欺詐模型,這就解決了需求問題。
而第二大痛點就是性能,因為數(shù)據(jù)量正在不斷增加,如果要面對數(shù)據(jù)洪流進行數(shù)據(jù)分析,這就會給性能帶來極大的考驗,只有提升運行速度,才能應對數(shù)據(jù)的爆發(fā)式增長。
圖 Oushu Database 主要功能示意圖
案例名稱:深圳國稅稅務大數(shù)據(jù)平臺
核心特點:OushuDB是由Apache HAWQ創(chuàng)始團隊基于HAWQ打造的新一代數(shù)據(jù)倉庫。該產(chǎn)品采用了存儲與計算分離技術架構,具有彈性,支持混合工作負載和高擴展性等優(yōu)點。遵循ANSISQL標準,兼容Or acl e,Gr eenpl um Dat abase和Post gr e SQL,提供PB級數(shù)據(jù)交互式查詢能力,提供對主要BI工具的描述性分析和AI支持。Oushu DB已在金融、電信、制造、醫(yī)療和互聯(lián)網(wǎng)等行業(yè)得到廣泛的部署和應用。
應用解讀:隨著“金稅工程”的不斷深入,稅務數(shù)據(jù)資源的種類不斷豐富,數(shù)據(jù)量快速增長,特別是近年來飛速增長的電子票據(jù)、視頻、網(wǎng)頁等非結構化數(shù)據(jù),已經(jīng)超出了目前的處理能力。
如何采集、存儲和利用龐大的涉稅數(shù)據(jù),從海量數(shù)據(jù)中挖掘有價值的信息,已然成為稅收信息化面臨的重大課題。對復雜類型的數(shù)據(jù)管理和分析能力是新型稅務大數(shù)據(jù)平臺的重點要求。新一代數(shù)據(jù)倉庫Oushu DB完全具備復雜類型數(shù)據(jù)的快速處理和分析能力。
應用價值:稅收大數(shù)據(jù)平臺包括五大板塊:一是數(shù)據(jù)湖,提供數(shù)據(jù)的智能采集和集中存儲;二是數(shù)據(jù)工廠,負責數(shù)據(jù)的加工清洗和溯源管理;三是應用廣場,實現(xiàn)數(shù)據(jù)應用各系統(tǒng)的單點登錄集成;四是數(shù)據(jù)超市,呈現(xiàn)多樣化數(shù)據(jù)圖標指標和可定制的自助式數(shù)據(jù)分析服務;五是社區(qū)門戶,打造數(shù)據(jù)需求互助和成果交流分享的社區(qū)平臺。