BAT的大數(shù)據(jù)行動(dòng)
文/王怡文,武漢市第六中學(xué)高三班
本文研究分析了阿里巴巴、百度、騰訊三大公司在大數(shù)據(jù)方面的技術(shù)特點(diǎn)、發(fā)展重點(diǎn)和商業(yè)應(yīng)用領(lǐng)域等。
大數(shù)據(jù);技術(shù);應(yīng)用
大數(shù)據(jù)(big data),又稱海量資料,是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。BAT是中國(guó)三大互聯(lián)網(wǎng)公司百度公司(Bai du)、阿里巴巴集團(tuán)(Alibaba)、騰訊公司(Tencent)的英文首字母縮寫(xiě)。近年來(lái),BAT對(duì)大數(shù)據(jù)表現(xiàn)出超常規(guī)的激情。
阿里巴巴董事局主席馬云認(rèn)為:“第一次工業(yè)革命能源是煤,誕生商業(yè)模式是工廠。第二次工業(yè)革命誕生主要能源是石油,誕生的行為是公司。這一切皆是創(chuàng)新,數(shù)據(jù)將成為主要的能源,如果離開(kāi)了數(shù)據(jù),任何組織的創(chuàng)新都基本上是空殼。如果沒(méi)有數(shù)據(jù),如果不對(duì)未來(lái)進(jìn)行準(zhǔn)備,我覺(jué)得災(zāi)難會(huì)是非常之大的?!彼?,馬云認(rèn)為數(shù)據(jù)是新的工業(yè)革命的能源;并認(rèn)為“人類正從IT時(shí)代走向DT(data technology)時(shí)代”,云計(jì)算和大數(shù)據(jù)是阿里巴巴的未來(lái)。
而百度公司創(chuàng)始人李彥宏則提出不太一樣的觀點(diǎn),認(rèn)為“數(shù)據(jù)不是根本,數(shù)據(jù)有點(diǎn)像新時(shí)代的能源,像燃料,推動(dòng)時(shí)代進(jìn)步的是技術(shù),是創(chuàng)新,不是這些資源?!辈⑶疫€舉例,說(shuō)工業(yè)時(shí)代煤像數(shù)據(jù)一樣是原料,但煤的重要性肯定不如蒸汽機(jī)。他認(rèn)為,人工智能時(shí)代最寶貴的也不是數(shù)據(jù),是因?yàn)閿?shù)據(jù)帶來(lái)的技術(shù)的創(chuàng)新。”
騰訊董事會(huì)主席兼CEO馬化騰則是這么認(rèn)為的“大數(shù)據(jù)的發(fā)展,更重要的一個(gè)要素是場(chǎng)景,或者我們稱之為戰(zhàn)場(chǎng),再通俗一點(diǎn)就是市場(chǎng),我覺(jué)得這是最關(guān)鍵的”。馬化騰表示,有了應(yīng)用場(chǎng)景,有了市場(chǎng),數(shù)據(jù)自然會(huì)產(chǎn)生,也會(huì)驅(qū)動(dòng)技術(shù)發(fā)展,人才也會(huì)隨之而來(lái)。所以,馬化騰給我們的啟發(fā)是,大數(shù)據(jù)和人工智能的發(fā)展規(guī)劃,要從場(chǎng)景出發(fā)。
三位創(chuàng)始人對(duì)大數(shù)據(jù)的看法角度不盡相同,但同樣認(rèn)為大數(shù)據(jù)對(duì)我們未來(lái)的生活會(huì)造成不可估量的影響。而爭(zhēng)做大數(shù)據(jù)時(shí)代的領(lǐng)跑者,也成為了當(dāng)前互聯(lián)網(wǎng)公司迫在眉睫的首要任務(wù)。
阿里巴巴通過(guò)淘寶、天貓、支付寶等平臺(tái)經(jīng)過(guò)長(zhǎng)期積累,逐漸開(kāi)啟了日增長(zhǎng)數(shù)據(jù)量百T的嶄新時(shí)代。大量來(lái)自買賣雙方的搜索與交易信息組成了阿里的海量數(shù)據(jù)庫(kù),從而構(gòu)建了阿里數(shù)據(jù)平臺(tái)。這些極具價(jià)值的商業(yè)數(shù)據(jù)信息為阿里轉(zhuǎn)型為社會(huì)的基礎(chǔ)服務(wù)提供商、數(shù)據(jù)服務(wù)商奠定了堅(jiān)實(shí)的基礎(chǔ)。阿里巴巴的大數(shù)據(jù)技術(shù)發(fā)展始于20 03年。2003年從Oracle單節(jié)點(diǎn)時(shí)期開(kāi)始;2004年公司成立數(shù)據(jù)倉(cāng)庫(kù)部門,搭建OLAP平臺(tái)在線分析處理業(yè)務(wù)數(shù)據(jù),通過(guò)BIEE的報(bào)表分析工具提供業(yè)務(wù)數(shù)據(jù)、決策數(shù)據(jù);2007年開(kāi)始搭建對(duì)內(nèi)數(shù)據(jù)平臺(tái),從DAC平臺(tái)到阿里數(shù)據(jù)平臺(tái)的不斷迭代升級(jí),承載各業(yè)務(wù)線和行業(yè)的報(bào)表;到2009年時(shí),基于oracle產(chǎn)品構(gòu)建的全球領(lǐng)先的RAC集群達(dá)到頂峰成為國(guó)內(nèi)每天處理量最大、最忙的數(shù)據(jù)倉(cāng)庫(kù),同年淘寶第一個(gè)分布式計(jì)算系統(tǒng)Hadhoop集群,規(guī)模為300臺(tái);2010年,數(shù)據(jù)大爆炸的一年,RAC集群已經(jīng)不能滿足業(yè)務(wù)發(fā)展速度,從RAC遷移到了Hadoop,阿里自主開(kāi)發(fā)了大規(guī)模分布式計(jì)算機(jī)系統(tǒng);2011年,阿里巴巴對(duì)外以生意參謀為載體,基于阿里巴巴集團(tuán)數(shù)據(jù)公共層建設(shè)、數(shù)據(jù)產(chǎn)品整合契機(jī)推出統(tǒng)一的數(shù)據(jù)產(chǎn)品平臺(tái)——生意參謀,通過(guò)數(shù)據(jù)披露、分析、診斷、建議、優(yōu)化、預(yù)測(cè)幫助商家推進(jìn)數(shù)據(jù)化運(yùn)營(yíng);2012年,阿里自主研發(fā)的離線數(shù)據(jù)處理平臺(tái),支持海量數(shù)據(jù)存儲(chǔ)和計(jì)算,可以提供海量數(shù)據(jù)倉(cāng)庫(kù)的解決方案和針對(duì)大數(shù)據(jù)的分析建模服務(wù);到2016年時(shí),集團(tuán)中臺(tái)事業(yè)群成立,啟動(dòng)全域數(shù)據(jù)建設(shè),公共層onedata產(chǎn)品升級(jí),全方位支持全域數(shù)據(jù)建設(shè),并陸續(xù)啟動(dòng)優(yōu)土、阿里媽媽等全域數(shù)據(jù)建設(shè)。
百度大數(shù)據(jù)最重要的來(lái)源是通過(guò)“爬蟲(chóng)”搜集的 100 多個(gè)國(guó)家的近萬(wàn)億網(wǎng)頁(yè)數(shù)據(jù),數(shù)據(jù)量是在 EB 級(jí)的規(guī)模。百度的數(shù)據(jù)非常多樣化,其收集的數(shù)據(jù)既有非結(jié)構(gòu)化的或者半結(jié)構(gòu)化的數(shù)據(jù),包括網(wǎng)頁(yè)數(shù)據(jù)、視頻和圖片等數(shù)據(jù),也有結(jié)構(gòu)化的數(shù)據(jù),如用戶的點(diǎn)擊行為數(shù)據(jù)、廣告客戶的付費(fèi)行為數(shù)據(jù)等。
百度大數(shù)據(jù)主要服務(wù)三類人群:一類是互聯(lián)網(wǎng)網(wǎng)民,通過(guò)大數(shù)據(jù)和自然語(yǔ)言處理技術(shù)讓網(wǎng)民的搜索更加準(zhǔn)確;第二類是廣告主,通過(guò)大數(shù)據(jù)讓廣告主的廣告和搜索關(guān)鍵詞的匹配度更高,或者和網(wǎng)民正在看的網(wǎng)頁(yè)內(nèi)容匹配度更高;第三類是,也是在重點(diǎn)推進(jìn)的百度大數(shù)據(jù)引擎,重點(diǎn)是服務(wù)傳統(tǒng)行業(yè)擁有數(shù)據(jù)的企業(yè)。
百度從2007年開(kāi)始引進(jìn)Hadoop 0.15.1,隨后快速發(fā)展,2011年百度的MR單集群規(guī)模達(dá)到5000臺(tái),到2013年已經(jīng)多達(dá)1.3萬(wàn)臺(tái),這也是截止到目前為止全世界最大的單集群。2015年,新Shuffle技術(shù)完成全面上線,Hadoop默認(rèn)Shuffle實(shí)現(xiàn)為基于磁盤Pull模式,計(jì)算過(guò)程顯式分成Map、Shuffle、Reduce過(guò)程;Baidu研發(fā)的新Shuffle采用內(nèi)存流式Push模式,Map端完成部分記錄處理后直接從內(nèi)存中將計(jì)算結(jié)果推送給下游。
百度大數(shù)據(jù)引擎的作用可以從兩方面體現(xiàn):1.對(duì)于政府機(jī)構(gòu):如交通部門有車聯(lián)網(wǎng)、物聯(lián)網(wǎng)、路網(wǎng)監(jiān)控、船聯(lián)網(wǎng)、碼頭車站監(jiān)控等地方的大數(shù)據(jù),如果這些數(shù)據(jù)與百度的搜索記錄、全網(wǎng)數(shù)據(jù)、L BS數(shù)據(jù)結(jié)合,在利用百度大數(shù)據(jù)引擎的大數(shù)據(jù)能力,則可以實(shí)現(xiàn)智能路徑規(guī)劃和運(yùn)力管理;衛(wèi)生部門擁有流感法定報(bào)告數(shù)據(jù)、全國(guó)流感樣病例哨點(diǎn)監(jiān)測(cè)和病原學(xué)監(jiān)測(cè)數(shù)據(jù),如果和百度的搜索記錄及全網(wǎng)數(shù)據(jù)結(jié)合,便可進(jìn)行流感預(yù)測(cè)、疫苗接種指導(dǎo)。2.對(duì)于企業(yè):很多企業(yè)也擁有海量大數(shù)據(jù),不過(guò)很多企業(yè)的大數(shù)據(jù)處理和挖掘能力比較弱,如果應(yīng)用百度大數(shù)據(jù)引擎,則可以對(duì)海量數(shù)據(jù)進(jìn)行可靠低成本的存儲(chǔ),進(jìn)行智能化的由淺人深的價(jià)值挖掘。
2009年騰訊搭建了第一個(gè)Hadoop集群,2010年TDW v0.1版本發(fā)布,次年智能廣告上線,實(shí)現(xiàn)離線數(shù)據(jù)和實(shí)時(shí)查詢。2012年進(jìn)入發(fā)展期,TPR全實(shí)時(shí)流程上線,到2013年TDBank上線,同年Oracle全部下線。從2014年開(kāi)始發(fā)展進(jìn)入穩(wěn)定期,2014年,JStorm TRC上線,TDW開(kāi)始節(jié)源,Gaia單集群量達(dá)到8800臺(tái),同年底發(fā)布Docker on Gaia。2015年,騰訊Spark集群量達(dá)到全球第一。2016年,Angle上線,同時(shí)大數(shù)據(jù)套件產(chǎn)品通過(guò)數(shù)據(jù)中心聯(lián)盟大數(shù)據(jù)基礎(chǔ)能力認(rèn)證,成為第一批獲得認(rèn)證的互聯(lián)網(wǎng)企業(yè),數(shù)據(jù)平臺(tái)在Sort Benchma rk排序獲得第一名。
騰訊大數(shù)據(jù)平臺(tái)有如下核心模塊:TDW、TRC、TDBank和Gai a。簡(jiǎn)單來(lái)說(shuō),TDW用來(lái)做批量的離線計(jì)算,TRC負(fù)責(zé)做流式的實(shí)時(shí)計(jì)算,TDBank則作為統(tǒng)一的數(shù)據(jù)采集入口,而底層的Gaia則負(fù)責(zé)整個(gè)集群的資源調(diào)度和管理。
TDW是海量數(shù)據(jù)處理平臺(tái)的核心部件,主要用于對(duì)騰訊內(nèi)部提供數(shù)據(jù)挖掘、產(chǎn)品報(bào)表、經(jīng)營(yíng)分析等離線海量數(shù)據(jù)分析服務(wù)。它是基于 Hadoop、Hive、PostreSQL 之上的大數(shù)據(jù)平臺(tái),具有查詢引擎、計(jì)算引擎、存儲(chǔ)引擎的分層結(jié)構(gòu),可根據(jù)用戶需求進(jìn)行深度定制。當(dāng)前,TDW正在向著實(shí)時(shí)化發(fā)展,通過(guò)引入HBase提供了千億級(jí)實(shí)時(shí)查詢服務(wù),并開(kāi)始投入Spark研發(fā)為大數(shù)據(jù)分析加速。
TDBank是數(shù)據(jù)實(shí)時(shí)收集與分發(fā)平臺(tái)。構(gòu)建數(shù)據(jù)源和數(shù)據(jù)處理系統(tǒng)間的橋梁,將數(shù)據(jù)處理系統(tǒng)同數(shù)據(jù)源解耦,為離線計(jì)算TDW和在線計(jì)算TRC平臺(tái)提供數(shù)據(jù)支持。針對(duì)不同應(yīng)用場(chǎng)景,TDBank提供數(shù)據(jù)的主動(dòng)訂閱模式,以及不同的數(shù)據(jù)分發(fā)支持(分發(fā)到TDW數(shù)據(jù)倉(cāng)庫(kù),文件,DB,HBase,Socket等)。
TRC騰訊實(shí)時(shí)計(jì)算平臺(tái),專門為對(duì)時(shí)間延敏感的業(yè)務(wù)提供海量數(shù)據(jù)實(shí)時(shí)處理服務(wù)。TRC是基于開(kāi)源的Storm深度定制的流式處理引擎,用Java重寫(xiě)了Storm的核心代碼。為了解決了資源利用率和集群規(guī)模的問(wèn)題,重構(gòu)了底層調(diào)度模塊,實(shí)現(xiàn)了任務(wù)級(jí)別的權(quán)限管理、資源分配、資源隔離,通過(guò)和Gaia這樣的資源管理框架相結(jié)合,做到了根據(jù)線上業(yè)務(wù)實(shí)際利用資源的狀況,動(dòng)態(tài)擴(kuò)容&縮容,單集群輕松超過(guò)1000臺(tái)規(guī)模。
Gaia:統(tǒng)一資源調(diào)度平臺(tái)。它能夠讓?xiě)?yīng)用開(kāi)發(fā)者像使用一臺(tái)超級(jí)計(jì)算機(jī)一樣使用整個(gè)集群,極大地簡(jiǎn)化了開(kāi)發(fā)者的資源管理邏輯。Gaia提供高并發(fā)任務(wù)調(diào)度和資源管理,實(shí)現(xiàn)集群資源共享,具有很高的可伸縮性和可靠性,它不僅支持MR等離線業(yè)務(wù),還可以支持實(shí)時(shí)計(jì)算,甚至在線service業(yè)務(wù)。
阿里巴巴大數(shù)據(jù)商業(yè)應(yīng)用的核心就是通過(guò)DT,以激活生產(chǎn)力為目的,點(diǎn)燃整個(gè)數(shù)據(jù)和激發(fā)整個(gè)數(shù)據(jù)的力量,被社會(huì)所用,被銷售所用,為制造業(yè)所用,為消費(fèi)者信用所用。讓阿里巴巴的數(shù)據(jù)以及數(shù)據(jù)技術(shù)工具成為中國(guó)新商業(yè)的基礎(chǔ)設(shè)施。阿里巴巴大數(shù)據(jù)未來(lái)將由“基于云計(jì)算的數(shù)據(jù)開(kāi)放+大數(shù)據(jù)應(yīng)用”組成:
(1)基于云計(jì)算的數(shù)據(jù)開(kāi)放。云計(jì)算使中小企業(yè)可以在阿里云上獲得數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理服務(wù),也可以構(gòu)建自己的數(shù)據(jù)應(yīng)用。云計(jì)算是數(shù)據(jù)開(kāi)放的基礎(chǔ),云計(jì)算可以給到全球的數(shù)據(jù)開(kāi)發(fā)者一個(gè)數(shù)據(jù)的工作平臺(tái),阿里分布式的存儲(chǔ)平臺(tái)和在這個(gè)平臺(tái)上的算法工具,可以更好的為數(shù)據(jù)開(kāi)發(fā)者所用。
(2)在大數(shù)據(jù)應(yīng)用上馬云已經(jīng)在整個(gè)數(shù)據(jù)應(yīng)用上確定了兩個(gè)方案:
第一從IT到DT(數(shù)據(jù)技術(shù)),阿里巴巴的數(shù)據(jù)資產(chǎn)是以電商為主,其中,淘寶和天貓每天會(huì)產(chǎn)生豐富多樣的數(shù)據(jù),阿里巴巴已經(jīng)沉淀了包括交易、金融、生活服務(wù)等多種類型的數(shù)據(jù),這些數(shù)據(jù)能夠幫助阿里巴巴進(jìn)行數(shù)據(jù)化運(yùn)營(yíng)。
另外一個(gè)最為重要的應(yīng)用是金融領(lǐng)域-小微金融。在小微金融企業(yè)融資領(lǐng)域。阿里巳經(jīng)通過(guò)其電商數(shù)據(jù)中的交易、信用、SNS等多種數(shù)據(jù)來(lái)決定是否可以發(fā)放貸款以及放貸的額度。
第二是讓阿里巴巴的數(shù)據(jù)、讓阿里巴巴的工具能夠成為中國(guó)商業(yè)的基礎(chǔ)設(shè)施。阿里巴巴巳經(jīng)開(kāi)始在轉(zhuǎn)型,阿里將由自己直接面對(duì)消費(fèi)者變成支持網(wǎng)商面對(duì)消費(fèi)者,阿里會(huì)根據(jù)其已有的運(yùn)營(yíng)和數(shù)據(jù)經(jīng)驗(yàn),開(kāi)發(fā)更多的工具,幫助網(wǎng)商成長(zhǎng),讓網(wǎng)商們更懂得用最好的工具、服務(wù)去服務(wù)好消費(fèi)者。
因此,阿里巴巴目前的數(shù)據(jù)產(chǎn)品主要分為三個(gè)板塊:1.生意參謀,基于全渠道數(shù)據(jù)融合、全鏈路數(shù)據(jù)產(chǎn)品集成,為商家提供數(shù)據(jù)披露、分析、診斷、建議、優(yōu)化、預(yù)測(cè)等一站式數(shù)據(jù)產(chǎn)品服務(wù)。目前,服務(wù)的商家已經(jīng)超過(guò)2000萬(wàn),月服務(wù)商家超過(guò)600萬(wàn);在月成交額30萬(wàn)元以上的商家中,逾90%在使用生意參謀。2.孔明燈,先的第三方云BI工具,以“讓業(yè)務(wù)更清晰,讓決策更高效”為愿景,提供一站式多維分析、數(shù)據(jù)建模、可視化應(yīng)用、智能建站等工具套件;幫助企業(yè)快速有效進(jìn)行數(shù)據(jù)的可視化及聯(lián)合(多維)分析,完成數(shù)據(jù)決策。3.阿里指數(shù),以阿里電商數(shù)據(jù)為核心,面向媒體、市場(chǎng)研究員以及社會(huì)大眾提供的社會(huì)化大數(shù)據(jù)展示平臺(tái);提供地域、行業(yè)等角度指數(shù)化的數(shù)據(jù)分析,作為市場(chǎng)及行業(yè)研究的參考、社會(huì)熱點(diǎn)的洞察工具。
百度因?yàn)槠湟Ф〝?shù)據(jù)不放松行業(yè)和技術(shù)優(yōu)勢(shì),在大數(shù)據(jù)商業(yè)應(yīng)用方面,主要是通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行深加工,力圖打造成覆蓋社會(huì)各領(lǐng)域和社會(huì)生活各方面的智能專家。
百度大數(shù)據(jù)引擎代表了互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)服務(wù)能力開(kāi)放和合作的趨勢(shì),百度大數(shù)據(jù)引擎由以下幾個(gè)方面構(gòu)成。
開(kāi)放云——百度的大規(guī)模分布式計(jì)算和超大規(guī)模存儲(chǔ)云,開(kāi)放云大數(shù)據(jù)開(kāi)放的是基礎(chǔ)設(shè)施和硬件能力。百度是全球首家大規(guī)模商用 ARM 服務(wù)器的公司,而ARM 架構(gòu)的特征是能耗小和存儲(chǔ)密度大,同時(shí)百度還是首家將 GPU(圖形處理器)應(yīng)用在機(jī)器學(xué)習(xí)領(lǐng)域的公司,實(shí)現(xiàn)了能耗節(jié)省的目的。百度開(kāi)放云生命科學(xué)解決方案可以幫助生物信息領(lǐng)域用戶存儲(chǔ)海量的數(shù)據(jù),并調(diào)度強(qiáng)大的計(jì)算資源來(lái)進(jìn)行基因組、蛋白質(zhì)組等大數(shù)據(jù)分析。此外,百度自行研發(fā)的基因大數(shù)據(jù)芯片可以使運(yùn)算速度得到數(shù)倍的提升、IT成本實(shí)現(xiàn)數(shù)量級(jí)的下降,幫助研究生命活動(dòng)規(guī)律,促進(jìn)醫(yī)療健康行業(yè)發(fā)展。
數(shù)據(jù)市場(chǎng)——“數(shù)據(jù)市場(chǎng)”是“百度數(shù)智平臺(tái)(di.baidu.com)”旗下的數(shù)據(jù)產(chǎn)品售賣平臺(tái)?!鞍俣葦?shù)智平臺(tái)”匯集百度大數(shù)據(jù)核心能力,運(yùn)用大規(guī)模機(jī)器學(xué)習(xí)和數(shù)據(jù)建模等前沿技術(shù),對(duì)海量數(shù)據(jù)進(jìn)行挖掘、處理和分析,打造易用產(chǎn)品和成熟行業(yè)解決方案,致力于為千萬(wàn)家企業(yè)客戶提供專業(yè)、穩(wěn)定的數(shù)據(jù)智能服務(wù)。數(shù)據(jù)市場(chǎng)為百度將海量數(shù)據(jù)組織起來(lái)的軟件能力,與數(shù)據(jù)庫(kù)軟件的作用類似,不同的是數(shù)據(jù)工廠是被用作處理 TB級(jí)甚至更大的數(shù)據(jù)。百度數(shù)據(jù)市場(chǎng)支持超大規(guī)模異構(gòu)數(shù)據(jù)查詢,支持 SQL-like 以及更復(fù)雜的查詢語(yǔ)句,支持各種查詢業(yè)務(wù)場(chǎng)景。
百度大腦——百度大腦將百度此前在人工智能方面的能力開(kāi)放出來(lái),主要是大規(guī)模機(jī)器學(xué)習(xí)能力和深度學(xué)習(xí)能力。此前它們被應(yīng)用在語(yǔ)音、圖像、文本識(shí)別以及自然語(yǔ)言和語(yǔ)義理解方面,并通過(guò)百度 Inside 等平臺(tái)開(kāi)放給智能硬件。這些能力將被用來(lái)對(duì)大數(shù)據(jù)進(jìn)行智能化的分析、學(xué)習(xí)、處理、利用,并對(duì)外開(kāi)放。
百度天算平臺(tái)——天算平臺(tái)將百度的大數(shù)據(jù)、人工智能全面進(jìn)行開(kāi)放,相關(guān)行業(yè)用戶可以使用這些技術(shù)簡(jiǎn)單的搭建起自己的大數(shù)據(jù)和人工智能平臺(tái),同時(shí)天算平臺(tái)針對(duì)幾個(gè)行業(yè)推出了定制化的方案,百度希望通過(guò)這些行業(yè)解決方案,相關(guān)的用戶可以更容易地搭建自己的智能系統(tǒng),更快地享受到大數(shù)據(jù)和人工智能給他們帶來(lái)的好處,為日志分析、數(shù)字營(yíng)銷、生命科學(xué)、輿情等行業(yè)提供了定制的解決方案。
騰訊大數(shù)據(jù)從數(shù)據(jù)應(yīng)用的不同環(huán)節(jié)可以分為三個(gè)層面,包括數(shù)據(jù)分析、數(shù)據(jù)工具、數(shù)據(jù)平臺(tái)。
(1)數(shù)據(jù)分析層有四個(gè)產(chǎn)品:騰訊移動(dòng)分析 MTA,專業(yè)的移動(dòng)應(yīng)用數(shù)據(jù)分析能力,提供實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì)分析服務(wù),監(jiān)控版本質(zhì)量、渠道狀況、用戶畫(huà)像屬性及用戶細(xì)分行為,通過(guò)數(shù)據(jù)可視化展現(xiàn),協(xié)助產(chǎn)品運(yùn)營(yíng)決策;網(wǎng)站數(shù)據(jù)分析 TA,統(tǒng)計(jì)分析展示網(wǎng)站的訪問(wèn)情況、來(lái)源情況、訪問(wèn)路徑等,幫助站長(zhǎng)清晰地了解訪客的行為、屬性等,以方便站長(zhǎng)進(jìn)行有效地網(wǎng)站運(yùn)營(yíng),同時(shí)為網(wǎng)站的決策提供更加有力的數(shù)據(jù)支持;HTML5數(shù)據(jù)分析,專業(yè)的移動(dòng)應(yīng)用數(shù)據(jù)分析能力,提供實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì)分析服務(wù),監(jiān)控版本質(zhì)量、渠道狀況、用戶畫(huà)像屬性及用戶細(xì)分行為,通過(guò)數(shù)據(jù)可視化展現(xiàn),協(xié)助產(chǎn)品運(yùn)營(yíng)決策;微信小程序分析,支持小程序關(guān)鍵指標(biāo),如訪問(wèn)用戶、打開(kāi)次數(shù)、使用時(shí)長(zhǎng)等的實(shí)時(shí)統(tǒng)計(jì)分析,同時(shí)提供自定義事件打點(diǎn)分析,完美補(bǔ)充微信的基礎(chǔ)統(tǒng)計(jì)能力。
(2)數(shù)據(jù)工具層面兩個(gè)產(chǎn)品:騰訊移動(dòng)推送-信鴿,專業(yè)移動(dòng)A pp推送平臺(tái),支持百億級(jí)的通知/消息推送,將相關(guān)信息及時(shí)送達(dá)精準(zhǔn)定向的用戶,并與用戶持續(xù)友好互動(dòng)。大幅提升用戶活躍度、留存率;云數(shù)據(jù)庫(kù)CDB for PostgreSQL,能夠在云端輕松設(shè)置、操作和擴(kuò)展目前功能最強(qiáng)大的開(kāi)源數(shù)據(jù)庫(kù) PostgreSQL,騰訊云將負(fù)責(zé)絕大部分處理復(fù)雜而耗時(shí)的管理工作,如 PostgreSQL 軟件安裝、存儲(chǔ)管理、高可用復(fù)制、以及為災(zāi)難恢復(fù)而進(jìn)行的數(shù)據(jù)備份,讓您更專注于業(yè)務(wù)程序開(kāi)發(fā)。
(3)數(shù)據(jù)平臺(tái)層面兩個(gè)產(chǎn)品:大數(shù)據(jù)處理套件TBDS,是基于騰訊多年海量數(shù)據(jù)處理經(jīng)驗(yàn),對(duì)外提供的可靠、安全、易用的大數(shù)據(jù)處理平臺(tái)??梢园葱璨渴鸫髷?shù)據(jù)處理服務(wù)實(shí)現(xiàn)數(shù)據(jù)處理需求,例如報(bào)表展示,數(shù)據(jù)提取、分析,客戶畫(huà)像等大數(shù)據(jù)應(yīng)用;騰訊推薦,為各種大小型網(wǎng)站、APP提供推薦服務(wù),擁有8億月活躍用戶,千億社交關(guān)系鏈,囊括了廣告、電商、新聞、游戲等眾多領(lǐng)域,千萬(wàn)級(jí)維度深度刻畫(huà)每一位用戶,深度挖掘用戶屬性,同時(shí)SDK支持多種平臺(tái),實(shí)現(xiàn)跨屏推薦。
不只是BAT的大數(shù)據(jù)在行動(dòng)。其實(shí)IBM、谷歌,亞馬遜,F(xiàn)aceb ook等一大批公司在大數(shù)據(jù)技術(shù)開(kāi)發(fā)和大數(shù)據(jù)商業(yè)應(yīng)用方面都涉足很深。早在大數(shù)據(jù)概念進(jìn)入媒體視野之前,IBM就提出“智慧地球”的概念,其核心是把“智慧”嵌入系統(tǒng)和流程之中,使服務(wù)的交付、產(chǎn)品開(kāi)發(fā)、制造、采購(gòu)和銷售得以實(shí)現(xiàn),通過(guò)其建立的8個(gè)全球分析解決方案中心網(wǎng)絡(luò),使億萬(wàn)人生活和工作的方式變得更加智慧。谷歌所提供的大數(shù)據(jù)分析智能主要是應(yīng)用客戶的情緒分析、交易上風(fēng)險(xiǎn)、產(chǎn)品推薦?;贑olossus,谷歌為不但為用戶提供了可以計(jì)算、存儲(chǔ)以及應(yīng)用的云服務(wù)。計(jì)算服務(wù)包括了計(jì)算的引擎以及應(yīng)用的APP引擎;存儲(chǔ)服務(wù)是利用了云存儲(chǔ)、云SQL以及云數(shù)據(jù)的存儲(chǔ)、永久磁盤等服務(wù);云應(yīng)用服務(wù)包括BigQuery、云終端(Cloud Endpoint s)、緩沖、隊(duì)列等。Facebook收集、存儲(chǔ)和分析用戶數(shù)據(jù),他們還會(huì)通過(guò)下列方式確定或影響用戶的行為:(1)跟蹤C(jī)ookies來(lái)跟蹤用戶瀏覽Web的行為;(2)面部識(shí)別:Facebook可以借助用戶分享的圖像數(shù)據(jù)在Web和其他Facebook用戶資料中跟蹤用戶;(3)分析用戶喜好。作為全球知名的大數(shù)據(jù)產(chǎn)品服務(wù)商之一的亞馬遜則通過(guò)大數(shù)據(jù)來(lái)實(shí)現(xiàn)客戶的精準(zhǔn)營(yíng)銷。國(guó)內(nèi)方面,華為大數(shù)據(jù)主要主要針對(duì)廣告營(yíng)銷、電商、車聯(lián)網(wǎng)等大數(shù)據(jù)應(yīng)用場(chǎng)景的云計(jì)算大數(shù)據(jù)方案,幫助企業(yè)用戶構(gòu)建大數(shù)據(jù)平臺(tái),解決企業(yè)的海量數(shù)據(jù)存儲(chǔ)和分析需求。小米進(jìn)入了智能設(shè)備領(lǐng)域后,充分感受到了大數(shù)據(jù)的浪潮撲面而來(lái), 投入10億美金開(kāi)始做翱義云服務(wù)計(jì)劃,在這個(gè)計(jì)劃里面,小米的重心放在應(yīng)用層,金山軟件的重心放在開(kāi)放云服務(wù),并預(yù)計(jì)云服務(wù)收入會(huì)快速增長(zhǎng)。國(guó)內(nèi)三大通訊運(yùn)營(yíng)商和中國(guó)銀聯(lián)等數(shù)據(jù)優(yōu)勢(shì)企業(yè)在大數(shù)據(jù)技術(shù)和商業(yè)應(yīng)用方面開(kāi)啟了征程。
綜上所述,大數(shù)據(jù)技術(shù)為人類全面深刻地認(rèn)識(shí)社會(huì)、了解自身提供了一種全新的方式和視角;大數(shù)據(jù)時(shí)代,人們將面臨更多未知的挑戰(zhàn),百舸爭(zhēng)流,“一切皆有可能”。正如馬云所說(shuō)的一樣,“我們要感知大數(shù)據(jù)、思考大數(shù)據(jù),我覺(jué)得,這是我們共同的未來(lái)?!?/p>
[1]車凱龍,鐵茜.國(guó)內(nèi)外社交網(wǎng)絡(luò)(SNS)大數(shù)據(jù)應(yīng)用比較研究——以Facebook和騰訊為例[J].圖書(shū)館學(xué)研究,2014,(18):18-23.
[2]陳園園.Facebook:基于SNS的大數(shù)據(jù)公司[J].互聯(lián)網(wǎng)周刊,2012,(24):60-61.
[3]傅志華.BAT三巨頭“玩轉(zhuǎn)”大數(shù)據(jù)[J].中國(guó)戰(zhàn)略新興產(chǎn)業(yè),20 15,(01):78-80.
[4]趙雪峰.基于互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)分析系統(tǒng)研究[D].成都理工大學(xué),2016.
[5]范卉青.搶灘大數(shù)據(jù)發(fā)展 互聯(lián)網(wǎng)巨頭各有所愛(ài)[J].通信世界,2016,(15):13.
王怡文(2000.4—)湖北省武漢市第六中學(xué)高三班,研究方向:社會(huì)經(jīng)濟(jì)熱點(diǎn)問(wèn)題分析與研究。