涂蘭敬
2014年中秋佳節(jié)降至,不管是饋贈(zèng)親朋好友還是自己食用,選擇什么品牌的月餅都成為很多人重點(diǎn)考慮的問題。8月底,中國統(tǒng)計(jì)信息服務(wù)中心(CSISC)大數(shù)據(jù)研究實(shí)驗(yàn)室發(fā)布了《2014年中國月餅品牌口碑研究報(bào)告》。該報(bào)告從品牌知名度、消費(fèi)者互動(dòng)度、質(zhì)量認(rèn)可度、企業(yè)美譽(yù)度、產(chǎn)品好評(píng)度、品牌健康度等6個(gè)維度評(píng)析今年月餅品牌口碑的優(yōu)劣。
不得不說,CSISC這份在大數(shù)據(jù)架構(gòu)下統(tǒng)計(jì)出來的報(bào)告為人們購買月餅提供了重要的參考,而從月餅企業(yè)的角度來說也為其品牌聲譽(yù)管理提供了很好的參考方向。很顯然,從前幾年“尿布和啤酒”的案例到現(xiàn)在月餅品牌口碑的報(bào)告,大數(shù)據(jù)技術(shù)正從外來的概念走向更實(shí)際的本地應(yīng)用。
大數(shù)據(jù)技術(shù)背后的推動(dòng)力
幾年前還有很多人心存擔(dān)憂,大數(shù)據(jù)會(huì)不會(huì)又是一次IT概念的炒作。而現(xiàn)在,記者發(fā)現(xiàn),以Hadoop為代表的大數(shù)據(jù)技術(shù)HDFS和Mapreduce,還有其開源組件Hbase和Hive等一些大數(shù)據(jù)開源技術(shù)逐漸被開發(fā)者廣泛學(xué)習(xí)和應(yīng)用起來。IDC發(fā)布的Hadoop軟件生態(tài)系統(tǒng)預(yù)測報(bào)告顯示,Hadoop市場正在以60%的年復(fù)合增長率高速擴(kuò)張。IDC預(yù)計(jì),到2016年,該市場規(guī)模將快速增長至8.13億美元。
事實(shí)上,大數(shù)據(jù)存在于人們?nèi)粘OM(fèi)、溝通和使用移動(dòng)互聯(lián)網(wǎng)的過程。人們不斷制造數(shù)據(jù),然后消費(fèi)數(shù)據(jù),從數(shù)據(jù)中獲得價(jià)值,再不斷推動(dòng)大數(shù)據(jù)技術(shù)需求突飛猛進(jìn)的發(fā)展??梢哉f,大數(shù)據(jù)技術(shù)是數(shù)據(jù)驅(qū)動(dòng)的,與此同時(shí),大數(shù)據(jù)分析的結(jié)果反過來又在不斷地制造數(shù)據(jù)。
SAS軟件研究開發(fā)(北京)有限公司總經(jīng)理劉政表示,大數(shù)據(jù)技術(shù)正好滿足了當(dāng)下人們對(duì)于數(shù)據(jù)分析的需求。劉政指出,互聯(lián)網(wǎng)時(shí)代之前已經(jīng)經(jīng)歷過大量業(yè)務(wù)數(shù)據(jù)積累的過程,而電子商務(wù)的成熟,社交媒體和移動(dòng)互聯(lián)網(wǎng)的興起和制造業(yè)傳感設(shè)備的廣泛部署,一起觸發(fā)了大數(shù)據(jù)的爆炸式增長。這種爆炸式增長促進(jìn)了大數(shù)據(jù)分析能力的提升,同時(shí)推動(dòng)了大眾行為模式和消費(fèi)模式的改變,進(jìn)而推動(dòng)商業(yè)模式的改變。
星環(huán)信息科技(上海)有限公司CTO孫元浩認(rèn)為,之所以以Hadoop為代表的大數(shù)據(jù)技術(shù)獲得廣泛關(guān)注主要是因?yàn)槠浼夹g(shù)上的先進(jìn)性。這類技術(shù)較好地解決了大規(guī)模系統(tǒng)的擴(kuò)展性、高性能和高可用性難題,這是大型公司特別是大規(guī)?;ヂ?lián)網(wǎng)公司急需解決的問題。
從技術(shù)角度來看,推動(dòng)這些大數(shù)據(jù)技術(shù)從誕生到成熟的主要驅(qū)動(dòng)力還是企業(yè)的真實(shí)需求。從商業(yè)角度來看,互聯(lián)網(wǎng)時(shí)代知識(shí)傳播速度的加快讓更多的人獲知這些新技術(shù),開源社區(qū)的發(fā)展也讓更多人可以參與到新技術(shù)的發(fā)展過程中來,同時(shí),資本的力量也在推動(dòng)這些新技術(shù)快速地走向成熟并商業(yè)化。
云基地大數(shù)據(jù)公司高級(jí)咨詢經(jīng)理馮大志提出兩點(diǎn)看法。一方面,Hadoop突出的分布式存儲(chǔ)和計(jì)算能力,對(duì)于傳統(tǒng)企業(yè)而言,增加了其數(shù)據(jù)挖掘所能處理的數(shù)據(jù)規(guī)模和效率。馮大志舉例說,國內(nèi)某知名保險(xiǎn)公司,針對(duì)近一億客戶實(shí)現(xiàn)了全量的客戶分群、客戶流失模型的建立,針對(duì)保險(xiǎn)產(chǎn)品相關(guān)性的分析,都建立在全量數(shù)據(jù)的分析基礎(chǔ)上。另外,相對(duì)于傳統(tǒng)的存儲(chǔ)、小型機(jī)、關(guān)系型數(shù)據(jù)庫的組合中,在不考慮維護(hù)成本的前提下,以Hadoop為代表的大數(shù)據(jù)技術(shù)確實(shí)具備了一定的性能優(yōu)勢和價(jià)格優(yōu)勢。
據(jù)馮大志透露,國內(nèi)某省移動(dòng)公司的經(jīng)分系統(tǒng)是一套由幾十臺(tái)小型機(jī)構(gòu)成具有近百個(gè)節(jié)點(diǎn)的大型數(shù)據(jù)倉庫系統(tǒng),不論系統(tǒng)本身的造價(jià)還是運(yùn)維成本都相當(dāng)高昂。馮大志認(rèn)為,這么龐大的系統(tǒng)對(duì)于傳統(tǒng)的技術(shù)體系和價(jià)格體系是個(gè)雙重挑戰(zhàn)。
大數(shù)據(jù)的價(jià)值不止是技術(shù)
北大方正輿情產(chǎn)品總經(jīng)理李崇綱多年來專注于網(wǎng)絡(luò)輿情分析技術(shù)。李崇綱表示,大數(shù)據(jù)對(duì)于輿情分析的意義,首先是從思維和工作模式上的改變,其次才是技術(shù)上的改進(jìn)。
李崇綱認(rèn)為,不管是政府還是企業(yè)都應(yīng)該從互聯(lián)網(wǎng)公司身上學(xué)習(xí)對(duì)輿情的管理,對(duì)網(wǎng)民的意見進(jìn)行分析,以互聯(lián)網(wǎng)思維對(duì)輿情進(jìn)行管理。在工作模式上,利用大數(shù)據(jù)分析技術(shù),政府和企業(yè)可以獲取更多的數(shù)據(jù)并進(jìn)行可視化展現(xiàn),也能夠變革現(xiàn)有輿情的管理模式。
基于自己在工作中的親身體驗(yàn),上海證交所總工程師白碩提出,大數(shù)據(jù)開創(chuàng)了“去貴族化”的數(shù)據(jù)處理解決方案的先河。
白碩認(rèn)為,傳統(tǒng)企業(yè)的IT系統(tǒng)往往存在“貴族化”特性:采購成本昂貴、維護(hù)成本昂貴、平臺(tái)遷移成本更加昂貴。過去,傳統(tǒng)企業(yè)在安全運(yùn)行的巨大壓力下,只能在這種“貴族化”和那種“貴族化”間進(jìn)行選擇,用“貴族化”的解決方案來彰顯程序的價(jià)值。
因此,白碩指出:“大數(shù)據(jù)技術(shù)的真正有價(jià)值,既能不斷沖擊數(shù)據(jù)處理的極限,又能普遍降低非極限情況下數(shù)據(jù)處理的性價(jià)比。
相比較來看,一些傳統(tǒng)企業(yè)的IT人員已經(jīng)用慣了IOE(IBM、Oracle和EMC)的產(chǎn)品,忽然間讓他們?cè)陂_源技術(shù)基礎(chǔ)上做開發(fā)和操作,往往會(huì)覺得不熟悉、不習(xí)慣。而且,傳統(tǒng)企業(yè)原有數(shù)據(jù)處理的系統(tǒng)已經(jīng)運(yùn)作了十幾年了,IT人員的技術(shù)范疇都還是以原有IT系統(tǒng)為核心打造的,最為主要的是各種基礎(chǔ)設(shè)施的生命周期還非常長,新技術(shù)必須兼顧它們。從這個(gè)角度來看,大數(shù)據(jù)有利于祛除傳統(tǒng)企業(yè)身上的“貴族病”,更加有利于整合機(jī)構(gòu)的業(yè)務(wù)、數(shù)據(jù)等資源,調(diào)動(dòng)相關(guān)人員的積極性都能夠朝著價(jià)值最大化努力。
人是大數(shù)據(jù)的第一推動(dòng)力
如果說,以Hadoop為代表的大數(shù)據(jù)是一頭小象,那么企業(yè)必須有能夠馴服它的馴獸師。在很多企業(yè)熱烈擁抱這類大數(shù)據(jù)技術(shù)時(shí),精通大數(shù)據(jù)技術(shù)的相關(guān)人才也成為一個(gè)大缺口。英特爾中國研究院首席工程師吳甘沙就曾經(jīng)在一次演講中提出,人是大數(shù)據(jù)的第一推動(dòng)力。
Forrester最新報(bào)告顯示,大多數(shù)公司只分析了已有數(shù)據(jù)的12%,剩余88%還沒有被充分利用。究其原因,大數(shù)據(jù)分析能力的缺乏是造成這種局面的主要原因。在這里,傳統(tǒng)企業(yè)與一些創(chuàng)新型和互聯(lián)網(wǎng)公司相比,數(shù)據(jù)分析的包袱更為沉重,大數(shù)據(jù)相關(guān)的技術(shù)人才更為缺乏。
中國民族證券信息技術(shù)部總經(jīng)理顏陽在一次沙龍上表示,該公司在2008年利用輕型化的通用硬件平臺(tái),結(jié)合開源系統(tǒng)Greenplum構(gòu)建了一個(gè)“去貴族化”的數(shù)據(jù)倉庫,成為業(yè)界的典范。但是,與此同時(shí),顏陽也發(fā)出“累”的感嘆。
孫元浩表示,目前市場上能夠熟練運(yùn)用Spark的人才都比較稀缺,因此公司不得不自己培養(yǎng)Scala程序員和Spark開發(fā)者。而劉政也表示,SAS需要復(fù)合型人才:一方面要有Hadoop領(lǐng)域的技術(shù),另一方面公司強(qiáng)化分析和統(tǒng)計(jì)領(lǐng)域的專業(yè)知識(shí),所以SAS只能堅(jiān)持在項(xiàng)目中培養(yǎng)自己的人才。
與傳統(tǒng)企業(yè)不同,很多初創(chuàng)型公司或互聯(lián)網(wǎng)公司,它們沒有太多歷史數(shù)據(jù),核心團(tuán)隊(duì)多為技術(shù)高手,因此在利用大數(shù)據(jù)技術(shù)時(shí)具有優(yōu)勢。
Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華在與多家傳統(tǒng)企業(yè)溝通時(shí)發(fā)現(xiàn),很多公司都表示已經(jīng)在用Hadoop做研究和應(yīng)用,不過,還只限于存儲(chǔ)、預(yù)處理和一些基本的網(wǎng)頁分析。
而且,現(xiàn)在Hadoop技術(shù)發(fā)展得很快,用戶經(jīng)常會(huì)碰到新技術(shù)、新問題,需要到Hadoop開源社區(qū)去解決具體的問題,這樣,對(duì)傳統(tǒng)企業(yè)的業(yè)務(wù)需求來說進(jìn)展就有些慢了。
因此,現(xiàn)在已經(jīng)有很多企業(yè)開始意識(shí)到,要想真正在Hadoop平臺(tái)上做數(shù)據(jù)分析、數(shù)據(jù)挖掘的應(yīng)用,有兩種選擇,要么就是匯聚一個(gè)懂?dāng)?shù)據(jù)、懂分析、懂編程又要有技巧的技術(shù)團(tuán)隊(duì)來操作,要么就是選擇某家商業(yè)公司推出的成熟的大數(shù)據(jù)平臺(tái)。