霍娜
每天微博上的留言轉(zhuǎn)載、電子商務(wù)網(wǎng)站上的用戶點(diǎn)擊流、各種音視頻記錄文件、大量的網(wǎng)絡(luò)服務(wù)日志……大數(shù)據(jù)時代撲面而來。大數(shù)據(jù)有三V特征——海量(Volume)、多樣(Variety)和實(shí)時分析(Velocity)。3月30日,在2012第五屆中國數(shù)據(jù)中心大會的大數(shù)據(jù)分析與數(shù)據(jù)治理分論壇上,杭州瑞網(wǎng)廣通技術(shù)有限公司總裁楊建軍就介紹,他們?yōu)槠桨渤鞘?、智能安防、?shù)字城市監(jiān)控云所做的項(xiàng)目的數(shù)據(jù)量都已是PB級的。如何對海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)做實(shí)時分析,從而支撐決策,是大數(shù)據(jù)時代業(yè)界的共同挑戰(zhàn)。
數(shù)據(jù)分析:從挖金土豆到篩金沙
大數(shù)據(jù)之所以成為業(yè)界的熱點(diǎn),是因?yàn)楝F(xiàn)在做數(shù)據(jù)分析的價值越來越大,在Hadoop等技術(shù)的支持下,成本相對越來越低。對于企業(yè)做數(shù)據(jù)分析的價值和方法的前后變化,Informatica公司大中國區(qū)首席產(chǎn)品顧問但彬在論壇上,用一個非常生動形象的比喻做了說明:“如果將做數(shù)據(jù)分析比喻成開采金礦,原來我們所做的是用挖掘機(jī)挖金土豆,而現(xiàn)在則是用篩子來篩金沙。因?yàn)楝F(xiàn)在大量分布在社交網(wǎng)絡(luò)的數(shù)據(jù),對企業(yè)而言就是就像是大量的金沙,分布廣泛而分散。如果能用低成本的方法篩出金沙,是非常有價值且值得做的事情?!?
但彬介紹,Informatica作為一家數(shù)據(jù)集成公司,更關(guān)注的是如何把來自各個地方的大數(shù)據(jù),通過像抽水機(jī)的泵一樣的裝置整合到需要的程度和地方。Informatica2011年完成了近8億元的收入,這也是對大數(shù)據(jù)市場火熱程度的一個印證。
Informatica主要從四個方向考慮大數(shù)據(jù)處理的一些問題:第一,大數(shù)據(jù)的集成,即從數(shù)據(jù)種類的多樣性方面,整合所有來源的所有數(shù)據(jù)類型,不管是來自交易系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),社交網(wǎng)絡(luò)的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),還是來自RFID讀卡器的感應(yīng)數(shù)據(jù);第二,保障數(shù)據(jù)的權(quán)威、可信性,保障數(shù)據(jù)安全,實(shí)現(xiàn)可重復(fù)利用、一致的數(shù)據(jù)質(zhì)量;第三是實(shí)現(xiàn)數(shù)據(jù)的自助式服務(wù),消除手工操作帶來的錯誤,提高生產(chǎn)率,允許分析員通過基于瀏覽器的工具直觀地定義和校驗(yàn)從源到目標(biāo)的處理流程,以此自動生成映射邏輯,交由開發(fā)人員部署運(yùn)行;第四是自適應(yīng)服務(wù),通過多協(xié)議數(shù)據(jù)配置、集成數(shù)據(jù)質(zhì)量等手段實(shí)現(xiàn)交付適應(yīng)不同項(xiàng)目需求的數(shù)據(jù)。
從交易到交互,從互聯(lián)網(wǎng)行業(yè)到傳統(tǒng)行業(yè),大數(shù)據(jù)的滲透力和影響力不容小覷。在Teradata大中華區(qū)首席架構(gòu)師張新宇看來,除了數(shù)據(jù)管理,更重要的是數(shù)據(jù)分析,利用新的分析方法,比如通過使用Map Reduce(編程語言可以是Java/Python/Perl/C/C++)新分析框架,提供針對多種數(shù)據(jù)的并行處理能力等,實(shí)現(xiàn)大數(shù)據(jù)的洞察力是更關(guān)鍵的。
北京賽迪時代信息產(chǎn)業(yè)股份有限公司存儲工程服務(wù)事業(yè)部總經(jīng)理李降龍也介紹,大數(shù)據(jù)帶來的挑戰(zhàn)在于怎樣實(shí)時處理這些數(shù)據(jù),通過虛擬化搭建一個計(jì)算和存儲資源池,以彈性架構(gòu)有效地合理分配和使用它們,并建立合理應(yīng)用系統(tǒng),使大數(shù)據(jù)得到最好的管理和使用,才能發(fā)揮大數(shù)據(jù)的價值。論壇上民族證券CIO顏陽也分享了證券公司對于大數(shù)據(jù)的理解以及他們所做輿情分析的大數(shù)據(jù)應(yīng)用。
職場新貴:數(shù)據(jù)科學(xué)家
針對大數(shù)據(jù)而生的新一代分析工具——Map Reduce近年來備受關(guān)注,它一次遍歷數(shù)據(jù),連接列表順序分析,而不需要像傳統(tǒng)的SQL那樣為了排序需要對表做自關(guān)聯(lián)。Map Reduce在數(shù)字營銷優(yōu)化、社交網(wǎng)絡(luò)及關(guān)系分析、欺詐檢測及預(yù)防、設(shè)備數(shù)據(jù)分析等場景中都有非常好的應(yīng)用。
除了原有的關(guān)系型數(shù)據(jù)分析,結(jié)合非關(guān)系型數(shù)據(jù)(NoSQL)的探索性分析的需求在企業(yè)內(nèi)部越來越旺盛,如此一來,一種新的IT職業(yè)——數(shù)據(jù)科學(xué)家會越來越火。
張新宇介紹,近十年來做數(shù)據(jù)分析的從業(yè)人員數(shù)量急劇上升,已經(jīng)占到所有行業(yè)從業(yè)人數(shù)的0.01%。數(shù)據(jù)科學(xué)家有很強(qiáng)的技術(shù)功底,除了傳統(tǒng)的會寫SQL,還會與非關(guān)系型數(shù)據(jù)打交道,熟悉很多數(shù)據(jù)分析的軟件,有很強(qiáng)的數(shù)據(jù)功底,對業(yè)務(wù)也很敏感。另外,數(shù)據(jù)科學(xué)家也會有很強(qiáng)的好奇心或求知欲,他要很明確地知道,當(dāng)發(fā)現(xiàn)業(yè)務(wù)問題的時候如何通過業(yè)務(wù)模式的調(diào)整去解決。他既是一個數(shù)據(jù)分析的專家,也可能是一個SaaS的專家,也可能是個超級用戶,或者是一個Java的程序員,自己寫程序處理。
傳統(tǒng)的ETL 開發(fā)人員、應(yīng)用模型人員/OLAP架構(gòu)師或者Data 管控及主數(shù)據(jù)管理人員主要在關(guān)系型數(shù)據(jù)上工作。與他們不同,數(shù)據(jù)科學(xué)家通常與非關(guān)系型數(shù)據(jù)打交道,會很早接觸并采用企業(yè)內(nèi)部的新數(shù)據(jù)源,要針對數(shù)據(jù)模型及數(shù)據(jù)結(jié)構(gòu)沒有預(yù)先設(shè)定的情況,習(xí)慣使用各種比較靈活的語言,會有各種新的數(shù)據(jù)產(chǎn)品的可執(zhí)行的想法。