姚芳沁
距離美國《自然》雜志在2008年9月的封面??惺状翁岢觥按髷?shù)據(jù)”的概念,至今剛好過了10年。在這10年間,大數(shù)據(jù)由一個學術(shù)界的新名詞演變成決定人類工作和生活方方面面的龐大系 統(tǒng)。
什么是大數(shù)據(jù)?市場調(diào)研公司IDC從4個維度的特征來定義它,即數(shù)據(jù)集的規(guī)模(Volume)、數(shù)據(jù)流動的速度(Velocity)、數(shù)據(jù)類型的多少(Variety)和數(shù)據(jù)價值的大?。╒alue)。
簡單說,就是當數(shù)據(jù)量超過了單臺計算機的處理能力時,就形成了大數(shù)據(jù)。它的出現(xiàn)本身就是互聯(lián)網(wǎng)世界擴張的必然結(jié)果。
搜索引擎Google為了解決日益膨脹的海量數(shù)據(jù)存儲和處理問題,成為大數(shù)據(jù)技術(shù)開發(fā)的先行者。當大數(shù)據(jù)的基礎(chǔ)架構(gòu)搭建完成之后,后來的大數(shù)據(jù)應(yīng)用有了更大的想象空間。2013年大數(shù)據(jù)技術(shù)開始向商業(yè)、技術(shù)、醫(yī)療、政府、教育、經(jīng)濟、交通、物流及社會的各個領(lǐng)域滲透,因此這一年也被稱為大數(shù)據(jù)元年。
云技術(shù)的主流化讓中小公司在不需要花巨額成本搭建數(shù)據(jù)系統(tǒng)的情況下,便可以從云端遠程獲得大數(shù)據(jù)為自己的業(yè)務(wù)服務(wù)。大數(shù)據(jù)技術(shù)也不再是大公司的專利,它的商業(yè)機會達到空前繁榮。市場調(diào)研公司IDC預(yù)計大數(shù)據(jù)業(yè)務(wù)和數(shù)據(jù)分析市場將以年平均11.7%的增速持續(xù)擴張,到2020年在全球?qū)⑦_到2030億美元的規(guī)模。
從普通的消費者產(chǎn)品到工業(yè)設(shè)備,幾乎每件產(chǎn)品內(nèi)都可以植入一個芯片來實現(xiàn)數(shù)據(jù)收集。這些帶有通信能力的設(shè)備組成了物聯(lián)網(wǎng)。在生活中,隨處可見的傳感器、智能手機、可穿戴設(shè)備、智能家居、工業(yè)機器人、無人駕駛汽車等物品,都可以是物聯(lián)網(wǎng)上的一環(huán)。物聯(lián)網(wǎng)設(shè)備之間通過數(shù)據(jù)分享,再由自動化系統(tǒng)組織協(xié)作,便可以讓這些機器獨立分析和完成一些任務(wù)。
調(diào)研公司Gatner預(yù)計到2020年有超過半數(shù)的新興商業(yè)體都會基于物聯(lián)網(wǎng)運行。這就對高速數(shù)據(jù)傳輸?shù)姆€(wěn)定性提出了極高的要求。試想一下,在攜帶了眾多傳感器的無人駕駛汽車上,如果有一個出現(xiàn)了片刻停頓,就會造成數(shù)據(jù)傳輸?shù)娜笔?,其后果將攸關(guān)人命。
因此,在未來的數(shù)據(jù)處理中,能滿足瞬間反應(yīng)需要的5G通信技術(shù)將會成為主流。5G的優(yōu)勢不僅在于更高速的數(shù)據(jù)傳輸,還能減少網(wǎng)絡(luò)通信過程中的延遲問題。延遲是指獲取對發(fā)送的信息響應(yīng)所需的時間,因此5G可以實現(xiàn)過去4G網(wǎng)絡(luò)下無法實現(xiàn)的事情。比如,通過5G網(wǎng)絡(luò)連接機器人,便可以協(xié)調(diào)它們彼此間的工作,進一步優(yōu)化工業(yè)自動化水 平。
當人們身邊的一切都成了數(shù)據(jù)采集器時,可想而知,數(shù)據(jù)量也將面臨爆炸式的增長。依照當前的計算機處理能力,分析大量的數(shù)據(jù)還是得花上一定的時間。如果能在幾分鐘時間內(nèi)處理幾十億的數(shù)據(jù)量,便能為公司提供更快速及時的數(shù)據(jù)分析結(jié)果。
這樣的數(shù)據(jù)處理能力,只有通過量子計算機才能實現(xiàn),2019年也將是量子計算機正式走向商業(yè)化的一年。
量子計算機采用量子力學原理處理計算。傳統(tǒng)計算機中,數(shù)據(jù)存儲是以“比特”(byte)為單位。每個比特在特定時刻只有0或1中的一個狀態(tài)。而在量子計算中,數(shù)據(jù)以量子比特(qubit)的形式存儲,量子比特是0和1的疊加狀態(tài),也就是說,它既可以是0也可以是1。這就讓一個量子比特可以完成兩個比特才能完成的并行運算,讓量子的計算能力相比傳統(tǒng)計算機,以指數(shù)級別增長。
Google投資的量子計算機公司D-Wave的聯(lián)合創(chuàng)始人Eric Ladizinsky用了一種更通俗的比喻來解釋量子計算的原理。假設(shè)你被要求5分鐘內(nèi)在國家圖書館5000萬冊藏書中的其中一本書的某頁上找到一個大寫字母“X”,這根本就不能做到。但如果你處于5000萬個平行現(xiàn)實中,每個現(xiàn)實中的你會查看不同的書籍,某個現(xiàn)實中的你必然能找到這個“X”。普通計算機就是那個需要在5分鐘內(nèi)找遍盡可能多的書的你,而量子計算機能將你復制出5000萬個,每個同時翻找一本書。
這種超快的計算速度將徹底改變所有行業(yè)。以人工智能為例,人工智能在學習時需要依靠大量的數(shù)據(jù)和運算,量子計算可以解決訓練量和速度的問題,大大提高學習進程。
去年8月,摩根士丹利發(fā)布了一份32頁的報告,預(yù)測在接下來的10年內(nèi),量子計算機將對油氣、醫(yī)療、金融、航空、國防、人工智能等多個行業(yè)產(chǎn)生深遠影響,換句話說,量子計算機可以在任何依賴大數(shù)據(jù)的行業(yè)發(fā)揮作用。摩根士丹利預(yù)計,高端量子計算機的市值將從目前的50億美元增長到2025年的100億美 元。
那么,有了這么多數(shù)據(jù)到底有什么用?曾幫助Facebook建立更精確的數(shù)據(jù)分析系統(tǒng)的Jeffrey Hammerbacher在Facebook IPO時憤憤地說,“我這代人中最聰明的大腦都在思索如何讓人們點擊廣告。”沒錯,早期的數(shù)據(jù)應(yīng)用焦點幾乎都在廣告上,這主要也是因為對大數(shù)據(jù)研究最為成熟的技術(shù)巨頭,其商業(yè)模式大多是依賴廣告收入。
正如《經(jīng)濟學人》所指出的,目前全球最有價值的資源不是石油,而是數(shù)據(jù)。不論政府還是公司都不會輕易放棄對它的掌控。
當然數(shù)據(jù)應(yīng)用的潛力遠不止于廣告,以數(shù)據(jù)支持的商業(yè)決策也成為一種主流文化。
成立于2015年的Streetbees是一家利用大數(shù)據(jù)技術(shù)顛覆市場調(diào)研的創(chuàng)業(yè)公司。它的數(shù)據(jù)分析能給到企業(yè)客戶諸如“哪個項目最有可能達成”“推動銷售增長的核心因素是什么”“某產(chǎn)品是否可以進入一個新興市場”等具有戰(zhàn)略性的指導意見。
Streetbees的數(shù)據(jù)直接來自用戶個人上傳。用戶可以像在社交媒體上發(fā)布信息那樣在Streetbees的平臺上,以文字、圖片或是視頻的形式更新自己的日常狀態(tài),比方說一張吃早餐的圖片就包含了你在哪里吃早餐、選擇哪些早餐品牌等數(shù)據(jù),它們代表著消費者行為最真實的信息。
不過,大多數(shù)的公司都面臨著同樣的困境:如何把海量的、原始的、未經(jīng)整理的數(shù)據(jù)轉(zhuǎn)化成有價值的方案建議,指導商業(yè)行為。
“當前任何涉及數(shù)字化應(yīng)用的領(lǐng)域都需要數(shù)據(jù)的支持。盡管那些最耗時的數(shù)據(jù)收集工作已經(jīng)可以自動完成,但這還遠遠不夠,任何好的大數(shù)據(jù)分析工具最后都需要人性化的元素。數(shù)據(jù)的購物體驗就應(yīng)該像你在使用Spotify一樣,你輸入想要的內(nèi)容,它就能直接給你答案?!笔袌鲅芯抗綟orrester Research的首席研究員Michele Goetz對《第一財經(jīng)》雜志說。
如何簡化數(shù)據(jù)分析在商業(yè)應(yīng)用中的程序,讓它變得更直觀更可視化而且還必須支持自然語言,人工智能可以做到。大數(shù)據(jù)公司的競爭焦點也由數(shù)據(jù)整合和分析能力轉(zhuǎn)移到數(shù)據(jù)知識的呈現(xiàn),即以一種通俗易懂的形式來表達數(shù)據(jù)分析結(jié)果的價值,把數(shù)據(jù)翻譯成能直接被人理解的知識建議。
早在2014年,IBM就推出了基于云技術(shù)的自然語言人工智能數(shù)據(jù)分析服務(wù)Watson Analytics。企業(yè)客戶可以直接用自然語言發(fā)問,沃森就表現(xiàn)得像個專業(yè)的商業(yè)顧問一樣。在這個過程中,Watson Analytics能夠自動完成數(shù)據(jù)整理,分離出有用的數(shù)據(jù),分析得出要點和趨勢,并用可視化的形式表達出來。
Streetbees也開發(fā)了類似的人工智能產(chǎn)品。它能時刻分析處理用戶上傳的數(shù)據(jù),并總結(jié)出趨勢特征。當客戶有需要時,就可以直接以自然語言向數(shù)據(jù)庫提問,并獲得對應(yīng)的解答。
加入人工智能技術(shù)的服務(wù)調(diào)研正獲得越來越多大公司的青睞,Streetbees的客戶包括了聯(lián)合利華、百事、沃達豐、歐萊雅等大型跨國公司。去年,Streetbees還獲得了歐洲最大的技術(shù)風投公司Atomico領(lǐng)投的價值1200萬美元的A輪融 資。
“接下來就是要讓人工智能完成更為專業(yè)化、人性化的數(shù)據(jù)分析任務(wù)。比如可以總結(jié)一大段文字的核心要點,大量數(shù)據(jù)中反映出怎樣的趨勢,然后用一種講故事的方式呈現(xiàn)出來?!盨treetbees的創(chuàng)始人、公司CEO Tugce Bulut對《第一財經(jīng)》雜志說。Streetbees現(xiàn)在正在開發(fā)這種自動講故事的產(chǎn)品。
當然,沒有大量數(shù)據(jù)的支持,任何公司都無法完成對人工智能算法的訓練和提升。對于像Streetbees這樣的創(chuàng)業(yè)公司來說,很大一部分數(shù)據(jù)資源來自于公共數(shù)據(jù),包括政府、世界銀行和經(jīng)濟合作與發(fā)展組織的開放數(shù)據(jù)。Streetbees將公司總部設(shè)在英國,很大一部分原因也在于英國在開放數(shù)據(jù)方面的良好環(huán)境。
在萬維網(wǎng)基金會針對全球數(shù)據(jù)開放程度的國家排名中,英國與加拿大并列排名第一。
英國政府早在2010年就發(fā)表了開放數(shù)據(jù)政策,并上線了data.gov.uk網(wǎng)站。整個項目由萬維網(wǎng)的發(fā)明者Tim Berners-Lee負責?!拔覀兓ê艽蟮某杀窘M建政府公共數(shù)據(jù),如果就把它堆放在辦公室里,實在太浪費了?!盉ernersLee當時在接受BBC采訪時說。他的理想就是將數(shù)據(jù)作為一種公共資源來對待。data.gov.uk一共包括了10項服務(wù)類別,數(shù)據(jù)集從啟動時的2500個,增長至目前的4.5萬個。
交通部門在開放數(shù)據(jù)方面表現(xiàn)最好。倫敦交通局把時刻表、服務(wù)狀態(tài)、運行異常通告等對所有人免費公開,總共80個開放數(shù)據(jù)源都可以經(jīng)由統(tǒng)一的API接入,大大提高了第三方開發(fā)者使用這些數(shù)據(jù)的效率。倫敦交通局的數(shù)據(jù)顯示,目前有超過600個App都在使用這些開放數(shù)據(jù),其中也包括最受歡迎的地圖交通軟件Citymapper,它們?yōu)閭惗亟?jīng)濟貢獻了1.3億英鎊(約合11.3億元人民 幣)。
此外,英國也希望通過開放數(shù)據(jù)吸引一些新興技術(shù)到英國開發(fā)測試。2018年英國地形測量局公開地圖數(shù)據(jù),方便企業(yè)使用它的地理信息數(shù)據(jù),這些數(shù)據(jù)已經(jīng)用在了無人駕駛汽車的測試中。此外,使用地理信息數(shù)據(jù)來優(yōu)化定位追蹤技術(shù),對于引導公共交通、跟蹤供應(yīng)鏈、規(guī)劃貨運路線都有很大的幫 助。
盡管英國所有的政府公共部門都有自己的開放數(shù)據(jù)戰(zhàn)略,但每個部門所提供的數(shù)據(jù)質(zhì)量和開放程度參差不齊。比如一些數(shù)據(jù)會有缺失,政府開支的數(shù)據(jù)通常都是過期的—當開放數(shù)據(jù)有助于通過某項立法時,政府部門便會表現(xiàn)積極一些,否則便是敷衍的態(tài)度。
因此,在2017年12月,英國政府又針對開放數(shù)據(jù)提出了新的修改意見,明確規(guī)定哪些數(shù)據(jù)必須開放,以及如何保證開放數(shù)據(jù)便于人們使用。
“數(shù)據(jù)應(yīng)該以一種開放并且易于使用的形式存在,這樣第三方在使用數(shù)據(jù)時才能創(chuàng)造新的價值。僅僅開放數(shù)據(jù)是不夠的。數(shù)據(jù)的質(zhì)量以及獲取數(shù)據(jù)的便利性是開放數(shù)據(jù)下一階段的目標。”英國首相特雷莎·梅當時發(fā)表講話時說。
Bulut認為不應(yīng)該只是政府等公共部門具有開放數(shù)據(jù)的義務(wù),在保證數(shù)據(jù)匿名的前提下,那些社交媒體巨頭也應(yīng)該把它們的數(shù)據(jù)開放給所有人?!爸挥羞@樣才能實現(xiàn)用戶數(shù)據(jù)使用的全透明化,因為數(shù)據(jù)的最終所有權(quán)屬于每個人,而不是某個機構(gòu)或是大公司。”Bulut說。
在Streetbees,所有參與調(diào)研的用戶都能獲得獎勵,Streetbees把收入返還給真正為調(diào)查做貢獻的普通人的做法,也讓它和用戶之間的關(guān)系更透明,用戶可以隨時提供他們愿意分享的信息,他們也很清楚這些信息會用來做什么?!坝脩魧ψ约旱男畔⑷绾问褂猛耆?。這跟Facebook那種背著用戶把他們的喜好轉(zhuǎn)賣給第三方的做法是完全不同的?!盉ulut說。
去年3月,F(xiàn)acebook爆出數(shù)據(jù)泄露丑聞,驚醒了那些在數(shù)據(jù)經(jīng)濟下狂奔的人,用戶數(shù)據(jù)隱私的重要性被提到了一個前所未有的高度。兩個月后《通用數(shù)據(jù)保護條例》(GDPR)在歐盟正式生效,這項被稱為“史上最嚴數(shù)據(jù)法”最重要的原則之一是,有數(shù)據(jù)的地方就要有保護。
數(shù)據(jù)保護要由“屬地”轉(zhuǎn)向“屬人”。因而對于數(shù)據(jù)的保護也就不止于國界,任何企業(yè)只要在歐盟市場有業(yè)務(wù),涉及到收集用戶個人信息的,都要受到GDPR的監(jiān)管。
歐洲議會在2012年1月提出要改革歐盟數(shù)據(jù)保護法規(guī),2016年4月通過了GDPR,并給予企業(yè)兩年的過渡期調(diào)整。理論上來講,準備時間已足夠充裕??墒聦嵤牵贔acebook出事之前,根本沒有人把它當回事,就在GDPR正式生效前4個月,還有1/4的企業(yè)從沒聽說過GDPR。
“很少有公司能1 0 0%執(zhí)行新規(guī)?!盪nited Lex的首席隱私官Jason Straight對《第一財經(jīng)》雜志說,他所在的公司負責為企業(yè)客戶制定遵守GDPR法案的具體章程。
根據(jù)GDPR的規(guī)定,出現(xiàn)數(shù)據(jù)泄露問題的企業(yè)必須在72小時之內(nèi)向執(zhí)法機構(gòu)匯報,用戶個人數(shù)據(jù)是如何被收集和使用的、目的是什么,企業(yè)必須完全透明地向用戶解釋清楚?!昂荛L時間以來,企業(yè)的做法都是先想盡辦法從用戶那里騙來數(shù)據(jù),然后再考慮怎么利用它們,而在GDPR下,這種方式就行不通了?!盨traight說。
“你瘋了嗎?如果告訴用戶我們是如何使用他們的數(shù)據(jù),他們肯定不愿意把數(shù)據(jù)給我們了。”這是Straight聽到的很多企業(yè)客戶的反應(yīng)。而GDPR就是要消滅這一點。
更令這些企業(yè)恐懼的一條規(guī)定是所謂的“數(shù)據(jù)獲取需求”,歐盟成員國的公民有權(quán)要求瀏覽由企業(yè)收集的個人信息資料,這些用戶—在GDPR的規(guī)定中他們被稱為“數(shù)據(jù)主體”(Data Subject)—可以要求刪除、修改數(shù)據(jù),甚至讓公司以任何形式寄送一份詳細的數(shù)據(jù)資料以供閱覽。要知道,這些數(shù)據(jù)很有可能分布在多個不同的服務(wù)器上,其格式種類更是多到數(shù)不清,有些公司可能自己都未必知道所有數(shù)據(jù)的去 向。
GDPR還提出了一項頗具創(chuàng)新性的權(quán)利,即用戶擁有“數(shù)據(jù)的可攜權(quán)”,它不僅賦予用戶取得個人數(shù)據(jù)的權(quán)利,還賦予用戶傳輸該數(shù)據(jù)的權(quán)利。舉例來說,用戶可以要求Facebook將自己所有的個人數(shù)據(jù)打包成Twitter、LinkedIn或是微博都能使用的格式,并能傳輸?shù)狡渌脚_繼續(xù)使用。
所以要做到真正執(zhí)行GDPR,企業(yè)需要重新設(shè)立和規(guī)劃自己的內(nèi)部組織架構(gòu),以便在用戶提出類似的需求時能及時反饋。
有批評人士認為,歐盟推出如此嚴格的數(shù)據(jù)保護法令,將有可能限制數(shù)據(jù)產(chǎn)業(yè)以及整個互聯(lián)網(wǎng)行業(yè)的發(fā)展。為了合規(guī),企業(yè)必須投入相當大的一筆成本,這也不利于中小企業(yè)的發(fā)展。而對于大公司來說,為了避免觸犯GDPR,很有可能出現(xiàn)的趨勢是限制與第三方平臺分享用戶數(shù)據(jù),轉(zhuǎn)而利用數(shù)據(jù)自己做新產(chǎn) 品。
就連政府在開放數(shù)據(jù)上的態(tài)度也因敏感的數(shù)據(jù)隱私問題而變得保守起來。去年,英國開放數(shù)據(jù)的管理單位由數(shù)字服務(wù)部轉(zhuǎn)到了數(shù)字、文化、媒體和體育部,象征著政府希望對數(shù)據(jù)采取集中化管理;8月,英國財政部發(fā)布的一份報告指出,政府開始質(zhì)疑免費開放數(shù)據(jù)是否過于理想,以及這種做法有可能對安全、隱私造成的危害。
大數(shù)據(jù)所帶來的便利以及商業(yè)價值的發(fā)揮,離不開持續(xù)的數(shù)據(jù)供給,對于真正生產(chǎn)數(shù)據(jù)的用戶而言,把數(shù)據(jù)交給他人分析,又免不了擔心隱私的泄露。有關(guān)大數(shù)據(jù)的未來,也就存在于開放與隱私間的持續(xù)博弈。