大數(shù)據(jù)不僅僅是大量的數(shù)據(jù),也不僅僅是一些公司為了推銷產(chǎn)品而強(qiáng)調(diào)的異構(gòu)數(shù)據(jù)或者非結(jié)構(gòu)化數(shù)據(jù),而是具有了以往數(shù)據(jù)中難以具備的多維度和完備性等特點(diǎn),更重要的是它是一種新的思維方式、一種新的方法論。現(xiàn)在大數(shù)據(jù)炙手可熱的原因不僅是各行各業(yè)都可以通過對(duì)數(shù)據(jù)的分析極大地提升自身的業(yè)務(wù),更重要的是它將帶來(lái)機(jī)器智能的全面革命,并且最終改變世界的產(chǎn)業(yè)格局和社會(huì)生活。從數(shù)據(jù)驅(qū)動(dòng)的時(shí)代開始,計(jì)算機(jī)領(lǐng)域的科學(xué)家和工程師已經(jīng)意識(shí)到,讓機(jī)器具有所謂的智能需要,走一條和人的認(rèn)知方法完全不同的道路,這就是發(fā)揮計(jì)算機(jī)在計(jì)算和存儲(chǔ)方面的特長(zhǎng),利用大數(shù)據(jù)的完備性,發(fā)現(xiàn)人難以發(fā)現(xiàn)的規(guī)律,得到傳統(tǒng)方式無(wú)法得到的結(jié)果,從而在某些方面超越人的智力。
概括起來(lái),如今從學(xué)術(shù)界到工業(yè)界都意識(shí)到,實(shí)現(xiàn)機(jī)器智能需要 3 個(gè)支柱——摩爾定律、大數(shù)據(jù)、數(shù)學(xué)模型。摩爾定律的作用是保證計(jì)算機(jī)的計(jì)算能力和存儲(chǔ)能力能夠適應(yīng)解決復(fù)雜智能問題的需求;大數(shù)據(jù)的多維度和完備性特點(diǎn)是保證智能性問題能夠找到答案的關(guān)鍵;數(shù)學(xué)模型則是將現(xiàn)實(shí)生活中的問題轉(zhuǎn)化成計(jì)算的橋梁。
實(shí)現(xiàn)大數(shù)據(jù)的應(yīng)用和機(jī)器智能涉及很多關(guān)鍵技術(shù),涵蓋了計(jì)算機(jī)科學(xué)、電機(jī)工程、通信、應(yīng)用數(shù)學(xué)和認(rèn)知科學(xué)等許多方面。
數(shù)據(jù)的收集是關(guān)鍵
大數(shù)據(jù)離不開數(shù)據(jù),而數(shù)據(jù)的收集非常關(guān)鍵。與傳統(tǒng)的利用采樣收集數(shù)據(jù)不同,大數(shù)據(jù)需要全面地、在無(wú)意間收集各種可能有用的數(shù)據(jù)。強(qiáng)調(diào)“無(wú)意間”是因?yàn)橛袝r(shí)可以收集的數(shù)據(jù)會(huì)變形,不具有統(tǒng)計(jì)意義,關(guān)于央視收視率調(diào)查的例子就說(shuō)明了這個(gè)道理。雖然收集大量的數(shù)據(jù)并不難,但是收集全面卻不容易。在 Silver 所做的美國(guó)大選預(yù)測(cè)的例子中,準(zhǔn)確性來(lái)自于數(shù)據(jù)的全面性。下面用 Google 產(chǎn)品中另外一個(gè)例子來(lái)說(shuō)明收集完備的數(shù)據(jù)和大量的數(shù)據(jù)在難度上的區(qū)別。統(tǒng)計(jì)語(yǔ)言模型是語(yǔ)音識(shí)別、機(jī)器翻譯甚至輸入法的基礎(chǔ),而訓(xùn)練一個(gè)好的統(tǒng)計(jì)語(yǔ)言模型需要大量的數(shù)據(jù)。過去為了保證訓(xùn)練數(shù)據(jù)具有代表性,通常是從各種來(lái)源的文本數(shù)據(jù)中抽樣,湊足即可。這樣得到的模型是針對(duì)所有人的,當(dāng)然對(duì)于用詞非常怪異的人(小概率事件)來(lái)講,通用的模型就未必合適。在大數(shù)據(jù)時(shí)代,有可能為每一個(gè)用戶量身定做一個(gè)語(yǔ)言模型,這就要收集每一個(gè)用戶完備的輸入數(shù)據(jù),要做到這一點(diǎn)而不涉及用戶的隱私就有相當(dāng)大的難度。
在大數(shù)據(jù)時(shí)代,擁有數(shù)據(jù)就等于擁有了財(cái)富。2014 年初,Google 以 32 億美元的天價(jià)收購(gòu)幾乎沒有什么收入的智能空調(diào)控制器公司 Nest,這不是為了給家庭省一點(diǎn)電,而是通過 Nest 的產(chǎn)品收集人們?cè)诩一顒?dòng)的數(shù)據(jù),而這些數(shù)據(jù)采用傳統(tǒng)的數(shù)據(jù)采集方法是得不到的。
數(shù)據(jù)的存儲(chǔ)面臨挑戰(zhàn)
摩爾定律使存儲(chǔ)成本成倍下降,但是當(dāng)大數(shù)據(jù)出現(xiàn)后,數(shù)據(jù)量增長(zhǎng)的速度可能超過摩爾定律增長(zhǎng)的速度。例如,Google 眼鏡可能將人一輩子看到的事情全部記錄下來(lái),如果這件事做成了,會(huì)徹底改變?nèi)藗儗?duì)世界,甚至對(duì)自己人生的了解。但是,將這些視頻(包括音頻)數(shù)據(jù)都存下來(lái)不是一件容易的事情。對(duì)于擁有和使用大數(shù)據(jù)的公司,存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)中心就成了未來(lái)業(yè)務(wù)的關(guān)鍵點(diǎn)。如果這個(gè)點(diǎn)出了故障,如何保證業(yè)務(wù)的正常運(yùn)行就是一個(gè)挑戰(zhàn)。另外,在很多時(shí)候數(shù)據(jù)的存儲(chǔ)不僅僅是成本問題。處于保護(hù)隱私的考慮,很多與用戶相關(guān)的數(shù)據(jù)還不能集中存儲(chǔ),而是需要存在每一個(gè)人的智能終端上,這也給數(shù)據(jù)的存儲(chǔ)和使用帶來(lái)了挑戰(zhàn)。
對(duì)于互聯(lián)網(wǎng)的網(wǎng)頁(yè)數(shù)據(jù)、公司運(yùn)營(yíng)的日志數(shù)據(jù)、用戶使用互聯(lián)網(wǎng)習(xí)慣的數(shù)據(jù),雖然其數(shù)據(jù)量大,但是顆粒度都很小,因此它們的表示(描述)、檢索和隨機(jī)訪問并不是大問題。但是,對(duì)于富媒體數(shù)據(jù)(如視頻),要想隨機(jī)訪問其中一個(gè)畫面就不是一件容易的事情。還有很多比網(wǎng)絡(luò)富媒體顆粒度大得多的數(shù)據(jù),例如很多和醫(yī)療相關(guān)的數(shù)據(jù),一個(gè)基本單元就幾百兆甚至更多。目前,檢索一個(gè)詞組是件容易的事情,但是檢索一段基因就不容易。除了醫(yī)療,很多行業(yè)(如半導(dǎo)體設(shè)計(jì)、飛機(jī)設(shè)計(jì)制造)的數(shù)據(jù)量都很大。
過去,各個(gè)領(lǐng)域甚至各個(gè)公司會(huì)有自己的數(shù)據(jù)格式,它們只在自己的領(lǐng)域使用自己的數(shù)據(jù)。但是,到了大數(shù)據(jù)時(shí)代,希望通過數(shù)據(jù)之間的相關(guān)性尤其是大數(shù)據(jù)多維度的特性,找到各種事務(wù)之間的關(guān)聯(lián)。如果能夠?qū)⒚恳粋€(gè)用戶的飲食習(xí)慣收集起來(lái),通過可穿戴式設(shè)備了解他們的生活習(xí)慣,然后再與他們的醫(yī)療數(shù)據(jù)甚至是基因數(shù)據(jù)聯(lián)系起來(lái),就能研究出不同人、不同生活習(xí)慣下各種疾病的發(fā)病可能性,并且可以建議他們改進(jìn)飲食習(xí)慣,預(yù)防疾病。這個(gè)前景看起來(lái)很美好,但是要實(shí)現(xiàn)它就必須先解決數(shù)據(jù)的表示、檢索和隨機(jī)訪問等問題。顯然,對(duì)于世界上各種各樣的大數(shù)據(jù),無(wú)法用一個(gè)統(tǒng)一的格式來(lái)描述,但是需要一些標(biāo)準(zhǔn)的格式,以便于相互交換數(shù)據(jù)和使用數(shù)據(jù)。數(shù)據(jù)表示的另一個(gè)挑戰(zhàn)來(lái)自于數(shù)據(jù)保密和對(duì)隱私的訴求。很多時(shí)候,希望使用大數(shù)據(jù)的人,既能得到想要的統(tǒng)計(jì)規(guī)律,又無(wú)法看到數(shù)據(jù)的內(nèi)容。
學(xué)會(huì)從沙子里淘金
使用大數(shù)據(jù),相當(dāng)于在一堆沙子中淘金,不經(jīng)過處理的原始數(shù)據(jù)給不出新知識(shí),大數(shù)據(jù)能產(chǎn)生的效益在很大程度上取決于使用和挖掘數(shù)據(jù)的水平。在 Google,至少有四成的工程師每天在處理數(shù)據(jù)。大數(shù)據(jù)不同于過去為了某個(gè)特定目的獲取或者產(chǎn)生的數(shù)據(jù),在結(jié)構(gòu)和格式上比較規(guī)范,大數(shù)據(jù)的原始數(shù)據(jù)常常是雜亂無(wú)章的,因此從沙子里淘金的本領(lǐng)是使用大數(shù)據(jù)的必要條件。雖然問題的答案存在于網(wǎng)頁(yè)之中,但是答案的內(nèi)容通常是零碎地分布在不同網(wǎng)頁(yè)里,對(duì)網(wǎng)頁(yè)的結(jié)構(gòu)、內(nèi)容進(jìn)行分析就成為了使用大數(shù)據(jù)的先決條件。而對(duì)于文本大數(shù)據(jù)來(lái)說(shuō),自然語(yǔ)言理解技術(shù)是使用它們的前提。從紛雜的數(shù)據(jù)中獲取有用的信息,通常只是使用大數(shù)據(jù)實(shí)現(xiàn)機(jī)器智能的第一步,而接下來(lái)關(guān)鍵的一步就是機(jī)器學(xué)習(xí)。對(duì)于同樣的數(shù)據(jù)、同樣的算法,采用不同深度的機(jī)器學(xué)習(xí)方法得到的結(jié)果不同。Google 的Jeff Dean 等人采用大規(guī)模并行的人工神經(jīng)網(wǎng)絡(luò),對(duì)語(yǔ)音識(shí)別的參數(shù)重新訓(xùn)練,將識(shí)別的錯(cuò)誤率降低了 15%(相對(duì)值)。對(duì)于機(jī)器翻譯,效果同樣顯著。這說(shuō)明機(jī)器學(xué)習(xí)的重要性。
安全性和隱私性的維護(hù)
大數(shù)據(jù)由于數(shù)據(jù)量大而且完備,一旦丟失,損失將是巨大的,而一旦被盜取,后果更是不可想象。因此,大數(shù)據(jù)的安全性是 IT 領(lǐng)域新的挑戰(zhàn)。
大數(shù)據(jù)的完備性可以帶來(lái)很多好處,例如很多原本針對(duì)一個(gè)群體的產(chǎn)品和服務(wù)可以做到針對(duì)每一個(gè)人,但是同時(shí)也會(huì)帶來(lái)隱私的憂患。對(duì)隱私的保護(hù)不是僅在法律層面,而是指如何通過技術(shù)手段,使得在使用大數(shù)據(jù)時(shí)既能夠發(fā)揮它的功效,還能夠維護(hù)個(gè)人的隱私。
大數(shù)據(jù)使機(jī)器智能水平超過人成為可能
目前,機(jī)器智能做得最好的領(lǐng)域都有一個(gè)共同的特點(diǎn),就是找到了把實(shí)際問題變成計(jì)算的數(shù)學(xué)模型和智能算法。為了讓計(jì)算機(jī)發(fā)揮更大的作用,變得更加智能,需要在數(shù)學(xué)模型研究上進(jìn)行更大的投入,而這需要一個(gè)漫長(zhǎng)的技術(shù)積累,很難在一夜之間有突破,因此除了長(zhǎng)期堅(jiān)持研究,別無(wú)他法。
機(jī)器智能曾經(jīng)是無(wú)數(shù)代人的夢(mèng)想。在 1946 年人類制造出第一臺(tái)電子計(jì)算機(jī)以后,這個(gè)夢(mèng)想似乎離人們非常近了,但是直到上個(gè)世紀(jì)末,機(jī)器的智能水平還比較低。
主要有兩個(gè)原因:一是很多技術(shù)條件還不具備,機(jī)器智能的發(fā)展在整體上還處于早期階段;二是人們習(xí)慣于按照人的思維方式去要求機(jī)器,并且讓機(jī)器模擬人,導(dǎo)致走了很多彎路。但是,人類最終認(rèn)識(shí)到計(jì)算機(jī)實(shí)現(xiàn)智能和人采用的方法是完全不同的。經(jīng)過半個(gè)多世紀(jì)的摸索,人類找到了采用適合機(jī)器特長(zhǎng)的發(fā)展機(jī)器智能的方式。由于人類的智能水平在過去的幾千年里沒有太大的變化,但是機(jī)器的智能水平卻可以隨著摩爾定律呈指數(shù)增長(zhǎng),因此在某個(gè)時(shí)間點(diǎn),一定會(huì)出現(xiàn)機(jī)器在智能上超過人類的可能性,如今人們可能就處在這個(gè)轉(zhuǎn)折點(diǎn),而這一切在很大程度上是因?yàn)橛辛舜髷?shù)據(jù)。