• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)技術(shù)發(fā)展的十個(gè)前沿方向(下)

      2015-03-17 03:32:58吳甘沙
      大數(shù)據(jù) 2015年4期
      關(guān)鍵詞:機(jī)器可視化模型

      大數(shù)據(jù)技術(shù)發(fā)展的十個(gè)前沿方向(下)

      Ten Fronties for Big Data Technologies (Part C)

      吳甘沙,男,現(xiàn)任英特爾中國(guó)研究院院長(zhǎng)。2000年加入英特爾,先后在編程系統(tǒng)實(shí)驗(yàn)室與嵌入式軟件實(shí)驗(yàn)室承擔(dān)了技術(shù)與管理職位,期間參與或主持的研究項(xiàng)目有受控運(yùn)行時(shí)、XScale微架構(gòu)、眾核架構(gòu)、數(shù)據(jù)并行編程及高生產(chǎn)率嵌入設(shè)備驅(qū)動(dòng)程序開(kāi)發(fā)工具等。2011年晉升為首席工程師,共同領(lǐng)導(dǎo)了公司的大數(shù)據(jù)中長(zhǎng)期技術(shù)規(guī)劃,主持大數(shù)據(jù)方面的研究,工作重點(diǎn)為大數(shù)據(jù)內(nèi)存分析與數(shù)據(jù)貨幣化。在英特爾工作期間,發(fā)表了10余篇學(xué)術(shù)論文,有23項(xiàng)美國(guó)專利(10余項(xiàng)成為國(guó)際專利),14項(xiàng)專利進(jìn)入審核期。

      10 前沿方向八:精益求精,提升精度

      精度是衡量機(jī)器學(xué)習(xí)(人工智能)算法好壞的重要指標(biāo)。傳統(tǒng)上,精度概念包括正確率、識(shí)別率、召回率等。在大數(shù)據(jù)時(shí)代,精度被賦予了更多的含義。

      10.1 傳統(tǒng)機(jī)器學(xué)習(xí)的模型不適應(yīng)大數(shù)據(jù)

      首先是數(shù)據(jù)規(guī)模。傳統(tǒng)的機(jī)器學(xué)習(xí)模型無(wú)法支持超大規(guī)模的訓(xùn)練數(shù)據(jù)集,當(dāng)數(shù)據(jù)超過(guò)一定規(guī)模時(shí),傳統(tǒng)模型將面臨計(jì)算量爆炸和精度提升停滯兩大難題。關(guān)于計(jì)算量爆炸,通過(guò)分布式優(yōu)化的方式來(lái)加速計(jì)算(假設(shè)計(jì)算資源的擴(kuò)展能夠趕上計(jì)算量的增加)或者通過(guò)采樣、近似等方式減少計(jì)算量。關(guān)于后者,周志華老師在中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)學(xué)術(shù)會(huì)議上介紹了一個(gè)經(jīng)典的案例:很多機(jī)器學(xué)習(xí)算法采用AUC(area under ROC curve)作為評(píng)估函數(shù),但它需要做兩兩配對(duì)(pairwise)的計(jì)算,計(jì)算量大且數(shù)據(jù)無(wú)法裝入內(nèi)存,而采用了Least Square Loss函數(shù)進(jìn)行逼近后,極大地減少了計(jì)算復(fù)雜度。

      當(dāng)然,還有一種選擇是采用相對(duì)“簡(jiǎn)單”的模型。無(wú)論模型是簡(jiǎn)單還是復(fù)雜,必須具備高可變(high variance)的特性,這樣才能隨著數(shù)據(jù)量增大獲得精度提升。高可變的“簡(jiǎn)單”模型雖然計(jì)算復(fù)雜度不高,但多具有較大的特征空間,更多的數(shù)據(jù)能夠提升其收益。相比而言,“高偏差(high bias)”的簡(jiǎn)單模型不具有大數(shù)據(jù)帶來(lái)的邊際效益。

      其次是數(shù)據(jù)的復(fù)雜性和維度。高維和非結(jié)構(gòu)化數(shù)據(jù)(圖片、影音等)的爆發(fā)推動(dòng)了復(fù)雜模型的廣泛應(yīng)用。無(wú)參、非線性、生成性的復(fù)雜模型,能夠在數(shù)據(jù)量爆炸時(shí)得到可觀的性能提升。復(fù)雜模型的典型代表就是深度學(xué)習(xí),在實(shí)際應(yīng)用中,上百億參數(shù)、20多層的神經(jīng)網(wǎng)絡(luò)很常見(jiàn)。

      通過(guò)對(duì)多種簡(jiǎn)單模型的組合(ensemble)來(lái)獲得新的復(fù)雜模型,這種方式被證明是提升精度的有效方法。當(dāng)然,選擇簡(jiǎn)單模型組合時(shí)盡量要選擇相互間相關(guān)性弱的模型。另一種混合模型的方式是參數(shù)模型和無(wú)參模型的組合使用,可以有效處理大規(guī)模的高維度數(shù)據(jù),特別是在其不同維度的稀疏情況不一致時(shí)有奇效:參數(shù)模型用于小維度數(shù)據(jù),無(wú)參模型用于較大維度的數(shù)據(jù),兩者組合就可以有效地處理大規(guī)模、高維度的數(shù)據(jù)。同樣,線性模型和非線性模型也可以采用類似的方法進(jìn)行組合應(yīng)用。

      隨著數(shù)據(jù)規(guī)模和模型復(fù)雜度的同時(shí)增加,計(jì)算量急速增大,優(yōu)化算法的重要性也日益凸顯。在機(jī)器學(xué)習(xí)中,數(shù)據(jù)、模型以及優(yōu)化算法都會(huì)對(duì)最終結(jié)果產(chǎn)生重要影響。傳統(tǒng)上習(xí)慣用非常復(fù)雜的算法找到“最優(yōu)”的答案,但在近年的商業(yè)實(shí)踐中,“足夠好”的算法正逐漸成為主流。有時(shí)候模型組合可能會(huì)導(dǎo)致計(jì)算復(fù)雜度過(guò)高,而缺乏實(shí)用性。一個(gè)顯著的案例就是,Netflix因?yàn)閿?shù)據(jù)大賽獲獎(jiǎng)算法復(fù)雜度過(guò)高,所以未能將其投入實(shí)際應(yīng)用,而獲獎(jiǎng)算法恰恰是通過(guò)組合多種次優(yōu)算法的方式得到的。

      伴隨數(shù)據(jù)規(guī)模和數(shù)據(jù)維度的爆發(fā),需要探索新的機(jī)器學(xué)習(xí)算法,目標(biāo)是提升大數(shù)據(jù)時(shí)代下的機(jī)器學(xué)習(xí)應(yīng)用的邊際收益。

      10.2 傳統(tǒng)的機(jī)器學(xué)習(xí)忽略了數(shù)據(jù)的長(zhǎng)尾特征

      互聯(lián)網(wǎng)的核心價(jià)值是解決信息不對(duì)稱、交易成本苛刻和服務(wù)目標(biāo)覆蓋長(zhǎng)尾末端的特殊要求。傳統(tǒng)的機(jī)器學(xué)習(xí)方法,比如LDA做主題模型,只能發(fā)現(xiàn)高頻主題,因?yàn)榫哂兄笖?shù)分布的假設(shè),而指數(shù)分布“割掉”了長(zhǎng)尾,掩蓋了低頻的聲音和豐富的隱含語(yǔ)義。從互聯(lián)網(wǎng)經(jīng)濟(jì)大潮中成長(zhǎng)起來(lái)的大數(shù)據(jù)分析,必須發(fā)現(xiàn)長(zhǎng)尾人群的微弱聲音。因此,大數(shù)據(jù)分析的首要問(wèn)題就是優(yōu)化和強(qiáng)化長(zhǎng)尾效應(yīng)。在新的商業(yè)需求下,基于指數(shù)假設(shè)的機(jī)器學(xué)習(xí)模型(如PCA、LDA、pLSA等)需要演進(jìn),比如騰訊公司的Peacock改進(jìn)了LDA,以適應(yīng)百萬(wàn)級(jí)別的主題??傮w來(lái)說(shuō),改進(jìn)的辦法如下:基于更復(fù)雜的模型(如深度神經(jīng)網(wǎng)絡(luò)或Google Rephil這樣的深度有向無(wú)環(huán)圖模型)、模型的組合以及前文所述的混合模型,更好地探測(cè)數(shù)據(jù)中隱藏的信號(hào)。

      10.3 精度是一個(gè)動(dòng)態(tài)變量

      引用海森堡的測(cè)不準(zhǔn)理論,在大數(shù)據(jù)的世界里,觀測(cè)行為會(huì)引起被觀測(cè)現(xiàn)象的改變。很多大數(shù)據(jù)事實(shí)上也是測(cè)不準(zhǔn)的,比如Google流感的預(yù)測(cè),在2013年1月份,Google公司預(yù)計(jì)的流感情況遠(yuǎn)高于疾控中心實(shí)際測(cè)到的數(shù)目,所以《科學(xué)》和《自然》就對(duì)此發(fā)表了看法,《自然》認(rèn)為大數(shù)據(jù)測(cè)不準(zhǔn),《科學(xué)》說(shuō)這是大數(shù)據(jù)的傲慢。通常說(shuō)舍恩伯格的大數(shù)據(jù)三大理念:要全集不要采樣;擁抱混雜性、無(wú)需精確性;要相關(guān)性、不必有因果性。這些理念適合大方向思考,但是分析師不能把它們當(dāng)作絕對(duì)真理。在流感預(yù)測(cè)案例中,即使是Google公司也把握不到全量的數(shù)據(jù)??v然考慮了混雜性,Google公司融合了關(guān)鍵詞和疾控中心的數(shù)據(jù)來(lái)調(diào)整模型,數(shù)據(jù)還是不能足夠精確。

      雖然無(wú)法完全解決“測(cè)不準(zhǔn)”的問(wèn)題,機(jī)器學(xué)習(xí)算法仍然希望能盡快抓住客觀世界的快速變化。因此,在線學(xué)習(xí)和流式學(xué)習(xí)是大數(shù)據(jù)時(shí)代重要的辦法。大數(shù)據(jù)的早期表現(xiàn)形式是批處理或離線的數(shù)據(jù)處理,同樣,機(jī)器學(xué)習(xí)的主流方法也是離線訓(xùn)練、在線識(shí)別。當(dāng)機(jī)器學(xué)習(xí)與大數(shù)據(jù)相遇,訓(xùn)練出來(lái)的模型所逼近的是過(guò)去的世界,而無(wú)法感知世界最新的變化。因此,在線學(xué)習(xí)或基于增量數(shù)據(jù)的學(xué)習(xí)變得非常重要,一邊使用生產(chǎn)環(huán)境中的舊模型,一邊納入新的數(shù)據(jù)進(jìn)行增量訓(xùn)練,快速更新模型并且部署到生產(chǎn)環(huán)境,不停頓地完成訓(xùn)練—驗(yàn)證—識(shí)別—再訓(xùn)練的閉環(huán)。

      鑒于此,當(dāng)前企業(yè)紛紛從數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)為EDH(enterprise data hub)或DL(data lake)。因?yàn)閭鹘y(tǒng)數(shù)據(jù)倉(cāng)庫(kù)基于一個(gè)確定的問(wèn)題定義進(jìn)行數(shù)據(jù)的搜集和組織,并且把數(shù)據(jù)轉(zhuǎn)變成相應(yīng)的格式保存下來(lái)。一旦問(wèn)題發(fā)生變化,再對(duì)數(shù)據(jù)結(jié)構(gòu)做調(diào)整太困難、太昂貴。EDH是先把各種原始數(shù)據(jù)送進(jìn)來(lái),然后不斷地提問(wèn)題,相應(yīng)地改變數(shù)據(jù)表示;不停地嘗試更好的分析方法,相應(yīng)地改變數(shù)據(jù)結(jié)構(gòu)。

      關(guān)于模型的選擇,統(tǒng)計(jì)學(xué)大師George Box說(shuō):“所有模型都是錯(cuò)的,但是有些是有用的,關(guān)鍵是選擇什么樣的模型”。

      必須指出,大數(shù)據(jù)不是簡(jiǎn)單的體量大,它的另一個(gè)主要思想是采用多源數(shù)據(jù),在數(shù)據(jù)特征不多的前提下往往傳統(tǒng)的簡(jiǎn)單模型也非常有效。比如常見(jiàn)的流感預(yù)測(cè)或者票房預(yù)測(cè),簡(jiǎn)單的線性回歸模型就能工作得很好。貝葉斯模型在很多場(chǎng)景被廣泛地應(yīng)用?!缎盘?hào)與噪聲》的作者Nathan Silver多次成功地預(yù)測(cè)美國(guó)大選結(jié)果、奧斯卡獲獎(jiǎng)?wù)?,就是把貝葉斯模型用到了極致,證明了傳統(tǒng)技術(shù)在大數(shù)據(jù)時(shí)代還有用武之地。

      Isaiah Berlin有個(gè)比喻,有一種人是刺猬,一招鮮吃遍天,還有一種人是狐貍,一把鑰匙開(kāi)一把鎖,以更開(kāi)放的態(tài)度處理分析,選擇最合適的模型。在更多的大數(shù)據(jù)場(chǎng)景中,還是需要根據(jù)問(wèn)題選擇合適的模型和方法。

      模型的復(fù)雜度必須與問(wèn)題匹配。這就是所謂的奧卡姆剃刀原理,當(dāng)有多種模型能解釋數(shù)據(jù)時(shí),選擇最簡(jiǎn)單的一個(gè)。如前所述,當(dāng)數(shù)據(jù)量較小時(shí),模型不能過(guò)于復(fù)雜,尤其是當(dāng)模型的特征空間跟訓(xùn)練集規(guī)模相仿時(shí),容易形成過(guò)擬合。另一方面,如果數(shù)據(jù)已經(jīng)非常大,而模型過(guò)于簡(jiǎn)單,那么增加的數(shù)據(jù)量就無(wú)法帶來(lái)效益的提升。

      最后,把分析工作推向社會(huì)分工是獲得更高精度的方法。如社會(huì)化分析平臺(tái)Kaggle通過(guò)競(jìng)賽和眾包的方式與數(shù)十萬(wàn)人的參與,往往能夠獲得最佳的模型。為了支持大規(guī)模的協(xié)作分析,學(xué)術(shù)界在基礎(chǔ)設(shè)施上已經(jīng)有所創(chuàng)新。比如DataHub加入了數(shù)據(jù)的版本控制和多語(yǔ)言支持,美國(guó)加州大學(xué)伯克利分校教授Joe Hellerstein最近提出,需要一個(gè)開(kāi)放和廠商中立的元數(shù)據(jù)服務(wù),從而提供跨組織邊界協(xié)作分析的生產(chǎn)力。

      11 前沿方向九:人機(jī)的角色變化

      在機(jī)器學(xué)習(xí)/人工智能發(fā)展歷程中,人機(jī)角色分工一直朝著使機(jī)器更加容易使用、更加廣泛應(yīng)用的目的發(fā)展前進(jìn),進(jìn)而把稀缺的專業(yè)技能變?yōu)榇蟊娖占暗幕A(chǔ)服務(wù)。

      11.1 機(jī)器所承擔(dān)角色的提升

      computer這個(gè)詞最早出現(xiàn)在19世紀(jì)末的哈佛天文臺(tái),指一些負(fù)責(zé)精細(xì)計(jì)算的人,而現(xiàn)在這個(gè)概念已經(jīng)被機(jī)器——計(jì)算機(jī)取代。人跟機(jī)器的關(guān)系一直在此消彼長(zhǎng),越來(lái)越多的人的職責(zé)和能力范圍的任務(wù)開(kāi)始由機(jī)器完成。傳統(tǒng)意義上的數(shù)據(jù)分析流程,往往基于預(yù)先給定的假設(shè)和模型,由此出發(fā)采集數(shù)據(jù)樣本、細(xì)化模型,再用測(cè)試樣本進(jìn)行驗(yàn)證,然后修正假設(shè)模型,重新開(kāi)始循環(huán)。數(shù)據(jù)分析應(yīng)用的成功與否,常常依賴于預(yù)定的假設(shè)模型,依賴于人。而在大數(shù)據(jù)場(chǎng)景下,數(shù)據(jù)是全集的或者接近全集的,預(yù)先的假設(shè)模型的作用被極大弱化甚至消失;相反,在全集數(shù)據(jù)中通過(guò)機(jī)械的數(shù)據(jù)挖掘窮舉所有數(shù)據(jù)相關(guān)性,用相關(guān)性來(lái)取代主觀假設(shè)。理想情況下,數(shù)據(jù)自己找到線索,相關(guān)性主動(dòng)找到應(yīng)用。

      傳統(tǒng)意義上的機(jī)器學(xué)習(xí)模型擅長(zhǎng)做結(jié)構(gòu)化的數(shù)據(jù)分析,做語(yǔ)義分析的案例很少。大數(shù)據(jù)分析能夠超越抽象語(yǔ)義的限制?!赌颍∕oneyball)》是數(shù)據(jù)分析與體育(棒球)跨界融合的典型案例,其宣揚(yáng)的理念是可以用很低的成本找到最合適的隊(duì)員,獲得很高的勝率。然而真實(shí)故事里有“不足為外人道”之處,他們花了更多的錢來(lái)請(qǐng)高水平球探,對(duì)球員的心理能力(如抗壓能力和意志力水平)做評(píng)估,而這些屬性是客觀數(shù)據(jù)無(wú)法描述的。這些“球探”代表了超越計(jì)算機(jī)的領(lǐng)域?qū)I(yè)知識(shí)。現(xiàn)在機(jī)器語(yǔ)義分析能力增強(qiáng),能夠部分取代人的經(jīng)驗(yàn)推理。

      傳統(tǒng)上的數(shù)據(jù)分析和可視化非常依賴分析專家的個(gè)人天賦和職業(yè)技能,只有少數(shù)數(shù)據(jù)科學(xué)家可以直觀展示出大量數(shù)據(jù)中蘊(yùn)含的各種規(guī)律。而領(lǐng)域?qū)<液推胀夹g(shù)人員常常對(duì)錯(cuò)綜復(fù)雜的數(shù)據(jù)束手無(wú)策。最新發(fā)展趨勢(shì)是機(jī)器降低人的專業(yè)能力門檻的要求。比如MLBase[28]可以自動(dòng)地找到最好的機(jī)器學(xué)習(xí)模型,VizDeck[29]則通過(guò)機(jī)器學(xué)習(xí)找到最好的可視化方式,Scorpion[30]通過(guò)可視化自動(dòng)找出數(shù)據(jù)中的outliers,并且推知導(dǎo)致outliers的數(shù)據(jù)記錄。

      隨著工具變得更為人性化,普通從業(yè)人員能夠更好地從數(shù)據(jù)中提取價(jià)值。以數(shù)據(jù)可視化為例,出現(xiàn)了很多可視化的工具、庫(kù)和框架,能夠幫助用戶專注于數(shù)據(jù)理解本身,輕松對(duì)各類數(shù)據(jù)(包括文本、網(wǎng)絡(luò)/圖數(shù)據(jù)、時(shí)空數(shù)據(jù)和多維數(shù)據(jù))進(jìn)行表現(xiàn)手段豐富的可視化。幫助用戶關(guān)注數(shù)據(jù)的內(nèi)容而擺脫手段的羈絆。同時(shí),數(shù)據(jù)可視化也從靜態(tài)展示發(fā)展成動(dòng)態(tài)交互過(guò)程。一次可視化從對(duì)單一視圖的展示發(fā)展成對(duì)新問(wèn)題的探索過(guò)程,形成新的領(lǐng)域——可視化分析,這歸功于實(shí)時(shí)可視化技術(shù)的發(fā)展。在可視化的界面、交互組件的設(shè)計(jì)上越來(lái)越人性化,實(shí)時(shí)地、自然地實(shí)現(xiàn)多側(cè)面、多分辨率和多焦點(diǎn)的交互。在一些商業(yè)領(lǐng)域的決策過(guò)程中通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)了數(shù)據(jù)可視化、決策討論、動(dòng)作發(fā)生、再可視化的閉環(huán)式應(yīng)用。

      工具對(duì)人的增強(qiáng)更多體現(xiàn)在基礎(chǔ)設(shè)施層面,尤其是基礎(chǔ)設(shè)施的社會(huì)化對(duì)大數(shù)據(jù)的普及起到了關(guān)鍵的作用。目前,Apache Hadoop的生態(tài)環(huán)境日趨復(fù)雜(由于各個(gè)不同組件往往用動(dòng)物作為吉祥物,業(yè)內(nèi)把Hadoop生態(tài)戲稱為動(dòng)物園),大數(shù)據(jù)基礎(chǔ)環(huán)境部署的困難常常為人詬病。云計(jì)算把數(shù)據(jù)存儲(chǔ)、計(jì)算甚至是機(jī)器學(xué)習(xí)的流水線做成了公共基礎(chǔ)設(shè)施,而創(chuàng)業(yè)公司可以不懂分布式計(jì)算、容錯(cuò)、Hadoop或Spark,只要具有數(shù)據(jù)思維,就可以利用云上的基礎(chǔ)設(shè)施完成數(shù)據(jù)應(yīng)用的創(chuàng)新。一些很有創(chuàng)意的創(chuàng)業(yè)公司(如Decide.com、Prismatic)開(kāi)始由幾個(gè)算法工程師組建而成,而基礎(chǔ)設(shè)施的事情Amazon公司替他們解決了。Spark的商業(yè)化領(lǐng)導(dǎo)者Databricks的愿景是讓小數(shù)據(jù)的使用者很容易切換到大數(shù)據(jù),Databricks Cloud正是其實(shí)現(xiàn)戰(zhàn)略意圖的核心。

      11.2 人在機(jī)器學(xué)習(xí)過(guò)程中的作用

      人本來(lái)是機(jī)器學(xué)習(xí)中最重要的角色。

      機(jī)器學(xué)習(xí)首先需要高質(zhì)量的數(shù)據(jù)標(biāo)記,特別是對(duì)于監(jiān)督學(xué)習(xí),其學(xué)習(xí)的基礎(chǔ)是高質(zhì)量的標(biāo)記數(shù)據(jù)。在機(jī)器學(xué)習(xí)這個(gè)領(lǐng)域,好的標(biāo)記數(shù)據(jù)集能夠極大地推動(dòng)研究的整體進(jìn)展,比如當(dāng)前計(jì)算機(jī)視覺(jué)的研究受益于ImageNet。高質(zhì)量的數(shù)據(jù)標(biāo)記需要大量的人力,有時(shí)甚至是專業(yè)人士。以前的做法是外包至低成本國(guó)家,而現(xiàn)在眾包(比如土耳其機(jī)器人)成為更通用的做法。有一些眾包平臺(tái)開(kāi)始考慮游戲化機(jī)制,比如ESP Game讓人們邊玩游戲邊完成對(duì)圖像的標(biāo)記。

      無(wú)論是外包還是眾包,仍然需要人來(lái)做。但是一些新的機(jī)器學(xué)習(xí)方法減少了對(duì)數(shù)據(jù)標(biāo)記的依賴,從而弱化了人的初始作用。深度學(xué)習(xí)讓無(wú)監(jiān)督學(xué)習(xí)得到了更多的重視,因?yàn)樗恍枰獦?biāo)記數(shù)據(jù);半監(jiān)督學(xué)習(xí)在過(guò)去幾年中有了長(zhǎng)足的發(fā)展,它結(jié)合了少量的標(biāo)記數(shù)據(jù)和較多的無(wú)標(biāo)記數(shù)據(jù);轉(zhuǎn)移學(xué)習(xí)(transfer learning)采用了舉一反三的思想,為另一個(gè)目的而標(biāo)記的數(shù)據(jù)可以轉(zhuǎn)而用于這個(gè)目的,從而彌補(bǔ)相關(guān)標(biāo)記數(shù)據(jù)的不足。

      特征工程(feature engineering)是機(jī)器學(xué)習(xí)中另一個(gè)需要大量專業(yè)人力的環(huán)節(jié)。往往模型工作好與壞的關(guān)鍵在于特征的選取,而人的經(jīng)驗(yàn)非常重要,尤其是一些好的特征(golden feature)依賴于領(lǐng)域知識(shí)。所以,一支特征工程團(tuán)隊(duì)在項(xiàng)目的早期階段有很好的效益,但是長(zhǎng)期的邊際效應(yīng)越來(lái)越趨向于零。現(xiàn)在自動(dòng)化特征抽取得到了長(zhǎng)足的進(jìn)步,非監(jiān)督學(xué)習(xí)具有自動(dòng)學(xué)習(xí)特征的能力。在信息維度異常豐富的數(shù)據(jù)中,可能具備幾十億、幾百億的特征,這是人力窮舉無(wú)法完成的。深度學(xué)習(xí)很好地解決了這個(gè)問(wèn)題,它的非監(jiān)督學(xué)習(xí)能夠逐層提取巨量的特征。有意思的是,這些特征不只是用于深度的神經(jīng)元網(wǎng)絡(luò),還能夠作為淺層學(xué)習(xí)的特征。

      機(jī)器學(xué)習(xí)工具越來(lái)越易于使用,參與數(shù)據(jù)分析的人不再是傳統(tǒng)意義上的專業(yè)數(shù)據(jù)科學(xué)家、工程師。非專業(yè)人士、領(lǐng)域?qū)<以絹?lái)越能夠成為數(shù)據(jù)分析的主宰者、數(shù)據(jù)價(jià)值的提取者。傳統(tǒng)機(jī)器學(xué)習(xí)里面的很多“黑魔法”開(kāi)始被標(biāo)準(zhǔn)化、具備高易用性的工具取代。而工具發(fā)展的趨勢(shì)是機(jī)器學(xué)習(xí)全流水線。scikit-learn最早做了有益的嘗試,通過(guò)簡(jiǎn)單的腳本在一個(gè)分析環(huán)境中完成端到端的所有工作。后來(lái)Spark等主流平臺(tái)跟進(jìn),并且引入了一些新的非常有效的工具,如KeystoneML語(yǔ)言標(biāo)準(zhǔn)化對(duì)多種數(shù)據(jù)類型的處理,Volex對(duì)模型的迭代和生命周期進(jìn)行管理。

      11.3 人仍在閉環(huán)中(human in the loop)

      雖然看到了機(jī)器角色的增強(qiáng)和人作用的弱化,但是相信在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),人仍將在整個(gè)分析閉環(huán)中起到重要的作用。

      比如,在數(shù)據(jù)準(zhǔn)備(清洗、治理)階段,人的作用是不可或缺的?,F(xiàn)在的很多工具都在如何引入人的干預(yù)上做創(chuàng)新,從而保證數(shù)據(jù)準(zhǔn)備的目的是準(zhǔn)確的,清洗的程度是合適的,數(shù)據(jù)表示是符合未來(lái)的分析的。

      又如,現(xiàn)在雖然可以使用機(jī)械的方法發(fā)現(xiàn)海量數(shù)據(jù)中的相關(guān)性,但在無(wú)數(shù)的相關(guān)性中發(fā)現(xiàn)真正的線索,就需要數(shù)據(jù)分析師的直覺(jué)。直覺(jué)就是在潛意識(shí)里自動(dòng)完成的邏輯推理。怎么訓(xùn)練直覺(jué)?可以通過(guò)學(xué)習(xí)大量偵探小說(shuō)和懸疑小說(shuō)里面的推理過(guò)程。這樣的推理過(guò)程不只是建立模型,還需要數(shù)據(jù),則需要很多先驗(yàn)的知識(shí)。這些知識(shí)怎么來(lái)?可以通過(guò)廣泛的閱讀,跨界思想的碰撞,還需要獲得上下文的知識(shí),將其融入業(yè)務(wù)應(yīng)用中。數(shù)據(jù)分析師深入業(yè)務(wù)部門,和業(yè)務(wù)人員融入到一起,這才能防止數(shù)據(jù)采集和分析脫鉤、數(shù)據(jù)分析和業(yè)務(wù)應(yīng)用脫節(jié),這些過(guò)程不能用機(jī)器實(shí)現(xiàn)。美國(guó)加州大學(xué)伯克利分校教授郁彬認(rèn)為數(shù)據(jù)科學(xué)是SDC3(statistics、domain knowledge、computing、collaboration、communication),這里說(shuō)的正是D和后兩個(gè)C。此外,communication還反映在分析結(jié)果的藝術(shù)化展現(xiàn)和精彩的故事講述將使分析事半功倍。現(xiàn)在分析師所學(xué)的內(nèi)容要從STEM到STEAM,STEM是科學(xué)(science)、技術(shù)(technology)、工程(engineering)、數(shù)學(xué)(mathematics),STEAM多出的“A”是藝術(shù)(art),這一點(diǎn)上機(jī)器短期內(nèi)很難取代人。另外,藝術(shù)不只是這種優(yōu)雅美觀的可視化,還有一個(gè)很重要的就是講故事,有了分析結(jié)果之后怎么用更具親和力的方式表達(dá)出來(lái)。比如啤酒加尿布的故事,就符合了講故事的3D:戲劇性(drama)、細(xì)節(jié)(detail)、參與這個(gè)對(duì)話的感覺(jué)(dialogue)。雖然這個(gè)案例是編纂的故事,但是它的易傳播性和啟發(fā)性使得更多人愿意去投入數(shù)據(jù)分析。前文所述《魔球》也是這樣,對(duì)故事做適當(dāng)?shù)募庸?,用一個(gè)精彩的、抑揚(yáng)起伏的故事講述數(shù)據(jù)分析怎么改變棒球運(yùn)動(dòng)。這種源于生活、高于生活的拔高是機(jī)器望塵莫及的。

      另外,人的大規(guī)模協(xié)作分析或人類計(jì)算(human computing),能夠完成大量機(jī)器所不能完成的任務(wù)。

      · 在數(shù)據(jù)庫(kù)里有個(gè)所謂DB-hard的問(wèn)題,即自然語(yǔ)言表述的不唯一性和歧義性給數(shù)據(jù)治理帶來(lái)了挑戰(zhàn),美國(guó)加州大學(xué)伯克利分校AMBLab的CrowdDB通過(guò)眾包解決了數(shù)據(jù)字段規(guī)范化的問(wèn)題。

      · 機(jī)器學(xué)習(xí)可以看作模型表示+評(píng)價(jià)函數(shù)+優(yōu)化方法,而優(yōu)化方法是尋找最佳模型的必要步驟。Kaggle將企業(yè)和科研中海量的數(shù)據(jù)分析問(wèn)題與其20萬(wàn)注冊(cè)數(shù)據(jù)分析師進(jìn)行對(duì)接,通過(guò)懸賞和海選的方法完成了優(yōu)化過(guò)程。

      · Duolingo[31]是另一個(gè)有趣的案例。如果Google翻譯是集中化的、權(quán)威數(shù)據(jù)主導(dǎo)的分析過(guò)程,Duolingo則是社會(huì)化、民主化、普通人主導(dǎo)的大規(guī)模協(xié)作翻譯過(guò)程,所獲得的效果甚至優(yōu)于Google翻譯。在Duolingo平臺(tái)上,用戶學(xué)習(xí)目標(biāo)語(yǔ)言過(guò)程中必須完成大量的翻譯題目,而這些題目來(lái)自互聯(lián)網(wǎng),因此其學(xué)習(xí)的過(guò)程同時(shí)也是對(duì)互聯(lián)網(wǎng)翻譯的過(guò)程,其驚人的規(guī)模效應(yīng)和積累效用從下例中可見(jiàn)一斑:100萬(wàn)用戶通過(guò)80 h的學(xué)習(xí)就能把整個(gè)維基百科從英語(yǔ)翻譯成為西班牙語(yǔ)。

      總之,human-in-the-loop machine learning或active learning已經(jīng)成為業(yè)界的一個(gè)熱點(diǎn)問(wèn)題。

      12 前沿方向十:智能之爭(zhēng)

      人工智能在近年成為流行詞匯,它代表著生物智能和機(jī)器智能的一種博弈。這個(gè)博弈的一邊是生物智能,生物智能擅長(zhǎng)的是模式匹配。人的認(rèn)知過(guò)程就是不停地進(jìn)行匹配、識(shí)別、聯(lián)想,從記憶中提取數(shù)據(jù)。而機(jī)器智能則是通過(guò)計(jì)算完成,大量的計(jì)算是機(jī)器擅長(zhǎng)的,比如在大的搜索空間尋找最優(yōu)解(國(guó)際象棋戰(zhàn)勝人類世界冠軍)、海量信息的檢索(沃森電腦在Jeopardy的知識(shí)問(wèn)答中戰(zhàn)勝人類)、從計(jì)算中總結(jié)隱藏的規(guī)律等。因此,人工智能也分成了幾個(gè)派別。

      第一個(gè)派別認(rèn)為機(jī)器智能并不一定要學(xué)習(xí)人的生物構(gòu)造,機(jī)器有機(jī)器的特點(diǎn)。他們經(jīng)常引用的一個(gè)例子是,當(dāng)萊特兄弟不試圖模仿鳥(niǎo)類的翅膀,而是開(kāi)始研究空氣動(dòng)力學(xué)的時(shí)候,人類才有了飛上藍(lán)天的機(jī)會(huì)。所以機(jī)器智能并不一定要學(xué)習(xí)生物智能,它可以通過(guò)更擅長(zhǎng)的計(jì)算、更完美的數(shù)學(xué)模型實(shí)現(xiàn)智能。這里有很多大師,如統(tǒng)計(jì)學(xué)大師Michael Jordan、老派的Peter Norvig、新派的邢波。Jordan認(rèn)為統(tǒng)計(jì)是大數(shù)據(jù)的基礎(chǔ),炒作那些沒(méi)有數(shù)學(xué)基礎(chǔ)的“新方法”將使大數(shù)據(jù)進(jìn)入“寒冬期”。

      第二個(gè)派別認(rèn)為必須要了解人腦是怎么工作的。通過(guò)各種各樣的腦計(jì)劃繪制出人腦的機(jī)理地圖,了解人們思維(mind)的工作方式,然后把計(jì)算架構(gòu)往上演進(jìn)。這個(gè)派別有很多生物學(xué)家,還有一些老派的科學(xué)家,如侯世達(dá)(《集異璧》作者)、彭羅斯(數(shù)學(xué)家,《皇帝的新腦》作者),還有一些民間代表,如雷·庫(kù)茲韋爾。

      第三個(gè)派別——計(jì)算智能(computational intelligence)方興未艾。計(jì)算智能是上述兩個(gè)派別之間的折中,他們認(rèn)為可以用生物認(rèn)識(shí)作為約束和啟發(fā),但還是以計(jì)算理論為基礎(chǔ)來(lái)實(shí)現(xiàn)智能,比如人工神經(jīng)網(wǎng)絡(luò)、演化計(jì)算、模糊邏輯、人工免疫系統(tǒng)和群體智能等。人工免疫系統(tǒng)[32]其實(shí)就是模仿人體內(nèi)的分布式免疫系統(tǒng),即不同位置的淋巴結(jié)能夠識(shí)別不同細(xì)菌病毒的特征,從而進(jìn)行分布式的殺滅?,F(xiàn)在主流的神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)科學(xué)家都屬于這一類。這里不得不提Palm Computer的創(chuàng)始人Jeff Hawkins,他雖然不是科班出身,但贊助和支持了很多有益的工作,他提出的HTM(hierarchical temporal memory)模型[33]得到了美國(guó)DARPA-Cortical Processor項(xiàng)目的支持。

      下面簡(jiǎn)略介紹一些現(xiàn)今國(guó)際上正在熱烈討論爭(zhēng)論的問(wèn)題。

      第一,深度學(xué)習(xí)是否有可能包打天下?樂(lè)觀者認(rèn)為深度學(xué)習(xí)能夠把所有的問(wèn)題都解決了。以卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)為代表的深度學(xué)習(xí)技術(shù)陸續(xù)在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和自然語(yǔ)言處理方面取得了突破。ImageNet取消object classification的比賽,標(biāo)志著視覺(jué)方面的飛躍;百度公司最新宣布基于LSTM(long short term memory)和CTC(connectionist temporal classification)的漢語(yǔ)語(yǔ)音識(shí)別在安靜環(huán)境下達(dá)到了97%的識(shí)別率;而在自然語(yǔ)言方面,深度學(xué)習(xí)開(kāi)始把問(wèn)答和自然語(yǔ)言對(duì)話系統(tǒng)作為下一個(gè)突破點(diǎn)。

      除了上述認(rèn)知計(jì)算領(lǐng)域的進(jìn)展,深度學(xué)習(xí)也開(kāi)始解決人類不能勝任的非認(rèn)知問(wèn)題,如百度公司用其提升搜索質(zhì)量、廣告推薦的質(zhì)量,取得了一定的效果。下一個(gè)有望受益于深度學(xué)習(xí)的是醫(yī)療健康領(lǐng)域,從醫(yī)學(xué)影像分析到藥物的研發(fā),都可望獲得突破??梢哉f(shuō),深度學(xué)習(xí)雖然一定程度上受到了過(guò)多的炒作,但其廣泛的應(yīng)用價(jià)值已經(jīng)確保人工智能的另一個(gè)冬天不會(huì)到來(lái)。

      但是質(zhì)疑者說(shuō)深度學(xué)習(xí)沒(méi)有一個(gè)理論基礎(chǔ),缺乏機(jī)器學(xué)習(xí)算法的可解釋性,是一些莫名其妙的手段的堆砌。包括Google公司自己發(fā)現(xiàn)深度學(xué)習(xí)可能存在一些內(nèi)在缺陷[34],比如兩張圖片人眼看起來(lái)是完全一模一樣的,其中有一些細(xì)微的像素差別,但是深度學(xué)習(xí)只能認(rèn)出一張,不能認(rèn)出另外一張。為此,現(xiàn)在深度學(xué)習(xí)的大師們正在試圖發(fā)展出一些理論,嘗試從計(jì)算理論、生物隱喻上解釋。比如Google公司的Geoffrey Hinton,提出了膠囊理論(capsules theory),模仿人類大腦中的皮質(zhì)柱,如果將人的大腦皮質(zhì)想象成一個(gè)有6層細(xì)胞厚度的皮層,它是由一個(gè)個(gè)圓柱體構(gòu)成的。他希望用這個(gè)隱喻來(lái)改進(jìn)深度學(xué)習(xí)每一層完全非結(jié)構(gòu)化的問(wèn)題,把每一層的神經(jīng)元進(jìn)行分組、功能化。另外,學(xué)術(shù)界開(kāi)始探討如何解決深度學(xué)習(xí)的知識(shí)表示問(wèn)題。

      第二,智能的未來(lái)是否一定就是類腦計(jì)算?目前這一領(lǐng)域的進(jìn)展主要在兩個(gè)方面:一方面是通過(guò)腦計(jì)劃繪制大腦的數(shù)字機(jī)理地圖,通過(guò)對(duì)思維的研究、對(duì)記憶的研究進(jìn)一步了解人腦工作機(jī)制;另一方面是人工神經(jīng)網(wǎng)絡(luò)和Sparse Coding等“大腦啟發(fā)計(jì)算(brain inspired computing)”技術(shù)的不斷改進(jìn)。比如反饋,人腦在從輸入到結(jié)果的過(guò)程中,前向連接是后向連接(從處理到輸入)的十分之一,也就意味著回路是前向連接的10倍之多。現(xiàn)在的人工神經(jīng)網(wǎng)絡(luò)還是前向多、回路少(即使有回路,如反向傳播算法,也只發(fā)生在訓(xùn)練階段)。另外,要增加時(shí)間因素。現(xiàn)在的很多人工神經(jīng)網(wǎng)絡(luò)沒(méi)有時(shí)間因素,但是人是不斷地在學(xué)習(xí),其所見(jiàn)所想是有時(shí)間因素的,因此需要在線學(xué)習(xí)能力的提升。

      第三,是否需要發(fā)明專為類腦計(jì)算的計(jì)算架構(gòu)。人工智能研究的先驅(qū)Hans Moravec曾經(jīng)提出Moravec Paradox:成年人才能做的高階任務(wù)(如推理和規(guī)劃),現(xiàn)有的計(jì)算架構(gòu)綽綽有余;而一兩歲孩童就運(yùn)用嫻熟的低階任務(wù)(如感知和協(xié)調(diào)運(yùn)動(dòng)),需要的計(jì)算能力遠(yuǎn)遠(yuǎn)超過(guò)了馮諾依曼架構(gòu)的能力。舉一個(gè)未必確切的比喻:天河2號(hào)1 800萬(wàn)瓦,5億億次(浮點(diǎn))計(jì)算每秒,而人腦據(jù)估計(jì)是10億億次操作每秒,只耗電20 W(每天只需100多毫克的葡萄糖)。因此,針對(duì)特定的負(fù)載,人們希望能夠?qū)崿F(xiàn)低功耗的具有識(shí)別、聯(lián)想、推理能力的新計(jì)算架構(gòu)。新的架構(gòu)也有不同路線:一類是傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的加速器,如中國(guó)科學(xué)院計(jì)算技術(shù)研究所的電腦、大電腦、普電腦,Yann LeCun的NeuFlow;另一類是更接近生物神經(jīng)網(wǎng)絡(luò)的處理器,被稱為神經(jīng)擬態(tài)(neuromorphic)架構(gòu),如IBM公司的TrueNorth、高通公司的Zeroth。前者的識(shí)別精度高,但沒(méi)有在線學(xué)習(xí)能力;后者目前精度低,但能夠在線學(xué)習(xí),也許未來(lái)有不錯(cuò)的前景。當(dāng)然,目前來(lái)說(shuō),所有這些架構(gòu)都面臨可編程性差的問(wèn)題,因此,在較近的一段時(shí)間內(nèi),F(xiàn)PGA、GPU和眾核可能是更實(shí)用的計(jì)算架構(gòu)。

      所有這些問(wèn)題是當(dāng)前在智能之爭(zhēng)上面討論的問(wèn)題。

      13 結(jié)束語(yǔ)

      目前來(lái)看,協(xié)作、開(kāi)放的計(jì)算機(jī)科學(xué)(collaborative open computer science)已成為當(dāng)今世界的主流。大數(shù)據(jù)在所有熱門技術(shù)中具有最開(kāi)放的技術(shù)生態(tài),開(kāi)源框架(如Theano、PyLearn2和Caffe)極大地加速了深度學(xué)習(xí)的普及,未來(lái)像GitXiv這樣集合GitHub(開(kāi)放源代碼)、arXiv(公開(kāi)研究方法)以及學(xué)術(shù)論壇的平臺(tái),將極大地促進(jìn)計(jì)算機(jī)科學(xué)的發(fā)展。

      英特爾公司一直在推動(dòng)開(kāi)放、協(xié)作的創(chuàng)新,資助、跟蹤大學(xué)的研究,注重在10個(gè)前沿方向推動(dòng)技術(shù)的發(fā)展。英特爾公司在全球范圍內(nèi)與大學(xué)有多個(gè)聯(lián)合研究項(xiàng)目,在美國(guó)有9個(gè)研究中心,世界范圍內(nèi)有多家(包括在中國(guó)與清華大學(xué)、東南大學(xué)和中國(guó)科學(xué)技術(shù)大學(xué)聯(lián)合建立的移動(dòng)網(wǎng)絡(luò)和計(jì)算英特爾協(xié)作創(chuàng)新中心,專注于5G網(wǎng)絡(luò)和計(jì)算研究)。其中,一些大數(shù)據(jù)研究中心取得了很好的成績(jī)。例如,卡內(nèi)基梅隆的云計(jì)算中心,Spark是該中心早期自主的項(xiàng)目(研究主體在美國(guó)伯克利),還貢獻(xiàn)了GraphLab、Petuum。在MIT的大數(shù)據(jù)中心的領(lǐng)導(dǎo)者之一就是新科圖靈獎(jiǎng)得主Michael Stonebraker,MIT中心的很多工作圍繞新一代的DBMS,如內(nèi)存數(shù)據(jù)庫(kù)H-Store、流數(shù)據(jù)庫(kù)S-Store、科學(xué)計(jì)算數(shù)據(jù)庫(kù)SciDB、原位計(jì)算可視化、支持協(xié)作分析的DataHub等。美國(guó)斯坦福的大數(shù)據(jù)中心主要做可視化,由Pat Hanrahan教授領(lǐng)導(dǎo),他是Tableau的創(chuàng)始人之一。還有,以色列的計(jì)算智能中心,對(duì)深度學(xué)習(xí)有很多貢獻(xiàn)。這些中心的很多工作已經(jīng)開(kāi)源。

      英特爾公司希望能夠通過(guò)這些協(xié)作研究,了解大數(shù)據(jù)發(fā)展的前沿。同時(shí),也能夠使英特爾的架構(gòu)更好地跟隨大數(shù)據(jù)算法和系統(tǒng)的發(fā)展。

      [28] Pan X H, Sparks E R, Wibisono A. MLbase: Distributed Machine Learning Made Easy. Dept. Computer Science, UC Berkeley, 2013

      [29] Key A, Howe B, Perry D,et al. Vizdeck: self-organizing dashboards for visual analytics. Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data, Scottsdale, USA, 2012

      [30] Wu E, Madden S. Scorpion: explaining away outliers in aggregate queries. Proceedings of the VLDB Endowment, 2013, 6(8)

      [31] Luis V A. Duolingo: learn a language for free while helping to translate the web. Proceedings of the 2013 International Conference on Intelligent User Interface, Santa Monica, USA, 2013

      [32] Hofmeyr S A, Forrest S A. Architecture for an artificial immune system. Evolutionary Computation, 2000, 8(4): 443~473

      [33] Hawkins J, George D. Hierarchical Temporal Memory Mdash; Concepts, Theory and Terminology. Numenta Inc, 2006

      [34] Szegedy C, Zaremba W, Sutskever I,et al. Intriguing properties of neural networks. Proceedings of International Conference on Learning Representations, Banff, Canada, 2014 □

      10.11959/j.issn.2096-0271.2015044

      猜你喜歡
      機(jī)器可視化模型
      一半模型
      基于CiteSpace的足三里穴研究可視化分析
      機(jī)器狗
      機(jī)器狗
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      重要模型『一線三等角』
      基于CGAL和OpenGL的海底地形三維可視化
      重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
      “融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
      未來(lái)機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      舞钢市| 杂多县| 鱼台县| 治多县| 太湖县| 阳曲县| 莫力| 涡阳县| 龙里县| 昌邑市| 宁南县| 上思县| 青州市| 岳西县| 绵阳市| 枞阳县| 石狮市| 九龙县| 宝鸡市| 雅安市| 赤水市| 黄石市| 邢台县| 南城县| 佛学| 靖宇县| 楚雄市| 吴旗县| 西乌珠穆沁旗| 台南市| 当雄县| 临邑县| 固镇县| 方山县| 杭州市| 景德镇市| 博爱县| 大竹县| 芦溪县| 西宁市| 方山县|