□文/袁曉雨、雷 濤
?
人工智能時代來臨
□文/袁曉雨、雷濤
人工智能是研究人類智能活動的規(guī)律,構(gòu)造具有一定智能的人工系統(tǒng),研究如何讓計算機去完成以往需要人的智力才能勝任的工作,也就是研究如何應(yīng)用計算機的軟硬件來模擬人類某些智能行為的基本理論、方法和技術(shù)。人們常常把人工智能與機器人、科幻小說聯(lián)系在一起,而機器人只是人工智能的容器,并不是必備載體。實際上,人工智能已在我們生活中隨處可見。
隨著互聯(lián)網(wǎng)的普及尤其是移動互聯(lián)網(wǎng)在近十年來的快速發(fā)展,人們的生活方式被極大改變,但當市場熱切期望移動互聯(lián)網(wǎng)能夠催生出更多新應(yīng)用和商業(yè)模式時,移動互聯(lián)網(wǎng)的發(fā)展卻由于技術(shù)水平的不足而遭遇瓶頸。如移動互聯(lián)網(wǎng)僅完成了人與人或人與信息的對接,卻無法提供精準服務(wù),生產(chǎn)、運輸、消費等各方面都面臨智能化程度不足帶來的障礙。
為突破瓶頸,新一輪技術(shù)風暴已經(jīng)誕生,未來數(shù)十年IT產(chǎn)業(yè)發(fā)展的焦點將是人工智能,因為只有人工智能才能夠為“萬物互聯(lián)”時代的一切應(yīng)用提供完美解決方案。人工智能將成為繼移動互聯(lián)網(wǎng)后的下一個爆點。
縱觀人工智能近百年的發(fā)展,從圖靈首次預(yù)言智能機器的可能性開始,人工智能經(jīng)歷兩次低谷、三次繁榮,兩次低谷或是由于當時的計算機內(nèi)存和處理速度不足以解決實際問題,或是由于人們對人工智能的發(fā)展方向的不確定而進入低谷,但最終人工智能依然被成功的應(yīng)用在技術(shù)產(chǎn)業(yè)中。2010年以來,隨著大數(shù)據(jù)、云計算、深度學(xué)習等基礎(chǔ)支撐技術(shù)能力的顯著提升,人類掌握了機器人時代的更多選擇權(quán),人工智能的發(fā)展已步入黃金時代。
首先,需對人工智能范疇做些明確。人們常常把人工智能與機器人、科幻小說聯(lián)系在一起,但實際上人工智能已在我們生活中隨處可見,而機器人只是人工智能的容器,并不是必備載體。比如Siri背后的軟件和數(shù)據(jù)是人工智能,Siri說話的聲音是人工智能的人格化體現(xiàn),但Siri本身并沒有機器人這個組成部分。
人工智能的概念很寬泛,按照人工智能的實力可分為以下三大類。一是弱人工智能。在特定領(lǐng)域等同或者超過人類智能或效率的機器智能。二是強人工智能。各方面都能和人類比肩的人工智能。三是超人工智能。在包括科學(xué)創(chuàng)新、通識和社交技能等各個領(lǐng)域都超越人類的人工智能。
人工智能的革命就是從弱人工智能,通過強人工智能,最終達到超人工智能的過程。目前人類生活中弱人工智能無處不在,比如Siri、垃圾郵件過濾器、谷歌翻譯、電商網(wǎng)站上的商品推送、谷歌無人駕駛汽車等。
表1 人工智能發(fā)展簡史資料來源:華安證券研究所
人腦與電腦的最大差別在于,一些我們認為困難的事情,如微積分、金融市場策略、翻譯等,對于電腦來說都十分容易;但一些人類認為容易的事情,如視覺、動態(tài)、移動、直覺,對于電腦來說卻是十分困難。而要達到人類級別的智能,電腦必須要理解更高深的東西,比如微小的臉部表情變化預(yù)示為什么喜歡這個而不喜歡那個,要達到這樣的水平首先在硬件方面要增加電腦處理速度,其次在軟件方面要讓電腦變得智能。
袁曉雨 華安證券TMT研究員
雷濤 華安證券TMT研究員
美國發(fā)明家、未來學(xué)家Kurzweil估算出人腦的運算能力是1016cps(calculations per second,每秒計算次數(shù),描述運算能力的單位),即1億億次計算每秒?,F(xiàn)在世界上最快的超級計算機,中國的天河二號,運行能力已達到3.4億億次,已經(jīng)超過人腦,但由于其成本高、規(guī)模大、功耗高,使其并不能被商業(yè)廣泛應(yīng)用。Kurzweil認為考慮電腦發(fā)展程度的標桿是指1000美元能買到多少cps,當1000美元能買到人腦級別的1億億運算能力的時候,強人工智能就成為生活的一部分。而目前1000美元能買到10萬億cps(人腦的千分之一),根據(jù)加速回報定律,科技的進步將呈指數(shù)型增長,按照這個速度,到2025 年1000美元就可以買到和人腦運算速度抗衡的電腦了。
軟件的創(chuàng)新和硬件的快速發(fā)展是同步的。人工智能就其本質(zhì)而言,是對人的意識、思維信息的過程模擬,有兩種方式可以實現(xiàn):一是結(jié)構(gòu)模擬,仿照人腦的結(jié)構(gòu)機制,制造出“類人腦”的機器;二是功能模擬,撇開人腦的內(nèi)部構(gòu)造,對其功能過程進行模擬。據(jù)統(tǒng)計人類中樞神經(jīng)系統(tǒng)中約含1000億個神經(jīng)元,每個神經(jīng)元平均有7000個突觸。IBM 在2014年8月發(fā)布名為“TrueNorth”的神經(jīng)元芯片,使用4096個內(nèi)核模擬超過百萬個人腦神經(jīng)元和2.56億個神經(jīng)突觸,其能力已相當于一臺超級計算機,但功耗卻只有65毫瓦。這是完全從底層模仿了人腦結(jié)構(gòu),并用普通的半導(dǎo)體材料制造出的類人腦芯片,被認為是計算機史上最偉大的發(fā)明之一。同樣以加速回報定律推算,指數(shù)級增長的開端或許比較漫長,但后期發(fā)展會比較顯著。
圖2 集成16塊TrueNorth芯片的電路板資料來源:互聯(lián)網(wǎng)、華安證券研究所
圖1 IBM研發(fā)的TrueNorth芯片資料來源:互聯(lián)網(wǎng)、華安證券研究所
深度學(xué)習帶來人工智能的正循環(huán)
深度學(xué)習(Deep Learning)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究,其動機在于建立、模擬人腦進行分析學(xué)習的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習采用的模型為深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)模型,即包含多個隱藏層(Hidden Layer)的神經(jīng)網(wǎng)絡(luò),利用模型中的隱藏層,通過特征組合的方式,逐層將原始輸入轉(zhuǎn)化為淺層特征、中層特征、高層特征直至最終的任務(wù)目標。通過深度學(xué)習可以完成需要高度抽象特征的人工智能任務(wù),如語音識別、圖像識別和檢索、自然語言理解等。
傳統(tǒng)機器學(xué)習通過標記數(shù)據(jù)和有監(jiān)督學(xué)習完成,這意味著如果想讓機器學(xué)會如何識別某一特定對象,就必須認為干預(yù)對樣本進行標注,那么隨著所需處理數(shù)據(jù)量的增大,外界對其支持和幫助也就更大,同時計算機結(jié)果的準確性也會受到影響。對于傳統(tǒng)算法,越來越多的數(shù)據(jù)將成為負擔,也容易達到極限或產(chǎn)生錯誤的結(jié)果。但深度學(xué)習是從未經(jīng)標記的數(shù)據(jù)展開學(xué)習,更接近人腦的學(xué)習方式,可以通過訓(xùn)練之后自行掌握概念,這將大幅提高計算機處理信息的效率,并且深度學(xué)習算法可以做到傳統(tǒng)人工智能算法無法做到的事情,而且輸出結(jié)果會隨著數(shù)據(jù)處理信息量的增大而更加準確。
人工智能在長達半個世紀的發(fā)展中并不順利,直到深度學(xué)習在近五年取得突破性進展,才將人工智能帶上一個新的臺階。目前深度學(xué)習在幾個主要領(lǐng)域都獲得了突破性的進展:在語音識別領(lǐng)域,深度學(xué)習用深層模型替換聲學(xué)模型中的混合高斯模型(GMM),獲得了相對30%左右的錯誤率降低;在圖像識別領(lǐng)域,通過構(gòu)造深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),將Top5錯誤率由26%大幅降低至15%,又通過加大加深網(wǎng)絡(luò)結(jié)構(gòu),進一步降低到11%;在自然語言處理領(lǐng)域,深度學(xué)習基本獲得了與其他方法水平相當?shù)慕Y(jié)果,但可以免去繁瑣的特征提取步驟。
圖3 深度學(xué)習模型資料來源:互聯(lián)網(wǎng)、華安證券研究所
大數(shù)據(jù)為人工智能訓(xùn)練提供資源積累
與人類學(xué)習思考的過程類似,機器學(xué)習也是在不斷學(xué)習和訓(xùn)練的過程中才能變得更加智能,大量原始數(shù)據(jù)則為機器學(xué)習提供訓(xùn)練素材,正是基于對數(shù)據(jù)的不斷挖掘和有效關(guān)聯(lián),機器才能形成新的認知。目前全球90%以上的數(shù)據(jù)都是在最近幾年產(chǎn)生的,尤其是隨著移動互聯(lián)網(wǎng)、移動終端和數(shù)據(jù)感應(yīng)器的出現(xiàn),全球數(shù)據(jù)以超出想象的速度在快速增長。在過去的幾年中,全球數(shù)據(jù)以年均58%的速度增長。根據(jù)IDC的預(yù)測,2020年全球數(shù)據(jù)總量將超過40ZB(1ZB等于1萬億GB),這一數(shù)據(jù)量是2011年的22倍,相當于人均將產(chǎn)生約5700GB數(shù)據(jù)。
表2 深度學(xué)習已成各方布局重點資料來源:華安證券研究所
圖4 全球數(shù)據(jù)總量將出現(xiàn)爆發(fā)式增長資料來源:華安證券研究所
成本低廉的并行計算助力人工智能
人類思考是一個并行的過程,數(shù)以億計的神經(jīng)元同時放電以創(chuàng)造出大腦皮層用于計算的同步腦電波,人工智能軟件搭建的類神經(jīng)網(wǎng)絡(luò)也需要許多不同的進程同步運行。神經(jīng)網(wǎng)絡(luò)的每一個節(jié)點都大致模擬了大腦中的一個神經(jīng)元,其與相鄰的節(jié)點互相作用,以明確所接收的信號。一項程序要理解某個口語單詞,就必須能夠聽清不同音節(jié)彼此之間的所有音素;要識別出某幅圖片,就需要看到其周圍像素環(huán)境內(nèi)的所有像素,這就是深層次的并行任務(wù)。但在GPU出現(xiàn)之前,標準計算機的處理器都僅能一次處理一項任務(wù)。
圖形處理單元(Graphic Processing Unit,GPU),與CPU功能類似,但GPU是專為執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計算而設(shè)計的,它可以滿足高密度的視覺以及并行需求,在這個過程中每秒鐘都有上百萬像素被多次重新計算。2005年,GPU芯片產(chǎn)量提升帶來并行計算價格大幅下降。2009年,計算機科學(xué)家吳恩達(Andrew Ng)首次提出可以將GPU芯片用于并行運行神經(jīng)網(wǎng)絡(luò)。這一發(fā)現(xiàn)使得神經(jīng)網(wǎng)絡(luò)能容納上億節(jié)點間的連接。傳統(tǒng)處理器需要數(shù)周才能計算出擁有1億節(jié)點的神經(jīng)網(wǎng)的級聯(lián)可能性,而一個GPU集群在一天內(nèi)就可完成,效率得到極大提升。隨著GPU大規(guī)模生產(chǎn)帶來價格下降,使其得到廣泛的商業(yè)化應(yīng)用。
全球人工智能產(chǎn)業(yè)發(fā)展明顯加速
人工智能技術(shù)的研究和發(fā)展不僅決定了計算機、互聯(lián)網(wǎng)技術(shù)的未來發(fā)展方向,同時也將引發(fā)眾多傳統(tǒng)產(chǎn)業(yè)結(jié)構(gòu)的深刻變革??茖W(xué)家普遍期待人工智能成為人類進入知識經(jīng)濟時代后,下一次生產(chǎn)力飛躍的突破口。國際金融危機以后,歐美國家回歸前沿科學(xué)的戰(zhàn)略布局,更加重視人工智能技術(shù)的研究。特別是在人工智能基礎(chǔ)研究、人腦研究、網(wǎng)絡(luò)融合、3D智能打印等領(lǐng)域不斷有研究突破。同時各大互聯(lián)網(wǎng)巨頭加快布局,2014年人工智能領(lǐng)域共完成40筆交易,投資總額達到3.09億美元,比2013年增加302%。
圖5 人工智能領(lǐng)域投資額大幅增長資料來源:Bloomberg、華安證券研究所
目前人工智能技術(shù)主要應(yīng)用在游戲、電商、廣告等行業(yè),但對于人工智能的發(fā)展空間來說,這只是冰山一角。人工智能技術(shù)與機器人和大數(shù)據(jù)的聯(lián)系,將會大幅拓寬傳統(tǒng)產(chǎn)業(yè)的互聯(lián)網(wǎng)之路,使互聯(lián)網(wǎng)對于傳統(tǒng)企業(yè)的互聯(lián)網(wǎng)化滲透的更加深入,由此產(chǎn)生的萬億規(guī)模市場空間將被逐步打開。此外,我國產(chǎn)業(yè)結(jié)構(gòu)調(diào)整和人工智能升級方向高度重合,面對未來5年、10年乃至30年的影響,將產(chǎn)生百倍的溢出效應(yīng)。人工智能不僅是中國IT行業(yè)的發(fā)展趨勢之一,也極有可能是中國科技與國際科技水平的首次齊頭并進,共同研究開發(fā)這片藍海。
人工智能產(chǎn)業(yè)鏈剖析
從發(fā)展路徑及階段上看,實現(xiàn)人工智能需經(jīng)歷三個階段:計算智能(能存會算)、感知智能(能聽會說、能看會認)和認知智能(能理解會思考)。從產(chǎn)業(yè)鏈上看,人工智能產(chǎn)業(yè)鏈包括基礎(chǔ)技術(shù)支撐、人工智能技術(shù)及人工智能應(yīng)用三個層次。其中:基礎(chǔ)技術(shù)支撐,由數(shù)據(jù)中心及運算平臺構(gòu)成,即計算智能階段,包括數(shù)據(jù)傳輸、運算、存儲等;人工智能技術(shù),是基于基礎(chǔ)層提供的存儲資源和大數(shù)據(jù),通過機器學(xué)習建模,開發(fā)面向不同領(lǐng)域的應(yīng)用技術(shù),包含感知智能及認知智能兩個階段。感知智能如語音識別、圖像識別、自然語音處理和生物識別等,認知智能如機器學(xué)習、預(yù)測類API和人工智能平臺;人工智能應(yīng)用,主要為人工智能與傳統(tǒng)產(chǎn)業(yè)相結(jié)合實現(xiàn)不同場景的應(yīng)用,如無人駕駛汽車、智能家居、智能醫(yī)療等領(lǐng)域。
人工智能技術(shù)層:從人機交互到智能分析
人工智能技術(shù)層是從感知到思考再到最終決策行動的過程,是聯(lián)通原始數(shù)據(jù)到最終應(yīng)用的必然過程,包含感知智能和認知智能兩個階段。感知智能連接的人、信息和物理世界,通過傳感器、搜索引擎和人機交互來獲取建模必須的數(shù)據(jù)。從技術(shù)路徑上看,我們目前處于由感知智能向認知智能進化的階段,感知智能仍然是當下重要突破的領(lǐng)域。以語音識別、人臉識別為代表的感知智能技術(shù)是實現(xiàn)人機交互的首要步驟,也是實現(xiàn)智能應(yīng)用的必備條件,目前相關(guān)技術(shù)已逐步成熟并商業(yè)化落地,隨著人工智能應(yīng)用的快速推進,市場空間將被逐步打開。
2009年以來,借助機器學(xué)習領(lǐng)域深度學(xué)習研究的發(fā)展,以及移動互聯(lián)網(wǎng)普及帶來語料大數(shù)據(jù)的積累,語音識別技術(shù)取得顯著進步,并開始從實驗室走向市場。人機交互由鍵盤輸入向語音輸入的轉(zhuǎn)變是必然趨勢,所有信息設(shè)備終將實現(xiàn)“能聽會說”,未來十年內(nèi)語音識別技術(shù)應(yīng)用將更加廣泛。
目前語音識別在移動終端上的應(yīng)用開始普及,語音對話機器人、語音助手、互動工具等層出不窮。國內(nèi)外很多互聯(lián)網(wǎng)公司紛紛投入資源在此方面的研究和應(yīng)用,目的是通過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。但在語音識別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的重要因素之一,而語料的標注和分析需要長期的積累和沉淀,隨著大數(shù)據(jù)時代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度。
圖像識別是利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象的技術(shù)。識別過程包括圖像預(yù)處理、圖像分割、特征提取和判斷匹配。簡單地說,圖像識別就是計算機像人一樣讀懂圖片內(nèi)容。圖像識別的意義在于,我們不僅可以通過圖片搜索更快的獲取信息,還可以產(chǎn)生一種新的與外部世界交互的方式。此前我們利用科技工具探尋外部世界的流程是:人眼捕捉目標信息、大腦將信息進行分析、轉(zhuǎn)化為機器可以理解的關(guān)鍵詞、與機器交互獲得結(jié)果。而當圖片識別基礎(chǔ)參與后,這個過程就可以簡化為:人眼借助機器捕捉目標信息、機器和互聯(lián)網(wǎng)直接對信息進行分析并返回結(jié)果。圖像識別使攝像頭成為連接人和世界信息的重要入口之一。
人臉識別是基于人的臉部特征信息進行身份識別的一種生物識別技術(shù),用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉進行識別的一系列相關(guān)技術(shù)。人臉識別的優(yōu)勢在于其自然性和被測個體難以察覺的特點,但人臉的相似性和易變性加大了識別難度。目前人臉識別技術(shù)已廣泛應(yīng)用于政府、金融、軍隊、工廠、教育、醫(yī)療等領(lǐng)域,隨著技術(shù)的進一步成熟和社會認同度的提高,人臉識別技術(shù)將應(yīng)用在更多領(lǐng)域。
圖6 人工智能產(chǎn)業(yè)鏈資料來源:華安證券研究所