張淳杰
人工智能與深度學(xué)習(xí)
張淳杰
(中國科學(xué)院自動化研究所,北京 100190)
人工智能(Artificial Intelligence,AI)是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。作為計算機科學(xué)的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種能智能地做出反應(yīng)的機器。相關(guān)的研究內(nèi)容包括機器人、語言識別、圖像/視頻分析、自然語言處理等。人工智能是一門極富挑戰(zhàn)性又十分廣泛的科學(xué)。
人工智能;深度學(xué)習(xí);循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN);生成對抗網(wǎng)絡(luò)(GAN)
人工智能正成為推動人類進(jìn)入智能時代的決定性力量。全球產(chǎn)業(yè)界充分認(rèn)識到人工智能技術(shù)引領(lǐng)新一輪產(chǎn)業(yè)變革的重大意義,紛紛轉(zhuǎn)型發(fā)展,搶灘布局人工智能創(chuàng)新生態(tài)。世界主要發(fā)達(dá)國家均把發(fā)展人工智能作為提升國家競爭力、維護(hù)國家安全的重大戰(zhàn)略,力圖在國際科技競爭中掌握主導(dǎo)權(quán)。習(xí)近平總書記在十九屆中央政治局第九次集體學(xué)習(xí)時深刻指出,加快發(fā)展新一代人工智能是事關(guān)中國能否抓住新一輪科技革命和產(chǎn)業(yè)變革機遇的戰(zhàn)略問題。錯失一個機遇,就有可能錯過整整一個時代。新一輪科技革命與產(chǎn)業(yè)變革已曙光可見,在這場關(guān)乎前途命運的大賽場上,必須搶抓機遇、奮起直追、力爭超越。
1956年夏,麥肯錫(MCKINSEY)、明斯基(MINSKY)、羅切斯特(ROCHESTER)和香農(nóng)(SHANNON)等科學(xué)家在美國達(dá)特茅斯學(xué)院(Dartmouth College)開會研討“如何用機器模擬人的智能”,首次提出“人工智能”這一概念,標(biāo)志著人工智能學(xué)科的誕生。人工智能研究目的是使機器會聽(語音識別和機器翻譯等)、會看(圖像識別與視頻分析等)、會說(語音合成與自動問答等)、會思考(人機博弈與推理求解等)、會學(xué)習(xí)(知識表示)、會行動(智能機器人與自動駕駛等)。
國內(nèi)外很多研究機構(gòu)都在進(jìn)行相關(guān)技術(shù)的研究。例如,美國的麻省理工學(xué)院、斯坦福大學(xué)、普林斯頓大學(xué)、卡內(nèi)基美隆大學(xué)、加州大學(xué)伯克利分校、伊利諾伊大學(xué)香檳分校、康奈爾大學(xué)、哥倫比亞大學(xué)、耶魯大學(xué)等,英國的劍橋大學(xué)、牛津大學(xué)、帝國理工大學(xué),法國國家信息與自動化研究所(INRIA),瑞士蘇黎世聯(lián)邦理工學(xué)院,新加坡國立大學(xué)、南洋理工大學(xué),香港科技大學(xué)等。國內(nèi)也有很多機構(gòu)和大學(xué)進(jìn)行相關(guān)研究工作,包括中國科學(xué)院自動化研究所、清華大學(xué)、北京大學(xué)、中國科學(xué)技術(shù)大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、哈爾濱工業(yè)大學(xué)、廈門大學(xué)、西安交通大學(xué)、西安電子科技大學(xué)等。
人工智能的研究歷史充滿了曲折起伏。自1956年以來,人工智能已經(jīng)走過了63個春秋。其發(fā)展歷程曲折反復(fù),按照中國科學(xué)院譚鐵牛院士的劃分,人工智能的發(fā)展歷程有六個階段:第一個階段是起步發(fā)展期(1956年至20世紀(jì)60年代初),在人工智能概念提出后,取得了一系列的研究成果,如機器定理證明、跳棋程序等,掀起人工智能發(fā)展的第一個高潮;第二個階段是反思發(fā)展期(20世紀(jì)60年代到70年代初),初期的突破性進(jìn)展提升了人們的期望,人們開始提出了一些不切實際的研發(fā)目標(biāo),然而,接二連三的失敗和預(yù)期目標(biāo)的落空(例如,無法用機器證明兩個連續(xù)函數(shù)之和還是連續(xù)函數(shù)),人工智能發(fā)展開始走入低谷;第三個階段是應(yīng)用發(fā)展期(20世紀(jì)70年代初至80年代中),20世紀(jì)70年代出現(xiàn)了專家系統(tǒng),通過模擬人類專家的知識和經(jīng)驗解決特定領(lǐng)域的問題,專家系統(tǒng)在醫(yī)療等多個領(lǐng)域取得成功,推動人工智能走入應(yīng)用發(fā)展的新高潮;第四個階段是低迷發(fā)展期(20世紀(jì)80年代中葉至90年代中葉),隨著人工智能的應(yīng)用規(guī)模不斷擴大,專家系統(tǒng)應(yīng)用領(lǐng)域狹窄、缺乏常識性知識、知識獲取困難等問題逐漸暴露,相關(guān)研究進(jìn)展緩慢;第五個階段是穩(wěn)步發(fā)展期(20世紀(jì)90年代中葉至2010年),隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)開始大規(guī)模累加計,促進(jìn)了人工智能的創(chuàng)新研究,使得人工智能技術(shù)走向?qū)嵱没?;第六個階段是蓬勃發(fā)展期(2011年至今),隨著大數(shù)據(jù)、云計算、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,推動了以深度神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù)飛速發(fā)展,廣泛應(yīng)用于圖像分類、語音識別、知識問答、人機對弈、無人駕駛等領(lǐng)域,迎來爆發(fā)式增長的新高潮。
從應(yīng)用的任務(wù)來看,人工智能可以分為專用人工智能和通用人工智能。對人工智能的相關(guān)技術(shù)研究涉及眾多的學(xué)科與技術(shù),如模式識別、數(shù)據(jù)挖掘、機器學(xué)習(xí)、腦科學(xué)等。真正意義上的人工智能系統(tǒng)應(yīng)該是一個通用的智能系統(tǒng),但是通用人工智能研究與應(yīng)用剛剛起步。專用人工智能系統(tǒng)面向特定任務(wù),需求明確、應(yīng)用邊界清晰、領(lǐng)域知識豐富、建模相對簡單,容易被突破,取得超越人類的性能。例如,阿爾法狗(AlphaGo)在圍棋比賽中戰(zhàn)勝人類。專用人工智能取得突破性進(jìn)展的重要原因是機器學(xué)習(xí)相關(guān)技術(shù),特別是深度學(xué)習(xí)的快速發(fā)展。
最早的神經(jīng)網(wǎng)絡(luò)的思想起源于1943年的MP人工神經(jīng)元模型,其設(shè)計理念是用計算機來模擬人的神經(jīng)元反應(yīng)的過程。通過將神經(jīng)元簡化為輸入信號線性加權(quán)、求和、非線性激活(閾值法)三部分。1958年ROSENBLATT發(fā)明感知器(perceptron)算法。通過使用MP模型使用梯度下降法從訓(xùn)練樣本中自動學(xué)習(xí)更新權(quán)值,對輸入的多維數(shù)據(jù)進(jìn)行二分類。在1986年,HINTON發(fā)明了BP(back propagation)算法,通過采用Sigmoid函數(shù)進(jìn)行非線性映射,解決了非線性分類問題。1989年,LECUN發(fā)明了卷積神經(jīng)網(wǎng)絡(luò)LeNet,在數(shù)字識別任務(wù)取得良好成績。1997年,適用于序列建模的LSTM模型被提出。1995年,VAPNIK提出線性支持向量機(SVM),該方法的數(shù)學(xué)理論基礎(chǔ)較為完備(統(tǒng)計學(xué)與凸優(yōu)化等)并且符合人的直觀感受。2000年,核化SVM(Kernel SVM)被提出來解決原始空間表示線性不可分的問題。2001年,圖模型被提出。
人們大多把2006年看作是是深度學(xué)習(xí)元年。這年,HINTON提出了深層網(wǎng)絡(luò)訓(xùn)練中梯度消失問題的解決方案。其主要思想是先通過自學(xué)習(xí)的方法學(xué)習(xí)訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)(自動編碼器),之后在該結(jié)構(gòu)上進(jìn)行有監(jiān)督訓(xùn)練。相比于手動設(shè)計的特征或淺層的特征表示,多層卷積結(jié)構(gòu)是當(dāng)前計算機視覺領(lǐng)域最先進(jìn)、最具吸引力的結(jié)構(gòu)之一。相關(guān)的研究內(nèi)容也在快速發(fā)展中。2011年,ReLU激活函數(shù)被提出來抑制梯度消失問題。2012年,AlexNet網(wǎng)絡(luò)取得ImageNet比賽的冠軍,吸引到了研究者的注意。AlexNet網(wǎng)絡(luò)采用ReLU激活函數(shù)增大收斂速度;通過擴展LeNet5結(jié)構(gòu),添加Dropout層減小過擬合,LRN層增強泛化能力;并采用GPU進(jìn)行加速。其主要包含局部感知、權(quán)值共享、卷積和池化四個部分。在局部感知環(huán)節(jié),由于圖像局部的像素聯(lián)系緊密,而距離遠(yuǎn)的像素相關(guān)性較弱。因此,每個神經(jīng)元其實只需對局部區(qū)域進(jìn)行感知。而權(quán)值共享則可以大大減少卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量。卷積是利用卷積核對圖像進(jìn)行特征提取。最重要的就是卷積核的大小、步長設(shè)計和數(shù)量的選取,個數(shù)越多提取的特征越多,但網(wǎng)絡(luò)復(fù)雜度也在增加。池化層一般在卷積層后,通過池化來降低卷積層輸出的特征向量維數(shù)。采用的池化方法是平均池化(mean pooling)和最大池化(max pooling)。
受AlexNet的啟發(fā),針對圖像分類任務(wù)出現(xiàn)了大量新的網(wǎng)絡(luò)結(jié)構(gòu)。改進(jìn)思路主要是增大網(wǎng)絡(luò)的規(guī)模,包括深度和寬度。但是,網(wǎng)絡(luò)參數(shù)增加之后更容易出現(xiàn)過擬合,計算量也隨之增加。在眾多改進(jìn)的網(wǎng)絡(luò)中,比較有代表性的是GoogleNet、VGG和ResNet。GoogLeNet由Google在2014年提出,其主要創(chuàng)新引入了Inception機制對圖像進(jìn)行多尺度處理,大幅減少了參數(shù)數(shù)量。通過將多個不同尺度的卷積核,池化層進(jìn)行整合,形成一個Inception模塊。VGG網(wǎng)絡(luò)由牛津大學(xué)視覺組(Visual Geometry Group)于2014年提出。VGG結(jié)構(gòu)簡潔、拓展性強、泛化性好。整個網(wǎng)絡(luò)都使用了同樣大小的卷積核尺寸(3×3)和池化尺寸(2×2)。ResNet(殘差網(wǎng)絡(luò))用跨層連接擬合殘差項來解決深層網(wǎng)絡(luò)難以訓(xùn)練的問題,將網(wǎng)絡(luò)的層數(shù)推廣到了前所未有的規(guī)模(152層),深度是VGG網(wǎng)絡(luò)的8倍但復(fù)雜度卻更低。
在這些網(wǎng)絡(luò)的基礎(chǔ)上,又有很多改進(jìn)版本的網(wǎng)絡(luò)結(jié)構(gòu)出現(xiàn)。Inception-V2基于GoogleNet的基本結(jié)構(gòu)進(jìn)行了改進(jìn)。加入了BN層,用2個3×3的conv替代Inception模塊中的5×5,既降低了參數(shù)數(shù)量,也加快了計算速度。Inception-V3將7×7的卷積核分解成兩個一維的卷積。這樣做既可以加速計算,減少參數(shù)規(guī)模,又可以將1個卷積拆成2個卷積,使得網(wǎng)絡(luò)深度進(jìn)一步增加,增加了網(wǎng)絡(luò)的非線性。傳統(tǒng)的提高模型準(zhǔn)確率的做法,都是加深或加寬網(wǎng)絡(luò),但是隨著超參數(shù)數(shù)量的增加,網(wǎng)絡(luò)設(shè)計的難度和計算開銷也會增加。ResNeXt的設(shè)計目的為在不增加參數(shù)復(fù)雜度的前提下提高準(zhǔn)確率。它采用了VGG堆疊的思想和Inception的split-transform-merge思想,但是可擴展性比較強,在增加準(zhǔn)確率的同時基本不改變或降低模型的復(fù)雜度。DenseNet是一種具有密集連接的卷積神經(jīng)網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,任何兩層之間都有直接的連接。DenseNet的優(yōu)點是網(wǎng)絡(luò)更窄,參數(shù)更少。同時這種連接方式使得特征和梯度的傳遞更加有效,網(wǎng)絡(luò)也就更加容易訓(xùn)練。以上網(wǎng)絡(luò)的計算量都很大。為了在手機等嵌入式設(shè)備上進(jìn)行應(yīng)用,Google提出了一種輕量級的深層神經(jīng)網(wǎng)絡(luò)MobileNets。其設(shè)計的核心為Separable Convolution,可以在犧牲較少性能的基礎(chǔ)上有效減少參數(shù)量和計算量。Separable Convolution將傳統(tǒng)的卷積運算用兩步卷積運算代替:Depth-wise convolution與Pointwise convolution。后續(xù)的MobileNet-v2增加了殘差結(jié)構(gòu),并在Depth-wise convolution之前添加一層Pointwise convolution,優(yōu)化了帶寬的使用,進(jìn)一步提高了性能。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是用于處理序列數(shù)據(jù)相關(guān)任務(wù)的多層神經(jīng)網(wǎng)絡(luò)模型。它可以看作是神經(jīng)網(wǎng)絡(luò)的一種特殊類型,隱藏單元的輸入由當(dāng)前時間步所觀察到的數(shù)據(jù)中獲取輸入以及它在前一個時間步的狀態(tài)組合而成。雖然循環(huán)神經(jīng)網(wǎng)絡(luò)是一類強大的多層神經(jīng)網(wǎng)絡(luò)模型,但其主要問題是模型對時間的長期依賴性,由于梯度爆炸或梯度消失,這種限制將導(dǎo)致模型訓(xùn)練過程在網(wǎng)絡(luò)回傳過程中誤差的不平穩(wěn)變化。長短期記憶網(wǎng)絡(luò)(LSTM)在一定程度上解決了這個問題。LSTM 包含遺忘門,使得網(wǎng)絡(luò)能夠刪除一些不必要的信息。生成對抗網(wǎng)絡(luò)(GAN)是2014年首次引入的一種新型多層神經(jīng)網(wǎng)絡(luò)模型。雖然生成對抗網(wǎng)絡(luò)并沒有多種不同的網(wǎng)絡(luò)構(gòu)建模塊,但這種網(wǎng)絡(luò)結(jié)構(gòu)具有一些特殊性。通過引入無監(jiān)督學(xué)習(xí),模型的訓(xùn)練不再依賴大量標(biāo)記數(shù)據(jù)。一個標(biāo)準(zhǔn)的生成對抗模型主要由兩部分子網(wǎng)絡(luò)組成:生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò),兩個子網(wǎng)絡(luò)都是預(yù)先定義好的多層網(wǎng)絡(luò)結(jié)構(gòu)。自提出以來,生成對抗網(wǎng)絡(luò)就得到了廣泛的關(guān)注和研究。
盡管各種精心設(shè)計的卷積模型在多個應(yīng)用中取得了優(yōu)異表現(xiàn),但在模型結(jié)構(gòu)的工作方式理解及探索這些結(jié)構(gòu)的有效性方面則進(jìn)展緩慢?,F(xiàn)有的用于理解卷積結(jié)構(gòu)的方法可以分成三個方向:卷積可視化、消融學(xué)習(xí)、網(wǎng)絡(luò)最小化學(xué)習(xí)。
卷積可視化有兩種方法:①以數(shù)據(jù)集為中心,采用反卷積(DeConvNet)操作。一個卷積結(jié)構(gòu)接收來自數(shù)據(jù)集的幾個圖像并記錄數(shù)據(jù)集中輸入的特征映射最大響應(yīng),這些特征地圖使用反卷積結(jié)構(gòu),通過反轉(zhuǎn)卷積操作模塊,將卷積操作中學(xué)習(xí)到的濾波器特征進(jìn)行轉(zhuǎn)置來執(zhí)行“解卷積”操作,從而實現(xiàn)卷積的可視化分析。②以網(wǎng)絡(luò)為中心,通過合成圖像來實現(xiàn)。網(wǎng)絡(luò)消融通過隔離卷積結(jié)構(gòu)的不同部分組成網(wǎng)絡(luò),查看刪除或添加某些模塊如何模擬整體的性能。消融研究能夠指導(dǎo)研究者設(shè)計出性能更優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)最小化學(xué)習(xí)在網(wǎng)絡(luò)設(shè)計時添加先驗知識,從而最大限度地減少所需學(xué)習(xí)的模型參數(shù)。
人工智能經(jīng)過60多年的發(fā)展已取得了重大進(jìn)展,但總體上還處于初級階段。人工智能既具有巨大的理論與技術(shù)創(chuàng)新空間,也具有廣闊的應(yīng)用前景。一方面,中國人工智能發(fā)展的總體態(tài)勢良好。黨中央、國務(wù)院高度重視并大力支持發(fā)展人工智能。習(xí)近平總書記在黨的十九大、2018年兩院院士大會、全國網(wǎng)絡(luò)安全和信息化工作會議、十九屆中央政治局第九次集體學(xué)習(xí)等場合多次強調(diào)要加快推進(jìn)新一代人工智能的發(fā)展。2017-07,國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,將新一代人工智能放在國家戰(zhàn)略層面進(jìn)行部署。2019-03,中央全面深化改革委員會第七次會議審議通過了《關(guān)于促進(jìn)人工智能和實體經(jīng)濟深度融合的指導(dǎo)意見》。中國發(fā)展人工智能具有市場規(guī)模、應(yīng)用場景、數(shù)據(jù)資源、人力資源、智能手機普及、資金投入、國家政策支持等多方面的綜合優(yōu)勢。當(dāng)前是中國加強人工智能布局、收獲人工智能紅利、引領(lǐng)智能時代的重大歷史機遇期。中國已成為全球人工智能投融資規(guī)模最大的國家,中國人工智能企業(yè)在人臉識別、語音識別、安防監(jiān)控、智能音箱、智能家居等應(yīng)用領(lǐng)域處于國際前列。另一方面,也應(yīng)該看到差距和困難。發(fā)達(dá)國家通過人工智能技術(shù)創(chuàng)新掌控了產(chǎn)業(yè)鏈上游資源,難以逾越的技術(shù)鴻溝和產(chǎn)業(yè)壁壘有可能進(jìn)一步拉大發(fā)達(dá)國家和發(fā)展中國家的生產(chǎn)力發(fā)展水平差距。目前中國在人工智能理論創(chuàng)新方面尚處于“跟跑”地位,大部分創(chuàng)新偏重于技術(shù)應(yīng)用,在基礎(chǔ)研究、原創(chuàng)成果、頂尖人才、技術(shù)生態(tài)、基礎(chǔ)平臺、標(biāo)準(zhǔn)規(guī)范等方面與世界領(lǐng)先水平還存在明顯差距。人工智能對工業(yè)、交通、醫(yī)療等傳統(tǒng)領(lǐng)域的滲透和融合是個長期過程,很難一蹴而就。
TP18
A
10.15913/j.cnki.kjycx.2019.13.011
2095-6835(2019)13-0025-03
張淳杰,中國科學(xué)院自動化研究所副研究員,碩士生導(dǎo)師,人工智能開放創(chuàng)新平臺聯(lián)合學(xué)者,研究方向為計算機視覺和人工智能。
〔編輯:張思楠〕