過去十年,基于機器學習的人工智能(AI)在性能方面取得了突破性進展,經(jīng)常接近人類專家的能力,有時甚至超過了他們,例如人工智能在圖像識別、語言翻譯、圍棋中的表現(xiàn)。
這些應用使用大型人工神經(jīng)網(wǎng)絡,其中的節(jié)點由數(shù)百萬個加權(quán)互聯(lián)相連。它們模擬了大腦的結(jié)構(gòu)和工作機制,但有一個關(guān)鍵領(lǐng)域做不到——人工神經(jīng)網(wǎng)絡無法像動物那樣隨著時間的推移而學習。一旦開發(fā)人員完成了人工神經(jīng)網(wǎng)絡的設(shè)計、編程和訓練,如果不對其再進行訓練,它們就不能適應新數(shù)據(jù)、完成新任務了,而再訓練往往很費時間。
人工智能系統(tǒng)的實時適應性已成為研究領(lǐng)域的熱點問題。例如,2018年美國優(yōu)步科技公司(Uber Technologies)的計算機科學家發(fā)表了一篇文章,介紹在神經(jīng)網(wǎng)絡中引入“可塑性”的方法。在圖像識別和迷宮探索等多個測試應用中,研究人員展示了已訓練的神經(jīng)網(wǎng)絡無需再進行訓練就能夠快速高效地適應新情況。
“神經(jīng)網(wǎng)絡常用的訓練方法是用范例慢慢地訓練;范例的數(shù)量多達百萬計,甚至數(shù)以億計?!痹撐恼碌牡谝蛔髡呓榻B說,“但我們?nèi)祟惪刹皇沁@么學的。我們學得很快,通常經(jīng)過一次新情況或刺激就學到了。我們大腦中的連接具有突觸可塑性,可以自行改變,讓我們迅速形成記憶?!?/p>
60多年來,神經(jīng)網(wǎng)絡都是由互聯(lián)的節(jié)點構(gòu)成,連接的成對強度由權(quán)重決定,通常經(jīng)標記的范例訓練而固定下來。這種訓練絕大多數(shù)時候通過反向傳播算法(backpropagation)完成:系統(tǒng)計算突觸輸出的錯誤,將其通過網(wǎng)絡層反向傳播。目前大多數(shù)深度學習系統(tǒng)都采用了梯度下降的反向傳播算法這種優(yōu)化技術(shù),連優(yōu)步研究人員所用的測試系統(tǒng)也不例外。
以此為基礎(chǔ),優(yōu)步研究人員使用了赫布學習(Hebbian learning)的方法。該法于1949年由加拿大神經(jīng)心理學家唐納德·赫布(Donald Hebb)提出,他觀察到在突觸間反復放電的兩個神經(jīng)元能夠隨著時間的推移加強它們之間的連接。通常將其歸納為:“一起放電的神經(jīng)元,連接在一起(Neurons that fire together,wire together)?!?/p>
圖DARPA終生學習機器(Lifelong Learning Machines,L2M)項目旨在開發(fā)出新的學習系統(tǒng),能隨著經(jīng)驗增加而不斷提升,快速適應新情況和動態(tài)變化環(huán)境。
利用這種“赫布可塑性”,神經(jīng)網(wǎng)絡采用了一種“元學習”——本質(zhì)而言,它們學習如何基于三個概念上簡單的參數(shù)進行學習。神經(jīng)元對在系統(tǒng)的訓練過程中確定了傳統(tǒng)的固定權(quán)重。它們還有個可塑權(quán)重,叫作“赫布邊跡(Hebbian trace)”,可塑權(quán)重根據(jù)遇到的實際數(shù)據(jù)在一生中不斷變化。這些赫布邊跡可用不同的方法計算,但在簡單例子中,它是突觸前和突觸后活動產(chǎn)物的運行平均值。
赫布邊跡是由第三個固定參數(shù)——可塑性系數(shù)——對自身加權(quán)。因此,在任何時候,兩個神經(jīng)元之間連接的總有效權(quán)重等于固定權(quán)重與赫布邊跡乘以可塑性系數(shù)之和。根據(jù)這三個參數(shù)的值,每個連接的強度可以是完全固定、完全可變或介于兩者之間的。
“這是件很重要的工作。”美國卡內(nèi)基梅隆大學計算生物學家評價道,“他們采用了生物學中的知名原則,展示其對人工神經(jīng)網(wǎng)絡有積極的影響?!钡撬赋?,這個方法是否會代表人工智能大型主流應用的重要進展,現(xiàn)在下結(jié)論還為時過早。
對于目前的超大型人工智能系統(tǒng),該科學家說,“我們優(yōu)化、優(yōu)化、再優(yōu)化,只能做到這一步。如果有新數(shù)據(jù),可以重新訓練它,但我們不是在試著讓它適應新的東西?!迸e個例子,神經(jīng)網(wǎng)絡可能已經(jīng)過訓練,能夠在對不同種類汽車進行分類時給出高度精確的結(jié)果,但是如果遇到一種新的汽車(例如,特斯拉),系統(tǒng)就不行了?!拔覀兿M苎杆俚刈R別出這個新汽車,不用再訓練。再訓練要耗時數(shù)日或者數(shù)周。而且,我們怎么才知道出現(xiàn)了新的東西呢?”
動態(tài)學習的人工智能系統(tǒng)不是新事物了。在“神經(jīng)進化”中,神經(jīng)網(wǎng)絡由采用了試錯方法的算法進行更新,以實現(xiàn)精確定義的目標,例如贏得一場象棋比賽。它們不需要標記的訓練范例,只需要成功的定義。“它們只通過試錯的方法進行?!眱?yōu)步的研究人員說,“這種方法很強大,但很慢,本質(zhì)上是隨機的過程。如果我們看到一件新的事物,就得到一個錯誤信號告訴我們要向什么方向改變權(quán)重,這樣會好得多。這就是反向傳播算法帶給我們的?!?/p>
軍事應用
優(yōu)步研究人員的做法只是人工智能自學習的眾多新方法中的一種。美國國防部將突觸可塑性納入其提高防御系統(tǒng)準確性、安全性和靈敏度的系列實驗方法中。美國國防高級研究計劃局(U.S.Defense Advanced Research Projects Agency,DARPA)啟動了終生學習機器項目,從兩處著力,一是開發(fā)完整系統(tǒng)及其組件,二是探索生物有機體中的學習機制并將其移植到計算過程中。該項目的目標是讓人工智能系統(tǒng)“在任務中學習和提升,將已有技能和知識應用到新情況,包容固有系統(tǒng)限制,提高自動任務的安全性。”DARPA 在其網(wǎng)站上表示,“我們不是在尋求逐步的改善,而是希望找到突破性的機器學習方法?!?/p>
優(yōu)步的赫布可塑性研究很有前景,向神經(jīng)網(wǎng)絡終生學習又邁進了一步,DARPA 終生學習機器項目創(chuàng)始人及負責人表示,“沒有這種方法,我們在自動駕駛汽車中就不會安全?!钡皇窍蛑繕诉~進了一步,還有很多必不可少的工作?!斑@絕不是圓滿的結(jié)局了?!彼f。
根據(jù) DARPA 對終生學習的廣義定義,有五大“支柱”,突觸可塑性屬于第一支柱。五大支柱包括:記憶連續(xù)更新,不出現(xiàn)災難性遺忘;重組記憶,根據(jù)未來的行為將已學習的信息重新安排和組合;情景感知(context awareness)以及基于系統(tǒng)行為調(diào)整的情景;通過內(nèi)部互動、自我意識和自我模擬來采用新行為;安全和防衛(wèi),意識到某事危險并相應地改變行為,并通過多個強約束的組合來確保安全。
該負責人列舉智能假肢作為這些技術(shù)的應用例子。她指出,對于假腿中的控制軟件,首先制造商可以通過常規(guī)反向傳播法訓練軟件,然后訓練該軟件滿足使用者的獨特習慣和特點,最后讓其快速適應從未遇到過的情況,例如結(jié)冰的人行道。
她表示,多年來,終生學習一直是人工智能研究人員的目標,但直到最近才有了重大進展。這得益于計算能力的進步、新理論基礎(chǔ)和算法的出現(xiàn)、以及對生物學更好的理解?!安怀鰩啄辏绻痪邆浣K生學習的能力,很多我們現(xiàn)在稱為人工智能的東西不會再被看作人工智能了?!彼A測道。
優(yōu)步的研究團隊目前正致力于讓其測試系統(tǒng)中的學習更動態(tài)、更精細。實現(xiàn)這一目標的一種方法是讓可塑性系數(shù)隨著系統(tǒng)的壽命周期而變化,目前可塑性系數(shù)作為一種設(shè)計選擇是固定的?!懊糠N連接的可塑性可由網(wǎng)絡本身在每個點自行決定?!毖芯咳藛T說。這種“神經(jīng)調(diào)節(jié)”可能出現(xiàn)在動物大腦中,他表示,這可能會是實現(xiàn)人工智能系統(tǒng)進行最靈活決策的關(guān)鍵一步。