• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    “暗”,不止于“深”—邁向認(rèn)知智能與類人常識的范式轉(zhuǎn)換

    2020-09-03 08:16:18朱毅鑫高濤范麗鳳黃思遠(yuǎn)MrkEdmonds劉航欣高楓張馳綦思源吳英年JoshuTenenum朱松純
    工程 2020年3期
    關(guān)鍵詞:意圖物體物理

    朱毅鑫*,高濤范麗鳳黃思遠(yuǎn) Mrk Edmonds 劉航欣高楓張馳 綦思源吳英年Joshu B. Tenenum ,朱松純

    a Center for Vision, Cognition, Learning, and Autonomy, University of California, Los Angeles, CA 90095, USA b Center for Brains, Minds, and Machines, Massachusetts Institute of Technology, Cambridge, MA 02139, USA

    1. 呼吁視覺與人工智能的范式轉(zhuǎn)變

    計算機(jī)視覺是人工智能的門戶,也是現(xiàn)代智能系統(tǒng)的主要組成成分。根據(jù)先驅(qū)大衛(wèi)·馬爾[1]提出的經(jīng)典定義:“計算機(jī)視覺的首要任務(wù)是感知‘什么’在‘何處’”?!笆裁础敝傅氖俏矬w識別(物體視覺),而“何處”指的是三維重建和物體定位(空間視覺)[2]。這一定義對應(yīng)人腦中的兩條神經(jīng)通路。①腹側(cè)神經(jīng)通路:負(fù)責(zé)物體和場景的類別識別;②背側(cè)神經(jīng)通路:負(fù)責(zé)景深和形狀的重建、場景布局的表征,以及視覺引導(dǎo)下的動作等。此范式引領(lǐng)了20世紀(jì)80~90年代計算機(jī)視覺領(lǐng)域中基于幾何的方法,以及過去20年基于外觀特征的方法。

    近幾年來,硬件加速和大量可用的標(biāo)注數(shù)據(jù)推動了深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)的快速發(fā)展,進(jìn)而助力了物體檢測與定位技術(shù)的進(jìn)步。然而,我們距離解決計算機(jī)視覺問題和真正的機(jī)器智能問題依然很遠(yuǎn)。當(dāng)前的計算機(jī)視覺系統(tǒng)的推理能力范圍狹窄且高度特異化,需要針對專門任務(wù)設(shè)計大型標(biāo)注數(shù)據(jù)集。同時,這樣的視覺系統(tǒng)缺乏對物理世界與社交世界運(yùn)作常識的理解,而這些常識對于普通成年人是顯而易見的。為了填補(bǔ)現(xiàn)代計算機(jī)視覺和人類視覺之間的空白,我們必須找到一個更廣闊的視角,從中對缺失的維度(即類人常識)進(jìn)行建模和推理。

    我們當(dāng)前對于視覺的理解類似于宇宙學(xué)和天體物理學(xué)領(lǐng)域中觀測到的宇宙。在20世紀(jì)80年代物理學(xué)家提出的標(biāo)準(zhǔn)宇宙學(xué)模型中,通過電磁波譜觀察到的質(zhì)能僅占不到5%的宇宙部分,而宇宙的其余部分則是暗物質(zhì)(23%)和暗能量(72%)?? https://map.gsfc.nasa.gov/universe/。暗物質(zhì)和暗能量的性質(zhì)和特點無法被直接觀察到,必須使用復(fù)雜模型從可見的質(zhì)能中推斷得出。雖然它們不可見,但是暗物質(zhì)和暗能量有助于解釋可見宇宙的形成、演化和運(yùn)動。

    我們希望借用這一物理學(xué)概念,來提升視覺界及其他領(lǐng)域?qū)τ谶@些缺失的維度以及其聯(lián)合表征和聯(lián)合推理的潛在好處的認(rèn)知。我們認(rèn)為,人類之所以既可以從稀疏而高維的數(shù)據(jù)中得出豐富的推論,又可以從一張圖片中獲取深刻的理解,都是因為我們擁有普遍但是無法用視覺感知的知識,而它們永遠(yuǎn)無法僅僅通過詢問“什么”和“何處”來理解。具體來說,人造物體和場景的設(shè)計中暗含了潛在的功能,而這些功能由不可直接觀測的物理定律及其引申出的因果關(guān)系決定。例如,思考一下我們對于從水壺中流出的水的理解,或者我們關(guān)于諸如玻璃之類的透明物質(zhì)可以用作堅固的桌子表面的知識,告訴我們圖1中發(fā)生了什么。同時,人類活動特別是社交活動,是由因果、物理、功能、社交意圖、個人喜好和效用支配的。在圖像和視頻中,許多潛在的、未以像素表示的實體(比如功能性物體、流體、物體流態(tài),意圖)和關(guān)系(比如因果效應(yīng)、物理支撐、意向和目標(biāo))無法通過大多數(shù)現(xiàn)有的、僅考慮外觀的方法進(jìn)行檢測。然而,它們無處不在,并且支配著當(dāng)前方法相對容易檢測的可見實體的位置和運(yùn)動。

    這些不可直接觀測的因素在最新的計算機(jī)視覺研究中嚴(yán)重缺失,大多數(shù)的視覺任務(wù)被轉(zhuǎn)換為分類問題,并通過大規(guī)模的標(biāo)注數(shù)據(jù)和端到端的神經(jīng)網(wǎng)絡(luò)訓(xùn)練來解決。我們稱這種計算機(jī)視覺與人工智能領(lǐng)域中的范式為“以大數(shù)據(jù)驅(qū)動小任務(wù)”的范式。

    圖1 . 一個通過聯(lián)合解譯和認(rèn)知推理深入理解場景或事件的示例。從單一圖像中,計算機(jī)視覺系統(tǒng)應(yīng)該能夠同時進(jìn)行以下工作:①重建3D場景;②估算相機(jī)參數(shù)、材料和照明條件;③以屬性、流態(tài)和關(guān)系對場景進(jìn)行層次分析;④推理智能體(如本例中的人和狗)的意圖和信念;⑤預(yù)測它們在時序上的行為;⑥恢復(fù)不可見的元素,如水和不可觀測的物體狀態(tài)等。作為人類,我們可以毫不費力地做到:①預(yù)測水壺中將會有水流出;②推理出番茄醬瓶倒置背后的意圖——為了利用重力、方便使用;③看到狗下有一個用現(xiàn)有計算機(jī)視覺方法很難檢測到的玻璃桌;如果看不到這個玻璃桌,視覺解析結(jié)果將因為狗看上去漂浮在空中而違反物理定律。這些知覺加工只能通過推理場景中沒有以像素表示的不可觀察因素來得到。這要求我們構(gòu)建具有類人核心知識和常識的人工智能系統(tǒng),而當(dāng)前的計算機(jī)視覺研究嚴(yán)重缺失這些知識。L:長;W:寬;H:高。1 in =2.54 cm。

    在本文中,我們旨在吸引研究者們關(guān)注一個具有巨大希望的新方向——將“暗”實體和關(guān)系整合到視覺與人工智能研究中。通過推理可見像素以外的不可見因素,我們可以近似人類的常識,使用有限的數(shù)據(jù)來實現(xiàn)各種任務(wù)的范化。這些任務(wù)包括并融合了經(jīng)典的“什么”和“何處”問題(即分類、定位和重建)和“為什么、如何以及如果”問題(包括但不限于因果推理、直覺物理、學(xué)習(xí)功能性和可供性、意圖預(yù)測,以及效用學(xué)習(xí))。由此,我們稱這種范式為“以小數(shù)據(jù)驅(qū)動大任務(wù)”的新型范式。

    當(dāng)然,眾所周知,計算機(jī)視覺是一個不適定的求逆問題[1],其中僅有像素是可以直接看到的,而其他任何東西都是隱藏的?!鞍怠边@個概念與視覺和概率模型中常用的“隱”是正交的,并且含義更加豐富?!鞍怠笔菍τ诔梢娡庥^或幾何形狀之外還需要多少不可見常識來分類物體或推斷關(guān)系的相對難度的度量。實體可以落在連續(xù)的“暗”頻譜上:從普通人臉等根據(jù)外觀相對容易識別(因而被認(rèn)為是“可見的”)的物體,到椅子等因為類內(nèi)差異較大而難以識別的功能性物體,再到各種無法通過像素識別的實體或關(guān)系??紤]圖1中的例子:智能體的性別是“隱”的,因為不需要利用意圖、因果或者其他不可見因素的理解來揭示它。對比之下,水壺的功能是“暗”的;通過常識,人可以輕松推斷出水壺內(nèi)部有液體。番茄醬瓶的位置也可以被認(rèn)為是“暗”的,因為對典型人類意圖的理解使我們得知番茄醬瓶的顛倒放置是在利用重力作用以便于倒出。

    本文其余章節(jié)將做如下安排:在第2節(jié)中,我們從“是什么”和“在何處”的角度重新審視計算機(jī)視覺領(lǐng)域的經(jīng)典觀點,并揭示人類視覺系統(tǒng)本質(zhì)上是任務(wù)驅(qū)動的,而視覺表征和計算機(jī)制扎根于各種任務(wù)中。為了使用“小數(shù)據(jù)”解決“大任務(wù)”,我們認(rèn)定并回顧了視覺常識的5個關(guān)鍵維度:功能性(functionality)、物理(physics)、意圖(intent)、因果(causality)和效用(utility)(FPICU)。因果(詳見第3節(jié))是智能理解的基礎(chǔ)。因果關(guān)系的運(yùn)用(例如第4節(jié)中的直覺物理)使人類擁有理解我們身處的物理世界的能力。功能性(詳見第5節(jié))則是人類為達(dá)成特定目的而與物理環(huán)境互動時所必須擁有的對環(huán)境的深入理解。在考慮物理世界之上的社交互動時,人類需要進(jìn)一步推斷意圖(詳見第6節(jié))以了解其他人的行為。最終,隨著對物質(zhì)世界和社交世界的知識積累,理性智能體的決策是由效用(詳見第7節(jié))驅(qū)動的。在一系列研究中,我們證實了“暗實體”和“暗關(guān)系”的5個關(guān)鍵維度的確支持了包括分類在內(nèi)的各種視覺任務(wù)。我們在第8節(jié)中總結(jié)并討論了我們的觀點。我們認(rèn)為人工智能的未來發(fā)展不應(yīng)只是提高數(shù)據(jù)驅(qū)動方法的性能和復(fù)雜性,掌握這些不可見的本質(zhì)成分才是至關(guān)重要的。

    2. 視覺—從數(shù)據(jù)驅(qū)動到任務(wù)驅(qū)動

    視覺系統(tǒng)應(yīng)該為其服務(wù)的智能體提供什么?從生物學(xué)的角度來看,大多數(shù)生物都運(yùn)用單一視覺系統(tǒng) (具有多個模塊)執(zhí)行數(shù)以千計的任務(wù)。與之形成鮮明對比的,則是當(dāng)今計算機(jī)視覺研究中的主流思路——單一模型專門針對單個任務(wù)而設(shè)計。在計算機(jī)視覺文獻(xiàn)中,這種在多種任務(wù)之間進(jìn)行泛化、適應(yīng)和遷移的有機(jī)范式被稱為以任務(wù)為中心的視覺[3]。在圖2 [4]展示的廚房中,即使是調(diào)一杯咖啡這樣簡單的任務(wù)也包含多個子任務(wù),包括查找物體(物體識別)、抓取物體(物體操控)、在冰箱中尋找牛奶并添加糖(任務(wù)規(guī)劃)。先前的研究表明,人可以利用單一視覺系統(tǒng)促進(jìn)各種子任務(wù)的完成[4],在1 min內(nèi)完成一杯咖啡的調(diào)制。

    神經(jīng)科學(xué)研究也表明了類似的結(jié)果:人類視覺系統(tǒng)比任何現(xiàn)有的計算機(jī)視覺系統(tǒng)都具有更強(qiáng)大的功能,并且不局限于記憶像素中的模式。例如,F(xiàn)ang和He [5]的研究表明,人類識別一張圖像中的人臉與識別可作為工具操作的物體的機(jī)制不同(圖3)。這一研究結(jié)果顯示人類對于工具外觀的視覺反應(yīng)甚至可能比對面部的視覺反應(yīng)更為靈敏和強(qiáng)烈。這驅(qū)使著我們思考有多少關(guān)于物體如何幫助執(zhí)行任務(wù)的推理是植根于視覺智能的。其他研究[6]也支持類似的結(jié)論——不需要明顯的動作,僅僅是工具的靜態(tài)圖像就可以“增強(qiáng)”動作。綜上這些研究結(jié)果,我們的生物視覺系統(tǒng)擁有一種感知物體功能(即如何將物體作為工具進(jìn)行操縱)的機(jī)制,而且該機(jī)制獨立于控制人臉識別(以及對其他物體的識別)的機(jī)制。所有這些研究結(jié)果都呼吁我們繼續(xù)探索人類視覺系統(tǒng)和自然智能的奧秘。

    2.1. “是什么”——以任務(wù)為中心的視覺識別

    正如20世紀(jì)70年代Potter [7,8]以及90年代Schyns和Oliva [9]及Thorpe [10]所觀察到的,人腦可以在200 ms內(nèi)掌握一張圖像中場景的“要點”。研究人員通常根據(jù)這一系列研究工作將分類問題當(dāng)作數(shù)據(jù)驅(qū)動過程[11-15],主要是在前饋網(wǎng)絡(luò)架構(gòu)中[16,17]。這種思路推動了過去10年中計算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域中的圖像分類研究,并使其取得了顯著進(jìn)展(包括近來成功的深度神經(jīng)網(wǎng)絡(luò)[18-20])。

    圖2 . 即使對于沏一杯茶這樣的簡單任務(wù),人也可以利用單一視覺系統(tǒng)執(zhí)行各種子任務(wù),以達(dá)到最終目的。(a)在一個小型矩形廚房中執(zhí)行同一沏茶任務(wù)時對于3個不同被試者的視覺注視記錄;(b)從眼動錄像帶中得出的注視方式示例;(c)沏茶過程中的一系列視覺和運(yùn)動事件。Rot:旋轉(zhuǎn);ktl:水壺。圖片摘自參考文獻(xiàn)[4],已得到SAGE Publication, ?1999的許可。

    盡管這些方法在公開數(shù)據(jù)集上的場景分類任務(wù)中表現(xiàn)出了良好的識別準(zhǔn)確度,最近的一項大規(guī)模神經(jīng)科學(xué)研究[21]顯示,當(dāng)前的深度神經(jīng)網(wǎng)絡(luò)無法解釋靈長類動物(包括人類和猴子)的圖像級行為模式。這需要更多的研究來更精確地解釋靈長類動物物體視覺的神經(jīng)機(jī)制。此外,數(shù)據(jù)驅(qū)動方法已將場景分類研究的關(guān)注點從視覺信息的重要決定因素,也就是分類任務(wù)本身[22,23]轉(zhuǎn)移開。同時,在這些方法中,分類與場景的語義信息互動并實現(xiàn)認(rèn)知推理的機(jī)制尚不明確。心理學(xué)研究表明,即使在“簡單”的分類識別任務(wù)中,人類視覺也會在推理過程中構(gòu)建表征。根據(jù)觀看者的需求(和任務(wù)目標(biāo)),視覺可以將廚房分類為一種室內(nèi)場景、烹飪場所、社交場所或者是個人擁有的廚房(詳見圖4 [24])。如參考文獻(xiàn)[24]所示,場景分類和信息收集過程會受到這些分類任務(wù)的約束[25,26],表明視覺輸入與觀看者的需求/任務(wù)目標(biāo)之間存在雙向的相互作用[23]。除了場景分類,在面部識別中也觀察到了類似的現(xiàn)象[27]。

    在早期的工作中,Ikeuchi和Hebert [28]受到機(jī)器人抓握研究的啟發(fā),提出了一種以任務(wù)為中心的表征。具體而言,在無需恢復(fù)詳細(xì)的3D模型的情況下,他們的分析表明,不同的抓握策略源于物體提供的不同功能;因此,同一物體的表征可以根據(jù)規(guī)劃的任務(wù)而變化(參見圖5 [28])。例如,握住杯子可能會導(dǎo)致兩種不同的握法——握住杯子主體的圓柱形抓握和握住杯子手柄的鉤抓握。這些發(fā)現(xiàn)還表明,視覺(在這種情況下是指識別可握住的部分)很大程度上受任務(wù)驅(qū)動;不同的任務(wù)導(dǎo)致不同的視覺表征。

    2.2. “在何處”——將3D場景的構(gòu)建作為一系列的任務(wù)

    在相關(guān)文獻(xiàn)中,3D機(jī)器視覺通常假定的目標(biāo)是從攝像機(jī)/觀察者的角度構(gòu)建一個準(zhǔn)確的3D場景模型。這些運(yùn)動恢復(fù)結(jié)構(gòu)(structure-from-motion, SfM)和同步定位與建圖(simultaneous localization and mapping,SLAM)方法[29]已成為3D場景重建中的主要范例。這其中,從單張二維(two-dimensional, 2D)圖像進(jìn)行三維場景重建是一個眾所周知的不適定問題——可能存在與投影的2D觀察圖像相匹配的無限數(shù)量的3D構(gòu)造[30]。但是,此處的目標(biāo)不是精確求解真實的3D構(gòu)造,而是使智能體通過在功能、物理和物體關(guān)系方面生成最佳的可能構(gòu)造來執(zhí)行任務(wù)。直到最近[31-38],大部分相關(guān)工作還是獨立于識別和語義方面來研究的(參見圖6 [36]的示例)。

    重建“認(rèn)知地圖”這一想法已有很長一段歷史[39]。然而,我們的生物視覺系統(tǒng)不依賴于特征和變換的精確計算;現(xiàn)有大量證據(jù)表明,人類以一種根本不同于當(dāng)前任何計算機(jī)視覺算法的方式來表征場景的3D結(jié)構(gòu)[40,41]。實際上,多項實驗研究并不支持全局度量表征[42-47];人類視覺在定位上容易出現(xiàn)錯誤和失真[48-52]。在一項案例研究中,Glennerster等[53]發(fā)現(xiàn)若觀察者在移動的同時執(zhí)行著各項任務(wù),那他對于周圍環(huán)境規(guī)模的急劇變化的不敏感程度十分令人驚訝。

    圖3 . 人腦背側(cè)和腹側(cè)通路對于不可見物體的皮層反應(yīng)。(a)實驗刺激(工具和面部)和實驗程序;(b)背側(cè)和腹側(cè)腦區(qū)都對工具和面部有反應(yīng),當(dāng)刺激被高對比度的動態(tài)紋理抑制時,背側(cè)區(qū)域仍然對工具有反應(yīng),但是對面部沒有反應(yīng),而工具和面部都沒有在腹側(cè)區(qū)域喚起顯著激活。圖片摘自文獻(xiàn)[5],已得到Nature Publishing Group,?2005的許可。

    在所有近期的證據(jù)中,網(wǎng)格細(xì)胞可能是印證了無需為視覺任務(wù)進(jìn)行精確3D重建的最著名的發(fā)現(xiàn)[54-56]。網(wǎng)格細(xì)胞對歐幾里得空間的認(rèn)知表征進(jìn)行編碼,暗含著不同的對位置和方向的感知和處理機(jī)制。這項發(fā)現(xiàn)后來被授予2014年的諾貝爾生理學(xué)或醫(yī)學(xué)獎。令人驚訝的是,這種神經(jīng)機(jī)制不僅存在于人類[57]中,還存在于小鼠[58,59]、蝙蝠[60]和其他動物中。Gao等[61]和Xie等[62]提出了一種網(wǎng)格細(xì)胞的表征模型,其中智能體的二維自我位置由高維向量表征,主體的二維自我運(yùn)動或位移由轉(zhuǎn)換這一向量的矩陣表征。這種基于矢量的模型能夠通過錯誤糾正、路徑積分和路徑規(guī)劃來學(xué)習(xí)網(wǎng)格細(xì)胞的六邊形模式。最近的一項研究也表明,在一些特定的人類導(dǎo)航任務(wù)中,基于視角的方法實際上比基于3D重建的方法表現(xiàn)得更好[63]。

    盡管有這些發(fā)現(xiàn),我們?nèi)绾卧趶?fù)雜環(huán)境中導(dǎo)航的同時保持返回原始位置(歸家)的能力,仍然是生物學(xué)和神經(jīng)科學(xué)領(lǐng)域中的一個謎團(tuán)。Vuong等[64]的近期研究為空間的任務(wù)相關(guān)表征提供了證據(jù),或許可以帶來一些啟發(fā)。具體而言,在此實驗中,參與者引起了較大且一致的、難以被任何單一3D表征解釋的指向誤差。他們的研究表明,維持視覺方向以達(dá)到看不見目標(biāo)的機(jī)制既不是基于穩(wěn)定的3D場景模型,也不是基于其畸變。相反,參與者似乎是塑造了一個扁平的、與任務(wù)相關(guān)的表征。

    2.3. 不止于“是什么”和“在何處”——邁向基于類人常識的理解場景

    圖4 . 參考文獻(xiàn)[24]中的實驗,展示了自上而下和自下而上的信息之間的診斷驅(qū)動的雙向交互作用,用于特定層次水平的場景分類。(a)在給相同場景輸入圖像的情況下,如果要求對象將場景分類為基本水平(如餐廳)(b)或下位水平(如自助餐廳)(c),被試對象將表現(xiàn)出不同的注視方式,這說明了場景分類是任務(wù)驅(qū)動的。圖片經(jīng)出版者許可進(jìn)行了改編。

    圖5 . 不同的抓取策略依托于不同的功能。圖片摘自參考文獻(xiàn)[28],已得到IEEE, ?1992的許可。

    圖6 . 以合成分析的方式[36]對3D室內(nèi)場景進(jìn)行解析和重構(gòu)的圖示。3D表征由單獨的視覺任務(wù)(如物體檢測和2D布局估計)進(jìn)行初始化。聯(lián)合推理算法通過比較渲染的法線、深度和分割圖與直接從輸入RGB圖像估計的結(jié)果之間的差異,迭代地調(diào)整3D結(jié)構(gòu)。圖片摘自文獻(xiàn)[36],已得到Springer, ?2018的許可。

    心理學(xué)研究表明,人類的視覺體驗比“是什么”和“在何處”要豐富得多。早在嬰兒時期,人類就能迅速有效地感知因果關(guān)系(例如,感知到物體A發(fā)射了物體B)[65,66]、智能體和意圖(例如,理解一個實體正在追逐另一個實體)[67-69],以及物理力的后果(例如,預(yù)測不穩(wěn)定的巖石堆將朝特定方向掉落)[70,71]。人類對諸如此類的社交和物理概念的感知既可以通過例如視頻[72]的信息稠密媒介獲得,也可以通過更加稀疏的視覺輸入[73,74]獲得,參見圖7中的示例。

    圖7 . (a)動畫展示了智能體的意圖、情緒和角色[73]。(a)在二維平面上移動的4個不同的圓盤的運(yùn)動和相互作用受潛在的物理屬性和動力學(xué)定律(如質(zhì)量、摩擦、全局力和成對力)的支配;(b)關(guān)于場景動態(tài)的直覺理論和反事實推理[74],臺球A和B碰撞的示意圖,其中實線表示球的實際運(yùn)動路徑,虛線表示如果場景中不存在A球,B球?qū)⑷绾我苿印?/p>

    為了使人工智能體具有類似的功能,我們倡導(dǎo)一個基于聯(lián)合表征的聯(lián)合推理算法,該聯(lián)合表征將整合:①物體、場景、動作、事件等“可見的”傳統(tǒng)識別類別;②“暗”的高階認(rèn)知概念:流態(tài)、因果、物理、功能性、可供性、意圖/目標(biāo)、效用等。這些概念又可以分為5個軸:流態(tài)和主觀因果、直覺物理、功能性、意圖和目標(biāo),以及效用和偏好,如下所述。

    2.3.1. 流態(tài)和主觀因果

    流態(tài)是由艾薩克·牛頓(Isaac Newton)[75]和Maclaurin [76]提出,并被人工智能和常識推理[77,78]采用的概念,它是指物體隨時間變化的瞬態(tài),比如杯子空著或被倒?jié)M、門上鎖、車燈閃爍以指示左轉(zhuǎn)、電話鈴響等;有關(guān)圖像中“暗”流態(tài)的其他示例,請參見圖8。流態(tài)與心理學(xué)研究中的主觀因果是相關(guān)的[79]。即使是視覺體驗有限的嬰兒,也天生具有從日常觀察中學(xué)習(xí)因果關(guān)系的能力,而這一能力引導(dǎo)著他們對事件語義信息進(jìn)行深入理解[80]。

    流態(tài)和主觀因果不同于物體的視覺屬性[81,82],后者在觀察過程中是永久的。例如,在短視頻片段中,人的性別是一種屬性,而不是流態(tài)。一些流態(tài)是可見的,但很大一部分流態(tài)是“暗”的。人類認(rèn)知具有先天的認(rèn)知能力(在嬰兒中可觀察到)[80]和強(qiáng)烈的內(nèi)在傾向,以感知動作與流態(tài)的變化之間的因果關(guān)系。例如,意識到撥動開關(guān)可導(dǎo)致燈被打開。要認(rèn)識到由動作引起的物體變化,我們必須要能夠感知和評測一個物體可變化的特性;因此,感知流態(tài)(比如電燈開關(guān)被設(shè)置為上方還是下方的位置)對于識別動作和了解事件的發(fā)展至關(guān)重要。大多數(shù)關(guān)于動作識別的視覺研究都非常關(guān)注人體在行走、跳躍和拍手等活動過程中的位置、姿勢和運(yùn)動,以及諸如飲酒和吸煙等姿勢與物體之間的交互作用[83-86]。但是大多數(shù)日常動作(如開門)是由因果關(guān)系決定的(門從“關(guān)閉”變?yōu)椤按蜷_”這個過程中流態(tài)的變化,無論它是如何被打開的),而不是由人的位置、位移或空間-時間特征[87,88]決定的。相同地,諸如穿衣服或搭帳篷之類的動作不能只通過其外觀特征來定義。它們的復(fù)雜性需要通過因果關(guān)系來理解??傮w而言,場景的狀態(tài)可以看作是記錄動作歷史的流態(tài)的集合。然而,盡管流態(tài)和因果推理在圖像和視頻中普遍存在,它們尚未在機(jī)器視覺中被系統(tǒng)地研究過。

    圖8 . 水和其他清澈的液體在人類的日常生活中起著重要的作用,但在圖像中幾乎檢測不到。(a)水只會引起外觀上的微小變化;(b)用虛線表示的“暗”實體:水、流態(tài)(此處為由三角形表示的杯子和水龍頭)以及人的意圖,動作(菱形)牽涉了智能體(五邊形)和杯子(圓圈里的物體)。

    2.3.2. 直覺物理

    心理學(xué)研究表明,近似牛頓法則是人類判斷動力學(xué)和穩(wěn)定性的基礎(chǔ)[89,90]。Hamrick等[71]和Battaglia等[70]的研究表明,牛頓原理和概率表征的知識被廣泛應(yīng)用于人類的物理推理,而直觀物理模型是達(dá)到人類水平的復(fù)雜場景理解的重要組成部分。其他研究表明,對于場景中的物體,人類會十分敏銳地觀察到場景中的物體違反某些已知的物理關(guān)系,或者是否看起來在物理上不穩(wěn)定[91-95]。

    不可見的物理場掌控著人造場景中物體的布局和擺放。通過人為設(shè)計,物體應(yīng)在面對重力和其他各種潛在干擾因素[96-98](如地震、陣風(fēng)或人為動作)時保持穩(wěn)定和安全。因此,任何3D場景的理解或解析(如物體定位和分割)都必須在物體規(guī)律上具有合理性[36,96-100](圖9)。這一觀察為場景理解設(shè)定了有效的約束條件,對于機(jī)器人應(yīng)用十分重要[96]。例如,在救災(zāi)現(xiàn)場的搜救任務(wù)中,機(jī)器人必須能夠推斷各種物體的穩(wěn)定性,以及哪些物體支撐著其他物體,然后再基于這些信息謹(jǐn)慎工作,避免造成更多危險干擾。理解穩(wěn)定性對于這一應(yīng)用以及許多其他機(jī)器人應(yīng)用至關(guān)重要。

    2.3.3. 功能性

    大多數(shù)人造場景的設(shè)計是為了滿足多種人類功能,如坐著、吃飯、社交和睡覺,并且滿足人類對這些功能的需求,如照明、溫度控制和通風(fēng)。這些功能和需求在圖像中是看不見的,但是它們塑造了場景布局[34,101]、幾何維度、物體形狀以及其材料選擇。

    通過功能性磁共振成像(functional magnetic resonance imaging, fMRI)和神經(jīng)生理學(xué)實驗,研究人員發(fā)現(xiàn)了前運(yùn)動皮層區(qū)域中的鏡像神經(jīng)元。這些神經(jīng)元被認(rèn)為是編碼了人與物體和場景交互的動作[102]。人腦中的概念不僅可以由原型(即當(dāng)前計算機(jī)視覺和機(jī)器學(xué)習(xí)方法中的示例)表征,也可以由功能表征[80]。

    2.3.4. 意圖和目標(biāo)

    認(rèn)知科學(xué)的研究[103]表明,人類強(qiáng)烈地傾向于將事件解釋為由智能體意圖所驅(qū)動的一系列目標(biāo)。這樣的目的論立場啟發(fā)了認(rèn)知科學(xué)文獻(xiàn)中將意圖估測作為一種逆規(guī)劃問題的一系列模型[104,105]。

    我們認(rèn)為意圖可以被視為智能體(人類和動物)的短暫狀態(tài),如“口渴”“饑餓”或“疲倦”。它們與物體的流態(tài)相似,但比其更加復(fù)雜,并且具有以下特征:①它們按一系列目標(biāo)進(jìn)行層級組織,是驅(qū)動一處場景中的動作和事件的主要因素;②它們完全是“暗”的,即無法用像素表示;③與響應(yīng)動作的流態(tài)的即時變化不同,意圖通常是在較長的時空范圍內(nèi)形成的。例如,在圖10 [72]中,當(dāng)一個人餓的時候在院子里看到了一輛餐車,他決定(打算)走向那輛車。

    圖9 . 推斷物體因人類活動和自然干擾而掉落的可能性。(a)想象的人類軌跡;(b)首要運(yùn)動空間的分布;(c)次要運(yùn)動區(qū)域;(d)通過整合首要動作與次要動作而建立的綜合人類運(yùn)動區(qū)域。5個物體a~e都是典型的干擾場:與其他對象(如桌子中央的物體a、在桌子下面的物體e以及在房間凹角的物體d相比,桌子邊緣的物體b和沿路徑的物體c(以意外碰撞的形式)表現(xiàn)出更大的受擾動可能。圖片摘自文獻(xiàn)[96],已得到IEEE,?2014的許可。

    在這個過程中,一種遠(yuǎn)距離的吸引關(guān)系被建立。本文隨后將對此進(jìn)行說明,每個功能性物體(如餐車、垃圾桶或自動售貨機(jī))都會在場景中發(fā)出一個與重力場或電場非常類似的吸引場。因此,一個場景具有許多層的吸引或排斥場(如難聞的氣味或者禁止踩踏的草叢),這些場完全是“暗”的。有某種意圖的人在這些場中的軌跡遵循拉格朗日力學(xué)中的最小作用量原理,即通過最小化隨時間積分的勢能和運(yùn)動能推導(dǎo)出所有運(yùn)動方程。

    意圖和目標(biāo)的推理對于以下視覺和認(rèn)知任務(wù)至關(guān)重要:①事件和軌跡的早期預(yù)測[106];②通過分析人體軌跡發(fā)現(xiàn)不可見的物體吸引/排斥場并識別其功能[72];③通過功能和活動來理解場景[25],其中吸引場在場景中的輻射范圍比近期研究中的功能圖[26,107]和可供性圖[108-110]更大;④理解一群人之間的多方面關(guān)系以及他們的角色[111-113];⑤理解和推斷智能體的心理狀態(tài)[114,115]。

    2.3.5. 效用和偏好

    給定智能體與3D場景進(jìn)行交互的一幅圖像或一段視頻,我們通??梢约僭O(shè)觀察到的智能體會做出接近最優(yōu)的選擇,來最大限度地減少任務(wù)成本。也就是說,我們可以假設(shè),在這個過程中智能體沒有欺騙或矯飾,這就是所謂的理性選擇理論,即一個理性人的行為和決策是通過最大化其效用函數(shù)來驅(qū)動的。在經(jīng)濟(jì)學(xué)和博弈論的機(jī)制設(shè)計領(lǐng)域里,此理論與顯示原理有關(guān)。在顯示原理中,我們假設(shè)每個智能體如實報告自己的偏好(參見文獻(xiàn)[116]中簡短的介紹性綜述)。建立人類效用的計算模型可以追溯到英國哲學(xué)家杰里米·邊沁(Jeremy Bentham),以及他關(guān)于功利主義的倫理學(xué)著作[117]。

    通過觀察理性人的行為和選擇,我們可以對他們的推理和學(xué)習(xí)過程進(jìn)行逆向工程,并估算出他們的價值觀。效用(或價值)也被用于人工智能(artificial intelligence, AI)領(lǐng)域的規(guī)劃體系中[例如,馬爾可夫決策過程(Markov decision process, MDP)],并且通常與任務(wù)狀態(tài)相關(guān)。然而,在MDP的相關(guān)文獻(xiàn)中,“價值”無法反映真實的人類偏好,但卻緊密依賴于智能體的行為[118]。我們認(rèn)為,這種效用驅(qū)動的學(xué)習(xí)可能比計算機(jī)視覺和人工智能領(lǐng)域中的傳統(tǒng)監(jiān)督學(xué)習(xí)更加穩(wěn)定。

    圖10 . 人們的軌跡被顏色編碼,以表示他們的共同目的地。三角形代表目的地,點則代表起點;例如,人們可能正走向餐車去購買食物(綠色),或者正要去自動售貨機(jī)買飲料解渴(藍(lán)色)。由于分辨率低、照明條件差,以及被遮擋住,僅根據(jù)其外觀和形狀很難檢測出位于目的地的物體。圖片摘自文獻(xiàn)[72],已得到IEEE, ?2018的許可。

    2.3.6. 小結(jié)

    FPICU的5個域盡管看上去有明顯的不同,但是它們之間有理論上的重要聯(lián)結(jié)。這些相互聯(lián)結(jié)具有以下特征:①5個FPICU域通常不容易投射到明確清晰的視覺特征上;②大多數(shù)現(xiàn)有的計算機(jī)視覺和人工智能算法都對這些域無能為力,(在大多數(shù)情況下)也根本不適用;③人類視覺在這些域中仍然非常高效,而且人類水平的推理往往基于FPICU的先驗知識和能力。

    我們認(rèn)為,如果將這5個關(guān)鍵要素結(jié)合在一起,將至少可以在3個方面推動視覺或人工智能系統(tǒng)的發(fā)展。

    (1)泛化。作為更高階的表征,F(xiàn)PICU的概念在整體的人類生活空間中基本上是全局不變的。因此,在一個場景中學(xué)習(xí)到的知識可以遷移到新的情境中。

    (2)小樣本學(xué)習(xí)。 為了理解環(huán)境、事件和智能體的行為,F(xiàn)PICU對必要的先驗知識進(jìn)行編碼。由于FPICU比外觀或幾何特征更加穩(wěn)定,即使沒有大數(shù)據(jù),F(xiàn)PICU也可以跨領(lǐng)域和數(shù)據(jù)源進(jìn)行更一致且不受噪聲困擾的學(xué)習(xí)。

    (3)雙向推斷。使用FPICU進(jìn)行推理需要將基于抽象知識的自上而下的推理,與基于視覺模式檢測的自下而上的推理結(jié)合起來。這意味著系統(tǒng)不僅會繼續(xù)像現(xiàn)在一樣,通過觀察以像素表示的可見場景進(jìn)行數(shù)據(jù)驅(qū)動推理,還要基于FPICU的理解進(jìn)行推理。這兩個過程可以互相促進(jìn),從而提高系統(tǒng)的整體表現(xiàn)。

    在隨后的5個章節(jié)中,我們將會十分詳細(xì)地討論這5個關(guān)鍵要素。

    3. 因果感知和推理—深入理解的基礎(chǔ)

    因果關(guān)系是由我們所感知的環(huán)境產(chǎn)生的關(guān)于原因和結(jié)果的抽象概念。因此,因果關(guān)系可以用作構(gòu)造時間和空間概念的先驗基礎(chǔ)[119-121]。人們對原因有與生俱來的假設(shè),且因果推理幾乎可以被完全自動且不可抗拒地激活[122,123]。我們認(rèn)為,因果是其他4個FPICU要素(物理、功能、意圖和效用)的基礎(chǔ)。例如,一個智能體必須能夠推理出他人行為的原因,以便理解他人的意圖。它也必須能夠理解自己的行為可能造成的影響,以便更恰當(dāng)?shù)厥褂霉δ苄晕矬w。在一定程度上,人類的很多理解都取決于理解因果關(guān)系的能力。如果不理解導(dǎo)致某個動作的原因,我們很難想到接下來可能發(fā)生什么,并及時且恰當(dāng)?shù)仨憫?yīng)。

    在本節(jié)中,我們首先簡要回顧心理學(xué)領(lǐng)域中關(guān)于因果感知和推理的研究,隨后回顧統(tǒng)計學(xué)習(xí)領(lǐng)域中類似的研究工作。我們以計算機(jī)視覺和人工智能領(lǐng)域中對于因果學(xué)習(xí)的案例研究作為本節(jié)的結(jié)尾。

    3.1. 人類的因果感知與推理

    人類通過高階認(rèn)知推理來思考因果關(guān)系。但是我們能否像看到顏色和深度那樣,直接從視覺中“看到”因果?通過一系列的行為實驗,Chen和Scholl [124]的研究表明,人類視覺系統(tǒng)可以通過常識性的視覺推理來感知因果歷史,并且可以根據(jù)推斷出的潛在因果歷史來表征物體——本質(zhì)上就是通過思考“它們是如何變成這樣的”來表征形狀。因果關(guān)系本身不能直接從視覺本身解釋;一個智能體只有站在遠(yuǎn)端世界才能理解因果關(guān)系[125]。

    早期的心理學(xué)研究側(cè)重于將一種關(guān)聯(lián)機(jī)制作為人類因果學(xué)習(xí)和推理的基礎(chǔ)[126]。在這段時間里,Rescorla-Wagner模型被用來解釋人類(和動物)如何利用一同出現(xiàn)的知覺刺激來預(yù)期即將發(fā)生的事件[127]。但是,最近的研究表明,人類因果學(xué)習(xí)是一種理性的貝葉斯過程[125,128,129]。這種學(xué)習(xí)涉及了抽象因果結(jié)構(gòu)的獲取[130,131]和因果關(guān)系的強(qiáng)度值[132]。

    最早對于因果感知的系統(tǒng)性研究來自于心理學(xué)家Michotte [79]對一個臺球(A)撞擊另一個臺球(B)的觀察;詳細(xì)說明見圖11 [133]。在經(jīng)典演示中,球A在碰到B的瞬間停止,而B立即開始以與A相同的速度運(yùn)動。這種視覺展示不僅描述了運(yùn)動,還描 述了A“發(fā)射”B的因果相互作用。這種“發(fā)射效應(yīng)”的感知具有一些值得注意的特性,下面我們將對其進(jìn)行列舉,文獻(xiàn)[133]中有更加詳細(xì)的綜述。

    (1)不可抗拒性。即使一個人被明確告知A和B只是不能進(jìn)行機(jī)械交互的像素塊,人們?nèi)匀幌癖黄仁挂话愀兄绞茿發(fā)射了B。人們無法忽略明顯的因果關(guān)系,就像無法無視顏色和深度一樣。

    (2)被運(yùn)動的時空模式緊密控制。僅在A的停止和B的啟動之間增加一個很小的時間間隔,人們就會失去對發(fā)射效應(yīng)的感知,B的動作就將被視為是自發(fā)的。

    西部受援高校學(xué)科競爭力比較分析——基于基本科學(xué)指標(biāo)數(shù)據(jù)庫和科研評價工具數(shù)據(jù)庫………………蔡文伯 楊麗雪(1·76)

    (3)豐富性。即使是兩個球的相互作用也可以支持多種因果效應(yīng)。例如,如果B的移動速度比A的移動速度快(相比于A與B的移動速度相同),人們便不會感知到A“觸發(fā)”了B。主觀因果還包括“夾帶”——只是在表面上與發(fā)射相同,而實際上有一個明顯的區(qū)別:A在觸碰到B后,繼續(xù)與B一起運(yùn)動。

    近來的認(rèn)知科學(xué)研究[134]提供了更加引人注目的證據(jù):人的視覺在因果關(guān)系中植根之深,使得色彩和因果之間的類比更加強(qiáng)烈深刻。在人類視覺科學(xué)中,“適應(yīng)”是指觀察者在持續(xù)觀察一段時間后適應(yīng)刺激源,從而對這些刺激源的知覺反應(yīng)變?nèi)醯默F(xiàn)象。在某種特殊類型的適應(yīng)中,刺激源必須在由視網(wǎng)膜和視覺皮層共享的參照系中出現(xiàn)在相同的位置上。這種類型的視網(wǎng)膜適應(yīng)已被視為對刺激源的早期視覺處理的有力證據(jù)。例如,眾所周知的由顏色感知引發(fā)的視網(wǎng)膜適應(yīng)[135]。令人驚訝的是,最近的證據(jù)表明,視網(wǎng)膜適應(yīng)也發(fā)生于因果關(guān)系的感知中。在長時間觀察觸發(fā)效應(yīng)之后,只有當(dāng)隨后觀看的演示位于相同的視網(wǎng)膜坐標(biāo)時,觀察者才會更高頻地將它判定為非因果關(guān)系。這意味著物理上的因果關(guān)系在早期視覺處理階段就已經(jīng)被提取。將視網(wǎng)膜適應(yīng)作為一種工具后,Kominsky和Scholl [136]最近探索了發(fā)射與夾帶(A球觸碰到B球后一起移動)是否屬于本質(zhì)上完全不同的范疇。結(jié)果表明,視網(wǎng)膜的特異性適應(yīng)在觸發(fā)和夾帶之間沒有遷移,說明了在視覺中的確存在著本質(zhì)上不同的因果感知范疇。

    因果感知的重要性不僅僅是在不同的因果事件上貼上標(biāo)簽。因果關(guān)系的一項獨特功能是支持反事實推理。觀察者利用他們的反事實推理能力來解釋視覺上的發(fā)現(xiàn)。換句話說,解釋不僅基于觀察到的內(nèi)容,而且也基于本應(yīng)當(dāng)發(fā)生但未發(fā)生的事情。在一項研究[137]中,參與者觀看了移除了目標(biāo)球去向的臺球撞擊視頻,并被要求判斷一個臺球是引起另一個球運(yùn)動還是阻止其通過出入口。參與者的觀看方式和判斷表明,他們模擬了從場景中被移除的部分。參與者越確定結(jié)果會有所不同,他們對因果關(guān)系的判定就越強(qiáng)。這些結(jié)果清楚地表明,自發(fā)的反事實模擬在場景理解中起著至關(guān)重要的作用。

    3.2. 因果遷移——機(jī)器智能的挑戰(zhàn)

    圖11 . Michotte對于感知因果的一些基本示例,關(guān)于對兩個物體A和B(此處顯示為紅色和綠色圓圈)的感知。(a)發(fā)射效應(yīng);(b)夾帶效應(yīng)——A似乎與B一起向前;(c)通過在A和B的運(yùn)動之間添加一個短暫的時間間隔來消除發(fā)射效應(yīng);(d)觸發(fā)效應(yīng)——盡管是由A引起的,B的動作卻被視為是自主的;(e)在A的最終位置和B的初始位置之間增加空間距離也消除了發(fā)射效應(yīng);(f)工具效應(yīng)——中間物體(灰色圓圈)看上去只是A用來觸動一連串動作的一種工具。這些只是人類直觀理解的物體之間眾多因果關(guān)系中的一部分,而AI必須學(xué)會識別這些因果關(guān)系。圖片摘自文獻(xiàn)[133],已得到Elsevier Science Ltd., ?2000的許可。

    盡管以上所有證據(jù)都證明了因果在人類視覺中起到重要而獨特的作用,但是在研究中仍然存在著很多關(guān)于因果理解對于高級機(jī)器智能是否必要的爭論。但是,理解因果概念對于預(yù)期在具有共同隱藏機(jī)制的觀測變化域中運(yùn)作的智能體而言至關(guān)重要。具體而言,我們在地球上的環(huán)境嚴(yán)格遵守著相對恒定的環(huán)境動力學(xué),例如恒定的重力。也許更重要的是,我們世界的大部分是由他人設(shè)計的,并且在很大程度上遵循常見的因果概念:開關(guān)可以打開和關(guān)閉物件,旋鈕可以打開門,等等。即使處于不同場景中的物體看起來有所不同,它們的因果效應(yīng)也因為符合一致的因果設(shè)計而保持不變。因此,對于預(yù)期在人為設(shè)計但不斷變化的環(huán)境中工作的智能體而言,能夠?qū)W習(xí)可泛化和可轉(zhuǎn)移的因果理解至關(guān)重要。

    深度強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)一類的系統(tǒng)近來十分流行,并被廣泛應(yīng)用[138-142],但是其中的絕大多數(shù)都沒有學(xué)習(xí)明確的因果關(guān)系。這給在當(dāng)今主導(dǎo)的機(jī)器學(xué)習(xí)范式[143,144]下的遷移學(xué)習(xí)帶來了巨大挑戰(zhàn)。解決此挑戰(zhàn)的一種方法是學(xué)習(xí)環(huán)境的因果編碼,因為因果知識本就編碼了世界的可遷移表征。假設(shè)世界的動態(tài)是恒定的,因果關(guān)系就一直是真實的,且與觀察到的環(huán)境變化(如更改對象的顏色、形狀或位置)無關(guān)。

    在一項研究中,Edmonds等[131]提出了一個復(fù)合的分層任務(wù),要求人類對抽象的因果結(jié)構(gòu)進(jìn)行推理。這項工作提出了一套虛擬的“密室逃脫”,智能體必須操縱一系列的杠桿來打開一扇門(參見圖12 [131]中的示例)。值得注意的是,此任務(wù)在設(shè)計的時候,就希望通過要求智能體找到所有逃離房間的方法(不只有一種方法),以促使其形成對逃離房間因果結(jié)構(gòu)的內(nèi)在表達(dá)。這一工作使用了三桿和四桿的房間以及兩個因果結(jié)構(gòu):共同原因(common cause, CC)和共同結(jié)果(common effect,CE)。這些因果結(jié)構(gòu)將不同的組合編碼為房間的鎖。

    圖12 . 參考文獻(xiàn)[131]中展示的開鎖任務(wù)。(a)三桿試驗的初始配置。所有操縱桿都被拉向機(jī)械臂,機(jī)械臂的基座固定在顯示屏的中央。機(jī)械臂通過向外推動或向內(nèi)拉動與杠桿產(chǎn)生相互作用。這可以分別通過點擊杠桿徑向軌道的外部或內(nèi)部區(qū)域來實現(xiàn)。在每種鎖定情況下,事實上只需要一系列推的動作即可解鎖門。淺灰色的桿始終處于鎖定狀態(tài),人類受試者和受訓(xùn)于強(qiáng)化學(xué)習(xí)(RL)的智能體在訓(xùn)練開始時對此都不知情。門解鎖后,可以單擊綠色按鈕來指示機(jī)械臂將門推開。位于門紅色鉸鏈對面的黑色圓圈表示門鎖指示器:如果已鎖定則顯示,如果未鎖定則不顯示。(b)推桿。(c)單擊綠色按鈕打開門。

    此任務(wù)設(shè)置是獨特且具有挑戰(zhàn)性的,主要有兩個原因:①在房間之間轉(zhuǎn)移智能體,測試了它是否形成了環(huán)境的抽象表征;②在三桿房間和四桿房間之間的轉(zhuǎn)移則考察了在相似但不同的因果情景中,智能體對因果知識的適應(yīng)程度。

    在表面不同但結(jié)構(gòu)相同的因果環(huán)境下,人類受試者表現(xiàn)出非凡的獲取和轉(zhuǎn)移知識的能力(見圖13 [131,145]中的比較)。在一致和不一致的情況下,人類表現(xiàn)都趨近于最佳性能,并在增加了一根杠桿的房間中表現(xiàn)出正向的遷移效應(yīng)。對比之下,近來的深度強(qiáng)化學(xué)習(xí)方法無法解釋必要的因果抽象化,并且顯示出負(fù)向的遷移效應(yīng)。這些結(jié)果表明,在當(dāng)前機(jī)器學(xué)習(xí)范式下運(yùn)行的系統(tǒng)無法學(xué)習(xí)適用而抽象的環(huán)境編碼。也就是說,它們并沒有學(xué)習(xí)抽象的因果編碼。因此,我們將從感知和交互中學(xué)習(xí)因果理解視為當(dāng)前人工智能系統(tǒng)面臨的一種“暗物質(zhì)”,應(yīng)在以后的研究工作中對其進(jìn)行進(jìn)一步探討。

    3.3. 統(tǒng)計學(xué)習(xí)中的因果

    Rubin [146]的開創(chuàng)性論文“在隨機(jī)和非隨機(jī)研究中估計實驗對象的因果效應(yīng)”奠定了因果分析在統(tǒng)計學(xué)習(xí)中的基礎(chǔ)(另請參見參考文獻(xiàn)[147])。這項研究工作中呈現(xiàn)的構(gòu)想通常被稱為Rubin因果模型。此模型中的關(guān)鍵概念是潛在結(jié)果。在最簡單的情況下,每個受試者有兩種可能的對照條件(如吸煙或不吸煙),其因果效應(yīng)被定義為實驗對照條件的潛在結(jié)果的差異。因果推理的困難在于:對于每個受試者,我們僅觀察實際分配給該受試者的實驗對象的結(jié)果;另一實驗對象的潛在結(jié)果(假如將另一個不同的實驗對象分配給同一個受試者)是缺失的。如果每個受試者的實驗對象的分配取決于兩組實驗對象的潛在結(jié)果,則對實際分配給受試者的實驗對象的觀察平均結(jié)果進(jìn)行樸素的分析,將得出誤導(dǎo)性結(jié)論。此問題的常見表現(xiàn)是存在同時影響實驗對象分配和潛在結(jié)果的隱變量(如既影響吸煙傾向又影響健康的遺傳因素)。研究人員開展了大量的研究以解決這個問題。一個非常突出的例子是傾向得分[148],即在給定受試者背景變量的情況下為受試者分配某一組實驗對象的條件概率。通過比較具有相似傾向得分的受試者,進(jìn)行有效的因果推斷變?yōu)榱丝赡堋?/p>

    圖13 . 學(xué)習(xí)因果的人和典型的強(qiáng)化學(xué)習(xí)智能體之間的比較[145]。共同原因4(CC4)和共同結(jié)果4(CE4)表示Edmonds等使用的兩種遷移條件[131]。(a)人類參與者在四桿CC4(左)和CE4(右)條件下尋找所有不同的解決方案所需的平均嘗試次數(shù),表明學(xué)習(xí)后有正向的因果遷移。淺灰色和深灰色條分別代表“CC3”和 “CE3”條件下的訓(xùn)練。誤差棒表示平均值的標(biāo)準(zhǔn)誤差。(b)相反,強(qiáng)化學(xué)習(xí)智能體難以通過遷移所學(xué)知識來解決類似任務(wù)?;€(無遷移)結(jié)果表明,到CC4和CE4的基線訓(xùn)練結(jié)束時,性能最佳的算法[近端策略優(yōu)化(proximal policy optimization, PPO)和信任區(qū)域策略優(yōu)化(trust region policy optimization, TRPO)]分別成功完成10次和25次嘗試。異步優(yōu)勢動作評價算法(advantage actor-critic, A2C)是唯一呈現(xiàn)出正向遷移的算法;A2C在CC4條件下的訓(xùn)練中表現(xiàn)更好。DQN:深度Q網(wǎng)絡(luò)(deep Q-network);DQN (PE):具有優(yōu)先體驗重放功能的深度Q網(wǎng)絡(luò)(deep Q-network with prioritized experience replay);MAML: model-agnostic meta-learning。

    因果關(guān)系在Pearl的概率圖模型[即因果貝葉斯網(wǎng)絡(luò)(causal Bayesian network, CBN)]中得到了進(jìn)一步發(fā)展[149]。CBN使經(jīng)濟(jì)學(xué)家和流行病學(xué)家能夠推斷出無法在現(xiàn)實世界中干預(yù)的變量數(shù)值。在此框架下,模型的參數(shù)可以由專家提供,也可以從數(shù)據(jù)中學(xué)習(xí)到。使用do算符在模型中進(jìn)行推理,該模型使建模者可以回答“如果X被干預(yù),并設(shè)置為特定值,那么Y會受到什么影響?”。同時,研究人員著手從觀測數(shù)據(jù)中恢復(fù)因果關(guān)系[150],試圖確定在什么情況下可以從純粹的觀測數(shù)據(jù)中確定結(jié)構(gòu)(CBN中兩個變量之間的邊的存在和方向)[150-152]。

    這一框架是在現(xiàn)實世界中難以(如果不是不可能)干預(yù)的領(lǐng)域(如經(jīng)濟(jì)學(xué)和流行病學(xué))中強(qiáng)有力的工具,但是缺乏許多類人的人工智能的必要屬性。首先,盡管嘗試了從觀測數(shù)據(jù)中學(xué)習(xí)因果結(jié)構(gòu),但是大多數(shù)結(jié)構(gòu)學(xué)習(xí)的方法都無法成功,除了確定了可能結(jié)構(gòu)的馬爾可夫等價類 [152];因此,結(jié)構(gòu)學(xué)習(xí)仍然是一個未解決的問題。最近的工作試圖通過引入積極干預(yù)來解決這一局限,使智能體能夠探究無方向的因果邊緣的潛在方向[153,154]。但是,可能的結(jié)構(gòu)和參數(shù)空間隨著變量增加呈指數(shù)式增長,將CBN的應(yīng)用限制在只有少數(shù)變量的情況下。這種困難部分是由于CBN施加了嚴(yán)格的形式化表達(dá),因此所有可能的關(guān)系都必須考慮到。類人的AI應(yīng)該能夠?qū)⒖赡荜P(guān)系的空間限制為基于智能體對世界的理解的啟發(fā)而得出的“合理”情況,雖然這種學(xué)習(xí)過程可能不會產(chǎn)生出真正的因果關(guān)系模型。也就是說,我們建議在構(gòu)建類人的人工智能時,學(xué)習(xí)者應(yīng)放寬CBN施加的形式化表達(dá),以在不忽略外顯因果結(jié)構(gòu)的情況下容納更多的變量(目前幾乎所有深度學(xué)習(xí)模型都這樣做)。為了彌補(bǔ)這一近似性,學(xué)習(xí)者應(yīng)處于主動學(xué)習(xí)和干預(yù)學(xué)習(xí)的常態(tài)。在此狀態(tài)下,他們的內(nèi)部因果世界模型會通過新的確認(rèn)或矛盾證據(jù)進(jìn)行更新。

    3.4. 計算機(jī)視覺中的因果

    Fisher的隨機(jī)對照實驗[155]是對于因果關(guān)系學(xué)習(xí)的一種經(jīng)典而科學(xué)的臨床場景。在這種范式下,實驗者控制盡可能多的混淆變量,以嚴(yán)格限制對因果關(guān)系的評估。盡管這一范式對于形式科學(xué)有效,但它與人類僅通過觀察即可感知因果關(guān)系的能力形成了鮮明對比[126,127,133]。這些工作表明,人的因果感知不像形式科學(xué)那樣縝密,但是在學(xué)習(xí)和理解日常事件中仍然有效。

    因此,計算機(jī)視覺和人工智能方法應(yīng)重點關(guān)注人類如何從觀測數(shù)據(jù)中感知因果關(guān)系。 Fire和Zhu [156,157]提出了一種從圖像和視頻輸入中學(xué)習(xí)“暗”因果關(guān)系的方法,如圖14 [156]所示。在這項研究中,系統(tǒng)學(xué)習(xí)了門、燈和屏幕的狀況如何與人類行為相關(guān)聯(lián)。他們的方法通過在不同的時間間隔問相同的問題來實現(xiàn)迭代:“給定觀測的視頻和當(dāng)前的因果關(guān)系模型,應(yīng)在模型中添加什么因果關(guān)系,以最佳匹配觀察到的描述因果事件的統(tǒng)計數(shù)據(jù)?”為了回答這個問題,該方法利用了信息投影框架[158],在添加因果關(guān)系后將信息增益最大化,然后將模型與觀測的統(tǒng)計數(shù)據(jù)之間的差異最小化。

    此方法已在包含日常生活場景的視頻數(shù)據(jù)集上進(jìn)行了測試:打開門、注水、打開燈、在計算機(jī)上工作等。在信息投影框架下,得分最高的因果關(guān)系始終與人類在一個場景中察覺到的某個導(dǎo)致的原因相匹配,而得分低的因果關(guān)系則與人類在一個場景中不認(rèn)為是某個導(dǎo)致的原因相匹配。這些結(jié)果表明,信息投影框架能夠捕捉到學(xué)習(xí)因果的人做出的相同判斷。雖然計算機(jī)視覺方法完全基于觀察,因此不能保證揭示完整和真實的因果結(jié)構(gòu),但主觀因果提供了一種從觀測數(shù)據(jù)中實現(xiàn)類人學(xué)習(xí)的機(jī)制。

    因果關(guān)系對于人們對視頻的理解和推理至關(guān)重要,例如,與追蹤與可見性可能隨時間變化的物體進(jìn)行互動的人類。Xu等[159]使用因果與或圖(causal and-or graph, C-AOG)模型來解決這種“可見性流態(tài)推理”問題。他們將物體的可見性狀態(tài)視為一個流態(tài)的變量,其變化主要歸因于其與周圍環(huán)境的互動。例如,越過另一個物體,進(jìn)入建筑物和車輛。提出的C-AOG可以表示物體活動與其可觀測的流態(tài)之間的因果關(guān)系?;诖?,研究人員開發(fā)了一個可以聯(lián)合推理可視性流態(tài)變化和追蹤人類的概率圖形模型。實驗結(jié)果表明,通過因果推理,它們可以恢復(fù)并描述人類在復(fù)雜場景中頻繁交互的完整軌跡。Xiong等[160]也將因果關(guān)系定義為因相關(guān)動作而引起的流態(tài)變化,并使用C-AOG描述了機(jī)器人在觀察人類疊衣服后成功做出相同動作所表現(xiàn)出的因果理解。

    4. 直覺物理—物質(zhì)世界的線索

    感知因果關(guān)系并通過感知的內(nèi)容與環(huán)境互動,需要對世界在物理層面上的運(yùn)行方式具有常識性理解。物理上的理解并不一定要求我們精確或顯式地引用牛頓的力學(xué)定律。我們依靠的是通過與周圍環(huán)境的互動而積累的直覺。人類擅長理解他們所處的物理環(huán)境,也擅長與在動態(tài)狀態(tài)中變化的物體進(jìn)行互動,從而根據(jù)觀察到的活動做出近似的預(yù)測。這些活動中蘊(yùn)含的知識被稱為直覺物理[161]。在認(rèn)知科學(xué)研究中,直覺物理領(lǐng)域已經(jīng)被探索了幾十年,最近被與人工智能相關(guān)的新技術(shù)重新注入了活力。

    圖14 . 計算機(jī)視覺[156]中的感知因果示例,其中包含門的狀態(tài)、燈光狀態(tài)和屏幕狀態(tài)的因果與或圖。動作A0表示無動作狀態(tài)(缺少狀態(tài)變化的智能體動作)。屏幕保護(hù)程序激活時,無動作狀態(tài)也用于解釋顯示器狀態(tài)更改為關(guān)閉的變化。箭頭從原因指向結(jié)果,無方向的線表示確定性定義。

    令人驚訝的是,人類早在大多數(shù)其他類型的高級推理之前就發(fā)展了物理直覺[80],這表明了它在人類理解物質(zhì)世界,以及與物質(zhì)世界互動過程中的重要性。物理理解植根于視覺處理這一事實,使完成視覺任務(wù)成為未來機(jī)器視覺和人工智能系統(tǒng)研究的重要目標(biāo)。在這一節(jié)中,我們首先將簡短回顧人類認(rèn)知中的直覺物理,隨后回顧計算機(jī)視覺和人工智能中使用的基于物理的模擬和物理約束,以理解圖像和場景的最新研究進(jìn)展。

    4.1人類認(rèn)知中的直覺物理

    直覺物理的早期研究提供了幾個例子,其中反映了人類對環(huán)境中物體的物理表現(xiàn)產(chǎn)生了普遍的誤解。例如,幾項研究發(fā)現(xiàn),當(dāng)被要求根據(jù)某一時刻情況的靜態(tài)圖像明確推理動態(tài)事件的預(yù)期發(fā)展時,人類表現(xiàn)出了與牛頓物理原則的顯著偏差[162,163]。但是,一旦提供了動態(tài)和恰當(dāng)?shù)纳舷挛?,隨后的實驗發(fā)現(xiàn)人類對物理的直覺理解比之前實驗展示出的結(jié)果更加準(zhǔn)確、豐富和復(fù)雜[164-168]。

    這些較新的發(fā)現(xiàn)與20世紀(jì)50年代系統(tǒng)性研究的嬰兒物理知識發(fā)展[169,170]有本質(zhì)的不同。研究結(jié)果差異如此大的原因是:較早的研究任務(wù)不僅包括對物理知識進(jìn)行推理的任務(wù),還包括其他任務(wù)[171,172]。為了解決這些困難,研究人員開發(fā)了替代性的實驗方法[92,173-175],以研究嬰兒發(fā)育過程中對物理知識的理解。使用最廣泛的方法是“違背預(yù)期法”,實驗中嬰兒會看到兩個測試:與期望相符的預(yù)期事件和違反期望的意外事件。一系列此類研究提供了有力的證據(jù),證明即使是年幼的嬰兒也對各種物理事件有著預(yù)期[176,177]。

    人類只需要一瞬間就能感知一堆碗碟是否會傾倒,樹枝是否能支撐孩子的重量,工具是否可以被舉起,以及物體是否可以被抓住或被避開。在這些復(fù)雜且動態(tài)的事件中,感知、預(yù)測以及基于此與物理世界中的物體進(jìn)行恰當(dāng)互動的能力,都依靠對環(huán)境的快速物理推斷。因此,直覺物理是人類常識知識的核心組成部分,可以實現(xiàn)對物體和場景的廣泛理解。

    在早期的研究工作中,Achinstein [178]認(rèn)為大腦建立心智模型,通過心智模擬來支持推理。這與工程師使用模擬來預(yù)測和操縱復(fù)雜的物理系統(tǒng)(例如,在施工前分析橋梁設(shè)計的穩(wěn)定性和破壞模式)的方式類似。最近的一項腦成像研究[179]支持了這一觀點。該研究表明,當(dāng)人們進(jìn)行物理推斷時,即使只是簡單地查看物理豐富的靜態(tài)場景,系統(tǒng)的頂葉和額葉區(qū)域也會參與其中。這些發(fā)現(xiàn)說明,這些腦區(qū)使用廣義的心理引擎來進(jìn)行直覺物理推斷,即大腦的“物理引擎”。相比對于非物理但非常相似的場景和任務(wù)進(jìn)行推斷時,這些腦區(qū)在進(jìn)行物理推斷時更加活躍。重要的是,這些區(qū)域不僅參與物理推理,還與參與動作規(guī)劃和工具使用的腦區(qū)重疊。這表明,在理解直覺物理的認(rèn)知神經(jīng)機(jī)制與準(zhǔn)備恰當(dāng)動作的機(jī)制之間,存在著非常密切的關(guān)系。這是人腦中將知覺與運(yùn)動聯(lián)系起來的關(guān)鍵成分。

    為了構(gòu)建類人的常識知識,必須在智能體的環(huán)境理解中明確表征一個直覺物理的計算模型。該模型應(yīng)該可以支持任何涉及物理的任務(wù)的執(zhí)行,而不僅僅是支持一個小任務(wù)。這一要求與人工智能近期的“端到端”范式背道而馳,在后者中,神經(jīng)網(wǎng)絡(luò)將輸入圖像直接映射到特定任務(wù)的輸出動作,而將隱藏的內(nèi)部任務(wù)表征“糅合”到網(wǎng)絡(luò)的權(quán)重中。

    認(rèn)知科學(xué)的最新突破提供了有力證據(jù),支持了人類場景理解中直覺物理模型的存在。該證據(jù)表明,人類通過在心理物理引擎中運(yùn)行概率模擬來進(jìn)行物理推斷,這類似于在視頻游戲中使用的3D物理引擎[180](圖15 [70])。人類的直覺物理可以被建模為具有貝葉斯概率模型的近似物理引擎[70],它具有以下獨特的特性。①通過進(jìn)行粗略的前向物理模擬來實現(xiàn)物理判斷;②與計算機(jī)圖形學(xué)中開發(fā)的精確的物理引擎不同,模擬是隨機(jī)的。例如,在參考文獻(xiàn)[70]中提出的塔架穩(wěn)定性任務(wù)中,每一塊的確切物理屬性尚不確定,服從于一個概率分布。在每次模擬中,模型首先對塊的屬性進(jìn)行采樣,然后通過在短時間間隔內(nèi)遞歸應(yīng)用基本物理規(guī)則來生成預(yù)測狀態(tài)。此過程可以創(chuàng)建一個模擬結(jié)果的分布;然后在結(jié)果中將塔的穩(wěn)定性表示為塔不倒下的概率。由于其隨機(jī)性,此模型僅在能承受住部件的細(xì)微抖動或其他干擾的情況下,才將塔判斷為穩(wěn)定。這個單一模型擬合了來自5個不同心理物理學(xué)任務(wù)的數(shù)據(jù),捕捉了人認(rèn)知中的幾種錯覺和偏差,并解釋了心智模型和常識性推理的核心對人類如何理解日常生活的重要性。

    最近的研究表明,直覺的物理認(rèn)知并不局限于對剛體的理解,還擴(kuò)展到對流體[181,182]和沙子[183]的物理特性的感知和模擬。在這些研究中,實驗證明,人類不依靠簡單的、定性的啟發(fā)式來推理流體或顆粒的動態(tài)。相反,他們依靠感知到的物理變量進(jìn)行定量判斷。這些研究結(jié)果提供了匯集的證據(jù),支持了物理推理中的心理模擬的觀點。有關(guān)心理學(xué)中直覺物理研究的更深入的綜述請參見文獻(xiàn)[184]。

    4.2. 計算機(jī)視覺中基于物理的推理

    經(jīng)典計算機(jī)視覺研究側(cè)重于對外觀和幾何形狀的推理——圖像中具有高度可見性的、可以用像素表征的方面。統(tǒng)計建模[185]旨在捕捉“這個世界以各種形式生成的模式,及其所有自然產(chǎn)生的復(fù)雜性和模糊性,其目的是重構(gòu)生成這些模式的過程、物體和事件[186]。”馬爾認(rèn)為,二維圖像的感知是一個顯示的多相信息加工過程[1],涉及①早期視覺系統(tǒng):用于感知紋理[187,188]和紋理基元[189,190],以形成原始草圖[191,192];②中級視覺系統(tǒng):用于形成2.1維[193-195]和2.5維[196]的草圖;③高級視覺系統(tǒng):用于完整的3D場景形成[197-199]。馬爾尤其強(qiáng)調(diào)了不同層級的組織和內(nèi)部表征的重要性[200]。

    另外,感知組織[201,202]和格式塔定律[203-210]也嘗試在不考慮深度的情況下解決單個RGB圖像中的三維重建問題。不同的是,他們使用了先驗,即在不同視角下[213]更有可能保持不變的分組和結(jié)構(gòu)線索[211,212],從而促成了基于特征的方法[87,214]。

    但是,基于外觀方法[215]和幾何方法[29]在處理計算機(jī)視覺中的模糊性方面都有著眾所周知的難度。為了應(yīng)對這一挑戰(zhàn),現(xiàn)代計算機(jī)視覺系統(tǒng)已開始通過結(jié)合物理學(xué)來解決圖像的“暗”特征,因而比之前的工作有了顯著的改進(jìn)。在某些情況下,當(dāng)下最先進(jìn)的數(shù)據(jù)驅(qū)動的分類方法也很難解決模糊性問題,這表明“暗”物理線索和信號對我們在日常環(huán)境中正確感知和操作的能力的重要性。如圖16 [37]所示,系統(tǒng)在感知哪些物體必須依賴于彼此才能在一個常規(guī)的辦公空間中保持穩(wěn)定。

    通過對物理進(jìn)行建模并將其納入計算機(jī)視覺算法,以下兩個問題已被廣泛研究。

    (1)場景理解的穩(wěn)定性和安全性。如文獻(xiàn)[98]展示的,此類工作主要基于在人造環(huán)境中簡單但十分重要的觀察:人對場景的設(shè)計中,物體在靜態(tài)場景的重力場中應(yīng)該是穩(wěn)定的,也可以安全應(yīng)對各種物理干擾。這種假設(shè)對場景理解在物理上的合理解釋構(gòu)成了關(guān)鍵的約束。

    (2)三維場景中的物理關(guān)系。人類擅長于推理三維場景中的物理關(guān)系,如哪些物體相互支撐、連接或懸掛于彼此。如文獻(xiàn)[36]所示,這些關(guān)系代表了超出可觀察像素水平的三維場景的更深入理解,這可以使機(jī)器人、虛擬現(xiàn)實和增強(qiáng)現(xiàn)實技術(shù)的各種應(yīng)用受益。

    圖15 . 參考文獻(xiàn)[70]中介紹的有關(guān)物理、穩(wěn)定性和支撐關(guān)系的動態(tài)場景推斷的示例任務(wù)。在各種各樣的任務(wù)中,即使存在著變化的物體和可能擾亂環(huán)境的未知外力,直覺物理引擎也能很好地解釋新穎場景中的各種物理判斷。這一發(fā)現(xiàn)支持了一個假設(shè),即人類對物理的判斷可以看作是對牛頓力學(xué)原理進(jìn)行概率推斷的一種形式。

    圖16 . 通過整合物理和人以及物體的交互來進(jìn)行場景解析和重構(gòu)。(a)輸入圖像;(b)地面真實;(c)、(d)如果不結(jié)合物理,則物體可能看起來像漂浮在空中,從而導(dǎo)致錯誤的場景解譯;(e)、(f)結(jié)合物理之后,已解譯的3D場景看起來在物理上是穩(wěn)定的。該系統(tǒng)能夠感知“暗”的物理穩(wěn)定性,物體則必須依靠彼此才能保持穩(wěn)定。圖片摘自參考文獻(xiàn)[37],已得到IEEE, ?2019的許可。

    結(jié)合物理學(xué)來解決視覺問題的想法可以追溯到赫姆霍茲(Helmholtz),他認(rèn)為“無意識推理”是感覺輸入的可能原因,是視覺印記形成的一部分[216]。最早的計算機(jī)視覺問題的正式解決方法可以追溯到1963年Roberts對解析和重建三維方塊世界的解決方案[217]。這項工作啟發(fā)了后來的研究人員,使他們意識到違反物理定律對于場景理解的重要性[218],以及通過機(jī)器人操縱任務(wù)時保持穩(wěn)定性的重要性[219,220]。

    將物理整合進(jìn)場景解析和重建的想法在2010年左右被重新審視,并被引入現(xiàn)代的計算機(jī)視覺系統(tǒng)和方法。從單個RGB圖像中,Gupta等提出了對室內(nèi)[31,101]和室外[221]場景的定性物理表征,其中一種算法可以在描述3D結(jié)構(gòu)和機(jī)械配置時推斷物體的體積、形狀和關(guān)系(如遮擋和支撐)。在接下來的幾年中,其他研究工作[32,34,109,222-228]也對各種場景理解任務(wù)中的物理關(guān)系推理進(jìn)行了整合。在過去的兩年中,Liu等[35]致力于室外場景的聯(lián)合語義分割和三維重建任務(wù)中的物理關(guān)系推斷。Huang等[36]在以人為中心的場景圖形模型中,將支持關(guān)系建模為圖的邊,通過最小化物體和房間布局之間的支撐能量來推斷這些關(guān)系,并通過懲罰重建的三維物體和房間布局之間的相交部分來增強(qiáng)物理穩(wěn)定性和合理性[37,100]。上述的最新工作大多采用簡單的物理線索,也就是說,基于物理的模擬(如果有的話)非常有限。Zheng等在2013—2015年[96-98]提出了首個在現(xiàn)代計算機(jī)視覺方法中使用真實物理模擬器的工作。如圖17 [98]所示,所提出的方法首先通過對先前場景中的穩(wěn)定性進(jìn)行優(yōu)化,將潛在的不穩(wěn)定對象與穩(wěn)定對象進(jìn)行分組。然后,通過推斷潛在的觸發(fā)不穩(wěn)定的因素(干擾場),來為每個潛在的不穩(wěn)定物體設(shè)置一個“不安全狀態(tài)”預(yù)測分?jǐn)?shù),最終得出在物理上合理的場景解釋(體素分割)。Du等[229]通過整合端到端的可訓(xùn)網(wǎng)絡(luò)和綜合數(shù)據(jù),對此做了進(jìn)一步的探究。

    Wu等[230]提出的算法超越了穩(wěn)定性和支持關(guān)系,將物理引擎與深度學(xué)習(xí)相結(jié)合,以預(yù)測未來靜態(tài)場景的動態(tài)演變。具體而言,該研究提出了一個名為伽利略(Galileo)的生成模型,用于現(xiàn)實世界的視頻和圖像中物理場景的理解。如圖18 [230]所示,這一生成模型的核心是三維物理引擎,在基于物體的物理屬性(包括質(zhì)量、位置、三維形狀和摩擦)的表征上運(yùn)行。該模型可以通過相對簡短的馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo, MCMC)運(yùn)行來推斷這些潛在屬性,該過程驅(qū)動物理引擎中的模擬過程以適應(yīng)視覺觀察中的關(guān)鍵特征。Wu等[231]進(jìn)一步嘗試了將視覺輸入直接映射到物理屬性的方法,并用深度學(xué)習(xí)反轉(zhuǎn)了一部分的生成過程。以物體為中心的物理屬性(如質(zhì)量、密度和未標(biāo)記視頻的恢復(fù)系數(shù))可以在各種情況下直接推導(dǎo)出。借助包含17 408個視頻剪輯和101個具有各種材質(zhì)和外觀(即形狀、顏色和大?。┑奈矬w的名為Physics 101的新數(shù)據(jù)集,研究提出的無監(jiān)督表征學(xué)習(xí)模型可以將基本物理定律明確編碼到結(jié)構(gòu)中,從而可以從視頻中學(xué)習(xí)物體的物理屬性。

    圖17 . 一個在三維場景理解任務(wù)中顯式利用安全性和穩(wěn)定性的示例。在此任務(wù)中,良好的表現(xiàn)意味著系統(tǒng)可以理解圖像的“暗”特質(zhì),包括每個物體掉落的可能性以及掉落的可能原因是什么。(a)輸入:重建的三維場景。輸出:由穩(wěn)定物體組成的經(jīng)過解析和分割后的三維場景。數(shù)字是每個物體相對于干擾場(以紅色箭頭表示)的“不安全狀態(tài)”分?jǐn)?shù)。(b)場景解譯圖對應(yīng)于3個自下而上的過程:基于體素的表征(頂部)、幾何預(yù)處理(包括圖像分割和體積補(bǔ)全)(中間)和穩(wěn)定性優(yōu)化(底部)。圖片摘自參考文獻(xiàn)[98],已得到Springer Science+Business Media New York,?2015的許可。

    圖18 . 推斷場景的動態(tài)。(a)數(shù)據(jù)集快照;(b)Galileo模型的概述,該模型通過將物理引擎的反饋整合到循環(huán)中,從視覺輸入估算物體的物理屬性。圖片摘自參考文獻(xiàn)[230],已得到Neural Information Processing Systems Foundation, Inc., ?2015的許可。

    整合物理與預(yù)測未來動態(tài)為計算機(jī)視覺打開了許多有趣的問題。例如,對于一個以RGBD圖像序列表示的人類動作或任務(wù)示教,Zhu等[232]建立了僅從一個工具使用示例中計算出各種物理概念的系統(tǒng)(圖19),使其能夠推理出任務(wù)中的基本物理概念(如敲開堅果所需的力)。隨著模擬的逼真度和復(fù)雜性的提高,Zhu等[233]使用有限元方法(finite element method, FEM)生成一個估測人體各個部位受力的網(wǎng)格,就能推斷出對坐著的人體形成影響的力(詳情見第7節(jié)中的有關(guān)圖片)。

    如上所述,基于物理的推理不僅可以應(yīng)用于場景理解任務(wù),還可以應(yīng)用于姿勢、手部識別和分析任務(wù)。例如,Brubaker等 [234-236]使用質(zhì)量-彈簧系統(tǒng)估算了人類動作的接觸力和內(nèi)部關(guān)節(jié)的扭矩。Pham等[237]進(jìn)一步嘗試推斷人/物操縱過程中的手部運(yùn)動力。在計算機(jī)圖形學(xué)中,基于視頻觀察的軟體模擬已被用來同時跟蹤人的手部運(yùn)動,并計算手的接觸力[238,239]。總體而言,對于智能體的感知和理解而言,物理定律以及其與場景中物體之間的關(guān)系是至關(guān)重要的“暗”要素。上面概述的一些最有前景的計算機(jī)視覺方法已經(jīng)理解并融合了此見解。

    圖19 . 關(guān)于工具使用及其組成關(guān)系的13種物理概念。通過解析一個人類 的示教,可以從工具屬性的三維網(wǎng)格(藍(lán)色)、工具使用的軌跡(綠色)或兩者一起(紅色),估測出材料、體積、概念區(qū)域和位移的物理概念。更高層次的物理概念可以進(jìn)一步遞歸推導(dǎo)。圖片摘自參考文獻(xiàn)[232],已得到作者的許可。

    5. 功能和可供性—任務(wù)與行動的機(jī)會

    對環(huán)境的感知將不可避免地導(dǎo)致一連串的行動[240,241]。Gibson認(rèn)為,指示附近環(huán)境中行動機(jī)會的線索會被直接而迅速地感知,且不會經(jīng)過感知處理。對于人造物體和環(huán)境尤其如此,因為“物體首先被確定為是具有重要的功能性關(guān)系的”,并且“感知分析是基于功能性概念推導(dǎo)出的”[242];例如,開關(guān)明顯用于扳動,按鈕用于推動,旋鈕用于轉(zhuǎn)動,鉤子用于懸掛,蓋子用于旋轉(zhuǎn),手柄用于拉動等。這個想法是基于格式塔理論的可供性理論的核心[243],這個理論對于我們?nèi)绾慰创曈X感知和場景理解產(chǎn)生了深遠(yuǎn)影響。

    對物體和場景的功能性理解源于對可能與物體一起執(zhí)行的任務(wù)的識別[244]。如第3節(jié)所述,這與因果感知密切相關(guān);為了明白如何使用某一物體,智能體必須理解,如果物體以任何方式交互將導(dǎo)致什么狀態(tài)變化??晒┬灾苯尤Q于作用物,而功能性是物體的永久屬性,與作用物的特點無關(guān)(參見圖20中對此區(qū)別的說明)。比起幾何和外觀,這兩個交織的概念在物體和場景的理解任務(wù)中更加具有不變性。具體來說,我們認(rèn)為:

    (1)物體,尤其是人造客體,是通過其功能或與之關(guān)聯(lián)的動作來定義的;

    (2)場景,尤其是人造場景,是由可以在其中執(zhí)行的動作定義的。

    功能和可供性是一個跨學(xué)科的主題,并且已從不同的研究角度進(jìn)行了綜述(如文獻(xiàn)[245])。在本節(jié)中,我們從動物認(rèn)知科學(xué)中工具使用的案例研究入手,強(qiáng)調(diào)在計算機(jī)視覺和人工智能領(lǐng)域中融入功能和可供性的重要性,隨后從其物體和場景兩個層面,對計算機(jī)視覺的功能和可供性進(jìn)行了回顧。最后,回顧了一些有關(guān)機(jī)器人操縱的近期研究,這些研究著重于識別對象的功能和可供性,從而補(bǔ)充了之前對數(shù)據(jù)驅(qū)動方法[246]和可供性任務(wù)[247]的綜述。

    5.1. 從動物認(rèn)知科學(xué)中對工具使用的研究得到的啟示

    傳統(tǒng)上,使用一個物體作為工具來改變另一個物體并完成任務(wù)的能力被視為將人類在智力和復(fù)雜認(rèn)知上與其他動物區(qū)分開來的一個指標(biāo)[248,249]。研究者們曾普遍地將工具使用作為人類智能的標(biāo)志[250],直到較近期Jane Goodall博士觀察到野生黑猩猩有規(guī)律地生產(chǎn)并使用工具[251-253]。此后,進(jìn)一步的研究報道了黑猩猩以外其他物種使用工具的情況。例如,Santos等[254]訓(xùn)練了兩種猴子在不同類型的物理概念(如材料、連接性和重力)的各種條件下,在兩個藤條之間做出選擇以獲取食物。Hunt等[255]和Weir等[256]報道說,新喀里多尼亞烏鴉可以將一根直絲彎曲成一個鉤子,并用它從垂直管道上提起裝有食物的水桶。最近的研究還發(fā)現(xiàn),新喀里多尼亞烏鴉在使用工具后表現(xiàn)出積極樂觀的舉止[257]。其中,努力并不能解釋它們的樂觀,它們似乎是享受工具使用的過程,或者是從內(nèi)在受到使用工具的激勵。

    這些發(fā)現(xiàn)表明,某些動物具有推理工具功能特性的能力(可能還有內(nèi)在動機(jī))。它們可以推斷和分析工具的物理概念和因果關(guān)系,從而使用領(lǐng)域通用的認(rèn)知機(jī)制來處理一項新任務(wù),盡管不同工具的視覺外觀和幾何特征千差萬別。工具使用是一個特別有趣的研究問題,并且為比較認(rèn)知的研究提出了兩個重要挑戰(zhàn)[258],這也進(jìn)一步挑戰(zhàn)了計算機(jī)視覺和人工智能系統(tǒng)的推理能力。

    圖20 . (a)錘子的面向任務(wù)的表現(xiàn)形式,及其在時空聯(lián)合空間中砸開堅果的使用。在此示例中,將物體分解為給定任務(wù)的功能基礎(chǔ)和可供性基礎(chǔ)。(b)基于一個常見物體的功能和可供性將其用作工具的可能性。顏色越暖,可能性越高。功能分?jǐn)?shù)是對“是否可以用來更改另一個物體的狀態(tài)?”的平均回答,而可供性分?jǐn)?shù)是對“是否可以手動操作?”的平均回答。

    首先,為什么有些物種可以設(shè)計出創(chuàng)新的解決方案,而另一些面臨相同情況的物種卻不能?請看圖21[232]中的示例:僅僅觀察一次他人完成砸開堅果這一復(fù)雜任務(wù)的示教,我們?nèi)祟惐憧梢院敛毁M力地從一組新的隨機(jī)且截然不同的物體中,推斷出哪種潛在候選物最有助于我們完成同樣的任務(wù)。對于現(xiàn)代計算機(jī)視覺和人工智能系統(tǒng)而言,在如此大的類內(nèi)方差中進(jìn)行推理是很難掌握和描述的。沒有一致的視覺模式為一項任務(wù)識別合適的工具將是一個長尾的視覺識別問題。此外,根據(jù)任務(wù)情境和需求,同一物體可以提供多種功能。此類物體不再由其常規(guī)名稱(如錘子)定義,它是由其功能定義的。

    其次,如果一個人天生不具備這種功能推理能力,他/她后天又是如何發(fā)展的呢?新喀里多尼亞烏鴉以制造和使用工具的習(xí)性和靈巧而聞名。同時,盡管是烏鴉的遠(yuǎn)房表親,禿鼻烏鴉也可以在實驗室環(huán)境中推理和使用工具,即使他們不在野外使用工具[259]。這些發(fā)現(xiàn)表明,表達(dá)工具的能力可能更多是一種基于功能推理的領(lǐng)域通用的認(rèn)知能力,而不是學(xué)習(xí)與適應(yīng)帶來的特異化。

    5.2. 感知功能和可供性

    “可供性理論使我們擺脫了假定物體的固定分類(每個物體都由其共同特征定義,并給出一個名稱)的哲學(xué)困惑……你不必對事物進(jìn)行分類和標(biāo)記就可以察覺到它們所提供的功能……區(qū)分一個物體的所有特征永遠(yuǎn)都不是必須的,實際上也不可能做到這一點?!?/p>

    圖21 . 在新情況下找到合適的工具。(a)在學(xué)習(xí)階段,觀察到一個理性的示教者檢查錘子和其他工具,以決定用什么工具敲開堅果。(b)在推理階段,要求算法為同一任務(wù)選擇桌子上的最佳物體(即木腿)。這種泛化需要對物體、動作和整體任務(wù)中的功能、物理和因果關(guān)系進(jìn)行推理。圖片摘自參考文獻(xiàn)[232],已得到作者的許可。

    ——Gibson,1977 [243]

    將功能和可供性融入計算機(jī)視覺和AI研究的想法可以追溯到1971年的第二屆人工智能國際聯(lián)合會議(International Joint Conference on Artificial Intelligence, IJCAI),F(xiàn)reeman和Newell [260]認(rèn)為可用結(jié)構(gòu)應(yīng)根據(jù)提供和執(zhí)行的功能來描述??晒┬缘母拍顒t在后來由Gibson [243]提出。根據(jù)經(jīng)典的基于幾何的“結(jié)構(gòu)學(xué)習(xí)”程序[261],Winston等[262]討論了基于功能的物體類別描述的用途。他們指出,盡管有無數(shù)個不同杯子或許多其他物體的物理描述,還是可以使用單一功能描述來表征所有可能的杯子。在他們的“機(jī)械伴侶”系統(tǒng)[263]中,Connell和Brady [264]提出了基于2D形狀的語義網(wǎng)描述,以及廣義的結(jié)構(gòu)描述。Ho [265]和DiManzo等[266]分別使用了計算方法,系統(tǒng)地討論了研究者們用來研究功能和可供性的示例性類別——“椅子”和“工具”。受明斯基的著作[267]中“椅子”類別在功能方面的啟發(fā),Stark和Bowyer [268]提出了第一項使用純粹基于功能的物體類別定義(即沒有明確的幾何或結(jié)構(gòu)模型)的工作。在過去的10年中,這些將功能和可供性與計算機(jī)視覺和人工智能系統(tǒng)整合在一起的早期想法已經(jīng)被現(xiàn)代化。下面,我們回顧一些具有代表性的研究課題。

    “工具”在計算機(jī)視覺和機(jī)器人研究中備受關(guān)注,一部分原因是其本身就是一種可以更改其他物體狀態(tài)的物體。受動物認(rèn)知中工具使用的研究的啟發(fā),Zhu等[232]將工具理解問題歸結(jié)為面向任務(wù)的物體識別問題,其核心是理解物體的潛在功能、物理和因果。如圖22 [232]所示,工具(如錘子或鐵鍬)是通過動作來完成任務(wù)的物理客體。從這個新的角度來看,任何物體都可以看作是錘子或鐵鍬。這種生成表征使計算機(jī)視覺和人工智能算法可以推理各種任務(wù)的潛在機(jī)制,并在新穎的功能和情境下進(jìn)行物體識別的泛化。這種方法超越了記住各個物體類別的方法,使其超越了傳統(tǒng)的基于外觀的相關(guān)研究。結(jié)合物理和幾何方面,Liu等[269]進(jìn)一步將物理基元的分解用于工具識別和塔架穩(wěn)定性。

    “容器”在日常生活中無處不在,通常被認(rèn)為是半工具[270]。容器的研究可以追溯到Inhelder和Piaget在1958年進(jìn)行的一系列研究[271]。早在兩個半月大時,嬰兒就已經(jīng)可以理解容器和容納關(guān)系[272-274]。容器和容納關(guān)系在人工智能、計算機(jī)視覺和心理學(xué)研究中備受關(guān)注,因為它是嬰兒最早習(xí)得的空間關(guān)系之一,先于其他常見的關(guān)系(如遮擋[275]和支持關(guān)系[276])。在人工智能學(xué)界,研究人員已采用常識推理[277-279]和定性表征[280,281]來進(jìn)行容器和容納關(guān)系的推理,主要聚焦于本體論、拓?fù)湔?、一階邏輯和知識庫。

    圖22 . 對于砍柴、鏟土和粉刷墻壁這3個任務(wù),Zhu等[232]提出了一種算法,根據(jù)每組中哪一物體最適合任務(wù)執(zhí)行來挑選組中的物體,并對其進(jìn)行排名:①常規(guī)工具;②家用物體;③石頭。其次,算法輸出每種工具的意想用途,提供可供性基礎(chǔ)(綠色點表示用手將工具握住的位置)、功能基礎(chǔ)(紅色區(qū)域表示將與物體接觸的工具部分),以及構(gòu)成動作本身的運(yùn)動的想象姿勢序列。圖片摘自參考文獻(xiàn)[232],已得到作者的許可。

    最近,基于物理的線索已被證明能夠極大地促進(jìn)容器和容納關(guān)系中的功能和可供性的推理。例如,Liang等[282]展示了基于物理的模擬對于容器識別是穩(wěn)健且可遷移的,并從以下3個問題進(jìn)行了討論:“什么是容器?”“一個物體能容納另一個嗎?”“一個容器能容納多少個物體?”對于同一問題,Liang的方法比使用從外觀和幾何結(jié)構(gòu)中提取特征的方法表現(xiàn)得更好。這一系列研究與心理學(xué)中直覺物理的最新發(fā)現(xiàn)相吻合[70,165,181-184],并為計算機(jī)視覺帶來了一些有趣的新方向和應(yīng)用,包括液體轉(zhuǎn)移的推理[283,284]、容器和容納關(guān)系[285],以及利用容納約束進(jìn)行物體跟蹤[286]。

    “椅子”是可供性的典例,關(guān)于物體可供性的最新研究包括幾何和功能的聯(lián)合推理。比傳統(tǒng)的單獨基于外觀與幾何的機(jī)器學(xué)習(xí)方法,這種方法能更好地泛化到新的例子上。Grabner等[108]特別通過將典型人類坐姿擬合到3D物體上,設(shè)計了一種用于椅子的“可供性檢測器”。Zhu等[233]通過基于物理的模擬超越了可見的幾何兼容性,從而推理坐在不同椅子上時施加到身體各個部位的力/壓力(更多信息請參見圖23 [233])。當(dāng)身體部位的力/壓力超出一定的舒適區(qū)間時,他們的系統(tǒng)能夠以數(shù)值形式“感受到”不適。

    基于“人”的上下文已被證明是在一個場景中對可能使用的物體進(jìn)行約束建模的一個關(guān)鍵組成部分。在解決此類問題時,所有方法都設(shè)想了相對于物體的潛在的人體位置,以幫助解譯和理解場景中的可見元素。使用這種方法的根本原因在于,人造場景是為人類活動服務(wù)的功能空間,其中的物體主要是用來服務(wù)人類行為[243]。在物體層面,Jiang等提出了使用基于人的上下文來學(xué)習(xí)物體布置[287]和物體標(biāo)注[110]的方法。在場景層面,Zhao等[34]通過構(gòu)成場景的物體和其上下文關(guān)系對3D場景中的功能建模。為了進(jìn)一步探索遍及3D場景的隱藏的基于人的上下文,Huang等[36]提出了一種使用整體場景語法(holistic scene grammar, HSG)來解譯和重構(gòu)場景的隨機(jī)方法。HSG描述了一種功能性的、以任務(wù)為中心的場景表征。如圖24 [36]所示,描述符由功能場景類別、以任務(wù)為中心的活動組和單個物體組成。將基于人的上下文的場景解譯過程反過來,場景功能還可以用于合成具有類人物體布置的新場景。Qi等[99]和Jiang等[288]提出使用以人為中心的表征,通過模擬引擎合成3D場景。如圖25 [99,288]所示,他們將人類活動與功能分組/支持關(guān)系進(jìn)行了整合,以建立自然而合適的活動空間。

    圖23 . (a)各種場景中的最優(yōu)的3個姿勢,用于可供性(就座)識別。放大視圖顯示了最佳(b)、次佳(c)和第三佳(d)的坐姿選擇。前兩行是正常的常見情景,中行是雜亂的情景,最后兩行是新穎的情景,它們顯示了這一方法顯著的泛化和遷移能力。圖片摘自參考文獻(xiàn) [233],已得到作者的許可。

    5.3. 鏡像——因果對等的功能和可供性

    評估計算機(jī)視覺或人工智能系統(tǒng)對功能和可供性的推理能力是很困難的;與因果和物理不同,并非所有系統(tǒng)都會以相同的方式看到功能和可供性。確實,人類和機(jī)器人的形態(tài)不同;因此,相同的物體或環(huán)境不一定會為機(jī)器人和人類引入相同的功能和可供性。例如,有5個手指的人可以牢牢握住一把榔頭,但典型2指或3指的機(jī)器人可能會非常困難,如圖26所示。在這些情況下,系統(tǒng)必須推理出潛在的可供性原理,而不是簡單地模仿人類示教的動作。在模仿學(xué)習(xí)(learning from demonstration, LfD)中,這個常見問題被稱為“對應(yīng)問題”[289](文獻(xiàn)[290,291]中提供了更多詳細(xì)信息)。

    目前,LfD的大部分工作是在人類示教與機(jī)器人執(zhí)行之間進(jìn)行一一對應(yīng),從而將LfD限制為模仿人類的低級運(yùn)動控制,以復(fù)制一個幾乎相同的過程,“對應(yīng)問題”因而沒有得到充分的解決,所獲得的技能也難以運(yùn)用到新的機(jī)器人或新的情況中,這需要一個更穩(wěn)健的解決方案。為了解決這些問題,我們認(rèn)為機(jī)器人必須更深刻地理解在操作任務(wù)中的功能和因果,并需要對有關(guān)物體和力的信息進(jìn)行更明確的建模。模仿操作任務(wù)的關(guān)鍵是使用功能和可供性來創(chuàng)建因果等效的操縱;換句話說,通過推理接觸力來復(fù)制任務(wù)執(zhí)行,而不是簡單地重復(fù)精確的運(yùn)動軌跡。

    圖24 . 室內(nèi)場景以任務(wù)為中心的表征。功能空間表現(xiàn)出分層結(jié)構(gòu),而幾何空間則通過情境關(guān)系對空間實體進(jìn)行編碼。物體根據(jù)其隱藏的活動(即潛在的人類情境或動作)進(jìn)行分組。圖片摘自參考文獻(xiàn)[36],已得到作者的許可。

    但是,由于缺乏精確的儀器,測量人在操縱過程中的施力很困難,測量設(shè)備也會限制手部自然運(yùn)動。例如,基于視覺的力量感測方法[237]通常無法處理在操作過程中的遮擋情況。而其他力感系統(tǒng),如應(yīng)變儀FlexForce[292]或嵌入液態(tài)金屬的彈性體傳感器[293],雖然可用于類似手套的設(shè)備中,但是即使是它們也可能會因為太僵硬而無法順應(yīng)手部輪廓,從而限制了精細(xì)操縱時手部的自然運(yùn)動。最近,Liu等[294]引入了Velostat,它是一種柔軟的壓阻導(dǎo)電膜,電阻在壓力下會發(fā)生變化。他們在基于慣性測量單元(inertial measurement unit, IMU)的位置感應(yīng)手套中使用了這種材料,并可靠地記錄了操作示教中的細(xì)粒度力信息。這種對視覺無法捕捉到的潛在信息的測量在人對機(jī)器的示教系統(tǒng)中格外重要。

    設(shè)想一個打開帶有兒童安全鎖定裝置的藥瓶的任務(wù),這些瓶子需要使用者在特定位置擠壓或按下瓶蓋以解鎖瓶蓋。按照設(shè)計的初衷,這些瓶子無法通過普通方式來打開,即使智能體通過視覺上觀察到一個成功的示教,試圖直接模仿可能會忽略開瓶過程中的關(guān)鍵步驟,因為打開藥瓶和一般瓶子的視覺外觀通常非常相似(即使不完全相同)。通過在示教中使用Velostat [294]手套,可以觀測到用來解鎖兒童安全裝置的精準(zhǔn)的作用力?;谶@些觀測,Edmonds等[295,297]通過自上而下的隨機(jī)語法模型(代表任務(wù)序列的組合本質(zhì))和自下而上的判別模型(使用觀察到的姿勢和作用力),教會一個規(guī)劃器在規(guī)劃期間結(jié)合這兩種輸入以選擇下一個最佳操作。在這項工作的基礎(chǔ)上,還開發(fā)了一個增強(qiáng)現(xiàn)實(augmented reality, AR)界面,以提高系統(tǒng)的可解釋性并支持簡易地修補(bǔ)機(jī)器人知識[296]。

    圖25 . 以人為中心的合成室內(nèi)場景示例(一間臥室),其中包含由文獻(xiàn)[99,288]生成的可供性熱圖。通過根據(jù)聯(lián)合概率分布對人和物體進(jìn)行交替采樣來實現(xiàn)場景的聯(lián)合采樣。

    上述工作的主要局限性在于:機(jī)器人的動作是預(yù)定義的,而且任務(wù)的基礎(chǔ)結(jié)構(gòu)未被建模。最近,Liu等[298]提出了一種基于鏡像的方法和一個功能操作的概念。該方法通過物理的仿真擴(kuò)展了當(dāng)前的LfD框架,以解決對應(yīng)問題(詳細(xì)信息見圖27 [298])。不同于之前方法中過度模仿示教運(yùn)動軌跡,該方法鼓勵機(jī)器人尋求功能上相同但可能在視覺表現(xiàn)上不同的動作,這些動作可以產(chǎn)生與示教中相同的效果,并實現(xiàn)相同的目標(biāo)。該方法具有3個與標(biāo)準(zhǔn)LfD不同的特征。首先,它是基于力的:這些包含了觸覺感知信息的示教讓機(jī)器人對于物理世界有更深刻的理解,這為幫助解決對應(yīng)問題提供了一個額外的維度。其次,它是目標(biāo)指向的:“目標(biāo)”定義為目標(biāo)物體的期望狀態(tài),并編碼于一個語法模型中。語法模型的終端節(jié)點包括由力引起的狀態(tài)變化,與具體軀體表現(xiàn)無關(guān)。再次,這種方法使用了沒有過度模仿的鏡像方法:與經(jīng)典的LfD相比,機(jī)器人并不一定要模仿人類示教中的每一個動作。取而代之的是,機(jī)器人會根據(jù)所學(xué)的語法和模擬的力來推理出該運(yùn)用哪種動作以達(dá)到目標(biāo)狀態(tài)。

    圖26 .(a)給定一次成功的人類示教;(b)由于不同的軀體表現(xiàn),機(jī)器人可能無法通過模仿人類示教來完成相同的任務(wù)。在此例的情況下,2指的機(jī)器手在擺動時不能牢固地握住錘子。錘子滑落,執(zhí)行失敗。

    圖27 . 機(jī)器人通過推斷產(chǎn)生相似力的動作,從而在物理狀態(tài)上產(chǎn)生相似的變化,來模仿功能對等的人類示教。Q學(xué)習(xí)被應(yīng)用于具有物體狀態(tài)變化類別的相似類型的力,以產(chǎn)生人-物體交互(hoi)單元。圖片摘自參考文獻(xiàn)[298],已得到Association for the Advancement of Artificial Intelligence, ?2019的許可。

    6. 感知意圖—主觀能動性

    圖28 . 開創(chuàng)性的Heider-Simmel實驗[313]。成人能僅僅從簡單的幾何圖形的運(yùn)動中對心理狀態(tài)進(jìn)行感知和歸因。

    除了無生命的物理物體之外,我們生活在一個存在著眾多有生命的、有目標(biāo)引導(dǎo)的智能體的世界中。他們的能動性具有感知、規(guī)劃、制定決策和實現(xiàn)目標(biāo)的能力。至關(guān)重要的是,這種能動性還需要:①表征意圖[299],這種意圖代表未來目標(biāo)狀態(tài)和等效變化[300],以在不同情境下采取不同動作來實現(xiàn)預(yù)期目標(biāo)狀態(tài);②與目標(biāo)相關(guān)的動作的合理性[301],以設(shè)計出最有效的可能行動規(guī)劃。對意圖的感知和理解使人類能夠更好地理解和預(yù)測其他智能體的行為,并與其他人一起參與具有共同目標(biāo)的合作活動。作為指導(dǎo)我們?nèi)绾蜗嗷ソ忉尩囊粋€基本組織原則,意圖的構(gòu)建在人類認(rèn)知功能的學(xué)說中已被賦予越來越接近于中心的地位,因此應(yīng)成為未來AI的重要組成部分。

    在第6.1節(jié)中,我們首先簡要介紹“能動性”的概念是由什么構(gòu)成的。這種概念在6個月大的嬰兒身上就已經(jīng)根深蒂固了。接下來,在第6.2節(jié)中,我們將解釋什么是有理性原理,其提供了一種機(jī)制,解釋了為什么嬰兒和成人都將有特定的運(yùn)動物體感知為有目的的個體。隨后,我們將描述意圖預(yù)測與現(xiàn)代計算機(jī)視覺和機(jī)器學(xué)習(xí)中的動作預(yù)測之間的關(guān)系,但意圖預(yù)測標(biāo)簽比預(yù)測動作標(biāo)簽復(fù)雜得多;我們將在6.3節(jié)里從一個哲學(xué)的角度論述。在第6.4節(jié)中,我們簡要回顧計算機(jī)視覺和人工智能中意圖的構(gòu)建模塊。

    6.1. 主觀能動性

    在相關(guān)研究中,心理理論(theory of mind, ToM)是指將包括信念、愿望和意圖在內(nèi)的心理狀態(tài)歸因于自己和他人的能力[302]。由于人們主要是為了實現(xiàn)他們的信仰和欲望而做出行動,基于智能體的信念和欲望來感知和理解其意圖是最終目標(biāo)[303]。

    發(fā)展心理學(xué)的研究證據(jù)表明,6個月大的嬰兒已經(jīng)將人類活動視為目標(biāo)導(dǎo)向的行為[304]。到10個月大時,嬰兒會將連續(xù)的行為流分割成單元,這些單元與成年人認(rèn)為的獨立目標(biāo)導(dǎo)向的行動相對應(yīng),而不僅僅是空間或肌肉運(yùn)動[305,306]。在他們的第一個生日過后,嬰兒開始理解一個行動者可能會設(shè)想實現(xiàn)目標(biāo)的多種規(guī)劃,并根據(jù)環(huán)境的實際情況選擇一個有意實施的規(guī)劃[307]。即使一個動作經(jīng)過反復(fù)也未能達(dá)到目標(biāo),18個月大的孩子也能夠同時推斷和模仿這個動作的預(yù)期目標(biāo)[308]。此外,嬰兒可以基于對動作情景約束的評估,以合理、有效的方式模仿動作,而不僅僅是復(fù)制動作。這表明嬰兒對環(huán)境、動作和潛在意圖之間的關(guān)系有深刻的理解[309]。嬰兒還可以在不同的分析水平上感知意圖關(guān)系,包括具體的行動目標(biāo)、更高階的規(guī)劃和協(xié)作目標(biāo)[310]。

    盡管我們實際目睹的行為流具有很高的復(fù)雜性,我們其實從嬰兒時期就已經(jīng)可以從容地將看到的動作處理為一個有目的性的單元[303]。當(dāng)我們觀察運(yùn)動時,至關(guān)重要的是內(nèi)在的意圖,而非表面的行為。一個潛在的意圖可以使幾種差異很大的運(yùn)動模式在概念上具有一致性。取決于激發(fā)運(yùn)動的意圖,即使看上去相同的身體運(yùn)動甚至也可能具有多種不同的含義;例如,驅(qū)動我們伸手去拿杯子的潛在意圖既可能是填滿杯子,也可能是清潔杯子。因此,對他人意圖的推斷給觀察者提供了人類行動的“要旨”。研究發(fā)現(xiàn),我們并未對人類在空間中運(yùn)動的完整細(xì)節(jié)進(jìn)行編碼;取而代之的是,我們根據(jù)意圖來感知動作。人類根據(jù)行動者的目標(biāo)和意圖對動作進(jìn)行結(jié)構(gòu)化理解,并在記憶中編碼和提取[303]。對意圖的理解甚至導(dǎo)致了具有種族特異性的文化學(xué)習(xí)和認(rèn)知形式[307]。從嬰兒到復(fù)雜的社交組織,我們的世界是由智能體的意圖構(gòu)成的[307,311,312]。

    6.2. 從有生性到有理性

    人類視覺具有獨特的社交功能——僅從視覺刺激中就可以提取關(guān)于目標(biāo)、信念和意圖的潛在心理狀態(tài)的信息。令人驚訝的是,這種視覺刺激不需要包含豐富的語義或視覺特征。一個標(biāo)志性的例子是20世紀(jì)40年代提出的具有開創(chuàng)性的Heider-Simmel演示[313](詳細(xì)信息見圖28)。觀察到在空間中漫游的3個簡單幾何圖形的2D運(yùn)動時,人類參與者會在沒有任何其他提示的情況下自發(fā),甚至不能自已地感知到“社交智能體”,并擁有一套豐富的心理狀態(tài),如目標(biāo)、情緒、人格和聯(lián)盟。這些心理狀態(tài)匯聚在一起,形成了對演示中發(fā)生的事情的故事般的描述,例如,一個英雄將受害者從惡霸手中救出。值得注意的是,在此實驗中,在沒有提供有關(guān)物體感知的特定方向的情況下,參與者仍然傾向于將物體描述為具有不同的性別和性格。另一個至關(guān)重要的觀察結(jié)果是:人類參與者總是將有生命的物體報告為“打開”或“關(guān)閉”了門,類似于Michotte的“進(jìn)入”演示[79];有生命的物體的運(yùn)動是通過長時間的接觸而不是突然的撞擊傳遞給門的。這種將簡單的形狀解釋為有生命的生物,是一個極佳的例子,說明人類視覺是如何從極少的視覺特征的符號輸入中,提取出豐富的社交關(guān)系和心理狀態(tài)。

    在最初的Heider-Simmel演示中,參與者們呈現(xiàn)出的對社交關(guān)系和心理狀態(tài)的視覺感知到底是或多或少地歸因于刺激的動態(tài)運(yùn)動,還是歸因于“故事主角”的相對屬性(大小、形狀等),這一點尚不清楚。Berry和Misovich [314]通過降低結(jié)構(gòu)演示的同時保留其原始動態(tài),設(shè)計了針對這兩個混淆變量的定量估測。他們報道了與原始實驗設(shè)計相似數(shù)量的擬人化術(shù)語,這表明演示的結(jié)構(gòu)特征并不是影響人類社交認(rèn)知的關(guān)鍵因素;這一發(fā)現(xiàn)進(jìn)一步支持了最初的發(fā)現(xiàn)——人類對社交關(guān)系的感知超越了視覺特征。至關(guān)重要的是,當(dāng)Berry和Misovich在原始演示和降級演示中都使用靜態(tài)框架時,實驗中出現(xiàn)的擬人化術(shù)語數(shù)量顯著下降,這表明動態(tài)運(yùn)動和時間偶然性是成功感知社交關(guān)系和精神狀態(tài)的關(guān)鍵因素。Bassili [315]隨后在一系列實驗中進(jìn)一步研究了這種現(xiàn)象。

    Dittrich和Lea [316]在簡單的移動字母演示中也產(chǎn)生了具有生物學(xué)意義的運(yùn)動序列。參與者被要求識別一個字母充當(dāng)“狼”追逐另一個“綿羊”字母,或一個“羔羊”字母試著追趕其母親。這些學(xué)者的發(fā)現(xiàn)與Heider-Simmel實驗相呼應(yīng)。運(yùn)動動力學(xué)在感知有意圖的動作時起到了重要作用。具體而言,當(dāng)“狼/羔羊”路徑更接近其目標(biāo)時,意圖性顯得更強(qiáng);而當(dāng)兩者之間有顯著速度差時,意圖性就更加明顯。此外,對于以中性術(shù)語(字母)描述的實驗任務(wù)與以包含意圖的術(shù)語(即狼/綿羊)描述的實驗任務(wù),Dittrich和Lea未能發(fā)現(xiàn)顯著不同的效應(yīng)。

    綜上所述,這些實驗表明,即使是最簡單的移動形狀也不可避免地會以一種有意圖的和目標(biāo)導(dǎo)向的“社交”方式被感知——通過將事件整體理解為一個不斷發(fā)展的故事,其中的角色也都具有目標(biāo)、信念和意圖。一個問題自然地由此產(chǎn)生:人類視覺系統(tǒng)感知和解釋如此豐富的社交世界的潛在機(jī)制是什么?一種可能的支配這一過程的機(jī)制是由幾位哲學(xué)家和心理學(xué)家提出的直觀能動性理論,它體現(xiàn)了所謂的“有理性原則”。該理論指出,人類將自己和他人視為因果智能體:①他們將有限的時間和資源僅用于可以按照自己的意圖和欲望改變世界的那些行動;②基于他們對世界的信念,他們通過在最大化效用的同時,最小化成本來合理地實現(xiàn)其目標(biāo)[301,317,318]。

    在這一原則的指導(dǎo)下,Gao等[319]探索了追捕行為的心理物理學(xué),這是在意向行為中最突出、進(jìn)化上最重要的類型之一。在互動的“不要被抓到”游戲中,一個人類參與者假裝成羊。任務(wù)是檢測隱藏的“狼”并遠(yuǎn)離其20 s。狼追捕羊的效率是通過人類逃脫嘗試中失敗的百分比來衡量的。在各種試驗中,狼的追捕策略是通過一個被稱為追捕意圖的微妙程度的變量來操縱的,該變量控制了與最優(yōu)目標(biāo)追蹤軌跡的最大偏差(詳細(xì)信息見圖29 [319])。結(jié)果表明,人類扮演的羊可以有效地檢測和避開追捕意圖的微妙程度小的狼,而追捕意圖的微妙程度中等的狼卻被證明是最“危險的”。一只危險的狼仍然可以相對快速地接近一只羊,同時,偏離最優(yōu)目標(biāo)追蹤軌跡會嚴(yán)重破壞人們對被追逐的感知,使得狡猾的狼無法被發(fā)現(xiàn)。換句話說,它們可以有效地跟蹤人控制羊,而不會引起注意。這一結(jié)果與“有理性原則”有相一致,在該原則中,人類的感知假定智能體的有意行為是將其實現(xiàn)目標(biāo)的效率最大化。

    不僅成年人如上面描述的那樣對行動成本敏感,6~12個月大的嬰兒也表現(xiàn)出相似的行為習(xí)慣;當(dāng)智能體沿著一條長而迂回的路線到達(dá)目標(biāo)時,嬰兒往往會比選擇更短的路線時看得更久[320,321]。至關(guān)重要的是,嬰兒將動作解釋為指向目標(biāo)物體,當(dāng)智能體伸手去拿一個新物體時,嬰兒傾向于注視更長的時間,即使智能體的動作是沿著一條熟悉的路徑[304]。最近,Liu等[318]進(jìn)行了5次注視時間實驗,讓3個月大的嬰兒觀察了具有不同效率(遵循最短的物理可能路徑還是較長的路徑)、目標(biāo)(舉起物體還是引起物體狀態(tài)變化)以及因果結(jié)構(gòu)(接觸作用還是遠(yuǎn)距離和延遲作用)的目標(biāo)導(dǎo)向的伸手動作。他們的實驗證實,嬰兒會將他們還無法執(zhí)行的動作解釋為因果有效的:當(dāng)人們伸手接觸并引起物體狀態(tài)變化時,嬰兒會將這些動作視為目標(biāo)導(dǎo)向的,并且在動作效率低下時的注視時間會比高效率情況下更長。這種較早出現(xiàn)的、對于代價高昂且以目標(biāo)為導(dǎo)向行為的智能體的因果能力的敏感性,可能為我們?nèi)祟惇氂卸S富的因果和社交學(xué)習(xí)提供重要的基礎(chǔ)。

    有理性原則已被正式建模為由貝葉斯推理支配的逆向規(guī)劃[104,114,322]。規(guī)劃是意圖導(dǎo)致行動的過程。逆向規(guī)劃是通過將理性的規(guī)劃模型反轉(zhuǎn)以推斷出潛在的心理意圖;這個反轉(zhuǎn)的過程通過貝葉斯推理,整合了被觀察到的動作的似然和對心理狀態(tài)的先驗知識?;谀嫦蛞?guī)劃,Baker等[104]提出了目標(biāo)推理的框架,其中將行為觀察的自下而上的信息與目標(biāo)空間的自上而下的先驗知識相結(jié)合,以進(jìn)行潛在意圖的推理。此外,貝葉斯網(wǎng)絡(luò)因其對表征概率依賴和因果關(guān)系具有很高的靈活性,以及在推理方法中展現(xiàn)出的高效率,已被證明是意圖識別最強(qiáng)大和成功的方法之一[322-325]。

    圖29 . “不要被抓到”實驗中操作追捕意圖的微妙程度的圖解。當(dāng)將追逐的細(xì)微度設(shè)置為0時,狼總是以最優(yōu)目標(biāo)追蹤的方式直接朝(移動的)羊前進(jìn)。當(dāng)追逐的細(xì)微度設(shè)置為30°時,狼總是沿綿羊的大致方向移動,但并不處于理想的尋熱軌跡上。但它可以在始終以移動的羊為中心的60°窗口內(nèi),向任意方向移動。當(dāng)追逐的細(xì)微度設(shè)置為90°時,狼移動的方向性就更小了。狼甚至可能會朝著與(移動中的)羊正交的方向前進(jìn),雖然它仍然永遠(yuǎn)不會偏離這一方向。圖片摘自參考文獻(xiàn)[319],已得到Elsevier Inc., ?2009的許可。

    圖30 . 文獻(xiàn)[326]中的規(guī)劃推理任務(wù)(從觀察機(jī)器人的角度來看)。(a)3D場景中的4個不同目標(biāo)(目標(biāo)物體)。(b)所提出方法的結(jié)果之一:每個最終動作隨時間推移的邊際概率。注意,終端動作是在分層圖模型描述的概率密度上的邊際概率。(c)針對不同目標(biāo)的4個理性的層級規(guī)劃:目標(biāo)1在可以觸及的范圍內(nèi),不需要站起來;目標(biāo)2需要站起來并伸出手;目標(biāo)3和4需要站立、移動,并伸手去拿不同的物體。(d)與(b)中所示結(jié)果相對應(yīng)的時間進(jìn)度。這4個目標(biāo)中每個目標(biāo)的動作序列及其對應(yīng)的概率分布在每幀左上角的條形圖中可以看到。圖片摘自參考文獻(xiàn)[326],已得到IEEE, ?2016的許可。

    我們現(xiàn)在將問題的關(guān)注點從符號輸入到真實的視頻輸入,Holtzen等[326]提出了一種逆向規(guī)劃方法,可以從部分觀察到的RGBD視頻中推斷出人類的分層級的意圖。他們的算法能夠在貝葉斯概率編程框架下,對人腦中的決策和行動規(guī)劃流程進(jìn)行逆向工程以推斷人的意圖(詳細(xì)信息見圖30 [326])。意圖被表征為一種新穎的、具有層級性和組合性的概率圖結(jié)構(gòu),描述了動作和規(guī)劃之間的關(guān)系。

    通過建立抽象的Heider-Simmel演示和航拍視頻之間的聯(lián)系,Shu等[112]提出了一種通過觀察運(yùn)動軌跡來推斷人在互動中的意圖的方法(圖31)。通過變分法(如Landau物理學(xué)中),該算法構(gòu)建了一個非參數(shù)的指數(shù)勢函數(shù),用以推導(dǎo)出“社交中的力和場”;這樣的力和場解釋了人類在一個收集的無人機(jī)視頻中的動作和互動。該模型的結(jié)果與人類對互動傾向的判斷非常吻合,并展示了具有生成合成的、可控的、去情境化的動畫的能力。

    在室外場景中,Xie等[72]通過對人類活動的推理,聯(lián)合推斷了物體的功能和人類的意圖。根據(jù)有理性原則,被觀察的視頻中的人們應(yīng)當(dāng)在規(guī)避障礙的限制下,有意地沿著最短的可能路徑走向功能性的物體,從而滿足他們的某些需求(如自動售貨機(jī)可以解渴)(參考圖 10)。這里的功能性物體是“暗物質(zhì)”,因為它們通常很難在低分辨率監(jiān)控視頻中被檢測到,并且具有“吸引”人的功能。Xie等[72]建模了基于智能體的拉格朗日力學(xué),其中人體軌跡被概率性地建模為多層“暗能量”場中的運(yùn)動,且其中每個智能體可以選擇讓一個特定的力場影響其運(yùn)動,從而定義了朝向相應(yīng)的“暗物質(zhì)”源的最小能量Dijkstra路徑。這樣的模型可以有效地預(yù)測人類的有意行為和軌跡、定位功能物體,并通過將人類運(yùn)動行為聚集在功能性物體和智能體意圖附近,來發(fā)現(xiàn)物體的不同功能類別。

    圖31 . 從運(yùn)動軌跡推斷人類互動。第一行展示了子互動中條件互動場(conditional interactive field, CIF)隨著互動進(jìn)行的變化,其中CIF對基于參考智能體的運(yùn)動而預(yù)料的相對運(yùn)動模式進(jìn)行建模。底部展示了在運(yùn)動軌跡中互動行為的變化。中間的彩色條描繪了子互動的類型。圖片摘自參考文獻(xiàn)[112],已得到Cognitive Science Society, Inc., ?2017的許可。

    6.3. 不止于對動作的預(yù)測

    在現(xiàn)代計算機(jī)視覺和人工智能系統(tǒng)中[327],意圖與行為預(yù)測的關(guān)系遠(yuǎn)比單純預(yù)測動作標(biāo)簽更為深遠(yuǎn)。人類將動作按照意圖來解釋的傾向是強(qiáng)烈的,且是一個在認(rèn)知發(fā)展過程中出現(xiàn)的很早的能力,這是對新穎手段和新穎目標(biāo)進(jìn)行社交性學(xué)習(xí)的長期過程的一部分。從哲學(xué)的角度來看,Csibra等[103]比較了3種不同的機(jī)制:動作-效果關(guān)聯(lián)、模擬程序、目的論推理。他們得出的結(jié)論是,動作-效果關(guān)聯(lián)和模擬只能用于動作監(jiān)督和預(yù)測;而社交學(xué)習(xí)需要的是目的論推理的推斷能力。

    模擬理論認(rèn)為,在意圖和行動之間進(jìn)行歸因的機(jī)制,可能依賴于模擬觀察到的行動,并將其映射到我們自己的經(jīng)驗和意圖表征上[328];而且,這種模擬過程是對于有意識動作的解釋能力發(fā)展的核心[308]。為了理解他人的意圖,人們在潛意識里對觀察對象進(jìn)行共情,并判斷在這種情況下,他們自己的行動和意圖可能會是什么。這里的動作-效果關(guān)聯(lián)[329]在快速的在線意圖預(yù)測中起著重要作用,而編碼和記憶這兩個成分關(guān)聯(lián)性的能力影響著嬰兒的模仿技巧和理解有意識的動作[330]。越來越多的神經(jīng)生理學(xué)研究證據(jù)支持人腦中的這種模擬。鏡像神經(jīng)元就是一個例子[331],在許多研究中它都與意圖理解有關(guān)[102,332]。但是,一些研究也發(fā)現(xiàn),嬰兒在能夠自己執(zhí)行這些動作之前就已經(jīng)能夠處理目標(biāo)導(dǎo)向的動作(如文獻(xiàn)[333]),這對意圖歸因的模擬理論提出了挑戰(zhàn)。

    為了解決社交學(xué)習(xí)問題,目的論動作解釋系統(tǒng)[334]采取了“功能性立場”,來進(jìn)行目標(biāo)導(dǎo)向動作[103]的計算表征,其中這種目的論表征是由上述的推斷有理性原則[335]生成的。實際上,“動作”這一概念暗含著與智能體想要實現(xiàn)的最終狀態(tài)有關(guān)的,并由它執(zhí)行的運(yùn)動行為。將目標(biāo)歸因于觀察到的動作可以使人們預(yù)測未來動作的過程,評估因果效力或某些動作,并對動作本身做出解釋。此外,可以通過將通往目標(biāo)的路徑分解為由子目標(biāo)組成的層級結(jié)構(gòu)來進(jìn)行動作預(yù)測,層級結(jié)構(gòu)中最基本的成分是由基本的動作(如抓握)組成的。

    這三種機(jī)制之間并不是競爭關(guān)系;相反,它們彼此互補(bǔ)。動作-效果關(guān)聯(lián)提供的快速效果預(yù)測可以作為目的論推理或模擬過程的起始假設(shè);在社交學(xué)習(xí)中,由目的論推理提供的解釋也可以存儲為動作-效果關(guān)聯(lián),以便隨后的快速回憶。

    6.4. 計算機(jī)視覺中意圖的構(gòu)建模塊

    從圖像和視頻中理解和預(yù)測人類意圖是一個由許多實際應(yīng)用驅(qū)動的研究課題,包括視頻監(jiān)控、人機(jī)交互和自動駕駛。為了更好地預(yù)測根據(jù)像素輸入的意圖,充分利用綜合線索是必要且必不可少的(例如,運(yùn)動軌跡、眼神動態(tài),姿態(tài)和運(yùn)動、人物關(guān)系,以及溝通所用的手勢,如指向)。

    如第6.2節(jié)所述,僅僅是運(yùn)動軌跡就可以成為意圖預(yù)測的強(qiáng)有力的信號。憑借直覺物理和感知意圖,人類還擁有通過有限的運(yùn)動軌跡刺激(如一些簡單的幾何形狀的運(yùn)動),將社交事件與物理事件區(qū)分開的能力。Shu等[113]研究了可能的潛在計算機(jī)制,并提出了一個統(tǒng)一的心理空間,揭示了對于涉及無生命物體的物理事件的感知與對于涉及人類與其他智能體互動的社交事件的感知之間的劃分。這個統(tǒng)一的空間包含兩個重要的維度:①是否遵守或違反物理定律的直覺;②從簡單形狀的運(yùn)動中推斷出行為者是否具有意圖的印象(參考圖32[113])。他們的實驗表明,所構(gòu)建的心理空間成功地將人類對物理事件與社交事件的感知進(jìn)行了劃分。

    眼神與潛在的注意力、意圖、情緒、人格以及人類正在思考和做的任何事情密切相關(guān),對于允許人類“閱讀”他人的思想也起著重要的作用[336]。來自心理學(xué)的研究證據(jù)表明,眼睛是一種具有特殊認(rèn)知意義的刺激,在大腦中具有獨特的專門用于其解釋的“硬連接的”神經(jīng)通路,從而揭示了人類從眼睛凝視推斷他人意圖的獨特能力[337]。社交性的凝視功能還超越了文化差異,形成了一種通用語言[338]。計算機(jī)視覺和人工智能系統(tǒng)非常依賴眼神作為基于圖像和視頻進(jìn)行意圖預(yù)測的線索。例如,Wei等開發(fā)的系統(tǒng)[339]可以從視頻中聯(lián)合推斷出人類的注意力、意圖和任務(wù)。在一段人執(zhí)行任務(wù)的RGBD視頻中,系統(tǒng)會同時回答3個問題:①“這個人在看什么?”,即對于注意力/眼神的預(yù)測;②“這個人為什么要看?”,即對意圖的預(yù)測;③“這個人要執(zhí)行什么任務(wù)?”,即對任務(wù)的識別。Wei等[339]提出了一個分層級的人-注意力-物體(human-attention-object, HAO)模型,該模型在一個統(tǒng)一的框架下表征任務(wù)、意圖和注意力。在這種模型下,一個任務(wù)被一個意圖的序列來表征;這些意圖則通過一個基于語法的規(guī)劃器表征下的手眼協(xié)調(diào)來描述(參考圖33 [339])。

    圖32 . 構(gòu)建的心理空間包括具有100%有生性的人人(human-human,HH)互動、人物(human-object, HO)互動和物物(object-object,OO)互動。在此,刺激由數(shù)據(jù)點描述,其坐標(biāo)由模型導(dǎo)出,數(shù)據(jù)點的顏色表示人類對該刺激的平均反應(yīng)??臻g中的兩個變量是違反物理定律程度的度量的平均值,以及表示兩個實體之間意圖存在的數(shù)值。數(shù)據(jù)點的形狀與模擬中用于生成相應(yīng)刺激的互動類型相對應(yīng)(圓圈:HH,三角形:HO,正方形:OO)。圖片摘自參考文獻(xiàn)[113],已得到Cognitive Science Society, Inc., ?2019的許可。

    圖33 . 根據(jù)人-注意力-物體(human-attention-object, HAO)圖中的手眼協(xié)調(diào),將任務(wù)建模為一個意圖的序列。這里的意圖是通過逆向規(guī)劃來表征的,其中人的姿態(tài)、人的注意和可見的物體提供了可以推斷出智能體意圖的背景。圖片摘自參考文獻(xiàn)[339],已得到作者的許可。

    交流性的眼神和手勢(如指向)代表合作交互中的意圖表達(dá)和感知。為了與他人合作并在世界上順利生存下來,人類需要識別合作者的交流意圖。在互惠協(xié)作中,人之間的交流通常涉及智能體將其認(rèn)為有用或與之相關(guān)的事情告知接收者。Melis和Tomasello [340]研究了成對的黑猩猩是否能夠通過交流,來確保在協(xié)作解決問題期間的協(xié)調(diào)。在他們的實驗中,黑猩猩組合需要兩種工具才能從設(shè)備中取得水果。每組中的溝通者可以看到工具的位置(隱藏在兩個盒子之一),但是只有接收者才能打開盒子。溝通者通過接近誘餌盒并向接收者提供打開盒子的鑰匙,逐漸地傳達(dá)工具的位置。接收者使用這些信號獲得工具,然后將其中一個工具傳遞給溝通者,以便他們可以協(xié)作獲取水果。正如這項研究所證明的那樣,即使是黑猩猩也已經(jīng)擁有必要的社交認(rèn)知能力,可以自然地開發(fā)一種簡單的交流策略,以確保協(xié)作任務(wù)中的協(xié)調(diào)。為了模擬這種在黑猩猩和人類中都表現(xiàn)出的能力,F(xiàn)an等[341]研究了人類交流性眼神的動力學(xué)。他們研究了在第三人稱視角的社交場景視頻中,對于共享眼神(兩個或兩個以上的人同時看著社交場景中的共同目標(biāo)的現(xiàn)象)的推斷。一項后續(xù)工作[342]從原子層面和事件層面研究了社交活動中各種類型的眼神交流(圖34)。一個表征社交場景中各種互動的時空圖網(wǎng)絡(luò)被提出,且可以推斷原子層面的眼神交流。

    人類以多種方式傳達(dá)意圖,因此,面部表情、頭部姿勢、身體姿勢和方向、手臂運(yùn)動、手勢、遠(yuǎn)近距離,以及與其他智能體和物體的關(guān)系,都有助于人類的意圖分析和理解。機(jī)器人研究者試圖使機(jī)器人具備在我們看來“自然”的動作,或者說是受限于“社交可供性”的動作(遵循基本社交規(guī)范的行動可能性)。Trick等[343]提出了一種多模態(tài)意圖識別的方法,著重于通過分類器融合減少不確定性,同時考慮了4種模態(tài):言論、手勢、眼神方向和場景物體。Shu等[344]提出了一種機(jī)器人從人類活動視頻中學(xué)習(xí)社交可供性的生成模型。通過發(fā)現(xiàn)互動中的關(guān)鍵步驟(即潛在的子目標(biāo)),以及學(xué)習(xí)人-人(human-huma, HH)和人-物-人(human-object-human,HOH)互動的結(jié)構(gòu)表征(描述了智能體的身體部位如何移動,以及為了完成每個子目標(biāo),它們之間應(yīng)該保持什么樣的空間關(guān)系),機(jī)器人可以根據(jù)人體的運(yùn)動來推斷自己的動作。這種社交可供性也可以由分層語法模型表征[345],從而實現(xiàn)人-機(jī)器人交互的實時運(yùn)動推斷;所學(xué)習(xí)的模型被證明可以成功地推斷出人類的意圖,并在機(jī)器人中生成類人的、適應(yīng)社交的響應(yīng)行為。

    7. 學(xué)習(xí)效用—選擇的偏好

    效用的概念起源于哲學(xué)、經(jīng)濟(jì)學(xué)和博弈論領(lǐng)域,是現(xiàn)代決策理論的最基本原則之一:智能體基于其信念和欲望做出理性的決策/選擇,以最大化其預(yù)期效用。這個就是被大家熟知的最大預(yù)期效用原則。我們認(rèn)為:我們在日常生活中遇到的大多數(shù)觀察信號都是由這一簡單而強(qiáng)大的原則所驅(qū)動的——一種看不見的“暗”力控制著外顯或內(nèi)隱地構(gòu)成人類行為基礎(chǔ)的機(jī)制。因此,研究效用可以為計算機(jī)視覺或人工智能系統(tǒng)提供對其視覺觀察更深入的理解,從而實現(xiàn)更好的泛化。

    根據(jù)效用的經(jīng)典定義,決策者從做出選擇中獲得的效用是通過效用函數(shù)來衡量的。效用函數(shù)是一種對個人偏好進(jìn)行排序的數(shù)學(xué)公式,以使選擇a優(yōu)于選擇b時U(a)>U(b)。需要注意的是,描述智能體的偏好行為的效用函數(shù)的存在并不一定意味著該智能體在自己的思考中外顯地最大化了該效用函數(shù)。但是,通過觀察理性智能體的偏好,觀察者可以構(gòu)造一個效用函數(shù),以表征該智能體實際上試圖實現(xiàn)的目標(biāo),即使該智能體并不知道這樣的效用函數(shù)的存在[346]。值得注意的是,效用理論是一種實證理論,旨在解釋個人觀察到的行為和選擇,這不同于說明人們應(yīng)如何行事的規(guī)范理論。這種區(qū)別對于經(jīng)濟(jì)學(xué)學(xué)科以及對解釋觀測信號的算法和系統(tǒng)的設(shè)計至關(guān)重要。

    圖34 . 在兩個層次層面上的人的眼神交流動態(tài):①原子水平的眼神交流描述了人的眼神互動中的細(xì)粒度結(jié)構(gòu);②事件層面的眼神交流是指在時間上由原子層面的眼神交流構(gòu)成的長期社會交流事件。圖片摘自參考文獻(xiàn)[342],已得到作者的許可。

    盡管杰里米·邊沁[117]通常被認(rèn)為是第一個系統(tǒng)地研究功利主義(后來被經(jīng)濟(jì)學(xué)和博弈論所借鑒的哲學(xué)概念)的學(xué)者,但是促成該理論的核心見解卻早得多(參照弗朗西斯·哈奇森[347]對于動作選擇的學(xué)說)。在哲學(xué)領(lǐng)域,功利主義被認(rèn)為是一種規(guī)范的倫理學(xué)理論,它將對與錯的根源僅僅放在選擇一項而非其他可能的行動/政策的結(jié)果(后果)上。因此,它超越了個人利益的范圍,并考慮了他人的利益[347,348]。該術(shù)語已被經(jīng)濟(jì)學(xué)領(lǐng)域采用,其中效用函數(shù)表示給定一組選擇的消費者的偏好順序。因此,術(shù)語“效用”現(xiàn)在已經(jīng)沒有其原始含義。

    從形式的角度看,效用理論背后的核心思想很簡單:給定模型中的每個可能的動作或狀態(tài)都可以用一個統(tǒng)一的值來描述。該值通常被稱為效用,描述了在給定情境中該動作的有用性。值得注意的是,效用的概念與價值的概念不同:效用從更主觀且與情境相關(guān)的角度衡量了我們對某物的渴望程度,而價值是可測量的數(shù)量(如價格),往往更加客觀。為了證明在計算機(jī)視覺和人工智能系統(tǒng)中采用效用概念的有用性,我們簡要回顧了在計算機(jī)視覺、機(jī)器人、語言學(xué)和社交學(xué)習(xí)4個領(lǐng)域中使用效用驅(qū)動的學(xué)習(xí)方法的近期案例研究。

    如圖35 [233]所示,通過觀察人們在視頻中所做的選擇(特別是選擇坐在哪一把椅子上),一個計算機(jī)視覺系統(tǒng)[233]能夠?qū)W習(xí)坐著時施加在不同身體部位上的力的舒適區(qū)間,從而基于人的內(nèi)在效用解釋了人們的偏好。

    類似地,Shukla等[349]采用了學(xué)習(xí)人類效用的想法,以通過人類示范來教授機(jī)器人做任務(wù)。這項工作展示了一個驗證此概念的管線,智能體在該管線中學(xué)習(xí)人類的外部效用,并使用學(xué)習(xí)到的效用函數(shù)來規(guī)劃折疊衣物的任務(wù)。具體而言,在目標(biāo)狀態(tài)的效用高于初始狀態(tài)的效用的假設(shè)下,該系統(tǒng)通過對從圖像中抽取的狀態(tài)的排序來學(xué)習(xí)人類的外部效用。

    此外,語言學(xué)和哲學(xué)領(lǐng)域也對有理性原則進(jìn)行了研究,特別是在Grice等[350]影響深遠(yuǎn)的對引申義理論的研究中。在Grice研究工作的核心見解中,語言的使用是一種理性的動作;因此,用于推理合理動作的技術(shù)工具應(yīng)闡明語言現(xiàn)象[351]。這種“語言的產(chǎn)生是由目標(biāo)為導(dǎo)向”的觀點催生了一些有趣的語言游戲[352-357]、自然語言生成的工程系統(tǒng)的開發(fā)[358],以及博弈論領(lǐng)域中對語義學(xué)現(xiàn)象進(jìn)行正式描述的詞匯表[359,360]。最近,通過假設(shè)智能體之間的溝通是互助而最簡的,“理性言語行為”[351,361]模型在解決某些具有挑戰(zhàn)性的指代游戲方面已有了令人振奮的結(jié)果。

    效用理論通過使用外部的外顯形式具化了內(nèi)在抽象的社交概念,在社交學(xué)習(xí)中也起著至關(guān)重要的作用,并量化了參與者的信念分布。效用類似于社交中流通的“暗”貨幣,它使群體之間和群體內(nèi)部的社交價值更好地保持一致。通過人們將決策過程評估為可容許的或者不使用效用的進(jìn)行建模,Kleiman-Weiner等[362]能夠解決社交性困境引起的具有挑戰(zhàn)性的情況。預(yù)期效用影響分配的方式也可以很好地解釋社交目標(biāo)(如合作與競爭[363,364])和公平性[365]。在更廣泛的范圍內(nèi),效用可以使個體在社交學(xué)習(xí)過程中獲得自我認(rèn)同感;例如,當(dāng)在發(fā)展的早期階段形成基本的社交概念和行為規(guī)范時,孩子們會將自己的元價值與他人的觀察價值進(jìn)行比較[366]。

    8. 總結(jié)和討論

    圖35 . 坐在辦公室(a)和會議室(b)中的示例。除了幾何形狀和外觀,人們在決定就坐位置時還考慮了其 他重要因素,包括舒適水平、到達(dá)的成本和社交目標(biāo)。直方圖說明了人類對于不同候選椅子的偏好?;谶@些觀察,可以從視頻中推斷出坐著時的人類效用[233]。(c)使用Kinect傳感器捕捉的火柴人模型。首先將其轉(zhuǎn)換為四面體人體模型,然后將其分割為14個身體部位。(d)使用有限元模擬,在有限元的網(wǎng)格的每個頂點處估算力。圖片摘自參考文獻(xiàn)[233],已得到作者的許可。

    機(jī)器人具有執(zhí)行各種復(fù)雜活動的機(jī)械能力;但是,在實踐中,它們的能力很少對人類有用。如今的機(jī)器人從根本上缺乏物理和社交常識;這種局限性限制了他們輔助我們?nèi)粘I畹哪芰?。在本文中,我們回顧?個概念,這些概念是常識的關(guān)鍵組成部分:功能、物理、意圖、因果和效用(FPICU)。我們認(rèn)為,這些認(rèn)知能力已顯出成為認(rèn)知人工智能的基石的潛力,因此應(yīng)該成為未來構(gòu)建該認(rèn)知體系的基礎(chǔ)。本文的立場并不是要充當(dāng)認(rèn)知人工智能的唯一解決方案。相反,通過確定這些關(guān)鍵概念,我們呼吁大家關(guān)注在快速發(fā)展的人工智能研究中被探索得較少的路徑。實際上,我們認(rèn)為還有許多其他主題也是人工智能必不可少的要素,例如,如下3個方面。

    (1)物理逼真的VR/MR平臺:從大數(shù)據(jù)到大任務(wù)。由于FPICU是“暗”的,并通常不會以像素形式出現(xiàn),因此我們很難用傳統(tǒng)方法評估FPICU。在這里我們認(rèn)為,驗證人工智能中FPICU有效性的最終標(biāo)準(zhǔn)是檢查智能體是否能夠:①在不同環(huán)境中,使用具有不同指令的不同對象集合和(或)不同的動作序列,完成同一任務(wù);②迅速將這些學(xué)到的知識應(yīng)用于全新的任務(wù)。通過利用最先進(jìn)的游戲引擎和物理模擬,我們開始大規(guī)模探索這種可能性。詳情請參閱第8.1節(jié)。

    (2)社交系統(tǒng):語言、交流和道德的產(chǎn)生。盡管FPICU捕捉了單個智能體的核心成分,但在協(xié)作或競爭情況下,如何對智能體之間和內(nèi)部的互動進(jìn)行建模[367]仍然是一個具有挑戰(zhàn)性的問題。在大多數(shù)情況下,為單個智能體設(shè)計的算法很難泛化到多智能體系統(tǒng)(multiple-agent system, MAS)的設(shè)定中[368-370]。8.2節(jié)簡要回顧了3個相關(guān)主題。

    (3)衡量智能系統(tǒng)的極限:智商測試。對FPICU的研究為類比和關(guān)系推理開辟了新的方向[371]。除了四項類比(或比例類比)之外,Raven [372]提出了基于圖片的Raven漸進(jìn)矩陣(Raven's progressive matrices, RPM)測試。最近,計算機(jī)視覺研究中引入了關(guān)系和類比視覺推理(relational and analogical visual reasoning, RAVEN)數(shù)據(jù)集[373],并將此作為許多視覺推理模型的系統(tǒng)基準(zhǔn)。實證研究表明,將抽象層面的推理與有效的特征提取模型相結(jié)合,可以顯著提升推理、類比和泛化的表現(xiàn)。但是,人類和計算模型之間的差距值得人們在該領(lǐng)域進(jìn)行進(jìn)一步的研究。詳情請參閱第8.3節(jié)。

    8.1. 物理逼真的VR/MR平臺——從大數(shù)據(jù)到大任務(wù)

    機(jī)器智能的一個標(biāo)志是快速適應(yīng)新任務(wù)并“在各種環(huán)境中實現(xiàn)目標(biāo)”的能力[374]。為了實現(xiàn)這一目標(biāo),近年來,我們看到,使用最先進(jìn)的游戲引擎和免費的、公開可用的3D內(nèi)容[288,375-377] [包括MINOS [378]、HoME [379]、Gibson [380]、House3D [381]、AI-THOR[382]、VirtualHome [383]、VRGym(圖36 [384])和VRKitchen [385] ]的合成數(shù)據(jù)和模擬平臺被越來越多地用來模擬室內(nèi)場景。此外,AirSim [386]開源模擬器是針對室外場景開發(fā)的。與傳統(tǒng)的數(shù)據(jù)收集和標(biāo)注過程相比,此類合成數(shù)據(jù)可以相對容易地擴(kuò)充。隨著漸增的逼真度和建立在專用硬件上的快速渲染,來自虛擬世界的合成數(shù)據(jù)與從物理世界收集的數(shù)據(jù)越來越相似。在這些真實的虛擬環(huán)境中,更全面地評估任何人工智能方法或系統(tǒng)成為了可能。在使用全面評估時,衡量方法或系統(tǒng)是否智能不再是通過單個狹窄任務(wù)的成功與否,而是通過執(zhí)行多種任務(wù)的能力:對環(huán)境的感知、對動作的規(guī)劃、對其他智能體行為的預(yù)測,以及快速將所學(xué)知識應(yīng)用到新任務(wù)和新環(huán)境的能力。

    為了建立這種任務(wù)驅(qū)動的評估,基于物理的多材料、多物理現(xiàn)象的模擬(圖37)將發(fā)揮核心作用。我們認(rèn)為,認(rèn)知人工智能需要加快步伐,從計算機(jī)圖形學(xué)中采用更先進(jìn)的模擬模型,以便從高度可預(yù)測的前向模擬中獲益,特別是實時圖形處理單元(graphics processing unit, GPU)的優(yōu)化[387]下的實時性能。在這里,我們簡要回顧最近基于物理的模擬方法,尤其是物質(zhì)點方法(material point method, MPM)。

    圖36 . VRGym——虛擬環(huán)境作為大型任務(wù)平臺的示例。(a)在此平臺內(nèi),人類或虛擬智能體都可以在虛擬場景中執(zhí)行各種操作,并評估任務(wù)執(zhí)行的成功程度。(b)除剛體模擬外,VRGym還利用最先進(jìn)的游戲引擎支持逼真的實時流體和布料模擬。圖片摘自參考文獻(xiàn)[384],已得到Association for Computing Machinery, ? 2019的許可。

    基于物理推理的準(zhǔn)確度在很大程度上取決于基于物理模擬的逼真度。同樣,虛擬材料所支持的范圍及其物理和交互屬性直接決定它們所涉及的人工智能任務(wù)的復(fù)雜性。從Terzopoulos等[388,389]對于固體及Foster和Metaxas [390]對于流體的開創(chuàng)性工作以來,計算機(jī)圖形學(xué)中的許多數(shù)學(xué)和物理模型已經(jīng)被開發(fā),并應(yīng)用于3D虛擬環(huán)境中的固體和流體的模擬。

    幾十年來,計算機(jī)圖形學(xué)和計算物理學(xué)界一直致力于提高對布料、碰撞、形變物、火、流體、斷裂、毛發(fā)、剛體、桿、殼和許多其他物質(zhì)的模擬的魯棒性、效率、穩(wěn)定性和準(zhǔn)確性。基于計算機(jī)模擬的工程科學(xué)作為物理實驗廉價、安全且可分析的替代,在解決許多現(xiàn)代問題中發(fā)揮著重要作用。最具挑戰(zhàn)性的問題是涉及極端形變、拓?fù)渥兓约安煌牧虾拖嘀g的相互作用。這些問題的例子包括超高速撞擊、爆炸、斷裂演化、流體-結(jié)構(gòu)相互作用、氣候模擬和冰蓋運(yùn)動。盡管計算固體和流體力學(xué)在迅速發(fā)展,有效且高效地模擬這些復(fù)雜現(xiàn)象仍然很困難。根據(jù)連續(xù)物理方程離散化的方式,現(xiàn)有方法可以分為以下幾類。

    (1)基于格點的歐拉方法,其中計算網(wǎng)格固定在空間中,物理屬性通過形變流平移。一個典型的例子是自由表面不可壓縮流的歐拉模擬[391,392]。歐拉方法更容易出錯,在處理形變材料的交界處和邊界條件時,因為沒有顯式的跟蹤方法,需要精細(xì)的處理。

    (2)以有限元方法(FEM)[393-395]作為代表的基于網(wǎng)格的拉格朗日方法。在FEM中,材料由形變網(wǎng)格描述并被嵌入其中。質(zhì)量、動量和能量守恒問題可以被更輕松地解決。FEM的主要問題是網(wǎng)面形變和在大變形[396,397]或拓?fù)渥兓痆398]期間缺乏接觸。

    (3)無網(wǎng)格的拉格朗日方法,如平滑粒子流體動力學(xué)(smoothed particle hydrodynamics, SPH)[399]和再生核粒子方法(reproducing kernel particle method,RKPM)[400]。這些方法允許任意形變,但需要昂貴的操作,如鄰域搜索[401]。由于插值內(nèi)核是使用相鄰粒子進(jìn)行近似計算的,這些方法也更容易遭受數(shù)值不穩(wěn)定問題的困擾。

    (4)混合拉格朗日-歐拉方法,如任意拉格朗日-歐拉方法(arbitrary Lagrangian-Eulerian methods, ALE)[402]和MPM。這些方法(特別是MPM)使用混合表征形式結(jié)合了拉格朗日方法和歐拉網(wǎng)格方法的優(yōu)點。

    特別值得注意的是,作為從計算流體動力學(xué)到計算固體力學(xué)的混合流體隱式粒子(hybrid fluid implicit particle, FLIP)方法[403,404]的泛化,MPM自20年前問世[405,406]以來已被證明是模擬許多固體和流體材料的有前景的離散選擇。在視覺計算領(lǐng)域,現(xiàn)有工作包括雪[407,408]、泡沫[409-411]、沙子[412,413]、剛體[414]、裂縫[415,416]、布[417]、毛發(fā)[418]、水[419]和固液混合物[420-422]。在計算工程科學(xué)中,此方法也已成為各種應(yīng)用的最新、最先進(jìn)的離散化選擇之一。由于其許多優(yōu)點,它已被成功地應(yīng)用于處理極端形變事件,如斷裂演化[423]、材料破壞[424,425]、超高速沖擊[426,427]、爆炸[428]、流體-固體相互作用[429,430]、生物力學(xué)[431]、地質(zhì)力學(xué)[432],以及許多其他用傳統(tǒng)非混合方法處理時要困難得多的示例。除了極大擴(kuò)張的應(yīng)用范圍外,MPM的離散化方案也得到了廣泛的改進(jìn)[433]。為了減輕MPM公式的數(shù)值誤差和穩(wěn)定性問題,研究人員提出了MPM的不同變體,包括廣義插值物質(zhì)點(generalized interpolation material point, IMP)方法[434,435]、對流粒子域插值(convected particle domain interpolation, CPDI)方法[436]和雙域物質(zhì)點(dual domain material point, DDMP)方法[437]。

    圖37 . 使用物質(zhì)點方法模擬的各種物理現(xiàn)象。

    8.2. 社交系統(tǒng)——語言、交流和道德的產(chǎn)生

    能夠與其他智能體進(jìn)行溝通和協(xié)作是人工智能的重要組成部分。在經(jīng)典的人工智能中,人們通過預(yù)定義的規(guī)則系統(tǒng)來對多智能體通信策略進(jìn)行建模(例如,在MAS中對通信策略進(jìn)行自適應(yīng)學(xué)習(xí)[367])。為了從基于規(guī)則的系統(tǒng)中擴(kuò)大規(guī)模,去中心的、部分可觀測的馬爾可夫決策過程被設(shè)計出來以建模多智能體互動,通信在其中也被視為一種特殊的動作[438,439]。與強(qiáng)化學(xué)習(xí)在單智能體游戲中的成功[440]一樣,近年來,將Q學(xué)習(xí)[370,441]和基于演員評論家[368,442]的方法從單智能體泛化到MAS已成為熱門課題。

    語言的出現(xiàn)也是多智能體去中心協(xié)作中一個碩果累累的研究課題。通過將通信建模為一種特定類型的行為,近期的研究[369,443,444]表明,智能體可以學(xué)習(xí)如何使用只有在一個群體內(nèi)才能被識別的連續(xù)信號進(jìn)行通信。各種類型的通信游戲中,已經(jīng)出現(xiàn)了使用離散消息的更現(xiàn)實的通信協(xié)議[445-448]。其中智能體需要處理視覺信號,并將離散標(biāo)記附加到圖像的屬性或語義上,以形成有效的協(xié)議。通過讓智能體群體自發(fā)地進(jìn)行通信游戲,人們已經(jīng)開始研究其產(chǎn)生的通信和語言中的幾種語言學(xué)現(xiàn)象[449-451]。

    道德是一個抽象且復(fù)雜的概念,它由公平、義務(wù)和可允許性等常見原則組成。道德深深植根于人們每天在這些道德原則互相沖突時做出的取舍[452,453]。由于不同個人、社交群體、文化的準(zhǔn)則,甚至是違反道德原則的形式的差異,道德判斷極為復(fù)雜。例如,兩個不同的社會可能對同族的優(yōu)待持相反的觀點:一個可能將其視為腐敗,另一種則將其視為道德義務(wù)[366]。誠然,在具有不同文化的兩個社交群體中,對同一原則的看法可能有所不同[454]。即使在同一個社交群體中,不同的個體對同一道德原則或其引發(fā)的道德判斷也可能有不同的標(biāo)準(zhǔn)[455-457]。許多著作提出了對道德計算中社會福利的不同衡量標(biāo)準(zhǔn)進(jìn)行分類的理論解釋,包括“基本商品”和“主要商品”[458,459]、“道德基礎(chǔ)”[460],以及從嬰兒角度進(jìn)行價值判斷的可行性觀點[461]。盡管它具有復(fù)雜性和多樣性,設(shè)計道德和道德判斷的計算方法卻是構(gòu)建類人機(jī)器的必經(jīng)之路。近期的一種道德學(xué)習(xí)方法結(jié)合了效用計算和貝葉斯推理來區(qū)分和評估不同的原則[362,366,462]。

    8.3. 衡量智能系統(tǒng)的極限——智商測試

    在相關(guān)研究中,如果兩個案例具有共同的關(guān)系,我們稱它們?yōu)轭惐劝咐?。這樣的關(guān)系不僅僅存在不同學(xué)科中(如計算機(jī)視覺和AI)使用相同標(biāo)簽的實體或思想之間。相反,“類比”在更抽象的層面上強(qiáng)調(diào)了共性。例如,根據(jù)文獻(xiàn)[463],通過類比做出的最早的重大科學(xué)發(fā)現(xiàn)可以追溯到羅馬帝國,當(dāng)時的研究人員將水和聲音中的波進(jìn)行了類比。他們認(rèn)為聲波和水波具有相似的行為特性;例如,它們的強(qiáng)度在它們跨空間傳播時都會減弱。做出成功類比的關(guān)鍵是要了解原因及其效果[464]。

    類比的研究歷史可以分為3類,可參考文獻(xiàn)[371]中的研究簡史和文獻(xiàn)綜述。一類是心理計量學(xué)傳統(tǒng)中的四項或“比例”類比,最早的討論可以追溯到亞里斯多德[465]。人工智能中的一個例子是word2vec模型[466,467],它能夠進(jìn)行四項詞的類比。如[國王:王后::男人:女人]。在圖像領(lǐng)域,Raven [372]發(fā)明了類似的測試——RPM測試。

    RPM已被廣泛接受,并被認(rèn)為與真實智力高度相關(guān)[468]。與位于認(rèn)知能力測試圈[468]外圍的視覺問答(visual question answering, VQA)[469]不同,RPM直接位于測試圈的中心:它是對抽象和結(jié)構(gòu)推理能力的診斷[470],并且抓住了高級認(rèn)知的關(guān)鍵特征——流體智力[471]。經(jīng)證明,RPM在以下方面比現(xiàn)有的視覺推理測試難度更大[373]。

    (1)不同于VQA中,自然語言問題通常暗示智能體在圖像中應(yīng)注意什么。RPM僅依賴于矩陣中提供的視覺線索。對應(yīng)問題,也就是跨越框架找到對應(yīng)物體以確定其關(guān)系的能力,已經(jīng)是區(qū)分不同智力人群的主要因素[468]。

    (2)當(dāng)前的視覺推理測試僅需要空間和語義理解,而RPM需要在問題矩陣和答案集當(dāng)中進(jìn)行時空聯(lián)合推理。為了解決RPM問題,必須考慮到短時記憶的局限性、理解類比的能力以及對結(jié)構(gòu)的把握。

    (3)RPM中的結(jié)構(gòu)使規(guī)則的組成更加復(fù)雜。RPM中的問題通常包括帶有遞歸的更復(fù)雜的邏輯。由各個層級組成的組合規(guī)則也使推理過程極為困難。

    創(chuàng)建RAVEN數(shù)據(jù)集[373]的目的是為了突破當(dāng)前視覺系統(tǒng)的推理和類比能力極限,并促進(jìn)該領(lǐng)域的進(jìn)一步研究。該數(shù)據(jù)集的設(shè)計重點是推理和類比,而不僅僅是視覺識別。它是獨特的——通過將每個問題都植根于帶有屬性的隨機(jī)圖像語法(attributed stochastic image grammar, A-SIG)的句子中,RPM在視覺推理和結(jié)構(gòu)推理之間建立了語義聯(lián)系:每個實例都是從預(yù)定義的A-SIG中提取的一個句子,而渲染引擎將句子轉(zhuǎn)換為相應(yīng)的圖像。有關(guān)生成過程的示意圖,請參考圖38 [373]。通過將問題分解為圖像理解和抽象層面的結(jié)構(gòu)推理,視覺和結(jié)構(gòu)之間的語意聯(lián)系開辟了新的研究可能性。Zhang等[373]通過實驗證明,使用簡單的結(jié)構(gòu)推理模塊將視覺層次的理解與抽象層次的推理和類比相結(jié)合的模型,顯著提升了它們在RPM任務(wù)中的表現(xiàn),而各種先前的關(guān)系學(xué)習(xí)的方法僅比隨機(jī)方法表現(xiàn)得稍微好一些。

    類比不僅僅包括時空解析和結(jié)構(gòu)推理。例如,對比效應(yīng)[472]已被證明是人和機(jī)器學(xué)習(xí)關(guān)系和類比推理中的關(guān)鍵要素之一[473-477]。對比效應(yīng)源于感知學(xué)習(xí)[478,479],在心理學(xué)和教育領(lǐng)域[480-484]都已充分證明,通過比較噪聲例子來教授新概念是非常有效的。Smith和Gentner [485]總結(jié)認(rèn)為,比較案例有助于遷移學(xué)習(xí)和問題解決,以及學(xué)習(xí)關(guān)系類別的能力。在他的結(jié)構(gòu)映射理論中,Gentner [486]假設(shè)學(xué)習(xí)者在比較兩個案例時會在兩個表征之間產(chǎn)生結(jié)構(gòu)上的對應(yīng)。后來的一篇文章[487]堅定地支持了這個想法,并表明當(dāng)比較相似的物品時,人類更加容易發(fā)現(xiàn)個體差異。Schwartz等[488]的最新研究還表明,對比案例有助于深度理解。為了在機(jī)器學(xué)習(xí)、計算機(jī)視覺以及更廣泛的AI領(lǐng)域中找回這種缺失的對比處理方法,Zhang等[489]提出了學(xué)習(xí)感知推理的方法,該方法在模型訓(xùn)練中明確引入了對比的概念。具體而言,對比模塊和對比損失分別在模型層面和目標(biāo)層面被整合入算法里。具有排列不變性的對比模塊總結(jié)了來自不同物體的共同特征,并通過將每個候選答案投影到其在共同特征空間里的殘差,來區(qū)分每個候選答案。最終的模型(包括來自對比效應(yīng)和感知推理的想法)在主要的RPM數(shù)據(jù)集上實現(xiàn)了最好的表現(xiàn)。

    與RPM的研究工作相應(yīng),數(shù)感的研究工作[490]連接了符號概念的推導(dǎo)和解決問題的能力;實際上,數(shù)感可以被視為RPM視覺推理任務(wù)的數(shù)學(xué)對等物。一項最近的工作從強(qiáng)數(shù)學(xué)推理的角度探討了類比問題[491]。Zhang等[491]研究了機(jī)器數(shù)感問題,并提出了一個針對抽象和關(guān)系推理的視覺算術(shù)問題數(shù)據(jù)集。對于其中的每一道題目,機(jī)器得到兩幅含有數(shù)字的圖片,圖上的數(shù)字遵循隱藏的算術(shù)運(yùn)算關(guān)系;機(jī)器負(fù)責(zé)解出第三幅圖片中缺失的數(shù)字。解決機(jī)器數(shù)感問題并非易事:系統(tǒng)必須識別數(shù)字并通過題目的背景、幾何形狀和關(guān)系(如對稱性)以及正確的操作來解讀數(shù)字。實驗表明,當(dāng)前的基于神經(jīng)網(wǎng)絡(luò)的模型在學(xué)習(xí)后無法獲得數(shù)學(xué)推理能力,而配備了附加感知模塊的經(jīng)典搜索算法可以在較少的搜索步數(shù)下獲得顯著的性能提升。這項工作還為如何改進(jìn)機(jī)器推理提供了一些啟示:將經(jīng)典的搜索算法與現(xiàn)代神經(jīng)網(wǎng)絡(luò)相融合,以便在將來的研究中發(fā)掘基本的數(shù)字概念,這將是一個令人振奮的發(fā)展。

    圖38 . 參考資料[373]中的RAVEN創(chuàng)建過程。語法產(chǎn)生規(guī)則(a)被用于帶有屬性的隨機(jī)圖像語法(A-SIG)(b)中的示意圖;(c)布局和實體具有相關(guān)的屬性;(d)問題矩陣樣例;(e)候選集樣例。圖片摘自參考文獻(xiàn)[373],已得到作者的許可。

    Acknowledgements

    This article presents representative work selected from a US and UK Multidisciplinary University Research Initiative (MURI) collaborative project on visual commonsense reasoning, focusing on human vision and computer vision. The team consists of interdisciplinary researchers in computer vision, psychology, cognitive science, machine learning, and statistics from both the US (in alphabetical order: Carnegie Mellon University, Massachusetts Institute of Technology, Stanford University, University of California at Los Angeles (UCLA), University of Illinois at Urbana-Champaign, and Yale University) and the UK (in alphabetical order: University of Birmingham, University of Glasgow, University of Leeds, and University of Oxford).?? See https://vcla.stat.ucla.edu/MURI_Visual_CommonSense/ for details about this MURI project.? Workshop on Vision Meets Cognition: Functionality, Physics, Intentionality, and Causality: https://www.visionmeetscognition.org/.?? Workshop on 3D Scene Understanding for Vision, Graphics, and Robotics: https://scene-understanding.com/.The MURI team also holds an annual review meeting at various locations together with two related series of CVPR/CogSci workshops.?? See https://vcla.stat.ucla.edu/MURI_Visual_CommonSense/ for details about this MURI project.? Workshop on Vision Meets Cognition: Functionality, Physics, Intentionality, and Causality: https://www.visionmeetscognition.org/.?? Workshop on 3D Scene Understanding for Vision, Graphics, and Robotics: https://scene-understanding.com/.,??? See https://vcla.stat.ucla.edu/MURI_Visual_CommonSense/ for details about this MURI project.? Workshop on Vision Meets Cognition: Functionality, Physics, Intentionality, and Causality: https://www.visionmeetscognition.org/.?? Workshop on 3D Scene Understanding for Vision, Graphics, and Robotics: https://scene-understanding.com/.

    We are grateful to the editor of the special issue and the two reviewers for their valuable comments that have helped improve the presentation of the paper. We thank the following colleagues for helpful discussions on various sections:Professor Chenfanfu Jiang at the University of Pennsylvania; Dr. Behzad Kamgar-Parsi at the Office of Naval Research (ONR) and Dr. Bob Madahar at the Defence Science and Technology Laboratory (DSTL); Luyao Yuan, Shuwen Qiu, Zilong Zheng, Xu Xie, Xiaofeng Gao, and Qingyi Zhao at UCLA; Dr. Mark Nitzberg, Dr. Mingtian Zhao, and Helen Fu at DMAI, Inc.; and Dr. Yibiao Zhao at ISEE, Inc.

    The work reported herein is supported by MURI ONR(N00014-16-1-2007), DARPA XAI (N66001-17-2-4029),and ONR (N00014-19-1-2153).

    Compliance with ethics guidelines

    Yixin Zhu, Tao Gao, Lifeng Fan, Siyuan Huang, Mark Edmonds, Hangxin Liu, Feng Gao, Chi Zhang, Siyuan Qi,Ying Nian Wu, Joshua B. Tenenbaum, and Song-Chun Zhu declare that they have no conflict of interest or financial conflicts to disclose.

    猜你喜歡
    意圖物體物理
    原始意圖、對抗主義和非解釋主義
    法律方法(2022年2期)2022-10-20 06:42:20
    只因是物理
    井岡教育(2022年2期)2022-10-14 03:11:44
    陸游詩寫意圖(國畫)
    制定法解釋與立法意圖的反事實檢驗
    法律方法(2021年3期)2021-03-16 05:56:58
    深刻理解物體的平衡
    處處留心皆物理
    我們是怎樣看到物體的
    三腳插頭上的物理知識
    為什么同一物體在世界各地重量不一樣?
    我不是教物理的
    中學(xué)生(2015年2期)2015-03-01 03:43:33
    霍林郭勒市| 上思县| 甘洛县| 永靖县| 株洲县| 涿鹿县| 凤城市| 无锡市| 玉田县| 石景山区| 隆化县| 图木舒克市| 洞口县| 台东市| 鄂尔多斯市| 东丰县| 密云县| 曲麻莱县| 万源市| 岳阳县| 筠连县| 无棣县| 郸城县| 简阳市| 铜鼓县| 徐水县| 西充县| 明溪县| 麦盖提县| 胶州市| 彩票| 揭西县| 宜丰县| 海南省| 西华县| 南雄市| 图们市| 普安县| 石台县| 宾川县| 麻栗坡县|