• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      視覺(jué)可供性研究綜述

      2022-09-21 05:37:26李云龍卿粼波韓龍玫王昱晨
      關(guān)鍵詞:物體對(duì)象機(jī)器人

      李云龍,卿粼波,韓龍玫,王昱晨

      1.四川大學(xué) 電子信息學(xué)院,成都610065

      2.成都市規(guī)劃設(shè)計(jì)研究院,成都610041

      可供性這一概念由生態(tài)心理學(xué)家Gibson在1966年[1]首次提出,他在1979 年[2]將可供性定義為“The affordances of the environment are what it offers the animal,what it provides or furnishes,either for good or ill.The word affordance implies the complementarity of the animal and the environment.”即環(huán)境的可供性描述其可為動(dòng)物行為活動(dòng)提供的或正向或負(fù)向的支持,反映動(dòng)物與環(huán)境之間的互補(bǔ)性。Norman[3]將可供性進(jìn)一步解釋為“決定如何使用該事物的基本屬性”,其認(rèn)為可供性為暗示事物的相關(guān)操作提供了充分的線(xiàn)索。比如,旋鈕可以旋擰,按鈕可以按下以及球可以投擲或拍打等。

      可供性理論一經(jīng)提出即受到了廣泛關(guān)注,相繼被引入環(huán)境心理學(xué)[4-5]、城市規(guī)劃[6]等相關(guān)領(lǐng)域,開(kāi)展結(jié)合可供性基礎(chǔ)理論的研究。近年來(lái),隨著視覺(jué)數(shù)據(jù)逐漸增加,利用計(jì)算機(jī)視覺(jué)直觀(guān)地研究可供性漸成趨勢(shì)。Gibson認(rèn)為計(jì)算機(jī)視覺(jué)中應(yīng)該注重物與人的交互,而不是單純地對(duì)物體進(jìn)行識(shí)別?;诖?,大量學(xué)者和機(jī)構(gòu)開(kāi)始關(guān)注物體與個(gè)人的交互,利用計(jì)算機(jī)視覺(jué)領(lǐng)域的技術(shù)識(shí)別物體的視覺(jué)可供性。視覺(jué)可供性一方面可以推進(jìn)機(jī)器人領(lǐng)域的發(fā)展,促進(jìn)機(jī)器人實(shí)現(xiàn)自我控制并完成與人或目標(biāo)之間的進(jìn)一步交互。另一方面,對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域而言,視覺(jué)可供性的引入可以打破傳統(tǒng)物體檢測(cè)任務(wù)中的桎梏,利用物體的屬性進(jìn)一步挖掘其潛在的各類(lèi)可供性,為物體提供新的使用思路與應(yīng)用場(chǎng)景。

      早期的視覺(jué)可供性研究基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,而隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)[7](convolutional neural networks,CNN)、條件隨機(jī)場(chǎng)[8](conditional random field,CRF)等各類(lèi)神經(jīng)網(wǎng)絡(luò)在視覺(jué)可供性研究中得到越來(lái)越多的應(yīng)用。伴隨傳統(tǒng)機(jī)器學(xué)習(xí)的不斷改進(jìn)和深度學(xué)習(xí)的不斷深入,能夠識(shí)別的范圍也從簡(jiǎn)單的目標(biāo)識(shí)別擴(kuò)展到對(duì)于行為以及物體之間關(guān)系的識(shí)別研究,在識(shí)別的精度上也有大幅的提升。

      1 視覺(jué)可供性概述

      視覺(jué)可供性的分類(lèi)方式很多,本文與目前已有的綜述[9-12]不同的是首次對(duì)于可供性不同分類(lèi)進(jìn)行定義,并分別總結(jié)檢測(cè)方法。本文根據(jù)識(shí)別方法的不同,將可供性分為功能可供性、行為可供性、社交可供性三大類(lèi):

      (1)功能可供性是基于物體自身性質(zhì)判斷的可供性。例如利用物體的外形材質(zhì)判斷。

      (2)行為可供性是基于物體的使用方法判斷的可供性。例如利用人或機(jī)器人使用物體的行為判斷。

      (3)社交可供性是基于目標(biāo)間關(guān)系判斷的可供性。例如利用環(huán)境各要素之間或個(gè)體之間的關(guān)系判斷。

      圖1展示了可供性的分類(lèi)關(guān)系。

      圖1 視覺(jué)可供性分類(lèi)Fig.1 Visual affordances classification

      1.1 功能可供性

      視覺(jué)可供性最基礎(chǔ)的類(lèi)別為功能可供性,即通過(guò)識(shí)別物體的外形、形狀、材質(zhì)等判斷物體的可供性。

      功能可供性關(guān)注物體的自身屬性,可以根據(jù)判斷方式將其分為顯性功能可供性和隱性功能可供性。顯性功能可供性即可以通過(guò)物體某一自身屬性直接推測(cè)的功能可供性,而隱性功能可供性則需要在獲取物體自身屬性的基礎(chǔ)之上,結(jié)合已有的先驗(yàn)知識(shí)判斷對(duì)于該物體而言并不常見(jiàn)的功能可供性。

      1.1.1 顯性功能可供性

      顯性功能可供性通過(guò)物體的單個(gè)性質(zhì)或形狀等直接判斷?;陲@性可供性的性質(zhì),大多研究人員將視覺(jué)顯性可供性判斷任務(wù)同等化為目標(biāo)檢測(cè)任務(wù),使用方法與目標(biāo)檢測(cè)任務(wù)的方法相同,包含且不僅限于KNN、CNN、集成的ResNet或Yolo[13]等框架。例如,Ye將可供性理解為目標(biāo)檢測(cè)問(wèn)題,研究了認(rèn)知機(jī)器人的場(chǎng)景功能理解問(wèn)題,實(shí)現(xiàn)對(duì)室內(nèi)場(chǎng)景中可供性區(qū)域的高效識(shí)別[14],(如圖2所示)“抓”作為可供性意為可以被抓取,圖2展示了圖片中檢測(cè)出存在“抓”這類(lèi)可供性的區(qū)域。

      圖2 場(chǎng)景中“抓”的顯性可供性檢測(cè)Fig.2 Affordance detection for“grasp”in pictures

      1.1.2 隱性功能可供性

      隱性功能可供性需要通過(guò)已知的可供性與物體的性質(zhì)推斷。例如,石頭自身具有可以抓取的可供性,如果進(jìn)一步判斷其有質(zhì)地堅(jiān)硬、尺寸合適的物理屬性,即可推斷出該石頭具備與工具錘子類(lèi)似的敲擊能力,具有“敲打”這個(gè)可供性。這些潛在的可供性都不易直接通過(guò)物體的特性判斷,而是需要結(jié)合先驗(yàn)知識(shí)推斷。SchoelerM等人[15]成功推斷某工具可能存在的另一種用法,如圖3,用石頭代替錘子或用頭盔代替水杯等。

      圖3 隱性功能可供性的推斷Fig.3 Recessive affordance inference

      1.2 行為可供性

      行為可供性不直接從物體的物理屬性中推斷,而是需要結(jié)合圖像中人類(lèi)或自身的行為,即使用者的行為進(jìn)一步進(jìn)行推理。例如一扇無(wú)把手的門(mén),其物理屬性可以描述為“一塊平整的豎立放置的木板”,難以直接推斷出其具備的可供性。而如果結(jié)合人推門(mén)這一連續(xù)的行為動(dòng)作,則可以直觀(guān)地判斷其具有“推”的可供性?,F(xiàn)有的行為可供性分析方法主要通過(guò)學(xué)習(xí)包含人物交互的行為圖像或視頻,預(yù)測(cè)物體所支持的人類(lèi)活動(dòng),進(jìn)而分析物體的可供性。早期Fitzpatrick等人[16]提出機(jī)器人不應(yīng)該是只對(duì)外部刺激產(chǎn)生反應(yīng)的系統(tǒng),而應(yīng)該探索和理解環(huán)境。通過(guò)學(xué)習(xí)人類(lèi)的行為學(xué)習(xí)與物體互動(dòng)應(yīng)當(dāng)是它們像人類(lèi)一樣行事和互動(dòng)的第一步。

      如圖4 所示,Pieropan 等人[17]認(rèn)為人類(lèi)演示視頻中包含大量人物交互性信息,可以輔助機(jī)器人更好地完成針對(duì)物體的可供性理解,因此在可供性理解框架中加入了人手與物體交互的RGBD視頻,以便更好地理解人類(lèi)的活動(dòng)。

      圖4 通過(guò)物體使用視頻學(xué)習(xí)物體可供性Fig.4 Learn object affordances by how objects are used

      1.3 社交可供性

      社交可供性是指在會(huì)被環(huán)境中其他個(gè)體與交互目標(biāo)的關(guān)系所影響的可供性,該類(lèi)可供性需要基于環(huán)境各要素或個(gè)體相互間的關(guān)系判斷。

      例如在圖5中所示,抓取一個(gè)人身旁的包是不合適的,因?yàn)檫@個(gè)包是屬于那個(gè)人,并且操作執(zhí)行者會(huì)違反法律。一把被占用的椅子仍然被認(rèn)為是一把椅子,人卻不能坐在它上面[18-19],這是因?yàn)檫@把椅子被已經(jīng)被坐在它上面的人或物體所占用,故它用來(lái)坐的可供性不存在了,因此一個(gè)物體的某些可供性需要結(jié)合它身處的環(huán)境來(lái)判定。

      圖5 社交可供性與環(huán)境中的元素聯(lián)系相關(guān)Fig.5 Social affordances are related to connection of elements in environment

      另一方面,社會(huì)可供性也與觀(guān)察者自身的屬性存在關(guān)系,例如給殘疾人提供的專(zhuān)屬座位,對(duì)于一個(gè)健康的人來(lái)說(shuō),一般情況下這個(gè)座位是不合適去使用的,則可以稱(chēng)殘疾人專(zhuān)屬座位的可供性對(duì)于健康人而言是消極的[19]。

      1.4 可供性檢測(cè)框架

      可供性檢測(cè)的流程如圖6所示,先對(duì)輸入的文件進(jìn)行預(yù)處理,包括目標(biāo)檢測(cè)或目標(biāo)分割,這樣有利于進(jìn)一步的可供性檢測(cè)。其中預(yù)處理不是必須的,但經(jīng)過(guò)預(yù)處理后,后續(xù)對(duì)圖像的處理效率更高。

      圖6 可供性檢測(cè)流程Fig.6 Affordance detection process

      可供性檢測(cè)的核心部分如圖7所示,主要分為傳統(tǒng)機(jī)器學(xué)習(xí)的方法和深度學(xué)習(xí)的方法。其中基于機(jī)器學(xué)習(xí)的方法包括K最鄰近[20](K-nearest neighbor,KNN)、支持向量機(jī)[21](support vector machine,SVM)等,而基于深度學(xué)習(xí)的方法則利用CNN[7]、CRF[8]等網(wǎng)絡(luò)進(jìn)行可供性檢測(cè)。

      圖7 可供性檢測(cè)方法Fig.7 Affordance detection method

      2 功能可供性檢測(cè)

      功能可供性由目標(biāo)的物理特性等性質(zhì)直接體現(xiàn),對(duì)視覺(jué)功能可供性的檢測(cè)旨在通過(guò)視覺(jué)信息對(duì)物體直接顯現(xiàn)的可供性進(jìn)行判斷??晒┬愿拍钐岢龊?,早期研究?jī)H考慮了顯性可供性,大多數(shù)方法為目標(biāo)檢測(cè),與圖像處理中的目標(biāo)檢測(cè)算法相似,使用KNN[20]、CNN[7]等基礎(chǔ)方法即可實(shí)現(xiàn)。如今對(duì)于隱性可供性的檢測(cè),需要在檢測(cè)到物體顯性可供性的基礎(chǔ)上,對(duì)不易直接檢測(cè)出的潛在可供性進(jìn)行推斷,需要結(jié)合物體性質(zhì)、顯性可供性和先驗(yàn)經(jīng)驗(yàn)綜合推斷,故隱性可供性檢測(cè)方法框架更加復(fù)雜。在表1 中呈現(xiàn)了有關(guān)功能可供性的檢測(cè)方法發(fā)展,展示了部分代表性和部分較新的研究。

      表1 功能可供性檢測(cè)研究Table 1 Functional affordance detection research

      2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的功能可供性檢測(cè)

      在早期可供性理論的定義還未統(tǒng)一時(shí),傳統(tǒng)機(jī)器學(xué)習(xí)方法已經(jīng)被用來(lái)檢測(cè)物體的功能可供性,其方法是成功檢測(cè)到物體后,通過(guò)該物體對(duì)應(yīng)的標(biāo)簽來(lái)確定其可供性。伴隨機(jī)器學(xué)習(xí)理論的發(fā)展,越來(lái)越多的學(xué)者使用SVM、KNN、貝葉斯網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法檢測(cè)更加廣泛的可供性種類(lèi)。Stark和Bowyer[22]最初構(gòu)建了基于形式和函數(shù)的通用識(shí)別系統(tǒng),根據(jù)對(duì)象的功能來(lái)識(shí)別對(duì)象,而不是使用分配給多個(gè)函數(shù)基元來(lái)進(jìn)行基于函數(shù)的識(shí)別,此研究作為對(duì)于可供性識(shí)別的開(kāi)端。早期,Piyathilaka等人[23]使用SVM對(duì)可供性的檢測(cè)研究用于實(shí)現(xiàn)更好的人機(jī)交互,提出了通過(guò)查看環(huán)境幾何特征來(lái)繪制可供性地圖。最后使用SVM分類(lèi)器作為映射可供性的二進(jìn)制分類(lèi)器解決多標(biāo)簽分類(lèi)問(wèn)題,以完成可供性識(shí)別。

      KNN 作為一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一,常常被用在可供性檢測(cè)之中。近來(lái)對(duì)于KNN算法的使用往往結(jié)合其他的算法以提高KNN 的精度或簡(jiǎn)化運(yùn)算。Hermans 等人[24]引入一種依賴(lài)于物理和視覺(jué)特征的方法,如材料、形狀、大小和重量,來(lái)學(xué)習(xí)可供性標(biāo)簽?;谶@些特征,同時(shí)使用SVM和KNN分類(lèi)器來(lái)測(cè)試方法。這種方法強(qiáng)調(diào)了結(jié)合物理和視覺(jué)特征可以增強(qiáng)可供性理解的概念。

      Hjelm等人[25]將物體的RGBD 圖片轉(zhuǎn)化為2 維圖像和點(diǎn)云,并將物體的特征分為全局特征和局部特征。使用large margin component analysis(LMCM)的正則化版本LMCA-R,將輸入空間的每類(lèi)結(jié)點(diǎn)的K階最鄰近結(jié)點(diǎn)聚集,同時(shí)將非同類(lèi)成員分散,損失函數(shù)使用梯度下降法??晒┬灶?lèi)別分類(lèi)中,為每個(gè)可供性類(lèi)別學(xué)習(xí)一個(gè)特定的值L,將問(wèn)題理解為二元決策問(wèn)題,對(duì)L使用kNN對(duì)可供性進(jìn)行分類(lèi),最終達(dá)到可以定位對(duì)象的重要部分以分類(lèi)到可供性。

      由于隱性可供性起步較晚,且需要對(duì)已有的信息進(jìn)行綜合判斷,大部分傳統(tǒng)機(jī)器學(xué)習(xí)方法無(wú)法高效完成此問(wèn)題,故傳統(tǒng)機(jī)器學(xué)習(xí)只有對(duì)于顯性功能可供性的檢測(cè)。同時(shí)伴隨近十年深度學(xué)習(xí)的提出和改進(jìn),深度神經(jīng)網(wǎng)絡(luò)已經(jīng)實(shí)現(xiàn)了遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)機(jī)器學(xué)習(xí)方法的精確度,并且由于傳統(tǒng)機(jī)器學(xué)習(xí)不能在獲得更多數(shù)據(jù)的情況下準(zhǔn)確率繼續(xù)穩(wěn)步提升,因此近期使用深度學(xué)習(xí)進(jìn)行顯性功能可供性檢測(cè)的研究也更多。

      2.2 基于深度學(xué)習(xí)的功能可供性檢測(cè)

      和傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)的一個(gè)主要優(yōu)勢(shì)是它能夠從訓(xùn)練集中包含的有限特征集合中推斷出新的特征,準(zhǔn)確率更高、適用性更強(qiáng)。近幾年,深度學(xué)習(xí)在圖像、聲音、視頻方面的處理都取得了較為出色的成果,同樣伴隨CNN、RNN 等發(fā)展,深度學(xué)習(xí)在物體可供性檢測(cè)方面也有著較為顯著的成果。

      2.2.1 顯性功能可供性檢測(cè)

      CNN是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一,在功能可供性的識(shí)別中也是常被使用的方法之一。Roy等人[37]使用四個(gè)多規(guī)模的CNN進(jìn)行可供性分割:三個(gè)多尺度CNN獨(dú)立應(yīng)用于圖像,以提取三個(gè)線(xiàn)索——深度圖、表面法線(xiàn)和場(chǎng)景中粗層表面的語(yǔ)義分割;另一個(gè)多尺度CNN用于融合這些中級(jí)線(xiàn)索,以進(jìn)行像素可供性預(yù)測(cè)。Nguyen等人[38]提出了一種從RGBD 圖像中檢測(cè)對(duì)象可供性的實(shí)時(shí)方法訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),以端到端的方式從輸入數(shù)據(jù)中學(xué)習(xí)深度功能。在之后Nguyen 等人提出了[27]一種使用深度卷積神經(jīng)網(wǎng)絡(luò)、目標(biāo)檢測(cè)器和密集條件隨機(jī)場(chǎng)檢測(cè)現(xiàn)實(shí)場(chǎng)景中對(duì)象可供性的新方法,并成功應(yīng)用于全尺寸人形機(jī)器人。此方法第一階段,通過(guò)在文獻(xiàn)[39]中提出的R-FCN 方法作為目標(biāo)檢測(cè)器預(yù)測(cè)輸入圖像的邊界框和對(duì)象類(lèi)別,以完全卷積的方式訓(xùn)練一個(gè)非常深的網(wǎng)絡(luò)。第二階段,從語(yǔ)義分割網(wǎng)絡(luò)中獲得提供分割結(jié)果,為了能夠生成對(duì)于每個(gè)像素可供性預(yù)測(cè)的熱圖,將VGG-16網(wǎng)絡(luò)最后一層替換為1×1的10維的卷積層來(lái)預(yù)測(cè)數(shù)據(jù)集中每個(gè)類(lèi)的分?jǐn)?shù),之后將其所有全連接層轉(zhuǎn)換為卷積層。下一步,使用基于CRF的后處理模塊來(lái)進(jìn)一步提高提供分割的準(zhǔn)確性。

      在目前已有的很多成熟圖像檢測(cè)算法的基礎(chǔ)上,對(duì)其進(jìn)行針對(duì)于功能可供性檢測(cè)的改進(jìn),也可得到較好的效果。Luddecke 等人[28]提出了改進(jìn)版ResNet 架構(gòu)[40]的殘差卷積神經(jīng)網(wǎng)絡(luò),并且獲得了較好的效果。Ko 等人[41]也使用Yolo進(jìn)行目標(biāo)檢測(cè),下一步進(jìn)行主成分分析以判斷可供性,并達(dá)到理想的效果。

      但直接使用目標(biāo)檢測(cè)的方法會(huì)面臨一個(gè)目標(biāo)中存在多個(gè)區(qū)域與人交互等目標(biāo)檢測(cè)原本不存在的問(wèn)題,故Abdalwhab 等人[42]引入了一個(gè)單階段可供性檢測(cè)框架,利用特征融合來(lái)提高視覺(jué)可供性檢測(cè)性能。將已知性能良好的分割模型SegNet[43]開(kāi)始作為模型主干,通過(guò)在每次采樣步驟后將可供性與編碼器學(xué)習(xí)的相應(yīng)可供性合并到下一層之前來(lái)增強(qiáng)此架構(gòu)。下一步,通過(guò)將低分辨率、加強(qiáng)語(yǔ)義的功能與高分辨率功能相結(jié)合,實(shí)現(xiàn)更好的特征表示。Wu 等人44]提出一個(gè)可供性檢測(cè)框架ASPN(affordance space perception network),ASPN 是一個(gè)完全卷積的拓?fù)?,用于用RGB 圖像輸入近似可供性映射,該網(wǎng)絡(luò)以圖像為輸入并輸出可供性地圖。與推斷圖像空間像素概率可供性地圖的現(xiàn)有作品不同,此處的可供性是在現(xiàn)實(shí)世界中定義的,消除了人工校準(zhǔn)的必要性。Yin等人[29]使用SEAnet作為主要框架,加入空間梯度融合模塊與共享梯度注意力模塊,對(duì)于可供性檢測(cè)與可供性語(yǔ)義邊緣檢測(cè)更加一致。

      綜上所述,常見(jiàn)的方法是使用兩個(gè)獨(dú)立的深度神經(jīng)網(wǎng)絡(luò)模型分別執(zhí)行可供性分割和對(duì)象檢測(cè)任務(wù)。然而,這種常見(jiàn)方法的缺陷是大大降低了整個(gè)系統(tǒng)的處理速度,并且網(wǎng)絡(luò)模型的計(jì)算復(fù)雜性大大提高。另一種可行的方法是使用多任務(wù)網(wǎng)絡(luò)模型同時(shí)執(zhí)行兩項(xiàng)任務(wù),但多任務(wù)網(wǎng)絡(luò)的設(shè)計(jì)比單任務(wù)網(wǎng)絡(luò)更困難。

      2.2.2 隱性功能可供性檢測(cè)

      物體檢測(cè)及其可供性的推理是視覺(jué)智能的一個(gè)基本問(wèn)題。大多數(shù)工作將這個(gè)問(wèn)題轉(zhuǎn)換為分類(lèi)任務(wù),訓(xùn)練單獨(dú)的分類(lèi)器來(lái)標(biāo)記對(duì)象、識(shí)別屬性或分配賦值。Zhu等人[30]使用知識(shí)庫(kù)(knowledge base,KB)表示進(jìn)行對(duì)象提供推理的問(wèn)題。對(duì)象的多樣化信息首先從圖像和其他元數(shù)據(jù)來(lái)源中獲取,使知識(shí)庫(kù)包含廣泛的異構(gòu)信息,包括對(duì)象屬性、可供性、人體姿勢(shì)等,之后使用馬爾科夫邏輯網(wǎng)絡(luò)[45](Markov logic network,MLN)通過(guò)學(xué)習(xí)關(guān)系來(lái)構(gòu)建知識(shí)庫(kù),即一般規(guī)則的權(quán)重,通過(guò)加權(quán)的一階邏輯知識(shí)庫(kù)指定馬爾可夫隨機(jī)場(chǎng),以構(gòu)建知識(shí)庫(kù)。最后無(wú)需訓(xùn)練單獨(dú)的分類(lèi)器就可完成一套不同的視覺(jué)推理任務(wù),包括對(duì)人類(lèi)姿勢(shì)的預(yù)測(cè)和對(duì)象識(shí)別。例如蘋(píng)果在知識(shí)圖中,一些描述其視覺(jué)屬性的節(jié)點(diǎn)與可供性連接,如形狀、顏色、質(zhì)地等節(jié)點(diǎn)與可食用連接。

      在此之后,Zhu等人[46]再次提出面向任務(wù)的建模、學(xué)習(xí)和識(shí)別,旨在了解將對(duì)象用作“工具”的基本功能、物理和因果關(guān)系,提出物體識(shí)別。不僅僅是記住每個(gè)類(lèi)別的典型外觀(guān)示例,而是推理各種任務(wù)中的物理機(jī)制,以實(shí)現(xiàn)概括。在此基礎(chǔ)上,Schoeler 等人[15]成功推斷工具的任何可能用法,證明了可以識(shí)別各種工具甚至不常見(jiàn)的工具類(lèi)型,系統(tǒng)“理解”對(duì)象可以用作臨時(shí)替代品。例如,頭盔或空心顱骨可用于運(yùn)輸水,是因?yàn)槎即嬖谝粋€(gè)空間可以?xún)?chǔ)存水。但是這個(gè)框架忽視了對(duì)象的大小,并且未考慮目標(biāo)屬性,僅僅通過(guò)形狀判斷。近期Nair 等人[31]討論了任務(wù)規(guī)劃背景下的工具構(gòu)建問(wèn)題,引入了一種名為可供性引導(dǎo)搜索的方法,使機(jī)器人能夠在無(wú)法獲得執(zhí)行任務(wù)所需的工具的情況下有效地構(gòu)建和使用工具。在此之后,F(xiàn)itzgerald等人[32]在工具的替代問(wèn)題進(jìn)行了更深一步的研究,表明交互式校正中學(xué)習(xí)的模型可以推廣到為新工具有類(lèi)似可供性的其他任務(wù)。

      綜上,在隱性可供性探索的前期,主要方法為通過(guò)找到目標(biāo)的各部件和各部件的關(guān)系,并且學(xué)習(xí)其中的聯(lián)系進(jìn)行隱性可供性檢測(cè)。隨著時(shí)間的發(fā)展,隱性可供性的研究集中到了目標(biāo)物體的功能可供性擴(kuò)展,其中包含三個(gè)關(guān)鍵步驟:探索、評(píng)估以及將隱性可供性運(yùn)用到任務(wù)。

      3 行為可供性檢測(cè)

      行為可供性通過(guò)物體被使用的一系列行為動(dòng)作判斷,其需要檢測(cè)視頻或圖像中正在發(fā)生的行為,或者類(lèi)人機(jī)器人對(duì)于自己正在執(zhí)行的行為或正在交互的物體進(jìn)行理解。以動(dòng)作倒水為例,Mottaghi 等人[47]認(rèn)為機(jī)器人在完成該動(dòng)作時(shí)需要估計(jì)杯子的體積,近似水罐中的水量,并預(yù)測(cè)傾斜水罐時(shí)的水的行為,容器的角度等。在表2中呈現(xiàn)了有關(guān)行為可供性的檢測(cè)方法發(fā)展,展示了部分代表性和部分較新的研究。

      表2 行為可供性檢測(cè)研究Table 2 Behavioral affordance detection research

      行為可供性檢測(cè)作為實(shí)現(xiàn)人與機(jī)器人的無(wú)縫交互關(guān)鍵的一步,與機(jī)器人技術(shù)、人機(jī)交互、認(rèn)知科學(xué)、人工智能、動(dòng)作識(shí)別等多個(gè)學(xué)科共同實(shí)現(xiàn)。行為可供性在機(jī)器人理解環(huán)境并與之交互中起到了關(guān)鍵的作用。

      3.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的行為可供性檢測(cè)

      在早期,研究可供性運(yùn)用了SVM分類(lèi)器的學(xué)者中,Ugur等人[48]提出了一個(gè)兩步學(xué)習(xí)過(guò)程,引導(dǎo)階段和好奇心驅(qū)動(dòng)(curiosity-driven learning)的學(xué)習(xí)階段。在引導(dǎo)階段,使用初始交互數(shù)據(jù)來(lái)查找可供性的相關(guān)感知特征,并訓(xùn)練SVM分類(lèi)器。在好奇心驅(qū)動(dòng)學(xué)習(xí)階段,使用SVM決策超平面的好奇心決定給定的互動(dòng)機(jī)會(huì)是否值得探索。

      Akgun 等人[49]使用SVM 分析機(jī)器人與一組不同類(lèi)型和大小的對(duì)象進(jìn)行交互,以學(xué)習(xí)其環(huán)境中的可供性關(guān)系。首先控制機(jī)器人對(duì)物體進(jìn)行敲擊,物體由初始特征變?yōu)樽罱K特征,從最終特征中減去初始特征得到所有物體的效應(yīng)特征;下一步,使用1D 鄰域的Kohonen selforganizing maps(SOM)[58]進(jìn)行聚類(lèi);再通過(guò)ReliefF 算法[59],將相關(guān)性強(qiáng)的效應(yīng)特征整合為相關(guān)特征;最后使用分類(lèi)標(biāo)簽和相關(guān)特征共同訓(xùn)練SVM,最終將初始特征與動(dòng)作聯(lián)系,機(jī)器人由此可以執(zhí)行特定動(dòng)作并預(yù)測(cè)它對(duì)物體產(chǎn)生的效果。此研究證實(shí)了SVM分類(lèi)器可以使用相關(guān)特征成功地學(xué)習(xí)效應(yīng)類(lèi)別。

      Koppula 等人[60]通過(guò)給定一個(gè)RGBD 視頻,將人類(lèi)活動(dòng)和對(duì)象可供性聯(lián)合建模為馬爾可夫隨機(jī)場(chǎng),之后選擇使用結(jié)構(gòu)支持向量機(jī)(SSVM)方法來(lái)進(jìn)行機(jī)器學(xué)習(xí)以判斷行為可供性。

      貝葉斯網(wǎng)絡(luò)又稱(chēng)信度網(wǎng)絡(luò),是貝葉斯方法的擴(kuò)展,是目前不確定知識(shí)表達(dá)和推理領(lǐng)域最有效的理論模型之一。Hassan等人[61]為了實(shí)現(xiàn)對(duì)行為可供性的檢測(cè),分別運(yùn)用SVM、KNN和貝葉斯網(wǎng)絡(luò)構(gòu)成檢測(cè)模型,對(duì)正在進(jìn)行的操作圖像進(jìn)行圖像檢測(cè),經(jīng)過(guò)對(duì)比結(jié)果,使用基于貝葉斯網(wǎng)絡(luò)的方法構(gòu)建最終可供性模型準(zhǔn)確率最高。

      3.2 基于深度學(xué)習(xí)的行為可供性檢測(cè)

      基于深度學(xué)習(xí)的方法較傳統(tǒng)方法在進(jìn)行行為可供性檢測(cè)時(shí)對(duì)于不同行為的檢測(cè)更加高效,學(xué)習(xí)能力更強(qiáng)。Gupta等人[51]提出了一個(gè)以人為中心的場(chǎng)景理解范式,用于估計(jì)3D場(chǎng)景幾何形狀,預(yù)測(cè)以數(shù)據(jù)驅(qū)動(dòng)的人類(lèi)互動(dòng)詞匯,以表示的人類(lèi)“工作空間”。在有著內(nèi)場(chǎng)景理解和運(yùn)動(dòng)捕捉數(shù)據(jù)方面[62-63]工作的基礎(chǔ)上,創(chuàng)建一個(gè)人類(lèi)姿勢(shì)和場(chǎng)景幾何的聯(lián)合空間。但其只著重于對(duì)相互作用的檢測(cè),而未強(qiáng)調(diào)物體本身的可供性。之后Qi 等人[52]提出一種使用ST-AOG 觀(guān)測(cè)RGBD 視頻以預(yù)測(cè)人類(lèi)未來(lái)的運(yùn)動(dòng)的方法,其中使用隨機(jī)語(yǔ)法模型來(lái)捕獲事件的組成結(jié)構(gòu),整合人類(lèi)行為、物體及其可供性。

      行為可供性的研究在對(duì)物體的可供性檢測(cè)之外也包括對(duì)于人類(lèi)活動(dòng)的理解,Li 等人[64]提出了一種高效、全自動(dòng)的3D 人姿勢(shì)合成器,該合成器利用從二維學(xué)到的姿勢(shì)分布和從三維中提取的可供性。其在此之后開(kāi)發(fā)了一個(gè)3D 可供性能力預(yù)測(cè)生成模型,該模型從單個(gè)場(chǎng)景圖像中生成具有完整3D信息的可信的人類(lèi)姿勢(shì)。

      行為可供性識(shí)別的另一個(gè)方向是使用現(xiàn)實(shí)或虛擬的機(jī)器人進(jìn)行實(shí)際操作。Shu等人[65]使用ST-AOG作為可供性檢測(cè)方法,從人類(lèi)交互的RGBD 視頻中學(xué)習(xí),并輸出到類(lèi)人機(jī)器人,以實(shí)現(xiàn)實(shí)時(shí)運(yùn)動(dòng)推理人機(jī)交互(human-robot interaction,HRI)。Chu 等人[66]通過(guò)語(yǔ)義分割預(yù)測(cè)對(duì)象的可供性,并用于真實(shí)的機(jī)器人操作。Mandikal 等人[67]將以對(duì)象為中心的視覺(jué)可供性模型嵌入到一個(gè)深度強(qiáng)化學(xué)習(xí)循環(huán)中,以學(xué)習(xí)使用人們更傾向的對(duì)象區(qū)域。模型由兩個(gè)階段組成。首先,訓(xùn)練一個(gè)網(wǎng)絡(luò),從靜態(tài)圖像預(yù)測(cè)可供性區(qū)域。其次,使用可供性來(lái)訓(xùn)練動(dòng)態(tài)抓取規(guī)則。Zhao 等人[54]考慮了多可供性之間的共生關(guān)系以及可供性和客觀(guān)之間的組合關(guān)系。與現(xiàn)有CNN 的方法不同,所提出的網(wǎng)絡(luò)以端到端的方式直接從輸入圖像生成像素提供映射。

      靜態(tài)的視覺(jué)觀(guān)察只能識(shí)別物體的一些特征如形狀和紋理。如果不了解對(duì)象的全部范圍而規(guī)劃動(dòng)作可能會(huì)導(dǎo)致策略失誤,Veres等人[53]針對(duì)這個(gè)問(wèn)題,主要研究了機(jī)器人抓取時(shí)所需要考慮的屬性,例如物體表面的摩擦力或者物體的剛度都進(jìn)入可供性一起進(jìn)行考慮,提出通過(guò)機(jī)器人手腕上的力和扭矩讀數(shù),將CoM 隱含地納入抓取承受力預(yù)測(cè)中。其主要是對(duì)文獻(xiàn)[68]中的框架進(jìn)行了改進(jìn),將引導(dǎo)網(wǎng)絡(luò)方法擴(kuò)展到感官反饋的機(jī)器人抓取問(wèn)題。先使用CNN 模型,通過(guò)幾個(gè)卷積加池化操作對(duì)RGB對(duì)象圖像進(jìn)行編碼。此深度學(xué)習(xí)網(wǎng)絡(luò)同時(shí)由另一個(gè)CNN和MLP編碼RGB圖像和力/扭矩讀數(shù)的形式展示了k與之前完全相同的物體的抓取嘗試的預(yù)測(cè)抓取成功的概率。

      以前的方法通常將移動(dòng)對(duì)象視為主對(duì)象,并依靠光流來(lái)捕獲視頻中的運(yùn)動(dòng)線(xiàn)索,當(dāng)嘈雜的運(yùn)動(dòng)特征與外觀(guān)特征相結(jié)合時(shí),主對(duì)象的定位有幾率被誤導(dǎo),此時(shí)僅靠流動(dòng)信息不足以區(qū)分主物體和一起移動(dòng)的背景物體。Luo 等人[55]利用視頻中手的位置和行動(dòng)提供的輔助線(xiàn)索,消除多種可能性,更好地定位對(duì)象中的交互區(qū)域。此方法在可供性基礎(chǔ)方面取得了先進(jìn)的結(jié)果。

      Lu等人[69]建立一個(gè)循環(huán)雙邊一致性增強(qiáng)網(wǎng)絡(luò)(cyclic bilateral consistency enhancement network,CBCE-Net),以逐步調(diào)整語(yǔ)言和視覺(jué)特征。此外,對(duì)比實(shí)驗(yàn)結(jié)果表明,在客觀(guān)指標(biāo)和視覺(jué)質(zhì)量方面,此方法在四個(gè)相關(guān)領(lǐng)域(語(yǔ)義分割、顯著性檢測(cè)、可供性檢測(cè)和實(shí)例分割)都優(yōu)于九種典型方法,其中包括用于可供性檢測(cè)的OSADNet[70]和OAFFD[54]。

      4 社交可供性檢測(cè)

      社交可供性檢測(cè)目的是通過(guò)研究個(gè)體與環(huán)境屬性或環(huán)境屬性自身內(nèi)部的關(guān)聯(lián)性,探索出更加深層次的可供性的可能或限制。各物體互相或與觀(guān)測(cè)個(gè)體的相互聯(lián)系造就的可供性則稱(chēng)之為社交可供性。現(xiàn)實(shí)生活中,人類(lèi)對(duì)物體的感知就一部分取決于時(shí)空上下文知識(shí)[71-72],鑒于人類(lèi)對(duì)環(huán)境已有的了解,這種機(jī)制有助于識(shí)別未知物體及其可供性[73]??傮w而言,對(duì)于社交可供性的檢測(cè),重點(diǎn)在于對(duì)于物體上下文信息等的推斷,由于社交可供性起步較晚,深度學(xué)習(xí)已經(jīng)被熟練運(yùn)用在此檢測(cè)中,例如CRF、CNN 等,故使用傳統(tǒng)機(jī)器學(xué)習(xí)方法的社交可供性研究較少。在表3 中呈現(xiàn)了有關(guān)社交可供性的檢測(cè)方法發(fā)展,展示了部分代表性和部分較新的研究。

      表3 社交可供性檢測(cè)研究Table 3 Social affordance detection research

      4.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的社交可供性檢測(cè)

      Sun等人[74]提出了一種建模目標(biāo)相互間的可供性的方法,這種可供性關(guān)系被用來(lái)提高行為識(shí)別準(zhǔn)確度。其中使用以全監(jiān)督的方式訓(xùn)練目標(biāo)分類(lèi)器、動(dòng)作分類(lèi)器和貝葉斯網(wǎng)絡(luò)。首先獲得對(duì)目標(biāo)的操縱和目標(biāo)的反應(yīng)的初始可能性,其中目標(biāo)初始似然度是使用基于方向梯度直方圖(HoG)的滑動(dòng)窗口目標(biāo)檢測(cè)器估計(jì)的。并且據(jù)人類(lèi)手部運(yùn)動(dòng)軌跡的特征估計(jì)了人類(lèi)動(dòng)作的初始可能性。在訓(xùn)練中,全程跟蹤人手,根據(jù)速度的不同對(duì)手部動(dòng)作分段。通過(guò)分割和可能的目標(biāo)位置,檢測(cè)出正在交互的目標(biāo),最后利用貝葉斯網(wǎng)絡(luò)建立人與物體之間的聯(lián)系。此實(shí)驗(yàn)通過(guò)觀(guān)察物體與主動(dòng)動(dòng)作之間的聯(lián)系來(lái)解決機(jī)器人學(xué)中的技能學(xué)習(xí)問(wèn)題。

      社交可供性的概念近幾年才開(kāi)始作為一個(gè)明確的研究要點(diǎn),對(duì)于社交可供性這種更加需要探究物體之間的關(guān)聯(lián)性的任務(wù),傳統(tǒng)機(jī)器學(xué)習(xí)方法性能并達(dá)不到深度學(xué)習(xí)的效率,基于傳統(tǒng)機(jī)器學(xué)習(xí)的社交可供性檢測(cè)實(shí)例不多。

      4.2 基于深度學(xué)習(xí)的社交可供性檢測(cè)

      社交可供性研究的是物體之間的關(guān)系,使用深度學(xué)習(xí)的方法更適合找到各個(gè)物體的深層次聯(lián)系。為了探究物體之間可供性的影響,Pieropan 等人[75]提出利用對(duì)象到對(duì)象的時(shí)空關(guān)系來(lái)創(chuàng)建“對(duì)象上下文”以及功能描述符來(lái)預(yù)測(cè)人類(lèi)活動(dòng)。例如,只有杯子的存在不能確定是否會(huì)發(fā)生飲酒行為,但旁邊有酒瓶會(huì)增加飲酒行為的可能性。其描述了一個(gè)概率框架,為場(chǎng)景中物體及其隨時(shí)間推移的相互作用建模,但只局限于成對(duì)的關(guān)系。于是Hu等人[76]提出了一種分析對(duì)象間關(guān)系和對(duì)象內(nèi)關(guān)系的方法,旨在根據(jù)對(duì)象的功能對(duì)其進(jìn)行分類(lèi)。他們使用對(duì)象的部件上下文、語(yǔ)義和功能來(lái)識(shí)別它們的可供性。

      在過(guò)去很少有研究對(duì)象-對(duì)象交互的任務(wù),而對(duì)象交互在機(jī)器人操作和規(guī)劃任務(wù)中發(fā)揮著重要作用。在日常生活中,有豐富的對(duì)象-對(duì)象交互場(chǎng)景空間,例如將對(duì)象放在凌亂的桌面上,將對(duì)象放置在抽屜里,使用工具推動(dòng)對(duì)象等。Chuang 等人[19]提到為了在社會(huì)中自然融合,機(jī)器人需要像人類(lèi)一樣行事,因此機(jī)器人需要了解3D 環(huán)境施加的可供性和限制,以及在特定場(chǎng)景中哪些行動(dòng)是社會(huì)可接受的。利用空間網(wǎng)狀圖神經(jīng)網(wǎng)絡(luò)(gated graph neural network,GGNN)來(lái)推理給定感興趣的操作對(duì)圖像中對(duì)象的提供。并且基于實(shí)例級(jí)語(yǔ)義分割映射構(gòu)建一個(gè)圖表,其中節(jié)點(diǎn)是圖像中的對(duì)象。之后通過(guò)將相鄰對(duì)象與邊緣連接來(lái)編碼節(jié)點(diǎn)對(duì)的空間關(guān)系。最后空間GGNN 模型將每個(gè)對(duì)象的語(yǔ)義特征表示作為其初始節(jié)點(diǎn)表示,并通過(guò)在圖表中的鄰近點(diǎn)之間傳播消息來(lái)迭代更新其隱藏矢量。這能夠高效地捕捉圖像中的上下文關(guān)系。

      近期,Mo等人[78]提出了一種對(duì)象-內(nèi)核點(diǎn)卷積網(wǎng)絡(luò)(object-kernel point convolutional network),以推理兩個(gè)對(duì)象之間的詳細(xì)交互,以學(xué)習(xí)各種任務(wù)的對(duì)象交互。通過(guò)構(gòu)建對(duì)象-對(duì)象交互任務(wù)環(huán)境,進(jìn)行大規(guī)模的對(duì)象支持學(xué)習(xí),無(wú)需人工注釋或演示。對(duì)大規(guī)模合成數(shù)據(jù)和現(xiàn)實(shí)世界數(shù)據(jù)的實(shí)驗(yàn)證明了該方法的有效性。

      總而言之,在社交可供性研究起步階段,都是對(duì)小規(guī)模的對(duì)象-對(duì)象交互進(jìn)行了建模,并通過(guò)人工注釋或演示對(duì)模型進(jìn)行了訓(xùn)練,而近期研究進(jìn)行了大規(guī)模無(wú)注釋可供性學(xué)習(xí),涵蓋了具有不同形狀和類(lèi)別的各種對(duì)象-對(duì)象交互。

      5 輕量化策略

      目前已經(jīng)存在的視覺(jué)可供性檢測(cè)方法框架數(shù)量很充足,但其中大部分方法并不適合在運(yùn)算資源受限的系統(tǒng)中使用,如嵌入式平臺(tái),它們主要目標(biāo)是提高準(zhǔn)確性,未關(guān)注所提出解決方案的計(jì)算成本。例如,計(jì)算機(jī)視覺(jué)用于智能假肢等移動(dòng)平臺(tái),在這種情況下,平臺(tái)能夠提供的運(yùn)算資源是有限的,但需要可供性檢測(cè)可用于確認(rèn)物體可供性,此時(shí)視覺(jué)可供性檢測(cè)是必要的。

      在輕量化檢測(cè)框架這個(gè)方向,Yen-Chen等人[79]發(fā)現(xiàn)視覺(jué)任務(wù)的預(yù)訓(xùn)練顯著提高了學(xué)習(xí)操作對(duì)象的泛化能力和樣本效率。因此,將模型參數(shù)從視覺(jué)網(wǎng)絡(luò)直接傳輸?shù)娇晒┬灶A(yù)測(cè)網(wǎng)絡(luò),并成功進(jìn)行零樣本適應(yīng),意味著機(jī)器人可以無(wú)訓(xùn)練就能抓取物體。只需少量經(jīng)驗(yàn),在拾取新物體方面成功率就能達(dá)到約80%。

      Tsai 等人[80]提出了一種基于ESPNetv2 的輕量級(jí)可供性分割模型,該模型可以有效地提高處理速度,并降低運(yùn)行時(shí)所需的計(jì)算需求。采用基于錨點(diǎn)的單級(jí)對(duì)象檢測(cè)模型作為與語(yǔ)義分割分支集成的骨干網(wǎng)絡(luò)。依靠單階段網(wǎng)絡(luò)架構(gòu)的優(yōu)勢(shì),該網(wǎng)絡(luò)模型可以通過(guò)相對(duì)簡(jiǎn)單的架構(gòu)來(lái)實(shí)現(xiàn),在高精確度的同時(shí),大幅度提升運(yùn)算速度,比AffordanceNet 快五倍。Apicella 等人[81]提出了一種利用對(duì)象檢測(cè)器克服幀問(wèn)題的可供性檢測(cè)通道,減少通道在資源受限平臺(tái)上運(yùn)行的計(jì)算負(fù)載,構(gòu)建了具有輕量級(jí)結(jié)構(gòu)和嵌入式重新校準(zhǔn)技術(shù)的抓取候選評(píng)估器。

      在此之后,Ragusa等人[82]提出并描述了第一個(gè)完整的嵌入式設(shè)備可供性檢測(cè)解決方案即一種基于硬件感知深度學(xué)習(xí)解決方案的可供性檢測(cè)策略。這種解決方案可用于大幅改善基于計(jì)算機(jī)視覺(jué)的假肢控制,在計(jì)算成本和準(zhǔn)確性之間建立了更好的平衡。因此,該模型在實(shí)時(shí)嵌入式設(shè)備上在功耗有限的情況下實(shí)現(xiàn)并獲得了高FPS速率。

      綜上所述,輕量化的解決方案應(yīng)該使用在嵌入式設(shè)備上以支持的模型,降低訓(xùn)練模型的整體硬件需求。其次,應(yīng)僅通過(guò)處理RGB 圖像實(shí)現(xiàn)可供性檢測(cè)。目前最新的硬件檢測(cè)可供性模型可以在標(biāo)準(zhǔn)基準(zhǔn)上實(shí)現(xiàn)與機(jī)器人學(xué)的最先進(jìn)解決方案相同的精度。

      6 數(shù)據(jù)集

      對(duì)于視覺(jué)可供性檢測(cè),數(shù)據(jù)集的重要性是不言而喻的。利用合適的數(shù)據(jù)集,結(jié)合與之對(duì)應(yīng)的框架與參數(shù)能達(dá)到最好的檢測(cè)可供性的結(jié)果。

      在本章中,提供了可供性注釋的可用數(shù)據(jù)集。如表1所示,所使用的文件格式也包括圖像、視頻以及3D 模型。對(duì)于視覺(jué)可供性,已經(jīng)提出了許多數(shù)據(jù)集,以促進(jìn)從場(chǎng)景中檢測(cè)可供性對(duì)象,即從輸入圖像中檢測(cè)具有可供性或功能性的對(duì)象。

      如表4所示,對(duì)于適用于功能可供性的數(shù)據(jù)集需要有各類(lèi)不同的物體與其對(duì)應(yīng)的可供性標(biāo)簽,此時(shí)物體種類(lèi)越多,則此數(shù)據(jù)集的應(yīng)用范圍則越大;對(duì)于適用于行為可供性的數(shù)據(jù)集需要包含動(dòng)作數(shù)據(jù)或人物使用物體過(guò)程;對(duì)于適用于社交可供性的數(shù)據(jù)集不僅需要有功能可供性數(shù)據(jù)集的要求,并且需要存在多個(gè)有聯(lián)系的物體出現(xiàn)在同一圖中,由此也可發(fā)現(xiàn)對(duì)于社交可供性的數(shù)據(jù)集制作是有一定困難的。這也是為何近期可供性的數(shù)據(jù)集主要集中于功能可供性與行為可供性,而極少包含社交可供性。

      表4 近期主要可供性數(shù)據(jù)集Table 4 Recent and primary affordance datasets

      有的數(shù)據(jù)集經(jīng)過(guò)對(duì)較早數(shù)據(jù)集的修正、補(bǔ)充與篩選等更新,使得新數(shù)據(jù)集更加適合某些特定類(lèi)型的可供性檢測(cè),或能夠覆蓋更多的場(chǎng)景使得應(yīng)用面擴(kuò)大。

      7 視覺(jué)可供性的應(yīng)用、挑戰(zhàn)及未來(lái)方向

      7.1 應(yīng)用方向

      視覺(jué)可供性是依靠攝像頭理解世界的一個(gè)重要途徑,用于判斷環(huán)境或物體的交互方式。對(duì)于視覺(jué)可供性的檢測(cè)的兩大應(yīng)用主體則分別是真人與機(jī)器人。

      7.1.1 視覺(jué)可供性對(duì)于真人的應(yīng)用

      可供性識(shí)別可以代替人去感受,包括且不限于環(huán)境、產(chǎn)品等。使用可供性識(shí)別以真人的視角去評(píng)估事物,相比于真人的評(píng)估更準(zhǔn)確與標(biāo)準(zhǔn):

      (1)城市規(guī)劃領(lǐng)域:通過(guò)以真人視角檢測(cè)可供性之后,可以對(duì)于一個(gè)區(qū)域的環(huán)境與設(shè)施的合理性作出建議[83],比如以小孩或老人視角評(píng)估設(shè)施環(huán)境[84],進(jìn)而提升環(huán)境的兒童友好性或適老性,例如公園環(huán)境和設(shè)備所包含的可供性能給予兒童直接的感官體驗(yàn),包括自然環(huán)境、標(biāo)識(shí)以及游戲設(shè)備的適宜性等能夠增加兒童的體驗(yàn)舒適度。

      (2)產(chǎn)品設(shè)計(jì):通過(guò)運(yùn)用可供性檢測(cè)的方式優(yōu)化產(chǎn)品使得用戶(hù)有更舒適的使用體驗(yàn),Zhu 等人[85]通過(guò)坐在椅子上時(shí)不同身體部位的壓力來(lái)判斷舒適區(qū)間。

      7.1.2 視覺(jué)可供性對(duì)于機(jī)器人的應(yīng)用

      可供性識(shí)別可以使機(jī)器人理解其所處的環(huán)境,理解工具的用法,達(dá)到一定程度的智能:

      (1)操作目標(biāo)對(duì)象:經(jīng)過(guò)視覺(jué)可供性識(shí)別,機(jī)器人可以了解物體的性質(zhì)與可供性,以便于操作對(duì)象。例如對(duì)于城市垃圾的處理分類(lèi)[86],亦或者對(duì)于超市自主機(jī)器人[87]的加強(qiáng)。

      (2)理解目標(biāo)運(yùn)動(dòng):結(jié)合行為可供性的運(yùn)動(dòng)檢測(cè),將會(huì)幫助機(jī)器人理解觀(guān)測(cè)目標(biāo)的運(yùn)動(dòng),以便于后續(xù)的預(yù)測(cè)或交互更加合理。

      (3)預(yù)測(cè)目標(biāo)運(yùn)動(dòng):以機(jī)器人視角進(jìn)行視覺(jué)可供性檢測(cè),幫助機(jī)器人更加高效預(yù)測(cè)人的活動(dòng)[60,88-90],在環(huán)境存在指定可供性的情況下,可判斷為目標(biāo)做特定行為的可能性會(huì)變高。Corona 等人[91]根據(jù)一個(gè)或多個(gè)物體的單個(gè)RGB 圖像,預(yù)測(cè)人類(lèi)將如何抓住這些物體。預(yù)測(cè)人的活動(dòng)可以有助于機(jī)器人充分理解和響應(yīng)人的行為。

      (4)場(chǎng)景理解:機(jī)器人需要掌握使用工具的方法,比如Myers等人[92]提到在廚房的機(jī)器人應(yīng)該要充分理解各種工具的可供性,才能更好地代替人類(lèi)工作[93]或與人交互,使得它們與人或物體的交互更加合理,使機(jī)器人更好理解其所處的環(huán)境,也可以運(yùn)用到AI 使其更加智能。例如加強(qiáng)自動(dòng)駕駛[94]的可靠性。

      (5)發(fā)掘工具隱藏功能:隱性可供性檢測(cè)可發(fā)現(xiàn)工具之間的可替代性,例如當(dāng)前任務(wù)為“開(kāi)快遞”,在環(huán)境中利用隱性可供性檢測(cè)達(dá)成鑰匙來(lái)完成此任務(wù)。

      7.2 目前的挑戰(zhàn)

      (1)目前的視覺(jué)可供性識(shí)別,主要框架與計(jì)算機(jī)視覺(jué)目標(biāo)檢測(cè)所使用的框架類(lèi)似,存在的挑戰(zhàn)與目標(biāo)檢測(cè)部分相同:

      ①視角的多樣性:同一個(gè)物體在不同的視角下的外形大多是不同的,所以需要在不同角度下都能識(shí)別出物體的可供性。

      ②物體的形變:現(xiàn)在對(duì)于可供性的檢測(cè)全部都是剛性物體,也就意味著不包含例如繩子之類(lèi)的可形變物體,這對(duì)于視覺(jué)可供性是一個(gè)缺失的部分。

      ③遮擋:遮擋是實(shí)際對(duì)象可供性估計(jì)任務(wù)中的常見(jiàn)挑戰(zhàn)。Liu等人[100]制作了用于研究被遮擋物體的可供性的數(shù)據(jù)集。但是這個(gè)問(wèn)題對(duì)于可供性檢測(cè)的影響依舊存在。

      (2)同時(shí),也存在很多在進(jìn)行目標(biāo)檢測(cè)時(shí)并不會(huì)顯現(xiàn),而是只有在可供性檢測(cè)時(shí)才會(huì)顯現(xiàn)的問(wèn)題:

      ①多區(qū)域可供性:一個(gè)對(duì)象中可能存在多個(gè)可能的區(qū)域可以與人交互,也就意味著,不能將物體看作一個(gè)整體,而是對(duì)物體自身也要有拆分。

      ②可供性多樣性:與物體檢測(cè)不同,同一對(duì)象區(qū)域存在多個(gè)可能的可供性。

      7.3 未來(lái)發(fā)展方向

      目前視覺(jué)可供性檢測(cè)主要集中在這三種類(lèi)型,即功能可供性、行為可供性、社交可供性。而對(duì)于未來(lái)的發(fā)展方向主要分為應(yīng)用的方向與研究的方向。

      7.3.1 未來(lái)應(yīng)用方向

      (1)未來(lái)可供性識(shí)別應(yīng)用方向廣闊,其中機(jī)器人智能設(shè)計(jì)將為重要的應(yīng)用領(lǐng)域,通過(guò)視覺(jué)可供性與機(jī)械相結(jié)合,可以達(dá)到如下成果:

      ①智能機(jī)器人與機(jī)械手:對(duì)于視覺(jué)可供性檢測(cè),最顯而易見(jiàn)的應(yīng)用為機(jī)器人與機(jī)械手,將可供性檢測(cè)運(yùn)用到機(jī)器人上后,其可以更加智能的服務(wù)人類(lèi)。

      ②社會(huì)輔助機(jī)器人:全球人口需求的變化和增加,需要社會(huì)輔助機(jī)器人為最需要幫助的個(gè)人提供更舒適、更安全的環(huán)境[109]。

      ③專(zhuān)用視覺(jué):與日常生活相對(duì)應(yīng)的為專(zhuān)業(yè)使用場(chǎng)景,結(jié)合視覺(jué)可供性,可以比人手更加精準(zhǔn)的操作。例如,使用機(jī)械臂完成手術(shù)時(shí),不會(huì)出現(xiàn)人為意外。

      (2)不依賴(lài)機(jī)械實(shí)物作為載體,可供性識(shí)別可以在其他相關(guān)領(lǐng)域創(chuàng)造成果和創(chuàng)新:

      ①虛擬現(xiàn)實(shí)與建模:在虛擬現(xiàn)實(shí)中,重要的一點(diǎn)是人與建模出的物體的交互。結(jié)合可供性檢測(cè),可以在虛擬現(xiàn)實(shí)中更加便捷地對(duì)于各類(lèi)物體進(jìn)行分類(lèi)與運(yùn)用。同時(shí),在直接使用現(xiàn)實(shí)物體掃描進(jìn)行建模的方法相比于直接建模將會(huì)更加便捷。

      ②5G-云端計(jì)算:與輕量化設(shè)計(jì)相對(duì)應(yīng)的是,如果將所有的運(yùn)算通過(guò)5G 放置云端,那么無(wú)論是運(yùn)算速度或是框架的尺度都可以與在本地運(yùn)算不在同量級(jí)。

      7.3.2 未來(lái)研究方向

      (1)目前的挑戰(zhàn)之一,視角的多樣性使物體在不同角度所觀(guān)察到的外形不同,對(duì)此在未來(lái)可以進(jìn)行如下研究:

      ①數(shù)據(jù)集的創(chuàng)建與更新:數(shù)據(jù)集是對(duì)深度學(xué)習(xí)結(jié)果有著重要影響的因素之一??晒┬匝芯康囊粋€(gè)重要工作是可供性數(shù)據(jù)集的制作與優(yōu)化,目前已經(jīng)有很多優(yōu)質(zhì)的數(shù)據(jù)集可以使用,不過(guò)跟現(xiàn)實(shí)世界的復(fù)雜性相比,已有的數(shù)據(jù)集在標(biāo)簽的種類(lèi)方面依舊存在局限。同一個(gè)物體不同視角下的數(shù)據(jù)越多,則此問(wèn)題更易解決。

      ②多視角兼容性與可遷移:在第一人稱(chēng)視角下的可供性檢測(cè)與第三人稱(chēng)視角下的可供性檢測(cè)是不同的。易于發(fā)現(xiàn)的是,第三人稱(chēng)視角的數(shù)據(jù)更容易獲得,而機(jī)器人使用第一人稱(chēng)觀(guān)察對(duì)象,故而在不同角度下對(duì)可供性檢測(cè)的兼容性是必要的。

      (2)目前只能做到對(duì)于剛性物體的可供性檢測(cè),而對(duì)于繩子一類(lèi)可變形物體的可供性檢測(cè)技術(shù)尚不成熟,即物體的形變是現(xiàn)在尚未有明確解決方案的研究方向,可從如下方面進(jìn)行實(shí)現(xiàn):

      ①對(duì)已有可供性檢測(cè)框架改進(jìn):對(duì)于可形變物體需要更精準(zhǔn)地識(shí)別與控制,對(duì)檢測(cè)框架的改進(jìn)實(shí)現(xiàn)對(duì)非剛性物體的模擬和操控。

      ②多傳感器結(jié)合:在未來(lái)伴隨硬件品質(zhì)的發(fā)展,以及更多種傳感器的出現(xiàn),將視覺(jué)與其他傳感器相結(jié)合。例如,將視覺(jué)與壓力傳感器相結(jié)合共同檢測(cè)可供性,那么可以更加準(zhǔn)確地判斷物體的硬度可供性。

      (3)物體被遮擋條件下的可供性識(shí)別目前已有進(jìn)展且有研究人員制作相關(guān)數(shù)據(jù)庫(kù),在未來(lái)這個(gè)問(wèn)題仍可以繼續(xù)深入研究:

      ①對(duì)于數(shù)據(jù)庫(kù)的創(chuàng)建與更新。

      ②對(duì)已有計(jì)算機(jī)視覺(jué)框架轉(zhuǎn)化:目前存在基于深度學(xué)習(xí)技術(shù),對(duì)視覺(jué)可供性提出新的研究框架,但對(duì)還未運(yùn)用到可供性方向的圖像識(shí)別等框架的改造適配,將最新的研究成果適配于可供性檢測(cè)有幾率獲得更好的成果。

      (4)物體的不同區(qū)域可供性不同和同一區(qū)域可供性的多樣性使得可供性檢測(cè)與目標(biāo)檢測(cè)有著顯著的差距,未來(lái)可能的研究方向如下:

      ①對(duì)于數(shù)據(jù)庫(kù)的創(chuàng)建與更新:目前研究使用的數(shù)據(jù)庫(kù)大都是專(zhuān)供可供性或在原始數(shù)據(jù)庫(kù)技術(shù)上為可供性更新的新數(shù)據(jù)庫(kù)。在未來(lái)可創(chuàng)建更多適配可供性檢測(cè)的數(shù)據(jù)庫(kù)。

      ②創(chuàng)建新的可供性檢測(cè)框架:可供性檢測(cè)與目標(biāo)檢測(cè)不同在于可供性除外形等特征外,還可通過(guò)使用者的行為或與其他物體的關(guān)系來(lái)確定,在未來(lái)可以創(chuàng)造出更適配可供性檢測(cè)的算法框架。

      (5)目前已有研究方向的加深同樣是未來(lái)可供性檢測(cè)研究的重要一環(huán):

      ①輕量化設(shè)計(jì):可見(jiàn)對(duì)于視覺(jué)可供性檢測(cè)的輕量化設(shè)計(jì)發(fā)展才開(kāi)始被重視,將視覺(jué)可供性檢測(cè)框架做小,放在嵌入式設(shè)備或?qū)⒄w做快,運(yùn)算速度更快,則機(jī)器人可以有更多的反應(yīng)時(shí)間。

      ②知識(shí)圖譜的更新與創(chuàng)建:在有先驗(yàn)知識(shí)或知識(shí)圖譜的情況下,可以更好地去理解圖像或者視頻,基于圖或圖譜的方法和視覺(jué)可供性結(jié)合將會(huì)幫助可供性檢測(cè)。目前對(duì)于知識(shí)圖譜的可供性研究依舊處于缺失狀態(tài),目前Zhu等人[30]使用知識(shí)庫(kù)表示進(jìn)行對(duì)象提供推理的問(wèn)題來(lái)完成對(duì)于隱性可供性的檢測(cè)。利用知識(shí)圖譜,將物體與可供性的聯(lián)系組合,并且通過(guò)知識(shí)圖譜相互聯(lián)系,使得AI應(yīng)用更智能。

      ③對(duì)已有可供性檢測(cè)框架改進(jìn);目前基于可供性的機(jī)器人行為控制僅能實(shí)現(xiàn)簡(jiǎn)單動(dòng)作(例如移動(dòng)、抓取等一次性動(dòng)作),而對(duì)需要多重可供性共同控制的復(fù)雜動(dòng)作(例如開(kāi)鎖等復(fù)雜性更高的行為)目前仍未能實(shí)現(xiàn)。

      (6)除以上所述,目前還有如下部分可供性檢測(cè)未有顯著成果的研究方向:

      ①主動(dòng)視覺(jué)檢測(cè):將感知與運(yùn)動(dòng)、控制結(jié)合,將視覺(jué)上升到有意識(shí)的、可控制的一個(gè)過(guò)程。作為生物的視覺(jué)可以通過(guò)實(shí)時(shí)調(diào)整,能夠在能量消耗和三維感知,分辨率等達(dá)到平衡。如果將主動(dòng)視覺(jué)加入可供性檢測(cè),機(jī)器人可以通過(guò)在新環(huán)境中的主動(dòng)探索,實(shí)現(xiàn)智能等提升。

      ②動(dòng)態(tài)特性:目前僅僅有行為可供性進(jìn)行對(duì)于人的動(dòng)態(tài)檢測(cè),然而目前對(duì)于機(jī)器人的自我運(yùn)動(dòng)依舊是固定場(chǎng)景,未考慮到攝像頭自身運(yùn)動(dòng)導(dǎo)致動(dòng)態(tài)場(chǎng)景的情況。

      8 結(jié)語(yǔ)

      本文對(duì)視覺(jué)可供性的概念、分類(lèi)與識(shí)別的相關(guān)方法對(duì)可供性理論誕生以來(lái)的文獻(xiàn)進(jìn)行了綜述。首先將可供性劃分為三種類(lèi)型,按傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)的方法出發(fā)分別進(jìn)行了闡述和討論;并且梳理了可供性數(shù)據(jù)集;最后對(duì)視覺(jué)可供性的應(yīng)用方向、未來(lái)可能的研究方向及潛在的應(yīng)用領(lǐng)域進(jìn)行了討論。

      猜你喜歡
      物體對(duì)象機(jī)器人
      神秘來(lái)電
      睿士(2023年2期)2023-03-02 02:01:09
      深刻理解物體的平衡
      我們是怎樣看到物體的
      攻略對(duì)象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
      區(qū)間對(duì)象族的可鎮(zhèn)定性分析
      機(jī)器人來(lái)幫你
      認(rèn)識(shí)機(jī)器人
      機(jī)器人來(lái)啦
      認(rèn)識(shí)機(jī)器人
      沛县| 梨树县| 融水| 天等县| 宁夏| 乐业县| 资源县| 吉隆县| 兴安县| 收藏| 岑巩县| 兰溪市| 越西县| 鸡泽县| 平远县| 宽甸| 阿克陶县| 南城县| 丰都县| 碌曲县| 乐都县| 淳安县| 韶关市| 苍溪县| 扎囊县| 景洪市| 永仁县| 达州市| 章丘市| 会同县| 济源市| 张家口市| 门源| 娄烦县| 济阳县| 泽库县| 友谊县| 石阡县| 慈溪市| 措美县| 延川县|