人類賴以探索世界的兩個重要工具是視覺和觸覺。人類可以結(jié)合視覺和觸覺來了解他們持有和看到的物體。機器人和人工智能系統(tǒng)無法做到這一點。
來自麻省理工學(xué)院的研究員Yunzhu Li和他的團隊正在研究一種系統(tǒng),該系統(tǒng)從視覺輸入中創(chuàng)建觸覺信號,并預(yù)測從這些觸覺輸入中觸摸到的對象和部分。研究人員將他們的系統(tǒng)與麻省理工學(xué)院另外一個小組設(shè)計的Kuka機器人手臂和一個叫做Gelsight的特殊觸覺傳感器一起使用。
該小組使用網(wǎng)絡(luò)攝像機記錄了近200件物品,包括工具、家用產(chǎn)品、織物以及其他物品,它們被觸摸超過12000次。然后,他們將這12000個視頻片段分解成靜態(tài)幀,并編譯了一個包含300多萬個視覺/觸覺配對圖像的VisGel數(shù)據(jù)集。
研究人員表示,通過觀察現(xiàn)場,他們的模型可以想象到觸摸平面或鋒利邊緣的感覺。通過觸摸周圍,模型可以從純粹的觸覺上預(yù)測與環(huán)境的互動。他注意到,通過將兩種感官結(jié)合起來,它們可以賦予機器人力量,減少涉及操作和抓取物體任務(wù)所需的數(shù)據(jù)。