計(jì)算機(jī)視覺是人工智能研究的基礎(chǔ)領(lǐng)域之一,也為深度學(xué)習(xí)等方面的巨大進(jìn)步做出了貢獻(xiàn)。
斯坦福大學(xué)計(jì)算機(jī)科學(xué)系教授李飛飛認(rèn)為,這些進(jìn)步幾乎都依賴于對(duì)“北極星”(指代科學(xué)研究的關(guān)鍵問題)的追求。
近日,她發(fā)表了一篇題為《尋找計(jì)算機(jī)視覺“北極星”》的文章,闡述了計(jì)算機(jī)視覺中對(duì)象識(shí)別的最新發(fā)展觀點(diǎn)、ImageNet 數(shù)據(jù)集的簡(jiǎn)要?dú)v史與相關(guān)工作進(jìn)展。
李飛飛表示,關(guān)鍵問題的提出會(huì)推進(jìn)計(jì)算機(jī)視覺,甚至整個(gè)人工智能領(lǐng)域的發(fā)展。
目前,人工智能領(lǐng)域正在快速發(fā)展,從垃圾郵件過濾器、個(gè)性化零售到自動(dòng)駕駛等,人工智能的成功實(shí)施無處不在。就像阿爾伯特·愛因斯坦所說:“提出一個(gè)問題往往比解決一個(gè)問題更重要?!?/p>
李飛飛團(tuán)隊(duì)(前排右二)
但這些實(shí)踐背后涉及的科學(xué)問題或者哪些問題最需要解決可能并不總是顯而易見的。一旦制定了某領(lǐng)域的一個(gè)基本問題——確定一顆“北極星”,就可以推動(dòng)該領(lǐng)域跨越式發(fā)展。
李飛飛提到,她在計(jì)算機(jī)視覺上的研究,一直由自己的系列“北極星”所驅(qū)動(dòng)。
視覺能力是智能的核心,正如眼睛的進(jìn)化是造就包括人類在內(nèi)的許多不同物種的關(guān)鍵。人類可以使用視覺感知來理解世界,并與它互動(dòng)。那么,怎么讓人工智能去看呢?這里面需要解決許多問題,而對(duì)基本問題的選擇是計(jì)算機(jī)視覺科學(xué)探索的重要組成部分。
“起初,怎么樣讓計(jì)算機(jī)正確識(shí)別給定圖像中的內(nèi)容是我們特別想要了解的問題。2000年代初,由于互聯(lián)網(wǎng)和數(shù)碼相機(jī)的快速發(fā)展,數(shù)字圖像的數(shù)量呈爆炸式增長(zhǎng),從而產(chǎn)生了自動(dòng)對(duì)照片集進(jìn)行編目,并使用戶能夠搜索這些圖像集等需求,而這就需要用到對(duì)象識(shí)別?!崩铒w飛在文章中說到。
識(shí)別物體需要理解數(shù)字圖像在視覺世界中意味著什么,計(jì)算機(jī)無法理解這些概念。對(duì)于計(jì)算機(jī)來說,數(shù)字圖像只不過是像素的集合,沒有任何意義。
教計(jì)算機(jī)識(shí)別物體需要以某種方式讓它將每個(gè)數(shù)字集合連接到一個(gè)有意義的概念。
計(jì)算機(jī)從接觸的例子中學(xué)習(xí),這是機(jī)器學(xué)習(xí)的本質(zhì)。具體而言,這意味著只有通過訪問大量、多樣化、高質(zhì)量的訓(xùn)練數(shù)據(jù),才能在對(duì)象識(shí)別方面取得重大進(jìn)展。
因此,李飛飛等人在2009年創(chuàng)建了一個(gè)名為Image Net的數(shù)據(jù)集來實(shí)現(xiàn)以下3個(gè)設(shè)計(jì)目標(biāo):規(guī)模(大量數(shù)據(jù))、多樣性(豐富多樣的對(duì)象)和質(zhì)量(高分辨率、準(zhǔn)確標(biāo)記的對(duì)象)。
“專注于這3個(gè)目標(biāo)的過程中,我們已經(jīng)從一般的‘北極星’(圖像識(shí)別)轉(zhuǎn)向了更具體的問題表述。”李飛飛說。
據(jù)了解,ImageNet包括上千萬張標(biāo)記圖像,可供機(jī)器學(xué)習(xí)模型訓(xùn)練。如今,當(dāng)我們?cè)诨ヂ?lián)網(wǎng)上搜索圖像、根據(jù)智能手機(jī)里的人臉自動(dòng)對(duì)照片進(jìn)行分組時(shí),都會(huì)使用與ImageNet相關(guān)的算法。
此外,研究人員還將ImageNet開源,并免費(fèi)供人使用。同時(shí),他們還設(shè)立了Image Net大規(guī)模視覺識(shí)別挑戰(zhàn)賽(簡(jiǎn)稱ImageNet挑戰(zhàn)賽)。
值得一提的是,在2012年ImageNet挑戰(zhàn)賽上,一個(gè)團(tuán)隊(duì)首次將卷積神經(jīng)網(wǎng)絡(luò)(一種受人腦工作方式啟發(fā)的算法)應(yīng)用于對(duì)象識(shí)別,識(shí)別圖像的準(zhǔn)確率比當(dāng)時(shí)第二名高出41%。在2015年,這些機(jī)器識(shí)別圖像的準(zhǔn)確率達(dá)到97.3%,超越了人類的識(shí)別能力(準(zhǔn)確率約為95%)。
盡管神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的方法已經(jīng)存在了幾十年,但它直到當(dāng)年的ImageNet挑戰(zhàn)賽才被廣泛使用,在某一年中,幾乎每篇人工智能論文都是關(guān)于神經(jīng)網(wǎng)絡(luò)的。像谷歌和Meta(原Facebook)這樣的大型科技公司都在部署基于神經(jīng)網(wǎng)絡(luò)的技術(shù)。
然后,對(duì)象識(shí)別與計(jì)算機(jī)視覺中的其他任務(wù),如對(duì)象檢測(cè)和活動(dòng)識(shí)別等之間存在重要的相似之處。
這種相似性意味著計(jì)算機(jī)不需要從頭開始處理新任務(wù)。從理論上講,計(jì)算機(jī)應(yīng)該能夠利用這些相似性,應(yīng)用它從一項(xiàng)任務(wù)中學(xué)到的知識(shí)來執(zhí)行一項(xiàng)稍微不同的任務(wù)。對(duì)于計(jì)算機(jī)和人類來說,這種將知識(shí)從一個(gè)任務(wù)推廣到類似任務(wù)的過程被稱為遷移學(xué)習(xí)。例如,人學(xué)會(huì)了法語,再學(xué)習(xí)西班牙語就會(huì)相對(duì)容易一點(diǎn)。事實(shí)上,能夠發(fā)現(xiàn)任務(wù)之間的相似之處,并利用這種共享的知識(shí)來幫助我們學(xué)習(xí)新任務(wù),是人類智能的標(biāo)志之一。
計(jì)算機(jī)進(jìn)行遷移學(xué)習(xí)的一種方法是通過預(yù)訓(xùn)練。即在給機(jī)器學(xué)習(xí)模型一個(gè)新的挑戰(zhàn)之前,首先使用已有的有效數(shù)據(jù)訓(xùn)練它做類似的事情。如今,幾乎每種計(jì)算機(jī)視覺方法都使用在ImageNet上預(yù)先訓(xùn)練的模型。對(duì)象檢測(cè)是將ImageNet數(shù)據(jù)應(yīng)用于對(duì)象識(shí)別以外用途的第一次嘗試。
計(jì)算機(jī)視覺(或視覺智能)還有著更為廣泛的應(yīng)用,例如,醫(yī)生可以用計(jì)算機(jī)視覺來幫他們?cè)\斷和治療患者;用機(jī)器學(xué)習(xí)通過分析大量衛(wèi)星圖像可評(píng)估作物產(chǎn)量、環(huán)境和氣候變化等;科學(xué)家在機(jī)器的幫助下,可以發(fā)現(xiàn)新的物種、更好的材料和未知的邊界。
最后,在計(jì)算機(jī)視覺領(lǐng)域,下一步的“北極星”還有哪些?
李飛飛表示,其中最大的一個(gè)是在具身人工智能領(lǐng)域(指具有身體的人工智能),包括用于導(dǎo)航、操作等任務(wù)的類人機(jī)器人和在太空中移動(dòng)的有形和智能機(jī)器、機(jī)器人吸塵器、工廠里的機(jī)器人手臂、自動(dòng)駕駛汽車等。
她還談到,“還有一個(gè)是視覺推理。比如,在2D場(chǎng)景下對(duì)3D關(guān)系的理解。要人工智能執(zhí)行將飯桌上的水杯移動(dòng)到盤子右側(cè)這樣的簡(jiǎn)單任務(wù)也需要視覺推理。除此之外,理解人類的社會(huì)關(guān)系和意圖更具復(fù)雜性,基本的社會(huì)智能是另一個(gè)關(guān)鍵問題。例如,如果一個(gè)女人抱著一個(gè)小女孩在她的腿上,人們很容易猜到這兩個(gè)人可能是母女,但計(jì)算機(jī)還很難判斷這類情況?!?/p>