作子
20 世紀(jì) 50 年代和 60 年代,計(jì)算機(jī)并沒(méi)有現(xiàn)在這樣高的運(yùn)算水平,教計(jì)算機(jī)下棋更加困難。但是現(xiàn)在,AlphaGo已經(jīng)已經(jīng)擊敗圍棋冠軍,IBM Watson 也在 Jeopardy 中擊敗人類(lèi)競(jìng)賽者,即便如此,大多數(shù)計(jì)算機(jī)視覺(jué)軟件最多只能完成 3 歲兒童的任務(wù)……
人類(lèi)視覺(jué)系統(tǒng)非常特別,超過(guò)50%的神經(jīng)組織直接或間接地與視覺(jué)有關(guān),其中超過(guò)66%的神經(jīng)活動(dòng)僅為處理視覺(jué)。今天人們對(duì)視覺(jué)、知覺(jué)的了解大部分來(lái)自上世紀(jì)1950年代和60年代對(duì)貓進(jìn)行的神經(jīng)生理學(xué)研究。
上世紀(jì)50年代初期,哈佛醫(yī)學(xué)院的兩位神經(jīng)科學(xué)家 David Hubel 和 Torsten Wiesel 在貓的視覺(jué)皮層上進(jìn)行了一項(xiàng)實(shí)驗(yàn)。通過(guò)研究神經(jīng)元對(duì)各種刺激的反應(yīng),兩位科學(xué)家觀察到,人類(lèi)的視覺(jué)是分級(jí)的。神經(jīng)元檢測(cè)簡(jiǎn)單的特征,例如邊緣,然后輸入更復(fù)雜的特征,如形狀,最后再輸入更復(fù)雜的視覺(jué)表示?;谶@些知識(shí),計(jì)算機(jī)科學(xué)家就可以專(zhuān)注于以數(shù)字形式重建人類(lèi)神經(jīng)結(jié)構(gòu)。
人類(lèi)的視覺(jué)原理:從原始信號(hào)攝入開(kāi)始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向),然后抽象(大腦判定眼前物體的形狀),最后進(jìn)一步抽象(大腦進(jìn)一步判定該物體)
1956年在達(dá)特茅斯學(xué)院舉行的夏季研討會(huì)上,來(lái)自不同領(lǐng)域的科學(xué)家們聚集在一起,以闡明并發(fā)展關(guān)于“思維機(jī)器”的觀點(diǎn)。1960年代,大學(xué)開(kāi)始認(rèn)真進(jìn)行計(jì)算機(jī)視覺(jué)研究,并將該項(xiàng)目視為人工智能的奠基石。
麻省理工學(xué)院的神經(jīng)科學(xué)家戴維·馬爾(David Marr)在70年代出版了一本《VISION》,匯集了一些方法,作出了可檢測(cè)的預(yù)測(cè),提供解決神經(jīng)科學(xué)問(wèn)題的框架,并激發(fā)一代年輕科學(xué)家研究大腦及計(jì)算。該書(shū)提出了一種用于研究生物視覺(jué)系統(tǒng)的計(jì)算范例,并介紹信息處理系統(tǒng)的三個(gè)不同分析層次概念,即計(jì)算理論層次、表示形式和算法層次,以及實(shí)現(xiàn)層次。
他們分別指向:計(jì)算的目標(biāo)是什么;解決問(wèn)題、實(shí)現(xiàn)目標(biāo)的陳述與流程;這些表示和過(guò)程的物理實(shí)例化,例如如何在神經(jīng)元中完成特定任務(wù)。這三個(gè)層次劃分的意義是,研究者從視覺(jué)系統(tǒng)的宏觀表示出發(fā)進(jìn)行思考,而不是查看如單個(gè)神經(jīng)元式的微觀實(shí)體。
馬爾建立了視覺(jué)表示框架,任何視覺(jué)系統(tǒng)感知到的強(qiáng)度,都是四個(gè)主要因素的函數(shù):幾何形狀,意指形狀和相對(duì)位置;可見(jiàn)表面的反射率和絕對(duì)吸附特性,即物理特性;照明,即光源;相機(jī),包含光學(xué)。
研究人員對(duì)相關(guān)領(lǐng)域的未來(lái)非常樂(lè)觀,并提倡把人工智能作為一種可以改變世界的技術(shù)。一些人預(yù)測(cè),一代人的時(shí)間內(nèi)就會(huì)創(chuàng)造出像人類(lèi)一樣聰明的機(jī)器,這種炒作為研究人員贏得了數(shù)百萬(wàn)美元的公共和私人資金,研究中心在全球涌現(xiàn)。但是由于接下來(lái)的發(fā)展未能達(dá)到人們的高預(yù)期,國(guó)際上的人工智能開(kāi)發(fā)工作受到了限制。
早期的計(jì)算資源在技術(shù)上無(wú)法跟上科學(xué)家提出的復(fù)雜問(wèn)題,即使是最令人印象深刻的項(xiàng)目也只能解決微不足道的問(wèn)題。此外,大多數(shù)研究人員都是在孤立的小組內(nèi)工作,缺乏比較有意義的,可以推進(jìn)該領(lǐng)域科學(xué)進(jìn)展的方式。
有一則故事可以反映當(dāng)時(shí)研究人員的美好預(yù)期,以及預(yù)期落空后的失落。1966年,美國(guó)計(jì)算機(jī)科學(xué)家、麻省理工學(xué)院 AI 實(shí)驗(yàn)室聯(lián)合創(chuàng)始人馬文·明斯基獲得了暑期津貼,聘請(qǐng)了一年級(jí)的本科生杰拉爾德·蘇斯曼,讓他花費(fèi)整個(gè)夏天的時(shí)間把一臺(tái)攝像機(jī)與計(jì)算機(jī)連接起來(lái),并讓計(jì)算機(jī)描述它看到了什么。然而蘇斯曼沒(méi)有在截止日期前完成,并選擇不再在視覺(jué)領(lǐng)域工作。
到上世紀(jì)70年代中期,政府和公司對(duì)人工智能失去了信心,行業(yè)資金枯竭。數(shù)學(xué)家詹姆斯·萊特希爾1973年發(fā)表了一篇論文,批評(píng)早期人工智能研究,這為后來(lái)英國(guó)政府撤回對(duì)該領(lǐng)域的支持埋下了伏筆。
隨后的這段時(shí)間被稱(chēng)為“人工智能的冬天”。雖然20世紀(jì)80年代和90年代研究還在繼續(xù),也有過(guò)一些小規(guī)模的復(fù)興,但人工智能基本上被歸入了科幻小說(shuō)的范疇,嚴(yán)肅的計(jì)算機(jī)科學(xué)家都避免使用這個(gè)詞。
隨著互聯(lián)網(wǎng)成為主流,計(jì)算機(jī)科學(xué)家有了可以訪問(wèn)更多數(shù)據(jù)的權(quán)限。計(jì)算機(jī)硬件在繼續(xù)改進(jìn),成本則在下降。上世紀(jì)80年代到90年代,基本神經(jīng)網(wǎng)絡(luò)和算法得到改進(jìn)。
對(duì)于不同的物體,人類(lèi)視覺(jué)也是通過(guò)這樣逐層分級(jí)來(lái)進(jìn)行認(rèn)知的
1998年,Bengio、Le Cun、Bottou 和 Haffner 在一篇論文中首次介紹了第一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡(jiǎn)稱(chēng)CNN)) LeNet-5,能夠分類(lèi)手寫(xiě)數(shù)字。
卷積神經(jīng)網(wǎng)絡(luò)可以做到平移不變形,即使對(duì)象的外觀發(fā)生某種方式的變化,也可以識(shí)別出對(duì)象。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)監(jiān)督學(xué)習(xí)和反向傳播對(duì)輸入到卷積網(wǎng)絡(luò)中的數(shù)據(jù)做訓(xùn)練,并反復(fù)、自我校正。和同樣可以做反向傳播的深度神經(jīng)網(wǎng)絡(luò)相比,卷積神經(jīng)網(wǎng)絡(luò)的特殊之處在于神經(jīng)元之間的連接結(jié)構(gòu)和獨(dú)特的隱藏架構(gòu)的方式,這是由人類(lèi)視覺(jué)皮層內(nèi)部的視覺(jué)數(shù)據(jù)處理機(jī)制啟發(fā)得來(lái)的。此外,CNN 中的圖層按照寬度、高度和深度三個(gè)維度進(jìn)行組織。