• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    生物視覺系統(tǒng)的神經(jīng)網(wǎng)絡(luò)編碼模型綜述

    2023-02-21 03:25:24鄭雅菁余肇飛黃鐵軍
    中國圖象圖形學(xué)報(bào) 2023年2期
    關(guān)鍵詞:皮層視網(wǎng)膜神經(jīng)元

    鄭雅菁,余肇飛,2,黃鐵軍,2*

    1.北京大學(xué)計(jì)算機(jī)學(xué)院視頻與視覺技術(shù)國家工程研究中心,北京 100871; 2.北京大學(xué)人工智能研究院,北京 100871

    0 引 言

    大腦的視覺系統(tǒng)會(huì)在復(fù)雜的外界環(huán)境中提取出有意義的模式(James等,1890)。如果能夠準(zhǔn)確記住食物、危險(xiǎn)的標(biāo)記或是一些重要伙伴的視覺特征,將更有利于生存或繁殖。然而,這些對(duì)象在每一時(shí)刻的位置、姿勢(shì)、對(duì)比度、背景以及前景都各不相同,僅利用低級(jí)圖像屬性不容易識(shí)別(Pinto等,2008)。為解決這個(gè)問題,在靈長(zhǎng)類動(dòng)物的視覺系統(tǒng)中,會(huì)將外界的圖像輸入轉(zhuǎn)換一個(gè)內(nèi)部表達(dá),抽象的高級(jí)屬性在這個(gè)表達(dá)中會(huì)被更形象的編碼,以便指導(dǎo)行為(DiCarlo等,2012)。

    大腦視覺系統(tǒng)是由一系列解剖學(xué)上可區(qū)分但相互連接的區(qū)域組成(Felleman和van Essen,1991;Malach等,2002)。級(jí)聯(lián)的每個(gè)單獨(dú)階段都執(zhí)行比較簡(jiǎn)單的神經(jīng)變換,例如輸入的線性加權(quán),或閾值激活和歸一化等非線性變換。然而,復(fù)雜的非線性變換可能源于簡(jiǎn)單變換的串聯(lián)。由于大腦所接收的輸入通常都是各種數(shù)據(jù)的糾纏,是高度非線性的表達(dá),因此,解碼的過程也是高度非線性的。

    大腦神經(jīng)網(wǎng)絡(luò)所處理的非線性轉(zhuǎn)換空間非常龐大。因此,理解感知系統(tǒng)的一個(gè)主要挑戰(zhàn)是系統(tǒng)識(shí)別(system identification)——識(shí)別真正的生物回路使用的是哪種轉(zhuǎn)換。雖然生物神經(jīng)回路的轉(zhuǎn)換函數(shù)可能是有用的,例如,感受野(receptive field)的表征。但解決系統(tǒng)識(shí)別問題的最終目標(biāo)是產(chǎn)生一個(gè)編碼模型:一種接受任意刺激輸入(例如,任何像素圖)并輸出對(duì)該刺激的神經(jīng)反應(yīng)的正確預(yù)測(cè)的算法。模型不能局限于解釋一種狹義的現(xiàn)象,例如,面向精心挑選的神經(jīng)元且高度控制和簡(jiǎn)化的刺激而定義的。Yamins和Dicarlo(2016)認(rèn)為能夠接受任意輸入刺激,并且能夠精確預(yù)測(cè)某一區(qū)域所有神經(jīng)元的反應(yīng)是大腦感知模型必須滿足的兩個(gè)核心標(biāo)準(zhǔn)。此外,一個(gè)全面的編碼模型不能僅僅預(yù)測(cè)一個(gè)最終區(qū)域的神經(jīng)元的刺激—反應(yīng)的關(guān)系,例如(在視覺中)前顳下皮層(inferior temporal, IT)。相反,該模型還必須是可映射的,即具有與中間皮層區(qū)域(例如V4)相對(duì)應(yīng)的可識(shí)別組件。模型在每個(gè)組成區(qū)域的響應(yīng)應(yīng)正確預(yù)測(cè)相應(yīng)大腦區(qū)域內(nèi)的神經(jīng)反應(yīng)模式。

    如今,在大量解剖學(xué)和生理學(xué)證據(jù)的支持下,普遍接受這種分層級(jí)組織及其在人類和非人類靈長(zhǎng)類動(dòng)物中的雙通路結(jié)構(gòu):腹側(cè)通路(ventral stream)和背側(cè)通路(dorsal stream)(Markov等,2013;Ungerleider和Haxby,1994;van Essen,2003)。如圖1所示(Gilbert,2013),外界的視覺信息通過兩條平行通路(“視網(wǎng)膜—外側(cè)膝狀體—皮層”)從視網(wǎng)膜流向初級(jí)視覺皮層(V1區(qū))。其中,大細(xì)胞 (也稱為M細(xì)胞,Magno為“大”的拉丁語) 通路傳遞粗略的、基于亮度的空間輸入,對(duì)區(qū)域 V1 的第4Cα層具有很強(qiáng)的時(shí)間敏感性,星狀神經(jīng)元的特征細(xì)胞群立即將信息傳輸?shù)缴婕斑\(yùn)動(dòng)和空間處理的更高皮質(zhì)區(qū)域;而細(xì)小細(xì)胞 (也稱為P細(xì)胞,Parvo為“小”的拉丁語) 通路傳遞高空間分辨率但低時(shí)間敏感性的輸入,信息通過4Cβ層進(jìn)入?yún)^(qū)域 V1。這種對(duì)顏色敏感的輸入在 V1 的不同層中緩慢流動(dòng),然后流向皮層區(qū)域 V2 和參與形式處理的皮層區(qū)域網(wǎng)絡(luò)。在這兩條平行的視網(wǎng)膜—LGN—視皮層通路的視覺系統(tǒng)理論中認(rèn)為(Mishkin等,1983;Milner和Goodale,2008),背側(cè)流專門用于運(yùn)動(dòng)感知和視覺場(chǎng)景空間結(jié)構(gòu)的分析,而腹側(cè)流專門用于形成感知,包括對(duì)象和人臉識(shí)別。

    圖1 視覺系統(tǒng)的平行通路:腹側(cè)通路及背側(cè)通路(Gilbert,2013)

    自從Hubel 和 Wiesel(1962)發(fā)現(xiàn)初級(jí)視覺皮層V1區(qū)域的簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞以來,對(duì)視覺系統(tǒng)神經(jīng)科學(xué)的相關(guān)研究表明,大腦通過一系列分層組織的皮層區(qū)域(腹側(cè)視覺流)產(chǎn)生具有不變的對(duì)象識(shí)別行為(invariant object recognition)?;贖ubel和Wiesel(1962)所提出的開創(chuàng)性工作,許多研究人員已經(jīng)建立了受生物學(xué)啟發(fā)的神經(jīng)網(wǎng)絡(luò)(Fukushima和Miyake,1982;Riesenhuber和Poggio,1999;Serre等,2007;Haβ等,2008;Bengio, 2009;Pinto等,2009)。隨著時(shí)間的推移,人們意識(shí)到這些模型是一類更通用的計(jì)算框架的例子,稱為分層神經(jīng)網(wǎng)絡(luò)(LeCun和Bengio,1998)。分層神經(jīng)網(wǎng)絡(luò)是由多層簡(jiǎn)單的層堆疊而成的,外界的感知輸入將會(huì)被這些串聯(lián)的層依次處理。每一層的結(jié)構(gòu)都比較簡(jiǎn)單,但由這些層組成的深層網(wǎng)絡(luò)可實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的復(fù)雜轉(zhuǎn)換,類似于腹側(cè)流中視覺信息的處理。每個(gè)神經(jīng)網(wǎng)絡(luò)層中的運(yùn)算也是由傳統(tǒng)生物物理模型——線性—非線性(linear-nonlinear,LN)環(huán)路的啟發(fā)(Sahani和Linden,2003;Machens等,2004;Carandini等,2005)。在線性—非線性模型中主要包含以時(shí)空濾波器為主的線性加權(quán)操作,以及以閾值發(fā)放、池化和歸一化等運(yùn)算為主的非線性變換。

    與神經(jīng)元的感受野類似,分層神經(jīng)網(wǎng)絡(luò)中的操作基本都在一個(gè)固定大小的局部輸入?yún)^(qū)域上進(jìn)行,該區(qū)域通常小于輸入的完整空間范圍。例如,在 256 × 256 像素的圖像上,網(wǎng)絡(luò)層的感受野可能是 7 × 7 像素。由于這些感受野在空間上是重疊的,所以濾波器和池化操作通常是“跨步的”,這意味著輸出僅保留每個(gè)空間維度上的一小部分位置,例如步長(zhǎng)為2的卷積核在滑動(dòng)時(shí)將每隔一行/列就跳過。此外,每個(gè)卷積核在所有空間位置進(jìn)行權(quán)值共享,即每個(gè)位置都會(huì)有相同的卷積操作。所以即使物體的空間位置發(fā)生變化,網(wǎng)絡(luò)的物體識(shí)別結(jié)果也具有不變性。雖然目前腹側(cè)流和其他大腦皮層的生理學(xué)結(jié)構(gòu)似乎排除了可以存儲(chǔ)共享模板的主導(dǎo)位置存在,然而,外界環(huán)境中的自然視覺/聽覺統(tǒng)計(jì)數(shù)據(jù)在時(shí)空域上很大程度上是不變的。因此,大腦中基于經(jīng)驗(yàn)的學(xué)習(xí)過程應(yīng)該傾向于學(xué)得不同空間或時(shí)間位置的收斂權(quán)重。共享權(quán)重可能是大腦視覺系統(tǒng)中央視野的合理近似,但真實(shí)的視覺系統(tǒng)具有很強(qiáng)的中央凹偏差,因此,如果對(duì)所有位置都采用不同的感受野,以實(shí)現(xiàn)更仿生的視覺信息處理可能會(huì)提高模型對(duì)神經(jīng)數(shù)據(jù)的擬合度。

    由于深度學(xué)習(xí)技術(shù)的不斷發(fā)展,已經(jīng)出現(xiàn)了許多基于神經(jīng)網(wǎng)絡(luò)的精確預(yù)測(cè)模型,例如基于任務(wù)優(yōu)化的深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)是目前編碼靈長(zhǎng)類動(dòng)物大腦視覺的最精確預(yù)測(cè)模型。Yamins和Dicarlo (2016)認(rèn)為這主要是因?yàn)镈CNN具有以下特性:1)視覺皮層啟發(fā)式的結(jié)構(gòu),即神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)與視皮層的信息處理流程相似;2)網(wǎng)絡(luò)的訓(xùn)練/優(yōu)化的目標(biāo)與動(dòng)物生存時(shí)必須執(zhí)行的行為一致,如物體識(shí)別等任務(wù)。

    除了建模高級(jí)視覺皮層的物體識(shí)別網(wǎng)絡(luò)外,還有許多精確預(yù)測(cè)初級(jí)視覺系統(tǒng)(包括視網(wǎng)膜和V1等)響應(yīng)的模型,以及模擬視覺皮層背側(cè)通路的神經(jīng)網(wǎng)絡(luò)。本文首先描述有關(guān)生物視覺系統(tǒng)預(yù)測(cè)模型,及人工神經(jīng)網(wǎng)絡(luò)的背景知識(shí),再對(duì)比不同視覺區(qū)域的神經(jīng)網(wǎng)絡(luò)模型。最后總結(jié)基于神經(jīng)網(wǎng)絡(luò)視覺計(jì)算模型的技術(shù)挑戰(zhàn),并展望未來發(fā)展方向。

    1 概念與定義

    1.1 初級(jí)視覺系統(tǒng)的結(jié)構(gòu)及特性

    在使用分層神經(jīng)網(wǎng)絡(luò)對(duì)視覺皮層進(jìn)行建模之前,有許多基于手工設(shè)計(jì)的模型。從20世紀(jì)70年代開始,有許多神經(jīng)計(jì)算領(lǐng)域的研究者對(duì)初級(jí)視覺系統(tǒng)進(jìn)行建模,例如V1區(qū)域。這些區(qū)域的神經(jīng)元可能可以通過相對(duì)較淺的網(wǎng)絡(luò)來解釋,例如,基于一個(gè)或多個(gè)線性感受野的模型可能實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)神經(jīng)元對(duì)任意輸入刺激的響應(yīng),前提是模型包括控制響應(yīng)性的非線性機(jī)制,基于刺激上下文和歷史,并考慮脈沖生成的非線性。

    大多數(shù)初級(jí)視覺系統(tǒng)的神經(jīng)元模型都是基于線性感受野的概念。感受野這一概念最初是由Sherrington提出用于描述反射活動(dòng),之后由Hartline引入到視覺系統(tǒng)中。視覺系統(tǒng)中的神經(jīng)元感受野定義為光照視網(wǎng)膜時(shí),能改變神經(jīng)元活動(dòng)的區(qū)域。表1中展示了視網(wǎng)膜中光感受器和神經(jīng)節(jié)細(xì)胞,外側(cè)膝狀體的核細(xì)胞,V1區(qū)域的簡(jiǎn)單細(xì)胞、復(fù)雜細(xì)胞和終端抑制復(fù)雜細(xì)胞的感受野特性。其中視網(wǎng)膜的神經(jīng)節(jié)細(xì)胞和外側(cè)膝狀體中的核細(xì)胞感受野都為中心圓狀的感受野,當(dāng)給定的光源形狀符合感受野特性時(shí),神經(jīng)元才會(huì)發(fā)放脈沖信號(hào),反之神經(jīng)元不會(huì)發(fā)放脈沖信號(hào)。V1區(qū)域的簡(jiǎn)單細(xì)胞則是對(duì)邊緣或者窄條狀的刺激會(huì)產(chǎn)生響應(yīng),但給定的刺激有明確的“給光”和“撤光”區(qū)域。而復(fù)雜細(xì)胞則無需明確“給光”及“撤光”區(qū),當(dāng)符合其朝向的刺激出現(xiàn)時(shí)就會(huì)產(chǎn)生響應(yīng)。終端抑制型復(fù)雜細(xì)胞則是在復(fù)雜細(xì)胞的基礎(chǔ)上,還會(huì)受到邊緣端點(diǎn)的影響,當(dāng)刺激的光條超過其最佳長(zhǎng)度時(shí),神經(jīng)元的響應(yīng)將會(huì)減弱。

    表1 不同初級(jí)視覺區(qū)域神經(jīng)元的感受野特性

    視網(wǎng)膜和外側(cè)膝狀體核(lateral geniculate nucleus,LGN)是視覺系統(tǒng)處理外界信息的始發(fā)站。但這兩種結(jié)構(gòu)在目前很多機(jī)器視覺模型中發(fā)揮的作用很大程度上被低估了。目前大多數(shù)的視覺模型都以圖像作為輸入,而不包含生物視覺系統(tǒng)中的視網(wǎng)膜—LGN變換過程。因?yàn)楹雎粤嗽谶@些初級(jí)視覺區(qū)域上處理的內(nèi)容,人們很容易錯(cuò)過一些關(guān)鍵屬性,以了解是什么使生物視覺系統(tǒng)能高效率工作。

    在視網(wǎng)膜中,入射光被轉(zhuǎn)化為電信號(hào)。這種轉(zhuǎn)換最初是通過使用線性系統(tǒng)方法來模擬視網(wǎng)膜圖像的時(shí)空過濾進(jìn)行描述的(Enroth-Cugell和Robson,1984)。最近的研究改變了這種觀點(diǎn),并且在不同脊椎動(dòng)物的視網(wǎng)膜中發(fā)現(xiàn)了幾種類似皮層的計(jì)算(Kastner和Baccus,2014;Gollisch和Meister,2010)。盡管在不同的空間和時(shí)間尺度上工作,但視網(wǎng)膜和皮層水平具有相似的計(jì)算原理,這一事實(shí)是設(shè)計(jì)生物視覺模型時(shí)需要考慮的重要一點(diǎn)。這種觀點(diǎn)的改變將產(chǎn)生重要的后果。例如,與其考慮皮層電路如何實(shí)現(xiàn)視覺處理的高時(shí)間精度,不如考慮密集互連的皮層網(wǎng)絡(luò)如何保持視網(wǎng)膜對(duì)靜態(tài)和運(yùn)動(dòng)自然圖像編碼的高時(shí)間精度(Field和Chichilnisky,2007),或者微型眼球運(yùn)動(dòng)如何塑造其時(shí)空結(jié)構(gòu)(Rucci和Victor,2015)。

    同樣地,LGN 和其他視覺丘腦核(例如,丘腦核)不應(yīng)再被視為從視網(wǎng)膜到皮層路徑上的純中繼。例如,貓枕神經(jīng)元表現(xiàn)出一些經(jīng)典歸因于皮層細(xì)胞的特性,模式運(yùn)動(dòng)選擇性(Merabet等,1998)。猴子 LGN 神經(jīng)元中顯示出強(qiáng)烈的中心環(huán)繞相互作用,這些相互作用受反饋皮質(zhì)丘腦連接的控制 (Jones等,2012)。這些強(qiáng)大的皮質(zhì)原發(fā)性反饋連接可能解釋了為什么平行的視網(wǎng)膜丘腦—皮質(zhì)通路是高度適應(yīng)性的動(dòng)態(tài)系統(tǒng)(Briggs和Usrey,2008;Cudeiro和Sillito,2006;Nandy等,2013)。此外,與視網(wǎng)膜只接受外界視覺刺激不同,LGN還接受來自視皮層的反饋信息,代表了視覺通路中皮層自上而下的反饋信號(hào)可能影響信息處理的第1階段(O’Connor等,2002)。

    1.2 初級(jí)視覺系統(tǒng)的預(yù)測(cè)模型

    關(guān)于初級(jí)視覺區(qū)域系統(tǒng)的編碼研究通常與系統(tǒng)辨識(shí)方法密切相關(guān)。通過結(jié)合神經(jīng)生物學(xué)實(shí)驗(yàn),系統(tǒng)辨識(shí)方法主要通過構(gòu)建模型將視覺場(chǎng)景編碼為神經(jīng)響應(yīng),以找到神經(jīng)系統(tǒng)中的計(jì)算單元,例如神經(jīng)元的感受野和非線性變換等計(jì)算組件。隨著多電極陣列技術(shù)的發(fā)展,人們可以使用各種類型的光學(xué)圖像來操縱光學(xué)刺激,包括簡(jiǎn)單的條形、斑點(diǎn)和光柵,以及復(fù)雜的自然圖像和視頻等,同時(shí)可以記錄初級(jí)視覺區(qū)域細(xì)胞群體的響應(yīng)。在這些實(shí)驗(yàn)技術(shù)的支持下,初級(jí)視覺系統(tǒng)的編碼模型迅速發(fā)展。

    脈沖激發(fā)平均發(fā)放模型(spike-triggered average model, STA)(Marmarelis和Naka,1972;Chichilnisky,2001)是最早應(yīng)用于視網(wǎng)膜等初級(jí)視覺皮層的模型。該模型可以分析視網(wǎng)膜神經(jīng)節(jié)細(xì)胞、LGN和V1細(xì)胞的感受野。研究人員(Paninski,2003;Liu和Gollisch,2015)提出了脈沖激發(fā)協(xié)方差模型(spike-triggered covariance model, STC),利用奇異值分解獲得基本的時(shí)間空間濾波器。除了分析視網(wǎng)膜感受野濾波器的模型外,還有分析視網(wǎng)膜響應(yīng)的線性—非線性(LN)模型(Sahani和Linden,2003;Machens等,2004)。在LN模型中,假設(shè)神經(jīng)元從接收刺激到?jīng)Q定是否做出響應(yīng),其主要經(jīng)歷兩個(gè)階段:在第1階段,刺激經(jīng)過時(shí)空線性濾波器,這些濾波器描述了神經(jīng)元整合輸入的方式,即描述了神經(jīng)元感受野的特性;在第2階段,LN模型假設(shè)原始刺激首先經(jīng)過時(shí)空濾波器過濾之后,會(huì)經(jīng)過一個(gè)非線性的過程,這個(gè)非線性是模仿脈沖信號(hào)生成機(jī)制,以獲得神經(jīng)脈沖信號(hào)的輸出。

    到目前為止,有許多模型通過改進(jìn)LN模型的結(jié)構(gòu),從而變得更加復(fù)雜,例如線性—非線性泊松模型(linear-nonlinear Poisson model, LNP)(Schwartz等,2006)。LNP模型在LN模型的非線性過程之后增加了一個(gè)泊松過程來模擬神經(jīng)元的發(fā)放;Pillow等人(2008)提出了一種廣義線性模型(generalized linear model, GLM)。GLM 模型中增加了更多功能模塊,例如增加歷史脈沖濾波來模擬神經(jīng)元的適應(yīng)性,增加耦合濾波來模擬相鄰神經(jīng)元之間的相關(guān)性。非線性輸入模型(nonlinear input model, NIM)(McFarland等,2013)利用非線性濾波器來處理輸入信號(hào)之間的相關(guān)性。除了這些較為簡(jiǎn)單的結(jié)構(gòu),近年來包含子單元組件的模型也越來越多,如線性—非線性級(jí)聯(lián)網(wǎng)絡(luò)模型(2-layer linear-nonlinear network model, LNLN)(Maheswaranathan等,2018)、脈沖激發(fā)非負(fù)矩陣分解模型(spike-triggered non-negative matrix factorization, STNMF)(Liu等,2017)。

    根據(jù)Hubel 和 Wiesel(1962) 的經(jīng)驗(yàn)觀察表明,V1 中的神經(jīng)元類似于 Gabor 小波濾波器,不同的神經(jīng)元對(duì)應(yīng)于不同頻率和方向的邊緣。事實(shí)上,早期使用手工設(shè)計(jì)的 Gabor 濾波器組作為卷積權(quán)重的計(jì)算模型在解釋 V1 神經(jīng)反應(yīng)方面取得了一些成功。后來人們意識(shí)到,使用閾值、歸一化和增益控制等非線性可以顯著改進(jìn)模型。此外,Hubel和Wiesel(1962)也提出了V1中簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞感受野的形成是由其上游細(xì)胞感受野組合而成的觀點(diǎn)。在這個(gè)觀點(diǎn)中認(rèn)為,視覺系統(tǒng)中復(fù)雜的感受野結(jié)構(gòu)是由許多輸入以有序的方式會(huì)聚而成的。但是,由于視覺皮層中也存在著許多復(fù)雜的反饋或者“跳線”連接,如復(fù)雜細(xì)胞也會(huì)接收來自LGN細(xì)胞的直接輸入。并且視覺皮層內(nèi)部也普遍存在許多水平連接(Gilbert等,1990;Souihel和Cessac,2021)。盡管如此,Hubel和Wiesel(1962)提出的這種分層組合結(jié)構(gòu),啟發(fā)設(shè)計(jì)了許多機(jī)器視覺模型的產(chǎn)生,如分層最大池化模型(hierarchical max-pooling models,HMAX)(Riesenhuber和Poggio,1999)和深度神經(jīng)網(wǎng)絡(luò)(LeCun等,2015)。

    1.3 視覺皮層腹側(cè)通路的物體識(shí)別模型

    Hubel和Wiesel(1962)發(fā)現(xiàn)了V1區(qū)域細(xì)胞的感受野特性和視覺皮層的層級(jí)處理結(jié)構(gòu),許多研究者在他們的基礎(chǔ)上提出了實(shí)現(xiàn)腹側(cè)通路物體識(shí)別功能的模型,其中比較經(jīng)典且經(jīng)常被作為基礎(chǔ)模型使用的為VisNet(Rolls和Milward,2000)和HMAX模型(Riesenhuber和Poggio,1999)。

    1.3.1 VisNet物體識(shí)別模型

    大腦視覺系統(tǒng)所解決的主要問題之一是建立視覺信息的表征,使識(shí)別相對(duì)獨(dú)立于大小、對(duì)比度、空間頻率、視網(wǎng)膜上的位置、視角等。這種識(shí)別性能的泛化性無法由簡(jiǎn)單的某個(gè)視覺皮層獨(dú)立實(shí)現(xiàn)。用于物體識(shí)別的皮層視覺處理是由腹側(cè)通路中分層連接的皮層區(qū)域完成的。如圖2右側(cè)所示,腹側(cè)通路至少包括 V1、V2、V4、后下顳葉皮層 (posterior inferior temporal cortex,TEO),以及前顳皮層(anterior inferior temporal cortex,TE)。一個(gè)區(qū)域的每個(gè)小部分都會(huì)聚于后續(xù)處理區(qū)域中的一個(gè)局部。因此,每個(gè)后續(xù)階段的神經(jīng)元的感受野大小都會(huì)放大約2.5 倍。如圖2右側(cè)所示,V1 中中央凹區(qū)域的感受野視角約為1.3°,V4 為 8°,TEO 為 20°,下顳葉皮層為 50°(Boussaoud等,1991)。這樣的會(huì)聚區(qū)域?qū)⒉粩嘞嗷ブ丿B。不同區(qū)域神經(jīng)元感受野的連通性是實(shí)現(xiàn)物體平移不變表示的關(guān)鍵。

    圖2 VisNet的結(jié)構(gòu)及對(duì)應(yīng)的腹側(cè)視覺通路(Rolls和Milward,2000)

    基于視覺皮層中面向?qū)ο笞R(shí)別的不變性,Rolls和Milward(2000)提出了一個(gè)完成物體識(shí)別任務(wù)的模型——VisNet。如圖2左側(cè)所示,VisNet具有4層前饋層次結(jié)構(gòu),并通過使用橫向抑制連接提供每層內(nèi)神經(jīng)元之間的競(jìng)爭(zhēng)機(jī)制。神經(jīng)元間權(quán)重是根據(jù)赫布規(guī)則的擴(kuò)展版本調(diào)整,即當(dāng)輸入軸突可以使得輸出神經(jīng)元強(qiáng)烈發(fā)放時(shí),它們之間的突觸權(quán)重將增強(qiáng),反之,與不活躍的輸入軸突將減弱。

    1.3.2 HMAX模型

    HMAX模型曾經(jīng)是模擬視覺皮層腹側(cè)流最好的模型,該模型由Riesenhuber 和 Poggio 于 1999 年首次提出(Riesenhuber和Poggio,1999)。該模型的關(guān)鍵元素是一組位置和尺度不變特征檢測(cè)器。使用了一種非線性最大池化(max pooling)機(jī)制,該機(jī)制能夠?yàn)樽R(shí)別雜亂情況提供更穩(wěn)健的響應(yīng)。

    圖3展示了HMAX模型的結(jié)構(gòu)圖。模型采用多層簡(jiǎn)單—復(fù)雜細(xì)胞的交疊結(jié)構(gòu),模擬腹側(cè)通路中各個(gè)視覺皮層提取從簡(jiǎn)單到抽象特征的過程。HMAX模型最后一層的視角調(diào)諧細(xì)胞(view-tuned cell)可表示高度抽象的特征。

    圖3 HMAX模型的結(jié)構(gòu)(Riesenhuber和Poggio,1999)

    1.3.3 卷積神經(jīng)網(wǎng)絡(luò)

    受神經(jīng)科學(xué)研究的啟發(fā)(Hassabis等,2017),典型的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)由層次結(jié)構(gòu)組成,其中每個(gè)卷積層最重要的屬性之一是可以使用卷積濾波器作為特征檢測(cè)器提取來自輸入圖像的有用信息(Krizhevsky等,2012;Simonyan和Zisserman,2015)。因此,經(jīng)過訓(xùn)練,卷積核中的濾波器具有一定的語義。這些濾波器捕獲的特征可以在原始自然圖像中表示(Zeiler和Fergus,2014)。通常,一個(gè)典型特征與訓(xùn)練集里的某些圖像塊有一些相似之處。而這些相似性是通過使用大量具有標(biāo)簽數(shù)據(jù)的圖像來獲得的,所以卷積核所學(xué)得的特征對(duì)于一類物體來說具有通用性,有利于識(shí)別。然而,由于自然圖像的復(fù)雜統(tǒng)計(jì)結(jié)構(gòu)(Simoncelli和Olshausen,2001),它也導(dǎo)致了可視化或解釋卷積核的意義時(shí)存在困難。因此,卷積神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元的意義也通常不易于解釋(Zeiler等,2011)。

    2 初級(jí)視覺系統(tǒng)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型

    視覺處理始于視網(wǎng)膜和外側(cè)膝狀體核 (LGN),目前很多機(jī)器視覺模型中,這兩種結(jié)構(gòu)所發(fā)揮的作用很大程度上被低估了。目前的大多數(shù)視覺模型都將圖像作為輸入,而不包含生物視覺系統(tǒng)中的視網(wǎng)膜—LGN變換過程。它們并不僅僅是視覺刺激與大腦之間的一個(gè)傳輸中繼站,如視網(wǎng)膜細(xì)胞中還具備運(yùn)動(dòng)選擇性等特征,而LGN中的細(xì)胞則有增益控制(gain control)的功能,可以有效減少眼動(dòng)或者頭部移動(dòng)時(shí)伴隨的視覺信息的劇烈變化。

    傳統(tǒng)生物物理模型在研究初級(jí)視覺系統(tǒng)對(duì)簡(jiǎn)單人造刺激圖像非常有效,但是對(duì)于自然場(chǎng)景,包括自然圖像和自然視頻,卻存在許多問題,例如模型參數(shù)量過大時(shí)難以擬合。近年來,深度學(xué)習(xí)發(fā)展迅速,在對(duì)象識(shí)別和分類方面取得的效果優(yōu)于人類的水平。因此,有許多研究者也開始關(guān)注如何使用人工神經(jīng)網(wǎng)絡(luò)對(duì)初級(jí)視覺區(qū)域的編碼過程進(jìn)行建模(Maheswaranathan等,2018;Batty等,2017;Vance等,2018;Yan等,2020)。

    初級(jí)視覺系統(tǒng)中的神經(jīng)元電路組織相對(duì)清晰和簡(jiǎn)單,可以使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。另一方面,機(jī)器視覺的研究者們也期望這些神經(jīng)元回路的知識(shí)可以為 CNN 提供有用且重要的驗(yàn)證。近年來,一些神經(jīng)科學(xué)領(lǐng)域的研究者將 CNN 及其變體應(yīng)用于初級(jí)視覺系統(tǒng),例如視網(wǎng)膜(McIntosh等,2016;Batty等,2017;Vance等,2018;Maheswaranathan等,2018;Yan等,2020)、V1(Vintch等,2015;Antolík等,2016;Kindel等,2017;Cadena等,2019;Klindt等,2017;Whiteway等,2018;Ukita等,2018) 和 V2(Rowekamp和Sharpee,2017)。這些研究的目標(biāo)大多數(shù)是通過使用前饋和遞歸神經(jīng)網(wǎng)絡(luò),或結(jié)合兩者來實(shí)現(xiàn)更好的神經(jīng)反應(yīng)預(yù)測(cè)。與傳統(tǒng)的線性/非線性模型相比,這些新方法復(fù)雜性的增加提高了對(duì)視覺系統(tǒng)的辨識(shí)能力(McFarland等,2013;Chichilnisky,2001;Liu和Gollisch,2015)。其中一些研究還重構(gòu)所訓(xùn)練的網(wǎng)絡(luò)中隱層計(jì)算單元的細(xì)節(jié),以對(duì)比它們是否與生物神經(jīng)元的功能及結(jié)構(gòu)相對(duì)應(yīng)(Maheswaranathan等,2018;Klindt等,2017)。

    與其他初級(jí)視覺皮層系統(tǒng)(如V1,LGN)等相比,目前對(duì)視網(wǎng)膜的解剖結(jié)構(gòu)了解較為清楚(Gollisch和Meister,2010)。如圖4所示,視網(wǎng)膜可簡(jiǎn)化為一個(gè)3層的網(wǎng)絡(luò),分別為光感受器、雙極細(xì)胞和神經(jīng)節(jié)細(xì)胞。在這3層網(wǎng)絡(luò)之間穿插著抑制性水平細(xì)胞和無長(zhǎng)突細(xì)胞等結(jié)構(gòu)。視網(wǎng)膜神經(jīng)節(jié)細(xì)胞(retinal ganglion cells,RGCs)作為視網(wǎng)膜的最終層輸出神經(jīng)元,通過視束和丘腦將視覺信息發(fā)送到皮層區(qū)域進(jìn)行高級(jí)認(rèn)知。每個(gè)神經(jīng)節(jié)細(xì)胞會(huì)接受一些興奮性雙極細(xì)胞(bipolar cells,BCs)的輸入,并產(chǎn)生脈沖信號(hào)。需要強(qiáng)調(diào)的是,哺乳類動(dòng)物的視網(wǎng)膜是一個(gè)由至少60種不同結(jié)構(gòu)和特性的神經(jīng)元組成的縱橫交錯(cuò)的復(fù)雜神經(jīng)網(wǎng)絡(luò)(Gollisch和Meister,2010),上述的3層神經(jīng)網(wǎng)絡(luò)是一個(gè)極為簡(jiǎn)單的計(jì)算模型。

    圖4 視網(wǎng)膜的生理結(jié)構(gòu)(Yan等,2020)

    Yan等人(2020)也使用3層的卷積神經(jīng)網(wǎng)絡(luò)建模單個(gè)視網(wǎng)膜神經(jīng)節(jié)的編碼過程,其模型結(jié)構(gòu)如圖5(b)所示。他們對(duì)單個(gè)細(xì)胞在不同刺激及不同細(xì)胞上的遷移學(xué)習(xí)實(shí)驗(yàn),揭示了一個(gè)3層的卷積神經(jīng)網(wǎng)絡(luò)是在學(xué)習(xí)一個(gè)神經(jīng)節(jié)細(xì)胞所需的基本運(yùn)算。在一個(gè)細(xì)胞上訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò),可以較好地在不同刺激上進(jìn)行遷移,但在不同細(xì)胞上遷移時(shí)性能具有較大的差異。最近的一些研究也探索了循環(huán)連接在視網(wǎng)膜編碼中發(fā)揮的作用,Batty等人(2017)使用循環(huán)神經(jīng)網(wǎng)絡(luò) (recurrent neural network, RNN) 對(duì)神經(jīng)元群體內(nèi)的共享特征空間進(jìn)行建模。然而,這種方法的性能主要取決于對(duì)神經(jīng)元初始位置的估計(jì)。

    圖5 基于3層CNN的視網(wǎng)膜編碼模型

    雖然卷積神經(jīng)網(wǎng)絡(luò)已成功應(yīng)用于建模簡(jiǎn)單和靜態(tài)場(chǎng)景的視網(wǎng)膜系統(tǒng),然而,當(dāng)學(xué)習(xí)大規(guī)模視網(wǎng)膜神經(jīng)節(jié)細(xì)胞對(duì)復(fù)雜自然場(chǎng)景視頻的編碼過程時(shí),基于卷積神經(jīng)網(wǎng)絡(luò)的編碼模型會(huì)隨著所編碼 RGC 數(shù)量的增多而參數(shù)量陡然上升,因而難以得到有效的編碼模型。為解決這個(gè)問題,Zheng等人(2021a)提出了用于學(xué)習(xí)群體視網(wǎng)膜神經(jīng)節(jié)細(xì)胞編碼外界動(dòng)態(tài)視頻刺激的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network, CRNN)。圖6中展示了CRNN的結(jié)構(gòu),實(shí)驗(yàn)結(jié)果揭示了網(wǎng)絡(luò)的循環(huán)連接結(jié)構(gòu)是影響視網(wǎng)膜編碼的關(guān)鍵因素,可高精度地預(yù)測(cè)大規(guī)模視網(wǎng)膜神經(jīng)節(jié)細(xì)胞對(duì)動(dòng)態(tài)自然場(chǎng)景的響應(yīng),并可以同時(shí)學(xué)習(xí)出各個(gè)神經(jīng)節(jié)細(xì)胞的感受野。Zheng等人(2021a)所提出的卷積循環(huán)編碼網(wǎng)絡(luò)除了在結(jié)構(gòu)上更加接近視網(wǎng)膜,還可以使用更少的參數(shù)學(xué)習(xí)出精度更高的編碼模型。

    圖6 CRNN模型架構(gòu)圖例(Zheng等,2021a)

    此外,即使目前對(duì)V1神經(jīng)元的感受野已比較了解,但傳統(tǒng)的預(yù)測(cè)模型也很難預(yù)測(cè)它們對(duì)自然圖像刺激的反應(yīng)。為了填補(bǔ)這一空白,Kindel等人(2017)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè) V1 神經(jīng)元對(duì)自然圖像刺激的響應(yīng)。他們所提出的網(wǎng)絡(luò)良好預(yù)測(cè)了V1神經(jīng)元對(duì)自然圖像刺激響應(yīng),并且網(wǎng)絡(luò)中模擬V1神經(jīng)元的節(jié)點(diǎn)經(jīng)過分析,可得到具有中心環(huán)繞狀和Gabor 小波的感受野,甚至是具有更高級(jí)別紋理特征的復(fù)雜感受野。Kindel等人(2017)的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。

    圖7 基于CNN的V1細(xì)胞編碼模型(Kindel等,2017)

    在接受外界視覺刺激時(shí),有不同類型的神經(jīng)元在視野的不同位置執(zhí)行相似的計(jì)算。傳統(tǒng)的神經(jīng)系統(tǒng)識(shí)別方法沒有區(qū)分神經(jīng)元感受野的位置和形狀特性。而卷積神經(jīng)網(wǎng)絡(luò)中,卷積核在多個(gè)位置的權(quán)值共享,但架構(gòu)設(shè)計(jì)需要考慮數(shù)據(jù)限制:雖然新的實(shí)驗(yàn)技術(shù)能夠記錄數(shù)千個(gè)神經(jīng)元,但實(shí)驗(yàn)時(shí)間有限,因此只能對(duì)每個(gè)神經(jīng)元響應(yīng)空間的一小部分進(jìn)行采樣。Klindt等人(2017)認(rèn)為使用卷積神經(jīng)網(wǎng)絡(luò)擬合神經(jīng)數(shù)據(jù)的一個(gè)主要瓶頸是對(duì)單個(gè)感受野位置的估計(jì)。因此,他們提出了一個(gè)帶有稀疏讀出層的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其可以同時(shí)重構(gòu)出神經(jīng)元感受野的空間和特征維度。Klindt等人(2017)提出的網(wǎng)絡(luò)可以很好地?cái)U(kuò)展到數(shù)千個(gè)神經(jīng)元和簡(jiǎn)短的記錄,并且可以進(jìn)行端到端的訓(xùn)練。

    除了這種直接訓(xùn)練網(wǎng)絡(luò)預(yù)測(cè)神經(jīng)元對(duì)輸入的響應(yīng)的數(shù)據(jù)驅(qū)動(dòng)模型外,還有以物體識(shí)別為任務(wù)訓(xùn)練一個(gè)多層網(wǎng)絡(luò)后,對(duì)網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)使用V1神經(jīng)元數(shù)據(jù)進(jìn)行遷移學(xué)習(xí)。Cadena等人(2019)測(cè)試了這兩種方法預(yù)測(cè)清醒猴子 V1 神經(jīng)元對(duì)自然圖像脈沖響應(yīng)的能力。他們發(fā)現(xiàn)以物體識(shí)別任務(wù)訓(xùn)練的VGG-19(Visual Geometry Group)網(wǎng)絡(luò)(Simonyan和Zisserman,2015)經(jīng)過遷移學(xué)習(xí)后,與數(shù)據(jù)驅(qū)動(dòng)方法的表現(xiàn)相似,并且都優(yōu)于基于 V1 理論的經(jīng)典線性—非線性泊松模型(LNP模型)和基于小波的特征表示(gabor-filter bank,GFB模型)。Cadena等人(2019)所使用的網(wǎng)絡(luò)結(jié)構(gòu)及對(duì)應(yīng)V1的選擇層如圖8所示。

    圖8 VGG-19網(wǎng)絡(luò)遷移學(xué)習(xí)的V1細(xì)胞編碼模型(Cadena等,2019)

    值得注意的是,使用預(yù)訓(xùn)練的特征空間進(jìn)行遷移學(xué)習(xí)時(shí),可使用較少的實(shí)驗(yàn)時(shí)間就實(shí)現(xiàn)相同的預(yù)測(cè)性能。Cadena等人(2019)的實(shí)驗(yàn)結(jié)果表明,多層卷積神經(jīng)網(wǎng)絡(luò)為預(yù)測(cè)靈長(zhǎng)類動(dòng)物 V1 中對(duì)自然圖像的神經(jīng)反應(yīng)奠定了新的技術(shù)水平,并且比傳統(tǒng)濾波器組合成的模型,以對(duì)象識(shí)別任務(wù)為目標(biāo)的網(wǎng)絡(luò)學(xué)得的特征可以更好地解釋 V1 細(xì)胞的特性。這一發(fā)現(xiàn)強(qiáng)化了V1 模型中具備多重非線性的必要性,并驗(yàn)證了高級(jí)功能目標(biāo)(如物體識(shí)別)可影響早期視覺皮層的表征。圖9中展示了傳統(tǒng)V1模型LNP、GFB、V1數(shù)據(jù)驅(qū)動(dòng)的淺層卷積網(wǎng)絡(luò)和以物體識(shí)別任務(wù)訓(xùn)練的大規(guī)模VGG網(wǎng)絡(luò)對(duì)V1神經(jīng)元的可解釋性。

    圖9 不同編碼模型對(duì)真實(shí)V1神經(jīng)元的可解釋性(Cadena等,2019)

    除了分別訓(xùn)練視網(wǎng)膜和初級(jí)視覺皮層的網(wǎng)絡(luò)外, Lindsey等人(2019)還提出了一個(gè)同時(shí)模擬視網(wǎng)膜和腹側(cè)視覺通路的聯(lián)合網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)構(gòu)如圖10所示。將在CIFAR-10數(shù)據(jù)集(Krizhevsky,2009)上訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)作為視覺系統(tǒng)的模型,并且認(rèn)為這種感受野的差異可能是視網(wǎng)膜和皮層網(wǎng)絡(luò)上不同神經(jīng)資源限制的直接結(jié)果。其中關(guān)鍵的限制是模擬視網(wǎng)膜的網(wǎng)絡(luò)中輸出的神經(jīng)元數(shù)量減少。此外,如圖10所示,對(duì)于簡(jiǎn)單的下游皮層VVS(ventral visual system)網(wǎng)絡(luò),視網(wǎng)膜輸出的視覺表征表現(xiàn)為非線性和有損特征檢測(cè)器,而對(duì)于更復(fù)雜的VVS皮層網(wǎng)絡(luò),視網(wǎng)膜表現(xiàn)為視覺場(chǎng)景的簡(jiǎn)單線性編碼器。該結(jié)果預(yù)測(cè)小型脊椎動(dòng)物(例如蠑螈、青蛙)的視網(wǎng)膜應(yīng)該執(zhí)行復(fù)雜的非線性計(jì)算,提取與行為直接相關(guān)的特征。而大型動(dòng)物(例如靈長(zhǎng)類動(dòng)物)的視網(wǎng)膜應(yīng)該主要對(duì)視覺場(chǎng)景進(jìn)行線性編碼,并對(duì)更廣泛的范圍做出反應(yīng)的刺激。這些結(jié)果表明,脊椎動(dòng)物的視網(wǎng)膜表征取決于分配給其視覺系統(tǒng)的神經(jīng)資源,從而決定它們的視網(wǎng)膜表征目標(biāo)——執(zhí)行特征提取或?qū)ψ匀粓?chǎng)景的高效編碼。

    圖10 模擬視網(wǎng)膜與腹側(cè)視覺通路的聯(lián)合網(wǎng)絡(luò)結(jié)構(gòu)(Lindsey等,2019)

    3 任務(wù)驅(qū)動(dòng)的高級(jí)視覺皮層編碼模型

    除了以電生理驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò)編碼模型,研究人員也采用深度神經(jīng)網(wǎng)絡(luò)來研究神經(jīng)科學(xué)的核心問題(Kriegeskorte,2015;Yamins和Dicarlo,2016)。例如,深度卷積神經(jīng)網(wǎng)絡(luò)已用于模擬實(shí)現(xiàn)視覺對(duì)象識(shí)別的腹側(cè)視覺通路(Yamins等,2013,2014;Khaligh-Razavi和Kriegeskorte,2014;Yamins和Dicarlo,2016)。結(jié)果證明,物體識(shí)別任務(wù)驅(qū)動(dòng)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)隱層的計(jì)算節(jié)點(diǎn)可以精確預(yù)測(cè)神經(jīng)元的響應(yīng)。然而,這種網(wǎng)絡(luò)模型的最終輸出代表了在許多層中進(jìn)行的密集計(jì)算,這可能與大腦中信息處理的生物學(xué)基礎(chǔ)相關(guān),也可能不相關(guān)。鑒于 IT 皮層部分位于人類視覺系統(tǒng)的更高級(jí)別,因此很難理解 CNN 的這些網(wǎng)絡(luò)組件。

    通過訓(xùn)練大量自然圖片,多層卷積神經(jīng)網(wǎng)絡(luò)(hierarchical convolutional neural network, HCNNs)所完成的視覺對(duì)象識(shí)別可達(dá)到人類相當(dāng)?shù)男阅?Zeiler和Fergus,2014;LeCun等,2015)。圖11中展示了Yamins和Dicarlo(2016)用于建模腹側(cè)視覺通路的HCNN模型結(jié)構(gòu)。近期的研究工作表明,基于任務(wù)優(yōu)化的多層卷積神經(jīng)網(wǎng)絡(luò)HCNNs是靈長(zhǎng)類動(dòng)物大腦視覺編碼的精準(zhǔn)量化模型(Yamins等,2014;Khaligh-Razavi和Kriegeskorte,2014;Gü?lü和van Gerven,2015)。

    圖11 以物體識(shí)別任務(wù)學(xué)習(xí)的HCNN編碼模型(Yamins和Dicarlo,2016)

    目前,與其他計(jì)算模型類別相比,在ImageNet數(shù)據(jù)集上以物體識(shí)別任務(wù)訓(xùn)練的HCNNs可以更好地預(yù)測(cè)視覺系統(tǒng)中神經(jīng)元的平均時(shí)間響應(yīng)(temporally-averaged response)。訓(xùn)練好的網(wǎng)絡(luò)中底層、中層和高層的卷積層的模型單元分別精準(zhǔn)預(yù)測(cè)初級(jí)(Khaligh-Razavi和Kriegeskorte,2014;Cadena等,2019)(V1 區(qū))、中級(jí)(Yamins等,2014)(V4 區(qū))和更高的視覺皮層區(qū)域(Khaligh-Razavi和Kriegeskorte,2014;Yamins等,2014)(下顳葉皮質(zhì),即 IT 區(qū))。這些模型并沒有使用真實(shí)的生理數(shù)據(jù)進(jìn)行擬合,而是直接以高級(jí)視覺任務(wù)(目標(biāo)識(shí)別)進(jìn)行訓(xùn)練,它們能夠達(dá)到目前視覺信息編碼任務(wù)的最高性能(state-of-the-art)。如在圖12中,HCNN模型可以在獲得最佳的物體識(shí)別預(yù)測(cè)性能的同時(shí),精確預(yù)測(cè)視覺皮層神經(jīng)元的響應(yīng)。

    圖12 物體識(shí)別任務(wù)訓(xùn)練的HCNN模型可精確預(yù)測(cè)高級(jí)視覺皮層的神經(jīng)元響應(yīng)(Yamins和Dicarlo,2016)

    在HCNNs模型的訓(xùn)練中,選擇變化多端、場(chǎng)景比較具有挑戰(zhàn)性數(shù)據(jù)集,以及更加貼近現(xiàn)實(shí)生活的視覺任務(wù)也很重要,如在種類繁多的ImageNet數(shù)據(jù)集上進(jìn)行物體識(shí)別任務(wù)的訓(xùn)練效果會(huì)比較好。研究人員(Khaligh-Razavi和Kriegeskorte,2014;Hong等,2016)認(rèn)為使用較簡(jiǎn)單、種類較少的數(shù)據(jù)集進(jìn)行目標(biāo)識(shí)別任務(wù)的無監(jiān)督訓(xùn)練模型(圖像自編碼器),無法精確預(yù)測(cè)神經(jīng)元對(duì)圖像的響應(yīng),尤其是高級(jí)視皮層。這也意味著對(duì)靈長(zhǎng)類動(dòng)物來說,捕捉外界環(huán)境不計(jì)其數(shù)的視覺刺激特性對(duì)構(gòu)建一個(gè)穩(wěn)健的視覺系統(tǒng)非常關(guān)鍵。HCNNs模型的最終輸出表示的是先前許多的卷積層中進(jìn)行的密集的計(jì)算,這與大腦中的信息處理的神經(jīng)科學(xué)基礎(chǔ)有關(guān)與否并不確定,所以需要理解HCNNs計(jì)算單元與高級(jí)視覺神經(jīng)系統(tǒng)這些組件的對(duì)應(yīng)關(guān)系。

    雖然HCNNs能夠在預(yù)測(cè)視皮層的平均響應(yīng)上取得傲人的成績(jī),但靈長(zhǎng)類動(dòng)物的視覺系統(tǒng)的解剖結(jié)構(gòu)中除了現(xiàn)有HCNNs中的前饋連接,還有別的連接結(jié)構(gòu)。這些結(jié)構(gòu)包括每個(gè)皮層區(qū)域內(nèi)密集的局部循環(huán)連接以及不同區(qū)域間的遠(yuǎn)程連接,例如從視覺層次的較高級(jí)區(qū)域到初級(jí)部分的反饋(Gilbert,2013)。靈長(zhǎng)類動(dòng)物大腦的視覺系統(tǒng)中循環(huán)結(jié)構(gòu)的功能尚未得到充分研究。有研究(Spoerer等,2017;Michaelis等,2018;Linsley等,2018)認(rèn)為循環(huán)結(jié)構(gòu)可自動(dòng)填補(bǔ)缺失數(shù)據(jù),如被其他物體遮擋住的物體部分;有研究(Gilbert,2013;Lindsay,2015;McIntosh等,2018;Li等,2018;Kar等,2019)認(rèn)為循環(huán)結(jié)構(gòu)通過自上而下的注意力特征的細(xì)化銳化了表征,以便對(duì)特定的刺激因素或特定任務(wù)的性能進(jìn)行解碼;有研究(Rao和Ballard,1999;Lotter等,2017;Issa等,2018)認(rèn)為循環(huán)結(jié)構(gòu)允許大腦預(yù)測(cè)未來的刺激信號(hào)(如電影的幀);而也有研究(Liao和Poggio,2016;Zamir等,2017;Leroux等,2018)認(rèn)為循環(huán)擴(kuò)展了前饋計(jì)算,這意味著展開的循環(huán)網(wǎng)絡(luò)等價(jià)于通過多次重復(fù)變換來保存神經(jīng)元(和可學(xué)習(xí)參數(shù))的更深層前饋網(wǎng)絡(luò)。

    現(xiàn)有的神經(jīng)生理數(shù)據(jù)無法排除這些可能性,而計(jì)算模型可能有助于對(duì)這些假設(shè)進(jìn)行評(píng)估。研究人員(Spoerer等,2017;Lotter等,2017)將添加了循環(huán)結(jié)構(gòu)的增強(qiáng) CNN 用于解決相對(duì)簡(jiǎn)單的遮擋變形和預(yù)測(cè)未來的任務(wù),但這些模型既無法泛化到前饋 CNN 執(zhí)行的較困難任務(wù)(如識(shí)別 ImageNet 數(shù)據(jù)集中的目標(biāo)),也無法像在ImageNet上優(yōu)化的 HCNN 一樣對(duì)神經(jīng)響應(yīng)做出解釋。在ImageNet中進(jìn)行目標(biāo)識(shí)別是已知僅有可以產(chǎn)生與視覺皮層神經(jīng)元激活模式相仿的 HCNN 激活模式的任務(wù) (Khaligh-Razavi和Kriegeskorte,2014;Yamins等,2014;Cadena等,2019)。但事實(shí)上,由于多樣性和復(fù)雜性,ImageNet中包含許多可以根據(jù)上述假設(shè)(例如嚴(yán)重遮擋、出現(xiàn)多個(gè)前景目標(biāo)等)利用循環(huán)結(jié)構(gòu)的圖像數(shù)據(jù)。此外,一些針對(duì) ImageNet的最有效方法(如 ResNet 模型(He等,2016))是在多個(gè)層上重復(fù)相同的架構(gòu)模式,這說明它們可能與較淺的循環(huán)網(wǎng)絡(luò)的展開近似(Liao和Poggio,2016)。McIntosh等人(2018)將 HCNN 的輸出作為 RNN 的輸入來解決目標(biāo)分割等視覺任務(wù)。而Nayebi等人(2018)則認(rèn)為使用傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)中的循環(huán)結(jié)構(gòu)(例如,樸素RNN、長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)(Elman,1990;Hochreiter和Schmidhuber,1997))并不能提高計(jì)算模型在ImageNet上的識(shí)別性能,因此他們直接在卷積單元上引入了循環(huán)結(jié)構(gòu),提出了稱為ConvRNN(convolutional recurrent neural networks)的模型結(jié)構(gòu),其結(jié)構(gòu)如圖13所示。ConvRNN中主要引入了既帶有旁路(bypass),也實(shí)現(xiàn)了類似于LSTM的長(zhǎng)短時(shí)程記憶功能的門控單元。這種基于目標(biāo)識(shí)別任務(wù)訓(xùn)練的模型能夠預(yù)測(cè)高級(jí)視皮層區(qū)域(V4和IT)的神經(jīng)動(dòng)力學(xué)響應(yīng),并且能達(dá)到很高的識(shí)別準(zhǔn)確率。

    圖13 ConvRNN模型(Nayebi等,2018)

    此外, Kar等人(2019)認(rèn)為網(wǎng)絡(luò)層次較多的純HCNN網(wǎng)絡(luò)與淺層的帶循環(huán)結(jié)構(gòu)的CNN結(jié)構(gòu)功能等價(jià)。然而, Spoerer等人(2017)認(rèn)為在HCNNs網(wǎng)絡(luò)中加入循環(huán)結(jié)構(gòu)后可提高網(wǎng)絡(luò)訓(xùn)練的收斂速度,即使在與HCNNs同等參數(shù)量的情況下也能達(dá)到較高的目標(biāo)識(shí)別準(zhǔn)確率。

    4 無監(jiān)督任務(wù)驅(qū)動(dòng)的神經(jīng)編碼模型

    雖然以物體識(shí)別任務(wù)有監(jiān)督地訓(xùn)練網(wǎng)絡(luò),可以獲得目前最精確的視覺皮層腹側(cè)通路的神經(jīng)編碼模型,但是許多研究者認(rèn)為,這種有監(jiān)督式的任務(wù)驅(qū)動(dòng)模型不具備生理可解釋性。因?yàn)榇竽X需要處理的任務(wù)很多,需要在多種任務(wù)中都取得較好的性能以生存,而不僅僅是專門處理物體識(shí)別等固定任務(wù)的網(wǎng)絡(luò)。例如,目前深度神經(jīng)網(wǎng)絡(luò)常用的ImageNet數(shù)據(jù)集中(Krizhevsky等,2012),含有上百萬張帶標(biāo)簽數(shù)據(jù)。若使用同樣規(guī)模的數(shù)據(jù)訓(xùn)練一個(gè)嬰兒學(xué)會(huì)識(shí)別,并且以5 s一次的頻率指定樣本,需要消耗一千多個(gè)小時(shí)。而人類并不是機(jī)器,無法不停機(jī)地重復(fù)訓(xùn)練這一項(xiàng)任務(wù),因此人類顯然不是以這種大規(guī)模數(shù)據(jù)樣本的形式識(shí)別物體。同樣,對(duì)于其他靈長(zhǎng)類動(dòng)物,這種大規(guī)模標(biāo)簽數(shù)據(jù)的訓(xùn)練模式也顯然不可行。因此,尋找更具生物可行性的神經(jīng)編碼模型仍是一個(gè)亟須解決的問題。

    近年來,許多研究者開始嘗試以無監(jiān)督學(xué)習(xí)(Hastie等,2009)的方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)編碼模型。而目前的無監(jiān)督網(wǎng)絡(luò)通常具有以下幾種形式:1)無監(jiān)督學(xué)習(xí):旨在表示數(shù)據(jù)分布或?qū)崿F(xiàn)數(shù)據(jù)降維,例如變分自動(dòng)編碼器(variational autoencoder,VAE)(Kingma和Welling,2019);2)自監(jiān)督學(xué)習(xí)(self-supervised learning)(LeCun和Misra,2021):旨在通過從輸入的任意部分預(yù)測(cè)其其他部分的任務(wù)來找到好的數(shù)據(jù)表示,例如,對(duì)于一幅帶遮擋的圖像,企圖從其不帶遮擋的部分預(yù)測(cè)出缺省的部分;或是從輸入序列的過去預(yù)測(cè)其將來的輸入;3)對(duì)比學(xué)習(xí)(contrastive learning):是自監(jiān)督訓(xùn)練模型的一種特例(Jaiswal等,2020)。預(yù)測(cè)樣本時(shí)只需區(qū)分其是正例還是負(fù)例,因此稱為對(duì)比學(xué)習(xí)。常見的網(wǎng)絡(luò)有MoCo(momentum contrast)(Chen等,2020b), SimCLR(Chen等,2020a)和CPC(contrastive predictive coding)(Kharitonov等,2021)等;4)多模態(tài)學(xué)習(xí)(multimodal learning)(Ramachandram和Taylor,2017):旨在通過相互預(yù)測(cè)或預(yù)測(cè)一個(gè)公共子空間來尋找不同模態(tài)(例如視覺、文本和音頻等)的公共子空間。目前常見的多模態(tài)學(xué)習(xí)網(wǎng)絡(luò)為OPEN AI在2021年提出的CLIP(contrastive language-image pre-training)模型(Radford等,2021)。

    Zhuang等人(2021)最近發(fā)現(xiàn)使用無監(jiān)督或自監(jiān)督的方式訓(xùn)練網(wǎng)絡(luò),可以獲得與腹側(cè)視覺通路神經(jīng)元(例如圖14中的V1、V4和IT)類似的表達(dá)形式。實(shí)驗(yàn)結(jié)果表明,無監(jiān)督學(xué)習(xí)的最新進(jìn)展在很大程度上彌補(bǔ)了深度網(wǎng)絡(luò)與腹側(cè)視覺通路的生理可解釋差距。并且,發(fā)現(xiàn)最近的無監(jiān)督訓(xùn)練網(wǎng)絡(luò),例如SimCLR和其他對(duì)比學(xué)習(xí)網(wǎng)絡(luò),在腹側(cè)流中的預(yù)測(cè)精度等于或超過當(dāng)今最佳的有監(jiān)督模型。這些結(jié)果說明了可用無監(jiān)督學(xué)習(xí)來模擬大腦系統(tǒng),并為生物學(xué)上合理的神經(jīng)編碼網(wǎng)絡(luò)模型提供了強(qiáng)有力的候選者。Konkle和Alvarez(2021)也探索了能否用無監(jiān)督的方式獲得與腹側(cè)視覺通路類似的表達(dá)。他們的實(shí)驗(yàn)結(jié)果與Zhuang等人(2021)的發(fā)現(xiàn)類似,不同的是他們并不是對(duì)比單個(gè)神經(jīng)元的表達(dá),而是將模型應(yīng)用在人腦的功能性磁共振成像(functional magnetic resonance imaging, fMRI)數(shù)據(jù)上。他們發(fā)現(xiàn)模型對(duì)ImageNet 分類準(zhǔn)確度與 fMRI數(shù)據(jù)匹配度之間沒有太大的聯(lián)系。此外, Konkle和Alvarez(2021)還討論了大腦如何實(shí)現(xiàn)自我監(jiān)督的學(xué)習(xí)方式。他們認(rèn)為視網(wǎng)膜扭曲、眼跳、效應(yīng)復(fù)制以及基于海馬體的緩沖機(jī)制是自我監(jiān)督學(xué)習(xí)方式的實(shí)例化。

    圖14 以物體識(shí)別任務(wù)無監(jiān)督學(xué)習(xí)的HCNN編碼模型(Zhuang等,2021)

    除了將無監(jiān)督方式應(yīng)用在靈長(zhǎng)類動(dòng)物的腹側(cè)通路建模外,還有一些研究者將無監(jiān)督方式成功應(yīng)用在背側(cè)視覺通路、小鼠視覺皮層,及大腦海馬體中概念細(xì)胞的建模。例如, Mineault等人(2021)探索了編碼運(yùn)動(dòng)的神經(jīng)元特性。他們首先嘗試了一些有監(jiān)督3D卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)背側(cè)通路中不同區(qū)域的神經(jīng)元響應(yīng),但是發(fā)現(xiàn)這些網(wǎng)絡(luò)并不能用以解釋非人靈長(zhǎng)類的單個(gè)神經(jīng)元的響應(yīng)。然后作者建立了一個(gè)智能體,并加入先驗(yàn)——在世界上移動(dòng)的個(gè)體必須根據(jù)落在視網(wǎng)膜上的圖像模式來確定其自我運(yùn)動(dòng)的參數(shù)。由此先驗(yàn)限定的網(wǎng)絡(luò)訓(xùn)練之后的結(jié)果從定性和定量上看都很接近背側(cè)視覺通路。而Bakhtiari等人(2021)使用對(duì)比學(xué)習(xí)網(wǎng)絡(luò)CPC(Kharitonov等,2021)同時(shí)建模了小鼠的腹側(cè)通路和背側(cè)通路。Nayebi等人(2021)也探索了小鼠視覺皮層的神經(jīng)編碼過程。使用小鼠視覺皮層對(duì)靜態(tài)圖像刺激的數(shù)據(jù),并將其與不同結(jié)構(gòu)的監(jiān)督網(wǎng)絡(luò)和自我監(jiān)督網(wǎng)絡(luò)進(jìn)行比較。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)具有平行分支的淺層網(wǎng)絡(luò)更好地解釋了老鼠的數(shù)據(jù)。這也證實(shí)了Bakhtiari等人(2021)的發(fā)現(xiàn)。老鼠的視覺大腦是一種淺層的“通用”視覺機(jī)器,可較好地在各種任務(wù)之間切換。不像靈長(zhǎng)類大腦中的深度神經(jīng)網(wǎng)絡(luò)高度專一于子任務(wù)。這些觀點(diǎn)非常符合不同的大腦適應(yīng)不同的生態(tài)環(huán)境這一觀點(diǎn)。Conwell等人(2021)也將視覺轉(zhuǎn)換器(transformer)、多層感知器(multilayer perceptron,MLP)混合器、任務(wù)編碼器和自我監(jiān)督模型應(yīng)用在小鼠視覺皮層的數(shù)據(jù)中,實(shí)驗(yàn)結(jié)果與Bakhtiari等人(2021)和Nayebi等人(2021)類似。

    Geirhos等人(2021)發(fā)現(xiàn)在對(duì)圖像失真(旋轉(zhuǎn)、對(duì)比度變化等)的魯棒性方面,新型的自監(jiān)督和多模態(tài)模型現(xiàn)在已與人類不相上下,例如CLIP模型。Choksi等人(2021)還發(fā)現(xiàn)多模態(tài)學(xué)習(xí)模型可以學(xué)習(xí)出與大腦海馬體中概念細(xì)胞類似的表達(dá)——會(huì)對(duì)概念或圖像的文本表示做出反應(yīng)。Higgins等人(2020)發(fā)現(xiàn)無監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)可以解耦I(lǐng)T皮層中的數(shù)據(jù)表達(dá),例如,IT中的一個(gè)神經(jīng)元可能編碼了影響面孔外觀的多種因素(膚色、亮度和年齡等)。Storrs等人(2021)發(fā)現(xiàn)變分自編碼器可以學(xué)習(xí)出人類感知表面的潛在因素。變分自編碼器自然地解開了不同的因素,而且與人類的感知非常吻合。然而,他們發(fā)現(xiàn)監(jiān)督網(wǎng)絡(luò)在這項(xiàng)任務(wù)上的表現(xiàn)不是很理想。

    5 結(jié) 語

    生物視覺研究一直是計(jì)算機(jī)視覺算法設(shè)計(jì)的重要靈感來源。有許多計(jì)算機(jī)視覺算法與生物視覺研究具有不同程度的對(duì)應(yīng)關(guān)系,包括從純粹的功能啟發(fā)到利用主要用于解釋生物觀察的模型的方法。從視覺神經(jīng)科學(xué)向計(jì)算機(jī)視覺界傳達(dá)的生物視覺處理的經(jīng)典觀點(diǎn)是視覺皮層分層層次處理的結(jié)構(gòu)。

    隨著新的實(shí)驗(yàn)和分析技術(shù)的出現(xiàn),在克服學(xué)科交叉研究的技術(shù)障礙方面取得了重大進(jìn)展。腦科學(xué)中正在出現(xiàn)大量多尺度功能分析和連接組學(xué)信息。令人鼓舞的是,視覺系統(tǒng)的研究在這一快速發(fā)展中處于領(lǐng)先地位(None,2013)。例如,現(xiàn)在可以通過結(jié)合功能和結(jié)構(gòu)成像來識(shí)別選擇性神經(jīng)元群體并在突觸水平上剖析它們的電路。應(yīng)用此類技術(shù)的第一系列研究側(cè)重于了解視網(wǎng)膜(Helmstaedter等,2013)和皮質(zhì)(Bock等,2011)水平的視覺回路。在更廣泛的范圍內(nèi),對(duì)皮層區(qū)域之間連接模式的定量描述現(xiàn)在變得可用,并且視覺皮層網(wǎng)絡(luò)的研究再次具有開創(chuàng)性(Markov等,2013)。因此,現(xiàn)在可以使用詳細(xì)的大規(guī)模視覺網(wǎng)絡(luò)模型來研究多個(gè)時(shí)間和空間尺度上信息處理的神經(jīng)生物學(xué)基礎(chǔ)(Chaudhuri等,2015;Kim等,2014;Potjans和Diesmann,2014)。隨著國際研究計(jì)劃(例如 BRAIN 和 HBP(hurnan brain project) 項(xiàng)目、艾倫研究所)的出現(xiàn),我們無疑正處于腦科學(xué)重大變革的潮流中。與此同時(shí),計(jì)算機(jī)體系結(jié)構(gòu)的進(jìn)展也使得模擬大規(guī)模模型成為可能。例如,多核架構(gòu)的出現(xiàn)(Eichner等,2009)、集群上的并行計(jì)算(Plesser等,2007)、GPU 計(jì)算(Pinto和Cox,2012)和神經(jīng)形態(tài)硬件的可用性(Temam和Héliot,2011),促進(jìn)了真正仿生視覺系統(tǒng)的探索(Merolla等,2014)。然而,計(jì)算機(jī)和腦科學(xué)的這些技術(shù)進(jìn)步需要大力推動(dòng)理論研究。

    各個(gè)領(lǐng)域遇到的理論困難需要一種新的跨學(xué)科方法來理解如何處理、表示和使用視覺信息。例如,目前尚不清楚皮質(zhì)區(qū)域的密集網(wǎng)絡(luò)如何充分分析外部世界的結(jié)構(gòu),部分問題可能來自使用一系列關(guān)于中級(jí)和高級(jí)視覺的框架問題(Cox,2014;Gur,2015;Kubilius等,2014)。我們不能只過分關(guān)注于某項(xiàng)具體的任務(wù)(如人臉、物體識(shí)別等),而忽視了視覺系統(tǒng)對(duì)整個(gè)外部世界的認(rèn)知過程。協(xié)調(diào)生物視覺和計(jì)算機(jī)視覺是解決這些挑戰(zhàn)的關(guān)鍵。

    在技術(shù)和工程領(lǐng)域,主要目標(biāo)是創(chuàng)造能正確預(yù)測(cè)特定結(jié)果的產(chǎn)品,可解釋性通常排在第2位(Boon和Knuuttila,2009)。雖然有許多研究者認(rèn)為深度學(xué)習(xí)仍不具備解釋生理的價(jià)值,但是他們還是認(rèn)可其建模的準(zhǔn)確性。高預(yù)測(cè)準(zhǔn)確率對(duì)建模生物視覺系統(tǒng)也具有科學(xué)意義及應(yīng)用價(jià)值(Cichy和Kaiser,2019),例如:1)醫(yī)療應(yīng)用:利用DNN的預(yù)測(cè)能力制作神經(jīng)假體,替換患者受損的視覺皮層或視網(wǎng)膜,模仿視覺皮層的完整神經(jīng)動(dòng)力學(xué)和物體識(shí)別行為(Rajalingham等,2018;Hong等,2016;Yu等,2020);2)大腦的非侵入式實(shí)驗(yàn)控制(Yamins和Dicarlo,2016):通過使用深度網(wǎng)絡(luò)合成圖像,操縱視覺皮層V1(Walke等,2018)和V4(Bashivan等,2019)的神經(jīng)元達(dá)到預(yù)定的期望狀態(tài);3)神經(jīng)形態(tài)視覺芯片的研發(fā):通過模仿生物視覺系統(tǒng)加工處理信息的過程,以獲得與神經(jīng)元類似的脈沖響應(yīng),以啟發(fā)設(shè)計(jì)具備低時(shí)延、高動(dòng)態(tài)范圍的神經(jīng)形態(tài)視覺傳感器,例如事件相機(jī)(Steffen等,2019)與脈沖相機(jī)(Huang等,2022;Zheng等,2021b)。

    隨著學(xué)科交叉研究的不斷推進(jìn),現(xiàn)在已有許多神經(jīng)計(jì)算的研究者用各種深度學(xué)習(xí)的工具模擬大腦中各個(gè)腦區(qū),深度神經(jīng)網(wǎng)絡(luò)模型對(duì)生物視覺皮層的響應(yīng)/行為的預(yù)測(cè)能力可以幫助解釋生物視覺系統(tǒng)(Khaligh-Razavi和Kriegeskorte,2014;Yamins等,2014;Cichy等,2016;Schrimpf等,2020)。Schrimpf等人(2020)啟動(dòng)了一個(gè)名為BrainScore的開源項(xiàng)目,收集和提供了許多視覺皮層神經(jīng)元對(duì)各類視覺刺激的響應(yīng)。無論是神經(jīng)計(jì)算還是人工神經(jīng)網(wǎng)絡(luò)的研究者,都可以通過上傳模型與平臺(tái)中其他模型對(duì)比對(duì)神經(jīng)元的相似性。

    BrainScore提供了一個(gè)可量化對(duì)比基于神經(jīng)網(wǎng)絡(luò)的生物視覺系統(tǒng)編碼模型,通過這個(gè)排行榜,可以便于了解適用于不同視覺/行為任務(wù)的模型,從而找到最精確的模型來用于預(yù)測(cè)神經(jīng)元的響應(yīng),并應(yīng)用于醫(yī)學(xué)輔助、神經(jīng)假體的研制。除了這種實(shí)際的經(jīng)濟(jì)及工程效益外,模型排行榜的形成也有助于相關(guān)領(lǐng)域的研究者,通過對(duì)比各種可行的模型與自己提出的模型,揭示何種結(jié)構(gòu)或組件有助于成功預(yù)測(cè)/建模神經(jīng)元對(duì)視覺刺激的響應(yīng)。

    除了預(yù)測(cè)能力外,神經(jīng)網(wǎng)絡(luò)對(duì)認(rèn)知科學(xué)和生物視覺系統(tǒng)的建模同樣具備一定的可解釋性:1)模型可解釋的本質(zhì)是目的論的(Yamins等,2014;Marblestone等,2016):深度神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的表現(xiàn)是為了做出響應(yīng)后,可以履行它在啟用整個(gè)系統(tǒng)要完成的特定目標(biāo),例如,物體識(shí)別。2)網(wǎng)絡(luò)訓(xùn)練的設(shè)置是由先驗(yàn)決定的,且有具體意義的:雖然神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程是非透明的,但是其架構(gòu)和目標(biāo)函數(shù)都涉及具體任務(wù)/現(xiàn)象(Cichy等,2016;Kietzmann等,2018),與傳統(tǒng)的數(shù)學(xué)理論模型相同。3)精確的神經(jīng)網(wǎng)絡(luò)模型參數(shù)具有巨大的解釋潛力:通過可視化、文本描述或?qū)ふ掖韺?shí)例的方法(Samek等,2017;Zhou等,2015;van der Maaten和Hinton,2008;Mahendran和Vedaldi,2015;Yosinski等,2015;Simonyan等,2014;Mordvintsev等,2015;Zhou等,2019;Girshick等,2016;Xu等,2018),可以使得DNN模型變得透明且具有生理可解釋性(Scholte,2018)。

    自然科學(xué)的理想化觀點(diǎn)是,從理論中得出假設(shè)并在實(shí)驗(yàn)中檢驗(yàn)。但是,如果缺少成熟且令人信服的理論,就需要為新理論探索創(chuàng)造起點(diǎn)(Steinle,1997;Burian,1997)。這意味著模型從作為預(yù)測(cè)工具或類似于解釋理論的視角轉(zhuǎn)變?yōu)樘剿餍吕碚摰墓ぞ?Gelfert,2016)。

    觀察科學(xué)實(shí)驗(yàn)表明,探索是一種無所不在的策略。通過構(gòu)建和操作模型來學(xué)習(xí)模型,探索它們的行為方式并為觀察獲得新理論(Kisiel,1973)。神經(jīng)網(wǎng)絡(luò)可作為生物視覺系統(tǒng)的探索工具:1)原理驗(yàn)證演示,即通過創(chuàng)建解決問題/完成目標(biāo)的人工制品來展示特定方案的可行性。例如,第3節(jié)中在基于對(duì)象分類任務(wù)訓(xùn)練的前饋神經(jīng)網(wǎng)絡(luò),在特定對(duì)象識(shí)別任務(wù)上達(dá)到了與人類相似的性能水平,并且它們準(zhǔn)確地預(yù)測(cè)了與對(duì)象相關(guān)的大腦活動(dòng)(Khaligh-Razavi和Kriegeskorte,2014;Cichy等,2016;Yamins等,2014)。網(wǎng)絡(luò)模型的成功激發(fā)了進(jìn)一步的研究,探索純自下而上的方法是否可用于解釋生物視覺系統(tǒng)。2)在不完全成熟的理論中,實(shí)驗(yàn)和理論概念的發(fā)展是相互交織進(jìn)行的(Feest,2012)。理論概念可能根據(jù)實(shí)驗(yàn)結(jié)果進(jìn)行改進(jìn)和修改。建??梢跃哂信c實(shí)驗(yàn)相同的效果(Sterrett,2014;Waters,2007),它可能改變我們對(duì)生物視覺系統(tǒng)的傳統(tǒng)概念。Hong等人(2016)探索了受過對(duì)象分類訓(xùn)練的 DNN如何預(yù)測(cè)不同的對(duì)象屬性。正如預(yù)期的那樣,對(duì)象類別在 DNN 的處理層次結(jié)構(gòu)中得到了越來越好的預(yù)測(cè)。鑒于成功的對(duì)象識(shí)別需要容忍類別正交屬性(例如位置或大小)的變化,假設(shè)這種正交對(duì)象屬性的預(yù)測(cè)沿著處理層次遞減似乎是合理的。令人驚訝的是,作者發(fā)現(xiàn)了相反的結(jié)果:DNN 預(yù)測(cè)的類別正交對(duì)象屬性隨著網(wǎng)絡(luò)的處理層次越來越好。這導(dǎo)致了一個(gè)挑戰(zhàn)當(dāng)前物體視覺神經(jīng)理論的假設(shè):靈長(zhǎng)類動(dòng)物的下顳 (IT) 皮層(被認(rèn)為代表跨觀察條件的物體類別)也可能代表這種類別的正交屬性。模型探索和隨后的電生理數(shù)據(jù)分析證實(shí),研究導(dǎo)致了大腦視覺系統(tǒng)的經(jīng)典雙流假設(shè)的重要改進(jìn)(Hong等,2016)。

    雖然目前有關(guān)深度神經(jīng)網(wǎng)絡(luò)的理論知識(shí)還較為缺乏,但是不可否認(rèn),人工神經(jīng)網(wǎng)絡(luò)近年來的發(fā)展提高了對(duì)生物神經(jīng)元響應(yīng)的預(yù)測(cè)能力,并且探索、設(shè)計(jì)工作方式相仿的人工神經(jīng)網(wǎng)絡(luò)可以幫助解釋生物視覺系統(tǒng)中結(jié)構(gòu)/組件的工作原理,甚至探索新的生物視覺理論。另一方面,通過結(jié)合生物視覺系統(tǒng)的知識(shí),可以幫助了解深度網(wǎng)絡(luò)的可解釋性與意義,幫助促進(jìn)網(wǎng)絡(luò)模型的設(shè)計(jì)。人工神經(jīng)網(wǎng)絡(luò)的研發(fā)與對(duì)大腦功能及結(jié)構(gòu)的探索之間可以相輔相成,為實(shí)現(xiàn)新一代的通用人工智能帶來更多的啟發(fā)。

    致 謝本綜述的論文整理得到了北京大學(xué)視頻與視覺技術(shù)國家工程研究中心多位成員的幫助,在此表示衷心感謝。

    猜你喜歡
    皮層視網(wǎng)膜神經(jīng)元
    深度學(xué)習(xí)在糖尿病視網(wǎng)膜病變?cè)\療中的應(yīng)用
    《從光子到神經(jīng)元》書評(píng)
    自然雜志(2021年6期)2021-12-23 08:24:46
    家族性滲出性玻璃體視網(wǎng)膜病變合并孔源性視網(wǎng)膜脫離1例
    高度近視視網(wǎng)膜微循環(huán)改變研究進(jìn)展
    急性皮層腦梗死的MRI表現(xiàn)及其對(duì)川芎嗪注射液用藥指征的指導(dǎo)作用研究
    基于復(fù)雜網(wǎng)絡(luò)的磁刺激內(nèi)關(guān)穴腦皮層功能連接分析
    躍動(dòng)的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
    基底節(jié)腦梗死和皮層腦梗死血管性認(rèn)知功能的對(duì)比
    復(fù)明片治療糖尿病視網(wǎng)膜病變視網(wǎng)膜光凝術(shù)后臨床觀察
    基于二次型單神經(jīng)元PID的MPPT控制
    长阳| 东至县| 灯塔市| 东阿县| 杭锦旗| 东平县| 灯塔市| 蛟河市| 扶余县| 湖口县| 久治县| 盐城市| 武宣县| 图片| 隆尧县| 大庆市| 舟山市| 漯河市| 斗六市| 太原市| 阿拉善左旗| 宜黄县| 枞阳县| 金寨县| 淮南市| 法库县| 清苑县| 迁西县| 堆龙德庆县| 平和县| 朔州市| 城市| 屏南县| 和平县| 英德市| 天镇县| 胶南市| 寻乌县| 银川市| 吉水县| 江山市|