李夢(mèng)琪 陳志敏 鄭元杰 任衍具
場景主旨加工及其機(jī)制*
李夢(mèng)琪1陳志敏1鄭元杰2任衍具1
(1山東師范大學(xué)心理學(xué)院;2山東師范大學(xué)信息科學(xué)與工程學(xué)院, 濟(jì)南 250358)
場景主旨是指觀察者在一次注視場景的過程中所獲得知覺和語義信息。近年來, 場景主旨加工研究已經(jīng)成為視知覺領(lǐng)域的重要內(nèi)容, 對(duì)該問題的研究將有助于揭示視覺信息加工的機(jī)制, 對(duì)智能機(jī)器視覺的研制也有一定的借鑒意義。對(duì)場景主旨加工的影響因素、爭議性的問題以及場景主旨的神經(jīng)基礎(chǔ)進(jìn)行評(píng)論; 未來可以在場景主旨加工的基本單元、相關(guān)的理論解釋、層級(jí)加工的調(diào)節(jié)因素、注意的調(diào)節(jié)作用、時(shí)間動(dòng)力特性和腦功能網(wǎng)絡(luò)的構(gòu)建等方面做進(jìn)一步的探討。
場景主旨; 層級(jí)加工; 注意
人類的生存離不開對(duì)周圍環(huán)境的感知與判斷, 因此人類的視覺系統(tǒng)進(jìn)化出了可以在極短的時(shí)間內(nèi)獲取場景中的必要信息, 并進(jìn)一步對(duì)其做出類別判斷的能力(例如:這是一幅街道的景象)。場景主旨(scene gist, 也稱scene schema)被界定為觀察者在單次注視(數(shù)百毫秒)場景的過程中所獲得的知覺和語義表征(Fei-Fei, Iyer, Koch, & Perona, 2007; Friedman, 1979; 程昊, 2010; 見綜述Oliva, 2005; Oliva & Torralba, 2006)。例如, 我們可以將一幅場景描述為“海灘”、“臥室”或者“街道”。本文中涉及的場景主旨加工研究主要指觀察者在較短時(shí)間內(nèi)對(duì)場景刺激進(jìn)行檢測、再認(rèn)或分類的研究。
場景主旨加工研究可以追溯到上個(gè)世紀(jì)六七十年代。Potter和Biederman這兩位心理學(xué)家及同事進(jìn)行了開創(chuàng)性的工作, 他們發(fā)現(xiàn)人類視覺系統(tǒng)能夠迅速提取場景的主旨信息并用于后續(xù)的類別判斷(Potter, 1975; Potter & Levy, 1969)、目標(biāo)搜索和記憶等(Biederman, 1972; 也見Torralba, Oliva, Castelhano, & Henderson, 2006)。迄今為止, 盡管已有大量研究證實(shí)了人類視覺系統(tǒng)具有加工場景主旨的超凡能力, 但關(guān)于這種加工能力的認(rèn)知與神經(jīng)機(jī)制仍處于探索之中。已有關(guān)于場景主旨加工的研究主要涉及以下五個(gè)方面的內(nèi)容: (1)場景主旨加工的影響因素有哪些?(2)場景主旨的層級(jí)加工優(yōu)先性問題, 即在場景主旨加工過程中, 是上級(jí)水平(“自然場景”和“人工場景”、“室內(nèi)”和“室外”)場景主旨, 還是基本水平(“森林”、“山川”、“街道”和“建筑”等)場景主旨優(yōu)先得到加工?(3)場景主旨加工的過程是否需要注意資源的參與?(4)場景主旨加工有哪些重要的理論觀點(diǎn)?(5)場景主旨加工的神經(jīng)生理基礎(chǔ), 即有哪些腦區(qū)參與了場景主旨的加工, 它們是如何協(xié)同作用完成場景主旨的加工?
場景主旨加工是場景知覺研究的重要內(nèi)容, 有其重要的理論意義和應(yīng)用價(jià)值。一方面有助于增進(jìn)我們對(duì)視覺系統(tǒng)加工機(jī)制的理解(如, Malcolm, Groen, & Baker, 2016); 另一方面相關(guān)研究成果在機(jī)器視覺(如, Wei, Phung, & Bouzerdoum, 2016)、廣告設(shè)計(jì)(如, Wedel & Pieters, 2015)、安全檢查(如, Biggs & Mitroff, 2015)和醫(yī)學(xué)影像診斷(如, Evans, Haygood, Cooper, Culpan, & Wolfe, 2016)等方面均得到了廣泛的應(yīng)用。
場景中的哪些特征會(huì)影響場景主旨的加工呢?前人對(duì)該問題進(jìn)行了大量的研究, 下面將重點(diǎn)介紹顏色、空間頻率、視野區(qū)域等因素在場景主旨加工中的作用。
Gegenfurtner和Rieger (2000)采用快速呈現(xiàn)?掩蔽?再認(rèn)范式, 操縱場景圖片呈現(xiàn)與再認(rèn)時(shí)的顏色信息, 探討顏色在場景編碼和提取加工中的作用, 結(jié)果發(fā)現(xiàn), 顏色信息既能夠?yàn)樵缙诟杏X加工的編碼提供線索, 也有助于鞏固場景圖片的記憶表征(但見Yao & Einh?user, 2008)。Goffaux等人(2005)選用4類將顏色作為診斷性特征的場景(沙漠、森林、峽谷、海岸), 經(jīng)過處理獲得3種顏色類型的場景:正常顏色場景、灰色場景和異常顏色場景(將原場景中的顏色進(jìn)行紅綠置換和藍(lán)黃置換); 要求被試完成快速場景分類的go/no-go任務(wù), 結(jié)果發(fā)現(xiàn)視覺系統(tǒng)對(duì)正常顏色場景的分類最快最準(zhǔn)確, 其次是對(duì)灰色場景的分類成績, 而對(duì)異常顏色場景的分類成績最差。Castelhano和Henderson (2008)采用情境偏向范式(contextual bias paradigm)探討顏色在場景主旨加工中的作用,先向被試呈現(xiàn)場景圖片, 接著呈現(xiàn)掩蔽圖片, 掩蔽圖片過后呈現(xiàn)物體標(biāo)簽(單詞), 要求被試判斷該標(biāo)簽所對(duì)應(yīng)的物體與場景情境是否一致。其實(shí)驗(yàn)邏輯是: 當(dāng)場景圖片的呈現(xiàn)時(shí)間足夠長時(shí), 視覺系統(tǒng)能夠較為充分地提取場景的主旨信息, 被試對(duì)物體與場景情境是否一致的判斷會(huì)更準(zhǔn)確, 在二者一致的情況下, 就會(huì)出現(xiàn)“Yes”比“No”多的反應(yīng)偏向效應(yīng), 因此一旦產(chǎn)生了此類反應(yīng)偏向效應(yīng), 則意味著場景主旨在呈現(xiàn)的時(shí)間內(nèi)得到了較為充分的激活。結(jié)果發(fā)現(xiàn), 相同反應(yīng)偏向情況下, 正常顏色場景所需要的呈現(xiàn)時(shí)間明顯短于黑白場景所需要的呈現(xiàn)時(shí)間。由此可見, 正常顏色場景的主旨較黑白場景的主旨激活需要的時(shí)間更少, 即正常顏色信息對(duì)場景主旨的加工具有顯著的促進(jìn)作用。
然而, 也有研究者認(rèn)為顏色信息并不是場景主旨加工中的關(guān)鍵因素, 它所產(chǎn)生的影響會(huì)受到其他因素的調(diào)節(jié)(如, Marx, Hansen-Goos, Thrun, & Einh?user, 2014; Otsuka & Kawaguchi, 2009)。首先, 顏色信息的診斷性會(huì)影響其在場景主旨加工中的作用。例如, 在“森林”場景中, 綠色具有較高的診斷性, 因此綠色對(duì)場景“森林”的主旨加工具有促進(jìn)作用; 而在”城市”場景中, 不存在一種固定的、具有診斷性的顏色信息, 那么顏色信息對(duì) “城市”場景的主旨加工則沒有明顯的影響(Oliva & Schyns, 2000; Rousselet, Joubert, & Fabre- Thorpe, 2005)。其次, 場景圖像本身是否清晰也會(huì)影響場景早期階段加工對(duì)顏色信息的利用程度。有研究發(fā)現(xiàn), 顏色信息有利于模糊廣告的內(nèi)容識(shí)別, 但當(dāng)廣告圖片變得清晰時(shí), 彩色廣告的優(yōu)勢(shì)就不復(fù)存在了(Wedel & Pieters, 2015)。雖然目前顏色信息在場景主旨中作用存在靈活性的觀點(diǎn)是肯定的, 但其他因素所產(chǎn)生的調(diào)節(jié)作用的機(jī)制還需要進(jìn)一步的研究。
人類的視覺系統(tǒng)包含多個(gè)對(duì)不同空間頻率信息敏感的通道, 不同空間頻率信息在面孔、物體和場景分類中有著不同的作用(Morrison & Schyns, 2001)。Schyns和Oliva (1994)為了探討視覺系統(tǒng)在分類場景圖片時(shí)對(duì)不同空間頻率信息的選擇偏向, 要求被試完成對(duì)疊加圖片 (hybrid image, 將某一場景圖片的低頻成分與另一場景圖片的高頻成分疊加成一個(gè)新的圖片)的分類任務(wù), 結(jié)果發(fā)現(xiàn)當(dāng)疊加圖片的呈現(xiàn)時(shí)間較短(30 ms)時(shí), 被試更偏向于使用其低頻信息進(jìn)行分類, 而當(dāng)呈現(xiàn)時(shí)間較長時(shí)(150 ms)時(shí), 被試更偏向于使用其高頻信息來分類; 他們由此提出場景主旨的早期加工采用的是 “由粗糙到精細(xì)(coarse to fine, CtF)” 的加工模式。近期的發(fā)展性研究表明7~8個(gè)月的嬰兒(Otsuka, Ichikawa, Kanazawa, Yamaguchi, & Spehar, 2014)和18~22歲的年輕人(Musel, Chauvin, Guyader, Chokron, & Peyrin, 2012)均存在這種加工模式, 而且這種加工也存在于場景選擇性加工的大腦區(qū)域中(Awasthi, Sowman, Friedman, & Williams, 2013; Musel et al., 2014)。
需要注意的是, 場景主旨的CtF加工模式并不是固定的, 會(huì)受到其他因素的調(diào)節(jié)。首先, 任務(wù)與場景材料也能影響視覺系統(tǒng)對(duì)空間頻率信息加工的偏向性(Oliva & Schyns, 1997)。例如, 當(dāng)使用不同帶寬的情境信息來引導(dǎo)被試進(jìn)行場景中的物體進(jìn)行快速檢測時(shí), 物體的細(xì)節(jié)信息能夠促使視覺系統(tǒng)利用高頻情境信息來完成任務(wù)(Patai, Buckley, & Nobre, 2013); 疊加圖片中與任務(wù)無關(guān)的信息會(huì)影響視覺系統(tǒng)對(duì)任務(wù)相關(guān)場景信息空間頻率的反應(yīng)偏向性(Rotshtein, Schofield, Funes, & Humphreys, 2010)。其次, 場景分類過程中視覺系統(tǒng)對(duì)空間頻率信息的早期加工會(huì)受到注意模式的影響(如, Vanmarcke & Wagemans, 2016)。近期, Brand和Johnson (2014)采用Navon任務(wù)操縱被試的注意模式(注意整體/注意局部), 并結(jié)合場景分類任務(wù)探討視覺系統(tǒng)對(duì)空間頻率信息加工的偏向性是否會(huì)受到注意模式的調(diào)節(jié), 結(jié)果發(fā)現(xiàn)整體性Navon任務(wù)的啟動(dòng)能更快將疊加場景歸類為其低頻信息所屬的類別, 當(dāng)?shù)皖l信息受到抑制時(shí), 分類速度有所減緩。總而言之, 空間頻率對(duì)場景主旨加工的影響具有一定的靈活性, 但這種靈活性僅表現(xiàn)為對(duì)粗糙到精細(xì)加工過程的促進(jìn)或干擾, 但還不足以打破這種模式的時(shí)間發(fā)展順序。
盡管視覺系統(tǒng)對(duì)真實(shí)場景中不同空間頻率信息的加工有其相對(duì)固定的選擇偏向, 但大腦對(duì)不同空間頻率信息的整合是非常迅速(在100 ms之內(nèi)即可完成), 且整合過程幾乎不需要注意的參與(Kihara & Takeda, 2010, 2012)。神經(jīng)科學(xué)的研究提出了快速“M”假設(shè), 該假設(shè)認(rèn)為, 大腦皮層中通過大細(xì)胞通道傳輸信息較小細(xì)胞通道更快速, 在場景主旨加工過程中, 低頻信息通過大細(xì)胞通道首先被相關(guān)腦區(qū)獲取并形成初級(jí)表征(Hagmann & Potter, 2016), 為隨后小細(xì)胞通道獲得其他細(xì)節(jié)信息提供反饋和背景框架, 啟動(dòng)自上而下的促進(jìn)作用(Kveraga, Boshyan, & Bar, 2007; Maguire & Howe, 2016; Mu & Li, 2013; 也見Malcolm, Nuthmann, & Schyns, 2014; 但見Potter, Wyble, Hagmann, & McCourt, 2014), 也可用于后期高頻信息的加工(Kauffmann, Chauvin, Pichat, & Peyrin, 2015; Kauffmann, Ramano?l, & Peyrin, 2014)。快速”M”假設(shè)為CtF的觀點(diǎn)提供了神經(jīng)基礎(chǔ), 但目前仍缺少有力證據(jù)為相關(guān)腦區(qū)的協(xié)作運(yùn)行方式做出解釋, 后續(xù)還需進(jìn)一步的實(shí)驗(yàn)驗(yàn)證。
人眼視野根據(jù)投影從中心到邊緣可以分為中央凹區(qū), 副中央凹區(qū), 外周區(qū)域, 三個(gè)區(qū)域?qū)ν獠啃畔⒌姆直媪Σ煌? 中央凹區(qū)域的分辨力最高, 其次是副中央凹區(qū)域, 外周區(qū)域的分辨力最低。這種差異導(dǎo)致了不同視野區(qū)域在場景主旨識(shí)別上的作用也不盡相同(見評(píng)論Loschky, Nuthmann, Fortenbaugh, & Levi, 2017)。值得一提的是知名的視覺研究期刊Journal of Vision在2016年第2期專輯論述不同視野區(qū)域在場景知覺中的作用(http://jov.arvojournals.org/issues.aspx#issueid=934904)。由此可見, 視野區(qū)域是近年來研究者所關(guān)注的一個(gè)重要影響因素。
最初的研究發(fā)現(xiàn)視覺系統(tǒng)僅通過外周視野所獲取的低分辨率信息即可完成對(duì)場景主旨的判斷。如, Larson和Loschky (2009)采用”窗口(window, 只保留場景的中央視野信息)”和”盲點(diǎn)(scotoma, 只保留場景的邊緣視野信息)”范式, 要求被試完成場景?單詞匹配任務(wù), 結(jié)果發(fā)現(xiàn)利用邊緣視野比中心視野完成匹配任務(wù)的正確率更高, 且僅利用邊緣視野與利用完整視野的正確率無顯著差異。Boucart, Moroni, Thibaut, Szaffarczyk和Greene (2013)發(fā)現(xiàn)觀察者在場景與視野中央離心率70°的情況下對(duì)場景主旨進(jìn)行分類時(shí), 可以達(dá)到70%左右的正確率。上述結(jié)論在Wang和Cottrell (2016)的建模研究中也得到了證實(shí)。這些證據(jù)均表明外周視野利用低分辨率信息能夠完成場景分類任務(wù)。
Larson和Loschky (2009)認(rèn)為這可能是由于外周視野較中心視野的面積更大, 二者在同一時(shí)間內(nèi)獲取的信息量不同所致。當(dāng)控制二者的面積相同時(shí), 表現(xiàn)出中央視野的加工優(yōu)勢(shì)。利用老年黃斑病變(neovascular age related macular degeneration, AMD)的病人進(jìn)行的研究也得到了類似的結(jié)果, 該病癥會(huì)引起中央視野的缺失, 結(jié)果發(fā)現(xiàn)無論場景呈現(xiàn)在視野中心還是外周, AMD病人較正常人對(duì)主旨分類的靈敏度和反應(yīng)時(shí)均降低, 且這種降低在場景刺激出現(xiàn)在視野中央時(shí)更嚴(yán)重(Thibaut, Tran, Szaffarczyk, & Boucart, 2014)。這表明中央視野在場景主旨加工中扮演更為重要的作用。
近期, Larson, Freeman, Ringer和Loschky (2014)采用類似的窗口和盲點(diǎn)范式, 對(duì)場景主旨早期加工中不同視野區(qū)域作用的時(shí)空動(dòng)態(tài)進(jìn)程做了探究, 通過控制目標(biāo)場景后掩蔽出現(xiàn)的時(shí)間長度來操縱場景的加工時(shí)間。結(jié)果發(fā)現(xiàn)在當(dāng)場景的加工時(shí)間為24 ms時(shí), 中央視野的信息對(duì)基本水平場景分類任務(wù)正確率更高; 而增加到70 ms時(shí), 中央視野與外周視野對(duì)基本水平場景分類任務(wù)的正確率沒有顯著差異。表明在早期場景主旨加工的時(shí)間進(jìn)程中, 注意首先獲取中央視野的場景信息, 隨后注意從中心視野擴(kuò)展至邊緣視野以提取更多的信息。
上述的研究結(jié)果證實(shí), 雖然視覺系統(tǒng)僅僅依據(jù)外周視野的信息即可進(jìn)行場景分類, 但中心視野在場景主旨的加工中仍具有比外周視野更高的效率。有意思的是, 只需外周視野足以完成場景主旨分類任務(wù)的觀點(diǎn), 也暗示了場景主旨分類不需要集中的注意資源即可完成, 這與注意在場景主旨加工中的作用的部分觀點(diǎn)(見本文第三部分的相關(guān)內(nèi)容)相符。
除顏色信息、空間頻率和視野區(qū)域外, 場景主旨加工還會(huì)受到場景本身的邊界(edge-based) (如, Fu et al., 2016; Walther & Shen, 2014)、振幅譜(amplitude spectra) (如, Hansen & Loschky, 2013; Joubert, Rousselet, Fabre-Thorpe, & Fize, 2009)、后向掩蔽(backward mask)的類型(Freeman, Loschky, & Hansen, 2015; Loschky, Hansen, Sethi, & Pydimarri, 2010)、情緒信息(Subramanian, Shankar, Sebe, & Melcher, 2014; 李畢琴, 郭畢鵬, 胡竹菁, 羅躍嘉, 2015)、觀察者的觀察視角(viewpoint) (Loschky, Ringer, Ellis, & Hansen, 2015)、工作記憶負(fù)載(孫琪, 任衍具, 傅根躍, 2015)、個(gè)體差異(Vanmarcke & Wagemans, 2015; Vanmarcke et al., 2016)和先前經(jīng)驗(yàn)/期望(Duh & Wang, 2014; Greene, Botros, Beck, & Fei-Fei, 2015; 孫雨生, 張智君, 吳彬星, 2017)等因素的影響?,F(xiàn)實(shí)場景中包含的信息錯(cuò)綜復(fù)雜, 任何條件的改變都有可能影響人眼對(duì)當(dāng)前場景的感知。視覺系統(tǒng)無法在一瞥的時(shí)間內(nèi)讀入所有信息, 但大腦能夠靈活地運(yùn)用自身的有限資源來獲取最有診斷性并易于提取的信息, 對(duì)場景主旨做出識(shí)別。
近年來, 場景主旨加工的層級(jí)加工優(yōu)先性成為場景知覺研究領(lǐng)域的熱點(diǎn)問題。對(duì)該問題的研究源于早期認(rèn)知心理學(xué)關(guān)于概念表征通達(dá)的問題, 存在兩種截然相反的觀點(diǎn):基本水平加工優(yōu)先(basic level superority)和上級(jí)水平加工優(yōu)先(superordinate level superority)的觀點(diǎn)。對(duì)同一幅場景圖片, 我們能夠使用不同層級(jí)的概念來對(duì)其進(jìn)行命名。例如, 一幅森林的場景圖片可以被命名為“森林”、“戶外”或者“自然”, 這幾個(gè)概念雖然都能夠在一定程度上反映森林的意義, 卻具有不同的內(nèi)涵和外延?;舅礁拍钤徽J(rèn)為是優(yōu)先獲取的場景主旨概念, 如“森林”、“湖泊”、“臥室”、“廚房”等屬于基本水平概念。而上級(jí)水平概念較基本水平概念有更大的外延, 常用于該問題研究的上級(jí)水平場景概念是“自然”與“人工”或者“室內(nèi)”與“室外”等。那么在場景主旨加工過程中, 視覺系統(tǒng)會(huì)優(yōu)先加工哪個(gè)層級(jí)的視覺信息呢?
物體加工的研究發(fā)現(xiàn), 人類對(duì)表征物體的基本水平概念的通達(dá)先于對(duì)上級(jí)水平概念的通達(dá)(如, Rosch, Mervis, Gray, Johnson, & Boyes-Braem, 1976; 但見Mack & Palmeri, 2015; Wu, Crouzet, Thorpe, & Fabre-Thorpe, 2015)。后來這一觀點(diǎn)被引申到場景主旨加工的問題上。Tversky和Hemenway(1983)最先對(duì)場景主旨的層級(jí)加工進(jìn)行研究, 結(jié)果發(fā)現(xiàn)被試偏向于使用具有基本概念屬性的詞語來對(duì)場景進(jìn)行描述, 并由此認(rèn)為場景主旨的基本水平得到優(yōu)先加工。
然而, 近年來研究者指出列屬性的方式來檢驗(yàn)層級(jí)加工優(yōu)先性會(huì)受到屬性詞詞頻的影響, 而基本水平屬性詞的詞頻更高, 這可能會(huì)抵消原有的上級(jí)水平優(yōu)勢(shì)(見綜述, Fabre-Thorpe, 2011)。該觀點(diǎn)也得到了相關(guān)研究的支持: 首先, 視覺系統(tǒng)對(duì)上級(jí)水平信息的獲取用時(shí)更短。例如, Fabre- Thorpe領(lǐng)導(dǎo)的研究小組采用go/no-go范式要求被試盡可能快地對(duì)場景進(jìn)行上級(jí)水平(“自然場景”或“人工場景”)或基本水平(“海洋”、“山脈”、“城市”、“街道”等)的分類判斷, 結(jié)果發(fā)現(xiàn)上級(jí)水平判斷任務(wù)的耗時(shí)(380~390 ms)顯著小于基本水平(400~460 ms) (如, Joubert, Rousselet, Fize, & Fabre-Thorpe, 2007; Macé, Joubert, Nespoulous, & Fabre-Thorpe, 2009)。Greene和Oliva (2009a, 2009b)采用心理物理學(xué)方法將場景分類任務(wù)的正確率達(dá)到75%時(shí)所需要的場景刺激呈現(xiàn)時(shí)間定義為完成該分類任務(wù)所需要的最小時(shí)間閾限, 將被試完成基本水平和上級(jí)水平分類任務(wù)的最小時(shí)間閾限相比較, 發(fā)現(xiàn)上級(jí)水平閾限顯著小于基本水平。其次, 視覺系統(tǒng)對(duì)上級(jí)水平的信息獲取更敏感。Loschky和Larson (2010)采用迫選任務(wù), 在目標(biāo)場景后呈現(xiàn)掩蔽圖片和提示詞, 要求被試對(duì)場景圖片和提示詞做類別匹配判斷, 結(jié)果發(fā)現(xiàn)在目標(biāo)場景的呈現(xiàn)時(shí)間小于72 ms的情況下被試對(duì)上級(jí)水平概念的敏感度更高。近期Sun, Ren, Zheng, Sun和Zheng (2016)采用雙任務(wù)范式結(jié)合工作記憶任務(wù)和場景主旨類別辨別任務(wù), 探討場景主旨加工的層級(jí)性, 結(jié)果發(fā)現(xiàn)了上級(jí)水平的加工優(yōu)勢(shì), 且在場景主旨類別辨別過程中, 先利用的是場景中的空間信息, 而后利用場景中的客體信息。這些研究均支持了上級(jí)水平的概念相較于基本水平能夠更快被獲取的觀點(diǎn)。
然而, 常用來作為場景主旨研究的不同上級(jí)水平概念(室內(nèi)?室外與人工?自然)之間的本質(zhì)也并不相同。Kadar和Ben-Shahar (2012)將場景類別擴(kuò)大到15種, 以考察上級(jí)水平分類優(yōu)勢(shì)是否具有普遍性, 結(jié)果發(fā)現(xiàn)在類別判斷任務(wù)中, 場景主旨加工首先進(jìn)行的是自然性/非自然性的判斷, 隨后才會(huì)進(jìn)行室內(nèi)/室外或是基本水平類別判斷。除此之外, 室內(nèi)與室外場景還具有相似的光譜特性, 這與自然和人工概念光譜特性的區(qū)別不同(Oliva & Torralba, 2001), 且采用go/no-go范式獲得的自然/人工概念的上級(jí)水平優(yōu)勢(shì)在室內(nèi)/室外類別中消失不見了(Banno & Saiki, 2015)。因此, 在考慮場景主旨層級(jí)加工優(yōu)先性問題的過程中, 對(duì)不同上級(jí)水平概念的區(qū)別也是有必要的。
針對(duì)這兩種相互矛盾的觀點(diǎn), 目前的研究更偏向于認(rèn)為場景主旨的研究具有上級(jí)水平加工優(yōu)勢(shì), 但這種優(yōu)勢(shì)效應(yīng)并不穩(wěn)定。首先, 場景的類間/類內(nèi)關(guān)系會(huì)對(duì)場景主旨分類任務(wù)產(chǎn)生影響。Greene和Fei-Fei (2014)采用stroop范式之變式對(duì)視覺分類的自動(dòng)性進(jìn)行研究, 結(jié)果發(fā)現(xiàn)基本水平的分類是自動(dòng)的, 而上級(jí)水平的分類不是, 支持基本水平優(yōu)先加工的觀點(diǎn)。其次, 基本水平類別的相似性程度(例如, 街道和市中心的相似性大于高速公路和市中心的相似性)能夠調(diào)節(jié)場景主旨加工的上級(jí)水平優(yōu)勢(shì), 甚至使結(jié)果反轉(zhuǎn)而產(chǎn)生基本水平優(yōu)勢(shì)(Banno & Saiki, 2015)。近期的計(jì)算模型研究暗示, 場景主旨層級(jí)加工的優(yōu)先順序與刺激的相似性有關(guān)(Serre, 2016; Sofer, Crouzet, & Serre, 2015)。由此可見, 場景主旨的上級(jí)水平加工優(yōu)勢(shì)可能受個(gè)體詞匯結(jié)構(gòu)、上級(jí)水平概念種類、任務(wù)中的干擾項(xiàng)和不同類別間相似性等因素的影響, 但對(duì)于這種不穩(wěn)定性產(chǎn)生的原因仍不清楚, 有待進(jìn)一步的研究。
與層級(jí)加工密切相關(guān)的另一個(gè)問題就是場景主旨加工對(duì)注意資源的需求。早期的研究發(fā)現(xiàn)場景主旨加工是一項(xiàng)非常高效的認(rèn)知活動(dòng), 可以在極短的時(shí)間內(nèi)完成; 那么場景主旨加工是否需要注意資源的參與吸引了諸多研究者的興趣。前人對(duì)此問題的回答正在經(jīng)歷一個(gè)富有爭議的過程。部分研究者認(rèn)為場景主旨的加工不需要注意資源的參與, 是一個(gè)自動(dòng)化的過程(如, Li, VanRullen, Koch, & Perona, 2002); 另一些研究者認(rèn)為場景主旨的提取需要注意參與, 注意資源的不足會(huì)導(dǎo)致場景主旨加工績效的下降(如, Cohen, Alvarez, & Nakayama, 2011)。目前對(duì)該問題的研究多采用雙任務(wù)范式, 即要求被試在同一時(shí)間內(nèi)完成兩種任務(wù), 中心任務(wù)需要注意的參與, 考察被試集中注意來完成中心任務(wù)是否對(duì)場景主旨的分類或識(shí)別成績產(chǎn)生影響, 若不產(chǎn)生影響, 則說明兩者在注意資源的使用上不存在相互干擾, 即場景主旨的加工不需要注意的參與。
一些研究者采用字母辨別任務(wù)(Li et al., 2002; Poncet, Reddy, & Fabre-Thorpe, 2012)、元音字母有無判斷任務(wù)(Walker, Stafford, & Davis, 2008)作為中心任務(wù)時(shí)發(fā)現(xiàn), 視覺系統(tǒng)對(duì)自然場景進(jìn)行識(shí)別和分類能力沒有受到損害, 這意味著場景主旨加工不需要注意資源的參與。有研究者采用負(fù)啟動(dòng)范式獲得了類似的發(fā)現(xiàn)(Otsuka & Kawaguchi, 2007)。還有研究者發(fā)現(xiàn), 人類視覺系統(tǒng)可以在無意識(shí)的條件下習(xí)得場景類別規(guī)則的統(tǒng)計(jì)信息(Brady & Oliva, 2008)。然而, Cohen等人(2011)對(duì)上述的研究設(shè)計(jì)提出了質(zhì)疑, 認(rèn)為可能是場景主旨加工需要的注意資源相對(duì)較少, 而雙任務(wù)范式中用來占用注意資源的無關(guān)任務(wù)難度較小, 因此單/雙任務(wù)對(duì)場景分類任務(wù)的成績幾乎不產(chǎn)生影響。他們采用多物體追蹤任務(wù)(multiple object task, MOT)作為分散注意的中心任務(wù), 該任務(wù)的特點(diǎn)是需要連續(xù)不間斷的持續(xù)注意才能完成。結(jié)果發(fā)現(xiàn)場景主旨任務(wù)成績顯著下降, 意味著場景主旨的加工需要注意資源的參與。Mack和Clarke (2012)在外周采用十字架水平?豎直長短判斷任務(wù), 而中心呈現(xiàn)一張場景或馬賽克掩蔽圖片, 實(shí)驗(yàn)中僅僅要求被試完成十字架長短判斷任務(wù), 結(jié)果發(fā)現(xiàn), 那些在任務(wù)結(jié)束后報(bào)告注意到場景圖片的被試, 在十字架長短判斷任務(wù)上的成績顯著低于那些沒有注意到其他刺激的被試。結(jié)果表明對(duì)場景刺激的無意識(shí)注意會(huì)降低其他耗費(fèi)注意資源任務(wù)的成績(也見Clarke & Mack, 2014)。這些結(jié)果均支持場景主旨提取需要注意參與的觀點(diǎn)。
除此之外, Greene和Fei-Fei (2014)年采用stroop范式之變式, 在場景圖片中央嵌入與場景主旨類別一致或不一致的單詞, 并要求被試迅速對(duì)單詞進(jìn)行識(shí)別, 結(jié)果發(fā)現(xiàn)當(dāng)背景場景與目標(biāo)單詞意義一致時(shí), 對(duì)單詞的識(shí)別需要時(shí)間更短, 說明場景與單詞的語義一致性對(duì)單詞的識(shí)別產(chǎn)生了促進(jìn)作用。該結(jié)果表明背景場景在沒有任務(wù)要求的情況下得到自動(dòng)化加工, 暗示這種自動(dòng)化并未占用注意資源。對(duì)此, Gronau和Izoutcheev (2017)發(fā)現(xiàn)當(dāng)場景主旨識(shí)別作為無關(guān)任務(wù)(處于邊緣視野)時(shí), 視覺系統(tǒng)在完成相關(guān)任務(wù)(處于中心視野)的同時(shí), 不能夠自動(dòng)地對(duì)場景主旨進(jìn)行識(shí)別。根據(jù)Gronau和Izoutcheev (2017)的結(jié)論可以認(rèn)為Greene和Fei-Fei (2014)研究結(jié)果產(chǎn)生的原因可能是視覺系統(tǒng)在完成中心任務(wù)的同時(shí)會(huì)對(duì)呈現(xiàn)在注意中心的背景進(jìn)行自動(dòng)化加工, 這種加工建立在中心任務(wù)與無關(guān)背景重疊的空間關(guān)系之上, 當(dāng)兩者分離且場景刺激與任務(wù)無關(guān)時(shí), 這種自動(dòng)化加工就不復(fù)存在了。這一猜測還有待進(jìn)一步的實(shí)驗(yàn)驗(yàn)證。
為了解釋行為實(shí)驗(yàn)的這些相互矛盾的觀點(diǎn), 研究者在近期的ERPs研究中, 仍然采用雙任務(wù)范式, 發(fā)現(xiàn)在刺激呈現(xiàn)的250ms以內(nèi)(大約220 ms), 對(duì)場景刺激做自然/人工分類時(shí)的腦電變化不受注意資源是否減少的影響, 但注意資源的減少會(huì)調(diào)節(jié)不同類別場景在腦電上差異表現(xiàn)的時(shí)間。對(duì)此研究者認(rèn)為, 注意資源的多少不影響場景的早期加工, 但會(huì)對(duì)后期場景局部和細(xì)節(jié)信息的加工產(chǎn)生影響, 并決定大腦對(duì)場景記憶的深度(Groen, Ghebreab, Lamme, & Scholte, 2016; Harel, Groen, Kravitz, Deouell, & Baker, 2016)。
場景主旨加工可能需要少量注意資源的參與。如果當(dāng)前任務(wù)需要將注意集中在與場景存在空間重疊的刺激上, 抑或當(dāng)前任務(wù)難度不足以耗盡所有的注意資源, 這些情況下場景主旨加工對(duì)注意資源的占用可能難以察覺; 反之則不然。雖然有研究為場景主旨加工不需要注意參與提供了證據(jù), 但該研究中的不同任務(wù)相關(guān)刺激是同時(shí)呈現(xiàn), 這可能會(huì)對(duì)結(jié)果產(chǎn)生影響(Gronau & Izoutcheev, 2017), 這樣的猜測還有待將來進(jìn)一步的實(shí)驗(yàn)驗(yàn)證。
最初的場景主旨加工理論是以物體為中心的(object-centered)場景加工理論。該理論認(rèn)為場景中的具有診斷性意義的物體是視覺系統(tǒng)進(jìn)行場景主旨識(shí)別和分類的依據(jù), 視覺系統(tǒng)通過結(jié)合場景中的物體以及先前經(jīng)驗(yàn)中物體可能出現(xiàn)的位置來對(duì)當(dāng)前的場景主旨進(jìn)行判斷(如, De Graef, Christaens & D’Ydewalle, 1990)?;蛘呖梢哉f, 視覺系統(tǒng)對(duì)場景中的一個(gè)或者幾個(gè)突出物體的識(shí)別即可以實(shí)現(xiàn)對(duì)場景主旨的有效識(shí)別(Friedman, 1979)。這類理論很早就遭到質(zhì)疑和反駁, 因?yàn)橛醒芯空甙l(fā)現(xiàn)觀察者不需要對(duì)場景中的物體進(jìn)行識(shí)別就能夠?qū)鼍白龀稣_的分類判斷。
針對(duì)以物體為中心的場景加工理論的不足, 研究者又提出了以場景為中心的(scene-centered)場景加工理論(如, Schyns & Oliva, 1994)。其基本觀點(diǎn)為, 場景的整體特性才是場景主旨加工所需要的信息成分。同時(shí), 大量研究也表明, 多種場景整體特性(如場景的紋理、顏色、體積或者空間頻率等)的變化均會(huì)對(duì)視覺系統(tǒng)的場景識(shí)別過程產(chǎn)生影響。然而這些研究僅僅證明多種整體特征在場景加工中的作用和價(jià)值, 卻難以解釋信息是以怎樣的形式被提取和進(jìn)一步加工的。
為了回答上述的問題, Oliva及其同事提出了以場景為中心的加工理論?空間包裹(spatial envelope)理論, 該理論試圖尋找視覺系統(tǒng)在場景早期加工過程中提取的基本單元(primary element), 假設(shè)大腦僅通過對(duì)基本單元的編碼和表征就能完成對(duì)場景主旨的加工??臻g包裹理論提出5種全局特征, 分別是自然性(naturalness)、開放性(openness)、粗糙度(roughness)、延伸性(expansion)、堅(jiān)固性(ruggedness) (Oliva & Torralba, 2001), 并在隨后的研究中將其擴(kuò)展到7種(Greene & Oliva, 2009b)。Oliva等人認(rèn)為這些全局特征是由多種低水平特征整合形成, 涵蓋了不同頻率的空間信息, 能夠?yàn)閳鼍爸髦嫉淖R(shí)別提供粗略但充分的信息資源。同時(shí)也有研究指出, 全局特性的加工不受視覺疲勞的影響, 被認(rèn)為是一種自動(dòng)化的信息加工(Csathó, van der Linden, & Gács, 2015)。
Greene和Oliva (2006)發(fā)現(xiàn), 在對(duì)場景圖片進(jìn)行快速分類時(shí), 對(duì)與目標(biāo)場景擁有某種相同全局特性的干擾場景更容易虛報(bào)。例如, 要求被試判斷快速呈現(xiàn)的場景圖片是否屬于“森林”, 那么與森林一樣具有“低開放性”全局特征的非森林場景較其他不具有此特征的干擾項(xiàng)更容易被識(shí)別為“屬于森林”, 他們認(rèn)為產(chǎn)生這種混淆的原因可能是全局特征被視覺系統(tǒng)用來作為主旨識(shí)別的依據(jù)。Greene和Oliva (2009a)利用計(jì)算機(jī)編寫了以7種全局特征為依據(jù)的場景識(shí)別算法, 同時(shí)使用該計(jì)算機(jī)算法和人類被試來完成相同的場景分類任務(wù), 結(jié)果發(fā)現(xiàn)二者在反應(yīng)時(shí)、正確率甚至虛報(bào)率上均無顯著差異, 表明計(jì)算機(jī)全局特征算法較好地模擬了人類視覺系統(tǒng)在場景識(shí)別和分類中的決策偏向, 支持了場景主旨能夠僅僅通過對(duì)全局特征提取和整合而獲得的理論假設(shè)。然而, 最近的一項(xiàng)研究采用重復(fù)盲視(repetition blindness)范式發(fā)現(xiàn), 觀察者在加工場景的前100~150 ms內(nèi), 所表征的是局部的視覺特征, 而不是更抽象的類別特征(Goldzieher, Andrews, & Harris, 2017)。
以物體為中心的場景加工理論過分強(qiáng)調(diào)了物體的作用, 而空間包裹理論過分看重全局特性的作用, 二者皆忽略了場景、物體、物體情境關(guān)系之間天然存在不可分割的空間和語義聯(lián)系, 且缺乏相關(guān)神經(jīng)機(jī)制的研究。隨著研究的深入, 研究者逐步將ERP和fMRI技術(shù)應(yīng)用到對(duì)場景加工機(jī)制的研究上來, 提出了場景聯(lián)結(jié)加工假設(shè)。
場景聯(lián)結(jié)加工(associative processing)假設(shè)有兩點(diǎn)核心內(nèi)容。首先, 大腦中儲(chǔ)存了在長期經(jīng)驗(yàn)中同時(shí)出現(xiàn)并已形成聯(lián)結(jié)的重要場景信息, 而對(duì)場景的加工則是激活這種聯(lián)結(jié)信息并加以提取的過程; 其次, 大腦的視覺系統(tǒng)中并不存在獨(dú)立的場景加工區(qū)域, 這些已知場景選擇性區(qū)域的作用實(shí)質(zhì)是完成對(duì)外界信息中聯(lián)結(jié)的加工, 這種聯(lián)結(jié)信息可以是場景的整體特性、場景中物體間的情境關(guān)系等視覺信息, 也可以是聽覺信息或其他感覺通道的信息(Aminoff & Tarr, 2015; Bar, Aminoff, Mason, & Fenske, 2007)。例如, 桌子和椅子在場景中經(jīng)常一同出現(xiàn), 大腦皮層可以根據(jù)經(jīng)驗(yàn)將這兩種刺激形成語義聯(lián)結(jié)并儲(chǔ)存在長時(shí)記憶中, 當(dāng)新的外界刺激中出現(xiàn)了這種聯(lián)結(jié)關(guān)系, 便會(huì)對(duì)長時(shí)記憶的語義聯(lián)結(jié)信息進(jìn)行激活, 利用這種聯(lián)結(jié)信息完成對(duì)當(dāng)前場景的加工。值得注意的是, 聯(lián)結(jié)的形式并不是固定的, 可以是語義聯(lián)結(jié)、空間關(guān)系聯(lián)結(jié)或情緒聯(lián)結(jié)等, 是在長期經(jīng)驗(yàn)中通過學(xué)習(xí)而形成并穩(wěn)定下來的(Bar et al., 2007)。
Aminoff和Tarr (2015)設(shè)計(jì)了一些由無意義圖形組成的人工聯(lián)結(jié)刺激: 保留圖形間形狀聯(lián)合信息(圖形類型不變, 位置變化, 黑色背景)的刺激集或者保留圖形間空間聯(lián)合信息(圖形類型變化, 位置不變, 黑色背景)的刺激集, 通過學(xué)習(xí)讓大腦對(duì)圖形中兩種聯(lián)結(jié)信息納入記憶, 在正式實(shí)驗(yàn)過程中要求被試判斷刺激中包含了哪一種聯(lián)結(jié)信息, 結(jié)果大腦皮層的場景選擇區(qū)域?qū)θ斯ぢ?lián)結(jié)刺激的激活與真實(shí)場景類似, 表明大腦對(duì)人工聯(lián)結(jié)刺激的加工與真實(shí)場景相似, 支持了場景選擇區(qū)域的作用是對(duì)場景中的聯(lián)結(jié)信息進(jìn)行加工的觀點(diǎn)。
場景聯(lián)結(jié)加工假設(shè)為大量研究的結(jié)果提供了可能的解釋。首先, 場景聯(lián)結(jié)加工理論為物體與場景在加工過程中的相互促進(jìn)提供了解釋。一方面, 場景對(duì)處于其中物體的識(shí)別、搜索和記憶存在促進(jìn)作用。例如, 處于一致物體間情境關(guān)系中的物體更容易被搜索和識(shí)別(如, Castelhano & Heaven, 2011; Davenport & Potter, 2004; 白學(xué)軍, 康廷虎, 閆國利, 2008; 田宏杰, 王福興, 徐菲菲, 申繼亮, 2010); 對(duì)場景背景中的目標(biāo)物體完成搜索任務(wù)和有意記憶任務(wù), 搜索任務(wù)中目標(biāo)物體的回憶效果更佳(Draschkow, Wolfe, & V?, 2014; Josephs, Draschkow, Wolfe, & V?, 2016)等; 另一方面, 已有研究發(fā)現(xiàn)物體也能促進(jìn)對(duì)所處場景信息的加工。Davenport和Potter (2004)發(fā)現(xiàn)當(dāng)物體與場景情境一致時(shí), 被試對(duì)該場景識(shí)別的正確率提升。Wu, Wang和Pomplun (2014)將場景圖片中的中心物體取出與灰色背景融合并打亂其空間關(guān)系, 要求被試完成對(duì)合成場景的分類任務(wù), 結(jié)果發(fā)現(xiàn)任務(wù)的正確率顯著高于平均水平。這表明在只保留物體間情境關(guān)系的情況下, 視覺系統(tǒng)仍然能夠根據(jù)物體間的聯(lián)結(jié)信息來完成場景的類別判斷任務(wù), 近期確有研究暗示場景的情境一致性確實(shí)會(huì)影響場景的分類(Collet, Fize, & VanRullen, 2015)。另外在fMRI研究中, 情境一致的場景和物體對(duì)PPA區(qū)域的激活更強(qiáng)(Bar & Aminoff, 2003; Troiani, Stigliani, Smith, & Epstein, 2014)。同時(shí), Stansbury, Naselaris和Gallant (2013)發(fā)現(xiàn)視覺系統(tǒng)對(duì)場景分類的過程中物體出現(xiàn)的可能性參與了場景表征的形成。這些結(jié)果暗示, 場景與物體的加工并不是分離的, 而是相互關(guān)聯(lián)共同完成的, 這種聯(lián)合信息的存在為聯(lián)結(jié)加工理論提供了支持。
其次, 場景聯(lián)結(jié)加工理論為語義和句法不一致的ERPs研究結(jié)果提供了解釋。Biederman, Mezzanotte和Rabinowitz (1982)首次提出用語義和句法來描述不同的場景?物體的一致性關(guān)系, 比如消防栓樹立在街道旁屬于語義一致, 而懸浮在街道旁就屬于語法不一致。將肥皂盒放在桌面上屬于語法一致, 但與筆記本電腦擺在一起就屬于語義不一致。一項(xiàng)ERPs的研究結(jié)果發(fā)現(xiàn)場景與物體的語義不一致引發(fā)N400波, 句法結(jié)構(gòu)不一致引發(fā)P600波(V? & Wolfe, 2013), 而對(duì)應(yīng)的腦電成分在句子理解的語義與句法不一致情況下也會(huì)出現(xiàn)。如果假設(shè)大腦皮層對(duì)刺激的加工是對(duì)不同刺激之間聯(lián)結(jié)的提取和激活, 那么這種物體與背景不同聯(lián)結(jié)方式(語義不一致/句法不一致)引起不同加工方式和腦電成分的現(xiàn)象就可以得到解釋。N400效應(yīng)在多種形式的刺激中被發(fā)現(xiàn), 例如:語言、圖片、物體、動(dòng)作、聲音等(Kutas & Federmeier, 2011), 這意味著不同類型刺激的語義加工存在一個(gè)共同的腦機(jī)制, 那么語義/句法這種物體與場景信息聯(lián)結(jié)方式的一致性也可能是不同刺激類型出現(xiàn)相同腦電成分的原因。
再次, 場景聯(lián)結(jié)加工理論為現(xiàn)有的場景選擇區(qū)域?qū)Ψ菆鼍按碳さ膹?qiáng)激活提供了解釋。大腦皮層目前已知的場景選擇區(qū)域是根據(jù)其對(duì)場景刺激區(qū)別于其他類型刺激所產(chǎn)生的反應(yīng)偏向性確定而來的。然而隨著研究的深入, 一些場景選擇性區(qū)域被發(fā)現(xiàn)參與了“非場景”類刺激的編碼。以旁海馬空間加工區(qū)(Parahippocampal Place Area, PPA)為例:PPA區(qū)域?qū)κ煜さ拿婵妆炔皇煜っ婵椎姆磻?yīng)更大(Bar, Aminoff, & Ishai, 2008), 對(duì)具有高空間情境性的物體(如, 車燈)比具有低空間情境性的物體(如, 水壺)的激活更大(Bar, Aminoff, & Schacter, 2008), 對(duì)脫離背景的物體較面孔刺激的激活更大(Epstein & Kanwisher, 1998)等。場景選擇性腦區(qū)對(duì)非場景類型刺激的反應(yīng)體現(xiàn)了聯(lián)結(jié)加工理論中“無獨(dú)立場景加工腦區(qū)”的觀點(diǎn), 即大腦對(duì)聯(lián)結(jié)信息的加工并不根據(jù)信息類型的不同而做出區(qū)分。
場景主旨加工的神經(jīng)基礎(chǔ)研究主要包括兩個(gè)方面的內(nèi)容: 場景主旨加工的時(shí)間動(dòng)力特性(時(shí)程特點(diǎn))和場景主旨加工特異性的腦區(qū)。
人類視覺系統(tǒng)能夠迅速提取場景主旨的信息, 對(duì)場景主旨加工的時(shí)間時(shí)程的研究往往采用較為短暫的呈現(xiàn)時(shí)間, 要求記錄生理信號(hào)的儀器設(shè)備需要有較高的時(shí)間分辨力, 相關(guān)的研究工作主要是通過腦電和腦磁信號(hào)來完成的, 目前這方面的研究相對(duì)較少。
Thorpe, Fize和Marlot (1996)率先采用腦電技術(shù)測量了視覺系統(tǒng)的加工速度, 結(jié)果發(fā)現(xiàn)人類視覺系統(tǒng)在刺激呈現(xiàn)后的大約150 ms就可以將包含動(dòng)物的場景與包含非動(dòng)物的場景區(qū)分開來。隨后Sato等人(1999)率先利用腦磁圖(magnetoencephalography, MEG)技術(shù), 比較了大腦對(duì)場景和面孔的神經(jīng)反應(yīng), 以此探討場景主旨加工的時(shí)間動(dòng)力特性。結(jié)果發(fā)現(xiàn), 場景圖片誘發(fā)的MEG信號(hào)的潛伏期(約300 ms)長于面孔圖片誘發(fā)的MEG信號(hào)的潛伏期(約160 ms)。然而, Rivolta, Palermo, Schmalzl和Williams (2012)利用同樣的技術(shù), 卻發(fā)現(xiàn)場景刺激產(chǎn)生了與面孔同樣早的類別特異性的MEG成分(M100p, 100~130 ms)。Bastin等人(2013)采用腦電技術(shù)通過兩個(gè)實(shí)驗(yàn)分離出神經(jīng)活動(dòng)中早期(200~500 ms)的刺激驅(qū)動(dòng)效應(yīng)和晚期(600~800 ms)的任務(wù)相關(guān)效應(yīng), 并同時(shí)記錄到了最強(qiáng)的γ波(50~150 Hz)。Groen及其同事將場景圖像的兩個(gè)統(tǒng)計(jì)特征—空間相干(spatial coherence)和對(duì)比能量(energy contrast)與場景主旨加工聯(lián)系起來, 發(fā)現(xiàn)這兩個(gè)統(tǒng)計(jì)指標(biāo)均對(duì)早期(100~150 ms)單個(gè)試次的事件相關(guān)電位的波幅具有調(diào)節(jié)作用, 且空間相干的影響可以持續(xù)到晚期(約250 ms)的活動(dòng)水平, 對(duì)場景進(jìn)行自然/人工的分類判斷時(shí), 神經(jīng)活動(dòng)的幅度大小與空間相干有關(guān), 但與對(duì)比能量無關(guān)(Groen, Ghebreab, Prins, Lamme, & Scholte, 2013)。在后續(xù)的研究中, 他們還發(fā)現(xiàn)雖然注意資源對(duì)場景刺激所誘發(fā)的早期(< 250 ms)電位活動(dòng)幾乎沒有影響, 但會(huì)對(duì)誘發(fā)的晚期(300~500 ms)電位活動(dòng)產(chǎn)生較大的影響(Groen et al., 2016)。針對(duì)以往研究可能混淆了非場景刺激與場景刺激之間的物理差異所導(dǎo)致的神經(jīng)信號(hào)的不同, 最近的一項(xiàng)研究確定P2成分(潛伏期為約為220 ms)是場景主旨加工的標(biāo)記(Harel et al., 2016)。
相比較而言, 對(duì)場景主旨加工特異性腦區(qū)的研究則探討的是在更長時(shí)間尺度(數(shù)秒鐘)上呈現(xiàn)場景刺激時(shí), 大腦不同區(qū)域的選擇性激活, 這類研究要求儀器設(shè)備需要有較高的空間分辨力, 相關(guān)工作主要是通過fMRI技術(shù)來完成的, 這方面的研究相對(duì)較為豐富。
研究主要采用fMRI技術(shù), 涉及到3個(gè)對(duì)場景類刺激具有反應(yīng)偏向性的腦區(qū):海馬旁區(qū)(parahippocampal place area, PPA) (如, Epstein & Kanwisher, 1998; Epstein, 2005)、壓后皮層(retrosplenial complex, RSC) (Maguire, 2001)、枕區(qū)(occipital place area, OPA) (Dilks, Julian, Paunov, & Kanwisher, 2013), 以及一個(gè)對(duì)物體類刺激具有反應(yīng)偏向的腦區(qū): 枕葉外側(cè)復(fù)合體(lateral occipital complex, LOC) (Malach et al., 1995)。
早期研究發(fā)現(xiàn)PPA與場景幾何構(gòu)型或空間布局(Rajimehr, Devaney, Bilenko, Young, & Tootell, 2011)以及空間延伸性(Kravitz, Peng, & Baker, 2011; Park, Brady, Greene, & Oliva, 2011)等特性的編碼有關(guān)。這些研究認(rèn)為PPA就像大腦中的“空間布局分析器”, 承擔(dān)著場景空間信息表征建構(gòu)的工作。后續(xù)研究發(fā)現(xiàn)PPA區(qū)域還與場景中物體信息的加工有關(guān), 包括物體大小(如, Cant & Xu, 2012; Konkle & Oliva, 2012)、物體引發(fā)場景聯(lián)想的難易(Mullally & Maguire, 2011)和場景分類(Dilks, Julian, Kubilius, Spelke, & Kanwisher, 2011; Peelen, Fei-Fei, & Kastner, 2009; Walther, Caddigan, Fei-Fei, & Beck, 2009)等。這些發(fā)現(xiàn)表明PPA不僅是一個(gè)“空間布局分析器”, 而且對(duì)場景中的物體也具有強(qiáng)的敏感性。
壓后皮層(retrosplenial cortex, RSC)也是具有場景反應(yīng)偏向性的重要腦區(qū), 并與視覺系統(tǒng)的空間定位和導(dǎo)航能力有關(guān)(Epstein, Parker, & Feiler, 2007; Marchette, Vass, Ryan, & Epstein, 2014; Vann, Aggleton, & Maguire, 2009; Vass & Epstein, 2013)。RSC與PPA且都與場景的空間延伸性有關(guān)(Henderson, Zhu, & Larson, 2011), 但PPA能夠分辨出場景中細(xì)節(jié)的改變, 卻不能判斷視角改變前后的兩個(gè)場景是否是同一個(gè)位置, 而RSC則能夠?qū)⒉煌暯堑淖兓c不同場景的變化區(qū)別開。PPA與RSC的這種功能上的互補(bǔ)幫助視覺系統(tǒng)建立起完整且細(xì)節(jié)豐富的多方位場景表征(Park & Chun, 2009)。
不同于PPA和RSC, 人們對(duì)OPA區(qū)域在場景加工中的功能知之甚少。Dilks等人(2013)認(rèn)為OPA 可能是最先獲得感受器傳入的場景信息的腦區(qū), 而Silson, Chan, Reynolds, Kravitz和Baker (2015)認(rèn)為PPA與OPA分別具有的上下視野偏差(upper and lower visual field biases)可能是兩者在功能上存在互補(bǔ)性的證據(jù)。除此之外, OPA與其他兩個(gè)場景選擇性腦區(qū)在場景加工中的反應(yīng)偏向性有許多相似之處, 例如, 三者都具有熟悉性偏向(Epstein, Higgins, Jablonski, & Feiler, 2007)、直線偏向(Nasr, Echavarria, & Tootell, 2014)等。目前關(guān)于OPA腦區(qū)的更多功能仍然在探索之中, 關(guān)于3個(gè)場景選擇腦區(qū)的反應(yīng)偏向性和OPA的真正功能還需要進(jìn)一步的實(shí)驗(yàn)驗(yàn)證。
枕葉外側(cè)復(fù)合體(lateral occipital complex, LOC)最初由于其對(duì)物體的反應(yīng)偏向性而被發(fā)現(xiàn), 并被認(rèn)為與物體形狀和類別的編碼有關(guān)(如, Eger, Ashburner, Haynes, Dolan, & Rees, 2008), 近來人們發(fā)現(xiàn)其在場景加工過程中也承擔(dān)著重要作用。Walther等人(2009)發(fā)現(xiàn)在此過程中PPA、RSC和LOC在協(xié)同作用下完成了對(duì)場景信息的加工。Harel, Kravitz和Baker (2013)發(fā)現(xiàn), RSC和PPA同時(shí)對(duì)場景的空間布局敏感, 而LOC和PPA則同時(shí)對(duì)場景中的物體敏感。
那么, 這些腦區(qū)究竟是怎樣在場景加工的過程中協(xié)同完成任務(wù)的呢?PPA在空間信息和物體屬性加工上的雙重作用應(yīng)如何解釋呢?為了探索這種協(xié)同運(yùn)作的具體方式, Baldassano, Beck和Fei-Fei (2013)采用功能聯(lián)結(jié)分析(functional connectivity analysis)技術(shù), 發(fā)現(xiàn)PPA區(qū)域的前部與RSC區(qū)域反應(yīng)相關(guān)性很大, 而PPA區(qū)域的后部則與LOC區(qū)域反應(yīng)相關(guān)性很大, 證明PPA是由前后兩個(gè)功能不一致的部分組成:前部與場景的記憶和情境加工有關(guān), 而后部與低水平特征和物體形狀的加工有關(guān)。近期一項(xiàng)研究發(fā)現(xiàn), 視覺系統(tǒng)在針對(duì)不同空間布局、紋理材料, 以及具有開放或封閉、自然或人工屬性的材料完成不同種類的判斷任務(wù)時(shí), PPA、RSC和OPA區(qū)域的激活程度受到任務(wù)種類和場景屬性交互作用的影響, 證明視覺系統(tǒng)雖然會(huì)對(duì)場景的多種信息進(jìn)行提取和整合, 但這個(gè)過程會(huì)隨著任務(wù)目的和場景特征的不同而變化(Lowe, Gallivan, Ferber, & Cant, 2016)。這樣的結(jié)果與聯(lián)結(jié)加工理論對(duì)場景加工的解釋一致, 為未來對(duì)場景加工機(jī)制的探索提供了可行方向。
綜上可知, PPA的前部與RSC主要參與場景的空間信息編碼, PPA后部與LOC主要參與場景中物體的加工, 而OPA的真正功能以及這些腦區(qū)在場景加工中的協(xié)同工作方式仍不清楚。目前有研究認(rèn)為主旨表征是場景空間信息編碼不可缺少的信息(Siddiqui & Brown, 2015), 其中場景的快速分類任務(wù)也與這些腦區(qū)相關(guān)(Ramkumar, Hansen, Pannasch, & Loschky, 2016), 但究竟它們?cè)趫鼍爸髦技庸ぶ衅鸬侥男┚唧w作用?這些問題的答案仍需要進(jìn)一步的探索研究。
本文對(duì)真實(shí)場景主旨加工的影響因素、相關(guān)的爭議性問題、加工機(jī)制的理論解釋以及場景主旨加工的神經(jīng)基礎(chǔ)等方面進(jìn)行評(píng)述。盡管該領(lǐng)域的相關(guān)研究已經(jīng)取得了一些重要性的成果, 但這些研究成果中仍然存在一些亟待解決重要問題。
首先, 目前的研究結(jié)果支持場景主旨的識(shí)別需要全局特性作為診斷性信息, 而顏色、空間頻率、線條朝向等低水平信息對(duì)主旨的加工也具有一定影響。據(jù)此可以對(duì)場景主旨的加工進(jìn)行兩個(gè)方面的研究:(1)已有研究表明視覺系統(tǒng)對(duì)真實(shí)場景的信息加工具有一定程度的靈活性, 這種靈活性在多大程度上影響了場景早期加工的信息提取仍不清楚, 因此可通過在同一實(shí)驗(yàn)范式中操縱任務(wù)或者經(jīng)驗(yàn)等變量來研究它們對(duì)信息提取的影響,以此來探討視覺信息的前饋(feedforward)和反饋(feedback)加工之間的相互關(guān)系(Maguire & Howe, 2016; Potter et al., 2014; 孫雨生等, 2017); (2)已有研究對(duì)全局特征的種類表述不夠規(guī)范, 因此可以進(jìn)一步探討是否存在場景信息加工的基本單元, 究竟哪些特征(如自然性、開放性、粗糙度等)可以作為場景信息加工的基本單元, 這些特征對(duì)于不同類型的場景圖像是否具有特異性, 此方向的研究有利于找到更好的計(jì)算機(jī)分類算法, 使機(jī)器視覺更加接近人類的視覺系統(tǒng)。(3)場景圖像中全局特征的加工與群集表征(assembly representation)加工之間有什么樣的關(guān)系, 二者的加工是否具有共同的機(jī)制(Alvarez, 2011; Brady, Shafer-Skelton, & Alvarez, 2017; Cohen, Dennett, & Kanwisher, 2016; De Cesarei, Loftus, Mastria, & Codispoti, 2017)。
其次, 就場景主旨加工的理論解釋而言, 我們認(rèn)為一般情況下主旨是以場景的全局特征作為診斷性信息的, 而場景主旨加工會(huì)影響注意引導(dǎo)和記憶(Malcolm et al., 2016)。但場景中的物體是否會(huì)影響, 如何影響場景主旨的加工仍不清楚。為了回答該問題, 未來研究可以從以下兩個(gè)方面展開研究:(1)已有研究表明場景與物體的語義一致性對(duì)物體的加工具有促進(jìn)作用, 這種一致性是否能夠促進(jìn)場景主旨的加工以及這種一致性判斷在場景主旨識(shí)別過程中是否為必要過程; (2)已有研究表明場景主旨與物體加工存在交互作用, 這種交互作用是否暗示場景與物體加工并不是平行過程而是相互促進(jìn)、相互制約, 如果是, 那么這種交互作用是怎樣在注意的調(diào)節(jié)下完成的。
第三, 目前的研究結(jié)果在場景的層級(jí)加工優(yōu)先性上存在矛盾: 早期研究者發(fā)現(xiàn)了場景分類基本水平優(yōu)勢(shì); 然而后來的研究采用不同的實(shí)驗(yàn)范式和方法獲得了上級(jí)水平優(yōu)勢(shì)。我們認(rèn)為這種看似存在矛盾的層級(jí)加工優(yōu)先性的模式可能并不那么穩(wěn)定, 會(huì)受到一些因素的調(diào)節(jié), 未來研究可從以下幾個(gè)方面做進(jìn)一步的探討: (1)近期已有研究探討了場景圖片的相似性對(duì)層級(jí)加工優(yōu)先性的影響(Banno & Saiki, 2015, Poncet & Fabre-Thorpe, 2014); 后續(xù)研究可以探討其他調(diào)節(jié)這種層級(jí)加工優(yōu)先性的邊界條件, 如場景圖片的典型性等。(2)已有研究表明工作記憶內(nèi)容能夠增強(qiáng)視知覺表征(如, Soto, Wriglesworth, Bahrami-Balani, & Humphreys, 2010); 后續(xù)研究可以探討工作記憶的內(nèi)容對(duì)場景層級(jí)加工優(yōu)先性的調(diào)節(jié)作用。(3)有研究表明獎(jiǎng)賞能夠改變知覺(Failing & Theeuwes, 2016), 那么場景中包含的具有生存價(jià)值/情緒性意義的信息是否也會(huì)影響場景主旨加工的層級(jí)優(yōu)先性也是一個(gè)值得探討的問題(李畢琴等, 2015)。另外, 還有研究暗示場景主旨的加工具有個(gè)體差異性, 那么個(gè)體差異是否也會(huì)影響場景主旨層級(jí)加工優(yōu)先性值得進(jìn)一步的研究。對(duì)這類問題的研究將有助于揭示場景主旨加工的時(shí)間進(jìn)程。
第四, 目前的研究對(duì)場景主旨的加工或分類是否需要注意資源的問題尚未有定論。當(dāng)前對(duì)場景主旨是否需要注意參與的問題可以從以下方向進(jìn)行研究:(1) Groen等人(2016)發(fā)現(xiàn)除了任務(wù)難度, 在雙任務(wù)條件下的兩種目標(biāo)刺激在空間上是否發(fā)生重疊可能會(huì)影響到兩種任務(wù)在注意分配上是否存在競爭, 這一假設(shè)有待進(jìn)一步考證; (2) Kay, Weiner和Grill-Spector (2015)在一項(xiàng)fMRI研究中使用人臉作為刺激材料發(fā)現(xiàn)注意狀態(tài)對(duì)早期視覺皮層的激活沒有影響, 僅僅影響晚期高水平類別選擇區(qū)域(high-level category selective area), 表明人臉刺激中的早期低水平信息加工不易受注意資源多少的影響。在這一研究的啟示下, 可分開探討場景不同水平信息加工與注意資源的關(guān)系, 即是否場景的部分信息需要注意參與才能完成提取和加工, 而另一些信息的加工則不需要注意參與。
第五, 關(guān)于場景主旨加工的時(shí)間動(dòng)力特性的神經(jīng)基礎(chǔ)方面, 目前的研究還相對(duì)較為薄弱, 結(jié)果也不盡相同, 還需要設(shè)計(jì)巧妙的實(shí)驗(yàn), 利用高時(shí)間分辨率的ERP技術(shù)來明確場景主旨加工的時(shí)間進(jìn)程。在場景主旨加工的特異性腦區(qū)方面的研究較為豐富, 大多數(shù)研究主要提及了PPA、RSC、OPA和LOC四個(gè)區(qū)域在場景主旨加工中的作用, 但對(duì)這些區(qū)域在場景主旨加工過程中是如何協(xié)同作用的研究相對(duì)較少, 未來研究可以考慮利用腦功能聯(lián)結(jié)分析技術(shù)探討這些區(qū)域的協(xié)同作用, 為場景知覺加工建立相應(yīng)的腦功能網(wǎng)絡(luò)。這個(gè)領(lǐng)域的研究對(duì)于智能機(jī)器視覺的研制和深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建具有啟示意義。
到目前為止, 場景主旨加工的研究雖然取得了豐碩的成果, 但還存在諸多爭議性的問題亟待解決。我們期待將來有更多研究者加入到該領(lǐng)域的研究中來, 將行為實(shí)驗(yàn)、眼動(dòng)技術(shù)、計(jì)算建模和現(xiàn)代化腦成像技術(shù)等多種方法相融合, 對(duì)場景主旨加工進(jìn)行全面立體的研究, 以豐富人們對(duì)真實(shí)場景加工過程的理解。
白學(xué)軍, 康廷虎, 閆國利. (2008). 真實(shí)情景中刺激物識(shí)別的理論模型與研究回顧.(5), 679–686.
程昊. (2010).(碩士學(xué)位論文). 浙江大學(xué), 杭州.
李畢琴, 郭畢鵬, 胡竹菁, 羅躍嘉. (2015). 場景主旨對(duì)恐懼刺激加工影響的ERP研究.(4), 318– 323.
孫琪, 任衍具, 傅根躍. (2015). 視空工作記憶負(fù)載對(duì)場景主旨加工的影響.(6), 1311–1318.
孫雨生, 張智君, 吳彬星. (2017). 上下文預(yù)期在快速場景識(shí)別中的作用.(5), 577–589.
田宏杰, 王福興, 徐菲菲, 申繼亮. (2010). 場景知覺中物體加工的背景效應(yīng).(6), 878–886.
Alvarez, G. A. (2011). Representing multiple objects as an ensemble enhances visual cognition.(3), 122–131.
Aminoff, E. M., & Tarr, M. J. (2015). Associative processing is inherent in scene perception.(6), e0128840.
Awasthi, B., Sowman, P. F., Friedman, J., & Williams, M. A. (2013). Distinct spatial scale sensitivities for early categorization of faces and places: Neuromagnetic and behavioral findings., 91.
Baldassano, C., Beck, D. M., & Fei-Fei, L. (2013). Differential connectivity within the parahippocampal place area., 228–237.
Banno, H., & Saiki, J. (2015). The processing speed of scene categorization at multiple levels of description: The superordinate advantage revisited.(3), 269– 288.
Bar, M., & Aminoff, E. (2003). Cortical analysis of visual context.(2), 347–358.
Bar, M., Aminoff, E., Mason, M., & Fenske, M. (2007). The units of thought., 420–428.
Bar, M., Aminoff, E., & Ishai, A. (2008). Famous faces activate contextual associations in the parahippocampal cortex.(6), 1233–1238.
Bar M., Aminoff, E., & Schacter, D. L. (2008). Scenes unseen: The parahippocampal cortex intrinsically subserves contextual associations, not scenes or places per se.(34), 8539–8544.
Bastin, J., Committeri, G., Kahane, P., Galati, G., Minotti, L., Lachaux, J. P., & Berthoz, A. (2013). Timing of posterior parahippocampal gyrus activity reveals multiple scene processing stages.(6), 1357–1370.
Biederman, I. (1972). Perceiving real-world scenes.(4043), 77–80.
Biederman, I., Mezzanotte, R. J., & Rabinowitz, J. C. (1982). Scene perception: Detecting and judging objects undergoing relational violations.(2), 143– 177.
Biggs, A. T., & Mitroff, S. R. (2015). Improving the efficacy of security screening tasks: A review of visual search challenges and ways to mitigate their adverse effects.(1), 142–148.
Boucart, M., Moroni, C., Thibaut, M., Szaffarczyk, S., & Greene, M. (2013). Scene categorization at large visual eccentricities., 35–42.
Brady, T. F., & Oliva, A. (2008). Statistical learning using real-world scenes: Extracting categorical regularities without conscious intent.(7), 678–685.
Brady, T. F., Shafer-skelton, A., & Alvarez, G. A. (2017). Global ensemble texture representations are critical to rapid scene perception.(6), 1160–1176.
Brand, J., & Johnson, A. P. (2014). Attention to local and global levels of hierarchical Navon figures affects rapid scene categorization., 1274.
Cant, J. S., & Xu, Y. (2012). Object ensemble processing in human anterior-medial ventral visual cortex.(22), 7685–7700.
Castelhano, M. S., & Henderson, J. M. (2008). The influence of color on the perception of scene gist.(3), 660–675.
Castelhano, M. S., & Heaven, C. (2011). Scene context influences without scene gist: Eye movements guided by spatial associations in visual search.(5), 890–896.
Clarke, J., & Mack, A. (2014). Iconic memory for the gist of natural scenes., 256– 265.
Cohen, M. A., Alvarez, G. A., & Nakayama, K. (2011). Natural-scene perception requires attention.(9), 1165–1172.
Cohen, M. A., Dennett, D. C., & Kanwisher, N. (2016). What is the bandwidth of perceptual experience?(5), 324–335.
Collet, A.C., Fize, D., & VanRullen, R. (2015). Contextual congruency effect in natural scene categorization: Different strategies in humans and monkeys ().(7), e0133721.
Csathó, á., van der Linden, D., & Gács, B. (2015). Natural scene recognition with increasing time-on-task: The role of typicality and global image properties.(4), 814–828.
Davenport, J. L., & Potter, M. C. (2004). Scene consistency in object and background perception.(8), 559–564.
De Graef, P., Christiaens, D., & D’Ydewalle, G. (1990). Perceptual effects of scene context on object identification.(4), 317–329.
De Cesarei, A., Loftus, G. R., Mastria, S., & Codispoti, M. (2017). Understanding natural scenes: Contributions of image statistics.(Part A), 44–57.
Dilks, D. D., Julian, J. B., Kubilius, J., Spelke, E. S., & Kanwisher, N. (2011). Mirror-image sensitivity and invariance in object and scene processing pathways.(31), 11305–11312.
Dilks, D. D., Julian, J. B., Paunov, A. M., & Kanwisher, N. (2013). The occipital place area is causally and selectively involved in scene perception.(4), 1331–1336.
Draschkow, D., Wolfe, J. M., & V?, M. L.-H. (2014). Seek and you shall remember: Scene semantics interact with visual search to build better memories.(8), 10.
Duh, S., & Wang, S.-H. (2014). Infants detect changes in everyday scenes: The role of scene gist., 142–161.
Eger, E., Ashburner, J., Haynes, J. D., Dolan, R. J., & Rees, G. (2008). fMRI activity patterns in human LOC carry information about object exemplars within category.(2), 356–370.
Epstein, R. (2005). The cortical basis of visual scene processing.(6), 954–978.
Epstein, R. A., Higgins, J. S., Jablonski, K., & Feiler, A. M. (2007). Visual scene processing in familiar and unfamiliar environments.(5), 3670– 3683.
Epstein, R., & Kanwisher, N. (1998). A cortical representation of the local visual environment.(6676), 598–601.
Epstein, R. A., Parker, W. E., & Feiler, A. M. (2007). Where am I now? Distinct roles for parahippocampal and retrosplenial cortices in place recognition.(23), 6141–6149.
Evans, K. K., Haygood, T. M., Cooper, J., Culpan, A.-M., & Wolfe, J. M. (2016). A half-second glimpse often lets radiologists identify breast cancer cases even when viewing the mammogram of the opposite breast.(37), 10292–10297.
Fabre-Thorpe, M. (2011). The characteristics and limits of rapid visual categorization., 243.
Failing, M., & Theeuwes, J. (2016). Reward alters the perception of time., 19–26.
Fei-Fei, L., Iyer, A., Koch, C., & Perona, P. (2007). What do we perceive in a glance of a real-world scene?(1), 10.
Freeman, T. E., Loschky, L. C., & Hansen, B. C. (2015). Scene masking is affected by trial blank-screen luminance.(Part B), 319–327.
Friedman, A. (1979). Framing pictures: The role of knowledge in automatized encoding and memory for gist.(3), 316–355.
Fu, Q. F., Liu, Y.-J., Dienes, Z., Wu, J. H., Chen, W. F., & Fu, X. L. (2016). The role of edge-based and surface-based information in natural scene categorization: Evidence from behavior and event-related potentials., 152–166.
Gegenfurtner, K. R., & Rieger, J. (2000). Sensory and cognitive contributions of color to the recognition of natural scenes.(13), 805–808.
Goffaux, V., Jacques, C., Mouraux, A., Oliva, A., Schyns, P. G., & Rossion, B. (2005). Diagnostic colours contribute to the early stages of scene categorization: Behavioural and neurophysiological evidence.(6), 878–892.
Goldzieher, M. J., Andrews, S., & Harris, I. M. (2017). Two scenes or not two scenes: The effects of stimulus repetition and view-similarity on scene categorization from brief displays.(1), 49–62.
Greene, M. R., & Oliva, A. (2006, July).. Proceedings of the 28th Annual Conference of the Cognitive Science Society (pp. 291–296), Vancouver, Canada.
Greene, M. R., & Oliva, A. (2009a). Recognition of natural scenes from global properties: Seeing the forest without representing the trees.(2), 137– 176.
Greene, M. R., & Oliva, A. (2009b). The briefest of glances: The time course of natural scene understanding.(4), 464–472.
Greene, M. R., & Fei-Fei, L. (2014). Visual categorization is automatic and obligatory: Evidence from Stroop-like paradigm.(1), 14.
Greene, M. R., Botros, A. P., Beck, D. M., & Fei-Fei, L. (2015). What you see is what you expect: Rapid scene understanding benefits from prior experience.(4), 1239–1251.
Groen, I. I. A., Ghebreab, S., Lamme, V. A. F., & Scholte, H. S. (2016). The time course of natural scene perception with reduced attention.(2), 931–946.
Groen, I. I. A., Ghebreab, S., Prins, H., Lamme, V. A. F., & Scholte, H. S. (2013). From image statistics to scene gist: Evoked neural activity reveals transition from low-level natural image structure to scene category.(48), 18814–18824.
Gronau, N., & Izoutcheev, A. (2017). The necessary of visual attention to scene categorization: Dissociating ‘task-relevant’ and ‘task-irrelevant’ scene distractors.(5), 954–970.
Hagmann, C. E., & Potter, M. C. (2016). Ultrafast scene detection and recognition with limited visual information.,(1), 2–14.
Hansen, B. C., & Loschky, L. C. (2013). The contribution of amplitude and phase spectra-defined scene statistics to the masking of rapid scene categorization.(13), 21.
Harel, A., Kravitz, D. J., & Baker, C. I. (2013). Deconstructing visual scenes in cortex: Gradients of object and spatial layout information.(4), 947–957.
Harel, A., Groen, I. I. A., Kravitz, D. J., Deouell, L. Y., & Baker, C. I. (2016). The temporal dynamics of scene processing: A multifaceted EEG investigation.(5), e0139-16.
Henderson, J. M., Zhu, D. C., & Larson, C. L. (2011). Functions of parahippocampal place area and retrosplenial cortex in real-world scene analysis: An fMRI study.(7), 910–927.
Josephs, E. L., Draschkow, D., Wolfe, J. M., & V?, M. L.-H. (2016). Gist in time: Scene semantics and structure enhance recall of searched objects., 100–108.
Joubert, O. R., Rousselet, G. A., Fize, D., & Fabre-Thorpe, M. (2007). Processing scene context: Fast categorization and object interference.(26), 3286– 3297.
Joubert, O. R., Rousselet, G. A., Fabre-Thorpe, M., & Fize, D. (2009). Rapid visual categorization of natural scene contexts with equalized amplitude spectrum and increasing phase noise.(1), 2.
Kadar, I., & Ben-Shahar, O. (2012). A perceptual paradigm and psychophysical evidence for hierarchy in scene gist processing.(13), 16.
Kauffmann, L., Chauvin, A., Pichat, C., & Peyrin, C. (2015). Effective connectivity in the neural network underlying coarse-to-fine categorization of visual scenes. A dynamic causal modeling study., 46–56.
Kauffmann, L., Ramano?l, S., & Peyrin, C. (2014). The neural bases of spatial frequency processing during scene perception., 37.
Kay, K. N., Weiner, K. S., & Grill-Spector, K. (2015). Attention reduces spatial uncertainty in human ventral temporal cortex.(5), 595–600.
Kihara, K., & Takeda, Y. (2010). Time course of the integration of spatial frequency-based information in natural scenes.(21), 2158–2162.
Kihara, K., & Takeda, Y. (2012). Attention-free integration of spatial frequency-based information in natural scenes., 38–44.
Konkle, T., & Oliva, A., (2012). A real-world size organization of object responses in occipitotemporal cortex.(6), 1114–1124.
Kravitz, D. J., Peng, C. S., & Baker, C. I. (2011). Real-world scene representations in high-level visual cortex: It's the spaces more than the places.(20), 7322–7333.
Kutas, M., & Federmeier, K. D. (2011). Thirty years and counting: Finding meaning in the N400 component of the event-related brain potential (ERP).(1), 621–647.
Kveraga, K., Boshyan, J., & Bar, M. (2007). Magnocellular projections as the trigger of top-down facilitation in recognition.(48), 13232– 13240.
Larson, A. M., & Loschky, L. C. (2009). The contributions of central versus peripheral vision to scene gist recognition.(10), 6.
Larson, A. M., Freeman, T. E., Ringer, R. V., & Loschky, L. C. (2014). The spatiotemporal dynamics of scene gist recognition.(2), 471–487.
Li, F. F., VanRullen, R., Koch, C., & Perona, P. (2002). Rapid natural scene categorization in the near absence of attention.(14), 9596– 9601.
Loschky, L. C., Hansen, B. C., Sethi, A., & Pydimarri, T. N. (2010). The role of higher order image statistics in masking scene gist recognition.(2), 427–444.
Loschky, L. C., & Larson, A. M. (2010). The natural/man-made distinction is made before basic-level distinctions in scene gist processing.(4), 513–536.
Loschky, L. C., Ringer, R. V., Ellis, K., & Hansen, B. (2015). Comparing rapid scene categorization of aerial and terrestrial views: A new perspective on scene gist.(6), 11.
Loschky, L. C., Nuthmann, A., Fortenbaugh, F. C., & Levi, D. M. (2017). Scene perception from central to peripheral vision.(1), 6.
Lowe, M. X., Gallivan, J. P., Ferber, S., & Cant, J. S. (2016). Feature diagnosticity and task context shape activity in human scene-selective cortex., 681–692.
Macé, M. J.-M., Joubert, O. R., Nespoulous, J. L., & Fabre-Thorpe, M. (2009). The time-course of visual categorizations: You spot the animal faster than the bird.(6), e5927.
Mack, A., & Clarke, J. (2012). Gist perception requires attention.(3), 300–327.
Mack, M. L., & Palmeri, T. J. (2015). The dynamics of categorization: Unraveling rapid categorization.(3), 551–569.
Maguire, E. A. (2001). The retrosplenial contribution to human navigation: A review of lesion and neuroimaging findings.(3), 225– 238.
Maguire, J. F., & Howe, P. D. L. (2016). Failure to detect meaning in RSVP at 27 ms per picture.(5), 1405–1413.
Malach, R., Reppas, J. B., Benson, R. R., Kwong, K. K., Jiang, H, Kennedy, W. A., … Tootell, R. B. (1995). Object-related activity revealed by functional magnetic resonance imaging in human occipital cortex.(18), 8135–8139.
Malcolm, G. L., Nuthmann, A., & Schyns, P. G. (2014). Beyond gist: Strategic and incremental information accumulation for scene categorization.(5), 1087–1097.
Malcolm, G. L., Groen, I. I. A., & Baker, C. I. (2016). Making sense of real-world scenes.(11), 843–856.
Marchette, S. A., Vass, L. K., Ryan, J., & Epstein, R. A. (2014). Anchoring the neural compass: Coding of local spatial reference frames in human medial parietal lobe.(11), 1598–1606.
Marx, S., Hansen-Goos, O., Thrun, M. C., & Einh?user, W. (2014). Rapid serial processing of natural scenes: Color modulates detection but neither recognition nor the attentional blink.(14), 4.
Morrison, D. J., & Schyns, P. G. (2001). Usage of spatial scales for the categorization of faces, objects, and scenes.(3), 454–469.
Mu, T. L., & Li, S. (2013). The neural signature of spatial frequency-based information integration in scene perception.(3), 367– 377.
Mullally, S. L., & Maguire, E. A. (2011). A new role for the parahippocampal cortex in representing space.(20), 7441–7449.
Musel, B., Chauvin, A., Guyader, N., Chokron, S., & Peyrin, C. (2012). Is coarse-to-fine strategy sensitive to normal aging?(6), e38493.
Musel, B., Kauffmann L., Ramano?l, S., Giavarini, C., Guyader, N., Chauvin, A., & Peyrin, C. (2014). Coarse-to-fine categorization of visual scenes in scene-selective cortex.(10), 2287–2297.
Nasr, S., Echavarria, C. E., & Tootell, R. B. H. (2014). Thinking outside the box: Rectilinear shapes selectively activate scene-selective cortex.(20), 6721–6735.
Oliva, A., & Schyns, P. G. (1997). Coarse blobs or fine edges? Evidence that information diagnosticity changes the perception of complex visual stimuli.(1), 72–107.
Oliva, A. (2005). Gist of the scene. In L. Itti, G. Rees, & J. K. Tsotsos (Eds.),(pp. 251–256). San Diego, CA: Elsevier.
Oliva, A., & Schyns, P. G. (2000). Diagnostic colors mediate scene recognition.(2), 176–210.
Oliva, A., & Torralba, A. (2001). Modeling the shape of the scene: A global representation of the spatial envelope.(3), 145–175.
Oliva, A., & Torralba, A. (2006). Building the gist of a scene: The role of global image features in recognition., 23–36.
Otsuka, S., & Kawaguchi, J. (2007). Natural scene categorization with minimal attention: Evidence from negative priming.(7), 1126–1139.
Otsuka, S., & Kawaguchi, J. (2009). Direct versus indirect processing changes the influence of color in natural scene categorization.(7), 1588–1597.
Otsuka, Y., Ichikawa, H., Kanazawa, S., Yamaguchi, M. K., & Spehar, B. (2014). Temporal dynamics of spatial frequency processing in infants.(3), 995–1008.
Park, S., & Chun, M. M. (2009). Different roles of the parahippocampal place area (PPA) and retrosplenial cortex (RSC) in panoramic scene perception.(4), 1747–1756.
Park, S., Brady, T. F., Greene, M. R., & Oliva, A. (2011). Disentangling scene content from spatial boundary: Complementary roles for the parahippocampal place area and lateral occipital complex in representing real-world scenes.(4), 1333–1340.
Patai, E. Z., Buckley, A., & Nobre, A. C. (2013). Is attention based on spatial contextual memory preferentially guided by low spatial frequency signals?(6), e65601.
Peelen, M. V., Fei-Fei, L., & Kastner, S. (2009). Neural mechanisms of rapid natural scene categorization in human visual cortex.(7251), 94–97.
Poncet, M., Reddy, L., & Fabre-Thorpe, M. (2012). A need for more information uptake but not focused attention to access basic-level representations.(1), 15.
Poncet, M., & Fabre-Thorpe, M. (2014). Stimulus duration and diversity do not reverse the advantage for superordinate-level representations: The animal is seen before the bird.(9), 1508–1516.
Potter, M. C. (1975). Meaning in visual search.(4180), 965–966.
Potter, M. C., & Levy, E. I. (1969). Recognition memory for a rapid sequence of pictures.(1), 10–15.
Potter, M. C., Wyble, B., Hagmann, C. E., & McCourt, E. S. (2014). Detecting meaning in RSVP at 13 ms per picture.(2), 270–279.
Rajimehr, R., Devaney, K. J., Bilenko, N. Y., Young, J. C., & Tootell, R. B. H. (2011). The “parahippocampal place area” responds preferentially to high spatial frequencies in humans and monkeys.(4), e1000608.
Ramkumar, P., Hansen, B. C., Pannasch, S., & Loschky, L. C. (2016). Visual information representation and rapid-scene categorization are simultaneous across cortex: An MEG study., 295–304.
Rivolta, D., Palermo, R., Schmalzl, L., & Williams, M. A. (2012). An early category-specific neural response for the perception of both places and faces.(1), 45–51.
Rosch, E., Mervis, C. B., Gray, W. D., Johnson, D. M., & Boyes-Braem, P. (1976). Basic objects in natural categories.(3), 382–439.
Rotshtein, P., Schofield, A., Funes, M. J., & Humphreys, G. W. (2010). Effects of spatial frequency bands on perceptual decision: It is not the stimuli but the comparison.(10), 25.
Rousselet, G., Joubert, O., & Fabre-Thorpe, M. (2005). How long to get the “gist” of real-world natural scene?(6), 852–877.
Sato, N., Nakamura, K., Nakamura, A., Sugiura, M., Ito, K., Fukuda, H., & Kawashima, R. (1999). Different time course between scene processing and face processing: An MEG study.(17), 3633–3637.
Schyns, P. G., & Oliva, A. (1994). From blobs to boundary edges: Evidence for time- and spatial-scale-dependent scene recognition.(4), 195–200.
Serre, T. (2016). Models of visual categorization.(3), 197– 213.
Siddiqui, A., & Brown, J. (2015). The role of gist processing in boundary extension.(12), 354.
Silson, E. H., Chan, A. W.-Y., Reynolds, R. C., Kravitz, D. J., & Baker, C. I. (2015). A retinotopic basis for the division of high-level scene processing between lateral and ventral human occipitotemporal cortex.(34), 11921–11935.
Sofer, I., Crouzet, S. M., & Serre, T. (2015). Explaining the timing of natural scene understanding with a computational model of perceptual categorization.(9), e1004456.
Soto, D., Wriglesworth, A., Bahrami-Balani, A., & Humphreys, G. W. (2010). Working memory enhances visual perception: Evidence from signal detection analysis.(2), 441–456.
Stansbury, D. E., Naselaris, T., & Gallant, J. L. (2013). Natural scene statistics account for the representation of scene categories in human visual cortex.(5), 1025–1034.
Subramanian, R., Shankar, D., Sebe, N., & Melcher, D. (2014). Emotion modulates eye movement patterns and subsequent memory for the gist and details of movie scenes.(3), 31.
Sun, Q., Ren, Y. J., Zheng, Y., Sun, M. X., & Zheng, Y. J. (2016). Superordinate level processing has priority over basic-level processing in scene gist recognition.(6), 1–18.
Thibaut, M., Tran, T. H. C., Szaffarczyk, S., & Boucart, M. (2014). The contribution of central and peripheral vision in scene categorization: A study on people with central vision loss., 46–53.
Thorpe, S., Fize, D., & Marlot, C. (1996). Speed of processing in the human visual system.(6582), 520–522.
Torralba, A., Oliva, A., Castelhano, M. S., & Henderson, J. M. (2006). Contextual guidance of eye movements and attention in real-world scenes: The role of global features in object search.(4), 766–786.
Troiani, V., Stigliani, A., Smith, M. E., & Epstein, R. A. (2014). Multiple object properties drive scene-selective regions.(4), 883–897.
Tversky, B., & Hemenway, K. (1983). Categories of environmental scenes.(1), 121– 149.
Vanmarcke, S., & Wagemans, J. (2015). Rapid gist perception of meaningful real-life scenes: Exploring individual and gender differences in multiple categorization tasks.(1), 19–37.
Vanmarcke, S., & Wagemans, J. (2016). Individual differences in spatial frequency processing in scene perception: The influence of autism-related traits.,(2), 115–131.
Vanmarcke, S., van Esch, L., van der Hallen, R., Evers, K., Noens, I., Steyaert, J., & Wagemans, J. (2016). Gist perception in adolescents with and without ASD: Ultra- rapid categorization of meaningful real-life scenes., 30–47.
Vann, S. D., Aggleton, J. P., & Maguire, E. A. (2009). What does the retrosplenial cortex do?(11), 792–802.
Vass, L. K., & Epstein, R. A. (2013). Abstract representations of location and facing direction in the human brain.(14), 6133– 6142.
V?, M. L.-H., & Wolfe, J. M. (2013). Differential electrophysiological signatures of semantic and syntactic scene processing.(9), 1816–1823.
Walker, S., Stafford, P., & Davis, G. (2008). Ultra-rapid categorization requires visual attention: Scenes with multiple foreground objects.(4), 21.
Walther, D. B., Caddigan, E., Fei-Fei, L., & Beck, D. M. (2009). Natural scene categories revealed in distributed patterns of activity in the human brain.(34), 10573–10581.
Walther, D. B., & Shen, D. D. (2014). Nonaccidental properties underlie human categorization of complex natural scenes.(4), 851–860.
Wang, P. Q., & Cottrell, G. (2016). Modeling the contribution of central versus peripheral vision in scene, object, and face recognition. In A. Papafragou, D. Grodner, D. Mirman, & J. C. Trueswell (Eds.),. Austin, TX: Cognitive Science Society.
Wedel, M., & Pieters, R. (2015). The buffer effect: The role of color when advertising exposures are brief and blurred.(1), 134–143.
Wei, X., Phung, S. L., & Bouzerdoum, A. (2016). Visual descriptors for scene categorization: Experimental evaluation.(3), 333–368.
Wu, C.-C., Wang, H.-C., & Pomplun, M. (2014). The roles of scene gist and spatial dependency among objects in the semantic guidance of attention in real-world scenes., 10–20.
Wu, C.-T., Crouzet, S. M., Thorpe, S. J., & Fabre-Thorpe, M. (2015). At 120 msec you can spot the animal but you don't yet know it's a dog.(1), 141–149.
Yao, A. Y., & Einh?user, W. (2008). Color aids late but not early stages of rapid natural scene recognition.(16), 12.
Scene gist processing and its mechanisms
LI Mengqi1; CHEN Zhimin1; ZHENG Yuanjie2; REN Yanju1
(1School of Psychology, Shandong Normal University, Jinan 250358, China) (2School of Information Science and Engineering, Shandong Normal University, Jinan 250358, China)
With a mere glimpse of a scene, observers can grasp a variety of perceptual and semantic information. This is referred to as scene gist. In recent years, scene gist processing has become an important topic in visual perception domain. Research on this theme can reveal the processing mechanisms for visual information and provide important implications for developing intelligent machine vision. The influencing factors, the controversial issues, and the neural basis of scene gist processing are reviewed. Some important issues, including the primary element of scene gist processing, the relevant theoretical explanations, the modulating factors of the hierarchical processing, the modulatory effect of attention, the timing dynamic characteristics and the construction of the brain function network, should be further explored.
scene gist; hierarchical processing; attention
2017-02-28
* 山東省自然科學(xué)基金面上項(xiàng)目(ZR2017MC058); 山東省高等學(xué)校人文社會(huì)科學(xué)研究計(jì)劃項(xiàng)目(J13WH07); 山東省“泰山學(xué)者海外特聘專家”項(xiàng)目(TSHW201502038); 山東省高校人類認(rèn)知與行為發(fā)展重點(diǎn)實(shí)驗(yàn)室; 山東師范大學(xué)“二層次”人才資助項(xiàng)目。
任衍具, E-mail: renyanju@gmail.com
10.3724/SP.J.1042.2018.00081
B842