唐 寧 安 瑋 徐昊骙 周吉帆 高 濤 沈模衛(wèi)
(浙江大學(xué)心理與行為科學(xué)系,杭州 310028)
自AlphaGo在2016年3月以4∶1的比分擊敗圍棋大師李世石以來,人工智能的發(fā)展獲得了空前廣泛的關(guān)注。作為哲學(xué)、數(shù)學(xué)、心理學(xué)、神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)等學(xué)科的交叉領(lǐng)域,人工智能雖已取得了令人矚目的進(jìn)步,但與通用智能的目標(biāo)還相距甚遠(yuǎn)。在關(guān)于實(shí)現(xiàn)何種智能體,以及如何實(shí)現(xiàn)它等核心問題上,研究者們尚存較大分歧。如果無法解決這些關(guān)乎人工智能發(fā)展方向的問題,那么其進(jìn)程仍將舉步維艱。
在2017年12月初剛結(jié)束的人工智能領(lǐng)域重要會(huì)議——神經(jīng)信息處理系統(tǒng)大會(huì)(Conference and Workshop on Neural Information Processing Systems,簡稱NIPS)上,一場有關(guān)實(shí)現(xiàn)智能的途徑的專題討論(Symposium:Kinds of Intelligence)頗為引人關(guān)注(機(jī)器之心,2017)。其間Deepmind的首席執(zhí)行官Hassabis介紹了最近大放異彩的棋類競賽程序AlphaZero。借助深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù),AlphaZero在不利用任何人類已有棋譜的條件下,通過大量的自我對(duì)弈,在國際象棋、圍棋和將棋競賽中均完勝人類和其他棋類程序。AlphaZero那從零開始學(xué)習(xí)從而形成的強(qiáng)大能力令人贊嘆,許多與會(huì)者覺得它距通用人工智能的目標(biāo)又前進(jìn)了一步,然而Tenenbaum、Marcus和Gopnik等學(xué)者卻對(duì)此提出了不同見解。Tenenbaum認(rèn)為智能并不僅是利用一些確定的公式或程序進(jìn)行計(jì)算,還應(yīng)該包括實(shí)現(xiàn)自身對(duì)世界的理解,并有能力為完成目標(biāo)提出和解決問題。構(gòu)造這樣的智能系統(tǒng),首先需要建立一個(gè)具備常識(shí)的“智慧”核心。該核心并不像AlphaZero那樣需要大量的學(xué)習(xí),便可“直覺”地理解世界的運(yùn)作模式。Marus則指出AlphaZero只適用于“完美信息”的博弈,不具備通用智能。因?yàn)槠寰挚梢浴巴昝赖亍边M(jìn)行模擬,而現(xiàn)實(shí)生活卻充滿了不確定性;棋局可以通過海量數(shù)據(jù)的學(xué)習(xí)或訓(xùn)練找到最優(yōu)解,而現(xiàn)實(shí)中的每個(gè)事件通常難以獲取大量的重復(fù)樣本。因此實(shí)現(xiàn)與開放世界的有效交互,先驗(yàn)的算法和知識(shí)是必備的,這也是AlphaZero難以應(yīng)對(duì)現(xiàn)實(shí)世界的關(guān)鍵所在。此外,他還指出,就AlphaZero本身而言,也并非完全的“零知識(shí)”,即它在自我博弈時(shí)所用到的蒙特卡洛樹搜索方法就源于人類認(rèn)知研究的啟發(fā)。
“人工智能是否需要與生俱來的認(rèn)知能力”是這場專題討論中所關(guān)注的關(guān)鍵問題之一。該問題在2017年10月紐約大學(xué)的研討中曾進(jìn)行過深入探討(IEEE spectrum,2017)。LeCun和Marcus的觀點(diǎn)分別代表了當(dāng)前開發(fā)人工智能系統(tǒng)的兩種取向。LeCun認(rèn)為,現(xiàn)代人工智能系統(tǒng)在很大程度上并不需要對(duì)這個(gè)世界的運(yùn)作原理建立假設(shè)和結(jié)構(gòu)化概念。他傾向于最小化人工智能算法的結(jié)構(gòu),以保留算法的簡單性,追求盡量減少“先天”(innate)機(jī)制的成分,強(qiáng)調(diào)利用可以獲得的數(shù)據(jù)完成學(xué)習(xí)。Marcus則基于自己和Spelke等人的研究成果,指出兒童在早期就可以利用結(jié)構(gòu)化的表征和算法處理對(duì)象、集合、位置以及時(shí)空連續(xù)性等概念。他認(rèn)為現(xiàn)代人工智能系統(tǒng)不應(yīng)該只是基于輸入信息的基本單元(例如圖像識(shí)別中圖片的像素矩陣)進(jìn)行處理,而需要借助人類認(rèn)知的研究成果,加入更加豐富的結(jié)構(gòu)化元素和表征,以及對(duì)應(yīng)的算法,從而更好地理解外部世界。
這次爭論演化出兩個(gè)具體問題:其一為智能體的學(xué)習(xí)是借助了部分先天的機(jī)制還是純粹源自后天的經(jīng)驗(yàn)?其二是如果存在先天的認(rèn)知成分,其表現(xiàn)形式是什么?以深度學(xué)習(xí)為代表的當(dāng)下熱門人工智能技術(shù)似乎并不支持“先天”假設(shè)。深度學(xué)習(xí)用簡單統(tǒng)一的方法,借助計(jì)算能力和計(jì)算資源的迅猛發(fā)展,可以在諸多任務(wù)的績效上逼近乃至超過人類。然而,在虛擬的數(shù)字世界里,需要成百上千萬次的失敗經(jīng)驗(yàn)才能讓智能系統(tǒng)學(xué)會(huì)一項(xiàng)技能;在現(xiàn)實(shí)生活中,人往往并不需要無數(shù)次滾下山坡就能掌握如何在陡峭的山崗上行走。二者對(duì)數(shù)據(jù)量和訓(xùn)練時(shí)間的需求相去甚遠(yuǎn)。使人工智能系統(tǒng)像人一樣具備小樣本學(xué)習(xí)的能力,是實(shí)現(xiàn)通用人工智能系統(tǒng)的重要環(huán)節(jié)。因此從人類的認(rèn)知研究中探尋小樣本學(xué)習(xí)的機(jī)制,可能是推進(jìn)通用人工智能系統(tǒng)的希望所在。
在“大數(shù)據(jù)”的驅(qū)動(dòng)下,人工智能系統(tǒng)可以通過海量數(shù)據(jù)的訓(xùn)練,在特定的任務(wù)上超過人類專家,其特點(diǎn)可以概括為“大數(shù)據(jù)、小任務(wù)”。然而,人類的“智能”是在適應(yīng)和理解復(fù)雜多變的物理和社會(huì)環(huán)境的過程中進(jìn)化而來,并非只適用于解決具有明確規(guī)則的任務(wù)或游戲?!皬?qiáng)認(rèn)知”的觀點(diǎn)認(rèn)為,當(dāng)今的人工智能系統(tǒng)尚未超過3歲兒童的智能水平(周吉帆等,2016)。例如常年漫雪的阿爾卑斯山和四季如春的武夷山其外觀相去甚遠(yuǎn),兒童無需太多的學(xué)習(xí)就能知曉前者是山,后者也是山,并將兩者歸為一類。盡管人們所面對(duì)的是一個(gè)形態(tài)各異且變化無常的外界環(huán)境,但只需要少量的數(shù)據(jù)樣本,便可快速地提取知識(shí),理解世界并做出判斷或行為。而且,人們?cè)谝粋€(gè)任務(wù)情景中學(xué)到的知識(shí)或經(jīng)驗(yàn)可遷移到不同的任務(wù)情境中??焖賹W(xué)習(xí)和靈活遷移正是人類智能的重要特點(diǎn),可以被概括為“小數(shù)據(jù)、大任務(wù)”。
數(shù)據(jù)量與學(xué)習(xí)間的關(guān)系似乎是在“大數(shù)據(jù)”時(shí)代出現(xiàn)的新問題,實(shí)際上,對(duì)該問題的爭辯可一直追溯到2000多年前的古希臘。柏拉圖在《理想國》第七卷中指出,在數(shù)學(xué)家們所構(gòu)建的幾何體系中,他們將完美的幾何圖形(如正三角形、正方形等)的存在作為無須證明的假設(shè),并以此為基點(diǎn)推論出相關(guān)的幾何定理。然而,在那個(gè)沒有計(jì)算機(jī)和精密機(jī)械的年代,世界上幾乎不存在完美的幾何圖形——數(shù)學(xué)家頭腦中的完美圖形是如何在沒有數(shù)據(jù)或經(jīng)驗(yàn)的條件下被構(gòu)想出來的?柏拉圖在《美諾篇(Meno)》中,對(duì)這一問題做了具體的闡述。他描述了一個(gè)從未受過教育的奴隸男孩,經(jīng)蘇格拉底的數(shù)個(gè)簡單問題的啟發(fā),如何快速地學(xué)得幾何知識(shí),即將正方形的對(duì)角線替換其邊長,能使其面積增大一倍。這便成了揭示人類從少量數(shù)據(jù)中獲取豐富知識(shí)的經(jīng)典案例。柏拉圖認(rèn)為,這種知識(shí)與數(shù)據(jù)鴻溝的彌合在于奴隸男孩的“有知”狀態(tài),即在面對(duì)該幾何問題的最初時(shí)刻,他并非一無所知,而是已經(jīng)將正確答案鎖定在了很小的范圍內(nèi)。此時(shí)只需少量的數(shù)據(jù)或他人的啟發(fā)即可完成任務(wù)。
在過去30年中,發(fā)展心理學(xué)的研究為柏拉圖的“先天論”提供了大量的證據(jù),例如出生僅僅幾個(gè)月的嬰兒就具備豐富的物理知識(shí)和社會(huì)知識(shí)(Onishi & Baillargeon,2005;Hamlin,Wynn,& Bloom,2007;Gweon et al.,2010;Stahl & Feigenson,2015;Leonard,Lee,& Schulz,2017)。這些與生俱來的知識(shí)是后天學(xué)習(xí)的基礎(chǔ),通常被稱為“核心知識(shí)”(core knowledge,Spelke & Kinzler,2007)。本文基于存在先天核心知識(shí)的觀點(diǎn),進(jìn)一步探討了人類“知識(shí)表征”的特點(diǎn)如何適應(yīng)“小數(shù)據(jù)、大任務(wù)”的學(xué)習(xí)。
從認(rèn)知計(jì)算的觀點(diǎn)出發(fā),對(duì)存在于一個(gè)集合中正確答案的搜索過程一直是認(rèn)知心理學(xué)與人工智能領(lǐng)域的研究焦點(diǎn)。知識(shí)可以看作是對(duì)外界屬性、規(guī)律的一個(gè)論斷或假設(shè)。所有可能的假設(shè)所構(gòu)成的集合被稱為假設(shè)空間。學(xué)習(xí)可以描述為在這個(gè)假設(shè)空間中搜索到最優(yōu)假設(shè)的過程。這個(gè)搜索過程可能同時(shí)受后天的數(shù)據(jù)(或經(jīng)驗(yàn))和先天的知識(shí)的影響。“知識(shí)表征”的重要性在于它的形式會(huì)直接影響假設(shè)空間的涵蓋范圍、復(fù)雜程度和搜索效率。
假設(shè)空間的涵蓋范圍取決于知識(shí)表征的形式。所有計(jì)算模型只能在其所采用的表征形式允許的范圍內(nèi)尋找答案。例如,一元線性回歸模型是不能擬合二次曲線的。因?yàn)樵撃P偷谋碚鳛椤靶甭省焙汀敖鼐唷保瑹o法表達(dá)“曲線”特征。良好的表征應(yīng)該涵蓋廣大的范圍,并包容各種合理的假設(shè)。如果涵蓋范圍過窄,模型則會(huì)過于“天真”,無法解釋復(fù)雜的情景。例如幼兒傾向于用“非黑即白”的簡單二分方式去理解世界。這樣的表征雖然易于操作,但不適用于表達(dá)現(xiàn)實(shí)世界的復(fù)雜性。錢鐘書在《讀伊索寓言》一文中,直言幼兒不應(yīng)讀寓言,因?yàn)樵⒀詴?huì)強(qiáng)化幼兒對(duì)世界簡單、極端的認(rèn)知。
假設(shè)空間的復(fù)雜程度也與其表征形式直接相關(guān)。為了擴(kuò)大涵蓋范圍,最直接的方式是逐條列舉所有可能的假設(shè)。這種方式過于“暴力”,可能造成假設(shè)空間的混亂和無序。就像人們?cè)谝粋€(gè)缺乏組織和索引的圖書館中難以找到確實(shí)存在其中的所需的書籍。良好的表征形式能夠在保持假設(shè)空間涵蓋范圍的前提下,化繁為簡。假設(shè)空間的簡單有序性使得小數(shù)據(jù)學(xué)習(xí)成為可能。在自然科學(xué)史上,這樣的例子不勝枚舉。元素周期表便是一個(gè)典型的案例。在門捷列夫之前,化學(xué)家對(duì)大量的實(shí)驗(yàn)結(jié)果無法進(jìn)行有效的歸納總結(jié)。而門捷列夫的周期表,可以看作是一個(gè)以“周期律”為基礎(chǔ)的精巧的知識(shí)表征。它用一個(gè)很小的假設(shè)空間涵蓋了所有元素可能的屬性。后人利用元素周期表成功預(yù)測了幾種未被發(fā)現(xiàn)的元素的屬性,這可作為“零數(shù)據(jù)”學(xué)習(xí)的例子。
表征形式直接影響了對(duì)假設(shè)空間的搜索效率。任何一種表征都不能無條件、無限制地應(yīng)對(duì)所有情景。對(duì)某類數(shù)據(jù)的高效加工必然是以對(duì)非該類數(shù)據(jù)的低效加工為代價(jià)的,這被稱為“無免費(fèi)午餐”理論(Wolpert & Macready,1997)。因此,構(gòu)建高效表征的核心在于盡量提高對(duì)普遍的、出現(xiàn)概率高的數(shù)據(jù)的加工效率,其代價(jià)是犧牲對(duì)特殊的、概率低的數(shù)據(jù)的加工效率。這與信息論中“最優(yōu)編碼長度”(optimal coding length)原理相一致:為了將編碼的平均長度降到最低,應(yīng)將短編碼賦予高頻信息,同時(shí)將長編碼賦予低頻信息。可見,良好的知識(shí)表征應(yīng)該如實(shí)地反應(yīng)數(shù)據(jù)在真實(shí)世界中的分布,即更好地表達(dá)、描述真實(shí)世界中的普遍、高頻數(shù)據(jù),以實(shí)現(xiàn)主觀世界與客觀世界的統(tǒng)一。
“層級(jí)樹”作為一種可以支持“小數(shù)據(jù)”學(xué)習(xí)的人類知識(shí)表征,筆者將在下文中加以簡要介紹。層級(jí)樹(見圖1)起始于一個(gè)根節(jié)點(diǎn)(root node),用以表示一個(gè)整體。該整體可以分解為一些小的組件,每個(gè)小的組件分別用根節(jié)點(diǎn)下的一個(gè)子節(jié)點(diǎn)表示。表征中任意非終止節(jié)點(diǎn)所表示的組件,可繼續(xù)分解為其下屬的多個(gè)子節(jié)點(diǎn)所表示的子組件,直至分解為由終止節(jié)點(diǎn)代表的最小基元。在通過運(yùn)用“組合-分解”原則遞歸形成的多層級(jí)結(jié)構(gòu)表征中,少量的要素可以產(chǎn)生大量的對(duì)象。
圖1 層級(jí)結(jié)構(gòu)表征形式的示意圖
層級(jí)樹的核心在于通過迭代(或遞歸),將“有限的組件”在“有限的規(guī)則”下層層組裝,用以表達(dá)無限的知識(shí)。有限組件與層層迭代解決了“涵蓋廣”與“空間小”的兩難問題。由于層級(jí)的作用,一個(gè)大而復(fù)雜的問題被轉(zhuǎn)化為一系列小而簡單的問題,從而加快了正確假設(shè)的搜索速度。
此外,層級(jí)樹結(jié)構(gòu)還具備以下優(yōu)點(diǎn):
(1)提高認(rèn)知資源的使用效率。在層級(jí)樹中,由于多個(gè)“子節(jié)點(diǎn)”共享同一個(gè)“父節(jié)點(diǎn)”,因此子節(jié)點(diǎn)的共有特征只需在上一層的父節(jié)點(diǎn)上做一次性表達(dá)即可。這對(duì)有限認(rèn)知資源的高效利用至關(guān)重要。例如,我們最近的一項(xiàng)工作探索了對(duì)多客體運(yùn)動(dòng)的記憶和預(yù)測(Xu et al.,2017)。結(jié)果發(fā)現(xiàn),當(dāng)多客體的運(yùn)動(dòng)方向存在層級(jí)共享時(shí),人的績效會(huì)顯著提升。
(2)表達(dá)了同一事物在不同層級(jí)的抽象程度。在層級(jí)樹中,沿層級(jí)下降,表征的具體性增加;沿層級(jí)上升,表征的抽象性提高。人會(huì)根據(jù)具體的任務(wù)要求,靈活地在不同抽象層級(jí)間進(jìn)行切換。例如,在觀察他人的協(xié)調(diào)運(yùn)動(dòng)時(shí),人可熟練地在團(tuán)體、個(gè)人和身體局部三個(gè)層面提取關(guān)鍵信息(Ding,Gao,& Shen,2017)。對(duì)事物的“恰當(dāng)抽象”有助于利用舊知識(shí)解決新問題,即實(shí)現(xiàn)“遷移學(xué)習(xí)”。這也是人類“比喻”“類推”能力的基礎(chǔ)。諸多社會(huì)交往的概念是由物理世界中客體交互的概念遷移而來。例如,物理客體間的相互作用力包括“吸引力”“排斥力”等。這些物理概念也通常應(yīng)用于描述人際關(guān)系(Talmy,1988)(如“他對(duì)我的吸引力很大”等)。
(3)表達(dá)了對(duì)象間的因果關(guān)系。層級(jí)樹的上下層間存在“因”和“果”的關(guān)系,即上層節(jié)點(diǎn)的屬性決定了下層節(jié)點(diǎn)的屬性。對(duì)層級(jí)樹的逐級(jí)展開過程,即為以表征為藍(lán)圖“產(chǎn)生”數(shù)據(jù)的因果過程。大量認(rèn)知心理學(xué)的研究表明,提取因果關(guān)系是人類認(rèn)知的核心特征之一(Sperber,Premack,&Premack,1995)。這與統(tǒng)計(jì)學(xué)所強(qiáng)調(diào)的“數(shù)據(jù)相關(guān)不代表因果”形成鮮明對(duì)比。在《因果》一書中,Judea Pearl系統(tǒng)論證了從數(shù)據(jù)中提取因果關(guān)系的數(shù)學(xué)基礎(chǔ)(Judea Pearl,2009),并因此獲得2011年圖靈獎(jiǎng)。對(duì)人類層級(jí)樹表征的研究,可促進(jìn)構(gòu)建具備“因果”推理能力的人工智能系統(tǒng)。
在認(rèn)知科學(xué)中,層級(jí)樹表征的概念最早被心理語言學(xué)領(lǐng)域采用,并應(yīng)用于大量的研究中。語言文字作為隨著文明發(fā)展而來的人類特有產(chǎn)物,其各類組件間存在著明顯的層級(jí)關(guān)系:從最基本的筆畫開始,不斷組合以形成字、詞、句、段落、文章等。例如,橫、豎、撇、捺、勾5種筆畫便可組合出約50000種的中文字符。這種現(xiàn)象也存在于包括希臘語、拉丁語等在內(nèi)的其他語種(Lake,Salakhutdinov,& Tenenbaum,2015)。
詞作為與意義直接相關(guān)的最小語料,可以通過語法組成句子,以表達(dá)一個(gè)完整的含義,包括陳述一個(gè)事實(shí)、提出一個(gè)疑問等。句子的理解,是人類智能通過符號(hào)獲取知識(shí)中最為關(guān)鍵的部分。然而人對(duì)語言的理解同樣需要解答西方哲學(xué)中的柏拉圖之問:為什么人類在較少直接語言經(jīng)驗(yàn)的條件下,能夠快速地掌握語言的使用?喬姆斯基(Chomsky,1986)借此提出了“刺激貧乏”(poverty of stimulus)的語言學(xué)術(shù)語,用于指涉“極其貧乏的語言環(huán)境”與“極其具體和復(fù)雜的語言知識(shí)系統(tǒng)”之間存在著巨大的鴻溝。
為了解決此問題,喬姆斯基提出了轉(zhuǎn)換生成語法理論(Transformational-Generative Grammar,TCG)。他(Chomsky,1964,1975)認(rèn)為語言的學(xué)習(xí)存在“結(jié)構(gòu)依賴性”(structure dependence),該結(jié)構(gòu)具有層級(jí)關(guān)系。對(duì)句子的解析可描述為一個(gè)樹狀結(jié)構(gòu)(見圖2)。在該樹狀結(jié)構(gòu)下,語言組件的組合關(guān)系必須符合語法規(guī)則的限制:構(gòu)成整個(gè)句子的短語間的關(guān)系類型是受限制的,只能是主謂、述賓、述補(bǔ)、偏正等;每個(gè)部分的組件類型也是受限制的,如作為主語部分的詞或者短語又必須是名詞性質(zhì)的。該理論揭示了如何根據(jù)有限的語法規(guī)則,使用有限的語料生成數(shù)量無限的句子。人們通常通過替換組件的內(nèi)容或改變組件的關(guān)系,以產(chǎn)生新的句子。
圖2 轉(zhuǎn)換生成語法理論中的語法解析樹(Chomsky,1964)
轉(zhuǎn)換-生成語法理論中的層級(jí)結(jié)構(gòu)表征,在諸多層面的語言認(rèn)知研究如句法分析(Chomsky,1964)、語義識(shí)別(Smith,Shoben,& Rips,1974)和語音識(shí)別(Norris & McQueen,2008)等領(lǐng)域中均獲得了證據(jù)。最近的研究則進(jìn)一步揭示了與語言密切相關(guān)的“概念學(xué)習(xí)”領(lǐng)域的等級(jí)表征(Hamlin et al.,2013;Johnson & Keil,2014)。語言的層級(jí)結(jié)構(gòu)表征也得到了認(rèn)知神經(jīng)科學(xué)證據(jù)的支持。在最近一項(xiàng)受到喬姆斯基高度評(píng)價(jià)和多次引用的工作中,丁鼐等(2016)通過利用腦磁圖(MEG)和顱內(nèi)腦電(ECoG)測量,發(fā)現(xiàn)對(duì)于聽覺通道輸入的言語刺激,不同周期的神經(jīng)震蕩可以并行跟蹤單詞、短語和句子等不同層次語言結(jié)構(gòu)的加工進(jìn)程。
轉(zhuǎn)換-生成語法理論不僅提出了語言加工的表征,并提供了對(duì)該表征相應(yīng)的運(yùn)算法則——“情景-獨(dú)立語法”(context-free grammar,CFG)。其中“語法”是大組塊分解為小組塊的規(guī)則的集合?!扒榫蔼?dú)立”指語法規(guī)則本身不受其出現(xiàn)位置的上下文情景的影響。語法所制定的分解過程用符號(hào)“->”表達(dá)。“S->ABC”代表大組塊“S”依據(jù)規(guī)則被分解為了小組塊“A”“B”“C”。轉(zhuǎn)換-生成的過程同時(shí)包含了“且”(And)與“或”這兩類最基本的邏輯推理類型。“且”表現(xiàn)為分解規(guī)則的具體內(nèi)容。例如規(guī)則“S->ABC”指定,對(duì)S的分解要求小組塊“A”“B”“C”同時(shí)出現(xiàn),缺一不可?!盎颉斌w現(xiàn)在對(duì)同一組塊,可存在多種不同的分割規(guī)則。例如對(duì)組塊S,可以設(shè)定另外一條分解法則“S->ADE”?!扒摇钡募s束,使表征的結(jié)構(gòu)具有穩(wěn)定性,“或”的選擇,使表征具有靈活性。
對(duì)構(gòu)成“或”關(guān)系的多種合法規(guī)則的選擇,很自然地可交由概率論決定。二者結(jié)合的產(chǎn)物被稱為“概率化情景-獨(dú)立語法”(probabilistic context-free grammars),簡稱“PCFG”(Chi & Geman,1988)。概率論的引入解決了兩個(gè)問題。第一,當(dāng)面對(duì)多種可選規(guī)則時(shí),概率論提供了簡單、通用的選取方法。將每一條規(guī)則賦予一個(gè)概率值,則多條規(guī)則就構(gòu)成了一個(gè)“多項(xiàng)分布”。對(duì)規(guī)則的選擇即為從該多項(xiàng)分布中完成一次“取樣”。第二,概率論提供了對(duì)多種不同層級(jí)樹進(jìn)行比較的客觀、定量標(biāo)準(zhǔn)。當(dāng)每一條規(guī)則的概率確定后,只需進(jìn)一步記錄每條規(guī)則在某個(gè)層級(jí)樹中出現(xiàn)的次數(shù),便可導(dǎo)出該層級(jí)樹出現(xiàn)的概率。最優(yōu)的層級(jí)樹可由“最大概率原則”獲得。正如前文所述,層級(jí)樹可將一個(gè)大的復(fù)雜的問題轉(zhuǎn)化為一系列小的簡單的問題。公式(1)是這一原則在數(shù)學(xué)上的表達(dá),體現(xiàn)為樹的整體概率被拆分為一系列局部規(guī)則概率的連乘。
p(α)∝∏g∈Gp(g)c(g;α)
(1)
公式中,α代表某個(gè)層級(jí)樹;p(α)代表該樹的出現(xiàn)的概率。G代表所有的語法,g代表某條具體的語法。C(g;α)代表在樹α中,語法g出現(xiàn)的次數(shù)。
語法層級(jí)樹不僅廣泛應(yīng)用于語言學(xué)研究,也在相隔甚遠(yuǎn)的計(jì)算機(jī)圖形學(xué)領(lǐng)域中得到應(yīng)用。例如,程序模型可通過有限的示例圖形,學(xué)習(xí)到古代東亞的建筑風(fēng)格,并據(jù)此生成了大量類似的建筑(Talton et al.,2012,見圖3)。PCFG也應(yīng)用于基因組功能識(shí)別(Knudsen & Hein,2003),網(wǎng)頁設(shè)計(jì)(Talton et al.,2012)等領(lǐng)域。
圖3 通過語法歸納學(xué)習(xí)建筑風(fēng)格(Talton et al.,2012)
與人工智能所關(guān)注的對(duì)有限視覺物體的分類不同,人類視覺的最終輸出可涵蓋大量豐富的內(nèi)容和意義,包括視覺場景的結(jié)構(gòu),物體在場景中的作用,物體與物體間的關(guān)系,人與物的關(guān)系,人與人的關(guān)系,以及人與環(huán)境的關(guān)系等。
視覺的語義屬性對(duì)社會(huì)生活具有重大影響,也是攝影能成為一個(gè)獨(dú)立的藝術(shù)門類的基礎(chǔ)。大量出色的攝影圖片成為經(jīng)典,并非僅僅是構(gòu)圖精美、內(nèi)容新穎,而是以它們特有的語言,講述了一個(gè)個(gè)生動(dòng)的故事,這可借用一句英文的諺語概括為“一圖抵千言”(A picture is worth a thousand words)(Stevenson,1949)。例如在Charles Ebbets 1932年的作品《摩天大樓頂上的午餐》中(見圖4),城市的繁華、鋼梁的危險(xiǎn)和工人有說有笑的午餐構(gòu)成了強(qiáng)烈的對(duì)比,精準(zhǔn)地描述了那個(gè)時(shí)代的精神。
由此推論,視覺表征必須支持對(duì)“視覺語義”靈活、高效的表達(dá)(即便以犧牲對(duì)雜亂、無語義圖像的低效表達(dá)為代價(jià))。眾所周知,視覺的加工起始于對(duì)基本特征的加工,包括顏色、朝向以及由多種Gabor濾波器定義的特征(Julesz,1981)。然而視覺如何從這些有限、固定的特征出發(fā),最終表達(dá)大量的語義呢?顯而易見,“語義輸出”與“特征輸入”間存在著巨大的落差,被稱為“語義鴻溝”(semantic gap)(Smeulders et al.,2000)。
視覺語義的存在得到了少許實(shí)驗(yàn)研究的支持。人具有快速的將一個(gè)動(dòng)態(tài)視覺事件描述為一個(gè)故事的能力(Heider & Simmel,1944),并且也能將語言中的概念落實(shí)到一個(gè)視覺場景中的某一個(gè)具體部分(Gorniak & Roy,2004;Jackendoff,1996;Talmy,1988)。著名的“圖片-句子”匹配范式要求被試判斷圖片的內(nèi)容與句子的語義(如“十字在星形之上”的語句)是否一致(Clark & Chase,1972)。結(jié)果發(fā)現(xiàn)當(dāng)圖片中客體間的關(guān)系與句子中介詞的描述一致時(shí),被試的反應(yīng)更快。另有研究要求被試在聽故事的同時(shí)觀察一組圖片(Cooper,1974)。結(jié)果發(fā)現(xiàn),被試的眼動(dòng)軌跡與故事的語義存在對(duì)應(yīng)關(guān)系,表現(xiàn)為被試會(huì)快速眼跳至與故事語義相關(guān)的圖片上。
圖4 摩天大樓頂上的午餐
遺憾的是,視覺語義研究并未納入視覺研究的主流。當(dāng)前的視知覺研究主要聚焦于“特征”和“客體”,而忽視了場景的語義。這種局限在視知覺領(lǐng)域經(jīng)典的“特征整合理論”(Treisman & Gelade,1980)中也有所體現(xiàn)。該理論指出,視覺加工始于對(duì)基本特征的并行加工,每個(gè)特征都被表達(dá)于各自的特征地圖。在空間上重疊的特征可由“注意”的參與加以整合。該理論對(duì)特征加工的描述簡潔明了,同時(shí)極大地推動(dòng)了視知覺過程中“注意”作用的研究(程少哲等,2017)。然而一個(gè)完美的理論,并不局限于其與已知證據(jù)是否相符,也應(yīng)體現(xiàn)為其能否啟發(fā)、引領(lǐng)新的實(shí)證研究。就這一視角而言,由于缺乏語義層面的解釋,特征整合理論對(duì)“整合”的貢獻(xiàn)并不充分。在其框架下,涉及整合的視覺刺激最復(fù)雜也不過為三或四重基本特征(例如傾斜的大個(gè)紅色長方形),與日常生活中最常見的物體(例如桌椅)相比,都過于簡單,以致很多現(xiàn)象都不在它所描述的整合范圍內(nèi),例如,對(duì)在空間上不重疊的特征是否存在整合?構(gòu)成一個(gè)動(dòng)物的身體和四肢是否為并列、獨(dú)立的特征?整合是一個(gè)單一的過程還是逐級(jí)遞進(jìn)的?場景不同部分間的共變關(guān)系如何表達(dá)?
由視覺語法生成的層級(jí)樹表征是解決視覺“語義鴻溝”問題的有效方案。心理學(xué)研究中最接近這一思路的,是由Biderman提出的成分識(shí)別(Recognition By Component)理論,也稱幾何子(geons)理論(1987,1995)。該理論認(rèn)為,客體的表征由其所含的基本組件(幾何子,geons)及其關(guān)系加以表達(dá)。例如,杯子由杯柄和杯身組成,杯身又由杯環(huán)和杯底組成。其中,杯柄是圓弧體,杯環(huán)是圓臺(tái)體,杯底是圓柱體。根據(jù)“每個(gè)三維的幾何子都在二維的視網(wǎng)膜上產(chǎn)生獨(dú)特的刺激模式”這一原則,可以確定36個(gè)幾何子,包括方塊(block)、圓柱(cylinder)、球面(sphere)、圓弧(arc)、楔子(wedge)等。這些幾何子在進(jìn)行二維投影時(shí)具有共線性、對(duì)稱性等非偶發(fā)特性(nonaccidental property)。這些特性并不會(huì)因觀察客體視角的切換而改變。因此透過二維圖像中的非偶發(fā)特性來判斷組成客體的幾何子及幾何子之間的空間關(guān)系,便可形成對(duì)客體的結(jié)構(gòu)描述,從而完成對(duì)該客體所屬種類的識(shí)別。
新近的視知覺研究通常采用“聚類”這一較為成熟的統(tǒng)計(jì)方法來創(chuàng)建層級(jí)表征(Froyen,F(xiàn)eldman,& Singh,2015;Lew & Vul,2015;Cain,Dobkins,& Vul,2016)。該方法可將一組沒有標(biāo)簽的數(shù)據(jù),根據(jù)它們的特征相似性自下而上地聚合為不同類別。這類方法的優(yōu)點(diǎn)在于借助統(tǒng)計(jì)方法成功地處理了底層視覺輸入的噪音,其局限性在于依賴刺激間的特征相似性,無法表達(dá)視覺場景不同部分間更為豐富的相互依存關(guān)系。
對(duì)視覺中復(fù)雜關(guān)系的表達(dá)需要明確的語法規(guī)則。筆者以“向量疊加”這一特殊規(guī)則為例,嘗試性地進(jìn)行了采用視覺層級(jí)樹的認(rèn)知研究(Xu,et al.,2017)。根據(jù)剛體力學(xué)原理,物體的運(yùn)動(dòng)都是針對(duì)特定坐標(biāo)系的,且不同坐標(biāo)系間的相對(duì)運(yùn)動(dòng)可線性疊加。例如,月球在太陽系中的運(yùn)動(dòng),可由月球相對(duì)地球的運(yùn)動(dòng)與地球相對(duì)太陽的運(yùn)動(dòng)疊加而得。心理學(xué)家很早就發(fā)現(xiàn)運(yùn)動(dòng)知覺是有層級(jí)的(Duncker,1929)。例如,同時(shí)呈現(xiàn)一個(gè)做正弦運(yùn)動(dòng)的點(diǎn)和一個(gè)勻速直線運(yùn)動(dòng)的點(diǎn),人將知覺到前一個(gè)點(diǎn)在圍繞后一個(gè)點(diǎn)做圓周運(yùn)動(dòng),就如同車輪邊緣的點(diǎn)在環(huán)繞一個(gè)運(yùn)動(dòng)的車軸。最近有研究者借用機(jī)器學(xué)習(xí)領(lǐng)域的層級(jí)貝葉斯算法,建立了基于“運(yùn)動(dòng)疊加”的認(rèn)知模型(Gershman,Tenenbaum,& Jakel,2015)。筆者利用該模型構(gòu)建了多客體運(yùn)動(dòng)的物理刺激(見圖5),完成了一項(xiàng)有關(guān)運(yùn)動(dòng)記憶的研究,結(jié)果發(fā)現(xiàn)層級(jí)樹表征的三個(gè)關(guān)鍵屬性直接影響認(rèn)知績效:(1)層級(jí)結(jié)構(gòu),表現(xiàn)為樹結(jié)構(gòu)的存在提高認(rèn)知績效;(2)距離,表現(xiàn)為對(duì)兩物體知覺組織的強(qiáng)度隨它們?cè)跇浔碚魃暇嚯x的增加而減弱;(3)朝向,表現(xiàn)為對(duì)父、子兩節(jié)點(diǎn)對(duì)應(yīng)物體在知覺組織上的不對(duì)稱性(Xu,et al.,2017)。
圖5 “運(yùn)動(dòng)向量疊加”層級(jí)樹
此外,另有研究融合了認(rèn)知語言學(xué)與計(jì)算機(jī)視覺的相關(guān)理論,取得了對(duì)認(rèn)知科學(xué)與人工智能都極具啟發(fā)性的成果(Zhu,1999;Zhu & Mumford,2007)。研究者創(chuàng)造性地采用“概率情景語法”表達(dá)視覺語義,提出了統(tǒng)一語言與視覺的理論框架,并以其實(shí)現(xiàn)語義、概念在語言與視覺間的雙向轉(zhuǎn)換。在他們的一系列工作中,視覺圖像被由代表整個(gè)場景的“根節(jié)點(diǎn)”開始逐層分解為各個(gè)組塊,直至抵達(dá)由基本特征構(gòu)成的終止節(jié)點(diǎn),此過程生成的層級(jí)樹稱為“且-或圖表征”。該表征兼具視覺概念的穩(wěn)定性與靈活性。例如,“桌子”必須具備一個(gè)平坦的面和四條垂直的腿。這種對(duì)結(jié)構(gòu)的限制被表達(dá)為一個(gè)語法規(guī)則,是“且”的關(guān)系。同時(shí),桌面、桌腿的顏色,紋理、大小和形狀,都可以有不同的選擇。這種設(shè)計(jì)上的靈活性表達(dá)為“或”的關(guān)系。
然而視覺加工存在其獨(dú)特的挑戰(zhàn),其表征不能機(jī)械地照搬語言的規(guī)則。語言與視覺的不同在于:(1)語音信息在時(shí)間一個(gè)維度上展開,而靜止的圖像具有兩個(gè)維度,因此定義視覺的語法規(guī)則變得更加復(fù)雜;(2)語言認(rèn)知加工可直接從文字入手,其輸入已經(jīng)是離散的符號(hào),而對(duì)真實(shí)視覺場景的處理必須從包含噪音的、稠密的像素入手,因此后者由離散的符號(hào)構(gòu)成的層級(jí)樹還必須與對(duì)底層像素信息進(jìn)行處理的統(tǒng)計(jì)方法(如前所述的聚類)相整合。
本文詳細(xì)論證了人類的良好知識(shí)表征對(duì)快速學(xué)習(xí)、靈活遷移的重要性。良好的表征應(yīng)該同時(shí)具備假設(shè)空間涵蓋范圍廣,復(fù)雜程度低和搜索速度快的特點(diǎn)。層級(jí)樹表征通過迭代,可以用“有限的組件”和“有限的規(guī)則”表達(dá)無限的知識(shí)。此外,它還擁有提高認(rèn)知資源的利用效率、表達(dá)不同的抽象程度和表達(dá)因果關(guān)系等方面的優(yōu)勢?;谡Z言規(guī)則的語言層級(jí)樹表征可解釋人類通過語言符號(hào)理解含義和獲取知識(shí)的認(rèn)知過程。由于人類通常通過提取語義以實(shí)現(xiàn)對(duì)現(xiàn)實(shí)視覺場景的理解,因此基于視覺語法規(guī)則的視覺層級(jí)樹表征可解釋人類對(duì)視覺場景的認(rèn)知過程。筆者認(rèn)為,對(duì)良好的知識(shí)表征(如層級(jí)樹表征)的深入探討不僅可引領(lǐng)有關(guān)人類“強(qiáng)認(rèn)知”領(lǐng)域的研究,同時(shí)也有助于實(shí)現(xiàn)當(dāng)前人工智能系統(tǒng)從“大數(shù)據(jù)、小任務(wù)”到“小數(shù)據(jù)、大任務(wù)”的轉(zhuǎn)變。
程少哲,史博皓,趙陽,徐昊骙,唐寧,高濤,……沈模衛(wèi).(2017).對(duì)注意的再思考:一個(gè)注意的強(qiáng)化學(xué)習(xí)模型.應(yīng)用心理學(xué),23(1),3-12.
機(jī)器之心.長文回顧NIPS大會(huì)最精彩一日:AlphaZero遭受質(zhì)疑;NIPS史上第一場正式辯論和LeCun的激情抗辯/據(jù)理力爭;元學(xué)習(xí)&深度強(qiáng)化學(xué)習(xí)亮點(diǎn)復(fù)盤.[web log post].Retrieved from https://www.jiqizhixin.com/articles/2017-12-08-4.
周吉帆,徐昊骙,唐寧,史博皓,趙陽,高濤,&沈模衛(wèi).(2016).“強(qiáng)認(rèn)知”的心理學(xué)研究:來自AlphaGo的啟示.應(yīng)用心理學(xué),22(1),3-11.
IEEE spectrum.Will the Future of AI Learning Depend More on Nature or Nurture? [web log post].Retrieved from https://spectrum.ieee.org/tech-talk/robotics/artificial-intelligence/ai-and-psychology-researchers-debate-the-future-of-deep-learning.
Bays,P.M.,Wu,E.Y.,& Husain,M.(2011).Storage and binding of object features in visual working memory.Neuropsychologia,49(6),1622-1631.
Biederman,I.(1987).Recognition-by-components:A theory of human image understanding.Psychologicalreview,94(2),115.
Cain,S.,Dobkins,K.,& Vul,E.(2016).Texture properties bias ensemble size judgments.JournalofVision,16(12),54-54.
Chi,Z.,& Geman,S.(1998).Estimation of probabilistic context-free grammars.ComputationalLinguistics,24(2),299-305.
Chomsky,N.(1964).Aspectsofthetheoryofsyntax(Vol.11).MIT Press.
Chomsky,N.(1975).The logical structure of linguistic theory(p.573).New York:Plenum Press.
Chomsky,N.(1986).Knowledge of language:Its nature,origin,and use.Greenwood Publishing Group.
Clark,H.H.,& Chase,W.G.(1972).On the process of comparing sentences against pictures.CognitivePsychology,3(3),472-517.
Cooper,R.M.(1974).The control of eye fixation by the meaning of spoken language:A new methodology for the real-time investigation of speech perception,memory,and language processing.CognitivePsychology,6(1),84-107.
Ding,N.,Melloni,L.,Zhang,H.,Tian,X.,& Poeppel,D.(2016).Cortical tracking of hierarchical linguistic structures in connected speech.NatureNeuroscience,19(1),158-164.
Ding,X.,Gao,Z.,Shen,M.(2017).Two equals one:Social interaction groups two human actions as one unit in working memory.PsychologicalScience,28(9).1311-1320.
Duncker,K.(1929).über induzierte Bewegung.PsychologicalResearch,12(1),180-259.
Froyen,V.,Feldman,J.,& Singh,M.(2015).Bayesian hierarchical grouping:Perceptual grouping as mixture estimation.PsychologicalReview,122(4),575.
Gershman,S.J.,Tenenbaum,J.B.,& J?kel,F.(2016).Discovering hierarchical motion structure.VisionResearch,126,232-241.
Gorniak,P.,& Roy,D.(2004).Grounded semantic composition for visual scenes.JournalofArtificialIntelligenceResearch,21,429-470.
Gweon,H.,Tenenbaum,J.B.,& Schulz,L.E.(2010).Infants consider both the sample and the sampling process in inductive generalization.ProceedingsoftheNationalAcademyofSciences,107(20),9066-9071.
Hamlin,J.K.,Ullman,T.,Tenenbaum,J.,Goodman,N.,& Baker,C.(2013).The mentalistic basis of core social cognition:Experiments in preverbal infants and a computational model.DevelopmentalScience,16(2),209-226.
Hamlin,J.K.,Wynn,K.,& Bloom,P.(2007).Social evaluation by preverbal infants.Nature,450(7169),557-559.
Heider,F.,& Simmel,M.(1944).An experimental study of apparent behavior.TheAmericanJournalofPsychology,57(2),243-259.
Jackendoff,R.(1996).The proper treatment of measuring out,telicity,and perhaps even quantification in English.NaturalLanguage&LinguisticTheory,14(2),305-354.
Johnson,S.G.,& Keil,F.C.(2014).Causal inference and the hierarchical structure of experience.JournalofExperimentalPsychology:General,143(6),2223.
Julesz,B.(1981).Textons,the elements of texture perception,and their interactions.Nature,290(5802),91-97.
Knudsen,B.,& Hein,J.(2003).Pfold:RNA secondary structure prediction using stochastic context-free grammars.NucleicAcidsResearch,31(13),3423-3428.
Lake,B.M.,Salakhutdinov,R.,& Tenenbaum,J.B.(2015).Human-level concept learning through probabilistic program induction.Science,350(6266),1332-1338.
Leonard,J.A.,Lee,Y.,& Schulz,L.E.(2017).Infants make more attempts to achieve a goal when they see adults persist.Science,357(6357),1290-1294.
Lew,T.F.,& Vul,E.(2015).Ensemble clustering in visual working memory biases location memories and reduces the Weber noise of relative positions.JournalofVision,15(4),10-10.
Luck,S.J.,& Vogel,E.K.(1997).The capacity of visual working memory for features and conjunctions.Nature,390(6657),279-281.
Norris,D.,& McQueen,J.M.(2008).Shortlist B:A Bayesian model of continuous speech recognition.PsychologicalReview,115(2),357.
Onishi,K.H.,& Baillargeon,R.(2005).Do 15-month-old infants understand false beliefs?Science,308(5719),255-258.
Pearl,J.(2009).Causality.Cambridge University Press.
Shannon,C.E.(2001).A mathematical theory of communication.ACMSIGMOBILEMobileComputingandCommunicationsReview,5(1),3-55.
Smeulders,A.W.,Worring,M.,Santini,S.,Gupta,A.,& Jain,R.(2000).Content-based image retrieval at the end of the early years.IEEETransactionsonPatternAnalysisandMachineIntelligence,22(12),1349-1380.
Smith,E.E.,Shoben,E.J.,& Rips,L.J.(1974).Structure and process in semantic memory:A featural model for semantic decisions.PsychologicalReview,81(3),214.
Spelke,E.S.,& Kinzler,K.D.(2007).Core knowledge.DevelopmentalScience,10(1),89-96.
Sperber,D.,Premack,D.,& Premack,A.J.(Eds.).(1995).Causal cognition:A multidisciplinary debate (No.Sirsi) i9780198523147).Oxford:Clarendon Press.
Stahl,A.E.,& Feigenson,L.(2015).Observing the unexpected enhances infants’ learning and exploration.Science,348(6230),91-94.
Stevenson,B.E.(Ed.).(1949).Book of proverbs,maxims and familiar phrases.Routledge and K.Paul.
Talmy,L.(1988).Force dynamics in language and cognition.CognitiveScience,12(1),49-100.
Talton,J.,Yang,L.,Kumar,R.,Lim,M.,Goodman,N.,&Měch,R.(2012,October).Learning design patterns with bayesian grammar induction. InProceedingsofthe25thannualACMsymposiumonUserinterfacesoftwareandtechnology(pp.63-74).ACM.
Treisman,A.M.,& Gelade,G.(1980).A feature-integration theory of attention.CognitivePsychology,12(1),97-136.
Wolpert,D.H.,& Macready,W.G.(1997).No free lunch theorems for optimization.IEEETransactionsonEvolutionaryComputation,1(1),67-82.
Xu,H.,Tang,N.,Zhou,J.,Shen,M.,& Gao,T.(2017).Seeing “what” through “why”:Evidence from probing the causal structure of hierarchical motion.JournalofExperimentalPsychology:General,146(6),896.
Zhu,S.C.(1999).Embedding gestalt laws in markov random fields.IEEETransactionsonPatternAnalysisandMachineIntelligence,21(11),1170-1187.
Zhu,S.C.,& Mumford,D.(2007).A stochastic grammar of images.FoundationsandTrends?inComputerGraphicsandVision,2(4),259-362.