李生 蘇功臣
算法、數(shù)據(jù)、算力三方面相關(guān)技術(shù)不斷進(jìn)展,最終促成了最近一次人工智能大發(fā)展。人工智能的四個方面,計算、感知、認(rèn)知、決策,“我中有你、你中有我”,連續(xù)向前。從宏觀上看,現(xiàn)在人工智能正在從感知走向認(rèn)知,通過深度學(xué)習(xí)的算法,感知智能已經(jīng)有了很大突破,但是對于認(rèn)知智能,它還剛剛開始或者說還在路上。
人工智能從1956年達(dá)特茅斯會議之后經(jīng)歷了三起兩落。2016年AlphaGo人機(jī)大戰(zhàn)轟動世界,迎來了人工智能第三次高潮。這一輪高潮的興起得益于基于多層人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法,使得在感知智能上取得突破,并在產(chǎn)業(yè)界的多種場景下廣泛應(yīng)用。但是,當(dāng)前的人工智能還稱不上真正的人工智能。未來必須加強(qiáng)基礎(chǔ)理論研究,以求在認(rèn)知智能方面取得技術(shù)突破,開辟一條人工智能發(fā)展新路徑。
一、人工智能的“三叉戟”
這輪人工智能高潮的到來,主要依賴三個方面的進(jìn)步:算法、數(shù)據(jù)、算力。在這三個方面中,算法是工具,數(shù)據(jù)是原材料,以及把原材料送到算法工具里面加工所需的動力能源——算力。
目前作為工具的算法,采用了基于多層人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)。這種深度學(xué)習(xí)結(jié)構(gòu)受人的大腦工作機(jī)理和結(jié)構(gòu)的啟發(fā),方法上是對數(shù)據(jù)進(jìn)行概率統(tǒng)計分析。
大數(shù)據(jù)的出現(xiàn)使得深度學(xué)習(xí)算法的準(zhǔn)確率大幅提升。大數(shù)據(jù)是由于計算機(jī)特別是互聯(lián)網(wǎng)的興起之后,包括各種企業(yè)事業(yè)各種數(shù)據(jù)、社會科學(xué)人際交往的信息,被記錄保存起來,用于社會計算。但是,用于人工智能對大數(shù)據(jù)也有較高要求。首先數(shù)據(jù)是經(jīng)過標(biāo)注的大數(shù)據(jù),比如有一張圖片標(biāo)注這是個貓,另外圖片標(biāo)注是個狗,等等。其次數(shù)據(jù)標(biāo)注的質(zhì)量要高,質(zhì)量不高、標(biāo)注不準(zhǔn)確,就容易造成最后結(jié)論偏差。再次是標(biāo)準(zhǔn)的數(shù)據(jù)分布的面要廣泛、合理。比如一個動物標(biāo)注的顏色過多了,但是對其它方面比如眼睛、耳朵什么的標(biāo)注少了,就容易產(chǎn)生偏差。最后要求標(biāo)注的數(shù)據(jù)量要大,經(jīng)常是幾千萬上億的數(shù)據(jù)量。
數(shù)據(jù)在算法加工過程當(dāng)中需要強(qiáng)大的計算能力和存儲空間,也就是需要強(qiáng)大的算力。早先計算機(jī)主要的功能是計算和存儲,CPU芯片主要為計算服務(wù)?,F(xiàn)在進(jìn)入人工智能階段之后,它涉及的計算量大,而且主要是矩陣運(yùn)算,而CPU在線性的加減乘除運(yùn)算表現(xiàn)出色,但微分積分、矩陣運(yùn)算就相對比較困難了。所以現(xiàn)在是借用了游戲當(dāng)中的處理矩陣運(yùn)算的GPU器件進(jìn)行運(yùn)算。另外,云計算的出現(xiàn),也提高了計算能力。它實際上是一種虛擬計算,是把多臺計算機(jī)聯(lián)網(wǎng)之后,分配任務(wù),進(jìn)行分布式運(yùn)算,完成之后匯總再由一臺計算機(jī)呈現(xiàn)結(jié)果。
二、人工智能四階段
算法、數(shù)據(jù)、算力三方面相關(guān)技術(shù)不斷進(jìn)展,最終促成了最近一次人工智能大發(fā)展。往前回溯,人工智能的起源在于人的智能。那么,什么是人的智能?
我們知道,人類是人、機(jī)、物三元世界的核心。人類的生活、生存要依賴物(物質(zhì)、環(huán)境等),欲提高生活生存的質(zhì)量需要機(jī)(工具、蒸汽機(jī)、電動機(jī)、計算機(jī)、互聯(lián)網(wǎng)、人工智能等)的輔助。從歷史上看,工業(yè)社會減輕了人的體力勞動;未來高度智能化的社會必將減輕和拓展人的腦力勞動。人類所具有的智能,來源于知識,而知識在于學(xué)習(xí)。智能則是學(xué)習(xí)和求解問題的能力。這是推動人類進(jìn)步和社會發(fā)展的強(qiáng)大動力,也是人具有的區(qū)別于其他動物的能力。
簡單說,人工智能就是模仿或者模擬人類智能的能力,是用計算機(jī)來模仿人類學(xué)習(xí)和求解問題的能力。“看”和“聽”對人類認(rèn)識世界具有決定性作用,但是看到的和聽到的并不一定都是真實的——這里存在知覺偏差的問題。所以我們強(qiáng)調(diào)要透過現(xiàn)象看本質(zhì),也就是說存在著“感知—現(xiàn)象”“認(rèn)知—本質(zhì)”兩對相應(yīng)的概念。認(rèn)知的核心是反饋,是一個“抽象迭代——思維推理”的過程,所以才有“學(xué)而不思則罔”“不是收到籃子里的都是菜”的說法。
因此,人工智能仿照人的智能從根本上來說有兩項大任務(wù),一項是模式識別,采用統(tǒng)計方法得到感知,從經(jīng)驗當(dāng)中學(xué)習(xí);一項是語義理解,用邏輯推理或知識推理的方法以求解決“認(rèn)知”的問題。
具體說來,人工智能包含四個方面,計算、感知、認(rèn)知、決策。計算機(jī)于1946年問世,當(dāng)時的主要功能是數(shù)值計算,當(dāng)然也就具備計算智能。到1956年,在達(dá)特茅斯會議上提出讓計算機(jī)來模擬人的智能,才正式出現(xiàn)了“人工智能”的概念。人憑借著五官感覺外部事物,感覺、感知周圍環(huán)境,那么機(jī)器就通過傳感器來模仿人的感覺器官,來感知世界和外部環(huán)境,所產(chǎn)生的信息經(jīng)過機(jī)器的中樞進(jìn)行加工,實際上是對感知階段感知到世界和外部的信息進(jìn)行深層次的加工和處理,這就是機(jī)器智能的認(rèn)知階段,然后再產(chǎn)生決策。這其中最重要的是感知和認(rèn)知。
人工智能這幾個方面有什么區(qū)別和聯(lián)系?計算智能的實現(xiàn),首先需要問題的數(shù)據(jù)化,才能有計算智能可以處理的“原材料”。另外,問題的解決還需要一定的方法、策略和步驟,這個步驟就是程序,即用計算機(jī)語言編程。這些程序告訴機(jī)器,解決和處理問題的過程,先做哪個,后做哪個。但是在計算智能階段,這個程序需要人工編寫,涉及到的工作量很大。發(fā)展到感知智能之后,解決了由人來編程工作量大的問題,程序的編制由機(jī)器自己自動完成了。程序自動化從發(fā)展來看也是經(jīng)歷了從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)的階段。數(shù)據(jù)特征在機(jī)器學(xué)習(xí)階段是靠人工提取的,而發(fā)展到現(xiàn)在用深度學(xué)習(xí)的方法,數(shù)據(jù)特征實現(xiàn)了由機(jī)器自動提取。
需要強(qiáng)調(diào)的是,人工智能發(fā)展的這四個階段并不是截然分開的,而是既有階段性又有連續(xù)性。在發(fā)展感知智能的過程中,就在為認(rèn)知智能做相應(yīng)的工作。當(dāng)初馮·諾伊曼和圖靈同時發(fā)明了計算機(jī)的體系結(jié)構(gòu),計算機(jī)問世,主要解決的是計算智能的問題。但是圖靈在那個時代,已經(jīng)為人工智能做起了儲備,已經(jīng)提出著名的“圖靈測試”問題,預(yù)測了下一個階段的實踐,推動了第二個階段的發(fā)展。感知智能、認(rèn)知智能有階段性,但是階段也是“我中有你、你中有我”,之間存在著連續(xù)性。
三、深度學(xué)習(xí)的崛起
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種。機(jī)器學(xué)習(xí)是先用數(shù)據(jù)訓(xùn)練(學(xué)習(xí))模型,獲得規(guī)律(知識),再用訓(xùn)練好的模型去預(yù)測未知數(shù)據(jù)。運(yùn)用數(shù)據(jù)訓(xùn)練好了的算法,叫模型,無須人工預(yù)先編程。在學(xué)習(xí)的過程中,算法、數(shù)據(jù)、算力三個要素,核心是算法。
現(xiàn)在感知智能階段采用了深度學(xué)習(xí)的算法。這種算法的設(shè)想在上個世紀(jì)五六十年代就已經(jīng)有了,但設(shè)想還不完善,另外還沒有數(shù)據(jù)的支撐和算力的支持。直到2006年,Hinton,這位被譽(yù)為深度學(xué)習(xí)之父的大師,提出了反向傳播(BP)算法,解決了訓(xùn)練誤差的問題,深度學(xué)習(xí)才開始嶄露頭角。2012年,在BP算法基礎(chǔ)上發(fā)展起來的CNN算法,在世界圖像識別大賽上,與世界各地的學(xué)者推出的各色算法、模型一較高低,成績突出,其準(zhǔn)確率高出第二名10%左右,準(zhǔn)確率達(dá)到85%,一舉拔得頭籌。這種新算法于是被世界各國的學(xué)者青睞。時隔四年,2016年,計算機(jī)AlphaGo和韓國圍棋大師人機(jī)大戰(zhàn),取得了4勝1負(fù)的成績,引起人們廣泛關(guān)注和高度重視,直接助推第三次人工智能高潮的到來。
深度學(xué)習(xí)的多層人工神經(jīng)網(wǎng)絡(luò)是由一個輸入層一個輸出層及若干個隱含層所組成,每層中的人工神經(jīng)元與相鄰層中的神經(jīng)元相連接。隱含層一步一步對數(shù)據(jù)進(jìn)行逐層深加工。腦科學(xué)研究表明,人類大腦大約由850億個神經(jīng)元組成,每個神經(jīng)元約有1000個突觸與其相連。當(dāng)神經(jīng)元受到刺激而興奮時,就會向與其相連接的神經(jīng)元傳遞脈沖,從而改變這些神經(jīng)元中的電位,超過某一“閾值”的話,該神經(jīng)元就會被“激活”,即也隨之“興奮”,興奮起來的神經(jīng)元又會向與其連接的神經(jīng)元傳遞神經(jīng)脈沖。大腦皮層的神經(jīng)元通過突觸相連,分層分區(qū)形成神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)的結(jié)構(gòu)是受腦啟發(fā)的多層人工神經(jīng)網(wǎng)絡(luò),信息處理過程是分層的,具有非線性處理、自動提取特征的特點,高層特征是底層特征的組合,從底層到高層特征的表示越來越抽象,越來越能表現(xiàn)語義或意圖。 深度學(xué)習(xí)算法尤其是與大數(shù)據(jù)結(jié)合之后,把其他人工智能技術(shù)遠(yuǎn)遠(yuǎn)拋在了后面,成為引領(lǐng)人工智能發(fā)展的核心技術(shù)。
深度學(xué)習(xí)在感知上已經(jīng)有重大突破,特別在識別上,現(xiàn)在刷臉隨處可見,語音識別在同聲傳譯上取得很大成就,在自然語言處理(NLP)也取得了進(jìn)步。在NLP上,用深度學(xué)習(xí)的辦法,把一個句子或者一個短語、詞組投影到一個向量空間當(dāng)中的詞(句子)嵌入法來識別。2017年谷歌公司推出一款軟件BERT,其思路就是把算法編制過程所涉及到的通用部分,單獨拿出來,預(yù)先做好,做成一個網(wǎng)上開放的公用平臺。其他開發(fā)者下載這個通用平臺,通過預(yù)留的接口再和自己專用的部分進(jìn)行微調(diào),完成自己開發(fā)任務(wù)。這種“預(yù)訓(xùn)練+微調(diào)”范式就是利用了深度學(xué)習(xí)的辦法而取得的重大突破。
四、當(dāng)前深度學(xué)習(xí)的局限性
隨著研究和應(yīng)用的不斷深入,人們也發(fā)現(xiàn)目前感知智能采用的深度學(xué)習(xí)算法有其局限性。人具有意識,有情感,能夠進(jìn)行思維,能夠推理。與之相比,目前人工智能沒有意識,沒有情感,不會思維,不會推理。人類的學(xué)習(xí)在于,能從僅有的少數(shù)幾個例子中,快速掌握新的知識(小樣本學(xué)習(xí)),并利用先前已有的知識進(jìn)行歸納推理(歸納與演繹方法結(jié)合),提高對問題的理解和認(rèn)知能力。這種推理和知識也是滾雪球的,有個積累的過程。機(jī)器就沒有這種功能,所以深度學(xué)習(xí)有其局限性。
局限性主要體現(xiàn)在四個方面。一個是“貪婪”,也即要求標(biāo)注的數(shù)據(jù)越多越好,但標(biāo)注成本太大也太難。第二個是“脆弱”,就是抗干擾能力低,容易被虛假數(shù)據(jù)欺騙,比如一個面包烤箱,如果前面給放上一塊香蕉皮,這個烤箱就不能準(zhǔn)確識別出來,可能識別是一個面包機(jī)。所以從這點說,深度學(xué)習(xí)的辦法是從眾的,運(yùn)用概率統(tǒng)計的方法,講的是少數(shù)服從大多數(shù),但是真理往往掌握在少數(shù)人手里,少的也可能是正確的。所以這種算法的“脆弱”有的時候?qū)е乱话賯€謬誤就可能變成真理。第三個局限性是它不透明,暗箱操作,出錯了,但不知錯在哪兒,沒法回溯去找。第四個就是它不具備思考和知識推理能力,所以“淺薄”,只知道“什么”,不知道“為什么”,知其然不知其所以然。這就是目前人工智能主流的深度學(xué)習(xí)算法有其不足、有局限性的地方。
針對這些存在的局限,今后人工智能發(fā)展的方向是從感知走向認(rèn)知,從識別走向理解。
五、從計算機(jī)視覺(CV)到自然語言處理(NLP)
人類對世界的認(rèn)識可分成感性認(rèn)識和理性認(rèn)識兩種。感性認(rèn)識只能看到事物的表象,理性認(rèn)識才能察覺到事物的本質(zhì)。感性認(rèn)識是認(rèn)識的基礎(chǔ),是認(rèn)識的初級階段,理性認(rèn)識是認(rèn)識的高級階段。只有理性認(rèn)識才能透過現(xiàn)象看到本質(zhì),更深刻、更全面、更可靠地反映事物的本來面目,引導(dǎo)人們按規(guī)律辦事,有效改造世界。
人工智能是對人類智能的模擬,感知智能對應(yīng)著感性認(rèn)識(識別),認(rèn)知智能則對應(yīng)著理性認(rèn)識(理解)。
計算機(jī)的感知智能,目前通過深度學(xué)習(xí)方法,具備了圖像識別、物體識別或語音識別的能力,能“看”出有這么個形狀、這個樣子,從邊框到形狀,能將人說的話識別成文本,完成這些任務(wù)機(jī)器都可以靠從數(shù)據(jù)(經(jīng)驗)中學(xué)習(xí),搜索(比對),獲取知識(還是處于感知階段)不需要真正的理解(認(rèn)知)。由于目前的人工智能還不具備真正的理解能力,對識別出的結(jié)果到底是什么,可以發(fā)揮什么作用不清楚。由感知到認(rèn)知,需要解決的重點和難點在于語義的理解,或者叫做意圖的理解,這主要涉及到自然語言處理。
人的語言具有歧義性(一詞多義)和多樣性(一義多詞),比如說一個“打”字就可以表達(dá)多個意思,打醬油、打乒乓球、打架、打黑等;一個詞組也存在多意性的問題,比如“打傘”既可以是打開雨傘,也可以是打擊黑惡勢力的保護(hù)傘;同一句話也有不同的意思,比如說“中國這個球隊誰也打不過”,既可以理解是世界無敵,誰也贏不了這支球隊,也有可能是自身很弱,遇誰輸誰。同時,語義理解高度依賴知識,除上下文之外,還有語言知識(語法結(jié)構(gòu))、專業(yè)知識、背景知識、常識性知識和先驗知識等。此外,語言存在著高度的開放性(新詞不斷涌現(xiàn))和高度的靈活性(隨意組合)。因此,Hinton說:“深度學(xué)習(xí)下一個大的進(jìn)展應(yīng)該是讓神經(jīng)網(wǎng)絡(luò)真正理解文檔的內(nèi)容”。比爾·蓋茨說:“語言理解是人工智能領(lǐng)域皇冠上的明珠”。
現(xiàn)在人工智能正在從感知走向認(rèn)知,通過深度學(xué)習(xí)的算法,感知智能已經(jīng)有了很大突破,但是對于認(rèn)知智能,它還剛剛開始或者說還在路上。
六、人工智能的未來
人工智能進(jìn)一步的發(fā)展必須逾越人類大腦思維能力鴻溝,解決不了推理問題,機(jī)器就難以實現(xiàn)真正的認(rèn)知。不具有完全推理的人工智能還不是真正的人工智能。人工智能的未來應(yīng)該是逐漸逼近人類智能,可能會有人腦思維和電腦思維兩種途徑。要從二者的差異入手,找出人工智能未來發(fā)展的出路。因此,深度學(xué)習(xí)未必是人工智能發(fā)展的唯一。要突破當(dāng)前的人工智能只歸類、不了解其中內(nèi)涵的局限性,既要統(tǒng)計,也要推理。
人工智能未來要實現(xiàn)可持續(xù)發(fā)展,需要“兩個加強(qiáng)、三個結(jié)合”,具體來說,一是加強(qiáng)基礎(chǔ)理論研究,其中包括對腦科學(xué)和認(rèn)知科學(xué)的研究,對微積分、線性代數(shù)概率統(tǒng)計邏輯推理等方面的數(shù)學(xué)研究,對算法、結(jié)構(gòu)等在內(nèi)的計算機(jī)科學(xué)研究。二是加強(qiáng)基礎(chǔ)設(shè)施建設(shè),包括芯片、傳感器、公共通用的算法、平臺,等等。三個結(jié)合指的是軟件算法與硬件芯片結(jié)合,知識推理與數(shù)據(jù)統(tǒng)計結(jié)合,機(jī)器計算與人類認(rèn)知結(jié)合。
因此,技術(shù)理論上要學(xué)科交叉,用腦科學(xué)帶動數(shù)學(xué)和計算機(jī)科學(xué),核心在算法。只有在基礎(chǔ)理論研究上取得根本性突破,打造專用芯片,使硬件與算法結(jié)合;突破知識推理,統(tǒng)計與推理結(jié)合,人工智能才能避免走進(jìn)死胡同。
總之,機(jī)器永遠(yuǎn)是人類的助手和工具。面對它,掌握它,用好它,人機(jī)融合才是發(fā)展的出路。
(蘇功臣為哈爾濱工業(yè)大學(xué)離退休工作處處長)
責(zé)任編輯:王卓