莊越挺 吳飛
提到“人工智能”,我們也許會一下子想到機器人。實際上,人工智能的應(yīng)用遠比我們想象的更廣泛,比如蘋果手機的Siri可以實現(xiàn)人機對話,百度、谷歌可以幫我們進行語言翻譯,等等。
那么,“人工智能”是什么意思呢?解釋起來其實很簡單?!叭斯ぁ?,顧名思義是指人造的、人為的,也就是我們?nèi)祟悇邮謩?chuàng)造或者改編出來的;“智能”就涉及到意識、自我、思維等多個概念了??偟膩碚f,人工智能是一門關(guān)于模擬、拓展人的智能的學科,使機器能夠勝任一些通常需要人類才能完成的復(fù)雜工作。舉一個簡單的例子,一個人要判斷一張圖片上的動物是貓還是狗,一下子就能做到;判斷100張,可能需要好幾分鐘;判斷10000張,就會非常傷腦筋了。而對具有人工智能的機器人來說,只要建立正確的模型,計算機就可以在一秒鐘內(nèi)判斷幾百萬張圖片的內(nèi)容,而且不會有任何差錯。
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,我們能夠在網(wǎng)上(如新浪微博、QQ空間)看到越來越多的媒體數(shù)據(jù)(文本、圖像、視頻等)融合在一起,“跨媒體”成為表達主題或事件的一種新形式。比如一部剛要上映的電影,在網(wǎng)上不僅有它的評論,還能看到它的宣傳海報和預(yù)告片,包括文字、圖片、視頻等各種媒體數(shù)據(jù)都有。這種多種媒體數(shù)據(jù)的結(jié)合,就是我們說的“跨媒體”。正因為“跨媒體”的運用,制作團隊能夠更好地表達電影的主題,也能夠讓更多的人了解電影。
不斷涌現(xiàn)的媒體數(shù)據(jù)也催生了“數(shù)據(jù)驅(qū)動”這一計算模式。根據(jù)這種計算模式,我們在處理信息時可以獲取不同類型的數(shù)據(jù)。比如,我們常??葱侣剤蟮?,新聞報道中既有文字描述,又有與這些文字相對應(yīng)的圖片,而“數(shù)據(jù)驅(qū)動”就可以通過新聞報道這一資源獲取文字和圖片兩種不同類型的數(shù)據(jù)。視頻也一樣,因為視頻中既包括視覺圖像信息,又包含語音聽覺信息等數(shù)據(jù)。
實際上,英國心理學家麥格克(McGurk)等人在1976年就已經(jīng)證明:人類對外界信息的認知是通過整合不同感官信息而形成的整體性理解,任何感官信息的缺乏或不準確將導(dǎo)致大腦對外界信息的理解產(chǎn)生偏差。這個現(xiàn)象也被稱為“麥格克效應(yīng)(McGurk Effect)”。就像“眼觀六路,耳聽八方”是人類與生俱來的能力,我們要把聽到的東西和看到的東西結(jié)合在一起,才能更好地理解、判斷事物。
現(xiàn)在,計算機的專家們正努力讓計算機擁有“看圖說話”的能力。比如,看到一幅“貓追蝴蝶玩”的圖像,要求計算機也能像人一樣,給出“貓追蝴蝶玩”這樣的描述。要讓人用一段話來表達一張圖片或者一部電影的內(nèi)容是很容易的,但如果你想讓計算機干同樣的事,那就有點困難了。至少我們手上的臺式機或筆記本電腦是干不了的,就算給它配上攝像頭之類的各種外部設(shè)備,它也干不了。在這個過程中,計算機得將一種類型數(shù)據(jù)轉(zhuǎn)換為另一種類型數(shù)據(jù),例如圖像轉(zhuǎn)換為文本,這就是跨媒體??梢姡缑襟w對智能的要求是很高的。
其實,我們?nèi)祟悓W會看圖說話也不是那么容易的,也需要一定的時間,所以讓計算機學會“看圖說話”更不可能是一蹴而就的事情。為了實現(xiàn)計算機自動識圖,計算機專家們正在想辦法讓計算機學會對圖像作簡單的文字表達,也就是說,先讓計算機掌握圖像中的視覺對象(如“貓”和“蝴蝶”等視覺對象)與自然語言中的文本單詞(如“貓”和“蝴蝶”等詞匯)之間的對應(yīng)關(guān)系??吹綀D片時,計算機先將“認識”的視覺對象(“貓”和“蝴蝶”)一個個“摳”出來,然后通過已經(jīng)掌握的“視覺對象——文本單詞”之間的關(guān)聯(lián),按圖索驥,尋找哪些文本單詞與這些視覺對象最匹配,最后再用一定的語法規(guī)則將單詞組合起來,得到描述圖片的句子(“貓追著蝴蝶玩耍”)。只有這樣,計算機才算完成了“看圖說話”的任務(wù),實現(xiàn)了從圖像數(shù)據(jù)到文本數(shù)據(jù)的“跨媒體計算”。
可以設(shè)想,如果我們有一本漢英大詞典,里面包含了足夠多的相互配對的“英語單詞——中文單詞”,那么當給出一句英文后,我們就可以根據(jù)漢英大詞典,將英文句子中每一個英文單詞所對應(yīng)的中文單詞查找出來,然后再按照中文語法規(guī)則將這些中文單詞組織起來,完成從英語句子到中文句子的翻譯工作。同樣,如果計算機掌握了良好的摳圖技術(shù),又存儲了一本足夠大、相互對照的“視覺對象——文本單詞”詞典,那么計算機就可以“看圖說話”了!也就是說,當計算機能把越來越復(fù)雜的圖像“摳”出來,并能用越來越完整、越來越準確的語句表達時(如“藍天下,一只黑貓和一只白貓在草地上追逐一只花蝴蝶”),它才稱得上有能力“看圖說話”了。
當計算機“看圖說話”的能力提高到一定的水平,機器人就會看電視、看電影了,最后,就會和我們搶遙控器了。不對!機器人和我們搶遙控器,已經(jīng)不是跨媒體技術(shù)范圍內(nèi)的事了。
不過你不用擔心,這些對人來說十分簡單的工作,目前對計算機而言仍然非常困難。但我們相信,經(jīng)過科學家們的不懈努力和深入研究,開啟計算機“心智之眼”的時代會很快來臨!