微軟亞洲研究院常務(wù)副院長(zhǎng)芮勇人工智能趨勢(shì)之四化
“人工智能”一詞最早出現(xiàn)于1956年,近年來(lái)“人工智能”越來(lái)越熱,人們對(duì)此也感到一些困惑。未來(lái),人工智能的發(fā)展趨勢(shì)應(yīng)是大數(shù)據(jù)化、自適應(yīng)化、可穿戴化和增強(qiáng)化。
微軟認(rèn)知服務(wù)是把微軟過(guò)去二十幾年做的人工智能分支的技術(shù),包括計(jì)算機(jī)視覺(jué)、語(yǔ)音、語(yǔ)言、搜索等技術(shù)放在認(rèn)知服務(wù)上。這樣的好處是當(dāng)人們想開(kāi)發(fā)一個(gè)App的時(shí)候,不用重新開(kāi)發(fā),直接調(diào)用即可。
圖1為估算顏齡的一個(gè)網(wǎng)站:www.how-old.net,在這上面首先要知道人臉在什么位置,其次是判斷性別。2015年底,發(fā)布了第二個(gè)版本,可以估計(jì)出人類(lèi)的情感、喜怒哀樂(lè)等。
2011年以前,深度學(xué)習(xí)在沒(méi)有被引入計(jì)算機(jī)視覺(jué)之前,其錯(cuò)誤率大約為百分之二十幾,直到2012年,深度學(xué)習(xí)第一次被引入計(jì)算機(jī)視覺(jué),這時(shí)錯(cuò)誤率大幅下降到百分之十幾,之后幾年更是降到了10%以?xún)?nèi)。
此外,物體檢測(cè)是比物體分類(lèi)更難的事情,特別是像素級(jí)別的物體分割。我們知道一張圖片有很多像素級(jí)別,每個(gè)像素是屬于貓,還是屬于這只貓邊上的草,每一項(xiàng)都要進(jìn)行分類(lèi),這是非常難的。從圖片分類(lèi)到物體檢測(cè),再到像素級(jí)的物體分割,為什么計(jì)算機(jī)視覺(jué)可以做到?這是因?yàn)槿祟?lèi)生成了很多的數(shù)據(jù),這些數(shù)據(jù)被拿來(lái)訓(xùn)練計(jì)算機(jī),它才能夠有一定的智能,這也是第一類(lèi)趨勢(shì)——大數(shù)據(jù)化。
圖1 估算顏齡的一個(gè)網(wǎng)站
圖2
在電影《星際迷航》有這樣一個(gè)場(chǎng)景,不同的星迷去不同的星球探索,可以通過(guò)一個(gè)機(jī)器來(lái)進(jìn)行交流,這在當(dāng)時(shí)還是一種科幻。研發(fā)人員總能把科幻變?yōu)楝F(xiàn)實(shí),目前有一種實(shí)時(shí)翻譯器,使得兩種說(shuō)不同語(yǔ)言的人可以實(shí)時(shí)交互。大約在2010年時(shí)微軟內(nèi)部進(jìn)行了展示。2015年,我們將這項(xiàng)技術(shù)加入到Skype里。
其中,必須要有四項(xiàng)技術(shù)做得非常好。第一步,中文的音頻系統(tǒng)要被實(shí)時(shí)翻譯成中文文字,并且要非常準(zhǔn)確;第二步,因?yàn)槭侨粘5膶?duì)話(huà),會(huì)有一些口語(yǔ),嗯、啊等,需要把這些地方進(jìn)行翻譯;第三步,中文文字翻譯出來(lái)之后,需要翻譯成外文文字;第四步,把這些外文翻譯成語(yǔ)音。同時(shí)還要注意翻譯出的聲音應(yīng)該是像同一個(gè)人說(shuō)話(huà),這也是我們提到的自適應(yīng)化。
隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,未來(lái)計(jì)算機(jī)看到圖2時(shí),會(huì)告知一名男子正騰空而起表演滑板特技。微軟有一款設(shè)備——Hololen,能夠?qū)崿F(xiàn)兩個(gè)不同物理空間的人可以在同一個(gè)空間進(jìn)行交互。
人工智能和人,并不是誰(shuí)PK誰(shuí)的問(wèn)題。計(jì)算機(jī)比人類(lèi)強(qiáng)的就是它的存儲(chǔ)功能和記憶功能,它是一個(gè)很好的左邊半個(gè)大腦的補(bǔ)充。未來(lái),不是人對(duì)抗機(jī)器,而是人加上機(jī)器,讓人類(lèi)變得更加厲害!
(本文整理自微軟亞洲研究院常務(wù)副院長(zhǎng)芮勇博士在“清華人工智能”論壇上的演講,未經(jīng)本人確認(rèn))