陶思圣
Saqib Shaikh戴上太陽鏡,拿起手杖,走出家門。在倫敦的街道上,他熟練地用手杖探著路前行,突然,他好像感覺到前面有些什么人,不由得停了下來。Shaikh對(duì)著前方用左手劃了下太陽鏡的鏡腿,眼鏡發(fā)出一聲細(xì)微的“咔嚓”聲,緊接著“說”出了一段話:我想這是一個(gè)年輕人,正在展示一些滑板技巧。
這是在今年3月底舉行的微軟2016 Build開發(fā)者大會(huì)上播放的一段視頻。它展示的是微軟專為視障人士開發(fā)的一套輔助工具Seeing AI。
作為一款應(yīng)用,Seeing AI可以裝載在智能手機(jī),以及創(chuàng)業(yè)公司Pivothead開發(fā)的一款智能太陽眼鏡上(就是Shaikh戴的那款)。軟件會(huì)自動(dòng)判斷識(shí)別的位置是否合適,使用者用手機(jī)或眼鏡拍下眼前的場(chǎng)景,Seeing AI會(huì)對(duì)此識(shí)別,繼而用語音描述出來。它不僅可以識(shí)別玩滑板這種動(dòng)作,還可以識(shí)別菜單等文字,以及人臉等元素,并分辨出其性別、大致年齡,甚至能通過面部表情描述出對(duì)方此刻的心情。此外,Seeing AI還可以像蘋果的語言助手Siri那樣回答使用者提出的一些問題。
在開發(fā)者大會(huì)上演示Seeing AI的Shaikh正是Seeing AI的開發(fā)者之一。他是微軟英國(guó)Bing團(tuán)隊(duì)的一名軟件工程師,已經(jīng)在此工作了十年。同時(shí),他也是一名盲人。7歲失明后,Shaikh進(jìn)入了盲人學(xué)校。在那里,一位朋友教會(huì)他如何編寫程序,這讓他能夠靠編程實(shí)現(xiàn)一些想法,并分享給他人。“我發(fā)現(xiàn),用電腦工作,做出的東西不會(huì)與視力正常的人有任何差距?!盨haikh對(duì)《第一財(cái)經(jīng)周刊》說。
從小就很喜歡動(dòng)手做東西的Shaikh,大學(xué)期間產(chǎn)生了發(fā)明一款能讓盲人“看世界”的產(chǎn)品,而圖像識(shí)別技術(shù)近幾年的發(fā)展,讓他終于接近了這個(gè)目標(biāo)。
Seeing AI的概念其實(shí)并不是Shaikh向微軟建議的。 2015年,Seeing AI的項(xiàng)目負(fù)責(zé)人Anirudh Koul首先提出要做一個(gè)能夠幫助視障人士的項(xiàng)目,他的祖父正在逐漸失明,這讓他意識(shí)到這樣一個(gè)技術(shù)的重要性。Shaikh成為這個(gè)項(xiàng)目組的技術(shù)負(fù)責(zé)人,除了他,團(tuán)隊(duì)中還有包括項(xiàng)目經(jīng)理等多位盲人,相同的經(jīng)歷使他們能更加理解視障人士在生活和工作中遇到的困難。
最終,Seeing AI項(xiàng)目在2015年的微軟駭客馬拉松賽中獲勝,這是微軟內(nèi)部每年都會(huì)組織的比賽,目的就是鼓勵(lì)員工創(chuàng)新。獲勝的項(xiàng)目會(huì)得到公司的支持,并開發(fā)出最終產(chǎn)品。
Seeing AI是建立在微軟認(rèn)知服務(wù)上的一款應(yīng)用,涵蓋了計(jì)算機(jī)視覺、圖像識(shí)別、自然語言處理和機(jī)器學(xué)習(xí)等領(lǐng)域的技術(shù)。微軟認(rèn)知服務(wù)目前集合了視覺、語音、語言、知識(shí)和搜索5大領(lǐng)域里共21項(xiàng)API(應(yīng)用程序編程接口),這個(gè)數(shù)字還在不斷更新中,這些API涉及了搜索團(tuán)隊(duì)Bing、機(jī)器學(xué)習(xí)團(tuán)隊(duì)“微軟牛津計(jì)劃”等研發(fā)的內(nèi)容,而且它們完全是開放的,運(yùn)用這些API,開發(fā)者可以自行在軟件和系統(tǒng)中開發(fā)有關(guān)視、聽、說、理解和解讀等方面的應(yīng)用。
在Shaikh看來,Seeing AI項(xiàng)目研發(fā)過程中遇到的最大難題是圖像描述,包括圖像識(shí)別和自然語言描述,這正是Seeing AI的核心任務(wù)。一張日常照片中包含著大量的信息,是否能夠盡量把握住所有的信息,并做出精準(zhǔn)的描述,決定了一款應(yīng)用的實(shí)用性。
團(tuán)隊(duì)中的核心技術(shù)人員Margaret Mitchell就是一位圖像描述研究者,她專攻自然語言處理,也就是說,讓計(jì)算機(jī)懂得哪些信息對(duì)人來說是最重要的。當(dāng)計(jì)算機(jī)足以識(shí)別各種細(xì)節(jié)時(shí),篩選是非常重要 的。
Seeing AI的研究員希望最終做到的是,計(jì)算機(jī)能將“一個(gè)男人和一個(gè)女人坐在一起”這種場(chǎng)景更精準(zhǔn)地表述為“奧巴馬和希拉里正在合影”,讓計(jì)算機(jī)的描述更加人性化。這需要拓展數(shù)據(jù)集,讓計(jì)算機(jī)有更多樣本參考。同時(shí),也需要相應(yīng)提高圖像描述的速度,讓視障人士可以更快地獲取信息。
但期望攝像頭現(xiàn)在就完全代替人眼是不可能的。這不僅僅在于1600萬和5.76億像素的差距,更重要的是,圖像處理系統(tǒng)與人腦的差距。人可以在一瞬間判斷出眼前的情況,主要依靠的是傳導(dǎo)神經(jīng)和記憶皮層把圖像轉(zhuǎn)換為有用的信息并加以判斷選擇。“目前,Seeing AI還處在基礎(chǔ)研發(fā)階段?!盨haikh說。研究員對(duì)于它到底能處理多少場(chǎng)景、準(zhǔn)確度如何,還沒有判斷。
這就涉及到目前最熱的人工智能(AI)技術(shù),在這方面,除了微軟,Google、蘋果、Facebook等大公司都對(duì)此投入了不少精力。尤其是Google,曾經(jīng)戰(zhàn)勝韓國(guó)圍棋九段李世石的圍棋系統(tǒng)AlphaGo就是其AI技術(shù)的代表,它其實(shí)就是利用了機(jī)器學(xué)習(xí)技術(shù),讓系統(tǒng)能盡力模仿人腦的思考方式。
其實(shí)在Seeing AI之前的2014年,微軟曾測(cè)試了一款幫助視障人士出行的頭戴式耳機(jī),工作原理類似聲吶。在和智能手機(jī)連接后,耳機(jī)會(huì)接收建筑物發(fā)出的藍(lán)牙信號(hào),轉(zhuǎn)化為3D提示音導(dǎo)航,也就是通過環(huán)境音來判斷周圍的情況。系統(tǒng)還可以識(shí)別佩戴者的朝向,提示建筑物方位和距離。
而就在Seeing AI亮相不久后,F(xiàn)acebook在今年4月宣布,為盲人發(fā)布了一款新型屏幕閱讀工具,它能自動(dòng)描述圖片上的內(nèi)容。相比微軟,F(xiàn)acebook的優(yōu)勢(shì)在于擁有海量的記錄了用戶社交關(guān)系和行為數(shù)據(jù)。
事實(shí)上,如果Seeing AI等技術(shù)能進(jìn)一步完善,它不僅可以為視障人士所用,還可以有更廣的市場(chǎng)。比如汽車領(lǐng)域,這一技術(shù)可以給駕駛者描述一些處于視覺死角的圖像信息。當(dāng)然,還有無人駕駛,別忘了,它的一個(gè)技術(shù)核心正是采集更多信息并做出精準(zhǔn)識(shí)別。