實(shí)習(xí)生 / 羅婷 記錄
當(dāng)機(jī)器人看懂世界,世界將發(fā)生什么?
實(shí)習(xí)生 / 羅婷 記錄
比爾·蓋茨認(rèn)為,計(jì)算機(jī)視覺技術(shù)結(jié)合深度學(xué)習(xí)將成為互聯(lián)網(wǎng)的下一個(gè)風(fēng)口。
上個(gè)月21號,我的同事轉(zhuǎn)給我一個(gè)網(wǎng)上很火的視頻,說的是東莞一位“女漢子”的銀行卡被商場里的ATM機(jī)吞了,她盛怒之下幾分鐘就徒手拆掉了ATM機(jī),周圍的人都驚呆了。因?yàn)樯磉厸]有保安人員阻止,一臺十幾萬的ATM機(jī)就這么報(bào)廢了。
這位“女漢子”的一舉一動(dòng)都被商場的攝像頭拍了下來,但是攝像頭只是起了單純的記錄作用,如果它在記錄的同時(shí)能識別出拍攝對象的反常動(dòng)作,并且發(fā)出警報(bào),就能及時(shí)避免這樣的事情發(fā)生了。聽起來好像很魔幻,但這就是我和我的同伴們現(xiàn)在在做的事情。2010年我從斯坦福大學(xué)畢業(yè),先后擔(dān)任了兩家跨國公司中國區(qū)的總經(jīng)理,最后決定辭職創(chuàng)業(yè)。
在創(chuàng)業(yè)之初,我就提出了這個(gè)問題:如果計(jì)算機(jī)可以看懂這個(gè)世界,我們的生活將會發(fā)生怎樣的改變? 所謂計(jì)算機(jī)的“看懂”,應(yīng)該分兩個(gè)階段。一開始應(yīng)該是感知能力,計(jì)算機(jī)能夠通過視覺、觸覺、嗅覺等觀感來感知這個(gè)世界。那么現(xiàn)在計(jì)算機(jī)對于聲音的感知已經(jīng)非常好了,視覺的感知更加重要,也更難實(shí)現(xiàn)。試想,如果我們?nèi)爽F(xiàn)在必須在各種觀感中選擇只保留一個(gè),大多數(shù)人應(yīng)該都會選擇視覺。失去了眼睛,人類將會怎樣?當(dāng)計(jì)算機(jī)有了感知世界的能力之后,就到了思考與判斷的更高階段,能幫助人類決策。
2013年,我通過真格基金的創(chuàng)始人徐小平輾轉(zhuǎn)認(rèn)識了谷歌眼鏡的主要研發(fā)者趙勇。我和“極客”出身的趙勇一拍即合,創(chuàng)辦了格林深瞳,專攻時(shí)下炙手可熱的計(jì)算機(jī)視覺。一次我們的投資人徐小平和紅杉資本的沈南鵬、聯(lián)創(chuàng)策源的馮波聊到我們未來的估值,徐小平樂觀地說起碼5000億美元,沈南鵬說1000億美元比較實(shí)際。兩人爭執(zhí)不下時(shí),馮波給出了一個(gè)折中價(jià)格3000億美元。大家看好我們的原因也是因?yàn)槲覀兠鎸Φ模且粋€(gè)比手機(jī)市場還大的隱形市場。
口述者:何搏飛
職位:格靈深瞳聯(lián)合創(chuàng)始人兼CEO
天安門廣場所有的攝像頭每24小時(shí)產(chǎn)生的數(shù)據(jù)量為1800TB (1TB=1024GB),如果把這些數(shù)據(jù)刻錄到4GB容量的DVD光盤里面,這些光盤壘起來比埃菲爾鐵塔還要高。
安防領(lǐng)域的需求究竟有多大?我可以提供幾個(gè)數(shù)據(jù):全世界每賣兩塊硬盤,其中一塊就是拿來做安防系統(tǒng)的,也就是全世界50%的硬盤賣出去,就干一件事—存監(jiān)控?cái)?shù)據(jù);天安門廣場所有的攝像頭每24小時(shí)產(chǎn)生的數(shù)據(jù)量為1800TB(1TB=1024GB),如果把這些數(shù)據(jù)刻錄到4GB容量的DVD光盤里面,這些光盤壘起來比埃菲爾鐵塔還要高;有一次我和工程師們討論首都機(jī)場T3航站樓有多少攝像頭,大家七嘴八舌,其中一位說至少有5個(gè)。我?guī)еぷ魅藛T去調(diào)研,發(fā)現(xiàn)那里一共安裝了5萬個(gè)攝像頭。
密布的攝像頭背后,并沒有足夠的人力來24小時(shí)盯著監(jiān)控屏幕看,也缺乏能去自動(dòng)理解和分析視頻內(nèi)容的技術(shù)。
在計(jì)算機(jī)識別領(lǐng)域,識別人的動(dòng)作是終極難題。要說精確識別一支筆、一本書,或者是一些人眼無法察覺的東西,這都不難。難的就是讀懂人的行為,判斷對人的肢體動(dòng)作、人的軌跡,還有人的運(yùn)動(dòng)速度。
但是我們的系統(tǒng)正在解決這個(gè)問題,當(dāng)危險(xiǎn)臨近時(shí),不需要再像往常那樣,靠保安的好運(yùn)氣才能發(fā)現(xiàn)中控室里幾萬個(gè)視頻中的異常。我們研發(fā)的三維傳感器將像機(jī)器人一樣,實(shí)時(shí)地代替人“看”著每一個(gè)場景里的一舉一動(dòng)。
這套系統(tǒng)背后的原理是這樣的:通過三維視覺感知技術(shù),實(shí)現(xiàn)對人物的精確檢測、跟蹤,對動(dòng)作姿態(tài)(包括暴力、跌倒等危險(xiǎn)行為)和人物運(yùn)動(dòng)軌跡(包括越界、逆行、徘徊等可疑軌跡)的檢測和分析。在自動(dòng)場景和人物檢測的基礎(chǔ)上,自動(dòng)給安保人員提供預(yù)警信號,主動(dòng)提醒和報(bào)告異常,讓安保人員“看得到”。
還有一個(gè)問題是,一旦發(fā)生了異常事件以后,這么多攝像頭產(chǎn)生的內(nèi)容怎么找呢?我們?nèi)绻芟矚g美劇的某一個(gè)情節(jié),按照正常的做法,只有一集一集地找,一點(diǎn)點(diǎn)地看,最多可以快進(jìn)。安全監(jiān)控也是一樣,上百GB,甚至上百TB的內(nèi)容是很難人工去找的。而且,現(xiàn)在仍然沒有一家搜索引擎提供視覺圖像搜索功能。我們可以通過三維視覺感知技術(shù),抽象出人物的特征,從非時(shí)間的維度進(jìn)行監(jiān)測、跟蹤、搜索,真正做到“找得到”。
知名公司研發(fā)的計(jì)算機(jī)視覺技術(shù)產(chǎn)品
比爾·蓋茨在2014年的達(dá)沃斯論壇上說過,IT界下一個(gè)大事件是計(jì)算機(jī)視覺,以及該技術(shù)與深度學(xué)習(xí)的結(jié)合。原來我們的機(jī)器人是瞎子,以后幾乎和人具備一樣視覺,這樣的機(jī)器人可以用在工廠、辦公室、在野外等等各種工作環(huán)境。這里的“深度學(xué)習(xí)”指的是機(jī)器通過算法,從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,并對事物作出智能識別和預(yù)測。
也許是因?yàn)榭春萌斯ぶ悄芘c計(jì)算機(jī)視覺,我們成為了今年比爾·蓋茨訪問中國的第一站。6月19日他來到中國,那天早上他8點(diǎn)多就到了,我給他介紹了我們的設(shè)備,帶他參觀了我們開放的工作環(huán)境,聽完產(chǎn)品介紹時(shí)他說了一句:“This is very cool(這非??幔 ?/p>
實(shí)際上,微軟在30年前主導(dǎo)了信息革命的第一次變革,但是在后來的移動(dòng)互聯(lián)網(wǎng)等幾次變革中都沒把握住,而谷歌和蘋果后來居上。所以這也迫使蓋茨想,要抓住接下來人工智能與計(jì)算機(jī)識別的變革,而且微軟本身也在做一些與計(jì)算機(jī)識別相關(guān)的項(xiàng)目,他完全是出于對這種新技術(shù)的興奮而來的。他也特別驚訝,因?yàn)橥ǔG闆r下,中國的創(chuàng)業(yè)公司更多的還是集中在模式創(chuàng)新,技術(shù)創(chuàng)新和基礎(chǔ)性的變革是比較少的。突然造訪的外國友人,除了比爾·蓋茨外,甚至還有美國紐約警察局。
今年9月,紐約警察局通過各種關(guān)系輾轉(zhuǎn)找到我們,此前他們在全世界找了一圈,希望可以為整個(gè)紐約城的智能安防找到解決方案。我們也將很快去美國和他們見面,探討未來合作的可能。我看了那么多美劇,電視里警方擁有那么多高精尖的技術(shù)和設(shè)備,我以為現(xiàn)實(shí)生活中他們也是如此,但其實(shí)全世界的警方和政府都是類似的,他們都對安防都極其強(qiáng)烈的需求,而現(xiàn)在的技術(shù)遠(yuǎn)不能滿足這種需求。紐約警察局選擇了我們,這讓我既驚訝又驕傲,對未來充滿信心。
除了美國紐約警察局,國內(nèi)很多機(jī)構(gòu)包括部分地方政府也找到我們,最近來聯(lián)系我們的就有某省公安廳。天安門廣場也對我們的技術(shù)產(chǎn)生了興趣,找我們提了一些安防系統(tǒng)的需求與想法,雙方初步建立了合作意向。這個(gè)象征著國家安全和榮譽(yù)的系統(tǒng),既龐大又復(fù)雜,每天輸出以TB計(jì)算的海量數(shù)據(jù),任何程序都必須完美。中國的四大銀行中,也有3家已經(jīng)成為了我們的客戶。
接觸下來,我們也發(fā)現(xiàn)中國與美國的客戶存在一定的差異。中國政府更愿意為硬件買單,如果按照以往單純銷售監(jiān)控設(shè)備的模式,確實(shí)只需要購買硬件,但是現(xiàn)在基于我們的計(jì)算機(jī)視覺技術(shù),需要購買硬件基礎(chǔ)設(shè)備和軟件服務(wù)。中國政府還沒有這種習(xí)慣,所以他們通常做法是把硬件加幾年的服務(wù)費(fèi)一次性付清。但美國人就非常習(xí)慣硬件、軟件加服務(wù)的銷售模式,這是兩國長久以來存在的消費(fèi)模式的差異。
除了上述安防領(lǐng)域,計(jì)算機(jī)視覺在別的領(lǐng)域也有很大的發(fā)展空間,比如說零售業(yè)。通過三維視覺感知技術(shù),我們可以對消費(fèi)者行動(dòng)軌跡以及行為模式進(jìn)行檢測、跟蹤和搜索,提供客觀的消費(fèi)行為分析數(shù)據(jù),精確統(tǒng)計(jì)出在設(shè)定的范圍內(nèi)的客流量、停留時(shí)間、行動(dòng)軌跡、消費(fèi)者行為,幫助傳統(tǒng)零售客戶轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)的管理方式,提高商業(yè)運(yùn)營效率,在線下實(shí)現(xiàn)“電商化”。比如說人們?nèi)ド虉?,在哪停過,在哪看過,在哪拿過東西,摸過什么,試過什么,最后買了什么,這些都被記錄下來。當(dāng)然我們不關(guān)注你是誰,我們只關(guān)注在這個(gè)小時(shí)來了多少女性、多少男性,他們是一個(gè)人來還是兩個(gè)人來,這些數(shù)據(jù)對零售商是很有幫助的。
現(xiàn)在還有很多人把互聯(lián)網(wǎng)思維當(dāng)做非常新的思路和創(chuàng)新的方法,作為一位互聯(lián)網(wǎng)創(chuàng)業(yè)者,我覺得現(xiàn)在還這么提是一件過時(shí)的事情。
在這個(gè)時(shí)代,我們無論做任何事情都需要以互聯(lián)網(wǎng)思維來考慮問題,如果這點(diǎn)都沒還有明確,那我們的創(chuàng)業(yè)和設(shè)計(jì)都不會成功。現(xiàn)在應(yīng)該看得更長遠(yuǎn)一點(diǎn),當(dāng)不遠(yuǎn)的未來,互聯(lián)網(wǎng)的終極時(shí)代到來,所謂的萬物互聯(lián)成為現(xiàn)實(shí),人與世間萬物的互動(dòng)也都會變成雙向甚至多向。
特斯拉總裁埃隆·馬斯克曾這樣評價(jià)人工智能:“隨著人工智能的發(fā)展,我們將召喚出惡魔?!钡覍@個(gè)說法有不同的見解,人類的科技還遠(yuǎn)未發(fā)展到這個(gè)程度,未來還有很長的路要走,我們完全可以邊走邊看。就像一個(gè)剛出生的孩子,我們并不知道他未來會長成什么樣子,不應(yīng)該現(xiàn)在就開始擔(dān)心他40歲之后會去吸毒或者賭博,我們應(yīng)該給他成長的空間,也應(yīng)該擁抱人工智能與計(jì)算機(jī)視覺的浪潮,這是互聯(lián)網(wǎng)歷史上即將到來的大變革。