董可馨
從冷兵器時代到工業(yè)時代,人類花了六千年。但從工業(yè)時代到信息時代普及,僅僅短短250年,科技引領著人類社會突飛猛進。當下,為時間車輪賦予更大加速度的人工智能,已成為任何人都無法回避的議題。
當某種未來雖然面貌仍不清晰,但已確定是不可避免,留給我們的只有一條路:認識,迎接,并保持警惕。
為此,11月12日,《南風窗》記者在北京中科院自動化所與雷震展開對話。雷震是中國科學院自動化研究所副研究員,從事人臉識別技術研究十幾載,他參與研發(fā)的人臉識別系統(tǒng),已成功應用于多個行業(yè)領域,包括2008年北京奧運會/殘奧會實名制門票驗證系統(tǒng)。
南風窗:電影《碟中諜》中有一個場景,你在一席演講時也提到過,特工在人來人往的火車站,通過眼鏡上的設備,迅速鎖定他要尋找的目標。電影《復仇者聯(lián)盟》也有類似的,神盾局為了找到洛基,開動高性能的電腦,通過遍布全球的攝像頭,在茫茫人海中定位到他。這些是電影里關于人臉識別的片段。對很多人工智能項目,有一種說法是:“外行一般覺得很科幻,內行覺得很絕望,業(yè)界領袖各種打雞血?!痹谀憧磥?,人臉識別現(xiàn)在發(fā)展到了什么程度?
雷震:外行人看起來,人臉識別或許比較神,像電影里那樣炫酷。其實從我們技術領域來說,還是挺復雜的,涉及光線、遮擋、姿態(tài),種種因素都會對識別造成很大的挑戰(zhàn)。
比如有時太陽光正好照著,有時分辨率很低?,F(xiàn)在人臉識別在一定的可控環(huán)境下,比如1:1的場景里比較成熟了,但是監(jiān)控流動的人群準確率還不夠,會有誤報。
南風窗:我看到央視有一檔節(jié)目叫《機智過人》,有一期介紹“神眼小V”,它是在天門山景區(qū)里面,當時人流量大概在2萬,碰巧還下著雨,有一個記者偽裝起來,刻意躲避攝像頭,但最后還是在11分鐘之內被找到了。
雷震:這個是在限定的場景里。你也不能說它作假,我只能說,真實的系統(tǒng)性能肯定沒有節(jié)目里表現(xiàn)出來的那么好。攝像機架設的高度、角度和地理位置等對系統(tǒng)性能都會有較大的影響。實際上,如果大范圍的、隨意地去架設的話,準確率可能就沒那么高了。不過火車站進站實名制驗票應用中,要通過身份證和人臉的比對,然后實名通關,那個應用現(xiàn)在是比較成熟了。
南風窗:進站刷臉對我有一個問題,我拍身份證照片的時候,還比較胖,后來瘦了,很多次進火車站,刷臉都很難通過。
雷震:人臉識別會受到很多因素的影響。正好前段時間我還看到一個挺有意思的研究結果,在人臉識別這一塊,一般來說男性的識別率比女性要高。因為女性可能有劉海,發(fā)型的變化,還會化妝,這樣跟身份證相比可能差別大一點。不過也有前提, 它是發(fā)生在白種人和黃種人里。對于黑人朋友來說結果就不是這樣了,反而是女性的識別率高,這可能和成像有關系,但現(xiàn)在還不能徹底弄清原因。
話說回來,現(xiàn)在很多情況是只報喜不報憂。只報正確識別出來的,各種誤報大家看不到,所以公眾會覺得這東西很先進。但實際上,因為監(jiān)控主要是給公安用來抓嫌疑人員的,它可以允許你不報,但不能有過多的誤報,因為每報一次就要出警。這就像“狼來了”,錯誤多了他會覺得這東西不靠譜,就不用了。所以首先一定要控制住誤報率在一定范圍內。
南風窗:它的技術過程是怎么樣的?
雷震:人臉識別一般是這樣,前端有攝像頭,可能畫面中有幾十張人臉,攝像頭上會有一個算法,把人臉一一找出來。然后把截出的人臉區(qū)域往后臺傳,后臺會對發(fā)回的圖像,提取各種特征,轉換成計算機能認得的一串碼,然后去跟庫里的二代身份證比,算一個相似度。相似度高的,就認為他是我們要找的人。
算法的核心,在于我怎么從圖像轉換成一串二進制的碼。同一個人的圖像提取出來的二進制碼要相似,不同人的二進制碼要盡可能不同,這樣提出來的碼才能有比較好的識別能力。
南風窗:從圖像轉換成二進制碼的機制是什么?
雷震:通過模型,從圖像到一串二進制代碼,模型就在這中間。以前是根據(jù)經(jīng)驗來的,但畢竟人的設計能力有限,尤其是當有上百萬,乃至上千萬人時,總有不少相似的。
南風窗:比如雙胞胎。
雷震: 對,還不用到雙胞胎這個級別。更早以前,人臉識別是靠看五官。比如看兩個眼睛之間的距離,鼻子到嘴巴的距離,嘴巴多寬,眉毛多長。但你很快就發(fā)現(xiàn)當人數(shù)多了,信息相同的人實在太多了,這些信息完全不夠,起不到判別的作用。
由人去設計太需要經(jīng)驗,也太費精力,而且沒有標準,都是靠個人的獨門絕活,如果一個人的運氣比較好,或者他的知識面比較廣,可能正好設計出來一種特征比較有效。
它不能獨立出來,否則就是一堆技術。而要和其他行業(yè)結合,還要看數(shù)據(jù)量,并不是每個行業(yè)都有很多數(shù)據(jù),有的行業(yè)數(shù)據(jù)就很少。
深度學習就避免了人來設計,可以做到自動學。模型里面有一堆參數(shù),輸入一張圖像,輸出的就是一串二進制碼的特征。輸出特征要求有一個優(yōu)化的目標,達到目標就是這組特征。比如同一個人的,就是要這張相似度比別人高,有了這個目標,就讓模型自己去學,各個參數(shù)應該是什么值,能夠使得一張圖像進來之后,我得到的特征達到效果。這就是深度學習的作用。
南風窗:它的學習速度會比人快多少?
雷震:機器學習和人還不一樣。人在認識物體的時候,有聯(lián)想和推理能力。比如你跟小孩說這是一輛車,他哪怕沒見過別的車,自己也會聯(lián)想,下次看到另一輛車,他就知道這是車。機器學習的方法不同。你給它一兩個樣本是不夠的,得有成千上萬個才行。它的學習是暴力的,說得難聽點就是,當它把全世界的車都見過一遍之后,才可能準確率非常高。機器是靠大量喂數(shù)據(jù)強行去優(yōu)化模型。這是機器跟人最大的不同。
就拿人臉識別來說,你從幾萬個人里找出五個人,眼都看花了。但機器靠運算,反正存儲和計算是它的強項,所以要它大海撈針,準確率肯定遠高于人。但人有機器不具備的能力,比如我們去認一個人,尤其是熟人的時候,可能都還沒看清他長什么樣,就大概知道他是誰了。機器就不行,不能模糊,必須得走近了,拍清晰了,它的識別率才可能非常高。
人和機器還有一個不同,人更主動。認雙胞胎的時候,人會看哪里是不是有顆痣,兩個耳朵的形狀可能不太一樣。機器現(xiàn)在就沒有,它就一套算法,不會去比。你也可以認為機器還是比較傻,現(xiàn)在有些也在夸大機器的性能。不過確實人工智能的發(fā)展很快,以前是各方面都比不上人,現(xiàn)在好歹在某些方面已經(jīng)超過人了,確實進步很大。
南風窗:現(xiàn)在做人臉識別的公司多嗎?
雷震:現(xiàn)在非常多了。很多公司都會標榜自己做人臉識別,好多人會拿數(shù)據(jù)集訓,做一個demo,然后就去融資了,所以會突然爆出來上百家,但真做得好的還是不多。因為要做得好,各個場景的數(shù)據(jù)都要有,剛才說的那幾個難點也都要克服,這很費時間的。
南風窗:所以它現(xiàn)在基本上也很難產(chǎn)業(yè)化。
雷震:人工智能很難的,因為它不是一個行業(yè),它得跟其他傳統(tǒng)行業(yè)結合起來才行,所謂AI+。它不能獨立出來,否則就是一堆技術。而要和其他行業(yè)結合,還要看數(shù)據(jù)量,并不是每個行業(yè)都有很多數(shù)據(jù),有的行業(yè)數(shù)據(jù)就很少。比如工業(yè)視覺里面,檢測易拉罐有沒有缺陷,或者印刷的圖案上有沒有劃痕,就要先給它一堆有問題的,讓它去學,但是數(shù)據(jù)量不大,不可能自己拿一堆易拉罐去劃。所以目前也力圖在小數(shù)據(jù)上提升深度學習能力。
研發(fā)這一塊前期投入會比較大,人力成本也高。這也是為什么很多人工智能都是在虧損,落地很難。人臉識別的落地應該是相對最深的,也是最容易的。國家在推廣,“雪亮工程”在進行,本身這塊需求很大,所以人臉識別領域現(xiàn)在成了紅海。
南風窗:它也因此變成了時代的大生意。
南風窗:我們剛才說到模型,你說過,深度學習多層次的神經(jīng)網(wǎng)絡在20世紀六七十年代就已經(jīng)提出來,但是當時有人想干干不了,是因為那個時候除了計算速度慢,數(shù)據(jù)也太少了,沒有辦法優(yōu)化出模型,但是到大數(shù)據(jù)時代,獲取圖像信息非常容易,我們普通人都在為此做貢獻,比如QQ、微博里的圖片,或者支付寶的頭像。這些是可以隨意去從網(wǎng)上把它抓取出來的?
雷震:“ 爬蟲”能爬下來,QQ空間里有的人未設密碼,相當于那個空間本來就是可以公開訪問的,那爬下來應該沒有問題,而且純做研究的話,肯定不會擴散。但是如果在后面去干一些壞事肯定也是不行的。
南風窗:已經(jīng)有人提出“以后可能是刷臉的時代”,刷臉會取代密碼輸入嗎?
雷震:這塊現(xiàn)在還是比較謹慎。
南風窗:今年10月29日,市場監(jiān)管總局發(fā)了一個關于智能門鎖質量安全消費的警示,建議關閉智能門鎖人臉識別這些功能。
雷震:對。這里面涉及兩個技術,一個是人臉識別,另一個是活體檢測。在刷臉支付、門鎖這些地方會用到活體檢測。這項技術是判斷攝像機前的你,是個真人,還是舉著照片,或是三維模型。在監(jiān)控里一般不需要活體檢測,你走在路上帶一個面具,太容易看出來了。
在國外,人臉識別的發(fā)展受到一定限制,因為國外對隱私看得很重。
但是門鎖、支付就不一樣,我們做過一個實驗,只把人臉區(qū)截下來,讓人去判斷,看到的是真人,還是一張假的圖像,但基本上我們研究人員也是隨機猜的。因為人看圖像,必須要配合著周圍的環(huán)境來判斷。算法就更沒有人那么智能,因為它本身是靠人訓練起來的,如果訓練數(shù)據(jù)里不包含有些材料的話,可能就識別不對。這里面很復雜,因為攻擊的手段實在太多了,常用的可能就是舉張照片,再厲害一點,拿個面具?,F(xiàn)在防偽里面做得最好的還是蘋果公司,據(jù)說它被成功攻擊的最少。現(xiàn)在百分百的還做不到,肯定還有被攻破的。尤其是人皮面具,那基本上都防不住。
我看到有攻擊電磁感應鎖成功的例子。電磁感應鎖是原理是這樣,它有兩個模塊,一個是身份認證模塊,一個是開鎖的模塊,這兩塊之間是通過某個信號連接的。網(wǎng)上流傳一個視頻,鎖那一端,因為電磁感應做得不夠,拿一個特斯拉線圈弄弄,就繞過了身份認證,直接給開鎖端一個信號,鎖就自動開了。這就相當于身份認證的模塊失效了。市場監(jiān)管總局的警告有可能指的是這個。
刷臉支付,其實它在使用場景上是有選擇的,一般是小額支付,比如KFC引進刷臉支付,一單也沒多少錢。而且,螞蟻金服不單單是靠人臉識別,它后面還有風控技術,不是給每個人都開通刷臉支付功能。很多時候它要和密碼組合使用,是給信用高的人多一重保障??偟膩碚f,刷臉的風險當然還是有,所以現(xiàn)在暫時只能小范圍的在某些局部的場景應用,大規(guī)模推廣還不會。
南風窗:人臉識別技術,國際上的應用情況是怎么樣的?
雷震:在國外,人臉識別的發(fā)展受到一定限制,因為國外對隱私看得很重。比如臉書(Facebook)、亞馬遜,做一些人臉識別很容易被人告,或引起民眾抗議。之前還報道過一個亞馬遜的新聞,它根據(jù)歷史存在的數(shù)據(jù),用機器學習方法開發(fā)了一個自動篩簡歷的系統(tǒng)。結果被人發(fā)現(xiàn),女性被篩掉的比例比較高,因而只能暫停。Facebook上也有過類似的事情,比如給你的合影里面貼標簽,標出來你的好友是誰,這種東西很危險。
監(jiān)控這一塊國外就更謹慎了,它不會時時刻刻去監(jiān)控一些民眾的行為。
南風窗:那么,中國的情況呢?
雷震:中國的數(shù)據(jù)量比較大,數(shù)據(jù)來源比較多,算法出來的性能就會好。但人臉數(shù)據(jù)到處泛濫了,確實會有問題。公安部也很重視,以后肯定是會越來越正規(guī),越來越收緊。因為大家都意識到數(shù)據(jù)安全的重要性。
還有一點是,現(xiàn)有的模型基本上是基于中國人的人臉訓練的,所以對中國人的識別度就比較高,對外國人會有所下降。
南風窗:其實它還涉及一個很大的話題,關于自由。
雷震:是,但我們也沒有辦法。