陳曉平+謝金萍
“人工智能一下子火了起來?!毙炝⒏锌f。35歲的徐立是商湯科技(Sense Time)的CEO,也是一位計(jì)算機(jī)視覺的科學(xué)家。
以前,徐立布道“深度學(xué)習(xí)”、“人工智能”、“DeepMind”這些名詞,客戶常常不知所謂。谷歌(Google)旗下Deep Mind公司開發(fā)的人工智能程序AlphaGo擊敗韓國(guó)圍棋高手李世石之后,客戶紛紛主動(dòng)詢問合作機(jī)會(huì),“PPT中的大量專業(yè)詞匯,AlphaGo用5盤圍棋全普及了”。
2014年,徐立和學(xué)術(shù)同行聯(lián)合創(chuàng)立商湯科技,目前核心業(yè)務(wù)是機(jī)器視覺服務(wù),包括圖像視頻的處理和理解、人臉識(shí)別,其技術(shù)基礎(chǔ)就是與AlphaGo同源的深度學(xué)習(xí)。這家低調(diào)的創(chuàng)業(yè)公司,已在不知不覺中滲透進(jìn)多數(shù)人的生活。
領(lǐng)先一步
對(duì)徐立而言,AlphaGo贏得比賽并不意外。
過去兩年,但凡介紹深度學(xué)習(xí),他都會(huì)談及AlphaGo的“造物主”Deep Mind公司——2014年谷歌耗資4億英鎊收購(gòu)的一家英國(guó)公司?!癉eep Mind才12名員工,創(chuàng)始人是一位國(guó)際象棋冠軍,沒有具體產(chǎn)品,只從事深度學(xué)習(xí)的游戲研究,要花4億英鎊,當(dāng)時(shí)業(yè)界震驚了?!?/p>
每與人談及這宗收購(gòu),徐立聽到的多數(shù)評(píng)價(jià)是“谷歌就會(huì)亂花錢”。然而,業(yè)內(nèi)學(xué)術(shù)權(quán)威Yoshua Bengio教授當(dāng)時(shí)評(píng)論:“深度學(xué)習(xí)領(lǐng)域內(nèi)約有50名真正內(nèi)行的專家,其中12人在Deep Mind,谷歌買的是未來。”AlphaGo證實(shí)了Deep Mind的價(jià)值。
所謂深度學(xué)習(xí),某種意義上是對(duì)人腦神經(jīng)細(xì)胞的模仿,人腦擁有大量相互聯(lián)系的神經(jīng)細(xì)胞,細(xì)胞間彼此傳遞神經(jīng)刺激,而運(yùn)算過程并非一步到位,是從一個(gè)層次到下一個(gè)層次計(jì)算復(fù)雜事物,用計(jì)算機(jī)模仿該過程,就形成深度學(xué)習(xí),其本質(zhì)是一種人工神經(jīng)網(wǎng)絡(luò),擅長(zhǎng)在大量數(shù)據(jù)基礎(chǔ)上進(jìn)行判斷。
歷史上,谷歌曾進(jìn)行過一個(gè)“貓臉識(shí)別”的實(shí)驗(yàn),建立一個(gè)有10億個(gè)節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò),讓其“觀看”大量視頻,人工大腦自主“學(xué)會(huì)”了識(shí)別貓臉的技能。此前沒有預(yù)先編寫任何程序告訴計(jì)算機(jī)什么是“貓臉”,完全通過海量視頻和數(shù)據(jù)分析貓臉的特征。
深度學(xué)習(xí)的技術(shù)淵源,可追溯至上世紀(jì)80年代,受限于運(yùn)算能力以及數(shù)據(jù)量,在學(xué)術(shù)界長(zhǎng)期處于邊緣地帶。2006年后,由于IT技術(shù)的進(jìn)步,其學(xué)派開始崛起;隨后,微軟人工智能首席科學(xué)家鄧力(Li Deng)將其應(yīng)用于語(yǔ)音領(lǐng)域,并取得重大突破,鄧力及其合作者在2009-2010年間開發(fā)了一套算法,迅速將語(yǔ)音識(shí)別的準(zhǔn)確率提高到一個(gè)新量級(jí),一大代表性成果即全自動(dòng)同聲翻譯系統(tǒng),可實(shí)時(shí)把英文演講翻譯成中文并以中文語(yǔ)音輸出。
“這項(xiàng)研究改變了人工智能的產(chǎn)業(yè)現(xiàn)狀,引爆了學(xué)術(shù)界,深度學(xué)習(xí)馬上成為大熱點(diǎn)?!毙炝⒃u(píng)論說,“大量研究開始朝著深度學(xué)習(xí)方向迅猛推進(jìn),像推火車一樣,技術(shù)應(yīng)用不斷拓展,計(jì)算準(zhǔn)確率大幅度提升?!?013年,《麻省理工科技評(píng)論》(MIT Technology Review)將深度學(xué)習(xí)列為世界十大突破性技術(shù)之首。
據(jù)徐立介紹,深度學(xué)習(xí)目前主要應(yīng)用于三大領(lǐng)域:語(yǔ)音識(shí)別、自然語(yǔ)言處理(代表性例子是“微軟小冰”)以及計(jì)算機(jī)視覺。2010年前后,徐立當(dāng)時(shí)是香港中文大學(xué)的博士后,與湯曉鷗教授等香港中文大學(xué)多媒體實(shí)驗(yàn)室的師兄弟多有接觸,后者是深度學(xué)習(xí)在視覺領(lǐng)域應(yīng)用的先驅(qū)。
其中,頗具說服力的成就是,在CVPR、ICCV和ECCV三大計(jì)算機(jī)視覺學(xué)術(shù)會(huì)議上,前3年有關(guān)深度學(xué)習(xí)的29篇文章中,有14篇出自香港中文大學(xué)多媒體實(shí)驗(yàn)室,其團(tuán)隊(duì)后來成為商湯科技的骨干研究力量。可以說,在深度學(xué)習(xí)與計(jì)算機(jī)視覺剛剛聯(lián)姻時(shí),正是學(xué)術(shù)方向的明智選擇以及強(qiáng)執(zhí)行力,成就了商湯科技現(xiàn)在的商業(yè)價(jià)值。
直到現(xiàn)在,商湯科技也保持著濃厚的學(xué)術(shù)色彩,其人才團(tuán)隊(duì)中有不少來自MIT、斯坦福、香港大學(xué)、香港中文大學(xué)、清華大學(xué)等高校及其實(shí)驗(yàn)室,以及谷歌、百度、微軟、阿里巴巴等產(chǎn)業(yè)界的領(lǐng)軍人物,其中包括5位微軟研究獎(jiǎng)獲得者(Microsoft Research Fellow),兩位A-star(阿里星人才計(jì)劃),聚集了華人世界中一批深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域?qū)<摇?00余人的公司中,擁有50多名博士。
“商湯的很多科學(xué)家非常搶手,我們提供的工資并不比業(yè)界巨頭高。”徐立向《二十一世紀(jì)商業(yè)評(píng)論》(下稱《21CBR》)記者解釋說,“這些科學(xué)家愿意過來,是因?yàn)槲覀冋嫘南嘈牛谌斯ぶ悄苓@樣的關(guān)鍵領(lǐng)域,中國(guó)原創(chuàng)科技完全有機(jī)會(huì)走到世界前列?!?/p>
全球第一
現(xiàn)就職于谷歌的Geoffrey Hinton被譽(yù)為深度學(xué)習(xí)領(lǐng)域的開山鼻祖,2010年在語(yǔ)音領(lǐng)域?qū)崿F(xiàn)突破后,他嘗試將深度學(xué)習(xí)引入到視覺圖像領(lǐng)域,于2012年參加ImageNet競(jìng)賽。
ImageNet競(jìng)賽是人工智能領(lǐng)域的權(quán)威競(jìng)技場(chǎng),斯坦福華裔學(xué)者李菲菲(Feifei Li)為視覺領(lǐng)域收集了大規(guī)模的“圖像分類和物體檢測(cè)”數(shù)據(jù)集。該數(shù)據(jù)集最初包括一個(gè)1000類圖片分類的任務(wù),后面又增加了200類靜態(tài)圖片物體檢測(cè)任務(wù)。
Geoffrey Hinton第一次使用深度學(xué)習(xí)方法,就將圖像分類的準(zhǔn)確率提升10%,這在過往要耗時(shí)數(shù)年才能實(shí)現(xiàn)。此例一開,但凡在計(jì)算機(jī)視覺領(lǐng)域要證明自身實(shí)力,參加ImageNet競(jìng)賽幾乎成必選項(xiàng)。
2014年9月,商湯科技聯(lián)合創(chuàng)始人邱石博士等人首次出征ImageNet競(jìng)賽,在大規(guī)模物體檢測(cè)比賽中以40.7%的成績(jī)榮獲世界亞軍,成績(jī)僅次于谷歌的43.9%。
2015年,ImageNet競(jìng)賽新增一項(xiàng)視頻物體檢測(cè)的任務(wù)。視頻是連續(xù)的圖像,比靜態(tài)圖像中的物體檢測(cè)復(fù)雜度更高,商業(yè)價(jià)值也更高。舉例來說,一旦將視頻中的所有物件識(shí)別出來,品牌商就可按物體搜索,進(jìn)行定向的品牌植入。
在該項(xiàng)新任務(wù)的比拼中,賽事主辦方選擇了30個(gè)類別的物體,商湯科技聯(lián)合香港中文大學(xué)多媒體實(shí)驗(yàn)室組成的團(tuán)隊(duì),在28個(gè)類別中準(zhǔn)確率最高,第二名只贏了兩個(gè);商湯科技整體62%的準(zhǔn)確率,也遠(yuǎn)高于第二名51%的準(zhǔn)確率,最終商湯科技以11%的壓倒性優(yōu)勢(shì)領(lǐng)先并奪冠。
按照徐立的解釋,ImageNet比賽的成績(jī),取決于三大要素:
首先最核心的是“造腦”能力,腦子造得聰明與否,決定最后運(yùn)算結(jié)果,造腦能力也是評(píng)價(jià)一家公司是否有人工智能核心技術(shù)的關(guān)鍵。谷歌收購(gòu)Deep Mind團(tuán)隊(duì),臉書(Facebook)招募學(xué)術(shù)權(quán)威Yann LeCun等人,百度聘請(qǐng)吳恩達(dá)(Andrew Ng)擔(dān)任首席科學(xué)家,本質(zhì)上請(qǐng)的就是“造腦的上帝”。只要人工網(wǎng)絡(luò)的設(shè)計(jì)勝出一籌,在搜索等業(yè)務(wù)場(chǎng)景中將帶來巨大的商業(yè)利益,而商湯科技研究團(tuán)隊(duì)的高占比,正是因?yàn)槠鋵ⅰ霸炷X”列為第一要?jiǎng)?wù)。
其次是數(shù)據(jù),數(shù)據(jù)量越大,運(yùn)算結(jié)果越準(zhǔn)確,由于ImageNet主辦方也提供了限定的訓(xùn)練數(shù)據(jù)集,該項(xiàng)條件對(duì)于參賽者是平等的。
再次是超算能力,這是由大數(shù)據(jù)處理的需求所決定的,只有計(jì)算能力較別人快,才能測(cè)試更多的算法模型,從中遴選出最佳算法。商湯團(tuán)隊(duì)剛成立時(shí),一開始沒有GPU集群,往往要等1個(gè)月才能驗(yàn)證一個(gè)結(jié)果。在2014年5月,在吳恩達(dá)的主持下,百度構(gòu)建了當(dāng)時(shí)世界最快的超算平臺(tái)MINWA,實(shí)現(xiàn)144個(gè)GPU連接。但現(xiàn)在,商湯科技已建設(shè)的深度學(xué)習(xí)超算平臺(tái)DeepLink,200塊GPU的連接為全國(guó)最大,以前耗時(shí)1個(gè)月的運(yùn)算,現(xiàn)在只需5-6個(gè)小時(shí)即可完成。
ImageNet競(jìng)賽的奪魁,證明了商湯科技在兩大領(lǐng)域的實(shí)力,“第一,我們腦子確實(shí)造得好;第二,超算平臺(tái)能力強(qiáng)。”徐立相當(dāng)自豪。
掘金“人臉識(shí)別”
深度學(xué)習(xí)過于抽象,對(duì)普羅大眾而言,商湯科技最易理解的標(biāo)簽之一就是人臉識(shí)別技術(shù)。
2014年下半年,投資機(jī)構(gòu)IDG主動(dòng)找上門,游說香港中文大學(xué)多媒體實(shí)驗(yàn)室的骨干創(chuàng)業(yè),徐立等人當(dāng)時(shí)在業(yè)內(nèi)已相當(dāng)資深,為什么舍棄學(xué)術(shù)追求而創(chuàng)業(yè)呢?
“從學(xué)術(shù)上轉(zhuǎn)換成工業(yè)應(yīng)用,本身是一種責(zé)任?!毙炝⒔忉屨f,此前,香港警方曾向其團(tuán)隊(duì)尋求幫助:一些高速行使的逃逸車輛,監(jiān)控錄像過于模糊,希望他們恢復(fù)出逃車輛的信息,香港警方愿意為服務(wù)埋單。這種實(shí)踐給予了團(tuán)隊(duì)巨大的成就感。事實(shí)上,計(jì)算機(jī)視覺領(lǐng)域的“四大天王”(即前文所述的Geoffrey Hinton、Yann LeCun、Yoshua Bengio、吳恩達(dá))中,就有3位投身產(chǎn)業(yè)。
2014年10月,商湯科技團(tuán)隊(duì)正式成立。創(chuàng)業(yè)伊始,團(tuán)隊(duì)的主要精力是將學(xué)術(shù)成果轉(zhuǎn)化為商業(yè)性解決方案,2015年上半年一直忙于深耕產(chǎn)品,而隨著人臉識(shí)別以及圖像處理的需求日漸旺盛,在2015年6月份,公司業(yè)務(wù)開始爆發(fā)性增長(zhǎng),商湯科技的商務(wù)團(tuán)隊(duì)起初不過四五人,在公司忙于接待問詢的客戶,直到2015年底,才開始有針對(duì)性地開發(fā)行業(yè)客戶。現(xiàn)在商務(wù)團(tuán)隊(duì)的負(fù)責(zé)人此前任職IBM Watson Health 大中華區(qū)事業(yè)總監(jiān)。
由于商湯科技主要從事B2B業(yè)務(wù),多隱身于幕后,一直未為人所知,實(shí)際上,其服務(wù)客戶量早已達(dá)億級(jí)規(guī)模。
小米是其合作商之一。2015年8月小米推出操作系統(tǒng)MIUI7,其中發(fā)布的寶寶相冊(cè),正是聯(lián)手商湯科技共同打造的新賣點(diǎn)。小米云服務(wù)負(fù)責(zé)人范典告訴《21CBR》記者,寶寶相冊(cè)中采用的人臉識(shí)別技術(shù),主要在于三個(gè)核心算法:一是檢測(cè)圖庫(kù)中的同一張臉,二是識(shí)別這張臉的特征,三是聚類相同的臉孔。
“在這個(gè)過程中,我們要確保用戶隱私,絕對(duì)不能泄露任何數(shù)據(jù),這是個(gè)挺大的工作量。盡管我們自研算法,但希望做出來的產(chǎn)品是一流的,所以全方位評(píng)估了超過10家公司后,最后決定將‘人臉識(shí)別,就是數(shù)據(jù)特征這部分交給商湯來做?!狈兜湔f。
在線金融搜索服務(wù)平臺(tái)“融360”的CEO葉大清也告訴《21CBR》記者,人臉識(shí)別技術(shù)發(fā)展至今,系統(tǒng)識(shí)別準(zhǔn)確率已經(jīng)超過了人眼的識(shí)別。換言之,技術(shù)勝于人類識(shí)別。在葉大清看來,這正是金融行業(yè)所需要的——人工智能應(yīng)用于金融行業(yè),可進(jìn)行反欺詐,識(shí)別騙子,提高效率,降低風(fēng)險(xiǎn)。
因此,2015年5月,融360聯(lián)合商湯科技推出名為“天機(jī)”的風(fēng)控系統(tǒng),從用戶身份認(rèn)證、還款意愿和還款能力三個(gè)大維度,進(jìn)行信用評(píng)分,再根據(jù)分值向放貸機(jī)構(gòu)提出放款建議。 據(jù)稱,分值足夠的用戶,申請(qǐng)5萬元以下的小額貸款,10分鐘便可完成審批,最快當(dāng)天放款。
同時(shí),葉大清認(rèn)為,新技術(shù)是推動(dòng)普惠金融發(fā)展的重要?jiǎng)恿?,“我們總說普惠金融,為更多人提供金融服務(wù),這是普遍性;而價(jià)格降下來就是‘惠。長(zhǎng)期利用技術(shù)能降低貸款利率,這是毫無疑問的。從這個(gè)角度來看,人臉識(shí)別技術(shù),大數(shù)據(jù)風(fēng)控技術(shù),有可能降低融資成本,提高融資效率,推動(dòng)普惠金融發(fā)展,幫助更多需要金融服務(wù)的老百姓?!?/p>
在徐立看來,深度學(xué)習(xí)近幾年之所以流行起來,在于它為行業(yè)提供了新的解決方案。“現(xiàn)在深度學(xué)習(xí)很強(qiáng)大,以至于一套解決方案可以適配到各個(gè)行業(yè)中去。它是一個(gè)萬能鑰匙?!?/p>
據(jù)徐立介紹,現(xiàn)階段商湯科技主要布局以下幾個(gè)領(lǐng)域:
第一大領(lǐng)域是移動(dòng)互聯(lián)網(wǎng),其客戶包括小米,華為Mate 8發(fā)布的智能人臉相冊(cè),美圖公司的人臉檢測(cè)器、人像美容等。之前刷爆朋友圈的圖聊軟件Faceu、Snow等,采用的也是商湯科技的算法。這些產(chǎn)品應(yīng)用,每個(gè)均涉及千萬量級(jí)以上的客戶。
值得一提的是,商湯科技還與中國(guó)移動(dòng)在線公司締結(jié)了戰(zhàn)略合作關(guān)系,后者實(shí)施的3億用戶實(shí)名制計(jì)劃,就依托于商湯科技在OCR人臉識(shí)別領(lǐng)域的技術(shù)。
2015年中國(guó)移動(dòng)全面實(shí)行實(shí)名認(rèn)證,主要通過身份證OCR識(shí)別(Optical Character Recognition,光學(xué)字符識(shí)別),以及人臉識(shí)別兩大技術(shù)實(shí)現(xiàn)。在去年中國(guó)移動(dòng)的兩項(xiàng)公開招標(biāo)中,商湯科技最終在數(shù)十家競(jìng)標(biāo)公司中勝出。
“在競(jìng)標(biāo)過程中,商湯科技提供的技術(shù)模塊有三個(gè)方面的特點(diǎn):算法識(shí)別準(zhǔn)確率最高;能夠滿足客戶在不同場(chǎng)景下的圖像識(shí)別;在最短時(shí)間內(nèi),利用數(shù)據(jù)針對(duì)實(shí)用場(chǎng)景開展了人臉識(shí)別訓(xùn)練?!敝袊?guó)移動(dòng)在線公司實(shí)名制認(rèn)證負(fù)責(zé)人王強(qiáng)鑫告訴《21CBR》記者。
王強(qiáng)鑫表示,通過人工智能技術(shù)完成身份核實(shí)和實(shí)名認(rèn)證,不僅降低身份防騙防盜幾率,解決了安全性問題,也因?yàn)橄到y(tǒng)自動(dòng)處理服務(wù),為客戶帶來很大的便捷性。王強(qiáng)鑫透露,后續(xù)與商湯科技合作中,計(jì)劃在10086視頻客服等其他數(shù)字服務(wù)領(lǐng)域全面應(yīng)用刷臉識(shí)別技術(shù),為客戶提供更加便捷和安全的服務(wù)體驗(yàn)。
視頻,正是商湯科技發(fā)力的第二大領(lǐng)域。2015年,商湯科技與安防企業(yè)東方網(wǎng)力共同設(shè)立公司,以視頻監(jiān)控系統(tǒng)、安防軟件、大數(shù)據(jù)為基礎(chǔ),共同打造智能交通管理系統(tǒng)。
東方網(wǎng)力董事長(zhǎng)趙永軍表示:“視頻技術(shù)作為視頻的拓展,在平安城市中經(jīng)過多年磨合,加上互聯(lián)網(wǎng)技術(shù)的發(fā)展,視覺感知正在發(fā)生質(zhì)變,技術(shù)和商業(yè)模式的探索將不斷涌現(xiàn)出新的形態(tài)?!?/p>
的確,人工智能也為視頻行業(yè)提供了新的模式和方案。今年年初,網(wǎng)絡(luò)紅人Papi醬火遍互聯(lián)網(wǎng)時(shí),再次推動(dòng)了視頻行業(yè)的發(fā)展。視頻行業(yè)“新貴”小咖秀事業(yè)部總經(jīng)理?xiàng)钚裣颉?1CBR》記者透露,在多番評(píng)估測(cè)試后,小咖秀選擇聯(lián)手商湯科技,探討如何結(jié)合人工智能,打造視頻的新玩法。
商湯科技布局的第三大領(lǐng)域是互聯(lián)網(wǎng)金融,其合作伙伴包括銀聯(lián)、京東金融、招商銀行等,涉及真人檢測(cè)、身份證、OCR等業(yè)務(wù)。
除了前文提及的融360,另一家合作伙伴“借貸寶”也采用了商湯科技的算法。借貸寶副總裁翁曉奇透露,其肖像認(rèn)證系統(tǒng)采用了商湯科技的平臺(tái),用戶不需輸入銀行卡密碼即可進(jìn)行身份認(rèn)證,“在APP為用戶肖像采集一張照片,再和公安部提供的身份證照片進(jìn)行比對(duì),我們每天有幾十萬人通過這種活體的肖像認(rèn)證,目前是全國(guó)最大規(guī)模的肖像認(rèn)證技術(shù)實(shí)踐。”
實(shí)際上,商湯的技術(shù)曾一度遭到業(yè)內(nèi)懷疑,“有同行誤以為我們后臺(tái)雇傭了大量人員進(jìn)行人工甄別,實(shí)際上完全是大數(shù)據(jù)處理的成果,我們的技術(shù)儲(chǔ)備超過了很多同行的想象。”徐立解釋,在國(guó)內(nèi)的人臉識(shí)別或圖像處理等垂直應(yīng)用市場(chǎng),商湯科技固然存在競(jìng)爭(zhēng)對(duì)手,但是同行多是根據(jù)現(xiàn)有算法從事應(yīng)用場(chǎng)景的研究,“我們還沒有看到跟我們一樣,專注于核心的造腦和超算能力的布局。嚴(yán)格意義上,很多同行其實(shí)是我們的下游,彼此應(yīng)有更多的合作”。
商湯科技團(tuán)隊(duì)希望對(duì)標(biāo)的,是谷歌、臉書這樣從事深度學(xué)習(xí)研究的公司,徐立說:“谷歌和臉書現(xiàn)在均未提供企業(yè)級(jí)服務(wù),這是我們巨大的機(jī)會(huì)。”