陸飛
近日,“Baidu Create 2018”(百度AI開(kāi)發(fā)者大會(huì))上,百度高級(jí)副總裁、AI技術(shù)平臺(tái)體系(AIG)總負(fù)責(zé)人王海峰播放了一段無(wú)人超市中的視頻。視頻中,購(gòu)物可以實(shí)現(xiàn)即拿即走,輕松便捷;購(gòu)物車既可以為你指路,也可以乖乖跟隨身后,服務(wù)十分到位。
無(wú)人超市的背后,是百度視覺(jué)語(yǔ)義化技術(shù)的應(yīng)用。當(dāng)天下午的“百度大腦論壇”上,百度視覺(jué)技術(shù)部、人臉技術(shù)部、增強(qiáng)現(xiàn)實(shí)技術(shù)部總監(jiān)吳中勤對(duì)百度視覺(jué)語(yǔ)義化技術(shù)及其應(yīng)用進(jìn)行了詳細(xì)的介紹。他表示,百度視覺(jué)技術(shù)團(tuán)隊(duì)通過(guò)領(lǐng)先的技術(shù)創(chuàng)新突破,實(shí)現(xiàn)了從看清向看懂的升級(jí),成為新零售、視頻媒體等各大場(chǎng)景應(yīng)用的“福音”。
百度視覺(jué)語(yǔ)義化技術(shù)是百度AI全新的視覺(jué)感知和理解能力,是一次質(zhì)的飛躍。它以數(shù)據(jù)采集、光學(xué)傳感器、嵌入式芯片和云端計(jì)算服務(wù)為底層依賴,通過(guò)人臉、物體檢測(cè)、文字識(shí)別和場(chǎng)景分析的識(shí)別算法,以及動(dòng)作監(jiān)測(cè)、視頻跟蹤和事件分析的語(yǔ)義分析,輸出智能分析與推理、可視化展現(xiàn)和檢索查詢系統(tǒng)等解決方案,能夠被廣泛應(yīng)用在零售、視頻媒體、金融、醫(yī)療、交通運(yùn)輸和營(yíng)銷等眾多領(lǐng)域。
百度視覺(jué)語(yǔ)義化技術(shù)實(shí)現(xiàn)“看懂”需要4個(gè)步驟,從識(shí)別人、物和場(chǎng)景,到捕捉行為和關(guān)系,然后形成時(shí)序化、數(shù)字化、結(jié)構(gòu)化的語(yǔ)義知識(shí),可進(jìn)行智慧推理并在場(chǎng)景落地應(yīng)用。
例如在超市場(chǎng)景,當(dāng)顧客進(jìn)入超市時(shí),基于百度視覺(jué)語(yǔ)義化可以首先通過(guò)人體識(shí)別和ReID確認(rèn)顧客身份(會(huì)員/首次光顧),然后通過(guò)捕捉用戶的瀏覽區(qū)域、停留時(shí)間以及選購(gòu)商品等,分析用戶偏好,進(jìn)而實(shí)現(xiàn)顧客行為語(yǔ)義化分析。
除了零售行業(yè),百度視覺(jué)語(yǔ)義化在視頻分析和汽車保險(xiǎn)智能定損領(lǐng)域也有出色表現(xiàn)。在車輛保險(xiǎn)智能定損領(lǐng)域,該解決方案能適用90%乘用車型,囊括67類語(yǔ)義分割部件,擁有8種語(yǔ)義損傷類型,通過(guò)對(duì)車輛部件和損傷的像素級(jí)識(shí)別,能夠?qū)p傷部件形成準(zhǔn)確的物理?yè)p傷描述,進(jìn)而形成對(duì)應(yīng)的維修邏輯和價(jià)格,輸出合理的定損及理賠方案。
吳中勤以世界杯賽事為例,展示了視覺(jué)語(yǔ)義化技術(shù)在視頻分析領(lǐng)域的應(yīng)用。有了這個(gè)技術(shù),AI能夠通過(guò)比賽對(duì)球場(chǎng)各種元素的識(shí)別,包括球員、足球和賽場(chǎng)區(qū)域等元素,以及行為動(dòng)作的捕捉,如球員的射門(mén)和角球等動(dòng)作,從而進(jìn)行智能推理與應(yīng)用,為用戶提供精彩射門(mén)集錦、球員和球隊(duì)表現(xiàn)分析、視頻中事件智能檢索甚至智能問(wèn)答等功能,能大幅提升視頻媒體分析的表現(xiàn)。
事實(shí)上,要實(shí)現(xiàn)諸如智能零售、視頻媒體分析這樣的場(chǎng)景,背后依賴于強(qiáng)大算法和技術(shù)能力。百度視覺(jué)技術(shù)在此領(lǐng)域首創(chuàng)Pyramidbox算法、Ubiquitous Reweighting Network算法以及Action Proposal Network、StNet和Attention Clusters算法,在WIDER FACE人臉、WebVision大規(guī)模圖像識(shí)別以及ActivityNet視頻理解等全球視覺(jué)競(jìng)賽中取得多項(xiàng)世界第一的好成績(jī),在識(shí)別人、識(shí)別物、捕捉關(guān)系三個(gè)技術(shù)領(lǐng)域均有業(yè)界最領(lǐng)先的技術(shù)積累。
除了在算法上,百度視覺(jué)語(yǔ)義化技術(shù)與智能手機(jī)等硬件設(shè)備的結(jié)合,也有多項(xiàng)最新進(jìn)展。據(jù)介紹,百度視覺(jué)語(yǔ)義化支持百度AR、百度OCR、場(chǎng)景識(shí)別、智能相冊(cè)分類、拍照識(shí)圖等解決方案,通過(guò)硬件+OS+算法的聯(lián)動(dòng)優(yōu)化,為華為、VIVO、小米、三星和魅族等智能手機(jī)合作伙伴提供領(lǐng)先的技術(shù)服務(wù)。
吳中勤進(jìn)一步介紹了視覺(jué)語(yǔ)義化技術(shù)與機(jī)器人結(jié)合實(shí)現(xiàn)物理行動(dòng)能力的進(jìn)展。百度研發(fā)的基于深度增強(qiáng)學(xué)習(xí)的無(wú)地圖避障算法,應(yīng)用于機(jī)器人中可以實(shí)現(xiàn)機(jī)器人在密集人流環(huán)境下快速、動(dòng)態(tài)地避障。而在當(dāng)天的百度AI開(kāi)發(fā)者大會(huì)會(huì)場(chǎng),參會(huì)者均看到了搭載此項(xiàng)技術(shù)的機(jī)器人在人群中靈活穿梭的身影。
在軟硬結(jié)合方面,吳中勤還重點(diǎn)介紹了基于百度視覺(jué)語(yǔ)義化還介紹了其與新型傳感器、AI芯片進(jìn)行結(jié)合的進(jìn)展,并發(fā)布了兩款自主研發(fā)的智能視覺(jué)AI硬件底層模組:紅外3D結(jié)構(gòu)光模組BoteyeR及視覺(jué)智能AI相機(jī)模組Xeye。據(jù)介紹,BoteyeR模組通過(guò)業(yè)界領(lǐng)先的紅外3D結(jié)構(gòu)光和人臉?biāo)惴?,?shí)現(xiàn)人臉活體識(shí)別的解決方案,可以有效解決在暗光和攻擊等復(fù)雜場(chǎng)景下人臉認(rèn)證困難的技術(shù)問(wèn)題。Xeye AI相機(jī)模組打造了一個(gè)低成本、小型化、端上計(jì)算的智能物體識(shí)別跟蹤相機(jī),集成了眾多終端計(jì)算的視覺(jué)感知能力,如人臉識(shí)別、物體識(shí)別、手勢(shì)識(shí)別等,有效解決新零售、安防、智能家具等場(chǎng)景視覺(jué)技術(shù)應(yīng)用的隱私、成本、計(jì)算開(kāi)銷等問(wèn)題。
增強(qiáng)現(xiàn)實(shí)有潛力成為下一代重要的交互平臺(tái),在視覺(jué)語(yǔ)義化技術(shù)基礎(chǔ)之上,加入增強(qiáng)現(xiàn)實(shí)AR這樣的元素,可以讓人們感受到虛實(shí)結(jié)合的互動(dòng)體驗(yàn)。吳中勤宣布重磅發(fā)布百度增強(qiáng)現(xiàn)實(shí)AR平臺(tái)DuMix3.0版本。據(jù)吳中勤介紹,去年百度AI開(kāi)發(fā)者大會(huì),百度發(fā)布了百度增強(qiáng)現(xiàn)實(shí)AR平臺(tái)DuMix1.0版本、去年年底的百度世界大會(huì)發(fā)布了DuMix的第二個(gè)版本。在過(guò)去一年間,用戶與百度AR創(chuàng)造出的虛擬形象,互動(dòng)人次已經(jīng)超過(guò)了十億次。今天發(fā)布的DuMix3.0,重點(diǎn)聚焦在人體、人臉、肢體交互能力升級(jí)上,重大升級(jí)點(diǎn)包括高精度、真三維的人臉AR和高精度人體AR,把AR虛實(shí)結(jié)合的互動(dòng)能力帶到了新的高度,也讓用戶更便捷地體驗(yàn)到AR互動(dòng)的魅力。在隨后播放的視頻中,參會(huì)者感受到了百度DuMix3.0多項(xiàng)精細(xì)逼真、高精度、真三維的AR交互能力,包括人臉編輯、3D虛擬裝飾、肢體交互游戲等。
“視覺(jué)語(yǔ)義化技術(shù)的應(yīng)用范圍非常廣泛,通過(guò)在越來(lái)越多場(chǎng)景中的應(yīng)用落地,和持續(xù)更新迭代,將真正實(shí)現(xiàn)機(jī)器設(shè)備從看清到看懂的跨越,”吳中勤表示,未來(lái),百度視覺(jué)語(yǔ)義化將持續(xù)創(chuàng)新,攜手開(kāi)發(fā)者和合作伙伴推動(dòng)AI技術(shù)的落地,通過(guò)助力開(kāi)發(fā)者,實(shí)現(xiàn)開(kāi)放共贏,共建更強(qiáng)大的AI生態(tài),用科技讓復(fù)雜的世界更簡(jiǎn)單。