耿兆森,董偉杰,趙家偉
(中興通訊股份有限公司FM產(chǎn)品團(tuán)隊(duì),南京 210012)
家用IPC(IP Camera,IP智能攝像頭)是傳統(tǒng)網(wǎng)絡(luò)攝像機(jī)與云計(jì)算技術(shù)相結(jié)合的產(chǎn)物,是專(zhuān)為家庭看護(hù)而設(shè)計(jì)的產(chǎn)品。隨著人們安全防范意識(shí)的提高,再加上近幾年智能家居業(yè)務(wù)的迅猛發(fā)展,推動(dòng)著家用IPC成為眾多家庭的標(biāo)配。
從市場(chǎng)層面看,近幾年家用IPC在國(guó)內(nèi)一直保持著穩(wěn)定、快速的增長(zhǎng)。除了小米、螢石、樂(lè)橙、360、中興等企業(yè)外,國(guó)內(nèi)的三大電信運(yùn)營(yíng)商也把IPC作為其智慧家庭的核心業(yè)務(wù),紛紛推出自己的產(chǎn)品,如中國(guó)移動(dòng)的 “和目”智能攝像頭。
從業(yè)務(wù)層面看,家用IPC主要用于家庭看護(hù),如看小孩、看老人、看寵物等,主要提供遠(yuǎn)程查看、視頻通話(huà)、移動(dòng)告警、家庭相冊(cè)、視頻云存儲(chǔ)等功能。
從技術(shù)層面看,家用IPC正從“看清”向“看懂”的方向發(fā)展。主要表現(xiàn)為三個(gè)特點(diǎn):
(1)720P產(chǎn)品正逐步被淘汰,1080P、H.265產(chǎn)品已成為主流,2K IPC很快會(huì)面市,其占比也會(huì)逐步提高,使得家用IPC圖像更加清晰。
(2)AI(Artificial Intelligence,人工智能)技術(shù)應(yīng)用于家用領(lǐng)域,使得IPC具備人臉識(shí)別、行為識(shí)別、視頻檢索等“看懂”視頻圖像的能力。
(3)視覺(jué)識(shí)別技術(shù)有前端識(shí)別和云端識(shí)別兩種技術(shù)體制,這兩種體制未來(lái)會(huì)長(zhǎng)期并存,相互分工、協(xié)作。
下面主要從技術(shù)角度闡述家庭看護(hù)領(lǐng)域AI的關(guān)鍵技術(shù)以及技術(shù)實(shí)現(xiàn)方案,而H.265、2K等視頻技術(shù)不在本文的討論范圍之內(nèi)。
近些年來(lái)AI技術(shù)得到爆發(fā)式發(fā)展,其中人臉識(shí)別技術(shù)已經(jīng)在公共安全、電子支付、電子門(mén)禁等諸多領(lǐng)域得到了廣泛應(yīng)用。在專(zhuān)業(yè)監(jiān)控領(lǐng)域,安裝在道路上的攝像機(jī)主要承擔(dān)視頻采集的工作,有的也承擔(dān)一些視頻分析預(yù)處理工作,大規(guī)模的、更復(fù)雜的人臉檢索、運(yùn)動(dòng)軌跡分析等會(huì)交由云端服務(wù)器完成。
家用IPC借鑒了專(zhuān)業(yè)監(jiān)控IPC AI實(shí)現(xiàn)方案。根據(jù)人臉識(shí)別AI分析的地點(diǎn),分為前端(IPC側(cè))識(shí)別方案和云端識(shí)別方案兩類(lèi)。
盡管人臉識(shí)別技術(shù)在專(zhuān)業(yè)IPC已應(yīng)廣泛應(yīng)用,但若將專(zhuān)業(yè)監(jiān)控IPC的AI算法直接用于家用IPC,存在識(shí)別率偏低、算力資源需求偏高等問(wèn)題,因此需要對(duì)專(zhuān)業(yè)監(jiān)控AI算法進(jìn)行改進(jìn)和優(yōu)化。
基于成本的考慮,家用IPC的SoC(System on Chip,芯片系統(tǒng))芯片一般采用ARM、MIPS架構(gòu),內(nèi)置CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))的算力較弱,而專(zhuān)業(yè)監(jiān)控的人臉識(shí)別AI計(jì)算大多是基于GPU(Graphics Processing Unit,圖形處理器)實(shí)現(xiàn),算力差異大,因此非常需要對(duì)算法進(jìn)行降維、剪枝,以達(dá)到設(shè)備成本與算力間的平衡。就算力而言,云端識(shí)別方案較前端識(shí)別方案更有優(yōu)勢(shì)。
家用IPC一般會(huì)被放置在墻角、空調(diào)機(jī)柜上方、電視柜等地方,IPC拍攝時(shí)人臉不能正對(duì)鏡頭,此外家用IPC多采用相對(duì)便宜的感光器件,拍攝出來(lái)的視頻存在一定程度的畸變,圖像偏暗,也會(huì)影響人臉識(shí)別準(zhǔn)確率。
由于IPC的放置距離一般較遠(yuǎn),導(dǎo)致視頻中采集的人臉尺寸偏小。理論上人臉的尺寸達(dá)到180×270像素時(shí),其識(shí)別準(zhǔn)確率就能有所保證,但從實(shí)際使用情況看,不同算法對(duì)人臉尺寸的要求會(huì)有所差異。
表1 云端識(shí)別、前端識(shí)別技術(shù)方案對(duì)比
下面結(jié)合中興通訊的小興看看云化IPC AI技術(shù)解決方案,簡(jiǎn)要介紹家用IPC AI關(guān)鍵技術(shù)。
將云計(jì)算技術(shù)與AI融合,使得AI的IT基礎(chǔ)架構(gòu)具有云計(jì)算的彈性擴(kuò)容、按需分配的特點(diǎn),同時(shí)也能滿(mǎn)足AI的高性能、多元需求的需要,因此基于容器架構(gòu)的AI云平臺(tái)是一個(gè)不錯(cuò)的選擇。
AI容器云平臺(tái)可在開(kāi)源云平臺(tái)基礎(chǔ)上,快速構(gòu)建CPU+GPU的彈性異構(gòu)AI云平臺(tái),實(shí)現(xiàn)對(duì)異構(gòu)的云計(jì)算資源池進(jìn)行調(diào)度和分配。集成Caffe 2、Tensor Flow、CNTK等深度學(xué)習(xí)分布式架構(gòu),能有效提高訓(xùn)練模型的擴(kuò)展性,快速構(gòu)建深度學(xué)習(xí)的開(kāi)發(fā)環(huán)境和生產(chǎn)環(huán)境。
圖1 IPC AI容器云平臺(tái)架構(gòu)
IPC采集視頻流,只有在畫(huà)面中出現(xiàn)人臉時(shí),才需要進(jìn)行人臉識(shí)別,若將全部視頻流轉(zhuǎn)發(fā)給AI服務(wù)器分析,勢(shì)必會(huì)導(dǎo)致AI服務(wù)器產(chǎn)生不必要的資源浪費(fèi)。
通常情況下,IPC支持移動(dòng)偵測(cè)、人形檢測(cè)、人臉檢測(cè)等基本功能,為此IPC可對(duì)視頻流進(jìn)行預(yù)分析處理,當(dāng)視頻畫(huà)面發(fā)生變化后,可再進(jìn)行人臉檢測(cè)分析,如果人臉尺寸已達(dá)到預(yù)設(shè)的人臉比對(duì)尺寸,再轉(zhuǎn)發(fā)視頻流給AI服務(wù)器進(jìn)行下一步的人臉識(shí)別分析。
圖2 AI推斷分析流程
基于CV(Computer Vision,計(jì)算機(jī)視覺(jué))的AI分析,除可以進(jìn)行人臉識(shí)別,還可以進(jìn)行行為識(shí)別、跌倒識(shí)別、危險(xiǎn)識(shí)別等多種視頻業(yè)務(wù)分析。
家用IPC鏡頭的四周圖像畸變一般會(huì)比較大,畸變后的人臉與人的正臉比對(duì)時(shí),其準(zhǔn)確率會(huì)較低,因此對(duì)待比對(duì)人臉進(jìn)行人臉對(duì)齊處理就顯得尤為重要了。
所謂人臉對(duì)齊,是指將畸變?nèi)四槹凑諛?biāo)準(zhǔn)人臉進(jìn)行歸一化的過(guò)程,將畸變?nèi)四樞螤畋M可能貼近標(biāo)準(zhǔn)人臉的形狀,從而減小人臉比對(duì)時(shí)由于人臉畸變而產(chǎn)生的影響。
人臉對(duì)齊主要將人臉中的眼睛、嘴角、鼻尖、眉毛以及人臉各關(guān)鍵部件輪廓點(diǎn)檢測(cè)出來(lái),并按照人臉坐標(biāo)框輸出五官關(guān)鍵點(diǎn)的坐標(biāo)序列。根據(jù)兩個(gè)人眼的連線(xiàn)與水平位置的夾角來(lái)確定人臉旋轉(zhuǎn)、矯正的角度,然后再進(jìn)行仿射變換,使之對(duì)齊。五官關(guān)鍵點(diǎn)的數(shù)量常見(jiàn)有5點(diǎn)、68點(diǎn)、90點(diǎn)等。
MTCNN(Multi-task convolutions neural network,多任務(wù)卷積神經(jīng)網(wǎng)絡(luò))是一種級(jí)聯(lián)的人臉對(duì)齊技術(shù)架構(gòu)。MTCNN總體可分 為P-Net(Proposal Net)、R-Net(Refine Net)、O-Net(Output Net)三層網(wǎng)絡(luò)結(jié)構(gòu)。其中,P-Net,較淺層的CNN,快速產(chǎn)生候選窗體,獲取候選臉部窗口和邊界框回歸向量,用邊界框回歸向量校準(zhǔn)候選臉部窗口。R-Net,較復(fù)雜的CNN,繼續(xù)過(guò)濾大量的虛假窗體,用邊界框回歸校準(zhǔn)候選臉部窗口。O-Net,更強(qiáng)大的CNN,確定臉部區(qū)域后,最終輸出5個(gè)關(guān)鍵臉部關(guān)鍵點(diǎn)信息。
圖3 MTCNN流程示意圖
除MTCNN外,其他人臉對(duì)齊算法還有LAB、3DDFA、PRNet、GridFace等等,幾種算法各有千秋。
人臉識(shí)別是基于人臉3D結(jié)構(gòu)分析的,光照投射出的陰影會(huì)加強(qiáng)或減弱原有人臉的特征,尤其在傍晚或弱光情況下,由于光線(xiàn)不足造成面部陰影會(huì)導(dǎo)致識(shí)別率急劇下降。基于K-L變換的人臉識(shí)別算法對(duì)于抗光線(xiàn)干擾存在一定的優(yōu)勢(shì)。
此外在光線(xiàn)太暗時(shí),IPC會(huì)切換到紅外工作模式,此時(shí)IPC拍攝的視頻圖像是黑白的,而目前基于黑白視頻圖片的人臉識(shí)別算法還不夠成熟。
隨著基于視頻圖像分析技術(shù)的不斷進(jìn)步,新的技術(shù)架構(gòu)以及算法會(huì)層出不窮地出現(xiàn),推動(dòng)著家用IPC的人臉識(shí)別準(zhǔn)確率越來(lái)越高。
家用IPC支持人臉識(shí)別功能后,可以按照人員對(duì)視頻圖像進(jìn)行分類(lèi)管理,提供家庭相冊(cè)、視頻人員檢索等功能,還可以與智能家居系統(tǒng)聯(lián)動(dòng),為不同用戶(hù)提供音樂(lè)、燈光、空調(diào)等個(gè)性化智能控制。
除人臉識(shí)別的基本AI應(yīng)用外,未來(lái)還會(huì)支持諸如人員跌倒識(shí)別、危險(xiǎn)動(dòng)作識(shí)別、火警識(shí)別等其他豐富的AI應(yīng)用,為用戶(hù)提供更安全、可靠的家庭看護(hù)服務(wù)。