杜星悅, 董洪偉, 楊 振
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214122)
三維人臉?lè)指罴夹g(shù)在近年來(lái)迅速發(fā)展,其結(jié)果對(duì)三維人臉識(shí)別[1,2]、三維紋理映射、三維表情識(shí)別[3,4]、三維模型檢索等三維人臉?lè)矫娴念I(lǐng)域具有重要擴(kuò)展應(yīng)用價(jià)值。三維人臉?lè)指罱Y(jié)果的精度,影響后續(xù)在人臉識(shí)別等工作中的配準(zhǔn)、融合等處理過(guò)程效果。
目前三維人臉?lè)指铑I(lǐng)域存在以下一些研究?;趲缀涡畔⒌姆指罘椒?,主要過(guò)程是依次掃描每一個(gè)頂點(diǎn),計(jì)算點(diǎn)的部分幾何信息,主要是根據(jù)相關(guān)的曲率等首先進(jìn)行大致區(qū)域分割,再精細(xì)化完成區(qū)域修整分割,此計(jì)算方法復(fù)雜導(dǎo)致計(jì)算時(shí)間長(zhǎng),并且因?yàn)檫\(yùn)用的是一些較為基礎(chǔ)的特征提取,精度不高;基于三維人臉關(guān)鍵點(diǎn)特征[5]的分割算法,其主要根據(jù)關(guān)鍵點(diǎn)信息檢測(cè)算法來(lái)調(diào)整初始化的模型,然后進(jìn)行分割,由于該方法用的是真實(shí)的人臉空間點(diǎn)以及三角面,導(dǎo)致計(jì)算點(diǎn)與面的幾何信息的耗時(shí)長(zhǎng),利用初始模型的分割結(jié)果不好。賈暉等人[6]提出基于曲率和分水嶺的人臉?lè)指钏惴?,該算法首先?jì)算出測(cè)地距離及曲率,然后利用分水嶺方法對(duì)三維物體分割,由于測(cè)地距離等的計(jì)算會(huì)由于網(wǎng)格噪聲的存在而受到較大影響,這導(dǎo)致該分割算法精度在一定程度上低下,又由于分割采用的是無(wú)標(biāo)度隨機(jī)分割,很容易造成過(guò)度分割的不合理現(xiàn)象。
本文提出基于正方形組合描述符與深度森林的三維人臉?lè)指罘椒?,?shí)驗(yàn)結(jié)果表明,本文算法在精度上具有一定優(yōu)勢(shì)。
正方形組合描述符是曲率、法向量以及本文提出的正方形描述符3個(gè)特征組合成的特征描述符,能有效提取三維空間點(diǎn)周?chē)鷰缀涡畔⒌木植俊?/p>
曲率的計(jì)算有助于提取三維的邊緣特征,獲得三維物體基本幾何信息。平均曲率有如下定義:
對(duì)于一個(gè)已知的三維人臉,可以根據(jù)垂直于點(diǎn)表面的矢量得出法線方向。其計(jì)算方法可以轉(zhuǎn)換為求最小二乘法平面擬合估計(jì)問(wèn)題。
據(jù)文獻(xiàn)[7]TSP描述符的啟發(fā),提出了一種新的描述符:正方形描述符用于構(gòu)建三維空間點(diǎn)的幾何特征向量。首先選取任意一個(gè)三維空間點(diǎn)P,計(jì)算P的法向量,從而確定P的切平面。在切平面上,以P為中心點(diǎn),以某一統(tǒng)一的局部坐標(biāo)系規(guī)則在切平面上選取邊長(zhǎng)為L(zhǎng)的正方形。將這個(gè)正方形等分為16個(gè)小正方形。三維人臉模型所有空間點(diǎn),若向大正方形法向量方向投影,會(huì)落在大正方形內(nèi)的三維空間點(diǎn)集合,記作集合S。集合S中的每一個(gè)點(diǎn),其投影點(diǎn)必定會(huì)落在16個(gè)小正方形中的某一個(gè)上,即該點(diǎn)屬于該小正方形。對(duì)于每一個(gè)小正方形,計(jì)算并統(tǒng)計(jì)所有屬于該小正方形的三維點(diǎn),其到小正方形的投影距離。將平均距離當(dāng)作小正方形的描述符。16個(gè)小正方形描述符合起來(lái)稱(chēng)作正方形描述符。如圖1所示為三維空間某點(diǎn)處的正方形描述符形式。
圖1 三維空間某點(diǎn)處的正方形描述符
具體構(gòu)建過(guò)程中,投影是一個(gè)重要的過(guò)程,計(jì)算頂點(diǎn)到正方形所在切平面的投影距離,設(shè)頂點(diǎn)V=(v1,v2,v3),正方形的中心點(diǎn)坐標(biāo)M=(m1,m2,m3),那么點(diǎn)V局部坐標(biāo)系下坐標(biāo)是V′=V-M=(v1-m1,v2-m2,v3-m3),根據(jù)構(gòu)建正方形局部坐標(biāo)系時(shí)的旋轉(zhuǎn)矩陣A,其特性為AT=A-1,設(shè)A-1=B,將V′旋轉(zhuǎn)變換到全局坐標(biāo)系下,坐標(biāo)得到V″=BV′。可知V″=(x,y,z)的形式,那么可以由x,y得知投影具體落于的小正方形,而z即為所求的投影距離。
本文提出的正方形組合描述符正是由以上的曲率、法向量以及正方形描述符3種組合成的組合型三維點(diǎn)局部特征描述符。每個(gè)三維點(diǎn)的正方形組合描述符是由1維曲率、3維法向量、16維正方形描述符組成,共計(jì)20維的點(diǎn)特征向量。
設(shè)計(jì)的優(yōu)勢(shì)在于可以避免隨機(jī)森林直接輸出分類(lèi)概率作為下層輸入導(dǎo)致丟失太多特征信息。另外深度森林對(duì)超參數(shù)較不敏感,實(shí)驗(yàn)便捷簡(jiǎn)單。
其主要設(shè)計(jì)分為Cascade Forest Structure和Multi-Grained Scanning。
1)Cascade Forest Structure設(shè)計(jì)結(jié)構(gòu)
主要過(guò)程是每訓(xùn)練完一層的森林,檢驗(yàn)該層的4個(gè)森林在驗(yàn)證集上表現(xiàn)是否提升,如果提升,就作為下層輸入繼續(xù)訓(xùn)練;如果提升不明顯,就不再生成新的層。層N統(tǒng)計(jì)4個(gè)森林預(yù)測(cè)分類(lèi)概率分布,計(jì)算均值作為輸出預(yù)測(cè),該過(guò)程等于4個(gè)森林集成分類(lèi)器。
2)Multi-Grained Scanning設(shè)計(jì)結(jié)構(gòu)
這部分Windows-sliding的技巧,很適用于特征呈現(xiàn)某種拓?fù)浣Y(jié)構(gòu)的情況。深度森林較為特別的一點(diǎn)在于每個(gè)Window框到的數(shù)據(jù)都作為一個(gè)樣本,從raw input學(xué)習(xí)特征向量,然后以兩個(gè)森林組合輸出的類(lèi)向量作為新的樣本表示。這個(gè)技巧由于樹(shù)的ensemble模型在實(shí)踐中能學(xué)習(xí)到高級(jí)特征,可以取得良好的結(jié)果??傮w來(lái)說(shuō),深度森林模型通過(guò)多層來(lái)抽象特征與特征間的各非線性組合抽離出優(yōu)秀的特征,可以提取位置無(wú)關(guān)的臨域內(nèi)的結(jié)構(gòu)信息。思路上與深度學(xué)習(xí)網(wǎng)絡(luò)類(lèi)似,通過(guò)多層學(xué)習(xí)來(lái)抽象出高維度的良好的特征。深度森林在隨機(jī)森林的基礎(chǔ)上進(jìn)一步ensemble,較之于深度學(xué)習(xí)網(wǎng)絡(luò),過(guò)擬合的風(fēng)險(xiǎn)更小,同時(shí)可以擴(kuò)展應(yīng)用于多種任務(wù)。
與深度學(xué)習(xí)網(wǎng)絡(luò)相比,深度森林[8]有一定優(yōu)勢(shì)。深度森林超參數(shù)很少,訓(xùn)練調(diào)參很簡(jiǎn)單,甚至用默認(rèn)參數(shù)不調(diào)參也可以獲得良好效果,深度森林由于是一種基于樹(shù)的方法,理論分析比深度神經(jīng)網(wǎng)絡(luò)更容易,而深度神經(jīng)網(wǎng)絡(luò)難點(diǎn)在于調(diào)參,且依賴(lài)于經(jīng)驗(yàn),沒(méi)有理論支持。深度森林的訓(xùn)練效率高且可擴(kuò)展,硬件要求較之于深度學(xué)習(xí)更簡(jiǎn)單,深度森林適用于并行部署,效率高的優(yōu)勢(shì)較明顯。深度森林在僅有小規(guī)模訓(xùn)練數(shù)據(jù)的情況下也照常運(yùn)轉(zhuǎn),而深度神經(jīng)網(wǎng)絡(luò)需要大規(guī)模的訓(xùn)練數(shù)據(jù),否則結(jié)果較差。
實(shí)驗(yàn)數(shù)據(jù)庫(kù)采用巴塞爾臉模型(Basel face model,BFM)三維人臉數(shù)據(jù)庫(kù),庫(kù)中每個(gè)三維人臉包括53 490個(gè)點(diǎn)以及106 400三角面。本文只需要訓(xùn)練50個(gè)三維人臉,每個(gè)三維人臉訓(xùn)練標(biāo)記時(shí),區(qū)域劃分為左眉毛、右眉毛、左眼、右眼、鼻子、左臉頰、右臉頰、上嘴唇瓣,下嘴唇瓣等若干個(gè)區(qū)域,以及其他部分構(gòu)成的區(qū)域,分別用不同顏色表示區(qū)域的效果,如圖2。
圖2 標(biāo)注的三維人臉劃分區(qū)域
在庫(kù)中選取其他20個(gè)三維人臉來(lái)進(jìn)行人臉?lè)指顪y(cè)試實(shí)驗(yàn)。采用本文的特征描述符,分別用支持向量機(jī)(support vector machine,SVM),隨機(jī)森林(random forest,RF)以及本文的深度森林方法做了實(shí)驗(yàn),同時(shí)與基于條件隨機(jī)場(chǎng)(conditional random field,CRF)的文獻(xiàn)[9]方法以及基于以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的文獻(xiàn)[10]方法結(jié)果進(jìn)行實(shí)驗(yàn)精度比較,結(jié)果如表1。
表1 各方法精度對(duì)比 %
在BFM中測(cè)試人臉?lè)指罱Y(jié)果如圖3所示。
圖3 測(cè)試人臉?lè)指罱Y(jié)果
通過(guò)在測(cè)試中對(duì)比SVM,CRF,隨機(jī)森林,CRF等方法以及CNN深度學(xué)習(xí)方法,實(shí)驗(yàn)結(jié)果表明本文的方法在測(cè)試中精度更好。體現(xiàn)了本文正方形組合描述符對(duì)三維局部特征有良好的抽象表達(dá),深度森林對(duì)分類(lèi)任務(wù)有良好的表現(xiàn)能力。本文基于正方形組合描述符與深度森林的三維人臉?lè)指畹姆椒ǎ瑢?duì)三維人臉?lè)指钚ЧY(jié)果良好。
本文方法利用基于正方形組合描述符提取三維空間點(diǎn)的局部特征,提取的特征向量效果良好,同時(shí)利用深度森林在分類(lèi)任務(wù)上強(qiáng)大的表現(xiàn)力,結(jié)合二者的優(yōu)點(diǎn),主要解決了目前三維人臉?lè)指钏惴ň炔桓叩膯?wèn)題。系列的對(duì)比實(shí)驗(yàn)結(jié)果表明:本文方法對(duì)三維人臉?lè)指顚?shí)驗(yàn)精度高,效果良好,具有實(shí)際應(yīng)用價(jià)值。