魏 爽
(西安電子科技大學(xué) 電子工程學(xué)院, 陜西 西安 710071)
?
基于BP神經(jīng)網(wǎng)絡(luò)的嘴型分類算法
魏爽
(西安電子科技大學(xué) 電子工程學(xué)院, 陜西 西安 710071)
針對傳統(tǒng)嘴型分類中醫(yī)生肉眼觀察主觀性大且無法量化等問題,文中提出一種嘴型分類算法。該算法在人臉特征點標(biāo)定ASM的基礎(chǔ)上,提取嘴型模板,經(jīng)過一系列旋轉(zhuǎn)、二值化以及重采樣構(gòu)建特征向量,然后利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練完成嘴型分類。實驗結(jié)果表明,該算法可以實現(xiàn)較為準(zhǔn)確的嘴型分類,對臨床醫(yī)療整形具有一定的參考價值。
ASM;嘴型分類;BP神經(jīng)網(wǎng)絡(luò)
近年來,與人臉相關(guān)的處理技術(shù)受到了越來越廣泛的關(guān)注,并取得了一定的研究成果[1-4],所以利用計算機人臉技術(shù)輔助醫(yī)療整形是具備可行性的,而且具有可觀的應(yīng)用前景。對此,本文提出了一種嘴型分類算法,該算法的主要思想是利用ASM(Active Shape Model)[5-6]算法標(biāo)定人臉特征點,接著在此基礎(chǔ)上構(gòu)建嘴型模板,經(jīng)過一系列旋轉(zhuǎn)、二值化以及重采樣構(gòu)建特征向量。然后利用BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行訓(xùn)練,最終完成不同嘴型的分類。實驗結(jié)果表明,該算法對嘴型實現(xiàn)了較準(zhǔn)確的分類。
在進(jìn)行嘴型分類之前需標(biāo)定人臉的特征點,本文采用人臉特征點標(biāo)定的經(jīng)典算法ASM來解決該問題。ASM算法主要分為ASM建模和ASM匹配兩部分。ASM建模是利用樣本圖片進(jìn)行訓(xùn)練探索出目標(biāo)形狀變化的規(guī)律,其主要分為形狀建模和局部紋理建模。它首先利用人臉樣本庫標(biāo)定的特征點獲取人臉形狀信息,通過形狀對齊去除形狀變化的各類姿態(tài)的影響,并用PCA(Principal Component Analysis)[7]統(tǒng)計形狀模型。通過形狀模型可以獲知形狀特征點的動態(tài)變化,從而將最終得到的形狀約束到一定合理范圍內(nèi);其次,在特征點法線方向上獲取像素信息,建立復(fù)合局部紋理模型,即平均灰度向量和協(xié)方差矩陣;接著利用局部紋理信息與特征點的線性關(guān)系,迭代搜索最佳特征點;最后,經(jīng)約束后的最佳形狀即為人臉特征點坐標(biāo)。圖1所示為經(jīng)ASM算法標(biāo)定的人臉圖片。
圖1 ASM標(biāo)定人臉特征點
得到標(biāo)定的人臉特征點后,需進(jìn)一步完成嘴型分類。嘴型分類本質(zhì)是一個分類問題,對于一個分類問題,目標(biāo)就是學(xué)習(xí)決策函數(shù),機器學(xué)習(xí)中的典型代表,如SVM、Adaboost[8-9]、BP[10]等算法都擅長解決分類問題。實際仿真處理時,BP神經(jīng)網(wǎng)絡(luò)的分類效果最準(zhǔn)確,所以本文主要介紹BP神經(jīng)網(wǎng)絡(luò)相關(guān)原理。
2.1BP算法原理
BP神經(jīng)網(wǎng)絡(luò)算法主要包括信息正向傳播和誤差反向傳播兩個過程,其主要思想是輸入層接受外界信息,將信息傳遞給隱層,并進(jìn)一步正向傳遞直至輸出;計算輸出結(jié)果與實際結(jié)果的誤差然后反向傳播調(diào)節(jié)各層權(quán)值。如圖2所示是一個典型的3層網(wǎng)絡(luò)拓?fù)鋱D,3層分別指輸入層、隱含層和輸出層。
圖2 3層BP網(wǎng)絡(luò)拓?fù)鋱D
算法的具體流程如下:
(1)網(wǎng)絡(luò)的初始化。設(shè)輸入層、隱含層、輸出層的節(jié)點分別為n,l,m。wij代表第i個輸入單元到第j個隱層單元的權(quán)值,wjk代表第j個隱藏單元到第k個輸出單元的權(quán)值,訓(xùn)練前各權(quán)值都初始化為隨機值;
(2)隱含層的輸出。隱含層的輸出Hj為
(1)
其中,aj為輸入層到隱含層的偏置;σ(y)代表激勵函數(shù)。
(2)
(3)輸出層的輸出
(3)
其中,bk為隱含層到輸出層的偏置;
(4)誤差的計算。取誤差公式為
(4)
其中,Yk為期望輸出,記Yk-Ok=ek,則E可以表示為
(5)
其中,i=1,2Ln,j=1,2Ll,k=1,2Lm。
(5)權(quán)值的更新。權(quán)值的更新公式為
(6)
其中,η表示學(xué)習(xí)速率,用于控制下降的步長。
1)更新隱藏層到輸出層的權(quán)值
(7)
則權(quán)重的更新公式為
wjk=wjk+ηHjek
(8)
2)更新輸入層到隱藏層的權(quán)值
(9)
其中
(10)
(11)
則權(quán)重的更新公式為
(12)
(6)偏置的更新。偏置的更新公式為
(13)
1)更新隱藏層到輸出層的偏置
(14)
則偏置的更新公式為
bk=bk+ηek
(15)
2)更新輸入層到隱藏層的偏置
(16)
其中
(17)
(18)
則偏置的更新公式為
(19)
(7)迭代停止條件。本算法在處理時制定的停止條件為:當(dāng)算法迭代至一定次數(shù)或相鄰兩次誤差之差小于一定值時,將停止迭代。
2.2避免訓(xùn)練中的局部極小值
BP神經(jīng)網(wǎng)絡(luò)利用梯度下降法[11]計算全局最小值,但實際處理時,誤差函數(shù)曲面可能存在多個局部極小值,而誤差函數(shù)沿著梯度方向下降的過程中可能陷入這些局部極小值。通過增加沖量項,可盡量避免陷入局部極值,而且可以加快收斂速度。
將前文得到的權(quán)值更新法則Δwji(n)進(jìn)行修改,使得上一輪的更新結(jié)果將影響本輪更新權(quán)值,表達(dá)式為
Δwji(n)′=Δwji(n)+αΔwji(n-1)
(20)
其中,Δwji(n-1)和Δwji(n)分別代表算法未加沖量項第n-1次和第n次迭代時權(quán)值結(jié)果;Δwji(n)′代表加沖量項后第n次權(quán)值結(jié)果;α代表沖量,滿足0≤α<1,用于控制上一輪的權(quán)重更新對本輪影響程度。
3.1嘴型分類標(biāo)準(zhǔn)
在進(jìn)行嘴型分類之前,需要制定嘴型分類標(biāo)準(zhǔn)。由于目前關(guān)于嘴型分類的相關(guān)研究較少,沒有權(quán)威的嘴型分類標(biāo)準(zhǔn)。考慮到現(xiàn)有技術(shù)條件,并參考醫(yī)療整形中相關(guān)數(shù)據(jù)手冊,本文將嘴型大致分為理想嘴形、厚嘴形、薄嘴形、口角下垂形4種,分類標(biāo)準(zhǔn)如表1所示。
3.2特征設(shè)計
為識別出圖片中的嘴型,需要用一種特征表征該圖片的內(nèi)容,從而構(gòu)建成BP神經(jīng)網(wǎng)絡(luò)的特征輸入。本算法在設(shè)計時采用嘴型模板的全部像素作為輸入特征,這樣做一方面可以省去采用原始圖片需要降維的計算量,另一方面也可以為神經(jīng)網(wǎng)絡(luò)從樣本中學(xué)習(xí)提供更大的自由度,其特征設(shè)計詳細(xì)過程如下。
表1 嘴型分類標(biāo)準(zhǔn)
(1)圖像旋轉(zhuǎn)。為避免因嘴型圖片存在角度而影響結(jié)果,需要將人臉旋轉(zhuǎn)至水平。由于人眼的角度基本已經(jīng)決定圖片的偏轉(zhuǎn)角度,所以算法采用雙眼特征點偏轉(zhuǎn)計算旋轉(zhuǎn)角度。圖片旋轉(zhuǎn)公式為
(21)
其中,a為旋轉(zhuǎn)角度;(x0,y0)代表旋轉(zhuǎn)前特征點;(x1,y1)代表旋轉(zhuǎn)后特征點。經(jīng)旋轉(zhuǎn)后的效果如圖3所示。
圖3 經(jīng)旋轉(zhuǎn)后的效果
(2)嘴型圖片二值化。根據(jù)模板訓(xùn)練的特征點,將嘴型區(qū)域分割出來,分割區(qū)域保證長寬一樣,這樣可以避免尺寸縮放導(dǎo)致嘴巴形狀變化,然后通過射線法將嘴型內(nèi)的像素點與嘴型外的像素點區(qū)分開來并二值化,結(jié)果如圖4所示。
圖4 嘴型圖片二值化
(3)將嘴型二值化圖片歸一化至指定大小,去除尺寸的影響。本算法設(shè)定為80×80。
圖5 歸一化嘴型模板
(4)模板重采樣。直接采用嘴型模板作為特征向量輸入會有6 400維,由于神經(jīng)網(wǎng)絡(luò)的輸入單元數(shù)目和特征維數(shù)相等,維數(shù)過大會增加處理的復(fù)雜度,因此需要對原歸一化嘴型模板圖片進(jìn)行重采樣。原嘴型模板圖片大小均為80×80,通過設(shè)置步長為5,可將圖像統(tǒng)一降采樣到16×16的分辨率。降采樣后的圖像是對原80×80像素圖像的低分辨描述,實際計算時,每個低分辨率像素是根據(jù)對應(yīng)的局部高分辨率像素灰度的均值計算得到的。通過對圖片進(jìn)行降采樣可以有效的減少特征輸入的維數(shù)和權(quán)值數(shù)量,從而降低運算量。并且該圖像也保留了足夠的大小以正確地識別目標(biāo)圖像。
實驗環(huán)境為:Windows 7,CPU Intel(R)i3,基本頻率2.13 GHz,軟件平臺為VS2008,OpenCV2.4.6。
嘴型分為理想嘴型、厚嘴型、薄嘴型和口角下垂型4類,分別用perfect、thick、thin、ptosis來表示。圖6是采用MUCT[12]人臉庫中部分圖片的測試效果圖。
圖6 嘴型分類效果圖
在實際處理時為比較算法性能,分別采用SVM、Adaboost和BP進(jìn)行測試。由于嘴型分類對人臉圖片會有一定要求,其需要人臉圖片無表情且無較大偏轉(zhuǎn),所以訓(xùn)練圖片采用MUCT庫中符合要求的200張圖片,測試圖片也采用另外100張符合要求的圖片,測試結(jié)果如表2所示。
表2 嘴型分類測試結(jié)果
通過分析實驗結(jié)果可知,Adaboost和BP表現(xiàn)相對較好。BP加沖量項對提高正確率有一定的幫助,增加隱藏層對正確率幫助不大,反而會使訓(xùn)練時間變得相當(dāng)長,綜合考慮,效果較好的是BP(隱藏層10,加沖量項)。
本文提出了一種有效方法用于解決嘴型分類,研究工作主要包括嘴型分類標(biāo)準(zhǔn)制定和分類算法設(shè)計。該算法在人臉特征點定位ASM的基礎(chǔ)上建立嘴型模板,經(jīng)過旋轉(zhuǎn)、歸一化和重采樣等一系列操作構(gòu)建輸入特征向量。實驗結(jié)果表明,該算法實現(xiàn)了較好的嘴型分類效果。
[1]Cootes T F, Taylar C D, Cooper D H,et al.Active shape models:their training and application[J].Computer Vision and Image Understanding,1995,61(1):38-59.
[2]Cootes T F,Edwards G J,Taylor C J.Active appearance models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001,23(6): 681-685.
[3]Eliktutan O,Ulukaya S,Sankur B.A comparative study of face landmarking techniques[J].Eurasip Journal on Image & Video Processing, 2013(1):1513-1517.
[4]Roberts M,Cootes T E,Pacheca E,et al.Quantitative vertebral fracture detection on DXA images using shape and appearance models[J].Academic Radiology, 2007, 14(10): 1166-1178.
[5]Milborrow S,Nicolls F.Active shape models with SIFT descriptors and MARS[C].Qubec:International Conference on Computer Vision Theory & Applications, 2014.
[6]Milborrow S,Tom E Bishop,Nicolls F.Multiview active shape models with SIFT descriptors for the 300-W face landmark challenge[C].Porland: International Conference on Computer Vision,2013.
[7]Jolliffe I T.Principal component analysis[M].Berlin:Springer Verlag,2002.
[8]Perter Harrington.機器學(xué)習(xí)實戰(zhàn)[M].李銳,李鵬,曲亞東,等,譯.北京:人民郵電出版社,2013.
[9]李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[10] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[M].MA,USA:MIT Press, 1988.
[11] Tom M Mitchel.機器學(xué)習(xí)[M].曾華軍,張銀奎,譯.北京: 機械工業(yè)出版社,2003.
[12] Milborrow S,Morkel J,Nicolls F. The MUCT landmarked face database[J].Pattern Recognition Association of South Africa,2010(8):316-322.
Research on Mouth Type Classification Algorithm Based on BP Neural Network
WEI Shuang
(School of Electronic Engineering,Xidian University,Xi’an 710071,China)
Aiming at traditional mouth type classification mainly depends the observation of doctor, which is easily influenced by subjective factors and can’t be quantified, This paper proposes a kind of mouth type classification algorithm. On the basis of ASM, the algorithm extracts the mouth template, constructs the feature vector with a series of rotation, binarization and heavy sampling, and then using BP neural network training feature vector to complete the mouth type classification. Experimental results show that the proposed algorithm can achieve accurate classification of mouth, which has a certain reference value for clinical medical treatment.
ASM;mouth type classification;BP neural network
10.16180/j.cnki.issn1007-7820.2016.08.026
2015-11-24
魏爽 (1991-),女,碩士研究生。研究方向:計算機視覺,模式識別。
TP391.41
A
1007-7820(2016)08-089-04