高倩 李世友 馬曉輝 葛星
摘 要:該文系統(tǒng)旨在獲取人眼在觀看電腦屏幕時(shí)的視覺(jué)定位點(diǎn)。利用個(gè)人計(jì)算機(jī)攝像頭拍攝人臉在屏幕前的圖像,對(duì)圖像進(jìn)行預(yù)處理,通過(guò)Haar特征與級(jí)聯(lián)分類器結(jié)合的方式提取圖像中的人臉特征信息,包括人眼,鼻子及嘴巴的位置,最后由特征信息作為神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù)經(jīng)BP神經(jīng)網(wǎng)絡(luò)模型得到視覺(jué)定位點(diǎn)。該系統(tǒng)用簡(jiǎn)單的設(shè)備完成了視覺(jué)定位的功能,定位出人眼的視覺(jué)點(diǎn)。
關(guān)鍵詞:Haar特征 級(jí)聯(lián)分類器 圖像預(yù)處理 BP神經(jīng)網(wǎng)絡(luò) 視覺(jué)點(diǎn)定位
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)11(a)-0150-02
在科技日益發(fā)展的今天,人們對(duì)于計(jì)算機(jī)的要求隨著發(fā)展而增長(zhǎng),計(jì)算機(jī)視覺(jué)定位是當(dāng)今研究的熱點(diǎn)問(wèn)題。之前對(duì)于視覺(jué)定位的研究都是基于雙目或者單目相機(jī),對(duì)于設(shè)備有著較高的要求。
1 圖像獲取及圖像預(yù)處理
該系統(tǒng)根據(jù)對(duì)人臉在計(jì)算機(jī)屏幕前的姿態(tài)的分析,得到視覺(jué)定位點(diǎn)的結(jié)果。需要計(jì)算機(jī)攝像頭實(shí)時(shí)地拍攝計(jì)算機(jī)屏幕前的人臉圖像,得到所需的圖像信息。
計(jì)算機(jī)獲取圖像的時(shí)候不能保證在一個(gè)光線均勻的環(huán)境中,得到的圖片會(huì)明暗不清,為保證在后面環(huán)節(jié)中能夠得到好的結(jié)果,我們需要對(duì)圖片進(jìn)行預(yù)處理,使圖片信息更加清晰。進(jìn)行預(yù)處理之后的圖片會(huì)更加有利于計(jì)算機(jī)對(duì)于圖片的處理應(yīng)用。
圖像增強(qiáng):
設(shè)分別為原圖像和處理后圖像,則圖像增強(qiáng)方法的具體步驟如下:
(1)求原圖的灰度直方圖,設(shè)用256維的向量表示。
2 人臉特征提取
在各種人臉特征提取方法中haar特征用于人臉特征提取效果明顯,該文系統(tǒng)所用到的提取方式為用Haar特征對(duì)人臉進(jìn)行描述,再用級(jí)聯(lián)分類器對(duì)其進(jìn)行篩選分類,層層選擇之后得到人臉上的特征坐標(biāo)。
3 BP神經(jīng)網(wǎng)絡(luò)應(yīng)用
3.1 輸入數(shù)據(jù)的調(diào)整
由文中提到的特征提取得到臉部特征信息,即人臉上左右眼,鼻子,嘴巴這四個(gè)特征在人臉上的位置,得到特征在影像上的絕對(duì)坐標(biāo)點(diǎn)。然而輸入數(shù)據(jù)是左右眼、鼻子、嘴巴這四個(gè)特征在人臉坐標(biāo)系中的絕對(duì)坐標(biāo)的話,由于影像的大小不一,人臉的大小也不一樣,特征點(diǎn)在影像中的絕對(duì)坐標(biāo)并不能反映特征在人臉上的真實(shí)位置。因此需要將特征點(diǎn)在影像上的絕對(duì)坐標(biāo)轉(zhuǎn)換成相對(duì)于人臉的相對(duì)坐標(biāo)。
由于影像中的人臉大小不一樣,還需要將坐標(biāo)轉(zhuǎn)化為以人臉長(zhǎng)寬為參照的相對(duì)坐標(biāo)
為比例轉(zhuǎn)換之后的特征點(diǎn)的相對(duì)坐標(biāo);
為影像寬;為影像長(zhǎng);為臉寬;為臉長(zhǎng)。
3.2 確定BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
(1)隱含層的確定。
實(shí)際上,三層的神經(jīng)網(wǎng)絡(luò)就足以完成任意的M為到N維的映射。所以該文采取一個(gè)隱含層進(jìn)行神經(jīng)網(wǎng)絡(luò)的建立。
(2)激勵(lì)函數(shù)。
BP神經(jīng)網(wǎng)絡(luò)中隱含層最常用的是Sigmoid轉(zhuǎn)換函數(shù),其可以滿足輸入層和輸出層采用線性的轉(zhuǎn)換函數(shù),Sigmoid轉(zhuǎn)換函數(shù)使三層BP神經(jīng)網(wǎng)絡(luò)可以以任意精度逼近任何有理函數(shù)。該文采取Sigmoid函數(shù)作為激勵(lì)函數(shù)。
S型激發(fā)函數(shù)公式:
≤≤1 (5)
(3)每層節(jié)點(diǎn)設(shè)置。
輸入的是四個(gè)特征點(diǎn)的坐標(biāo)點(diǎn)信息,將輸入層節(jié)點(diǎn)設(shè)置為4。輸出信息為在屏幕上的視覺(jué)落腳點(diǎn),根據(jù)屏幕的分割格網(wǎng)確定輸出節(jié)點(diǎn)數(shù),如屏幕分為2×2的格網(wǎng)則為四個(gè)輸出節(jié)點(diǎn)。隱含節(jié)點(diǎn)數(shù)會(huì)影響計(jì)算的快慢以及計(jì)算最后的結(jié)果的正確率。選擇隱含層節(jié)點(diǎn)一般原則是:在能正確反映輸入輸出關(guān)系的基礎(chǔ)上,應(yīng)選用較少的隱層節(jié)點(diǎn)數(shù),以使網(wǎng)絡(luò)結(jié)構(gòu)盡量簡(jiǎn)單。所以將隱含層節(jié)點(diǎn)數(shù)設(shè)為4個(gè)。輸出信息為網(wǎng)格坐標(biāo)位置,即眼睛對(duì)于屏幕的觀測(cè)點(diǎn),將初始權(quán)和閥值為0.1,學(xué)習(xí)率為0.1。進(jìn)行BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
3.3 神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)
實(shí)驗(yàn)中利用人眼看向屏幕上的不同點(diǎn)位提取的人臉特征坐標(biāo)數(shù)據(jù),進(jìn)行BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練訓(xùn)練以及實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖表1所示。
其中GW為格網(wǎng)方式,N為訓(xùn)練樣本數(shù),Q為正確率??梢钥闯觯_率隨著網(wǎng)格的加密而下降,需要密于3×3正確率就小于了90%
4 結(jié)語(yǔ)
在對(duì)于設(shè)備的輕便性和實(shí)用性的要求越來(lái)越高的今天,該文的視覺(jué)定位系統(tǒng)很好地滿足了現(xiàn)今對(duì)于輕便這一點(diǎn)的要求。該系統(tǒng)僅僅是基于PC電腦,沒(méi)有大型設(shè)備的硬性要求,采用的攝像設(shè)備為計(jì)算機(jī)自己配備的攝像頭,處理過(guò)程也在計(jì)算機(jī)內(nèi)部自行進(jìn)行得出結(jié)果,整個(gè)過(guò)程簡(jiǎn)單方便。系統(tǒng)中用到的人臉特征提取以及訓(xùn)練的BP神經(jīng)網(wǎng)絡(luò)都能很好地到達(dá)最后的結(jié)果。但是這些結(jié)果都是在背景簡(jiǎn)單以及人臉很好的運(yùn)動(dòng)較慢的呈現(xiàn)在計(jì)算機(jī)面前得到的結(jié)果,在環(huán)境的改變以及人運(yùn)動(dòng)對(duì)于結(jié)果造成的不好影響還需要進(jìn)行改進(jìn)。
參考文獻(xiàn)
[1] 吳昌友.神經(jīng)網(wǎng)絡(luò)的研究及應(yīng)用[D].東北大學(xué),2007.
[2] 谷曉平,王長(zhǎng)耀,王汶,等.應(yīng)用于水文預(yù)報(bào)的優(yōu)化BP神經(jīng)網(wǎng)絡(luò)研究[J].生態(tài)環(huán)境,2004,13(4):524-527.
[3] 宋萬(wàn).基于OpenCV視覺(jué)庫(kù)的人臉檢測(cè)[D].吉林大學(xué),2014.