張博
(大唯機(jī)電安裝工程(蘇州)有限公司,江蘇蘇州,215000)
人體姿態(tài)行為識(shí)別是機(jī)器視覺領(lǐng)域重要的研究方向,在智能家居、醫(yī)療、安保、和體育運(yùn)動(dòng)等領(lǐng)域有著廣泛的應(yīng)用前景[1]。人體姿態(tài)識(shí)別通常是利用經(jīng)過(guò)預(yù)處理的運(yùn)動(dòng)視頻片斷或包含人體動(dòng)作的圖像進(jìn)行識(shí)別。蘇超[2]提出首先通過(guò)高斯濾波去除圖像中的高斯噪聲,然后結(jié)合注意機(jī)制的目標(biāo)檢測(cè)算法檢測(cè)目標(biāo)學(xué)生在圖像中的位置。然后,通過(guò)改進(jìn)的openpose模型從檢測(cè)到的圖像中提取人體骨骼關(guān)節(jié)點(diǎn)的坐標(biāo),最后利用st-支持向量機(jī)分類器對(duì)得到的關(guān)節(jié)坐標(biāo)進(jìn)行分類,從而快速準(zhǔn)確地識(shí)別學(xué)習(xí)者的行為狀態(tài)。郭天曉等[3]首先建立簡(jiǎn)化的人體骨架模型,利用人體姿態(tài)估計(jì)技術(shù)提取骨架模型中各關(guān)節(jié)點(diǎn)的坐標(biāo)信息;其次,采用人體中心投影法提取動(dòng)作特征區(qū)域,消除人體整體位移對(duì)動(dòng)作識(shí)別的影響;最后,以特征區(qū)域編碼作為特征向量,輸入多分類器進(jìn)行動(dòng)作識(shí)別。同時(shí),通過(guò)優(yōu)化特征向量的長(zhǎng)度來(lái)優(yōu)化識(shí)別率和識(shí)別速度。王萌萌[4]提出了提出了一種基于時(shí)空網(wǎng)絡(luò)的行為分類算法模型。將傳統(tǒng)的圖卷積網(wǎng)絡(luò)應(yīng)用于人的行為識(shí)別,引入時(shí)間卷積進(jìn)行深度學(xué)習(xí)的行為分析。Rijun Liao等人[5]提出一種新的模型PoseGait,利用卷積神經(jīng)網(wǎng)絡(luò)從圖像中估計(jì)出的人體三維姿態(tài)作為步態(tài)識(shí)別的輸入特征,同時(shí)從三維姿態(tài)中設(shè)計(jì)時(shí)空特征來(lái)提高識(shí)別率。Hanguen Kim等人[6]提出了僅使用深度信息的人體姿態(tài)估計(jì)和手勢(shì)識(shí)別算法,該算法是通過(guò)比較輸入關(guān)鍵幀和注冊(cè)手勢(shì)的關(guān)鍵幀來(lái)實(shí)現(xiàn)的,產(chǎn)生最小比較誤差的手勢(shì)被選擇為識(shí)別手勢(shì),因此不需要事先了解人體模型。
實(shí)驗(yàn)流程框架如圖1所示。
圖1 流程框架圖
(1)人體姿態(tài)庫(kù)的采集。人體姿態(tài)庫(kù)決定著訓(xùn)練模型的優(yōu)劣,對(duì)于實(shí)驗(yàn)結(jié)果至關(guān)重要,本文選取HMDB51運(yùn)動(dòng)數(shù)據(jù)庫(kù)中四類人體姿態(tài)視頻 :跑(run)、揮手(wave)、倒立(handstand)和跳(jump),將視頻按幀讀取然后調(diào)整大小為120*180的圖片。在得到的所有圖片中選出包含人體完整輪廓且人體姿態(tài)特征清晰明顯的1500張圖片作為最終的訓(xùn)練樣本,將不同種類的人體姿態(tài)分別保存在文件夾中,建立標(biāo)簽供后面支持向量機(jī)訓(xùn)練用。
(2)圖像前置處理。圖像前置處理部分主要包括對(duì)于人體姿態(tài)ROI的提取和歸一化兩部分。
1)人體姿態(tài)ROI的提取。首先對(duì)圖像進(jìn)行灰度化,單通道圖像能夠減少計(jì)算量便于特征提取,選取伽馬系數(shù)為0.5,進(jìn)行伽馬校正處理,削弱光強(qiáng)和顏色等對(duì)于后期HOG特征提取的干擾。然后對(duì)灰度化后的圖像進(jìn)行中值濾波,高斯濾波操作用以消除椒鹽噪聲和高斯噪聲,降低訓(xùn)練樣本中噪音對(duì)于結(jié)果的影響。
降噪以后對(duì)于圖像進(jìn)行二值化,閾值分割采用的最大類間方差作為選取閾值的方法,能夠很好的將人體姿態(tài)輪廓從圖片中提取出來(lái),因?yàn)槿伺c周圍環(huán)境像素值具有較大差異,提取輪廓后置人體姿態(tài)區(qū)域像素值為255,背景區(qū)域像素值為0。最后對(duì)圖像進(jìn)行形態(tài)學(xué)操作,本文采用頂帽操作方式,頂帽操作可以對(duì)于圖像中人體姿態(tài)區(qū)域中像素值較低的區(qū)域填充上該像素點(diǎn)周圍8個(gè)像素點(diǎn)中像素值最大的部分即像素值置為255,從而使得人體輪廓清晰完整。如圖2是人體姿態(tài)區(qū)域分割結(jié)果。
圖2 人體姿態(tài)與背景分割提取
2)人體運(yùn)動(dòng)區(qū)域歸一化。首先對(duì)形態(tài)學(xué)處理結(jié)果(目標(biāo)人體區(qū)域)進(jìn)行標(biāo)記,統(tǒng)計(jì)標(biāo)記區(qū)域的面積分布,對(duì)于標(biāo)記區(qū)域的像素值進(jìn)行歸一化處理。
3)HOG特征提取。對(duì)于歸一化樣本,對(duì)四類樣本中的所有圖像依次分批處理:首先對(duì)顏色空間進(jìn)行歸一化,分別計(jì)算每個(gè)像素在水平方向和垂直方向上的梯度值和角度值,總的梯度值為水平梯度和垂直梯度值的L2范數(shù),然后再將梯度分布直方圖歸一化并且將調(diào)整后尺寸大小為64*128的灰度圖像劃分為8*8像素單元,并對(duì)180*128灰度圖像進(jìn)行分割。平均分成9等分,9個(gè)方向的梯度直方圖以每個(gè)單元為單位計(jì)數(shù),2*2個(gè)單元構(gòu)成一個(gè)交替塊,每個(gè)塊具有16*9維特征,每個(gè)圖像表示為3780維特征。最后得到梯度方向直方圖特征,并將其送入支持向量機(jī)進(jìn)行訓(xùn)練。
4)支持向量機(jī)分類器的訓(xùn)練。支持向量機(jī)分類器用于對(duì)跑步、倒立、揮手和跳躍等數(shù)據(jù)集進(jìn)行分類,但是支持向量機(jī)最早是解決二值分類問(wèn)題的有效方法,而訓(xùn)練兩種以上的人體姿態(tài)HOG特征數(shù)據(jù)集是一個(gè)多類分類問(wèn)題,因此需要將支持向量機(jī)擴(kuò)展到多類分類問(wèn)題,即需要利用支持向量機(jī)中的核方法來(lái)解決多分類問(wèn)題。本文采用openCV軟件庫(kù)來(lái)進(jìn)行訓(xùn)練以實(shí)現(xiàn)上述功能。在每次訓(xùn)練中,訓(xùn)練集中的樣本數(shù)應(yīng)至少占總樣本數(shù)的60%,這樣訓(xùn)練后的模型就不會(huì)欠擬合,同時(shí)將剩余的樣本作為測(cè)試集。在確定每個(gè)訓(xùn)練集中的樣本數(shù)后,取50次訓(xùn)練后的平均值作為識(shí)別率。最后計(jì)算了每種類型樣本的平均識(shí)別率。
(3)采用支持向量機(jī)分類器對(duì)數(shù)據(jù)集中跑步、倒立、揮手和跳躍四類HOG特征數(shù)據(jù)進(jìn)行訓(xùn)練。由于是多分類問(wèn)題故需要采用核函數(shù)將數(shù)據(jù)集映射到更高維空間中來(lái)進(jìn)行分類,該實(shí)驗(yàn)分別采用線性核函數(shù),高斯核函數(shù)以及拉普拉斯核函數(shù)來(lái)進(jìn)行試驗(yàn)。
最終得到實(shí)驗(yàn)結(jié)果如表1,表2,表3所示。
表1 線性核函數(shù)識(shí)別率
表2 高斯核函數(shù)識(shí)別率
表3 拉普拉斯核函數(shù)識(shí)別率
選擇線性核函數(shù)進(jìn)行多次訓(xùn)練后,各類樣本的測(cè)試結(jié)果如表1所示,可知當(dāng)線性核函數(shù)被選為支持向量機(jī)的核函數(shù)時(shí),當(dāng)訓(xùn)練樣本數(shù)占樣本總數(shù)的比例相同時(shí),具有跑步和倒立這兩種特征的圖像擁有較高的識(shí)別率,揮手和跳躍識(shí)別率較低。原因是跑步和倒立的HOG特征和其他特征相比,在支持向量機(jī)映射的高維空間中歐式距離較遠(yuǎn)容易區(qū)分,在訓(xùn)練樣本類型不變的情況下,訓(xùn)練樣本占樣本總數(shù)的比例越高,識(shí)別精度越高,預(yù)測(cè)效果越好。選擇高斯核函數(shù)進(jìn)行多次訓(xùn)練后,每個(gè)樣本的測(cè)試結(jié)果如表2所示??梢钥闯?,在選擇高斯核函數(shù)作為支持向量機(jī)的核函數(shù)進(jìn)行實(shí)驗(yàn)時(shí),跑步和倒立得到的實(shí)驗(yàn)結(jié)果依舊好于揮手和跳躍。然而,高斯核函數(shù)對(duì)于線性不可分的情況具有很強(qiáng)的魯棒性,因此用高斯核函數(shù)進(jìn)行分類識(shí)別的準(zhǔn)確率在4項(xiàng)人體姿態(tài)分類中比用線性核函數(shù)進(jìn)行分類識(shí)別的準(zhǔn)確率均要高。采用拉普拉斯核函數(shù)得到的結(jié)果具有和高斯核函數(shù)整體相近的識(shí)別準(zhǔn)確率。因此,有必要選擇高斯核函數(shù)作為支持向量機(jī)姿態(tài)識(shí)別的核函數(shù),亦可以滿足高識(shí)別準(zhǔn)確率的要求,同時(shí),實(shí)驗(yàn)還表明,支持向量機(jī)在處理人體姿態(tài)識(shí)別問(wèn)題上具有識(shí)別精度高、簡(jiǎn)單快速等優(yōu)點(diǎn),適合在工業(yè)生產(chǎn)實(shí)際中使用。綜合上述實(shí)驗(yàn)結(jié)果,利用HOG特征結(jié)合支持向量機(jī)分類器用于人體姿態(tài)識(shí)別是具有可行性的。
針對(duì)不同情況下人體姿態(tài)在空間幾何結(jié)構(gòu)上的差異,本文在openCV中編程進(jìn)行試驗(yàn),利用梯度方向直方圖表示不同的人體姿態(tài)特征,利用支持向量機(jī)分類器實(shí)現(xiàn)對(duì)不同人體姿態(tài)的分類識(shí)別。最后,還比較了線性核函數(shù)、高斯核函數(shù)和拉普拉斯核函數(shù)應(yīng)用到支持向量機(jī)分類器時(shí)對(duì)不同人體姿態(tài)分類結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明,將HOG特征與支持向量機(jī)分類器相結(jié)合,可以有效地實(shí)現(xiàn)日常人體姿態(tài)的識(shí)別,具有良好的識(shí)別效果。
利用支持向量機(jī)分類器針對(duì)不同的人體姿態(tài)樣本進(jìn)行訓(xùn)練時(shí),可以發(fā)現(xiàn)支持向量機(jī)分類器映射到高維空間中所需的核函數(shù)以及其參數(shù)的不同設(shè)置對(duì)人體姿態(tài)識(shí)別率有很大影響。當(dāng)支持向量機(jī)分類器訓(xùn)練不同的人體姿態(tài)樣本時(shí),支持向量機(jī)分類器核函數(shù)的選取和核函數(shù)參數(shù)的不同設(shè)置對(duì)人體姿態(tài)識(shí)別率有很大的影響。同時(shí)樣本的數(shù)目與識(shí)別的準(zhǔn)確率呈現(xiàn)正相關(guān),收集更多的訓(xùn)練樣本種類和數(shù)目,是得到一個(gè)較高準(zhǔn)確率的前提。如何根據(jù)人體姿態(tài)樣本的種類和數(shù)量,選擇合適的核函數(shù)及其參數(shù),目前尚未有合適的基礎(chǔ)研究成果來(lái)提供核函數(shù)選取準(zhǔn)則,更多的是依靠試驗(yàn)方法選取,因此是利用HOG特征和支持向量機(jī)識(shí)別日常人體姿態(tài)尚需進(jìn)一步的研究。