吳冬梅,袁 宵,張 靜
(西安科技大學(xué)通信與信息工程學(xué)院,陜西 西安 710054)
長期以來,煤礦井下燈光昏暗,運(yùn)作的礦車和行人難以分辨,行人時(shí)常誤入危險(xiǎn)區(qū)域?qū)е旅旱V井下事故頻發(fā)[1],而目前煤礦井下的監(jiān)控視頻通過人工觀察,不能及時(shí)發(fā)現(xiàn)事故。因此若能在復(fù)雜的煤礦井下智能、實(shí)時(shí)的檢測到行人,對礦工的安全保障具有重大意義。
目前常用的行人檢測方法[2]仍然是基于計(jì)算機(jī)視覺。如果在人工確定提取適合的特征之前,對圖像進(jìn)行增強(qiáng)輪廓和細(xì)節(jié)的預(yù)處理,可以提高圖像質(zhì)量。文獻(xiàn)[3]提出了基于Retinex的增強(qiáng)算法,是通過改變低頻與高頻信號在原圖中占據(jù)的比例實(shí)現(xiàn)圖像增強(qiáng),但是該算法復(fù)雜、運(yùn)行速度慢。文獻(xiàn)[4]提出用改進(jìn)的直方圖均衡化算法優(yōu)化原始圖像的低頻分量,用改進(jìn)的Retinex算法估計(jì)和放大高頻分量達(dá)到增強(qiáng)效果,但存在噪聲且效率低的問題。文獻(xiàn)[5]提出的基于安全帽檢測的煤礦井下人員目標(biāo)檢測方法,針對四種檢測場景,檢測效率快,但平均準(zhǔn)確率低。而文獻(xiàn)[6]提出的基于HOG+SVM的礦工檢測算法,檢測精度雖有所提升,但處理實(shí)時(shí)的視頻圖像很難滿足要求。基于此,本文提出一種改進(jìn)的反銳化掩模算法以及多特征融合的方法,先對圖像增強(qiáng),然后對提取的特征進(jìn)行降維、融合兩種特征,最后多次訓(xùn)練分類器并對參數(shù)調(diào)優(yōu)得到最佳檢測模型。
煤礦井下光照分布不均的特殊環(huán)境使得所獲取的煤礦井下視頻清晰度不高,因而煤礦井下的視頻行人檢測效率也不能得到提升。傳統(tǒng)的直方圖均衡化算法會擴(kuò)增原始圖像中較亮的區(qū)域;Retinex算法能夠抑制原始圖像中亮度較高的區(qū)域,但經(jīng)過Retinex算法處理后圖像整體的亮度和對比度較低;經(jīng)過線性UM算法處理過的圖像的清晰度會提升,但是整體增強(qiáng)效果達(dá)不到后續(xù)的處理要求。為了使得人物目標(biāo)輪廓更加明顯,圖像質(zhì)量更高,本文針對上述算法處理非均勻光照圖像[7]的不足提出了改進(jìn)的反銳化掩膜算法。
雙邊濾波是常用的非線性濾波方法,該方法不僅能有效抑制噪聲,而且能對圖像的邊緣信息很好的保留。
假設(shè)f(x,y)代表原始圖像,(x,y)表示某個(gè)像素點(diǎn)的坐標(biāo),g(x,y)表示點(diǎn)(x,y)經(jīng)過雙邊濾波處理后的結(jié)果,如式(1)
(1)
式(1)中S(x,y)代表以點(diǎn)(x,y)為中心,鄰域大小為(2N+1)×(2N+1);等號右邊表示鄰域S(x,y)內(nèi)所有像素值的加權(quán)平均;ω(i,j)為加權(quán)系數(shù), 如式(2)所示
ω(i,j)
(2)
在一幅圖像中,波動越小的區(qū)域,鄰域間像素值相差越小,對于波動較大的區(qū)域,原始圖像的灰度值可以用鄰域內(nèi)的相似像素的均值替代。
傳統(tǒng)的線性UM算法對高頻圖像的放大是使用確定的系數(shù),對于整幅圖像而言,使用同一個(gè)確定的系數(shù)放大圖像,不能使圖像均勻增強(qiáng),因此對高頻圖像的放大,本文采用非線性函數(shù)處理。
首先,用線性函數(shù)把高頻信號轉(zhuǎn)換為另一個(gè)不同的信號,如式(3)所示
c=2d-1
(3)
其中,d表示高頻信號,c為經(jīng)過線性轉(zhuǎn)換處理的信號。
其次,假定信號c與增益γ有一定的函數(shù)關(guān)系
γ(c)=α+β·exp(-|c|η)
(4)
當(dāng)c分別取0和1時(shí),可得出參數(shù)α和β,如式(5)和(6)所示
α=γmax-β
(5)
β=(γmax-γmin)/(1-exp(-1))
(6)
參數(shù)α,β確定之后就可以確定增益γ的函數(shù)表達(dá)式。
經(jīng)過線性UM處理的圖像的邊緣信息不能達(dá)到很好的保留效果,并且對整幅圖像的放大采用同一個(gè)系數(shù),達(dá)不到最好的圖像增強(qiáng)目的。因此,本文提出基于雙邊濾波的自適應(yīng)增益反銳化掩膜算法,該算法能對原始圖像的低頻分量很好的保留,也可以對圖像的高頻分量進(jìn)行增強(qiáng)。假設(shè)用F表示原始圖像,L表示低頻圖像用,H表示高頻圖像,本文提出的改進(jìn)算法可通過以下6個(gè)步驟實(shí)現(xiàn):
1)顏色空間轉(zhuǎn)換。
2)對原始圖像F經(jīng)過雙邊濾波得到L;
3)F-L=H;
4)自適應(yīng)增益由H得到并放大;
5)增強(qiáng)圖像是由F與放大后的H相加確定;
6)將增強(qiáng)之后的圖變化到彩色空間。
本文對大量受光不均的礦井圖像進(jìn)行增強(qiáng)實(shí)驗(yàn),為了驗(yàn)證本文提出改進(jìn)的反銳化掩模算法的增強(qiáng)效果,下面將與直方圖均衡化(HE)、單尺度Retine算法(SSR)、多尺度Retinex(MSR)算法、線性UM算法進(jìn)行比較,圖像增強(qiáng)后的處理結(jié)果如圖1所示。
圖1 五種算法對礦井原始圖像的增強(qiáng)效果圖
從上述結(jié)果可以看出原圖經(jīng)過直方圖均衡化之后,亮的區(qū)域更亮,暗的區(qū)域更暗;經(jīng)過SSR算法增強(qiáng)后,對原圖中亮度較高的區(qū)域進(jìn)行了抑制,但圖像平均亮度低;通過MSR增強(qiáng)算法處理后,相比于SSR算法提高了圖像的亮度,但是行人目標(biāo)與背景對比度低,人物輪廓不明顯;線性UM算法處理圖像后,圖像中燈光亮的區(qū)域沒有擴(kuò)大,但圖像整體模糊;經(jīng)過本文增強(qiáng)算法處理后,提升了圖像亮度、對比度,弱化了原始圖像中礦燈亮的區(qū)域且沒有擴(kuò)增,而且更好地突出了人形目標(biāo)。
下面將對比傳統(tǒng)的增強(qiáng)算法與本文提出的改進(jìn)算法。其中,圖像包含的信息可以體現(xiàn)在信息熵;圖像對比度體現(xiàn)在標(biāo)準(zhǔn)差;圖像的清晰程度體現(xiàn)平均梯度。統(tǒng)計(jì)結(jié)果如表1所示。
表1 五種算法對礦井原始圖像增強(qiáng)處理的指標(biāo)對比
從表1可知,MSR和線性UM對圖像的增強(qiáng)效果比較明顯,將本文改進(jìn)算法與上述兩種算法進(jìn)行對比,標(biāo)準(zhǔn)差分別提高了46.6%和1.8%;信息熵分別提高了8.3%和3.4%;平均梯度是MSR算法的2.7倍,是線性UM算法的1.8倍,雖然直方圖均衡化算法處理圖像后標(biāo)準(zhǔn)差高于本文提出的改進(jìn)算法,但從圖像來看,原始圖像中燈光亮的區(qū)域增大,而本文提出的改進(jìn)算法避免了這種情況,而且行人目標(biāo)更突出,可以確定本文提出的改進(jìn)算法效果好。
HOG特征是利用邊緣梯度對一幅圖像中目標(biāo)的形狀、輪廓等進(jìn)行描述。用于行人檢測時(shí),若人體有部分輕微的動作變化,檢測結(jié)果不發(fā)生改變。對于一幅尺寸為64×128的圖像I,取8×8大小的Cell,16×16大小的Block,滑動窗口的移動間隔為8。通過灰度化、歸一化、梯度的模值和角度構(gòu)建的方向直方圖得到圖像的HOG特征。
由于提取HOG特征時(shí)包含了大量冗余信息,而在分類器訓(xùn)練過程中,隨著特征維數(shù)的不斷增加,匹配的過程就越復(fù)雜,系統(tǒng)的運(yùn)行速率就越慢,所以為了提高檢測速度,必須對原始的HOG特征進(jìn)行降維[8],通過PCA將高緯度的特征映射至低緯度,保留高緯度數(shù)據(jù)的一些重要特征,去除噪聲和不重要的特征。
LBP是表示圖像紋理信息的特征描述符,對光照突變和復(fù)雜的背景穩(wěn)定性高。獲取圖像的LBP特征的原理是選取(xc,yc)作為圖像中心,鄰域區(qū)域S的大小為3×3,且把S內(nèi)除點(diǎn)(xc,yc)以外的8個(gè)像素點(diǎn)依次與閾值T值比較。超過T的為1,小于T的為0。
特征融合既能提取出多種特征中具有代表性的信息,又能去除掉大多數(shù)不重要的信息,提高了運(yùn)行效率。而HOG特征可以代表圖像的邊緣信息,LBP特征對背景復(fù)雜和光照變化劇烈具有穩(wěn)定性,所以本文選擇串行融合HOG特征與LBP特征[9]。
假設(shè)特征空間A和B構(gòu)成樣本空間Ω,選擇其中一個(gè)樣本ε(ε∈Ω)分別對應(yīng)A特征空間的α(α∈A)特征向量、B特征空間的β(β∈B)特征向量,經(jīng)過串聯(lián)融合兩種特征,可以用γ=(α,β)表示特征矩陣。若有m維的α,n維的β,則(m+n)就代表串聯(lián)融合特征之后的維度。
SVM分類器模型訓(xùn)練[10]的好壞決定了最終的分類效果。本文分類器的訓(xùn)練重點(diǎn)在于困難樣本的挖掘,首先針對樣本大小不一進(jìn)行歸一化處理,其次根據(jù)提取的融合之后的HOG-LBP特征用于初始分類器模型的訓(xùn)練,然后利用第一次訓(xùn)練完成的分類器在負(fù)樣本上再次檢測,將錯誤的檢測結(jié)果歸納為困難樣本,最后將正樣本、負(fù)樣本、困難樣本輸入SVM分類器進(jìn)行訓(xùn)練,對分類器參數(shù)進(jìn)行調(diào)優(yōu),得到最終需要的分類器模型。
本文算法利用Vision Studio2013和OpenCV3.1.0配置編程實(shí)現(xiàn),測試環(huán)境為Intel(R) Core(TM) i3-4030U,CPU頻率為1.90GHz,內(nèi)存4GB。
INRIA數(shù)據(jù)庫是現(xiàn)在最常用的標(biāo)準(zhǔn)行人數(shù)據(jù)庫,為了驗(yàn)證本文提出的融合HOG與LBP特征后分類器的檢測效果,先在INRIA行人數(shù)據(jù)庫上進(jìn)行測試,結(jié)果如圖2所示。
圖2 INRIA行人數(shù)據(jù)庫檢測結(jié)果
從圖2可以看出對于單個(gè)行人、多個(gè)行人、不同姿態(tài)多種情況下的人形目標(biāo)都能夠準(zhǔn)確檢測。
下面是提取融合后的特征與只提取單一的HOG特征或LBP特征的統(tǒng)計(jì)結(jié)果,分類器的檢測效果將通過誤檢率、漏檢率、查準(zhǔn)率、查全率來評價(jià),其中正樣本有132張,負(fù)樣本有110張,統(tǒng)計(jì)結(jié)果如表2所示
表2 三種特征的檢測率
從表2中的結(jié)果可以看出,相比于提取單一特征與提取融合后的特征訓(xùn)練的分類器,融合后的特征查全率為96%,檢測效果更好。
為了驗(yàn)證本文所提出的改進(jìn)算法在煤礦井下復(fù)雜環(huán)境中的檢測效果,本文選取了3段不同場景的視頻。測試視頻1是模擬視頻,選擇的是室外場景光線較暗的情況,用同時(shí)出現(xiàn)的行人與車輛表示井下的礦工和礦車。測試視頻2是背景環(huán)境更復(fù)雜的真實(shí)井下監(jiān)控視頻,有礦工以及運(yùn)作的礦車和照明的礦燈兩種干擾。測試視頻3是自行拍攝的煤礦井下真實(shí)環(huán)境,其中包括礦工、礦燈兩個(gè)目標(biāo),檢測的結(jié)果如圖3所示。
圖3 3段測試視頻檢測結(jié)果
本文三段視頻經(jīng)過增強(qiáng)處理后的結(jié)果如表3所示。
表3 3段視頻的檢測率
將本文的行人檢測算法與文獻(xiàn)[5]和文獻(xiàn)[6]的算法比較,其中文獻(xiàn)[5]的四種場景平均檢測率為84.1%,誤檢率為11%,文獻(xiàn)[6]中礦工檢測的準(zhǔn)確率為86.7%,誤檢率為9.56%。通過對比,本文算法對測試視頻1和3的檢測率均高于文獻(xiàn)[5]和文獻(xiàn)[6]。視頻2的準(zhǔn)確率雖低于文獻(xiàn)[5]和[6],但是測試視頻2的干擾更多、背景環(huán)境更復(fù)雜。而本文行人檢測算法誤檢率在三段測試中最高為7.3%,相比于文獻(xiàn)[5]的11.49%和文獻(xiàn)[6]的9.56%,誤檢率更低。因此本文的檢測算法效果更好,且抗干擾能力更強(qiáng)。
目前,行人檢測針對靜態(tài)圖像的檢測結(jié)果都不錯,但由于視頻存在背景復(fù)雜、相機(jī)晃動等不穩(wěn)定因素,導(dǎo)致難以實(shí)現(xiàn)實(shí)時(shí)的視頻行人檢測,同時(shí)提取的特征維度過高也會影響檢測的時(shí)效性,而且針對煤礦井下視頻環(huán)境復(fù)雜,行人檢測的難度更大且準(zhǔn)確率更低?;诖?,本文提出改進(jìn)的 HOG-LBP 特征融合進(jìn)行行人檢測的方法,在特征融合之前,利用改進(jìn)的UM算法對其進(jìn)行圖像增強(qiáng),增強(qiáng)后的圖像的清晰度更高、人形目標(biāo)的輪廓更突出,融合特征之后送入分類器多次訓(xùn)練得到最佳模型進(jìn)行煤礦井下的行人檢測時(shí)準(zhǔn)確率得到一定的提升。但本文算法沒有考慮多個(gè)行人互相遮擋的問題,因此在下一步的研究中,主要考慮解決煤礦井下行人遮擋的問題。