摘 要:本文提出了一種基于BP神經(jīng)網(wǎng)絡(luò)和多重特征的色情圖像檢測方法。用已知色情圖像塊作為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本,再對待檢測圖像進行分塊操作,并提取每個圖像塊的紋理、形狀和顏色特征信息,并使用神經(jīng)網(wǎng)絡(luò)進行分類檢測。經(jīng)matlab實驗仿真,本算法對色情圖像的檢測精度可以達到85%。
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò);多重特征;色情圖像
中圖分類號:TP391.41
隨著網(wǎng)絡(luò)的高速發(fā)展,互聯(lián)網(wǎng)已極大地改變了人們的生活,成為人們生活中不可或缺的一部分。而如今網(wǎng)絡(luò)上的色情圖像越來越多,色情圖像會對青少年身心造成了極大的傷害,急需加強對色情圖像的管控力度。而基于特征的圖像檢索技術(shù)正是正確識別色情圖像的基礎(chǔ),F(xiàn)orsyth[1]小組將人體看做符合一定規(guī)則的若干柱狀區(qū)域組合,通過顏色和紋理特征確定圖像中的皮膚區(qū)域,再在皮膚區(qū)域中尋找柱狀投影區(qū),從而識別人體,但該算法的識別率不高且處理速度較慢。eVe是eVision[1]公司開發(fā)的圖像搜索引擎,用于對不良圖像信息進行檢測和過濾,它通過膚色過濾、分割圖像和特征比較三個階段,但該引擎在判定相似度為40%至70%時需人工干預(yù),不能完全實現(xiàn)自動化。胡冠宇提出了一種人體特定部位的敏感圖像過濾器,該過濾器可以檢測到裸露人體的胸前部位和私處部位,再通過結(jié)合臉部特寫分類器,可以達到較好的檢測效果。
先將色情圖像的敏感區(qū)域圖像塊作為訓(xùn)練圖像,供BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。再確定出待檢測圖像中的皮膚區(qū)域,根據(jù)皮膚區(qū)域?qū)D像進行分塊操作,提取每個塊的多重特征,再通過BP神經(jīng)網(wǎng)絡(luò)檢測該圖像所對應(yīng)的塊中是否包含敏感圖像塊,若存在敏感圖像塊,則判定該檢測圖像為色情圖像。
1 色情圖像的特征提取
形狀、顏色、紋理是色情圖像最為突出的三個特征。本算法通過提取這三種特征構(gòu)成多重特征對色情圖像進行檢測。
本算法中提取的多種特征中使用Hu矩對圖像的形狀信息進行描述。Hu矩是Hu提出的基于代數(shù)不變的矩不變量。通過對幾何矩的非線性組合,利用二階和三階中心矩得出7個不變矩,具有較好的旋轉(zhuǎn)不變性。多重特征中還包括圖像的紋理特征。本算法采用灰度共生矩陣來描述圖像的紋理信息?;叶裙采仃囃ㄟ^對圖像上保持某距離的兩像素分別具有的灰度的狀況進行統(tǒng)計得到的,本算法通過下面四個灰度共生矩陣的能量、對比度、逆差距和相關(guān)度四個屬性對圖像紋理信息進行描述:
顏色特征也是色情圖像重要的特征之一。本算法選取HSV顏色空間,HSV顏色空間較為直觀。其中H指色相,即顏色名稱;S指的是飽和度,即色彩的純度,飽和度越高表示色彩越純,越低則色彩越灰;V指的是色調(diào),即色彩的明度。在本算法中,顏色特征主要用于檢測皮膚區(qū)域,將原圖像轉(zhuǎn)換到HSV空間后,按照閾值的設(shè)定,將滿足要求的區(qū)域作為皮膚區(qū)域。
2 檢測算法設(shè)計
2.1 BP神經(jīng)網(wǎng)路分類器設(shè)計
BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程分為正向傳播和誤差的反向傳播,其主要思想是在網(wǎng)絡(luò)結(jié)構(gòu)搭建之后,通過正向傳播獲取整個網(wǎng)絡(luò)的誤差,然后通過反向傳播根據(jù)具體的誤差情況調(diào)整網(wǎng)絡(luò)中的各個權(quán)值,最終確定網(wǎng)絡(luò)中輸入與輸出的映射關(guān)系。本算法將神經(jīng)網(wǎng)絡(luò)設(shè)為兩層,一層為隱含層,另一層為輸出層。將訓(xùn)練圖像塊分為4類,分別為胸部圖像、肚臍圖像、敏感區(qū)域圖像和皮膚圖像。所以輸出層設(shè)為4個神經(jīng)元,而隱含層神經(jīng)元的個數(shù)暫設(shè)置為20。隱含層的激活函數(shù)為對數(shù)S型轉(zhuǎn)移函數(shù),而輸出層的激活函數(shù)則為線性函數(shù)。
2.2 BP神經(jīng)網(wǎng)絡(luò)檢測算法步驟
圖1 BP神經(jīng)網(wǎng)絡(luò)檢測算法流程圖
本算法分為訓(xùn)練和測試兩個階段:
訓(xùn)練階段:
(1)通過人工的手段獲取已確認的色情圖像中敏感區(qū)域,將敏感區(qū)域劃分為100*100的塊,每一個塊都要包含較一個明顯色情的特征,如女性胸部、肚臍、腋窩等。
(2)分別提取每一個圖像塊的紋理、形狀、顏色特征,其中紋理特征用灰度共生矩陣的能量、相關(guān)度、逆差距、對比度四個參數(shù)來描述,而形狀特征則用Hu矩來描述,顏色特征則通過判斷不同顏色占圖像塊的比例來描述。對每一個圖像塊形成一個與之對應(yīng)的14維的特征列向量。
(3)將不同圖像塊的特征列向量構(gòu)成特征矩陣,作為訓(xùn)練樣本供BP神經(jīng)網(wǎng)絡(luò)中進行學(xué)習(xí)。
測試階段:
(1)將待檢測圖像從RGB空間轉(zhuǎn)換至HSV空間,按照對皮膚區(qū)域的顏色設(shè)定選取圖像中皮膚區(qū)域。
(2)對圖像先進行閉操作,再填充連通區(qū)域中的“空洞”區(qū)域,使獲取的的皮膚區(qū)域為個數(shù)較少的連通區(qū)域。將圖像裁剪為只包含連通區(qū)域,以n*100為邊長的最小塊,對邊緣區(qū)域則以鏡像的形式補全。將裁剪后的圖像以100為邊長分為n*n個小圖像塊,若小圖像塊中的皮膚區(qū)域面積大于三分之一,則提取該圖像塊的多種特征信息,生成14維特征列向量。
(3)將該圖像所生成的特征列向量構(gòu)成特征矩陣,用已經(jīng)訓(xùn)練完成的BP神經(jīng)網(wǎng)絡(luò)對該特征矩陣進行測試,判定每個小圖像是否為色情圖像塊,若從該圖像中檢測出了超過閾值的色情圖像塊個數(shù),則判定該圖像為色情圖像。
3 實驗結(jié)果及分析
本文選取了58個小圖像塊作為訓(xùn)練樣本供BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。這些小圖像塊分別為女性的肚臍、胸部、皮膚和敏感區(qū)域。為了測試本算法的檢測效果,本節(jié)選取了40幅圖像對本算法進行測試,其中色情圖像26幅,正常圖像16幅,包含人像圖像,風(fēng)景圖像,城市建筑等,使正常圖像具有一定的普遍性。為了量化檢測效果,本文分別使用precision和accurate來表示檢測的精確度和準確率,其中:
Ndetect_true為正確檢測出的色情圖像的張數(shù),Nmiss為沒有被檢測出的色情圖像的張數(shù),Ndetect_1為正常圖像被誤檢為色情圖像的張數(shù)。precesion表示了色情圖像被檢測出的概率,而accurate則表示了檢測出的圖像為色情圖像的概率。
表1 不同神經(jīng)元個數(shù)檢測對比
神經(jīng)元個數(shù)5101520
Precision0.8850.8850.7300.846
Recall0.8850.8520.8260.846
表1顯示了本算法在不同隱含層神經(jīng)元個數(shù)下的檢測效果,觀察表1可以發(fā)現(xiàn),隨著隱含層神經(jīng)元個數(shù)的不斷增多,本算法的檢測效果呈略微下降的趨勢,但在神經(jīng)元為15和20時檢測效果有起伏。這是由于訓(xùn)練樣本和測試圖像的數(shù)量都不大,如果采用較大的網(wǎng)絡(luò)結(jié)構(gòu),則會導(dǎo)致訓(xùn)練的效率不高,出現(xiàn)過擬合的現(xiàn)象,造成網(wǎng)絡(luò)的性能較低,從這也可以看出神經(jīng)網(wǎng)絡(luò)中隱并不是隱含層節(jié)點的個數(shù)越多越好,只有合適的網(wǎng)絡(luò)結(jié)構(gòu)才可以使神經(jīng)網(wǎng)絡(luò)發(fā)揮最大的功效。
通過實驗發(fā)現(xiàn),隨著訓(xùn)練次數(shù)的增多,BP神經(jīng)網(wǎng)絡(luò)算法的收斂速度較慢,這是因為BP神經(jīng)網(wǎng)絡(luò)算法本質(zhì)上是梯度下降算法,所以使用它對目標函數(shù)進行優(yōu)化是比較復(fù)雜的。這使得本算法的效率并不是特別高。為了解決這個問題,本實驗通過設(shè)置學(xué)習(xí)速率來加速神經(jīng)網(wǎng)絡(luò)的收斂速度。不難發(fā)現(xiàn),較高的學(xué)習(xí)速率可以加速BP神經(jīng)網(wǎng)絡(luò)的收斂速度,但若學(xué)習(xí)速率設(shè)置的過高,則會導(dǎo)致產(chǎn)生震蕩,反而導(dǎo)致算法更不容易收斂。經(jīng)實驗測試,則本算法中,將學(xué)習(xí)速率設(shè)為0.3。圖2為用訓(xùn)練圖像對BP神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練時的訓(xùn)練效果圖。從圖中可以看出收斂速度較為平穩(wěn)。
圖2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練圖
4 結(jié)束語
本文提出了一種基于BP神經(jīng)網(wǎng)絡(luò)和多重特征的色情圖像檢測算法,不同特征的融合可以更好地使用特征行向量來描述色情圖像的色情區(qū)域,通過將色情圖像塊對應(yīng)的特征行向量組成特征矩陣,將其作為訓(xùn)練樣本供BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)。經(jīng)實驗,學(xué)習(xí)后的神經(jīng)網(wǎng)絡(luò)對色情圖像的檢測效果較好,但本算法對側(cè)面等類型的色情圖像的鑒別能力不夠,經(jīng)常會造成誤檢測,造成這樣的原因是BP神經(jīng)網(wǎng)絡(luò)對訓(xùn)練樣本較為依賴,只有增加訓(xùn)練樣本的種類和數(shù)量,才能更好地對各種類型的色情圖像進行檢測。
參考文獻:
[1]郭沛猛.基于內(nèi)容的不良圖像識別關(guān)鍵技術(shù)研究[D].北京:中國人民公安大學(xué),2008.
[2]徐欣欣,袁華,張凌.基于顏色和紋理特征的圖像過濾方法[J].華南理工大學(xué)學(xué)報,2004(12).
[3]陳家偉.基于內(nèi)容的圖像過濾[D].廣州:華南理工大學(xué),2010.
[4]蔡政,丁宣浩,陳麗霞.敏感圖像識別算法研究[J].企業(yè)科技與發(fā)展,2012(03).
[5]郭航,霍宏濤.灰度共生矩陣在皮膚紋理檢測中的應(yīng)用研究[J].中國圖像圖形學(xué)報,2010(03).
作者簡介:李睿智(1988-),男,網(wǎng)絡(luò)安全保衛(wèi)學(xué)院碩士研究生,研究方向:圖像處理,計算機網(wǎng)絡(luò)。
作者單位:中國人民公安大學(xué),北京 102600
基金項目:本文系中國人民公安大學(xué)2013年基本科研業(yè)務(wù)費項目(2013LGX02-6)資助。