駱俊鋒
(北方工業(yè)大學 信息學院,北京 100043)
用戶在使用圖像檢索系統(tǒng)時,往往根據(jù)所檢索的圖像是否有相似的物體,相似的場景來判斷是否為相似的圖像。然而,傳統(tǒng)的圖像檢索方法使用手工設計的特征無法很好的把底層信息與實際的語義相聯(lián)系,所檢索出來的圖像在底層信息的相似無法與視覺理解的相似相聯(lián)系,導致了“語義鴻溝”的產(chǎn)生。尋找和確認一個人與機器共同的“興趣區(qū)域”是減小“語義鴻溝”問題的途徑之一,許多學者對此進行了研究[1-3]。
近年來,隨著深度學習理論的發(fā)展以及計算機性能的提升,研究者們注意到了卷積神經(jīng)網(wǎng)絡(CNN)在目標檢測[4-5],實例分割[6]、物體分類、情感分析等問題上的出色表現(xiàn),嘗試利用CNN來獲取圖像的特征進行檢索,與傳統(tǒng)方法相比,取得了更好的效果[7-9]。經(jīng)CNN提取的特征能夠較好的聯(lián)系視覺理解和圖像信息,有助于解決“語義鴻溝”的問題。有的研究者利用依托于CNN的目標檢測算法提取用戶關注的目標及目標的相關信息[10-11],并以此作為連接“視覺理解”和“底層信息”的橋梁,以解決“語義鴻溝”問題。
基于以上所述,本文提出了一種基于目標檢測,結合圖像高層語義和底層顏色特征的圖像檢索方法。此方法利用目標檢測網(wǎng)絡針對圖像進行檢測,獲取圖像中目標的類別特征作為高層語義信息,然后結合目標所在區(qū)域的局部顏色直方圖和圖像的全局顏色矩作為底層顏色信息,對高層語義和底層顏色信息進行融合,獲得圖像特征。本文的做法有助于減小圖像檢索技術的“語義鴻溝”,并且很好的解決使用僅目標檢索算法缺少底層顏色信息及丟失目標以外的非感興趣區(qū)域信息的問題。
本文提出的結合高層語義和底層顏色特征的圖像檢索方法由以下幾個部分組成:利用目標檢測算法對圖像中目標進行高層語義信息提取;結合檢索出的目標位置信息,對目標區(qū)域進行局部顏色直方圖特征提??;對圖像進行顏色矩特征提??;圖像相似度測量。
本文整體流程如圖1所示。本文算法利用目標檢測算法獲取高層語義信息,利用目標位置獲取局部顏色直方圖特征,對圖像全局進行顏色矩特征提取,在檢索時,分別進行相似度計算后,進行融合獲得圖像的距離,排序并返回檢索結果。
圖1 整體流程圖
本文利用目標檢測算法提取的圖像中物體的類別信息作為高層語義信息,使后續(xù)檢索的結果更加符合人的視覺理解,減小語義鴻溝。
本文算法借助YOLOv3[12]目標檢測算法對圖像中的目標進行檢測,然后選取網(wǎng)絡中的特征層進行處理獲取高層語義信息。
目標檢測過程如下:
(1)圖像通過YOLOv3目標檢測網(wǎng)絡,獲得經(jīng)處理的10647x(5+N)的框體信息集合,共10647個框體,每條框體信息有5+N個數(shù)據(jù)(N為訓練時類別數(shù)量),包含預測框體的中心坐標xy、長度寬度wh、置信度conf和類別信息prob。
(2)進行轉換篩選,將中心坐標及框體長寬轉換為原圖像中實際坐標,并去掉無效框體(框體面積小于0或框體超出邊界)和score(score為置信度與類別概率中最大值的乘積)過低的框。獲得有效的共m條信息的預測框體集合A,并記錄有效框體的序號B。
(3)YOLOv3從三個維度進行預測,因此會有重疊的預測框。針對預測框體集合A進行非極大值抑制法(NMS)進行過濾。保留IoU小于0.45的框體。最后輸出預測框體。獲得圖像中不同目標的類別、位置、物體相似度等信息。
YOLOv3網(wǎng)絡提取篩選后的特征為圖像中所有目標特征的集合,當圖像中目標數(shù)不同時, YOLOv3特征無法很好的用于特征對比。
文獻[13]對能夠很好表達網(wǎng)絡提取特征的特征層使用sigmoid函數(shù)(式1)
將特征映射到0到1之間,然后使用二分法,將圖像特征轉化為二值編碼。使用二值編碼進行檢索時,仍然能夠保證檢索的準確性。本文方法將目標特征進行閾值分割,方便進行檢索對比。
高層語義信息提取步驟如下:
(4)步驟1對圖像進行目標檢測的同時,提取網(wǎng)絡輸出的13x13x3x(5+N)、26x26x3x(5+N)、52x523x(5+N)三個不同尺度的特征圖。
(5)對三個特征圖進行拼接,轉換為未經(jīng)處理的10647x(5+N)的特征集合。此時的10647條特征數(shù)據(jù)與步驟1已處理的10647個框體數(shù)據(jù)一一對應。
(6)利用步驟3獲得的有效框體序號B,獲得對應的未處理的m條框體特征集合C。
(7)使用sigmoid函數(shù)將框體特征C映射到0-1之間,然后進行閾值分割,獲得m條包含語義信息的框體特征。
(8)將獲得的m條框體的特征進行累加,獲得整個圖像目標的語義信息,然后進行閾值分割,保留突出的框體特征,獲得圖像的高層語義信息。
顏色直方圖是在許多圖像檢索方法中被廣泛采用的顏色特征。它著重描述了不同色彩在圖像中所占的比例等信息。利用上一小節(jié)獲取的圖像中目標物體的位置信息,針對局部區(qū)域進行顏色直方圖特征提取,利用目標區(qū)域的顏色信息對高層語義信息進行補充[13]。
本文在HSV顏色空間中對局部區(qū)域進行直方圖特征提取,將H(色彩)、S(飽和度)、V(值)三個分量均劃分為8個顏色區(qū)間,減小特征的數(shù)據(jù)量。
對圖像進行局部顏色直方圖特征提取時,將YOLOv3輸出的結果按框體的大小進行排序,獲取前N個框體的位置信息(本文取前4個框體進行實驗);根據(jù)框體的位置,對目標區(qū)域進行顏色直方圖計算,獲取Nx256的局部顏色直方圖特征信息。在檢索時,使用直方圖相關性計算相似度。直方圖相關性計算公式如下:
為了減小目標以外的背景信息的誤差,本文使用顏色矩特征進行補充。顏色矩是一種簡單有效的顏色特征表示方法,該方法不需要顏色量化,特征向量維數(shù)低,可以很好的輔助目標特征信息,過濾圖像縮小檢索范圍。
顏色矩的數(shù)學定義如下:
其中,Pi,j表示彩色圖像第j個像素的第i個顏色分量,N表示圖像中的像素個數(shù)。本文將彩色圖像的三個分量上的前三階顏色矩組成一個9維的向量作為整個圖像的顏色矩特征。
在進行特征匹配時需要分別計算圖像中高層語義信息的漢明距離DH,局部顏色直方圖的相關性DC,圖像中顏色矩的歐氏距離DE。融合計算圖像距離D,最后返回最終排序的結果。
計算公式如下:
本實驗采用公開的圖像庫PASCAL VOC2007,PASCAL VOC2012驗證方法的有效性。
PASCAL VOC2007和PASCAL VOC2012圖像庫均包含了20種目標類別,其中有人、動物(貓,狗,馬)、交通工具(公共汽車、小汽車、飛機)等類別,其中PASCAL VOC2007圖像庫有5011張有詳細標注的訓練驗證圖像和4952張測試圖像,PASCAL VOC20012圖像庫有11540張有詳細標注的訓練驗證圖像和16135張測試圖像。
在PASCAL VOC2007圖像庫上,與由文獻[14]提供的傳統(tǒng)視覺特征和基于CNN特征的方法進行對比。傳統(tǒng)視覺特征為776維GIST、HSV、BoVW融合特征(GHB)?;贑NN的特征為將預訓練模型第2個全連接層的ReLUs輸出作為特征的fc7特征[14]。
在PASCAL VOC2012圖像庫上,與文獻[15]提供的基于目標特征的方法(MOR)進行對比。MOR方法使用Faster-RCNN提取圖像中目標的特征,直接將特征集合用于檢索。
本實驗采用平均查準率(mean Average Precision mAP)作為檢索性能的評價指標。
圖2為本文方法在VOC2007和VOC2012圖像集上的檢索示例(每行第一張圖為查詢圖像,后5張為檢索結果)。
由圖2可以看出,本文方法對于單目標圖像:圖2-(b)巴士、圖2-(c)飛機、圖2-(e)鳥類和多目標圖像:圖2-(a)人與馬、圖2-(d)人與自行車均具有良好的檢索效果。
圖2 本文方法檢索示例
表1是本文方法與對比方法在PASCAL VOC2007、PASCAL VOC2012圖像庫上的平均準確率。
表1 不同方法的平均準確率(mAP)
由表1可以看出,在PASCAL VOC2007以及PASCAL VOC2012圖像庫中,本文方法優(yōu)于對比方法。在PASCAL VOC2007圖像庫測試中,較fc7特征提高了9.9%的平均準確率。在PASCAL VOC2012圖像庫測試中,較MOR方法提升了23.36%的平均準確率[15]。
圖3是本文方法與MOR方法在PASCAL VOC2012圖像庫的PR曲線對比。
圖3 兩種算法在VOC2012圖像庫的PR曲線
由圖3可以看出,以某一閾值來篩選預測框體是否正確預測目標物體,根據(jù)閾值的變動,算法查全率與查準率均會發(fā)生變化。將本文方法跟MOR方法進行對比,只有設置極高閾值或極低閾值時,本文方法的查全率對應的查準率會低于MOR算法。在選取合適的閾值的情況下,本文方法可以獲得更好的檢索結果。
本文提出了一種結合圖像高層語義信息和底層顏色特征的圖像檢索方法。本文利用YOLOv3目標檢測算法,將網(wǎng)絡中的特征層提取并進行二值化,獲得包含圖像中目標類別的高層語義信息;利用目標位置信息針對圖像局部進行顏色直方圖特征提取,獲得局部底層顏色信息;然后對全局圖像進行顏色矩特征提取,獲得目標以外的背景顏色信息。結合高層語義以及底層顏色信息,使得獲得的特征能夠更加完整的表達圖像的全部信息。經(jīng)實驗表明,本文算法能夠很好地對目標圖像進行檢索,返回與查詢圖像相似的圖像。