面向車載監(jiān)控視頻的快速檢索設(shè)計(jì)

2013-08-13 03:54:42李雨聰陳家新

電視技術(shù) 2013年13期

李雨聰，陳家新

(河南科技大學(xué)電子信息工程學(xué)院，河南洛陽 471023)

責(zé)任編輯:任健男

當(dāng)前，對于裝載有重要物品的特殊車輛(如油罐車、押款車或軍用車等)，使用視頻監(jiān)控已成為保障裝載物和車輛本身安全的重要手段。隨著監(jiān)控網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大，視頻數(shù)據(jù)呈現(xiàn)海量增長趨勢，視頻調(diào)用查看所耗人力、時(shí)間也成倍增長。如何從海量視頻信息中獲取感興趣的視頻片段，已成為影響網(wǎng)絡(luò)視頻監(jiān)控性能的一個(gè)主要瓶頸。為此，視頻檢索技術(shù)的出現(xiàn)能夠很好地解決這一問題。

所謂視頻檢索技術(shù)就是從大量的視頻數(shù)據(jù)中找到所需的視頻片段。傳統(tǒng)的基于關(guān)鍵字的視頻檢索方式已無法滿足人們對信息檢索的高效性和準(zhǔn)確性需求。因此，必須根據(jù)視頻的時(shí)間及空間結(jié)構(gòu)，更為合理地組織數(shù)據(jù)，才能有效地檢索視頻信息。針對以上問題，專家們提出了一種基于內(nèi)容的視頻檢索技術(shù)［1］(Content－Based Video Retrieval，CBVR)，并迅速成為國內(nèi)外學(xué)者研究的熱點(diǎn)。在基于內(nèi)容的視頻檢索中［2］，一般先將圖像序列分割為鏡頭，從鏡頭中提取關(guān)鍵幀;再提取出鏡頭的動(dòng)態(tài)特征與關(guān)鍵幀的靜態(tài)特征并存入數(shù)據(jù)庫;最后，根據(jù)這些特征索引對視頻實(shí)現(xiàn)檢索。

針對車載的監(jiān)控視頻，本文以基于內(nèi)容的視頻檢索技術(shù)為基礎(chǔ)，設(shè)計(jì)了一種包含自動(dòng)檢索和主動(dòng)檢索兩種方式的視頻快速檢索方法，以滿足不同用戶的檢索需求。

1 車載監(jiān)控視頻快速檢索設(shè)計(jì)

本文所處理的視頻數(shù)據(jù)是由固定于車廂外的攝像頭所采集。無論車輛處于何種狀態(tài)，攝像機(jī)和車輛之間始終處于一種相對靜止?fàn)顟B(tài)，其他任何靠近該車輛的人或物均成為運(yùn)動(dòng)目標(biāo)。只不過當(dāng)車輛運(yùn)行時(shí)，由于車輛顛簸(振動(dòng))或加速，視頻監(jiān)測圖像會有抖動(dòng)現(xiàn)象。另外，用戶對視頻的調(diào)用中，關(guān)注的重點(diǎn)是監(jiān)控錄像中有活動(dòng)物體的畫面，即“活動(dòng)”視頻片段，對監(jiān)控錄像中大量無活動(dòng)物體的“靜止”畫面并不感興趣。

所以，針對車載監(jiān)控視頻存在抖動(dòng)的特點(diǎn)和用戶對視頻檢索的準(zhǔn)確、高效要求，在檢索之前，首先要對視頻消除抖動(dòng)，然后才能對穩(wěn)像后的視頻進(jìn)行檢索。視頻檢索中，自動(dòng)檢索方式是為了避開一些無大作用的視頻畫面，使用戶不至于由于長時(shí)間瀏覽的疲勞而對一些細(xì)節(jié)運(yùn)動(dòng)視頻漏失。實(shí)現(xiàn)時(shí)以檢測出來的運(yùn)動(dòng)目標(biāo)作為“活動(dòng)”視頻的“標(biāo)記”，提取出只含有運(yùn)動(dòng)物體的視頻段供一般的用戶瀏覽。而主動(dòng)檢索方式是為了充分提高用戶對車載監(jiān)控視頻瀏覽的效率和準(zhǔn)確度，更有針對性地直接提取出用戶所需要的視頻片段(如為警察等特殊用戶有針對性地快速檢索出含有某嫌疑車或嫌疑人的視頻片段)。該方式的實(shí)現(xiàn)首先要從視頻中提取出關(guān)鍵幀，并對關(guān)鍵幀進(jìn)行特征描述，用戶可以通過人機(jī)交互給定的示例圖片與提取出的關(guān)鍵幀進(jìn)行相似度匹配。當(dāng)取到相似度距離最小值時(shí)，為匹配成功。用戶就可以從該關(guān)鍵幀處開始瀏覽視頻。整個(gè)設(shè)計(jì)具體的實(shí)現(xiàn)過程如圖1所示。

圖1 監(jiān)控視頻快速檢索方法實(shí)現(xiàn)過程

2 視頻處理

2.1 快速消除視頻抖動(dòng)

消除視頻抖動(dòng)一般采用的方法中，特征匹配的方法［3］和光流的方法［4］運(yùn)算量都太大，而塊匹配的方法受限于對含有平移和微小旋轉(zhuǎn)的圖像序列具有較高的檢測精度，但可采用兩步搜索法、兩維對數(shù)下降法等快速搜索算法來大幅度減少運(yùn)算量［5］?？紤]到車載攝像頭緊固于車身上，在安裝調(diào)試后參數(shù)固定不變，不存在大幅度旋轉(zhuǎn)或調(diào)焦等運(yùn)動(dòng)。所以，本文采用改進(jìn)的基于塊匹配的算法消除視頻抖動(dòng)，從速度和效果上都能滿足用戶需求。

假設(shè)每幀圖像水平、垂直方向像素?cái)?shù)分別為M和N，如圖2建立參考幀坐標(biāo)系OXY，每個(gè)小方格為1個(gè)像素。在參考幀中選取一個(gè)特征明顯又不會被遮擋的標(biāo)示性物體作為匹配模板區(qū)域(如倒車鏡)，將其局部運(yùn)動(dòng)矢量直接作為全局運(yùn)動(dòng)矢量。圖2陰影所示，劃定出匹配模板區(qū)域，原點(diǎn)位于圖2中“* ”處，坐標(biāo)為(X0，Y0)。

圖2 參考幀與匹配模板區(qū)域坐標(biāo)系

根據(jù)實(shí)際情況，若水平、垂直抖動(dòng)最大幅度分別為S和V像素。那么，劃定模版匹配區(qū)域時(shí)就要先通過軟件將模板匹配區(qū)域左上角原點(diǎn)限制在圖2中黑色粗線框所示的矩形區(qū)域內(nèi)。此矩形左上角坐標(biāo)為(S，V)，寬為(M －L－2S)像素，高為(N－H－2V)像素。

如圖3所示，待匹配區(qū)域(圖3陰影部分)尺寸與模版區(qū)域相同，左上角“*”所在像素在當(dāng)前幀坐標(biāo)系中的坐標(biāo)為(X，Y)。圖3中粗線框矩形為搜索范圍，此矩形左上角坐標(biāo)為(X0－S，Y0－V)，寬為(2 S+1)像素，高為(V+1)像素。

圖3 當(dāng)前幀與待匹配區(qū)域坐標(biāo)系

開始處理前設(shè)置偏移量(dx，dy)和運(yùn)動(dòng)趨勢(kx，ky)的初始值分別為(0，0)和(+1，+1)。規(guī)定運(yùn)動(dòng)趨勢kx和ky取+1時(shí)分別表示向右、向下運(yùn)動(dòng)，取－1時(shí)分別表示向左、向上運(yùn)動(dòng)。開始處理時(shí)，假設(shè)已求得上一幀中匹配模板區(qū)域的(dx，dy)和(kx，ky)，搜索最佳匹配就按照以下步驟進(jìn)行:

1)根據(jù)上一幀偏移量預(yù)測搜索起點(diǎn)。令第1個(gè)待匹配區(qū)域左上角在當(dāng)前幀坐標(biāo)系里的坐標(biāo)(X，Y)滿足X=X0+dx，Y=Y0+dy。然后使用絕對差值和求其與待匹配區(qū)域的相似度測量函數(shù)值D。

2)水平方向上的搜索。Y值不變。根據(jù)kx預(yù)測下一個(gè)待匹配區(qū)域的X，即令X=X+kx，重新計(jì)算測度函數(shù)值D。若D值不變大，說明搜索方向正確，則按kx規(guī)定的方向繼續(xù)搜索，直到D值即將變大。若D值變大，說明搜索方向錯(cuò)誤，則退回原位置，令kx= －kx，并根據(jù)新kx的方向搜索，直到D值即將變大。在搜索過程中若超出如圖3中矩形粗線框所示的搜索范圍則停止，認(rèn)為搜索失敗。

3)垂直方向上的搜索與步驟2)類似，只需將X，Y和kx分別換成Y，X和ky。

4)重復(fù)步驟2)和步驟3)直到X和Y不再改變。若重復(fù)次數(shù)超過給定值，認(rèn)為搜索失敗。

高速公路公司由收費(fèi)站、服務(wù)區(qū)、排障大隊(duì)等若干基層單位組成，負(fù)責(zé)人（站區(qū)長）身處一線，直接感知社會公眾的滿意度和職工群眾的滿意度，做好職工思想政治工作，服務(wù)經(jīng)營管理，站區(qū)長是關(guān)鍵。

其中，步驟4)中的重復(fù)次數(shù)需根據(jù)軟件的運(yùn)行時(shí)間和處理效果來綜合確定。若以上步驟搜索成功則繼續(xù)以下處理:(1)由最后的X和Y求得當(dāng)前幀的偏移量dx=X－X0和dy=Y－Y0，對當(dāng)前幀進(jìn)行平移消除抖動(dòng);(2)用最后的X和Y作為新的X0和Y0;(3)根據(jù)當(dāng)前幀偏移量與上一幀偏移量的差別重新確定當(dāng)前幀的運(yùn)動(dòng)趨勢kx和ky;(4)利用最佳匹配處的待匹配區(qū)域定期更新匹配模板區(qū)域。若最佳匹配搜索失敗則不再往下進(jìn)行任何處理。

采用上述方法步驟，視頻消除抖動(dòng)的結(jié)果如圖4所示。該段是車輛啟動(dòng)時(shí)有路人從車旁經(jīng)過的視頻，共306幀。圖4a為參考幀，下方粗線矩形框?yàn)槠ヅ淠０鍏^(qū)域，大小為110×35像素。圖4b為消除抖動(dòng)后有路人經(jīng)過的某一幀圖像，圖中邊緣黑色部分是圖像平移的結(jié)果，水平方向移動(dòng)了19像素，垂直方向移動(dòng)了5像素。圖4c為消除抖動(dòng)前幀間差分結(jié)果，此時(shí)，靜止的自行車也被作為移動(dòng)物體檢測出來。圖4d為消除抖動(dòng)后幀間差分結(jié)果，此時(shí)，靜止的自行車已經(jīng)看不到了，只有行人被檢測出來。

圖4 快速消除抖動(dòng)的結(jié)果

本文用圖像序列逼真度的評價(jià)標(biāo)準(zhǔn)對視頻消除抖動(dòng)的結(jié)果進(jìn)行評定，評價(jià)參數(shù)是相鄰圖像間的峰值信噪比(Peak Signal to Noise Ratio，PSNR)，單位為 dB。PSNR 值越大，兩幀圖像就越趨于相同。其中，消除圖3中視頻抖動(dòng)耗時(shí)61 ms。抖動(dòng)消除前參考幀與當(dāng)前幀的PSNR值為33.740，抖動(dòng)消除后 PSNR 值為38.068。消除抖動(dòng)后，參考幀與當(dāng)前幀的PSNR值明顯大于消除抖動(dòng)前。由此可知，該消除抖動(dòng)方法的效果還是比較好的。

2.2 視頻中運(yùn)動(dòng)物體檢測

車載監(jiān)控都發(fā)生在室外的變化環(huán)境中，視頻受光照變化和自然場景(如樹枝擺動(dòng)、地面積水波紋等)中一些微小變化的影響，使得差分圖像中存在很多“虛假”的運(yùn)動(dòng)目標(biāo)。考慮到差分殘留圖像中必然存在運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)重疊區(qū)域，所以采用多幀差分相乘的方法使得差分圖像中運(yùn)動(dòng)邊緣的相關(guān)峰更加尖銳，再利用閾值，就能有效排除“虛假”運(yùn)動(dòng)物體的影響，正確測出運(yùn)動(dòng)物體的邊緣輪廓。而且，一般情況下，相鄰幀的背景只考慮平移變化量，只需簡單計(jì)算出平移量就能實(shí)現(xiàn)配準(zhǔn)。所以，綜合實(shí)時(shí)性需要，本文采用相鄰四幀配準(zhǔn)圖像差分相乘的方法檢測運(yùn)動(dòng)物體，如式(1)所示

式中:f1(x，y)，f2(x，y)，f3(x，y)，f4(x，y)分別為配準(zhǔn)后的序列圖像像素;M(x，y)為差分相乘圖像的像素值。該檢測方法具體的實(shí)現(xiàn)步驟如下:

1)將第1幀圖像與第3幀圖像配準(zhǔn)，第2幀圖像與第4幀圖像配準(zhǔn)。

2)將配準(zhǔn)后的圖像第1幀與第3幀做差分，第2幀與第4幀做差分，然后將2幅幀差圖像相乘。

如圖5所示，對車輛旁邊檢測出步行路人的結(jié)果。其中，圖5e和圖5f中檢測出行人的同時(shí)還檢測出該人物在車窗、車身上的模糊倒影，還有樹枝微小的擺動(dòng)等一些虛假運(yùn)動(dòng)目標(biāo)，圖5g顯示出差分相乘后這些虛假運(yùn)動(dòng)目標(biāo)被很好地去除。

圖5 采用基于配準(zhǔn)圖像差分相乘的方法檢測出運(yùn)動(dòng)目標(biāo)

2.3 視頻中關(guān)鍵幀提取

一般地，在一個(gè)長鏡頭中查找到能凸顯出該段視頻主要內(nèi)容的圖像幀作為關(guān)鍵幀。利用關(guān)鍵幀技術(shù)對視頻數(shù)據(jù)庫進(jìn)行有效的快速查詢、檢索和瀏覽，可以大大減輕工作量。實(shí)際監(jiān)控時(shí)，通常關(guān)注局部運(yùn)動(dòng)更多。因?yàn)榫植窟\(yùn)動(dòng)表達(dá)的都是相對重要的物體或人物的運(yùn)動(dòng)，且能從中提取中很多更準(zhǔn)確的視頻內(nèi)容。所以，針對車載監(jiān)控視頻鏡頭的移動(dòng)性、內(nèi)容的多樣性，為避免冗余的同時(shí)能有效地選取到有代表性的關(guān)鍵幀，本文借鑒文獻(xiàn)［6］中提出的基于粒子群的關(guān)鍵幀提取法，用全局運(yùn)動(dòng)特征與局部運(yùn)動(dòng)特征作為視頻的整體特征，并關(guān)注局部運(yùn)動(dòng)更多。

該方法首先提取出每幀的全局運(yùn)動(dòng)和局部運(yùn)動(dòng)特征，然后通過粒子群算法自適應(yīng)地提取出關(guān)鍵幀。提取效果如圖6所示。其中，圖6a是某一時(shí)刻只有一個(gè)行人從車旁路過的段視頻，共48幀，提取出1個(gè)關(guān)鍵幀，結(jié)果反映出該段視頻的主要變化內(nèi)容;圖6b、圖6c、圖6d是另外某一時(shí)刻若干行人在車旁路過的視頻段，共97幀，提取出3個(gè)關(guān)鍵幀，結(jié)果反映出該段視頻中各個(gè)行人路過的大概過程。

圖6 采用基于粒子群的方法提取出的視頻關(guān)鍵幀

2.4 關(guān)鍵幀低層視覺特征描述

利用圖像的低級物理特征(如顏色、紋理、運(yùn)動(dòng)等)的檢索方法，不僅可以檢索出一些視覺上相似的圖像，甚至還包含一些語義相關(guān)的圖像［7］。本文對關(guān)鍵幀圖像采用如下描述:

1)顏色。顏色為可見光的圖像提供了有價(jià)值的自然屬性。對于兩個(gè)場景不同的視頻關(guān)鍵幀，通常從圖像主色以及顏色空間分布特性可以有效地區(qū)分開來。主導(dǎo)顏色向量Vic定義為HSV(Hue，Saturation，Value)空間Hue分量上的8個(gè)主導(dǎo)顏色值，第n個(gè)顏色直方圖值Hn定義如為

式中:hx，y是像素點(diǎn)(x，y)的Hue 分量值;O(i)是分割得到的視頻對象i。主導(dǎo)顏色向量Vic由M個(gè)主導(dǎo)顏色值［H0，H1，…，HM－1］組成。δ(hx，y)函數(shù)定義為

2)形狀。相對于顏色或紋理等底層特征而言，形狀信息是圖像的中層特征。它可以刻畫圖像中物體和區(qū)域的重要特點(diǎn)。描述對象的形狀包括輪廓和大小。視頻場景中的視頻尺寸與目標(biāo)實(shí)際尺寸成一定比例關(guān)系。在本文中，矩形形狀被設(shè)置為目標(biāo)對象的尺寸大小，輪廓形狀暫不考慮。

3)邊緣直方圖。它描述了邊緣的空間分布信息，而邊緣的空間分布是重要的紋理信息。尤其當(dāng)圖像中的紋理分布不一致時(shí)，該描述可用于圖像間的匹配。首先將圖像劃分為16個(gè)互不重疊的矩形區(qū)域，對每個(gè)圖像區(qū)域分別按角度0°，45°，90°，135°等4 個(gè)方向和一個(gè)無方向性邊緣五類信息進(jìn)行直方圖統(tǒng)計(jì)。此描述子具有尺度不變性，支持紋理旋轉(zhuǎn)和旋轉(zhuǎn)不變匹配，適用于非一致紋理圖像。

3 實(shí)驗(yàn)結(jié)果與分析

本文以 Microsoft Windows XP Professional，VC++6.0為實(shí)驗(yàn)開發(fā)平臺。實(shí)驗(yàn)中，采用主動(dòng)檢索方式。為了驗(yàn)證方法的有效性，選取了不同停車場景、不同時(shí)間段視頻，視頻序列從幾十幀到幾萬幀不等。實(shí)驗(yàn)結(jié)果如表1所示，其中“活動(dòng)”視頻段占原文件的平均百分比是61.5%。即使用主動(dòng)檢索后平均減少了38.5%的視頻幀瀏覽數(shù)量。

表1 實(shí)驗(yàn)數(shù)據(jù)結(jié)果

圖7和圖8為快速視頻檢索方法實(shí)現(xiàn)的演示圖。圖7上邊一行圖像為原視頻幀，下邊一行是用戶所能瀏覽到的只包含運(yùn)動(dòng)目標(biāo)的“活動(dòng)”視頻幀。圖8是通過左邊用戶輸入的示例圖片所提供的信息檢索到的與其相似度最大的視頻關(guān)鍵幀，點(diǎn)擊“播放”按鈕，即可從該幀處播放視頻。

4 小結(jié)

本文設(shè)計(jì)的車載監(jiān)控視頻快速檢索方法通過兩種視頻檢索方式滿足用戶不同需求。一方面，利用運(yùn)動(dòng)目標(biāo)檢測的方法分割原視頻，把只含“活動(dòng)”視頻片段信息與視頻原文件關(guān)聯(lián)，然后將這些視頻片段按時(shí)間順序組織起來，構(gòu)成一個(gè)邏輯視頻文件，并實(shí)現(xiàn)對該邏輯視頻文件進(jìn)行常規(guī)的播放控制功能，同時(shí)還可以在“活動(dòng)”視頻片段和原視頻文件間平滑切換播放控制，從而減少了需要觀看的視頻幀數(shù)量，讓用戶集中精力在含有運(yùn)動(dòng)物體的重要畫面上，實(shí)現(xiàn)了自動(dòng)檢索。另一方面，用戶若想更加主動(dòng)、直接地的找到感興趣的視頻片段，可利用提取出的關(guān)鍵幀及其特征，通過與示例圖片的特征對比，定位到相似度最高的關(guān)鍵幀處，以此關(guān)鍵幀為起始點(diǎn)瀏覽視頻片段。通過實(shí)驗(yàn)證明該方法充分減少了視頻瀏覽的時(shí)間，提高了視頻瀏覽的效率，實(shí)現(xiàn)對特殊車輛和運(yùn)輸物品實(shí)時(shí)安全監(jiān)控。

［1］魏維，游靜，劉鳳玉，等.語義視頻檢索綜述［J］.計(jì)算機(jī)科學(xué)，2006，33(2):1－7.

［2］XIONG Ziyou，TIAN Qi，RUI Yong，et al.Semantic retrieval of video－review of research on video retrieval in meeting，movies and broadcast news，and sports［J］.IEEE Signal Processing Magazine，2006，23(2):18－27.

［3］HARITAOGLU I，HARWOOD D，DAVIS L S.W4:Real－time surveillance of people and their activities［J］.IEEE Transactions on Pattern A-nalysis and Machine Intelligence，2000，22(8):809－830.

［4］楊勇，王橋，吳樂南.基于標(biāo)號場的光流法二維運(yùn)動(dòng)估計(jì)［J］.電子與信息學(xué)報(bào)，2001，23(12):1321－1325.

［5］徐理東，林行剛.視頻抖動(dòng)矯正中全局運(yùn)動(dòng)參數(shù)的估計(jì)［J］.清華大學(xué)學(xué)報(bào):自然科學(xué)版，2007，47(1):92－95.

［6］張建明，蔣興杰，李廣翠，等.基于粒子群的關(guān)鍵幀提取算法［J］.計(jì)算機(jī)應(yīng)用，2011，31(2):358－361.

［7］孫君頂，趙珊.圖像低層特征提取與檢索技術(shù)［M］.北京:電子工業(yè)出版社，2009.