摘 要:視頻監(jiān)控作為一種有效的偵測手段,在公共安全領(lǐng)域被廣泛應(yīng)用。但是視頻過長、瀏覽效率低下的問題長期困擾著相關(guān)人員。為此,文章提出一種高效的視頻濃縮方法,該方法可以將幾十小時的監(jiān)控視頻濃縮至幾十分鐘甚至幾分鐘。該方法采用YOLOv5算法檢測并提取目標,對各目標的運動時空軌跡進行重排,再將各目標與背景融合,最終得到短時濃縮視頻。實驗結(jié)果表明,該方法既能有效縮短監(jiān)控視頻時長,又能保留視頻中的重要信息,是一種高效、實用且具備一定推廣價值的視頻濃縮方法。
關(guān)鍵詞:視頻監(jiān)控;視頻濃縮;目標檢測;背景建模;時空軌跡;深度學(xué)習(xí)
中圖分類號:TP391.41 文獻標識碼:A 文章編號:2095-1302(2025)01-0-04
0 引 言
近年來,隨著社會安全保障體系的不斷完善,在路口、商場、車站等各類公共場所部署著大量的安防攝像頭。在追捕犯罪分子時,這些監(jiān)控視頻可以為公安偵查提供依據(jù)。然而,一個案件往往涉及的視頻錄像長達幾十甚至數(shù)百小時,需要多名偵查人員通過快進瀏覽的方式進行查看,這一過程耗時費力,效率低下,且容易錯失破案的關(guān)鍵時機。如何在有限時間內(nèi)(即數(shù)分鐘內(nèi)),實現(xiàn)對數(shù)小時視頻內(nèi)容的高效瀏覽,同時確保不遺漏視頻中的任何關(guān)鍵目標,是一項重大的挑戰(zhàn)。在此背景下,視頻濃縮技術(shù)應(yīng)運而生[1-2]。該技術(shù)高度面向應(yīng)用且具有廣闊的應(yīng)用前景。
視頻濃縮的顯著特性是可在數(shù)分鐘內(nèi)瀏覽數(shù)小時視頻錄像中所有的活動目標,瀏覽濃縮視頻可極大地縮短查看原始視頻的時間,提高效率和人工識別的準確性。在公安部門的視頻調(diào)查中,偵查人員通過瀏覽濃縮視頻,可以快速鎖定可疑人員,為追蹤逃犯以及尋找案件線索提供有力支持。此外,對于監(jiān)獄和銀行等重點安全區(qū)域,安保人員可以定期查看濃縮視頻,及時發(fā)現(xiàn)并彌補安全漏洞,防止意外發(fā)生[3]。
視頻濃縮,又稱動態(tài)視頻摘要,可以對長時視頻進行時長縮短,從而實現(xiàn)監(jiān)控視頻的快速查看[4]。視頻濃縮可以看作是對視頻內(nèi)容的一個簡單概括,以自動或半自動的方式,先通過分析運動目標,提取運動目標,確定目標的運動軌跡。隨后,對目標的時空狀態(tài)進行分析,并對其進行組合優(yōu)化,將不同時刻的目標融合到背景圖像中,以達到縮減視頻時長的目的。通過視頻濃縮,一段長達幾個小時的監(jiān)控視頻,可以被濃縮到幾分鐘,同時在濃縮后的視頻中仍然可以查看原始視頻中的各種事件[5]。視頻濃縮技術(shù)原理示意圖如圖1所示。
1 本文方法
為了準確地提取目標的運動軌跡,本文首先采用YOLOv5算法對輸入視頻進行目標檢測。然后,利用卡爾曼濾波器和匈牙利算法進行目標跟蹤和軌跡匹配[6],從而獲取移動目標的基本信息。最后,使用背景建模技術(shù)提取視頻背景,對目標對象進行重排,再利用圖像疊加技術(shù)生成濃縮視頻。本文方法的流程如圖2所示。
1.1 背景建模
背景建模[7]的目的是獲得不含運動目標信息的靜態(tài)背景圖像,通過將圖像中的背景與前景分離,能夠更好地進行后續(xù)處理。本文采用平均背景建模方法,該方法效果優(yōu)異、計算速度快,適用于大多數(shù)場景。
均值背景法[8]是指通過對多幅圖像求平均值來得到圖像的背景,即對一段時間內(nèi)若干不變化或者變化緩慢的像素點求平均值,并對所得平均值進行回歸處理,即可作為背景圖像的灰度值。
該方法的實現(xiàn)流程如下:
(1)輸入一段視頻序列,對其按照每秒30幀進行采樣,得到N幀圖像f。
(2)每幀圖像的每個像素點為(x, y),對上述N幀圖像的像素求均值,得到背景圖像。背景建模方法如式(1)所示:
(1)
式中:f(x, y, i)是第i幀圖像,其中i = 0, 1, 2, 3, ..., N;Background(x, y, i)為第i幀的背景圖像,背景圖像中每一個像素點的值為該像素點N幀圖像灰度的累加平均。
1.2 目標檢測
由于監(jiān)控視頻包含的運動目標種類眾多,為了實現(xiàn)高效壓縮和檢索,視頻濃縮系統(tǒng)必須識別出有價值的對象,如在安防系統(tǒng)中,主要需要對人車進行識別。為了得到高效精確的檢測結(jié)果,本文采用基于深度學(xué)習(xí)YOLOv5框架的目標檢測算法。
YOLOv5通過調(diào)整模型的寬度和深度來有效控制模型的參數(shù)量和計算量,據(jù)此衍生出了YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x等網(wǎng)絡(luò)結(jié)構(gòu)。其中,YOLOv5s的參量和計算量相對較少。整體而言,YOLOv5s模型由輸入端(input)、主干特征提取網(wǎng)絡(luò)(backbone)、特征融合網(wǎng)絡(luò)(neck)、檢測頭(head)等核心部分組成。這些組件共同協(xié)作,確保模型能夠?qū)崿F(xiàn)高精度的目標檢測任務(wù)。
網(wǎng)絡(luò)輸入的圖像大小為640×640,采用Mosiaic數(shù)據(jù)增強,可以有效提升模型的訓(xùn)練效率和檢測精度,對于小目標檢測也有良好的效果。針對不同數(shù)據(jù)集,可以采用自適應(yīng)錨框計算,該方法能夠針對每個訓(xùn)練集自適應(yīng)計算出最佳錨框值。針對圖像的不同長寬比,還可進行自適應(yīng)圖像縮放。
1.3 軌跡組合優(yōu)化
不同時間段出現(xiàn)的運動目標在同一背景下可能會出現(xiàn)軌跡碰撞以及重疊的情況[9],需要對其進行優(yōu)化,使不同目標盡量不出現(xiàn)重疊,同時占用更少的視頻時長。在實際應(yīng)用中需要能夠判斷各目標之間的交互作用。如果2個目標距離越小,那么目標之間發(fā)生作用關(guān)系的可能性就越大。本文設(shè)定了一種軌跡交互狀態(tài)判斷機制,可以看作是目標中心點距離的最小估計Dmin,如式(2):
" " " " " " "(2)
在時間段內(nèi),存在軌跡b1和b2,那么Dmin就等于t時刻對應(yīng)的圖像中檢測框中心點的歐氏距離。如果,那么軌跡b1和b2對應(yīng)的目標為2個相互獨立的目標。
選定閾值DT,當Dminlt;DT時,視為2個目標之間存在相互干擾,在整個視頻時間T內(nèi),不斷判定,將存在相互干擾動作的運動目標歸為一組,后續(xù)軌跡優(yōu)化時,每個分組都被視為一個整體。
1.4 圖像融合
圖像融合是指將2幅不同的圖像融合為一幅圖像[10-11],其中最有代表性的是泊松融合[12]。設(shè)定泊松方程并對其求解最優(yōu)值,從而達到無痕融合的目的。一張圖像的主要細節(jié)均由梯度體現(xiàn),該算法的核心思想是保留圖片的梯度信息。
泊松融合原理如圖3所示。其中,f是待融合目標;g是目標f的梯度;s是背景圖片;h是目標f融合的區(qū)域; h為邊界條件,其主要由背景圖片s的像素值決定。泊松融合的實現(xiàn)可以概括為在給定邊界條件的前提下,求h區(qū)域中的每個像素,從而使區(qū)域的梯度接近甚至與g相同。
本文中泊松融合的具體流程如下 :
(1)分別計算識別到的目標框圖像A和靜態(tài)背景B的梯度場;
(2)用圖像A對背景圖片B上相對位置的梯度場進行覆蓋,然后計算融合后的梯度場T;
(3)對融合后的梯度場T進行求導(dǎo),獲得融合后的圖像散度S;
(4)進行泊松重建,求解泊松方程組,可得融合圖像的像素值。
2 實驗與結(jié)果分析
本文選用一段路口的監(jiān)控視頻進行實驗,該場景較為復(fù)雜且布置在室外。圖4所示分別為原始視頻第1幀、第157幀、第272幀的圖像。在第157幀,圖4(b)畫面左側(cè)正在看書的男士出現(xiàn);在第272幀,圖4(c)畫面右下角背包女士出現(xiàn)。未在視頻第1幀畫面中出現(xiàn)的目標是實驗中重點關(guān)注的目標。
本文提出的背景建模方法的效果如圖5所示。圖5(a)為采用高斯混合模型分離算法(MOG)提取的背景。通過實驗發(fā)現(xiàn),使用該方法無法完全消除前景干擾,其提取的背景中存在一些運動目標的重影。圖5(b)所示是采用均值背景法提取的背景,該方法能夠有效消除前景干擾,且隨著輸入視頻圖像時長的增加,前景所帶來的干擾也會越來越小。
使用YOLOv5檢測算法得到的目標檢測結(jié)果如圖6所示。在安防領(lǐng)域中主要檢測目標為人,在以車為主要目標的場景中也可以只對車進行檢測,檢測目標具有針對性,可以排除動物等不相干目標的干擾。在實際代碼運行中,系統(tǒng)會保留目標周圍1.2倍大小的區(qū)域,這樣能夠獲取更豐富的目標信息,同時也更有助于后續(xù)的圖像和背景融合。
圖7所示為本文方法在街道路口的監(jiān)控視頻濃縮結(jié)果??梢钥吹剑谠家曨l157幀左右出現(xiàn)在圖像左側(cè)的男士和272幀左右出現(xiàn)在圖像右側(cè)的女士在濃縮視頻的第1幀已經(jīng)出現(xiàn)。對于原始視頻中不同時間段出現(xiàn)的多個目標,本文實現(xiàn)了在同一背景下的聚合展示,且融合效果良好。
原始視頻時長為10 s,經(jīng)過濃縮,時長縮減為4.3 s,濃縮比為0.43。主要因為原始視頻中若干個目標一直存在于鏡頭中,若場景中目標較為稀疏,視頻時長有望進一步得到壓縮。
3 結(jié) 語
本文提出了一種基于深度學(xué)習(xí)的監(jiān)控視頻濃縮方法,使用YOLOv5目標檢測方法對視頻中的目標進行提取,同時采用均值背景法對背景進行建模,后續(xù)的目標軌跡優(yōu)化為新的濃縮視頻目標運動提供了依據(jù);最后采用泊松融合方法實現(xiàn)多目標和背景圖像的融合,將不同時刻的目標在固定背景下進行重排展示,達到了壓縮視頻時長的目的。實驗結(jié)果表明,本文方法效果良好,能夠應(yīng)對多種場景,可以為安防偵查提供可靠依據(jù),并且能夠顯著提高視頻瀏覽效率。
但是本文方法也存在一些不足,首先是個別時段會存在誤檢漏檢的情況,后續(xù)將著手從提供更加完善的標注數(shù)據(jù)集以及優(yōu)化檢測算法這兩方面進行改進。其次是針對不同時刻目標軌跡碰撞的問題仍需優(yōu)化。
參考文獻
[1] BASKURT K B, SAMET R. Video synopsis: A survey[J]. Computer vision and image understanding, 2019, 181: 26-38.
[2]張云佐,郭亞寧,李文博.融合時空切片和雙注意力機制的視頻摘要方法[J].西安交通大學(xué)學(xué)報,2022,56(12):127-135.
[3]徐達. 基于深度學(xué)習(xí)的視頻摘要方法研究與實現(xiàn)[D]. 南京:南京郵電大學(xué),2023.
[4] ANURADHA K, ANAND V, RAAJAN N R. An effective technique for the creation of a video synopsis[J]. Journal of ambient intelligence and humanized computing, 2020: 1-6.
[5]李林翰.基于對象相似性的視頻濃縮技術(shù)研究[D]. 武漢:華中科技大學(xué),2018.
[6] 蔡恬,林哲.融合深度學(xué)習(xí)目標識別的監(jiān)控視頻摘要濃縮方法[J].現(xiàn)代計算機,2020(24):49-53.
[7] 樊香所,文良華,徐興貴,等.改進特征空間的紅外弱小目標背景建模法[J].科學(xué)與電子信息學(xué)報,2023,21(9):1109-1116.
[8]葛釗,趙燁.一種基于最短路徑的視頻摘要方法[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2021,44(2):193-198.
[9] RA M, KIM W Y. Parallelized tube rearrangement algorithm for online video synopsis [J]. IEEE signal processing letters, 2018, 25: 1186-1190.
[10] YUNZUO Z, TINGTING Z. Object interaction-based surveillance video synopsis [J]. Applied intelligence, 2020, 8(4): 4648-4664.
[11]王浩,彭力.基于改進的全卷積網(wǎng)絡(luò)的視頻摘要算法[J].激光與光電子學(xué)進展,2021,58(22):415-423.
[12]何炳陽,張智詮,楊建昌,等.紅外和可見光圖像泊松融合算法[J].光子學(xué)報,2019,48(1):172-181.