侯 濤,伍海萍,牛宏俠
(蘭州交通大學a.自動化與電氣工程學院;b.自動控制研究所,蘭州730070)
鐵路沿線的行人、車輛、泥石流等異物入侵,影響列車正常運行,故準確快速地實現(xiàn)鐵路動態(tài)異物入侵實時檢測,具有現(xiàn)實的工程意義[1].深度學習作為機器學習領域一個重要的研究熱點,已經在圖像分析、語音識別、自然語言處理、視頻分類等領域取得了令人矚目的成就[2].它們具有學習能力強、覆蓋范圍廣、可移植性好等優(yōu)點,但也具有計算量大、硬件需求高、模型設計復雜等缺點.因此,不適合應用于實時性要求較高的鐵路軌道異物入侵檢測系統(tǒng).
背景減法作為視頻處理中一個必不可少的基礎性研究課題,以計算較為簡單且對計算機配置無特殊要求等優(yōu)點被廣泛應用于運動物體檢測.中值(均值)模型[3-4],直方圖模型[5],混合高斯分布(Mixture of Gaussian,MOG)[6]和廣義混合高斯(Mixture of Generalized Gaussian,MOGG)[7]等模型被相繼提出.低秩矩陣分解(Low Rank Matrix Factorization,LRMF)學習模型[8-9]由于較好地考慮了視頻結構知識的前景和背景被廣泛運用,在線子空間學習[10-11]算法具有每次只處理一幀,逐步更新視頻背景等優(yōu)點,被用于處理監(jiān)控攝像頭拍攝的視頻.
在線背景減除技術在實際應用中仍存在明顯缺陷[12-15]:現(xiàn)存的在線方法利用MOG模型對每幀的前景進行單獨模擬,這種做法割裂了視頻序列的連續(xù)性和時域性,使其偏離真實的場景,算法檢測效率大大降低;多數方法對視頻背景采用低秩結構時,忽略經常發(fā)生的動態(tài)相機抖動,如平移、旋轉、縮放和光/影變化,這會破壞傳統(tǒng)的低秩視頻背景假設.
本文針對在線背景減除技術在實際應用中的不足,引入仿射變換算子對視頻系列進行預處理,改進MOG-LRMF模型重構前景,利用最大期望(Expectation Maximization,EM)算法求解參數.實驗表明,本文方法能準確、快速地檢測目標,對于外界擾動具有很強的魯棒性.
給定觀測數據矩陣X=[x1,…,xi,…,xd]∈Rd×n,其中,xi屬于觀測數據矩陣X的n維列向量,n代表維度,d代表數據個數,i為向量索引.利用低秩矩陣分解將其映射到低維空間[16],即
式中:⊙為同或運算,相同為真,不同為假;U表示基矩陣,U∈Rd×r;V表示系數矩陣,V∈Rr×n;r?min(d,n)表示低秩的性質;W是與UVT矩陣大小一樣的指標矩陣;‖·‖Lp表示p級范數Lp,一般多為L1和L2范數.式(1)又可寫為
式中:ui、vj分別為U、V的第i個、第j個行向量;εij表示像素xij中的噪聲.
在信號處理中,常用高斯函數代替沖擊函數重構原始信號.可用混合高斯(Mixture of Gaussian,MOG)模型表達任何曲線是可行的,故利用MOG對噪聲進行構建,即
式中:ε為噪聲合集;K是混合高斯的總成份個數,k表示其中任意一個分量編號;πk為第k個高斯分布所占權重;為第k個高斯分量的分布.
由式(2)可得觀測數據矩陣X分布為
式中:Π為所有高斯分量權重集合,Π={π1,π2,…,πK};Σ為所有高斯分量方差集合,;Ω為矩陣X數據未丟失的集合;i,j為集合Ω內的行和列索引,之后的研究都在集合Ω內展開.
利用EM算法[17]求解最大可能性的參數解,步驟如下:
(1)E-Step.
定義與觀測數據有關的隱變量:z→X,令隱分布q(zk)=γijk表示混合高斯分布中每個數據來源于第k∈{1 ,2,…,K}個分布的概率,則隱變量有離散取值集合Z={z1,z2,…,zK},E步對隱變量γijk進行計算,即
(2)M-step.
通過E步得到隱變量后驗計算模型參數,M步計算框架的優(yōu)化為
為得到最大可能性的參數Π、Σ的估計,令模型偏導為0,求得參數Π、Σ為
式中:wij為W矩陣中的一個元素,
選擇 ALS(Alternated Least Squares)算法[18]對U、V進行交替固定值求解,直到結果收斂,其對應的U、V,即為最接近真值的矩陣解.
為減弱火車經過或一些外界因素造成攝像頭左右、上下?lián)u晃,使拍攝視頻的后續(xù)幀與先前幀錯位情況,利用仿射變換[19]對視頻序列進行校正.該算法是一種從二維坐標(x,y)到二維坐標(h,m)的線性變化,保持了二維圖形的“平直性”“平行性”,其變換可以寫為
式中:a1、b1、c1、a2、b2、c2分別為變換系數.
對應的齊次坐標矩陣形式為
以首幀的4個坐標為參考坐標,根據相鄰后續(xù)幀的坐標計算映射矩陣參數,通過仿射變換完成坐標映射.
2.2.1 改進MOG-LRMF的建模
視頻序列中,背景都是緩慢變化的,即根據t-1時刻的像素分布可以推斷出當前t時刻的像素分布.當前t時刻的參數可由t-1時刻參數Πt-1、Σt-1和得到,其中,π(k,t)表示當前t時刻第k個高斯分量的權重表示當前t時刻第k個高斯分量的方差表示t-1時刻的Nk;t時刻的xt子空間系數向量Vt和子空間U由t-1時刻子空間Ut-1得到.參數Π、Σ和參數U、V的求解模型分別為
式中:xj為0~t時刻內中任意j時刻觀測數據X的n維列向量;zj為j時刻的隱變量,也可寫為γijk;Uj、Vj分別為j時刻的子空間和子空間系數向量.
為體現(xiàn)視頻序列的時間域關系,將整個時間延續(xù)過程分解為前一時刻和當前時刻,即利用前一時刻的知識預測當前時刻幀的信息.式(13)和式(14)可分別寫成t-1時刻與當前t時刻的像素知識分布兩項之和,即
式中:xt是當前t時刻的觀測數據X的n維列向量,zt是當前t時刻的隱變量.
2.2.2 改進MOG-LRMF的參數求解
根據上述算法模型框架,對參數Π、Σ、U、V進行求解.
(1)參數Π、Σ求解.
式(15)中第1項表示t-1時刻的像素分布,第2項表示當前t時刻的像素分布.t-1時刻的視頻序列像素分布情況可另寫成包含參數Π、Σ的展開分布,即
式中:Lt(Π,Σ)為得到的求解Π和Σ的新模型.式(19)可以看作t時間內的像素知識積累,將其分為t-1時刻和當前t時刻兩項和,在其表達式中也會出現(xiàn)t-1時刻與t的關系.本文未對當前t時刻的像素知識進行偏導數求解,而對0~t時刻內的像素知識積累進行偏導數求解,這樣可以得到當前時刻幀的像素知識與t-1時刻幀的像素關系,從而利用t-1時刻的知識對當前t時刻進行預測.
式中:σ(k,t)為t時刻第k個高斯分量的標準差σk;z(k,t)表示當前t時刻的zk;Wt為t時刻指標矩陣;Xt為t時刻的觀測數據.
對式(23)進行求解可得
式中:wt為t時刻Wt矩陣的一個行向量.
u(i,t)雖然是t時刻的子空間分量,但是其本質也是0~(t-1)時刻的積累結果,因此對于u(i,t)先進行假設其與0~t的時間段有關,因此u(i,t)可寫為
由式(25)可知,對u(i,t)子空間來說,其包含的像素知識是t時間內的積累,為得到t-1時間內的像素知識對t時刻的像素知識影響,可將u(i,t)分解,得
通過對u(i,t)的分解,可以很好地利用t-1時間像素知識對t時刻的像素知識進行預測推理.
對t-1時間內的像素知識積累進行變換,得到
時ψ(B,t)(U)即為0~(t-1)時間段的關于參數U的知識積累.由此得到0~t時間內關于t-1時間與t時刻的像素知識積累為
至此,得到求解參數U的新模型Lt(U).
對子空間參數U在模型Lt(U)內進行求解,即
得到,關于每個行向量u(i,t)為
對于子空間ui,只需計算就可得到ui,上述更新方程避免了矩陣的逆計算,保證了算法的效率.子空間沿視頻序列變化相對緩慢,故在執(zhí)行完EM步驟,即對參數求解完后對ui進行更新.改進MOG-LRMF算法的處理過程如表1所示.
參數U、V初始值設定.算法初始要找到一組低維矩陣{U,V}來表示觀測矩陣Xt,比較幾種常用方法的優(yōu)缺點,選擇主成分分析(Principal Component Analysis,PCA)方法[21].
參數Πt-1、Σt-1、Nt-1初始值設定.對于視頻初始,選擇K時一般取3或5,本文取K=5,則高斯分量的均值集合為{μ1,μ2,…,μ5}={0 ,0,…,0},高斯分量的權值集合為,再根據初始化后得到的U和V,求得誤差矩陣E=X-UVT,計算高斯分量的方差值集合
K值調整.若高斯函數i和高斯函數j有則將這兩個高斯分量進行合并,此時有:中,ni、nj分別為第i、第j個高斯分量的元素數目,令K=K-1.
表1 改進MOG-LRMF算法的處理過程Table 1 Treating processes of improved MOG-LRMF algorithm
本文模擬實際鐵路場景,分別拍攝夏季和冬季不同時期的視頻,在MATLAB2016B平臺對MOG-LRMF算法和本文算法進行仿真實驗.
一些觀點認為,塑料吸管的“一次性屬性”太明顯,它很容易被隨意遺棄在某個不起眼的角落,而不是像大件的塑料廢物那樣被妥善回收。
(1)實驗1.
在夏季陽光充足的場景下拍攝模擬異物入侵視頻序列1,分別用MOG-LRMF算法和本文算法對入侵異物進行檢測,結果如圖1所示,從左到右隨機選取視頻序列1的第1,52,128,220幀.
由圖1可以看出,MOG-LRMF算法雖然將大部分異物檢測出來,但由于手機拍攝存在抖動,其檢測結果出現(xiàn)部分像素誤檢,即異物出現(xiàn)部分形態(tài)錯誤;本文方法的檢測結果相比于原始圖像,其與異物幾乎完全相同.
圖1 夏季不同檢測方法檢測效果對比Fig.1 Comparison of detection effects of different detection methods in summer
(2)實驗2.
在冬季陰天環(huán)境下拍攝模擬異物入侵視頻序列2,分別用MOG-LRMF算法和本文算法對入侵異物進行檢測,結果如圖2所示,從左到右隨機選取視頻序列2的第1,22,99,147 幀.
由圖2可以看出:MOG-LRMF算法在冬季光線較弱環(huán)境下,異物檢測效果比夏季光照充足時明顯變差;本文方法卻幾乎未受光照影響,只是出現(xiàn)了較弱的異物外形缺失,但損失量可忽略.所以,本文算法相較于MOG-LRMF更加符合實際情況,具有更強的魯棒性.
(3)實驗3.
為驗證本文算法對外界影響出現(xiàn)的相機抖動具有一定的魯棒性,模擬抖動特性進行仿真實驗,結果如圖3所示,從左到右隨機選取視頻序列2的第1,22,99,147 幀.
圖2 冬季不同檢測方法檢測效果對比Fig.2 Comparison of detection effects of different detection methods in winter
圖3 相機抖動下不同檢測方法檢測效果對比Fig.3 Comparison of detection effects of different detection methods under camera jitter
為更好地體現(xiàn)本文算法的優(yōu)越性,拍攝不同地點的鐵路視頻進一步驗證.
(4)實驗4.
采集某段鐵路視頻3進行復雜環(huán)境下的運動物體檢測.隨機選取視頻序列的第30,60,81,112幀,結果如圖4所示.
(5)實驗5.
采集另一地點的鐵路視頻4進行多個運動物體檢測.隨機選取視頻序列的第2,74,135,174幀,結果如圖5所示.
(6)實驗6.
采集再一地點的鐵路視頻5進行復雜環(huán)境下多個運動物體檢測.隨機選取視頻序列的第16,34,59,90 幀,結果如圖6所示.
由圖3~圖6不同真實場景下的檢測結果可以看出,相對于MOG-LRMF算法,無論在背景復雜環(huán)境下,或是多個運動物體存在情況下,亦或是復雜環(huán)境下有多個運動物體的情況下,本文算法都可以很好地檢測到運動物體,且保持了運動物體較為完整的邊緣,對外界環(huán)境變化具有較強的魯棒性.
利用前景檢測精確率P作為評價指標,F(xiàn)T表示檢測到的正確前景目標像素個數,F(xiàn)1表示手動獲取的實際前景目標像素個數,計算公式為:,對比結果如表2所示.
圖4 復雜環(huán)境下不同檢測方法檢測效果對比Fig.4 Comparison of detection effects of different detection methods under complex environment
圖5 多目標下不同檢測方法檢測效果對比Fig.5 Comparison of detection effects of different detection methods under multi-objective
圖6 復雜環(huán)境下多個運動物體不同檢測方法檢測效果對比Fig.6 Comparison of detection effects of different detection methods under complex environment with multiple targets
表 2 兩種方法的前景精確率Table 2 Target false positive rate of two methods
本文針對現(xiàn)有鐵路環(huán)境下動態(tài)入侵異物檢測不準確、易受外界干擾等問題,對現(xiàn)有MOGLRMF算法進行改進.引入仿射變換算子克服相機抖動引起的目標檢測不完整和失效問題;改進MOG-LRMF的模型完成背景建模,實現(xiàn)在線實時背景更新;利用EM算法對其模型進行參數求解;最后對改進前后的算法進行仿真對比研究.本文改進算法在夏季光照充足、冬季光線較弱、冬季光線較弱且存在抖動、背景復雜、多個運動物體存在情況下的檢測精確度都有較大的提升,同時具有較好的抗干擾性和快速性,這對高速鐵路沿線軌道異物入侵檢測具有很好地推廣價值.