陳釗,陳亮,夏天,孔晨華,郭秋池
(1.國網(wǎng)甘肅省電力公司,甘肅蘭州 730010;2.國網(wǎng)甘肅省電力公司蘭州供電公司,甘肅蘭州 730050)
近年來,生活和工業(yè)用電需求日益增加對配電系統(tǒng)的可靠性及安全性均提出了更大的挑戰(zhàn)[1-2]。在對相關(guān)系統(tǒng)進(jìn)行維護(hù)時(shí),如何提高電力施工安全巡檢過程中對人員違規(guī)行為的識別,進(jìn)而實(shí)現(xiàn)精準(zhǔn)地監(jiān)控是當(dāng)前智能配電系統(tǒng)建設(shè)的研究熱點(diǎn)之一[3-5]。
而對電力施工人員違規(guī)行為的識別,則是對特定場景下人體行為動作識別技術(shù)的研究。該研究是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要方向,其通過攝像頭等傳感器實(shí)時(shí)采集人員的肢體動作數(shù)據(jù)并進(jìn)行動作識別。同時(shí),人體行為動作識別還涉及圖像處理、模式識別、機(jī)器學(xué)習(xí)(Machine Learning,ML)、深度學(xué)習(xí)(Deep Learning,DL)等多種技術(shù)[6-10]。通常而言,傳統(tǒng)的人體行為識別研究技術(shù)使用固定視角的動作采集數(shù)據(jù)作為研究目標(biāo)。盡管此類動作識別算法研究取得了一定的進(jìn)展,但仍存在諸多問題,例如光照變化、復(fù)雜背景等因素嚴(yán)重影響視頻中人體行為的識別效果[11-12]。
針對此,文中基于計(jì)算機(jī)視覺技術(shù)中的支持向量機(jī)(Support Vector Machine,SVM)算法與智能識別技術(shù)中的集成學(xué)習(xí)算法[13-16],開展了面向電力施工安全監(jiān)測技術(shù)的研究。
計(jì)算機(jī)視覺是指通過攝像機(jī)、計(jì)算機(jī)等設(shè)備,對生物視覺進(jìn)行模擬。其目的在于使計(jì)算機(jī)“理解”圖片或視頻中的信息,并根據(jù)這類信息做出相應(yīng)的反應(yīng)。而人體行為識別則是計(jì)算機(jī)視覺的一個(gè)研究方向。該文所述的電力施工安全監(jiān)測技術(shù)通過攝像頭實(shí)時(shí)采集施工人員的行為動作,且利用動作識別算法來判斷相關(guān)人員是否有違規(guī)動作,進(jìn)而對其操作行為加以約束,以保障人員的生命安全。
基于計(jì)算機(jī)視覺與智能識別的電力施工安全監(jiān)測技術(shù)框架如圖1 所示,該框架可分為三個(gè)部分:行為分割、特征融合以及行為識別。值得注意的是,行為識別比動作識別更為復(fù)雜,其包含了多種動作,且不同的行為可能還含有若干相同的動作。因此對于復(fù)雜行為的識別,首先需進(jìn)行行為分解,將其拆分為若干個(gè)動作,從而降低識別的困難度和計(jì)算量。
圖1 監(jiān)測技術(shù)框架設(shè)計(jì)
當(dāng)前大多數(shù)人體行為動作識別算法采用具有單一動作的視頻、圖像數(shù)據(jù)進(jìn)行分析,即經(jīng)過控制的數(shù)據(jù)。但在實(shí)際生活場景中,人體會連續(xù)執(zhí)行多種行為,由此便增大了識別的難度。因此在數(shù)據(jù)處理之前,需要對視頻數(shù)據(jù)進(jìn)行分割預(yù)處理,將其分解成多個(gè)“動作”并同時(shí)進(jìn)行識別,從而降低行為識別的困難度與計(jì)算耗時(shí)。
為降低計(jì)算量,文中以特定關(guān)鍵幀選擇的方式替代逐幀掃描進(jìn)行人體行為分割。在一段視頻數(shù)據(jù)中,通常使用預(yù)設(shè)參數(shù)λ來控制關(guān)鍵幀的數(shù)量。而行為分割則可分為兩步:1)計(jì)算視頻數(shù)據(jù)的奇異值;2)計(jì)算該奇異值序列所對應(yīng)的靶值Mi。
通過比較靶值Mi和參數(shù)λ的大小來判定當(dāng)前幀是否為關(guān)鍵幀:當(dāng)Mi<λ時(shí),該幀圖像則被確定為關(guān)鍵幀。隨后該幀圖像會被清除,而原視頻數(shù)據(jù)則重新計(jì)算靶值并挑選新的關(guān)鍵幀。
當(dāng)前幀圖像di的奇異值計(jì)算與該幀圖像之前的數(shù)據(jù)有關(guān),即每個(gè)元素與其之前序列均值的歐氏距離。若第i幀圖像之前所有幀圖像的集合為Di-1={d1,…,di-1},則奇異值si及均值μi-1的表達(dá)式為:
均值的更新采用迭代的方式進(jìn)行,如下所示:
由此得到的奇異值集合為S={s1,…,sn},該集合中,若部分元素可被替換,則存在對應(yīng)元素的靶值Mi。靶值被用來表示奇異值集合被替換的可能性,Mi與參數(shù)ε和p有關(guān),其計(jì)算方式為:
式中,ε取值范圍為[0,1],文中將其設(shè)定為0.6;pj表示在當(dāng)前數(shù)據(jù)集合中,可找到與實(shí)際值相同值的概率。靶值采用迭代的方式更新,則有:
該文的參數(shù)λ被設(shè)定為2,滿足式(6)的第i幀圖像被定義為關(guān)鍵幀,而通過關(guān)鍵幀的界定,即可將一段行為圖像數(shù)據(jù)分解為多段的動作數(shù)據(jù):
在將人體行為分解成若干動作片段后,便需進(jìn)行動作特征的提取及融合。人體動作特征提取方法應(yīng)綜合自身特征差異、數(shù)據(jù)采集器與人體的相位位置等因素??紤]到上述問題,此次基于圖像剪影和光流信息進(jìn)行多維特征融合。
將圖像特征分為兩類:剪影直方圖和光流直方圖。其中,剪影直方圖可體現(xiàn)人物的形態(tài)信息,而光流直方圖能表征肢體運(yùn)動信息。針對靜態(tài)背景或背景灰度值變化較小的圖像,采用直接清除背景的方式來提取剪影特征,光流特征則通過對當(dāng)前幀圖像的點(diǎn)求梯度的方式得到。
在進(jìn)行特征融合時(shí),首先,將光流信息分解為水平與垂直分量,并分別進(jìn)行3×3 均值濾波;然后,將剪影圖像均分為2×2 個(gè)子圖像,再將其按角度均分成12 個(gè)三角圖形;最終,每個(gè)三角圖像特征均可代表一個(gè)數(shù)據(jù)點(diǎn),如圖2 所示。由此,光流水平分量、光流垂直分量以及剪影分割后的三角圖像特征可匯總為具有192 個(gè)維度的特征。
圖2 剪影圖像分割示意圖
由于動作種類較多,且復(fù)雜程度不同,采用單個(gè)識別模型易產(chǎn)生過擬合的現(xiàn)象,同時(shí)該模型從樣本數(shù)據(jù)中進(jìn)行學(xué)習(xí)的能力也較弱。因此,可使用多個(gè)學(xué)習(xí)器相結(jié)合的方式,即集成學(xué)習(xí)算法來構(gòu)建多動作識別分類模型。文中采用支持向量機(jī)算法對上文192 維特征向量進(jìn)行降維與融合,從而完成動作識別。傳統(tǒng)支持向量機(jī)因借助二次規(guī)劃求解支持向量,在進(jìn)行大規(guī)模訓(xùn)練樣本計(jì)算時(shí)會消耗大量計(jì)算資源,且其通常用來解決二分類問題。而該文研究的動作識別問題為多分類問題,故需對支持向量機(jī)算法加以改進(jìn)。
支持向量機(jī)包含了多層隱藏層,每層隱藏層均具有多個(gè)神經(jīng)元。參數(shù)懲罰因子決定了該算法收斂的速度,核函數(shù)的類型則影響著支持向量機(jī)分類器的分類能力。文中選用徑向基核函數(shù)(Radial Basis Function,RBF)作為特征向量降維、融合的函數(shù),其具體表達(dá)式如下:
式中,σ為調(diào)節(jié)因子。
基于支持向量機(jī)的工作原理,以文中的192 維特征向量為訓(xùn)練樣本數(shù)據(jù){xi,yi},i=1,…,192,其中,xi代表樣本數(shù)據(jù)中第i個(gè)輸入,取值范圍為{-1,1}
為增加分類的類別數(shù)量,設(shè)置多個(gè)分類器進(jìn)行多分類識別,則基于集成學(xué)習(xí)算法的分類器模型如圖3 所示。支持向量機(jī)層數(shù)和神經(jīng)元個(gè)數(shù)對算法分類能力的影響,如圖4 所示。
圖3 分類器模型
圖4 不同因素對分類準(zhǔn)確度的影響
從圖4 中可以看出,在神經(jīng)元數(shù)量較少的情況下,支持向量機(jī)算法隱藏層層數(shù)的增加會顯著提高分類準(zhǔn)確率的增長速度;而當(dāng)神經(jīng)元個(gè)數(shù)增加到一定程度時(shí),分類準(zhǔn)確度均逐漸趨于穩(wěn)定。綜合支持向量機(jī)運(yùn)行時(shí)間及分類準(zhǔn)確率,該文算法的隱藏層數(shù)選擇了4 層,神經(jīng)元數(shù)量則設(shè)定為30 個(gè)。文中所提算法的框架如圖5 所示。
圖5 該文算法框架
為驗(yàn)證文中所述方案的可行性,將Weizmann 數(shù)據(jù)集作為模型訓(xùn)練的樣本數(shù)據(jù)源,并選用電力檢修中常見的低頭、彎腰、擺手、跨步及伸手這5 個(gè)行為作為訓(xùn)練與測試動作。同時(shí),實(shí)驗(yàn)平臺的配置為64 位16 G 內(nèi)存、Intel Core i7 的CPU 以及1 TB 機(jī)械硬盤,軟件環(huán)境則選擇了Matlab 2016 仿真軟件平臺,以滿足動作識別模型訓(xùn)練的需求。
實(shí)驗(yàn)分為兩個(gè)部分:1)所提算法對上述五個(gè)基本動作的識別準(zhǔn)確率分析;2)以未采用集成學(xué)習(xí)算法的支持向量機(jī)動作識別算法作為對照組進(jìn)行對比實(shí)驗(yàn)。此外,實(shí)驗(yàn)組和對照組均采用相同的訓(xùn)練數(shù)據(jù)集合與軟硬件配置。該文算法對五種基本動作的識別準(zhǔn)確率情況,如表1 所示。
表1 該文算法對5種基本動作的識別結(jié)果
由表可知,低頭識別準(zhǔn)確率最低,為71.20%;彎腰識別準(zhǔn)確率最高,可達(dá)74.50%;且5 種動作的平均識別準(zhǔn)確率為73.36%。出現(xiàn)差異的原因在于,不同動作涉及到的人體部位數(shù)量與位置變化幅度不一致,低頭僅在頭部發(fā)生較小的位置變動。而在彎腰動作中,頭部、胸部、手臂和腰部均會出現(xiàn)大幅度的位置變動,因此識別準(zhǔn)確率更高。
此次,將均方根誤差(RMSE)作為對照實(shí)驗(yàn)的評判標(biāo)準(zhǔn)。從圖6 可以看出,實(shí)驗(yàn)組與對照組在迭代50 次后仍有下降的趨勢,但變化較為緩慢。由此表明模型已趨于收斂,此時(shí)RMSE 值約為0.004 5。值得注意的是,兩種算法的均方根誤差曲線走向一致,且實(shí)驗(yàn)組的曲線低于對照組。主要原因是該文算法通過采用綜合多個(gè)分類器的集成學(xué)習(xí)算法來增加分類的精準(zhǔn)度,進(jìn)而提升了動作的識別效率。
圖6 不同迭代次數(shù)對應(yīng)的均方根誤差
文中提出的基于計(jì)算機(jī)視覺與智能識別的電力施工安全監(jiān)測技術(shù),能夠有效識別施工人員的動作,并適用于來自不同角度采集的動作視頻數(shù)據(jù)。通過驗(yàn)證及對照實(shí)驗(yàn)證明了,所述方案具有一定的可行性和有效性,因此可將該方案在實(shí)際工程中加以應(yīng)用。