王生云,趙吉龍,虎曉敏,馬少軍,拓媛媛,胡 軍,包 超
(1.寧夏農(nóng)墾建設(shè)有限公司,銀川 750000; 2.寧夏建設(shè)投資集團有限公司,銀川 750000;3.寧夏大學(xué) 土木與水利工程學(xué)院,銀川 750000)
在建筑行業(yè),工人的行為是造成工作場所事故和傷害的主要原因之一。大約80%~90%的事故與工人的不安全動作和行為密切相關(guān)[1-3]。先前的研究也表明,基于行為的技術(shù)(例如,反饋、目標(biāo)設(shè)定和工人參與)可以顯著提高安全性能[4-7]。為此,一種基于行為的方法已成為安全研究的趨勢,旨在觀察、分析和改變工人的行為。具體來說,該方法包括制定與安全相關(guān)的關(guān)鍵行為清單,觀察工人并統(tǒng)計所定義行為的頻率,通過反饋改善他們的行為,并通過觀察到的數(shù)據(jù)不斷提高安全性[8-9]。在過程中,觀察員了解導(dǎo)致事故的不安全行為和姿勢,觀察自己和同事的行為,并提供對觀察結(jié)果的反饋。工人的行為可以通過聽取對自己的反饋得到顯著改善,觀察者也傾向于在觀察和討論同事的過程中改善自己的行為[10]。在這方面,觀察是作為行為修改和管理改進的初步數(shù)據(jù)的最重要的單元[11-12]。傳統(tǒng)的行為測量方法雖然很重要,但在應(yīng)用于建筑項目時存在以下局限性:1)測量過程中所涉及的任務(wù)費時費力[13];2)需要大量的樣本以避免偏差[14-15];3)觀察和報告需要工人的積極參與[16-17]。
基于計算機視覺的行為監(jiān)控系統(tǒng),可以自動捕捉工人的動作并識別工人的不安全行為?,F(xiàn)有的動作捕捉解決方案主要分為機械、磁性、光學(xué)和基于視覺的系統(tǒng)。前三種可能比基于視覺的系統(tǒng)提供更準(zhǔn)確的結(jié)果,但需要在人體上安裝傳感器或標(biāo)記來進行運動跟蹤。在施工中,這種要求造成了一個嚴(yán)重的障礙,因為附加的設(shè)備會干擾工人的行動。因此,可以認(rèn)為基于視覺的方法最適合施工應(yīng)用。由于其在實用、經(jīng)濟、可視化和快速數(shù)據(jù)收集方面的潛力,基于視覺的方法已被用于施工,像生產(chǎn)力管理、進度監(jiān)控 、質(zhì)量管理、資源跟蹤和安全性。特別是,文獻[18]以及文獻[19]分別提出對工人進行姿勢分析和運動分類,以分析施工作業(yè)的生產(chǎn)率。在安全管理方面,本文探討了一種微觀層面的運動跟蹤與識別方法來識別工人的不安全行為。該系統(tǒng)從現(xiàn)場視頻中提取三維人體骨骼運動模型,并利用運動數(shù)據(jù)識別工人的不安全動作。通過這種方式,三維骨骼模型還可能通過跟蹤人體關(guān)節(jié)和人體部位軌跡之間的角度來實現(xiàn)工人姿勢的人機工程學(xué)分析(例如,背部角度),這是人機工程學(xué)分析的主要輸入。
本文探討了基于行為安全管理中的觀察過程及其挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出通過深度學(xué)習(xí)的方式對建筑施工現(xiàn)場工人的不安全行為進行診斷控制,引入了一個基于視覺的監(jiān)控框架,并通過實驗研究調(diào)查其實用性。在此基礎(chǔ)上,討論了基于視覺的監(jiān)測方法的貢獻和局限性,以驗證其在建筑工人行為測量中的適用性。
本部分的主要內(nèi)容是針對通過人體骨架圖來提供表征視頻內(nèi)人體姿態(tài)以及運動變化對應(yīng)的模態(tài)信息進行介紹,且針對骨架圖的提取途徑進行全面介紹,進一步提出使用數(shù)據(jù)擬合能力以及模型泛化能力更強的卷積神經(jīng)網(wǎng)絡(luò)來代替現(xiàn)階段使用的網(wǎng)絡(luò),對CNN-LSTM模型具有的時序建模能力進行優(yōu)化。
單幀輸入圖僅能夠?qū)θ梭w行為對應(yīng)的空間特征進行表征,另外還需要針對多幀輸入圖時序完成建模的過程,從而全面地將行為失控信息進行反映。所以此次研究決定使用擇CNN-LSTM模型來實現(xiàn)骨架圖序列的失控信息建模,同時利用選擇更佳的CNN對辨別性更為理想的空間特征進行提取,由此全面優(yōu)化CNN-LSTM行為識別模型所具有的識別性能,通過圖1對基本框架進行描述。
圖1 基于骨架圖的CNN-LSTM模型
第一步BN-Inception訓(xùn)練提取視頻中所有幀內(nèi)包含的空間結(jié)構(gòu)信息,對現(xiàn)階段使用的CNN-LSTM模型具有的空間特征提取能力進行加強,進一步全面優(yōu)化CNN-LSTM行為識別模型的性能。隨后通過借助長短時記憶網(wǎng)絡(luò)(LSTM)針對所有視頻中的全部幀時序信息完成建模過程,且模型的最終輸出結(jié)果為LSTM在最后時刻的預(yù)測輸出Yt。
對事故統(tǒng)計進行分類能夠得到兩種傷害類別:1)來自身體外部的物理沖擊所導(dǎo)致的傷害;2)因為身體本身存在不良姿態(tài)以及動作,在長時間的反復(fù)累積之下所導(dǎo)致的人體工學(xué)傷害。對這兩類傷害繼續(xù)分類,還能夠分為若干類子傷害,并且致死率以及非致死率能夠?qū)Ω鱾€類型的子傷害以及疾病頻率、輕重緩急進行反映[20-21]。基于對頻率以及嚴(yán)重程度的綜合考慮,以子類別為依據(jù)對施工過程中的主要姿勢以及運動進行識別,且通過本文所提及的以視覺為基礎(chǔ)的監(jiān)測系統(tǒng)完成跟蹤以及檢測。這里需要強調(diào)的是,能夠針對清單作出修改,對特定的工作地點進行反映,比如利用特定的勞動力以及工作場所的具體特點來描述[22]。
從本階段出發(fā),能夠?qū)と水a(chǎn)生不安全行動可能性較大的范圍以及有關(guān)活動進行識別。針對事故作出的統(tǒng)計數(shù)據(jù)以及記錄能夠為危險工作場所以及有待重點監(jiān)測的活動提供有力的制成。所以,此步驟可以為攝像頭的安置、對行為進行監(jiān)測與分析提供科學(xué)的指導(dǎo)。比如,跌落于腳手架以及梯子上的情況在總體中的占比分別等于18%、16%;所以,此類設(shè)備附近的位置就是最需要安裝攝像頭的區(qū)域,以避免事故的發(fā)生率升高。同時,根據(jù)相關(guān)統(tǒng)計數(shù)據(jù)可知,磚石工人的背部受傷率始終居高不下,跟其他各種類型的建筑工人相比都能夠超過16倍。由此可見監(jiān)測的重點是哪些區(qū)域,由此避免部分明確、高發(fā)傷害的類型出現(xiàn)。
從運動捕捉領(lǐng)域來說,通常是通過單目攝像機以及多目攝像機這兩種攝像機針對人體關(guān)節(jié)對應(yīng)的三維位置進行估計。此次研究以三維攝像機為核心,此類攝像機能夠?qū)θS骨骼進行提取以及簡化處理,將其轉(zhuǎn)化為二維姿態(tài)來完成估計。三維攝像機的結(jié)構(gòu)為一個攝像機中存在的兩個鏡頭,能夠基于不同的角度在同一時間內(nèi)完成兩個視頻的制作流程。利用三維攝像機或聯(lián)合使用兩個攝像機進行拍攝得到的兩個視頻,一個的基本用途是對人體關(guān)節(jié)于二維圖像列上的位置進行估算,另一個的基本用途是搜集三維重建的參考數(shù)據(jù)。由此利用計算過程求出深度信息,對估計的二維身體關(guān)節(jié)進行轉(zhuǎn)換,使其轉(zhuǎn)化為三維坐標(biāo),由此獲取三維骨骼模型。
針對視頻來說,基于二維圖像對身體關(guān)節(jié)的具體位置進行估計,從而獲取二維骨骼模型。針對人體關(guān)節(jié)展開估計通常能夠使用兩種方法,即自上而下或者自下而上,前者主要是在觀察得到的圖像上映射身體模型,從而實現(xiàn)對關(guān)節(jié)位置的估計,后者是基于圖像對身體部位進行檢測,隨后再適當(dāng)調(diào)整期位置,提升對人體的適應(yīng)度。然而自上而下的方法不適用于存在遮擋的情況下,一般要在第一幀進行手動初始化,所以此次研究選擇使用自下向上的方式。
通過利用梯度方向直方圖(HOG, histogram of oriented gradients)描述符基于二維圖像中對身體部位進行檢測,同時應(yīng)用部位混合模型對身體部位間存在的關(guān)系進行推斷;此類方法能夠提供較為迅速且準(zhǔn)確的結(jié)果,并且能夠為目標(biāo)人群的不同外觀以及遮擋等多種問題提供解決方案。以檢測身體部位為目的,確定一組訓(xùn)練圖像以后,通過圖2給出的身體骨骼模型完成手動注釋的過程。以骨骼模型為基礎(chǔ),對訓(xùn)練圖像內(nèi)包含的身體關(guān)節(jié)進行標(biāo)記,得出的數(shù)據(jù)集可以對身體部位于測試數(shù)據(jù)集內(nèi)的具體位置進行估計。從此過程來看,多個旋轉(zhuǎn)以及縮短的訓(xùn)練數(shù)據(jù)集能夠?qū)ψ藙莨烙嬛写嬖诘膯栴}進行解決,比如自由度過高、因為身體尺寸以及形狀存在差異進而造成四肢外觀、服裝以及視角產(chǎn)生變化。不包括位置信息在內(nèi),二維圖像中的固定身體部位所屬類型也能夠被識別并進行儲存,用于三維骨架模型的構(gòu)建。所以,集群代表特定身體部位形成的集合,同時以集群為基礎(chǔ)對身體部位的分類進行標(biāo)記。再通過派生類型標(biāo)簽進一步構(gòu)建得到一個完整的監(jiān)督數(shù)據(jù)集,同時對靈活的不見混模型進行學(xué)習(xí),給身體關(guān)節(jié)分配正確的ID。最終輸出的結(jié)果為三維骨架模型,并對和身體關(guān)節(jié)進行關(guān)聯(lián)的ID分配。
圖2 用于身體關(guān)節(jié)估計的身體骨骼模型(注:數(shù)字代表身體部位的數(shù)字 ID)
訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)具有極高的復(fù)雜性,原因是訓(xùn)練中的各層輸入分布都會隨著上一層參數(shù)的變化產(chǎn)生共同變化。由此便要求學(xué)習(xí)速率降低且對參數(shù)進行更加細(xì)致的初始化處理,必須減小網(wǎng)絡(luò)的訓(xùn)練速度,同時會造成訓(xùn)練飽和非線性模型的難度提升。以攻克這一困難,相關(guān)研究人員Sergey Ioffe提出了Batch Normalization(BN),也就是批量標(biāo)準(zhǔn)化的方法,該方法的中心思想為降低內(nèi)部相關(guān)變量,對深度網(wǎng)格的訓(xùn)練提供加速動力,由此能夠解決許多不科學(xué)的初始化問題。將標(biāo)準(zhǔn)化納入模型結(jié)構(gòu),同時針對所有訓(xùn)練對應(yīng)的mini-batch展開標(biāo)準(zhǔn)化流程。BN能夠提供更為理想的學(xué)習(xí)速率以及更為簡便的初始化參數(shù)。
BN-Inception結(jié)構(gòu)具有的特點為所有卷積層后都有添加的BN層以及ReLU層。BN層的功能是Batch Normalization,ReLU的功能是用于實現(xiàn)歸一化。通過圖3針對BN-Inception的整體結(jié)構(gòu)進行描述。BN-Inception實質(zhì)上是基于Inception的優(yōu)化,一方面添加BN層,降低內(nèi)部相關(guān)變量的轉(zhuǎn)移,從而使得網(wǎng)絡(luò)的各層輸入都能夠歸一化至隨機正態(tài)分布,另一方面通過對VGG網(wǎng)絡(luò)進行借鑒使用2個3*3的卷積核將Inception模塊內(nèi)存在的5*5卷積核進行替換,不僅能夠降低參數(shù)數(shù)量,還能夠提升網(wǎng)絡(luò)的計算效率。
圖3 BN-Inception結(jié)構(gòu)
此次研究通過CNN對所有幀骨架圖含有的空間信息進行提取以及存儲。視頻中的行為信息涵蓋了幀內(nèi)視覺空間以及幀間時序信息,僅對CNN加以利用來處理骨架圖不能針對視頻內(nèi)所有幀間信息的變化完成時序的建模過程,特別是對于時間跨度相對更大的視頻,必須借助于空間關(guān)系基于時間序列中的變化對各類行為進行鑒別,所以基于對骨架空間信息進行提取,還要進一步對視頻幀序列間存在的時序關(guān)系進行訓(xùn)練以及學(xué)習(xí)。
在視頻幀骨架圖序列中按照等間隔的方式累計抽取16幀,作為全視頻的代表。通過利用經(jīng)過訓(xùn)練的BN-Inception網(wǎng)絡(luò)對視頻幀骨架圖具有的空間特征進行提取,以時間順序為依據(jù)輸入LSTM,再利用數(shù)據(jù)集原本具有的幀級標(biāo)簽對LSTM的網(wǎng)絡(luò)誤差以及更新網(wǎng)絡(luò)參數(shù)進行計算,CNN-LSTM最終得出的結(jié)果就是LSTM最終輸出的行為類別預(yù)測值,進而用其對分類性能進行評價。
傳統(tǒng)使用的循環(huán)神經(jīng)網(wǎng)絡(luò)在進行反向傳播的過程中,傳遞一層就必須將梯度與上一次的權(quán)值矩陣W進行相乘,即傳遞n層,繼續(xù)向下傳遞的梯度必須與W的n次方相乘,若W>1、W<1時,梯度完成了n層傳遞后可能無限趨近于0,也可能無限趨近于無窮,也就是說梯度不存在或者爆炸了,這種情況下網(wǎng)絡(luò)無法沿著向下的方向持續(xù)對權(quán)重進行更新,所以循環(huán)神經(jīng)網(wǎng)絡(luò)無法對時間跨度過長的時序信息進行解決,也就是“長時依賴”問題。通過式(1)對循環(huán)神經(jīng)網(wǎng)絡(luò)神經(jīng)單元輸入輸出計算進行表示。
(1)
這里,ht所指代的是當(dāng)前時刻,也可以指代當(dāng)前序列t所對應(yīng)的神經(jīng)元輸出結(jié)果,W所指代的是神經(jīng)元權(quán)值矩陣,ht-1所指代的是前一時刻,也可以指代前一序列t-1對應(yīng)的神經(jīng)輸出結(jié)果,xt所指代的是t時刻網(wǎng)絡(luò)數(shù)據(jù)輸入,tanh所指代的是激活函數(shù)。
LSTM所使用的為隱藏單元的單層神經(jīng)元結(jié)構(gòu),累計數(shù)目為512個,輸入為利用BN-Inception提取得到1 024維空間特征向量。初始學(xué)習(xí)率設(shè)置為0.001,再以訓(xùn)練情況為依據(jù)展開衰減的過程。將訓(xùn)練周期設(shè)置為10個epoch。在實驗進行時,對采集得到的數(shù)據(jù)集進行分組,分為各不相同的多個訓(xùn)練以及測試視頻,網(wǎng)絡(luò)訓(xùn)練需要100個視頻,性能測試需要150個視頻。
在實驗室環(huán)境中,分別使用商用動作捕捉系統(tǒng)(VICON)和3D攝像機(JVC 3D Everio Camcorder)來收集爬梯運動模板并做視頻記錄;在VICON的情況下,圍繞表演者的8個攝像頭跟蹤連接到身體關(guān)節(jié)的反射標(biāo)記,因此表演者或梯子的遮擋可以最小化。 另一方面,視頻樣本是用距離表演者約5米的三維攝像機記錄的。
基于相似性度量進行運動檢測,計算視頻中不安全動作如表1所示。其中,真陽性(TP)除以真陰性(TP)與假陰性(FN)之和的召回率為88%;TP除以TP與假陽性(FP)之和的精密度為88%;例如,TP表示檢測到不安全動作正在進行,F(xiàn)N表示沒有檢測到不安全動作正在進行,F(xiàn)P表示沒有檢測到不安全動作,實際上不安全動作已經(jīng)開始發(fā)生。其中,Recall表示運動識別算法檢測到視頻中88%的不安全動作,Precision表示在檢測到的動作中,88%的動作被算法正確檢測到。實驗結(jié)果表明,本文提出的運動識別方法在使用預(yù)定義模板檢測和計算不安全動作時,能夠很好地處理現(xiàn)場數(shù)據(jù)。此外,誤差可能主要來自對身體關(guān)節(jié)位置的不準(zhǔn)確估計,特別是手臂和手,這在姿勢估計結(jié)果的分析中得到了證實。
表1 一個檢測的結(jié)果
此次研究提出視頻幀輸入所需要的空間提取器選擇為BN-Inception,且和文獻[23]中所應(yīng)用的Alex Net以及主流的VGG16[24]進行對比。文獻[25]選定的輸入視頻幀的空間特征提取器為Alex Net,此次研究選定的輸入視頻幀的空間特征提取器為BN-Inception,模型整體具備更為理想的空間提取能力。在確定使用BN-Inception前,本文將Alex Net、BN-Inception以及VGG16進行了性能方面的對比。所有CNN對應(yīng)的網(wǎng)絡(luò)模型參數(shù)皆為通過Image Net大型圖片分類數(shù)據(jù)集的訓(xùn)練而得到的,所有網(wǎng)格訓(xùn)練都具備一個epoch。
通過圖4對三類不同的CNN模型訓(xùn)練一個epoch對應(yīng)的訓(xùn)練誤差值(train loss)變化進行描述,trainloss值越低,說明模型輸入預(yù)測值、訓(xùn)練集標(biāo)簽對應(yīng)的真實值越趨于相等?;谟邢薜牡螖?shù),BN-InceptionAlex Net與VGG16相比具有更高的收斂速度以及更強的穩(wěn)定性。
圖4 三種CNN模型訓(xùn)練loss值變化
通過圖5對三類CNN模型的測試過程對應(yīng)的準(zhǔn)確率進行描述。由圖可知,3個網(wǎng)絡(luò)都能夠在經(jīng)過1 000次上下的迭代后達到較為理想的準(zhǔn)確率,其中BN-Inception完成1 200此迭代后準(zhǔn)確率基本能夠維持不變,約為88%,比其他兩類模型高;VGG16經(jīng)過1 000次迭代后,準(zhǔn)確率呈現(xiàn)出降低的趨勢,基本保持在82%上下,存在小幅度波動;Alex Net經(jīng)過1 000此迭代后,也開始出現(xiàn)輕微波動。
圖5 三種CNN模型測試準(zhǔn)確率變化
現(xiàn)階段已有的針對骨架圖行為識別開展的研究大多數(shù)通過LSTM來完成骨架序列時序關(guān)系的建模過程,文獻[26]便提出了一種較為經(jīng)典的以LSTM為基礎(chǔ)的骨架行為識別模型,能夠利用正則化對共現(xiàn)關(guān)節(jié)點集合進行定義為表征行為對應(yīng)的特征,此次研究針對文獻[26]中提出的LSTM方法和此次選定的CNN-LSTM模型展開了細(xì)致的對比。因為此次研究應(yīng)用的UCF101本身尚未完成骨架圖的信息標(biāo)注,僅利用定向梯度直方圖(HOG)對人體骨架對應(yīng)的位置以及姿態(tài)進行估計,文獻[26]所應(yīng)用的CMU數(shù)據(jù)集包括了對3D人體關(guān)節(jié)點以及骨架移動的標(biāo)注,所以確定選擇采集到的數(shù)據(jù)集中存在的骨架信息進一步提取準(zhǔn)確度較高的15類行為視頻展開對比實驗。
所有視頻采用的幀數(shù)均為16幀,在CNN-LSTM模型中輸入包含骨架信息的視頻,在文獻[26]所使用的識別系統(tǒng)中輸入含有骨架信息的矩陣,并展開分別的訓(xùn)練以及測試過程,通過表2對兩者的測試準(zhǔn)確率進行總結(jié)。通過結(jié)果能夠得出,CNN-LSTM模型的準(zhǔn)確率能夠拿到88.67%,與文獻[26]中所提及的LSTM模型相比具有顯著的優(yōu)勢。
表2 不同骨架模型性能對比
實驗結(jié)果表明,該框架能夠很好地從視頻中提取三維骨架,并能夠利用運動模板檢測不安全動作。考慮到人類觀察者在監(jiān)視工人行為上所花費的時間和精力,所提出的框架可能有助于持續(xù)和自動地監(jiān)視工人,提供反饋,并管理他們的行為,以安全的方式執(zhí)行工作。
在這項研究中,提出了一種利用深度學(xué)習(xí)的建筑施工現(xiàn)場工人不安全行為診斷控制方法。從現(xiàn)場視頻重建包含運動信息的三維人體骨架模型,并用于檢測數(shù)據(jù)中預(yù)定義的不安全行為。對于工人行為的觀察,基于視覺的監(jiān)測不需要大量額外的時間或成本,因此提供了一種收集行為數(shù)據(jù)的方法,用于實踐中的安全管理??紤]到人類觀察者必須花費在工人行為監(jiān)控上的時間和精力,提出的框架可能有助于持續(xù)自動監(jiān)測工人,提供反饋,并管理他們的行為,以安全的方式執(zhí)行工作。
在未來的研究中將需要進行實地研究,以評估框架對實際施工環(huán)境的適用性,包括各種活動、運動和遮擋,為歸檔數(shù)據(jù)收集提供詳細(xì)的指南。然而,運動識別的性能依賴于從視頻中提取的三維骨骼的準(zhǔn)確性。在這方面,二維姿態(tài)估計和三維骨骼重建的性能需要深入驗證。例如,骨骼模型中存儲的旋轉(zhuǎn)角度可以與商業(yè)動作捕捉系統(tǒng)(如Kinect)進行比較,Kinect的性能也需要提前驗證才能作為地面真實。在這種情況下,由于特殊的防護服和標(biāo)記的要求,VICON可能不適合進行角度驗證,這可能會影響基于視覺的運動捕捉的準(zhǔn)確性。
通過驗證,我們可以研究遮擋對三維姿態(tài)估計的影響程度,找到提高其精度的研究方向。深入的驗證將有助于確認(rèn)所提出的框架可以應(yīng)用于其他類型的不安全行為。因此,我們未來的工作將包括三維骨骼模型的深入驗證,并將測試各種類型的動作,姿態(tài)估計誤差會顯著降低動作檢測的準(zhǔn)確性。