譚章祿,陳孝慈
(中國礦業(yè)大學(北京) 管理學院,北京 100083)
安全生產(chǎn)對煤礦企業(yè)發(fā)展至關重要[1]。目前,國內(nèi)大部分煤礦企業(yè)已建成覆蓋企業(yè)關鍵區(qū)域的視頻監(jiān)控系統(tǒng),但相關的管理控制工作需依賴人工完成,監(jiān)控系統(tǒng)總體上處于只監(jiān)不控的狀態(tài),其自動化程度較低。究其原因,主要是技術成熟度不足,同時煤礦井下生產(chǎn)環(huán)境惡劣,導致井下圖像成像質(zhì)量較差,圖像自動化識別錯誤率高,難以滿足煤礦企業(yè)較高的需求。
現(xiàn)有的圖像識別主要集中于理論研究層次,如人臉識別和行為識別研究等,少量研究成果被推廣應用于安全監(jiān)測、建筑范圍劃分、交通標志及道路識別、車輛檢測等領域。孫繼平等[2]提出了基于圖像識別的礦井火災綜合判別系統(tǒng);黃宏偉等[3]基于深度學習方法,提出了一種基于全卷積網(wǎng)絡的盾構(gòu)隧道滲漏水病害圖像識別算法;韓豫等[4]利用圖像識別技術,設計開發(fā)了一套完整的建筑工人智能安全檢查系統(tǒng),并在實際運行中取得了較好的效果;VISHWANATHAN H等[5]對比了Canny法、Sobel法及Zhang法3種邊緣檢測方法,分析了這些方法在車輛識別、路況識別及交通標志識別應用方面的優(yōu)缺點;KOSZTOLANYI-IVAN G等[6]利用圖像識別技術辨識道路場景,經(jīng)過訓練的圖像分類器能較好地識別具有明顯建筑或者非建筑特征的道路場景。
上述研究為圖像識別技術的發(fā)展及應用做出了突出貢獻,但由于技術水平的限制和應用環(huán)境的差異,圖像識別技術難以向煤炭行業(yè)深入推廣。隨著煤礦安全管理向自動化、信息化發(fā)展,自動化目標檢測技術呈現(xiàn)出廣闊的發(fā)展前景[7]。一方面,相較于數(shù)值、文本數(shù)據(jù),圖像、視頻數(shù)據(jù)能最大限度地重現(xiàn)目標對象的直觀狀態(tài),包含的信息更加豐富;另一方面,隨著視頻監(jiān)控系統(tǒng)[8-9]在煤礦企業(yè)的逐步推廣,不少煤礦企業(yè)已經(jīng)積累了數(shù)量可觀的圖片和視頻數(shù)據(jù),這些專業(yè)化的數(shù)據(jù)是提升圖像識別準確度、推進圖像識別理論落地的重要保障;最后,隨著安全生產(chǎn)愈來愈受到管理者的重視,少人化乃至無人化必將成為安全管理的新的發(fā)展方向。近年來,圖像識別技術獲得了較快的發(fā)展,特別是基于卷積神經(jīng)網(wǎng)絡(convolutional neural networks,簡稱CNN)構(gòu)建的目標檢測器,在多個領域表現(xiàn)突出,利用圖像識別技術彌補安全監(jiān)控系統(tǒng)的短板,提升管理效率和煤礦自動化水平,具有重要的理論和現(xiàn)實意義。
1)數(shù)據(jù)源質(zhì)量不穩(wěn)定,尤其是從煤礦井下工作面獲取的圖像、視頻等數(shù)據(jù)。煤礦監(jiān)控系統(tǒng)的建成時間較早,硬件設施性能偏低且不易更換,圖像、視頻的質(zhì)量主要受限于攝像頭等硬件的性能。同時,井下?lián)P塵、水汽常導致攝像頭鏡片被污染,進而影響成像質(zhì)量。
2)煤礦企業(yè)對檢測器的準確率要求較高,特別是對人的識別。過高的錯誤率將導致大面積誤判,進而影響煤礦正常生產(chǎn)。
3)圖像識別速度難以滿足使用要求。實現(xiàn)實時識別是企業(yè)對目標檢測器的基本要求,這要求目標檢測器在處理每一張圖像時都必須迅速。
上述因素制約了圖像識別技術在煤礦目標監(jiān)測中的推廣應用。
RetinaNet是Facebook AI團隊于2018年新提出的單階段(one-stage)目標檢測器[10],其結(jié)構(gòu)如圖1所示。
圖1 RetinaNet檢測器結(jié)構(gòu)
從檢測器的框架來看,RetinaNet是特征金字塔網(wǎng)絡(feature pyramid networks,簡稱FPN)和全卷積神經(jīng)網(wǎng)絡(fully convolutional networks,簡稱FCN)的結(jié)合,其中FPN是基于CNN根據(jù)金字塔概念改進而來,具有更好的特征提取效率[11];FCN同樣是基于CNN改進得到,主要實現(xiàn)了圖像的像素級分類[12]。
RetinaNet檢測器由1個主干網(wǎng)絡和2個特定子網(wǎng)組成。如圖1(a)所示,在主干網(wǎng)絡中,ResNet[13]用于有效特征的提取,其是一種基于CNN的特征提取網(wǎng)絡;圖1(b)中,F(xiàn)PN負責進一步強化ResNet形成的多尺度特征,得到包含多尺度目標區(qū)域信息的Feature maps集合;FCN子網(wǎng)中,圖1(c)用于執(zhí)行卷積對象分類,圖1(d)用于卷積邊界框回歸。
在圖像識別時,檢測器一般通過交叉熵損失函數(shù)(cross-entropy loss,簡稱CE loss)判定預測值與真實值的差異程度。以二分類為例,目前普遍應用的加權CE loss如式(1)所示:
CE(pt)=-αtlogpt
(1)
(2)
(3)
式中:pt、αt分別為與p和α相關的系數(shù);p為y=1時的模型估計概率,若p≥0.5則認為該樣本為簡單樣本,y=1表示樣本為正樣本,y≠1表示樣本為負樣本;α為加權因子。
由式(1)可知,即使面對容易分類的簡單樣本,CE loss也會產(chǎn)生損失。當p值很大時,這類樣本對檢測器產(chǎn)生的影響較小。但隨著樣本數(shù)量的增加,產(chǎn)生的loss總和也增加,簡單樣本對檢測器的影響不能忽視。雖然系數(shù)αt能夠控制正、負樣本的權重,但無法控制簡單樣本與非簡單樣本的權重。通過RetinaNet檢測器設計了全新的focal loss,相對于加權CE loss做了進一步改進:
FL(pt)=-(1-pt)γlogpt
(4)
式中:γ為聚集參數(shù)(focusing parameter),且γ≥0;(1-pt)γ為調(diào)制系數(shù)(modulating factor)。
與加權CE loss相比,focal loss實現(xiàn)了對正、負樣本loss的自動調(diào)節(jié),同時降低了簡單樣本的loss,也提升了非簡單樣本的loss,從而引導模型更多地去辨識非簡單樣本,有效地提升了模型的準確度。focal loss相比于CE loss給loss總量帶來的影響如表1所示。
表1 focal loss與CE loss的loss總量對比
實際應用時,研究者多使用進一步改進形成的加權focal loss:
FL(pt)=-αt(1-pt)γlogpt
(5)
由式(5)可知,加權focal loss能同時調(diào)整正、負樣本,以及簡單、非簡單樣本的權重。在圖像識別時,如無特殊情況,則α∈[0.25,0.75],γ=2[10]。
實驗平臺采用GTX920m GPU,操作系統(tǒng)為Windows 10 Professional,檢測器通過Python語言編程實現(xiàn)。圖像識別主要流程如圖2所示。
圖2 圖像識別主要流程
圖像識別結(jié)果混淆矩陣如表2所示,在圖像識別時,用混淆矩陣表示各個對象識別的最終結(jié)果。
表2 圖像識別結(jié)果混淆矩陣
表2中,真正例(True Positive,簡稱TP)表示被模型辨識為正的正樣本,數(shù)量為A;真負例(True Negative,簡稱TN)表示被模型辨識為負的負樣本,數(shù)量為D;假正例(False Positive,簡稱FP)表示被模型辨識為正的負樣本,數(shù)量為C;假負例(False Negative,簡稱FN)表示被模型辨識為負的正樣本,數(shù)量為B。
精確率(Precision)與召回率(Recall)是2個主要識別結(jié)果的評價指標[14]。其中,精確率表示被模型辨識為正的正樣本數(shù)占所有被模型辯識為正的樣本數(shù)的比重,計算公式為:
(6)
召回率表示被模型辨識為正的正樣本數(shù)占所有正樣本數(shù)的比重,計算公式為:
(7)
RetinaNet檢測器在使用時需預先確定ResNet網(wǎng)絡層數(shù)、α值及概率閾值參數(shù)(minimum percentage probability)等參數(shù)。利用MS-COCO數(shù)據(jù)集[15]訓練生成的不同參數(shù)下的識別模型,設計預實驗選取最佳參數(shù)。
ResNet是RetinaNet檢測器的重要組成部分,ResNet網(wǎng)絡深度越深,則RetinaNet檢測器的計算復雜度越大[12]。為了獲取性能與速度的平衡,用獨立的ResNet搭建目標檢測器,僅改變ResNet網(wǎng)絡層數(shù),預實驗不同網(wǎng)絡深度下ResNet錯誤率如表3所示。
表3 預實驗不同網(wǎng)絡深度下ResNet錯誤率
由表3可知,網(wǎng)絡深度為50層的ResNet錯誤率略高,但識別速度最快,若選擇網(wǎng)絡深度為50層的ResNet,耗時相比網(wǎng)絡深度為101層和152層的ResNet可減少一半以上。鑒于圖像識別的實時性需求,設定網(wǎng)絡深度為50層。
其實,長期以來,個股長期停牌后暴跌的例子不勝枚舉。*ST天馬(002122.SZ)自去年12月19日停牌至今年5月14日,復牌后*ST天馬連續(xù)29個一字跌停,市值縮水近80億元,蒸發(fā)了近76%。這也打破了*ST保千(600074.SH)連續(xù)28個一字跌停的紀錄。
α值作用于focal loss,是影響RetinaNet檢測器的關鍵要素之一。設定ResNet網(wǎng)絡深度為50層,概率閾值參數(shù)為0.3,僅改變α的取值,預實驗RetinaNet不同α錯誤率如表4所示。
表4 預實驗RetinaNet不同α錯誤率
由表4可知,當α=0.25時檢測器性能最好。因此,設定α=0.25。
概率閾值參數(shù)作用于被呈現(xiàn)的結(jié)果,檢測器會對每一個可能的對象給出一個概率值,即被檢測對象有多大的可能性是檢測器判定的目標,如果概率值小于概率閾值參數(shù),則該概率值不被呈現(xiàn)給使用者。設定ResNet網(wǎng)絡深度為50層,α=0.25,僅改變概率閾值參數(shù)的取值,預實驗RetinaNet不同概率閾值參數(shù)實驗結(jié)果如圖3所示。
圖3 預實驗RetinaNet不同概率閾值參數(shù)實驗結(jié)果
由圖3可知,在概率閾值參數(shù)為0.3時,檢測器的綜合表現(xiàn)最好,因此,設定概率閾值參數(shù)為0.3。
綜上,在正式實驗中,設定ResNet網(wǎng)絡深度為50層,α=0.25,概率閾值參數(shù)為0.3。
選擇包括井下巷道、工作面在內(nèi)的50幅相關圖像,對其隨機編號進行實驗。測試圖片的清晰度均不同(圖片每英寸像素點數(shù)量在72~300內(nèi))。圖像識別實驗結(jié)果如表5所示。
表5 圖像識別實驗結(jié)果
表5中ID號表示圖片編號,對象數(shù)表示圖中的人數(shù)。實驗表明,RetinaNet檢測器對人物的識別速度較快,被檢測出的樣本中,人物均能被正確識別。同時,RetinaNet檢測器有著較高的召回率,能夠有效地抓取并識別所要識別的對象。在實驗環(huán)境下,檢測器已表現(xiàn)出良好的性能,平均召回率為92.78%,平均精確率為100%,體現(xiàn)出較好的實用價值。在部分樣本中,RetinaNet檢測器的召回率并不理想,具體案例如表6所示。
表6 圖像識別實驗案例
表6中,圖例為被識別圖像全圖,對表5、表6分析可知:
1)圖像的分辨率對圖像識別的結(jié)果影響不大,因為分辨率較高的圖像,并不一定包含更多的有效信息,過多的背景噪點會影響識別結(jié)果。
2)圖像中的對象與周圍環(huán)境的對比度會影響圖像識別的最終結(jié)果。如圖片5、16、19中各有一人衣著與背景色極為相近,難以辨識出清晰輪廓,所以未能被識別。
3)人物重疊對圖像識別效果的好壞影響極大,如圖片6、41中,雖然人物輪廓清晰,但是由于人員相互遮擋,所以識別效果并不理想。
4)從實時性的角度分析,每張圖片的識別時長在1 s上下浮動。權威的研究結(jié)果[16]表明,若通過更高算力的GPU運行檢測器,同時采用分布式計算技術,其識別速度還能進一步加大,從而實現(xiàn)圖像識別的實時性。
視頻識別是檢測器以視頻的幀為單位,對每幀圖像進行辨識。視頻識別實驗結(jié)果如表7所示。
表7 視頻識別實驗結(jié)果
表7中,ID號表示視頻編號,總幀數(shù)表示視頻畫面的總幀數(shù),精確率表示對每幀畫面識別后的平均精確率,召回率表示對每幀畫面識別后的平均召回率。從視頻識別的結(jié)果來看,檢測器對人物基本實現(xiàn)了準確有效地識別。由表7可知:
1)視頻2與視頻5中,人員與背景的區(qū)分度較為明顯,尤其以視頻2的效果最佳。視頻2由井下紅外攝像機拍攝,視頻5中畫面的整體環(huán)境明亮,檢測器對兩視頻中的人物基本實現(xiàn)了及時跟蹤監(jiān)測。
2)實驗視頻的幀數(shù)不一,在整個識別過程中,井下人員一直處于有效監(jiān)測中,表明檢測器對視頻識別具有較好的穩(wěn)定性。
3)在視頻1、3、4中,背景環(huán)境復雜,檢測器的召回率較差,難以保證識別每一個目標對象。但檢測器仍能保證較好的精確率,被識別的對象基本都能夠被正確辨識。
實驗結(jié)果表明,在合理設置檢測器參數(shù)的前提下,視頻畫面中待識別對象與背景的區(qū)分度是檢測器快速、準確識別的關鍵;由檢測器的監(jiān)測效果可知,企業(yè)無需更新煤礦的監(jiān)控設備,在現(xiàn)有設備的基礎上,只需要合理地搭建檢測器,即能實現(xiàn)較好的自動識別效果。實際應用時,在滿足需求的前提下,無需通過檢測器對視頻對象中的每一幀進行檢測,而是選取單位時間內(nèi)的最優(yōu)判別結(jié)果作為識別對象,即可降低誤判,提升識別效率。
1)RetinaNet檢測器在煤礦目標監(jiān)測中顯示出較好的可靠性和穩(wěn)定性,在實驗過程中表現(xiàn)出了較高的精確率,RetinaNet檢測器具有較強的實用價值。
2)由于人與環(huán)境對比度不足,檢測器的召回率有待進一步提高。增強識別對象與背景的區(qū)分度能夠改善目標監(jiān)測的效果,企業(yè)對一些日常細節(jié)的改進,能夠有效提升檢測器的識別率。將圖像識別系統(tǒng)與煤礦企業(yè)現(xiàn)有的人員定位、煤礦監(jiān)控系統(tǒng)深度結(jié)合,可實現(xiàn)對煤礦井下高危區(qū)域的自動監(jiān)測,能進一步提高煤礦企業(yè)安全管理的信息化水平。
3)現(xiàn)階段,專業(yè)的圖形數(shù)據(jù)不足是制約檢測器性能的重要原因之一,為了提高檢測器的識別能力,煤礦企業(yè)有必要建立類似MS-COCO的標準化圖片數(shù)據(jù)集,以便于更準確地訓練模型,進而發(fā)掘數(shù)據(jù)的深度價值,進一步實現(xiàn)場景辨識、危險行為辨識、危險源辨識等深層次的功能。