鄭相波,姚國棟,史方圓,廖煒煉,馬清志
(1.上海東華地方鐵路開發(fā)有限公司,上海 200040;2.上海上鐵互聯(lián)信息技術(shù)有限公司,上海 200040;3.蘇州大學 計算機科學與技術(shù)學院,蘇州 215031)
隨著我國鐵路的快速發(fā)展,各類建設(shè)工程規(guī)模不斷擴大。為應(yīng)對施工人員多、設(shè)備物資分散、管理作業(yè)流程瑣碎的情況,采用傳統(tǒng)的人工巡視、手工紙質(zhì)記錄的工作方式,已無法滿足大型項目管控的要求。在涉及大型施工機械的工地現(xiàn)場安全管理方面,存在現(xiàn)場情況復雜多變、施工隊安全作業(yè)不規(guī)范、現(xiàn)場監(jiān)理人員履職不到位等情況,尤其是在對入場的大型施工機械尺寸、型號的判定,以及機械安全邊界入侵的預警等方面,存在安全隱患,且需要耗費大量人力。因此,亟需利用信息化手段,建設(shè)一套智能監(jiān)管系統(tǒng),解決建設(shè)工程中存在的“監(jiān)管力度不強,監(jiān)管手段落后”等難題。
眾多學者針對上述情況進行了研究,劉祥敏[1]從管理角度提出針對臨近鐵路營業(yè)線大型機械設(shè)備施工安全的監(jiān)管對策,涵蓋落實安全監(jiān)管制度、提高施工機械操作人員安全意識等,但缺乏從技術(shù)層面提升安全監(jiān)管的有效措施;朱漲鑫等人[2]基于超寬帶 (UWB,Ultra Wide Band) 技術(shù)提出一種施工機械與人員定位的風險預防及控制方法,并建立了可視化管控平臺,然而,該方法難以低成本大面積鋪開,且對大型機械型號的判定上存在安全隱患。近年來,隨著人工智能技術(shù)的發(fā)展,深度學習模型被逐步應(yīng)用于鐵路安全的方方面面。徐鑫等人[3]基于YOLO(You Only Look Once)v5模型,建立鐵路異物侵限檢測模型。然而,針對臨近鐵路營業(yè)線的大型機械設(shè)備的施工安全智能監(jiān)管仍有待進一步研究。
綜上,本文設(shè)計了大型施工機械監(jiān)管系統(tǒng),并基于深度學習模型,設(shè)計了該系統(tǒng)中針對臨近鐵路營業(yè)線大型施工機械設(shè)備的智能視頻分析模型,輔助施工監(jiān)理單位完成對大型施工機械的各項監(jiān)管工作。
大型施工機械監(jiān)管系統(tǒng)包括物理層、數(shù)據(jù)層、分析層和應(yīng)用層,其總體架構(gòu)如圖1所示。
圖1 大型施工機械監(jiān)管系統(tǒng)總體架構(gòu)
通過高清攝像頭、智能網(wǎng)關(guān)等設(shè)備,從作業(yè)機械、施工人員等維度,準確快速采集鐵路施工時大型機械的實時數(shù)據(jù),同時,結(jié)合場地規(guī)劃的具體信息,提高數(shù)據(jù)的有效性與精度。
包括施工現(xiàn)場實時視頻流數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù),以及接口提供的實時入場機械與人員數(shù)據(jù)、施工場地涉及的鐵路數(shù)據(jù)等信息,為智能分析決策提供數(shù)據(jù)支撐。
包括智能視覺分析決策與可視化仿真。其中,智能視覺分析決策通過人工智能、圖像識別、大數(shù)據(jù)分析等技術(shù),為智能監(jiān)控與管理提供技術(shù)保障;可視化仿真主要通過數(shù)字孿生和UWB定位等技術(shù),對大型施工機械進行多維度監(jiān)管與智能預警。
包括智能監(jiān)理模塊與人工監(jiān)理模塊。其中,智能監(jiān)理模塊依托智能視覺分析決策,完成設(shè)備監(jiān)控、人車監(jiān)控、侵占判定、智能預警等多項任務(wù),幫助監(jiān)理人員及時掌握現(xiàn)場情況并作出決策;人工監(jiān)理模塊具有人工復查、統(tǒng)計分析、告警預警與監(jiān)理日志管理等功能。
本文將重點研究分析層中用于智能視覺分析決策的智能視頻分析模型的設(shè)計、數(shù)據(jù)收集和預處理策略,以及對模型的性能評估。
智能視頻分析模型的實時性與準確性是決定大型施工機械監(jiān)管系統(tǒng)實用性的關(guān)鍵,本研究選用YOLOv6圖像識別模型,并綜合應(yīng)用遷移學習、不平衡學習與數(shù)據(jù)增強等技術(shù),增強YOLOv6模型的性能。
YOLO系列模型在速度和精度間具有極佳的平衡,符合本文對施工區(qū)域大型施工機械監(jiān)控視頻實施自動監(jiān)理的需求。YOLOv6模型包括3個部分:提取特征的Backbone層、處理特征的Neck層、執(zhí)行預測的Head層,其架構(gòu)如圖2所示。
圖2 YOLOv6模型架構(gòu)
施工現(xiàn)場視頻流的分辨率存在差異,為便于模型訓練,設(shè)定將視頻統(tǒng)一壓縮并映射為640×640像素的輸入標準,保障模型良好的泛化性能。此外,視頻的壓縮降低了模型的預測成本,可降低模型預測的延遲,提升吞吐量。
深度學習對訓練數(shù)據(jù)集有很強的依賴性。模型的規(guī)模決定其能勝任任務(wù)的復雜程度,這是因為模型的表達空間必須足夠大,才能發(fā)現(xiàn)數(shù)據(jù)的潛在模式[4]。而模型的規(guī)模與訓練所需要的數(shù)據(jù)量基本上是線性關(guān)系[5]。面對大型機械的智能監(jiān)理任務(wù),需要收集海量數(shù)據(jù)才能滿足高精度的預測要求。受計算資源與業(yè)務(wù)場景的限制,收集大量數(shù)據(jù)存在一定困難。
遷移學習可將在源域?qū)W習到的知識遷移到目標域中,從而克服訓練集數(shù)據(jù)少的問題。本研究使用在16萬張COCO標注數(shù)據(jù)集上預訓練的YOLOv6-s目標檢測模型作為遷移學習的預訓練模型,并對其進行微調(diào)訓練。
鐵路施工現(xiàn)場的大型機械種類繁多,且數(shù)量極不均衡。采用傳統(tǒng)的訓練方法會導致模型在數(shù)量多的機械上有更好的性能,對數(shù)量少的機械則精度較低。因此,需要采用不平衡學習技術(shù),克服樣本數(shù)量不均導致模型精度差的問題[6]。比較常用的是重采樣與類別權(quán)重方法,其中,重采樣是一種通過增加少數(shù)類樣本或減少多數(shù)類樣本,使得不同類別間的樣本數(shù)量更平衡的方法,通常包括過采樣與欠采樣;類別權(quán)重方法則是在損失函數(shù)中為不同類別賦予不同的權(quán)重,使得模型更加關(guān)注少數(shù)類別[7],以抵消類別不平衡帶來的影響,提高對少數(shù)類別的識別能力。本文采用了這兩種方法對智能視頻分析模型的訓練圖像進行不平衡學習處理。
目前尚沒有適用于鐵路工地大型施工機械分類的公開數(shù)據(jù)集。本文基于真實鐵路施工場景下的視頻流數(shù)據(jù),采用手工標注,并通過數(shù)據(jù)增強技術(shù),生成用于訓練YOLOv6模型的訓練數(shù)據(jù)集。
本文在多個鐵路施工現(xiàn)場通過對432臺長方形固定機位和可移動的球形監(jiān)控攝像頭的實時觀察,收集了約300條施工中的監(jiān)控視頻流,并通過專業(yè)人員的篩選,采集了3 600張大型施工機械圖片,尺寸包含2 560×1 440、1 920×1 080、1 280×960、1 280×720及704×576共5種像素,構(gòu)成了包含10類大型施工機械的數(shù)據(jù)集,隨后在labelme軟件中使用拉框標注法對這些圖片進行標注,部分圖片如圖3所示。
圖3 大型施工機械待檢測圖片(部分)
智能視頻分析模型的檢測目標包括:挖掘機(ECT ,Excavator)、裝載機 (LD ,Loader)、叉裝車(FL ,F(xiàn)orklifts)、泵車(PT ,Pump Truck)、汽車起重機(TC ,Truck Cranes)、履帶起重機(CC ,Crawler Cranes)、隨車起重機(TMC ,Truck Mounted Crane)、塔式起重機(TWC ,Tower Crane)、高空作業(yè)車(AWP ,Aerial Work Platforms)、旋挖鉆機(RDR ,Rotary Drilling Rigs)等10類大型施工機械,其示例如圖4所示。
圖4 10類大型施工機械示例
3.2.1 數(shù)據(jù)特征
本文共收集到包含不同施工機械的圖片3 600張,各類大型施工機械的數(shù)量占比如圖5所示。
圖5 原始數(shù)據(jù)集中的大型施工機械占比
其中, ECT占大型施工機械的62%,遠超其余大型施工機械,而數(shù)量較少的AWP、PT、FL均僅占施工機械數(shù)據(jù)的1%,不同樣本間的數(shù)量差異較大。此外,在施工現(xiàn)場視頻流中會頻繁出現(xiàn)遮擋、重疊的現(xiàn)象,且不同視頻流間縱深差異大,同類目標的大小浮動可達10倍,增加了目標檢測的難度。
3.2.2 數(shù)據(jù)處理技術(shù)應(yīng)用
為解決數(shù)據(jù)集樣本不平衡的問題,本文采用重采樣技術(shù),并結(jié)合數(shù)據(jù)增強技術(shù)。通過對不同類別的樣本施加不同強度數(shù)據(jù)增強的方式,豐富數(shù)據(jù)集中的信息,并使用重采樣技術(shù)縮小不同類樣本數(shù)量間的差距,增強模型的穩(wěn)定性和場景適應(yīng)性。在綜合考慮監(jiān)控視頻流數(shù)據(jù)中目標的形態(tài)學信息、方向信息的重要性及運動模糊現(xiàn)象的存在后,選用了左右鏡像、亮度調(diào)節(jié)、顏色抖動、隨機擦除、噪音、運動模糊隨機組合等數(shù)據(jù)增強技術(shù)來增強數(shù)據(jù)的多樣性,各類數(shù)據(jù)增強技術(shù)的效果如圖6所示。
圖6 各類數(shù)據(jù)增強技術(shù)效果示例
本文采用了Focal Loss作為損失函數(shù),F(xiàn)ocal Loss的核心思想是對于容易分類的樣本(即分類器對其預測正確的樣本)降低其權(quán)重,減少其對損失函數(shù)的貢獻;同時,增加難以分類樣本(即分類器對其預測錯誤的樣本)的權(quán)重,增強其對損失函數(shù)的貢獻。這樣,模型就能對少數(shù)類別的樣本有更高的關(guān)注度,從而提升少數(shù)類別樣本的檢測準確率。
3.2.3 訓練集生成
將原始數(shù)據(jù)集按8∶2劃分為訓練集與驗證集,對訓練集使用數(shù)據(jù)增強,進行樣本量平衡,最終訓練集中共包括26 640張施工機械圖片,驗證集包括6 660張施工機械圖片。各類別施工機械的數(shù)量與占比如圖7所示。由圖7可知,處理過后的數(shù)據(jù)集樣本數(shù)量已較為平衡。
圖7 訓練集各樣本數(shù)量與占比
智能視頻分析模型使用的訓練環(huán)境如表1所示,超參數(shù)設(shè)置如表2所示。
表1 訓練環(huán)境
表2 超參數(shù)設(shè)置
本文采用宏平均準確率(macro-ACC)、宏平均查全率(macro-R)、宏平均查準率(macro-P)、PR曲線下面積的平均值(mAP)、每秒傳輸幀數(shù)(FPS ,F(xiàn)rames Per Second)來評價模型定位、分類大型施工機械的能力與速度。
為驗證遷移學習和基于重采樣的不平衡學習在智能視頻分析模型中的效果,本文基于章節(jié)3中生成的3.33萬張標注圖片,分別將遷移學習、不平衡學習引入模型訓練,并比較模型的檢測效果。其中,不平衡學習的重采樣技術(shù)依賴于數(shù)據(jù)增強相關(guān)技術(shù)。
為驗證遷移學習與不平衡學習對模型檢測性能的提升,以及針對數(shù)據(jù)集特點使用的數(shù)據(jù)增強技術(shù)的效果,本文對比了原始YOLOv6模型與依次引入遷移學習、數(shù)據(jù)增強、不平衡學習的YOLOv6模型的定位與分類性能,如表3所示。
表3 不同模型訓練方法的效果對比
由表3可看出,直接使用原始數(shù)據(jù)進行訓練時,模型的mAP僅為0.129,macro-ACC僅有31.3%,這說明僅靠收集到的原始數(shù)據(jù)無法滿足YOLOv6模型訓練大型深度神經(jīng)網(wǎng)絡(luò)所需的數(shù)據(jù)量;而在使用YOLOv6-s模型作為預訓練模型進行遷移學習后,mAP達到了0.537,macro-ACC達到了70.5%,說明在COCO數(shù)據(jù)集上學習到的知識有效轉(zhuǎn)移到了本文任務(wù)上;在引入數(shù)據(jù)增強與不平衡學習后,mAP分別上漲了23.2%與18.7%,最終達到0.956,此時模型已能準確地定位各類大型施工機械并進行分類。
為進一步研究模型在識別不同類型大型施工機械時遇到的問題,以及不同模型訓練方法起到的作用,在驗證集上對各類大型施工機械的識別準確率指標進行了對比研究,結(jié)果如圖8所示。ACC-1~ACC-4分別代表原始數(shù)據(jù)、引入遷移學習、引入遷移學習+數(shù)據(jù)增強、引入遷移學習+數(shù)據(jù)增強+不平衡學習方法后,模型對各類施工設(shè)備的檢測準確率。
圖8 各類大型施工機械A(chǔ)CC指標對比
由圖8可看出,在直接使用原始數(shù)據(jù)集進行訓練時,除了數(shù)量占比最大的ECT檢測準確率較高,其余9種施工機械的準確率均較低,是由原始圖像數(shù)量不平衡導致的;在使用預訓練模型YOLOv6-s進行遷移學習后,少樣本的大型施工機械檢測準確率均有了顯著提升;而在使用數(shù)據(jù)增強技術(shù)增加少樣本類數(shù)據(jù)的多樣性后,模型的穩(wěn)定性與場景適應(yīng)性有了進一步提升;在采用重采樣和類別權(quán)重方法對樣本數(shù)量進行平衡,增強模型對少數(shù)量樣本的重視后,雖然ECT的檢測準確率有少許下降,但其余9種大型施工機械的檢測準確率均有了不同幅度的提升。
基于該模型的大型施工機械監(jiān)管系統(tǒng)能夠結(jié)合施工計劃,把識別出的機械與計劃下達的機械大類進行核對,如檢測到超過計劃下達的機械數(shù)量或類型,則生成預警、告警信息,提交人工監(jiān)理模塊進行核驗,由人工監(jiān)理模塊進行復核和處置,實現(xiàn)高效率、高準確率的全天候安全監(jiān)測。
本文設(shè)計了大型施工機械監(jiān)管系統(tǒng),重點闡述了該系統(tǒng)分析層中用于智能視覺分析決策的智能視頻分析模型的設(shè)計、數(shù)據(jù)收集和預處理策略,以及模型性能評估,模型的宏平均準確率達到了94.0%、mAP達到了0.956、每秒檢測幀數(shù)達到了84?;谠撃P偷谋鞠到y(tǒng)實現(xiàn)了對大型施工機械的快速、準確定位和分類,節(jié)約了大量監(jiān)管人力。 未來可在大型機械的細粒度分類、機械施工區(qū)域侵入檢測等方面進行進一步的研究。