玄玉波, 黃紅艷, 陳玫玫, 趙增君, 姜岳辰
(1.吉林大學a.通信工程學院;b.機械與航空航天工程學院,長春130022;2.石家莊郵電職業(yè)技術學院電信工程系,石家莊050031)
隨著5G 時代的來臨,人工智能和虛擬現(xiàn)實技術正在改變我們的世界。這些技術中的全景拼接以及圖像深度學習是較為先進的圖像處理技術[1-3]。然而,當前的數(shù)字圖像處理實踐教學,大多還處于傳統(tǒng)的圖像處理階段,如圖像去噪、形態(tài)學處理、邊緣檢測等[4],學生對圖像處理的全景拼接和深度學習理解和復現(xiàn)缺少認知[5]。本文開發(fā)了一款圖像處理的嵌入式實驗平臺,并將虛擬現(xiàn)實技術中的全景拼接、圖像處理中的深度學習等應用到該平臺中,在開放實驗等實踐課程中增加學生對這些技術的直觀認識,培養(yǎng)學生對當前圖像處理的熱點技術的興趣和理解。
實驗平臺的設計考慮到便攜性、高效和低功耗,選用了NVIDIA嵌入式開發(fā)板Jetson TX2 和e-CAM30 高清相機設計多相機采集系統(tǒng),如圖1 所示。Jetson TX2是一臺模塊化AI 超級計算機,采用新一代NVIDIA PascalTM架構GPU。它性能強大,但外形小巧,運算能力相當于頂級的i7CPU,滿足實驗平臺速度需求。e-CAM30_HEXCU TX2 是由e-con Systems公司設計制作的一種新型MIPI 相機板,支持多種分辨率:640 ×480、1 280 ×720、1 920 ×1 080、2 304 ×1 906,最高達到了2 304 ×1 536。實驗平臺使用了6 個相機使兩兩相機有圖像重疊區(qū)域,滿足全景圖像拼接實驗需求。
圖1 實驗平臺實物圖
相機由SCI異步串行通信方式接入Jetson TX2 主板,傳輸速率為5 GB/s。同時,視場360°,無論目標出現(xiàn)在何處,都會被相機采集到,不必考慮目標的鏡頭切換,可進行被識別的目標推送的實驗設計。
基于特征的方法是目前全景圖像拼接領域的主要算法,包括特征提取和圖像融合2 個步驟。該算法對于在光照變化、旋轉變化、尺度縮放、幾何變形、圖像模糊等情況處理效果較好。其中特征提取的方法主要包括SIFT(Scale Invariant Feature Trans form)算法[6]、角點算法[7]、SURF(Speeded Up Robust Features)算法[8]等。而圖像融合算法主要有像素級、特征級和決策級?;谙袼丶壍亩喾直媛嗜诤鲜菆D像融合中最具潛力的方法,并且具有較高的精度。實驗設計中采用了SURF算法進行特征匹配和多分辨率融合算法進行全景拼接,拼接效果如圖2 所示。
圖2 不同光照條件下全景拼接結果
本實驗利用谷歌的開源Objection Detection TensorFlow 框架,使用了卷積網(wǎng)絡SSD(Single Shot Mulitbox Detector)模型[9]。SSD 是一種基于卷積神經(jīng)網(wǎng)絡的目標檢測算法,網(wǎng)絡模型如圖3 所示。在硬件平臺Jetson TX2 板上使用SSD 實現(xiàn)目標識別,得到良好的檢測效果。實驗設計完成3 個功能:動態(tài)概率打分、坐標標注和智能存儲。
圖3 SSD網(wǎng)絡模型圖
功能1對識別目標進行動態(tài)概率打分。如圖4所示,對照片目標的識別,對瓶子和人識別概率進行打分,并給出了相應百分數(shù)。
功能2設計了行人坐標標注。圖5 示例了對于person的坐標實時標注,4 個坐標分別是檢測框左、右邊線坐標和上、下邊線坐標(278,431,302,428)。
功能3節(jié)省存儲空間。當視頻畫面中存在行人時,可自動記錄行人的運動視頻,不存在或者行人概率低于50%時不儲存視頻,如圖6 所示。
圖4 動態(tài)概率打分
圖5 坐標標注
多次測試后,對于近距離行人的檢測率超過了98%;遠距離行人也有超過85%的檢測率。而對于非常規(guī)姿態(tài)的行人檢測率保持在70%;50%遮擋的行人檢測率維持在60%左右,基本滿足日常需求。而坐標標注可以保證100%的行人標注率,對于智能存儲上,50%的行人判斷閾值基本可以保證是否出現(xiàn)行人,這兩點輔助功能很好地完成了任務。此外,在多個相機存在時,也可同時完成識別,如圖7 所示。
圖6 智能存儲
圖7 多相機同時識別
視頻遠程推送由推流端、服務器、拉流端構成。推流端用ffmpeg 完成;服務器由NGINX +RTMP 模塊完成;拉流端使用網(wǎng)頁Flashplayer 或VLC 軟件完成,如圖8 所示[10]。Jetson TX2 為推流服務器,只需使終端處于同一局域網(wǎng)內(nèi),輸入rtmp 拉流地址,即可實現(xiàn)識別的視頻在不同終端的遠程觀看[11]。PC 端VLC 拉流播放如圖9 所示,手機端VLC 拉流播放如圖10 所示。在此基礎上,添加短信提醒功能,當監(jiān)控區(qū)域存在行人時,立即向手機發(fā)送短信提醒監(jiān)控者,如圖11所示。
圖8 網(wǎng)頁端播放
圖9 PC端VLC播放
圖10 手機端VLC播放
圖11 短信提醒
關鍵點檢測由單元模板定位關鍵點和模板關系連接關鍵點組成。通過定位人體關節(jié),姿態(tài)分析,對出現(xiàn)在視頻中的人進行實時監(jiān)測,如果有異?;蛘呶kU行為,可以及時告知后臺,立刻處理,對看護老人和孩子能起到重要作用。
模板定位由基于darknet 框架的yolov3 關鍵點檢測實現(xiàn)[12-13];檢測人體關節(jié)點的地方包括人體的頭、左肘和右肘、左腕和右腕、腰、左肩和右肩、左膝和右膝、左踝和右踝等。在Jetson TX2 上下載好各關節(jié)部位的FLIC數(shù)據(jù)集,訓練出模型參數(shù)后,測試效果如圖12 所示。模板關系取各模板檢測框中心位置畫出人體骨架,如圖13 所示。
圖12 模板定位
圖13 模板連接
本實驗采用連線間夾角的方法判斷骨架姿態(tài)。計算左右肩關節(jié)點和左右肘關節(jié)點、左右肘關節(jié)點和左右腕關節(jié)點與水平x 軸的4 個角度,如果小于所設閾值角度10°,則被判定為T 姿勢,如圖14 所示。關鍵點識別后的連線效果如圖15 所示。
圖14 T姿勢
圖15 T姿勢識別
若定義一個測試者站馬步的姿勢,計算左右臀關節(jié)點和左右膝關節(jié)點、左右膝關節(jié)點和左右腳踝關節(jié)點與水平x軸的4 個角度,從而能夠算出膝蓋彎曲角度,如果在所設閾值角度范圍85° ~100°之間,則被判定為馬步姿勢。與此類似,可定義出其他姿勢的判別辦法。馬步姿勢識別與比心姿勢識別效果分別如圖16、17 所示。
圖16 馬步姿勢識別
圖17 比心姿勢識別
本文設計了一套新穎的數(shù)字圖像處理實驗平臺,該平臺能完成4 個實驗內(nèi)容,分別是全景拼接、行人檢測、目標推送和關鍵點檢測。全景拼接得到全景視頻圖像,使用VR眼鏡可以體驗虛擬現(xiàn)實技術,具有較好的沉浸感。行人監(jiān)測和目標推送可以進行智能監(jiān)控,當該場所出現(xiàn)行人時,能及時識別。進而通過開發(fā)遠程推送使得監(jiān)控者能夠在遠程的終端隨時隨地觀看,不必限制于區(qū)域因素。最后一個實驗則是人體不同姿態(tài)的判別。該實驗平臺在我校的開放實驗課程中已經(jīng)投入使用了2 個學年,具有圖像分辨率高、畫質(zhì)優(yōu)良、功耗低等優(yōu)點。學生參與的熱情極高,利用這些功能設計了一些實際應用的項目,例如:無人機搜救、無人區(qū)監(jiān)控等。通過這些實驗,學生們加深了對當前熱點的深度學習、全景拼接技術的理解,切實體會到了這些圖像處理技術在實際工程中的應用。伴隨著以培養(yǎng)創(chuàng)新為導向教育理念,該開放實驗平臺的應用體現(xiàn)了對學生創(chuàng)新思維的鍛煉,充實和開拓了數(shù)字圖像實驗的教學內(nèi)容。