基金項目:安徽省重點研究與開發(fā)計劃項目(S2022b05020001)
第一作者簡介:尚福洲(1985-),男,碩士,工程師。研究方向為光輻射計量。
DOI:10.19981/j.CN23-1581/G3.2024.21.008
摘" 要:近年來,針對導(dǎo)航避障、勘探救援等領(lǐng)域的需求,城市環(huán)境下遮蔽目標(biāo)的成像技術(shù)成為研究熱點。該文首先分析目前三維成像的技術(shù)現(xiàn)狀,之后針對城市環(huán)境的特殊性,重點研究基于深度學(xué)習(xí)與仿人眼視覺成像的圖像融合技術(shù),并對該方法進(jìn)行測試驗證,實驗結(jié)果表明,該方法明顯提高對目標(biāo)圖像的識別效率。
關(guān)鍵詞:深度學(xué)習(xí);三維成像;仿人眼;視覺成像;圖像融合技術(shù)
中圖分類號:TN253" " "文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號:2095-2945(2024)21-0032-04
Abstract: Aiming at the needs of navigation obstacle avoidance, exploration and rescue, imaging technology for sheltered targets in urban environment has become a research hotspot in recent years. This paper first analyzes the current technical status of three-dimensional imaging, and then focuses on the image fusion technology based on deep learning and human visual imaging for the particularity of urban environment. The method is tested and verified. The experimental results show that the method significantly improves the target recognition efficiency.
Keywords: deep learning; three-dimensional imaging; imitating human eyes; visual imaging; image fusion technology
在復(fù)雜城市環(huán)境中,遍布高樓大廈,繁華的商業(yè)區(qū)、狹窄的胡同街巷、行車道路縱橫,猶如一個巨大的迷宮。遙感勘探、城市導(dǎo)航等與民生息息相關(guān)的行業(yè)離不開適時完善的信息支撐。因此現(xiàn)代城市環(huán)境的成像技術(shù)研究變得越來越重要。而三維成像技術(shù)可在城市復(fù)雜環(huán)境中發(fā)揮巨大作用,它可立體全角度地去探測復(fù)雜城市環(huán)境的結(jié)構(gòu)和道路信息,將勘探或者導(dǎo)航的視野由二維擴(kuò)展為三維。例如,在城市導(dǎo)航時,駕駛無人汽車或者自動導(dǎo)航系統(tǒng),可以首先利用加裝在無人系統(tǒng)周圍的傳感器探測附近環(huán)境的三維信息,實時實現(xiàn)目標(biāo)識別,完成三維圖像的構(gòu)建,展現(xiàn)出三維模型,傳感器檢測到障礙物,無人系統(tǒng)可自動規(guī)劃出一條路徑從而避免碰撞[1]。
目前,應(yīng)用非接觸式三維成像形式,具有對目標(biāo)進(jìn)行無損傷、高精度和高效的三維成像特點和優(yōu)勢,已經(jīng)成為目前信息化時代下目標(biāo)三維測量與重建的重要途徑和發(fā)展方向[2]。近年來,單像素成像、單光子成像、三維鬼成像和立體視覺成像等重新構(gòu)建出周圍復(fù)雜城市環(huán)境的三維圖形[3]。例如,美國芝加哥大學(xué)構(gòu)建出了顏色直方圖全局匹配的算法,該方法可更好地復(fù)現(xiàn)出目標(biāo)的方向、尺度,同時匹配出了木匾的重疊情況,但由于該方法往往需要更嚴(yán)苛的光照條件,因此當(dāng)出現(xiàn)了更多不同的目標(biāo),且數(shù)據(jù)量較大時該方法便出現(xiàn)劣勢。
針對基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)存在收斂速度慢、訓(xùn)練困難等問題[4],現(xiàn)有方法因存在目標(biāo)檢測與識別不能同時滿足大視場、高分辨率和實時性等缺點,本文通過將基于網(wǎng)絡(luò)激活函數(shù)的非線性生成法和仿人眼視網(wǎng)膜三維成像目標(biāo)識別技術(shù)相結(jié)合,提出一種適用于復(fù)雜環(huán)境下的多目標(biāo)檢測識別方法,通過研究卷積神經(jīng)網(wǎng)絡(luò)算法和建立仿人眼模型,研究復(fù)雜環(huán)境下多目標(biāo)檢測的設(shè)計依據(jù)[5]。
1" 卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測技術(shù)
鑒于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)存在收斂速度慢、訓(xùn)練困難等問題,本文在網(wǎng)絡(luò)訓(xùn)練過程中提出一種非線性生成法,并將其作為激活函數(shù),實現(xiàn)網(wǎng)絡(luò)模型從低容量到高容量的平滑過渡??紤]到激活函數(shù)作為整個神經(jīng)網(wǎng)絡(luò)中主要的非線性部分,某種程度上直接影響網(wǎng)絡(luò)的容量,因此,提出一種使網(wǎng)絡(luò)模型從低容量向高容量過渡的激活函數(shù)——非線性生成法。為實現(xiàn)非線性生成法,此處給一系列激活函數(shù)引入一個參數(shù)ti,該參數(shù)可訓(xùn)練,將其改成為新的形態(tài),此處稱之為非線性生成器(Nonlinearity Gnerator,NG),其中參數(shù)ti可以很容易地嵌入BP算法,并根據(jù)數(shù)據(jù)分布自我學(xué)習(xí)。非線性生成法可以改變網(wǎng)絡(luò)的容量,具體而言,在訓(xùn)練初期,恰當(dāng)?shù)某跏蓟瘏?shù)ti可以使激活函數(shù)在結(jié)構(gòu)上對其輸入信號呈現(xiàn)出線性對稱性,如此以來,假設(shè)忽略池化層引入的非線性,整個網(wǎng)絡(luò)在訓(xùn)練初期就只有卷積層引入的線性變換,從而模型容量降低。隨著訓(xùn)練的進(jìn)行,非線性生成法可以根據(jù)數(shù)據(jù)分布不斷地改變模型復(fù)雜度,使模型容量提高。
此處將非線性生成法定義成式(1)形式
, (1)
式中:f(·)是激活函數(shù),xi是在第i個節(jié)點上激活函數(shù)的輸入。我們設(shè)定參數(shù)ti可根據(jù)激活函數(shù)輸入數(shù)據(jù)的分布控制著非線性生成法的線性程度。
本文提出以非線性生成法為基礎(chǔ),作為卷積神經(jīng)網(wǎng)絡(luò)的激活函數(shù),從而構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò)模型,可應(yīng)用于復(fù)雜環(huán)境下的目標(biāo)識別。實驗基于一塊Nvidia公司生產(chǎn)的Jetson TX2處理板,采用PYTHON來完成算法編寫。實驗采用平鋪網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型,卷積層由16個尺寸為3×3的卷積核構(gòu)成,并且整個網(wǎng)絡(luò)由6個卷積模塊即6個“卷積層+ReLU”模塊組成,模型深度為20層(受限于硬件平臺性能),同時使用Xavier初始化網(wǎng)絡(luò),并采用SGD算法優(yōu)化,初始學(xué)習(xí)效率設(shè)置為0.01。定義網(wǎng)絡(luò)在訓(xùn)練集上識別率超過80%即為可收斂,不用將網(wǎng)絡(luò)訓(xùn)練至完全收斂,所以訓(xùn)練時學(xué)習(xí)效率不變。訓(xùn)練時每批數(shù)量設(shè)置為128,選用動量優(yōu)化,設(shè)置動量系數(shù)為0.9。
經(jīng)過試驗,采用一段交通監(jiān)控視頻,視頻中包括常規(guī)生活目標(biāo),通過加載已訓(xùn)練的網(wǎng)絡(luò)模型,可以實現(xiàn)對視頻中特定目標(biāo)的有效識別,如車輛、人、非機(jī)動車或動物。若將該網(wǎng)絡(luò)模型應(yīng)用在人流量變化多段的路段,如圖1所示,該算法可以實時統(tǒng)計該路段特定目標(biāo)流量(如車流量、人流量),便于疏通交通或調(diào)配警力維穩(wěn),減少了人力監(jiān)控成本與誤差。
2 三維圖像LPSURF目標(biāo)識別方法和深度學(xué)習(xí)高精度分割算法
相對于傳統(tǒng)的空間成像,基于仿人眼視覺成像技術(shù)產(chǎn)生的圖像信息少,輪廓不清晰,分辨率往往無法滿足要求,對后期的圖像識別和處理造成困難。因此,本文采用了一種基于加速魯棒性特征的仿人眼視覺成像目標(biāo)識別方法,此方法可以解決仿人眼視覺成像在尺度和旋轉(zhuǎn)同時變換條件下的信息提取和目標(biāo)識別問題。該方法在檢查圖像參數(shù)閾值設(shè)定是否合法之后進(jìn)行判斷,然后提取仿人眼圖像的加速魯棒性特征和基準(zhǔn)圖中的加速魯棒性特征,對加速魯棒性特征點進(jìn)行匹配。根據(jù)特征點之間的位置變動,可以計算出匹配點的位置,從而輸出匹配點。該方法可以有效減少目標(biāo)匹配的時間,更加快速地應(yīng)用于目標(biāo)識別系統(tǒng)中。
目前的深度學(xué)習(xí)的分割算法多采用手動標(biāo)記的方式,完成對前景目標(biāo)圖像的標(biāo)記,然后通過分析前景目標(biāo)圖像和背景目標(biāo)圖像,最終完成目標(biāo)圖像的分割。如果面對的圖像處理數(shù)據(jù)量較大,利用手動方式對前景目標(biāo)圖像進(jìn)行標(biāo)記的效率會非常低效和繁雜。本文采用基于深度學(xué)習(xí)的目標(biāo)識別方法,首先將低效的手動標(biāo)記方法替換成智能識別目標(biāo)圖像前景目標(biāo),訓(xùn)練好的目標(biāo)檢測模型對圖像進(jìn)行超像素處理,規(guī)范選取聚類中心,對每個像素分配所屬的聚集。判斷所有像素點是否為邊界點,然后根據(jù)目標(biāo)函數(shù)計算當(dāng)前像素所屬的新聚類中心。根據(jù)目標(biāo)框區(qū)域初始化前景背景圖像,最終完成最小分科,實現(xiàn)全自動目標(biāo)分割,輸出分割結(jié)果。
3" 仿人眼三維目標(biāo)識別技術(shù)
針對三維圖像數(shù)據(jù)量大、實時性差的問題,擬采用仿人眼三維目標(biāo)識別技術(shù)解決此問題。由于人眼視網(wǎng)膜為空間變分辨成像,具有旋轉(zhuǎn)及尺度不變性,能夠兼顧大視場和高分辨力的要求,滿足精度和實時性指標(biāo)[6]。
3.1" 仿人眼三維成像系統(tǒng)模型
仿人眼激光三維成像核心之一是空間變分辨率成像采樣方法,一般采用環(huán)形方式實現(xiàn)變分辨率成像,如圖2所示。采樣結(jié)構(gòu)如圖2(a),在半采樣環(huán)獲得采樣點值是漂移的,更簡化的采樣結(jié)構(gòu)如圖2(b)所示。采樣方式模擬人眼視網(wǎng)膜感光細(xì)胞分布,像元類似感光細(xì)胞,均勻分布在同心圓環(huán)中,按照視網(wǎng)膜的構(gòu)成,將整塊區(qū)域的中央較深的凹陷稱作中心凹區(qū),中心凹區(qū)以外稱為周邊區(qū)域。視網(wǎng)膜的中心凹區(qū)負(fù)責(zé)提供高清晰度的中央視力,同樣將仿人眼的中央凹區(qū)排布出像元尺寸相等的像元結(jié)構(gòu),區(qū)域最小且能夠提供高感知能力;而在仿人眼結(jié)構(gòu)的周邊區(qū)域,像元的排布逐環(huán)增加且尺寸變大。綜合考慮制造加工和實現(xiàn)問題,本文采用簡化采樣結(jié)構(gòu),將像元環(huán)形均勻排布在仿人眼視網(wǎng)膜像元的環(huán)形中,在解析像元時,按照對數(shù)-極坐標(biāo)對應(yīng)的變化方法來實現(xiàn)在圓環(huán)中的排列[7]。
為了與傳統(tǒng)定分辨成像進(jìn)行對比,在視場相同的情況下,給出仿人眼陣列結(jié)構(gòu),如圖3所示。從圖中可以看到相鄰像素相切,每環(huán)圖像傳感器的直徑按照指數(shù)增長,整個結(jié)構(gòu)的半徑為80 mm,后續(xù)仿真實驗均是基于此結(jié)構(gòu)。由于該類三維成像系統(tǒng)針對的目標(biāo)較遠(yuǎn)(超出光學(xué)系統(tǒng)焦距10倍以上),可以將其視為望遠(yuǎn)光學(xué)系統(tǒng)[8]。對于望遠(yuǎn)光學(xué)系統(tǒng),視場主要取決于探測器尺寸,因此,若要使得變分辨率與定分辨率系統(tǒng)具有相同的視場,需要探測器陣列結(jié)構(gòu)尺寸相同,假設(shè)定分辨率的探測器尺寸為變分辨率探測器陣列中最小探測器尺寸的2倍(0.28 mm),則像素數(shù)通過計算并取整為324 900(570×570)[9]。
3.2" 仿人眼模型仿真驗證
為了驗證仿人眼視覺成相對于傳統(tǒng)成像方式更可以壓縮冗余像素,對目標(biāo)成像模型進(jìn)行了測試與仿真驗證。首先建立方針模型:靶標(biāo)模型如圖4所示。將五角星成像模型的目標(biāo)作為感興趣區(qū)域目標(biāo)(厚度設(shè)定為50 mm),并將該目標(biāo)后方面積的范圍設(shè)定為背景區(qū)域,作為非感興趣區(qū)域目標(biāo)。在仿真實驗中,通過采樣峰值鑒別法獲取飛行時間。為了驗證仿人眼對非感興趣區(qū)域目標(biāo)可以實現(xiàn)冗余像素的壓縮能力,在此規(guī)定圖像中對感興趣區(qū)域目標(biāo)成像的像素為有效像素,對非感興趣區(qū)域的目標(biāo)成像的像素為冗余像素[10]。
建立以上仿真條件之后進(jìn)行實驗,獲得了目標(biāo)成像區(qū)域的三維圖像,結(jié)果如圖5所示,其中圖5(a)為傳統(tǒng)成像結(jié)構(gòu)重構(gòu)實現(xiàn)的三維圖形,圖5(b)為結(jié)合仿人眼視覺成像技術(shù)的三維圖形。雖然傳統(tǒng)定分辨率可以清楚分辨出目標(biāo),但是產(chǎn)生了過多的冗余像素。經(jīng)統(tǒng)計,圖5(a)中的傳統(tǒng)分辨率總像素數(shù)量為570×570,有效像素數(shù)量為71 500,僅占整個像素的22%。而圖5(b)中的仿人眼視覺成像技術(shù)的圖像總像素數(shù)量為28×39,有效像素數(shù)量為765,占總數(shù)的70%。
從上述仿真結(jié)果可得出結(jié)論:在相同的視場條件下,仿人眼視覺結(jié)構(gòu)的三維成像方式可以大大提升數(shù)據(jù)處理效率,有效降低冗余數(shù)據(jù)的占比,實現(xiàn)對冗余數(shù)據(jù)的壓縮率有效提升。
4" 結(jié)論
本文提出了網(wǎng)絡(luò)激活函數(shù)的非線性生成與變分辨仿人眼視網(wǎng)膜三維成像相結(jié)合的目標(biāo)識別方法。一方面,設(shè)計非線性激活函數(shù),通過研究卷積神經(jīng)網(wǎng)絡(luò)算法實現(xiàn)網(wǎng)絡(luò)模型從低容量到高容量的平滑過渡;另一方面,將仿生變分辨率成像機(jī)制引入目標(biāo)識別方法。從實驗結(jié)果可以看出,該方法不僅可以有效壓縮無效像素,大大提升目標(biāo)識別速率,同時,利用旋轉(zhuǎn)與尺度不變性可更好提高識別精度。
參考文獻(xiàn):
[1] 吳彤,傅中力.三維重建技術(shù)及其軍事應(yīng)用[J].國防科技,2015,36(1):31-34.
[2] GUO Y, WANG H, HU Q, et al. Deep learning for 3d point clouds: A survey [J].2020,43(12): 4338-4364.
[3] 李軒,劉飛,邵曉鵬.偏振三維成像技術(shù)的原理和研究進(jìn)展[J]. 紅外與毫米波學(xué)報,2021,40(2):248-262.
[4] 程順生,覃馭楚,呂炎杰.城市環(huán)境下基于雙目視覺的移動目標(biāo)檢測[J].地理空間信息,2022,20(3):7-11.
[5] 陶順勇,楊紅,賴金富,等.多源多目視覺無人車移動測量系統(tǒng)設(shè)計與集成[J].人民長江,2015,46(14):80-83,97.
[6] 管輝.基于光場成像的多目標(biāo)識別與處理方法[D].西安:西安工業(yè)大學(xué),2022.
[7] GONG W, ZHAO C, JIAO J, et al. Three-dimensional ghost imaging ladar[J].Eprint Arxiv,2013.
[8] GONG W, ZHAO C, YU H, et al. Three-dimensional ghost imaging lidar via sparsity constraint[J].Rep,2016(6):26133.
[9] SUN M J, EDGAR M P, GIBSON G M, et al. Single-pixel three-dimensional imaging with time-based depth resolution[J].Nature Communications,2016(7):12010.
[10] LINDELL D B, WETZSTEIN G. Three-dimensional imaging through scattering media based on confocal diffuse tomography[J].Nature Communications,2020,11(1):4517.