摘 要:隨著計算機(jī)技術(shù)和機(jī)器視覺技術(shù)的迅速發(fā)展與應(yīng)用, 探索基于“人工智能+”模型的未爆子彈藥搜尋技術(shù)受到了廣泛關(guān)注。 但是, 由于未爆子彈藥具有一定的危險性和受軍事應(yīng)用的特殊性影響, 數(shù)據(jù)集構(gòu)建是目前亟待解決的瓶頸問題。 本文由此出發(fā), 分別論述了真實(shí)實(shí)物圖像數(shù)據(jù)集和利用實(shí)物圖片進(jìn)行三維重建數(shù)據(jù)集的構(gòu)建方法及流程, 重點(diǎn)分析了兩種數(shù)據(jù)集構(gòu)建過程中的相關(guān)關(guān)鍵技術(shù)及其優(yōu)缺點(diǎn), 并給出了一種利用多目相機(jī)采集目標(biāo)圖像和地理坐標(biāo)信息, 然后利用深度學(xué)習(xí)算法進(jìn)行目標(biāo)特征提取、 生成三維點(diǎn)云和融合三維圖像。 試驗(yàn)結(jié)果表明, 采用該方法構(gòu)建的三維數(shù)據(jù)集可以有效解決未爆子彈藥現(xiàn)有數(shù)據(jù)集數(shù)據(jù)量不足的問題, 最后展望了數(shù)據(jù)集構(gòu)建方法的未來發(fā)展方向。
關(guān)鍵詞:未爆子彈藥; 圖像數(shù)據(jù)集; 深度學(xué)習(xí); 三維重建; 圖像處理
中圖分類號:TJ760
文獻(xiàn)標(biāo)識碼: A
文章編號:1673-5048(2024)04-0021-12
DOI: 10.12132/ISSN.1673-5048.2023.0233
0 引 言
從世界上近幾場局部沖突中, 可以發(fā)現(xiàn)子母彈已經(jīng)被各軍事強(qiáng)國研發(fā)并使用, 由此必將產(chǎn)生大量的未爆子彈藥。 地表未爆子彈藥是未爆彈藥的一種, 由于其在下降過程中的穩(wěn)定性且有降落傘、 飄帶等裝置進(jìn)行增阻、 減旋, 使其在戰(zhàn)斗部飛越過彈道頂點(diǎn)后緩慢降落, 落在地面上未發(fā)生爆炸且暴露在地球表面。 如果這些未爆子彈藥未及時被發(fā)現(xiàn)和處理, 將對該地域內(nèi)的人員安全造成極大的威脅。
隨著人工智能技術(shù)迅猛發(fā)展, 深度學(xué)習(xí)網(wǎng)絡(luò)在各個領(lǐng)域的應(yīng)用日益廣泛, 尤其在機(jī)器視覺領(lǐng)域, 已經(jīng)取得了顯著的進(jìn)展。 在檢測未爆炸物方面, 采用基于深度學(xué)習(xí)網(wǎng)絡(luò)的無人機(jī)載平臺對地面目標(biāo)圖像進(jìn)行識別的方法是當(dāng)前研究的熱點(diǎn)。 胡聰?shù)龋?]利用基于Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)的計算機(jī)視覺算法與無人車結(jié)合, 提出了排爆無人車自主檢測未爆彈的預(yù)想。 單成之等[2]提出了一種基于關(guān)鍵點(diǎn)的未爆彈圖像目標(biāo)檢測算法與機(jī)器人相結(jié)合的解決方案, 該方案對未爆彈圖像進(jìn)行初步特征提取, 爾后再利用特定網(wǎng)絡(luò)進(jìn)行特征增強(qiáng), 最后采用頭部預(yù)測模型對熱力圖、 中心點(diǎn)及尺寸大小分別進(jìn)行預(yù)測, 檢測結(jié)果較好。 曾俊等[3]設(shè)計了一種融合了無人機(jī)自主導(dǎo)航、 深度學(xué)習(xí)和YOLOv5目標(biāo)檢測算法的空基智能排爆系統(tǒng), 提高了區(qū)域范圍內(nèi)整體的檢測速度。 采取“無人+智能”的方法無需操作人員與未爆子彈藥接觸, 因此被認(rèn)為是目前最安全、 最有效的檢測方法。 然而圖像識別的過程必然需要構(gòu)建含有多種類型未爆子彈藥在不同環(huán)境條件下的數(shù)據(jù)集, 為深度學(xué)習(xí)網(wǎng)絡(luò)提供數(shù)據(jù)支撐。 圖像數(shù)據(jù)集的來源主要包括基于真實(shí)實(shí)物的圖像采集數(shù)據(jù)集、 基于實(shí)物圖片的三維重建數(shù)據(jù)集和基于虛擬仿真的虛擬數(shù)據(jù)集, 由于虛擬數(shù)據(jù)集必然存在域偏移問題[4], 因此在構(gòu)建數(shù)據(jù)集時通常優(yōu)先考慮采集大量真實(shí)實(shí)物圖片或者利用少量實(shí)物圖片進(jìn)行三維重建, 圖像數(shù)據(jù)集構(gòu)建流程如圖1所示。
1 真實(shí)實(shí)物數(shù)據(jù)集的構(gòu)建方法及關(guān)鍵技術(shù)
由于真實(shí)實(shí)物能夠全面反映目標(biāo)的形狀、 顏色、 結(jié)構(gòu)等外觀狀態(tài), 使用真實(shí)實(shí)物數(shù)據(jù)集進(jìn)行預(yù)測或者目標(biāo)識別效果較好, 也一直廣受學(xué)者的青睞。 而由于自然環(huán)
境的影響, 對真實(shí)實(shí)物進(jìn)行圖像采集或者從開源數(shù)據(jù)中進(jìn)行挖掘, 圖像中必然會摻雜一些背景噪聲或其他影響因素, 并且很多時候難以窮盡目標(biāo)可能處在的環(huán)境或狀態(tài), 因此在構(gòu)建真實(shí)實(shí)物數(shù)據(jù)集的過程中往往會使用一些圖像處理的相關(guān)技術(shù)。 如圖2所示, 真實(shí)實(shí)物數(shù)據(jù)集構(gòu)建的一般過程主要包括圖像數(shù)據(jù)采集、 圖像數(shù)據(jù)清洗、 圖像數(shù)據(jù)預(yù)處理、 圖像數(shù)據(jù)標(biāo)注和圖像數(shù)據(jù)劃分等, 其中圖像數(shù)據(jù)清洗和圖像數(shù)據(jù)預(yù)處理是完成數(shù)據(jù)集構(gòu)建的關(guān)鍵技術(shù)。 1.1 圖像數(shù)據(jù)清洗技術(shù)
從廣闊的互聯(lián)網(wǎng)上抓取數(shù)據(jù)[5]或者在真實(shí)實(shí)物圖像采集的過程中由于錄入錯誤、 背景變化、 物體遮擋等原因?qū)⑹沟贸跏紨?shù)據(jù)集中存在同一事物的圖像多次出現(xiàn)、 同一事物的圖像被標(biāo)注為不同的名稱、 不同事物圖像不完整等問題, 影響數(shù)據(jù)可靠性。 簡而言之, 數(shù)據(jù)清洗就是采用人工或技術(shù)手段將數(shù)據(jù)集中的“臟數(shù)據(jù)”清洗為“干凈數(shù)據(jù)”的過程[6]。
1.1.1 重復(fù)數(shù)據(jù)清洗
數(shù)據(jù)清洗的關(guān)鍵環(huán)節(jié)是對重復(fù)數(shù)據(jù)進(jìn)行清洗, 其主要采取“排序-合并”的思想, 常用的方法有排序鄰居方法、 優(yōu)先權(quán)隊(duì)列方法和哈希清洗方法[7]。
(1) 排序鄰居方法(Sorted Neighborhood Method, SNM)是一種常用的重復(fù)數(shù)據(jù)清洗算法[8], 首先采用近鄰排序算法, 根據(jù)選擇的屬性作為關(guān)鍵字進(jìn)行全排序; 其次, 使用固定大小的滑動窗口進(jìn)行聚類以識別相似或重復(fù)的數(shù)據(jù)。 該方法在時間復(fù)雜度上進(jìn)行了優(yōu)化, 經(jīng)過實(shí)驗(yàn)表明, 改進(jìn)的排序鄰居方法在相同召回率的情況下, 其時間復(fù)雜度優(yōu)于傳統(tǒng)的算法, 且清洗后的數(shù)據(jù)更符合實(shí)際情況, 能夠提高數(shù)據(jù)集的準(zhǔn)確性和可靠性, 還能節(jié)省時間和資源; 但是該方法對參數(shù)較為敏感, 不同的參數(shù)可能會導(dǎo)致不同的清洗結(jié)果, 由于是基于局部信息進(jìn)行判斷, 可能會誤刪某些非重復(fù)數(shù)據(jù), 并且該方法不適合處理數(shù)據(jù)量較大的數(shù)據(jù)集。
(2) 優(yōu)先權(quán)隊(duì)列方法(Priority Queue Strategy, PQS)是Monge等[9]提出的一種基于Union-Find數(shù)據(jù)結(jié)構(gòu)的重復(fù)數(shù)據(jù)清洗算法, 其基本思想主要是基于優(yōu)先級隊(duì)列的數(shù)據(jù)結(jié)構(gòu), 優(yōu)先隊(duì)列是一種特殊的隊(duì)列, 每個元素都有一個優(yōu)先權(quán), 其不同于先進(jìn)先出隊(duì)列, 每次從隊(duì)列中取出的是具有最高優(yōu)先權(quán)的元素。 其清洗過程主要有三步: 第一步, 初始化一個空的優(yōu)先隊(duì)列; 第二步, 遍歷數(shù)據(jù)集的所有數(shù)據(jù), 將每個數(shù)據(jù)元素添加到優(yōu)先隊(duì)列中; 第三步, 依次從優(yōu)先隊(duì)列中取出元素, 即完成了數(shù)據(jù)的清洗。 該方法時間復(fù)雜度較小, 排序比較穩(wěn)定, 其算法思想比較簡單易于編寫, 并且能夠有效降低作業(yè)的平均等待時間, 從而可以提高系統(tǒng)的吞吐量; 但是該方法也存在對長作業(yè)不利, 可能會導(dǎo)致長作業(yè)的等待時間過長, 其需要對所有數(shù)據(jù)進(jìn)行遍歷, 未考慮作業(yè)的緊迫程度, 可能導(dǎo)致某些緊迫作業(yè)延遲。
(3) 哈希清洗方法是利用哈希算法的特性來檢測和處理數(shù)據(jù)中的重復(fù)項(xiàng), 該方法將數(shù)據(jù)集的每個元素都轉(zhuǎn)換為一個唯一的哈希值, 然后將這些哈希值用來檢測, 如果兩張圖像的哈希值相同或在設(shè)定的閾值內(nèi), 就認(rèn)為這兩張圖像為重復(fù)圖像, 將會被清除掉[10]。 該方法能夠?qū)?shù)據(jù)運(yùn)用哈希值高效表達(dá), 可以快速檢測和分類數(shù)據(jù), 同時其可以將多個不同的數(shù)據(jù)映射到同一個哈希值上, 從而減少存儲空間的占用, 且準(zhǔn)確性高; 但是該方法也存在不同數(shù)據(jù)映射到同一個哈希值會出現(xiàn)沖突問題, 且需要計算哈希值, 從而增加計算時間。
1.1.2 缺失數(shù)據(jù)填充
因?yàn)閿?shù)據(jù)未被記錄、 遺漏或丟失, 以及數(shù)據(jù)采集過程中采集設(shè)備故障、 存儲介質(zhì)、 傳輸媒體故障等因素可能造成數(shù)據(jù)丟失, 在對缺失數(shù)據(jù)處理前, 了解數(shù)據(jù)缺失的機(jī)制和形式是十分必要的, 常用的數(shù)據(jù)填充方法有邏輯回歸填充方法、 KNN填充方法和均值填充方法等。
(1) 邏輯回歸填充方法。 對缺失數(shù)據(jù)進(jìn)行預(yù)測, 并利用現(xiàn)有完整數(shù)據(jù)建立回歸算法, 從而確定不同類別的分界線, 并根據(jù)該分界填充缺失的數(shù)據(jù)。 該邏輯回歸模型是一種經(jīng)典的分類模型, 可用于二分類和多分類任務(wù)[11]。 該方法計算簡單, 且易于實(shí)施并行化計算; 但是該方法過于依賴完整數(shù)據(jù), 并且只能用于數(shù)值填充。
(2) K最近鄰方法(K-Nearest Neighbor, KNN)是一種經(jīng)典的機(jī)器學(xué)習(xí)分類算法[12], KNN是根據(jù)“物以類聚”的思想進(jìn)行分類填充的算法, 其原理是利用樣本集中的訓(xùn)練數(shù)據(jù)對特征空間進(jìn)行有監(jiān)督學(xué)習(xí)的劃分, 而后計算預(yù)測數(shù)據(jù)與樣本集不同特征值之間的距離, 距離越小, 代表他們之間的差別越小, 屬于同一簇類的概率越大, 選擇距離缺失元最近的同簇數(shù)據(jù)對其進(jìn)行填充[13]。 常用的距離量度方式有閔可夫斯基距離、 歐式距離、 曼哈頓距離等。 該方法簡單直觀, 無需估計參數(shù), 訓(xùn)練時間較短, 其次, 其既可以處理分類問題, 也可以處理回歸問題, 甚至適合對稀有事件進(jìn)行分類; 但是該方法計算量大, 尤其是對于特征數(shù)非常多的數(shù)據(jù), 再者當(dāng)樣本不平衡的時候, 對稀有類別的預(yù)測準(zhǔn)確率較低。
(3) 均值填充方法[14]是一種比較常用的缺失數(shù)據(jù)填充方法, 其基本原理是用數(shù)據(jù)集的列或行的均值來填充該列或行中的空值。 例如, 如果某一列中存在空值, 那么可以用該列所有非空值的平均值來填充這些空值。 該方法不但實(shí)現(xiàn)簡單、 計算高效和容易理解, 而且其不僅可以用于填充數(shù)值型數(shù)據(jù), 還可以用于填充非數(shù)值型數(shù)據(jù), 但其缺點(diǎn)也比較突出, 首先, 其對異常值比較敏感, 如果數(shù)據(jù)集中存在極端值或離群點(diǎn), 使用均值填充可能會引入偏差, 其次, 其可能會改變原始數(shù)據(jù)的分布和信息, 最后, 其可能會導(dǎo)致估計出的平均值偏離真實(shí)值, 從而影響后續(xù)的數(shù)據(jù)分析和建模。 如圖3~5所示, 采用均值填充法對地表未爆子彈藥圖像進(jìn)行降噪、 去霧和填充處理, 效果較好。
1.1.3 基于深度學(xué)習(xí)網(wǎng)絡(luò)的圖像數(shù)據(jù)清洗
圖像數(shù)據(jù)清洗中常用的深度學(xué)習(xí)網(wǎng)絡(luò)主要有AlexNet網(wǎng)絡(luò)和GoogLeNet網(wǎng)絡(luò)兩種。
(1) 基于AlexNet的圖像數(shù)據(jù)清洗[15]。 AlexNet是由Hinton教授及其團(tuán)隊(duì)在2012年的ImageNet大規(guī)模圖像
識別挑戰(zhàn)賽(ILSVRC)上提出的一種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 在圖像分類任務(wù)中一騎絕塵, 以超過第二名非深度學(xué)習(xí)方法10%+的成績震驚了整個業(yè)界。 其清洗步驟是: 第一步, 獲取目標(biāo)標(biāo)簽的至少一個標(biāo)準(zhǔn)圖像; 第二步, 確定所述至少一個標(biāo)準(zhǔn)圖像的聚類中心; 第三步, 提取多個待清洗圖像中每一個待清洗圖像的特征; 第四步, 在提取了特征之后, 根據(jù)這些特征和聚類中心, 確定每一個待清洗圖像與所述至少一個標(biāo)準(zhǔn)圖像的相似度值; 第五步, 基于所確定的相似度值, 從所述多個待清洗圖像中選取若干個待清洗圖像以形成所述目標(biāo)標(biāo)簽的圖像集。 在AlexNet模型中, 共有5個卷積層和3個全連接, 選擇ReLU作為激活函數(shù), 可以加速網(wǎng)絡(luò)收斂, 有助于在大型數(shù)據(jù)集上訓(xùn)練大型模型, 綜合采用重疊的池化和dropout的方法將隨機(jī)神經(jīng)元置零, 可以一定程度上減少了過擬合的發(fā)生。
(2) 基于GoogLeNet的圖像數(shù)據(jù)清洗。 GoogLeNet[16]是谷歌團(tuán)隊(duì)為了參加2014年ILSVRC比賽而精心準(zhǔn)備的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 也是該挑戰(zhàn)賽冠軍。 其主要思想是通過構(gòu)建密集的塊結(jié)構(gòu)來近似最優(yōu)的稀疏結(jié)構(gòu), 從而達(dá)到提高性能而又不大量增加計算量的目的, 其進(jìn)行圖像清洗的步驟與AlexNet相同。 在GoogLeNet模型中, 共有22 層, 但沒有全連接層, 其參數(shù)個數(shù)可以達(dá)到6 000萬個, 是AlexNet模型的12倍, 且采用Inception模塊的創(chuàng)新結(jié)構(gòu), 可以有效地減少參數(shù)數(shù)量, 降低過擬合的風(fēng)險, 同時也能保持網(wǎng)絡(luò)的深度和寬度。
1.1.4 小 結(jié)
數(shù)據(jù)清洗要根據(jù)數(shù)據(jù)形式及其類型(各種清洗方法及其優(yōu)缺點(diǎn)如表1所示), 綜合分析后選擇一種或多種數(shù)據(jù)清洗方法對數(shù)據(jù)集中的缺陷數(shù)據(jù)進(jìn)行處理使其變成規(guī)范的干凈數(shù)據(jù), 從而消除缺陷的過程, 其目的主要是為了提高數(shù)據(jù)質(zhì)量, 使其更適合做挖掘、 展示、 分析等后續(xù)工作。
1.2 圖像數(shù)據(jù)預(yù)處理
圖像數(shù)據(jù)清洗后得到的數(shù)據(jù)集相較于原始圖像數(shù)據(jù)更加規(guī)整有序, 但是仍會存在圖像分辨率有大有小、 圖像格式不統(tǒng)一、 圖像變形等問題, 此時還需對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行預(yù)處理, 使其質(zhì)量進(jìn)一步提高。
1.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化
圖像數(shù)據(jù)標(biāo)準(zhǔn)化是指為了獲取的圖像數(shù)據(jù)能夠滿足實(shí)際應(yīng)用需求, 對不同程度差異的圖像數(shù)據(jù)進(jìn)行灰度校正、 濾波去噪、 格式轉(zhuǎn)換和幾何變換等, 以提高圖像數(shù)據(jù)的質(zhì)量, 得到符合規(guī)定要求的圖像數(shù)據(jù)[17]。 通過互聯(lián)網(wǎng)開源數(shù)據(jù)爬蟲抓取到的圖像數(shù)據(jù)格式多種多樣, 圖像像素大小也五花八門, 而通過實(shí)物成像采集到的數(shù)據(jù)往往是.JPG格式, 同一成像設(shè)備采集的圖像像素相對固定, 為了便于數(shù)據(jù)集的處理, 首先要將數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理, 其主要由三步來完成:
第一步: 通過裁剪或填充技術(shù), 將像素大小不同的圖像數(shù)據(jù)統(tǒng)一為同一像素大小的數(shù)據(jù)。
第二步: 使用格式轉(zhuǎn)換工具, 將格式不一樣的圖像數(shù)據(jù)轉(zhuǎn)換為同一格式類型的數(shù)據(jù)。 數(shù)據(jù)格式的選取要根據(jù)用戶實(shí)際需求確定, 傳統(tǒng)的圖像數(shù)據(jù)格式有JPG、 GIF、 PNG和HLM等, 一般獲取到的數(shù)據(jù)都是這些格式, 但是這些圖像數(shù)據(jù)格式的數(shù)據(jù)占用的內(nèi)存非常大, 且無法存儲影像信息, 極大地延長了下步圖像處理的時間。 而一些專業(yè)圖像格式卻有很好的表現(xiàn), 例如HDF(Hierarchical Data Format)圖像數(shù)據(jù)格式, 其是由美國的NCSA研發(fā)的一種高效的存儲和分發(fā)科學(xué)數(shù)據(jù)的新型數(shù)據(jù)格式[18], 相較于傳統(tǒng)的圖像存儲格式, HDF優(yōu)點(diǎn)有: 能夠存儲不同類型的圖像與影像信息, 不同的機(jī)器之間可以相互傳輸, 共享資源, 擁有統(tǒng)一處理 HDF 文件格式的函數(shù)庫, HDF 的特性主要包含: 自述性, 通用性, 靈活性, 擴(kuò)展性和跨平臺性等[19]。 如圖6所示, 對采集的圖像進(jìn)行尺寸和格式批量處理。
第三步: 采用min-max標(biāo)準(zhǔn)化或z-score標(biāo)準(zhǔn)化模式對圖像數(shù)據(jù)進(jìn)行縮放, 使其數(shù)值落在某個區(qū)間內(nèi)或按某種規(guī)律分布, 為后續(xù)進(jìn)行模型學(xué)習(xí)時, 加快收斂, 提高模型精度[20]。
1.2.2 圖像仿射變換
采用無人機(jī)載平臺采集到的地表未爆子彈藥實(shí)物圖像通常是從上向下垂直視角拍攝的, 難以獲得不同方位、 俯仰角下的未爆子彈藥的圖像數(shù)據(jù), 此時需要對已采集的圖像數(shù)據(jù)進(jìn)行仿射變換, 將垂直視角下的圖像擴(kuò)展為不同視角下的圖像, 以豐富數(shù)據(jù)集的數(shù)量, 提高檢測的準(zhǔn)確率。 仿射變換是線性變換的一種, 通過一系列的平移變換、 尺度縮放變換和旋轉(zhuǎn)變換獲得, 并且能夠保持二維圖像的平直度和平行度[21]。 如圖7所示, 對地表未爆子彈藥區(qū)域圖像進(jìn)行仿射變換處理。
平移變換的公式為
x′y′z′=10tx01ty001xyz(1)
式中: tx, ty為平移距離。
尺度縮放變換的公式為
x′y′1=sx000sy0001xy1(2)
式中: sx, sy為縮放尺度。
旋轉(zhuǎn)變換的公式為
x′y′1=cosθ-sinθ0sinθcosθ0001xy1(3)
式中: θ為旋轉(zhuǎn)角度。
1.2.3 圖像數(shù)據(jù)分割
圖像分割方法是根據(jù)圖像的基本特征(紋理、 顏色、 形狀等)之間的差異將其劃分為多個互不連通的區(qū)域, 從而實(shí)現(xiàn)分割。 常見圖像分割方法主要有邊緣法、 閾值法和區(qū)域法等。
(1) 基于邊緣檢測的圖像分割算法是通過檢測目標(biāo)邊緣的方式來解決分割問題[22]。 不同區(qū)域之間邊緣像素變化較大, 若使用傅里葉變換, 將圖片從空域轉(zhuǎn)換到頻域, 則在空域中表現(xiàn)為邊緣的部分被變換為高頻。 常見的邊緣檢測算法有Sobel邊緣檢測、 Canny邊緣檢測、 Prewitt邊緣檢測等[23]。 雖然通過檢測目標(biāo)邊緣的方式來實(shí)現(xiàn)分割目的速度快、 邊緣定位準(zhǔn)確; 但是邊緣的連通性無法保證, 細(xì)節(jié)部分存在大量碎邊緣。
(2) 基于閾值的圖像分割算法[24], 是一項(xiàng)實(shí)現(xiàn)簡單、 效率高的傳統(tǒng)分割技術(shù)。 其實(shí)現(xiàn)原理是基于設(shè)定的閾值, 將像素點(diǎn)的像素值和閾值進(jìn)行一一比較, 把圖像中所有像素點(diǎn)劃分到不同的類別, 從而實(shí)現(xiàn)醫(yī)療圖像像素級分類, 即分割。 因此分割閾值的選擇直接影響著分割結(jié)果的好壞。 其中比較具有代表性的閾值分割算法是大津算法(OTSU), 又稱最大類間方差法。 其根據(jù)灰度級將圖像灰度值分成兩個區(qū)域, 使得區(qū)域之間差異最大, 區(qū)域內(nèi)差異最小, 然后計算前景、 背景兩類間方差, 找到一個使類間方差最大化的灰階, 將此灰階設(shè)置為分割閾值, 從而實(shí)現(xiàn)醫(yī)療圖像分割; 然而, 基于閾值的醫(yī)療圖像分割算法, 分割效果取決于閾值的設(shè)定, 僅考慮了像素值, 忽視了圖像的空間特征, 對噪聲敏感, 分割魯棒性不高。
(3) 基于區(qū)域的圖像分割算法[25]基本原理是通過尋找圖像區(qū)域, 進(jìn)而實(shí)現(xiàn)圖像分割, 一般分為區(qū)域生長法、 區(qū)域分裂和合并。 區(qū)域生長法原理是: 首先設(shè)置代表不同生長區(qū)域的隨機(jī)像素種子, 然后計算相鄰生長區(qū)域像素之間的相似度, 并將像素合并到對應(yīng)的區(qū)域, 最后計算新的種子像素, 開始新一輪的合并, 不停的迭代輪次一直到所有像素點(diǎn)被合并[26]。 算法的關(guān)鍵在于種子像素的選擇、 區(qū)域合并的相似度準(zhǔn)則、 區(qū)域生長停止的條件。 區(qū)域生長法適用于分割區(qū)域連通、 特征分布均勻的圖像; 然而其對噪聲較為敏感, 且需要人為設(shè)定種子像素, 加入主觀因素的干擾, 因此該方法普適性不高。
基于以上分析, 針對邊緣性比較明顯的未爆子彈藥通常采用邊緣分割方法, 采用Sobel算子的邊緣分割法對未爆子彈藥圖像進(jìn)行邊緣分割獲得的圖像結(jié)果如圖8所示。
1.2.4 小 結(jié)
圖像數(shù)據(jù)預(yù)處理的目的主要是消除圖像中無關(guān)的信息, 恢復(fù)有用的真實(shí)信息, 增強(qiáng)有關(guān)信息的可檢測性、 最大限度地簡化數(shù)據(jù), 以提高數(shù)據(jù)分析和建模的準(zhǔn)確性、 可靠性和效率。 經(jīng)過預(yù)處理后獲得的部分未爆子彈藥圖像數(shù)據(jù)如圖9所示。 在進(jìn)行圖像數(shù)據(jù)預(yù)處理時, 并非把所有的數(shù)據(jù)都進(jìn)行標(biāo)準(zhǔn)化、 仿射變換和分割, 也不是把所有數(shù)據(jù)按照上述步驟走一遍就足夠了, 而是要根據(jù)數(shù)據(jù)集中數(shù)據(jù)的情況合理選擇方法和步驟, 有些還可能用到均值濾波、 高斯濾波或中值濾波等方法進(jìn)行去噪和平滑處理。
2 三維重建數(shù)據(jù)集的構(gòu)建方法及關(guān)鍵技術(shù)
地表未爆子彈藥往往出現(xiàn)在交戰(zhàn)地域或進(jìn)行實(shí)彈射擊后的落彈區(qū)內(nèi), 獲得未爆子彈藥的數(shù)據(jù)一般比較困難。 因此從互聯(lián)網(wǎng)開源數(shù)據(jù)中得到的未爆子彈藥的圖像數(shù)據(jù)只有很少的一部分, 而采用實(shí)物成像獲得的圖像又會耗費(fèi)大量的人力物力和時間, 并且動用武器彈藥存在一定的安全風(fēng)險, 因此使用未爆子彈藥的真實(shí)實(shí)物采集大量的圖片數(shù)據(jù)非常不明智。 此時為了保證數(shù)據(jù)集的穩(wěn)定性和魯棒性, 還要保證作業(yè)人員的安全, 一些學(xué)者把目光鎖定在了利用少量實(shí)物圖片進(jìn)行三維重建還原成實(shí)物, 再利用還原的三維圖像轉(zhuǎn)化為二維圖片, 從而可以得到大量的接近真實(shí)實(shí)物的圖片數(shù)據(jù)實(shí)現(xiàn)構(gòu)建數(shù)據(jù)集, 其流程如圖10所示。 這個過程中最為關(guān)鍵的一步就是把二維圖片恢復(fù)成三維的實(shí)物模型。
根據(jù)接收設(shè)備接收到的信號源不同, 可將三維重建技術(shù)分為基于主動視覺的三維圖像重建技術(shù)、 基于被動視覺的三維重建技術(shù)和基于深度學(xué)習(xí)的三維重建技術(shù)。
2.1 基于主動視覺的三維圖像重建技術(shù)
主動視覺就是利用特殊的光學(xué)儀器向視覺場景中投射特殊的結(jié)構(gòu)光, 然后通過檢測這些投射光在目標(biāo)表面的圖像, 或者計算回收反射信號的時間來進(jìn)行深度信息獲取的三維重建技術(shù), 當(dāng)前常見的主動視覺三維重建方法主要有結(jié)構(gòu)光法、 激光掃描法、 飛行時間法和陰影法。
2.1.1 結(jié)構(gòu)光法
結(jié)構(gòu)光法是根據(jù)三角測量原理, 投影儀向目標(biāo)物體投射特定的結(jié)構(gòu)光照明圖案, 由相機(jī)攝取被目標(biāo)調(diào)制后的圖案, 再通過圖像處理和視覺模型求出目標(biāo)物體的三維信息[27]。 結(jié)構(gòu)光是一種可進(jìn)行編碼的光束, 包括各種特定的點(diǎn)、 線、 面等樣式。 該方法常用的結(jié)構(gòu)形式有單投影儀-單相機(jī)、 單投影儀-雙相機(jī)[28]、 多投影儀-單相機(jī)[29]、 多投影儀-多相機(jī)[30]等。 該方法簡單方便, 且精度高; 但是由于易受自然光照影響, 只適合在黑暗的室內(nèi)場所使用, 而且隨著檢測距離的增加, 重建精度也會變差。
2.1.2 激光掃描法
激光掃描法, 也被稱為實(shí)景復(fù)制技術(shù), 是一種高速、 大面積、 高分辨率的三維信息獲取方法。 其主要是利用激光測距的原理, 具體過程是利用激光測距儀向物體表面發(fā)射激光束, 經(jīng)反射后, 激光接收設(shè)備可以接收到從物體表面各點(diǎn)反射回來的激光束, 通過記錄激光發(fā)射和接收之間的時間差, 可以計算出目標(biāo)物體表面大量密集點(diǎn)的深度信息, 再根據(jù)各設(shè)備之間的相對位置, 可以計算出物體各點(diǎn)在垂直平面的相對位置, 綜合后可以得到物體的三維點(diǎn)云, 從多個角度進(jìn)行掃描可以得到不同角度的三維點(diǎn)云, 再根據(jù)圖像中的特征點(diǎn)配準(zhǔn)技術(shù), 從而可以重建出物體的三維結(jié)構(gòu)[31]。 該方法能夠重建各種表面不規(guī)則的物體, 且具有較高的重建精度; 但是由于需要處理大量的點(diǎn)云數(shù)據(jù), 需要較大的計算資源和存儲空間, 且重建速度較慢, 同時激光發(fā)射和接收設(shè)備成本較高。
2.1.3 飛行時間法
飛行時間法是一種用于精確測量目標(biāo)距離的方法, 其主要是通過向目標(biāo)發(fā)送一定頻率的光脈沖, 然后用傳感器接收從物體表面反射回來的光脈沖, 通過記錄這些發(fā)射和接收光脈沖的飛行時間來計算與目標(biāo)的距離, 其原理如圖11所示。 根據(jù)光源發(fā)射器調(diào)制光脈沖方法的不同可以分為脈沖調(diào)制法和連續(xù)波調(diào)制法[32]。 該方法可以實(shí)時地測量物體的距離, 從而可以快速地進(jìn)行三維重建。 其次, 其具有強(qiáng)大的抗干擾能力, 不僅能夠在無光照的環(huán)境中使用, 而且還能在低光照、 多光譜和復(fù)雜背景環(huán)境下使用, 具有較高的穩(wěn)定性; 但是由于對光線傳播路徑的依賴性, 如果光線被遮擋或者發(fā)生反射, 可能會影響精度, 測量的結(jié)果誤差相對較大。
2.1.4 陰影法
陰影法[34]是一種用于重建三維模型的簡單、 可靠且低功耗的方法。 其是一種基于弱結(jié)構(gòu)光的方法, 與傳統(tǒng)的結(jié)構(gòu)光相比, 這種方法的要求比較低, 只需將一臺相機(jī)面向被燈光照射的物體, 通過移動光源前面的物體來捕獲移動的陰影, 再觀察陰影的空間位置, 從而重建出物體的三維結(jié)構(gòu)。 該方法設(shè)備需求相對簡單, 操作直觀, 且由于其能夠獲取到模型相對于空氣高速運(yùn)動時周圍激波和尾流中旋渦的清晰圖像, 該方法在空氣動力學(xué)、 爆炸沖擊動力學(xué)等方面有廣泛的應(yīng)用價值; 但是由于光線與被測對象表面不垂直, 可能會導(dǎo)致測量結(jié)果誤差較大。
2.1.5 小 結(jié)
以上基于主動視覺的三維重建技術(shù)普遍具有高精度、 高分辨率以及強(qiáng)大的抗干擾能力, 均可以進(jìn)行非接觸式測量, 且適用于各種光照環(huán)境條件。 但是, 由于其采用主動光照射目標(biāo), 無論是結(jié)構(gòu)光還是光脈沖對光線傳播路徑的依賴性較強(qiáng), 可能會影響其精度。
2.2 基于被動視覺的三維圖像重建技術(shù)
被動視覺是指不需要額外的設(shè)備發(fā)射可見光、 電磁波或聲波等形式的波能量, 而是直接利用視覺傳感器從客觀外界獲取物體反射的自然能量信息, 通過信息處理算法計算出目標(biāo)的三維坐標(biāo)信息。 由于其不需要其他能量設(shè)備的輔助, 因此其更輕巧, 成本也低很多。 當(dāng)前常用被動視覺三維重建主要有單目視覺重建技術(shù)、 雙目視覺重建技術(shù)和多目視覺重建技術(shù)等三類。
2.2.1 單目視覺重建技術(shù)
單目視覺重建技術(shù)是指只使用一個視覺傳感器采集目標(biāo)的圖像信息, 可以使用單張圖像進(jìn)行重建, 也可以使用多張序列圖像組合進(jìn)行重建, 主要是通過提取圖像中的灰度、 紋理、 輪廓及特征點(diǎn)等信息, 計算出圖像的深度信息, 其原理如圖12所示。 一般使用的單目視覺重建技術(shù)主要有紋理恢復(fù)形狀法、 明暗恢復(fù)形狀法和運(yùn)動恢復(fù)形狀法等。
(1) 紋理恢復(fù)形狀法[31]是由于物體表面一般會具有各種各樣的紋理結(jié)構(gòu), 這些表面結(jié)構(gòu)由紋理元組成, 通過紋理元的變化可以確定表面結(jié)構(gòu)的方向, 從而得到三維的表面結(jié)構(gòu)。 其基本原理是表面布滿紋理元的三維物體被投射到平面上時, 其表面的紋理元會發(fā)生彎曲變化, 通過觀察和分析這些因透視等變形后產(chǎn)生的圖像上的紋理變化, 通過逆向計算出深度數(shù)據(jù), 從而恢復(fù)出物體的三維表面。 該方法能夠根據(jù)單張二維圖像重建出物體的三維形狀, 其重建精度高、 速度快, 并且原二維圖像的光照和噪聲對重建效果沒有影響; 但是其實(shí)用性不高, 僅能用于重建具有表面紋理特征的物體。
(2) 明暗恢復(fù)形狀法是利用單目圖像中的圖像強(qiáng)度信息進(jìn)行重建的方法, 該方法主要是利用單目圖像中物體表面的明暗變化來恢復(fù)其表面各點(diǎn)的相對高度或表面法方向等參數(shù)值, 以此對目標(biāo)表面三維信息進(jìn)行估計, 從而得到圖像的深度信息。 該方法是1970年由Minsky提出的, 經(jīng)過發(fā)展演化, 現(xiàn)在有最小化方法、 演化方法、 局部分析法和線性化方法等分支方法[36]。 該方法也僅需一張二維圖像即可進(jìn)行, 其適用范圍比較廣泛, 且計算復(fù)雜度較低; 但是由于其主要利用圖像的亮度值進(jìn)行計算, 對自然光照和噪聲干擾非常敏感, 且不適合在室外進(jìn)行重建技術(shù)。
(3) 運(yùn)動恢復(fù)形狀法是利用不同視角下采集的圖像, 通過提取特征點(diǎn)及特征點(diǎn)匹配, 計算出特征點(diǎn)間對應(yīng)關(guān)系, 根據(jù)三角測量原理, 依據(jù)采集相機(jī)的姿態(tài)和特征點(diǎn)間的對應(yīng)關(guān)系計算出各特征點(diǎn)的深度, 從而生成三維點(diǎn)云, 經(jīng)過多次計算融合得到不同視角下的三維點(diǎn)云, 形成三維圖像[37]。 該方法使用不同視角下的多張圖像進(jìn)行相互匹配融合, 重建的三維圖像比較精確, 且能夠處理動態(tài)場景; 但是經(jīng)過多次計算導(dǎo)致計算量增大, 重建速度較慢。
2.2.2 雙目視覺重建技術(shù)
雙目視覺重建技術(shù)主要是采用兩個相機(jī)從不同的視角獲取同一目標(biāo)的兩個圖像, 通過匹配兩張圖像中對應(yīng)點(diǎn)的像素, 計算出匹配像素的位置差, 獲得視差圖像, 根據(jù)三角測量原理計算出各像素點(diǎn)的空間位置, 生成三維點(diǎn)云, 從而得到三維目標(biāo)信息[38], 其原理如圖13所示。 該技術(shù)進(jìn)行三維重建是通過模仿人眼視覺系統(tǒng)對物體進(jìn)行三維感知, 基本原理是從兩個或多個視點(diǎn)觀察同一景物, 以獲取在不同視角下的感知圖像, 通過計算圖像像素間的位置偏差來獲取景物的三維信息[39], 其計算過程主要有圖像獲取、 相機(jī)標(biāo)定、 圖像校正、 立體匹配和三維重建計算五個步驟[40], 其中圖像獲取是使用兩個相機(jī)同時從不同的方向獲取被測物體的兩幅圖像; 相機(jī)標(biāo)定的目的是通過計算兩個相機(jī)的相對位置信息將二維圖像信息轉(zhuǎn)化為三維空間信息; 圖像校正的目的是在圖像匹配過程中使兩幅圖像對應(yīng)的極線位于同一條線上, 只需單向進(jìn)行匹配計算, 以減少匹配次數(shù); 立體匹配的目的是在兩幅圖像中找到匹配的像素點(diǎn), 通過計算匹配像素點(diǎn)的位置差得到像素點(diǎn)的深度值; 三維重建計算的目的是根據(jù)三角測量原理計算出各像素點(diǎn)的空間位置。 該方法具有設(shè)備簡單, 重建效率高等優(yōu)勢; 但也存在人工參與監(jiān)督, 經(jīng)過多次計算會將誤差逐級放大, 影響重建的準(zhǔn)確度等不足[41]。
2.2.3 多目視覺重建技術(shù)
多目視覺重建技術(shù)源于雙目視覺重建技術(shù), 其是采用三個或者更多的相機(jī)同時從不同方向采集目標(biāo)圖像, 獲取更豐富的深度信息, 實(shí)現(xiàn)對實(shí)際物體或場景的準(zhǔn)確重建和建模, 其原理如圖14所示。 多視圖的三維重建技術(shù), 類似人的雙目定位, 相對比較容易, 其方法是先對多個視角的二維圖像進(jìn)行匹配, 然后通過三角測量等方法計算出每個像素點(diǎn)的深度信息, 最后得到目標(biāo)的三維點(diǎn)云數(shù)據(jù)。 該方法大大地減少了測量盲區(qū), 可以獲取更多的細(xì)節(jié)信息, 并能減小雙目視覺重建技術(shù)中誤匹配的影響; 但同時也會使計算量大大增加, 消耗更長的時間。
2.2.4 小 結(jié)
單目視覺、 雙目視覺和多目視覺都是三維重建技術(shù)的常用方法, 其在處理圖像以恢復(fù)深度信息時有各自的優(yōu)勢和挑戰(zhàn)。 單目視覺的本質(zhì)是二維的, 其主要根據(jù)相機(jī)的成像模型和物體的真實(shí)大小來獲取距離信息, 依賴于對物體的實(shí)際大小的預(yù)先知識, 可能會受到光照條件的影響; 雙目視覺通過比較兩個攝像機(jī)所拍攝的圖像來計算視差, 從而得到深度信息, 其難點(diǎn)在于光照敏感以及三維點(diǎn)云精準(zhǔn)匹配問題; 多目視覺類似于人的雙目定位, 其通過利用多個攝像機(jī)采集到的圖像來重建出三維信息, 可以提供更豐富的視角和更精確的深度信息, 但同時也需要處理更多的數(shù)據(jù)和更復(fù)雜的計算。
2.3 基于深度學(xué)習(xí)的三維重建技術(shù)
基于深度學(xué)習(xí)的三維重建技術(shù)是將深度學(xué)習(xí)方法引入傳統(tǒng)的三維重建算法中進(jìn)行改進(jìn), 或者將深度學(xué)習(xí)重建算法和傳統(tǒng)三維重建算法進(jìn)行融合。 這種技術(shù)利用大量數(shù)據(jù)建立先驗(yàn)知識, 將三維重建轉(zhuǎn)變?yōu)榫幋a與解碼問題, 從而對物體進(jìn)行三維重建。 在深度學(xué)習(xí)背景下, 圖像三維重建方法能夠在無需復(fù)雜的相機(jī)校準(zhǔn)的情況下從單張或多張二維圖像中重建物體的三維模型。 常用的深度學(xué)習(xí)算法主要有PointNet算法、 PointCNN算法、 DGCNN算法和VGAE算法等。
2.3.1 PointNet算法
PointNet算法[43]由斯坦福大學(xué)于2016年提出, 主要用于處理點(diǎn)云數(shù)據(jù)的分類和分割, 其能夠直接輸入三維點(diǎn)云數(shù)據(jù)并輸出分割結(jié)果, 開創(chuàng)了直接將點(diǎn)云作為輸入的算法模型, 結(jié)構(gòu)如圖15所示。 其原理與傳統(tǒng)的點(diǎn)云處理算法相比, PointNet能夠處理點(diǎn)云中的無序點(diǎn)集, 不受點(diǎn)的排列順序影響, 能通過使用最大池化操作, 捕捉點(diǎn)云數(shù)據(jù)中的局部和全局特征信息; 能夠處理不同數(shù)量和不同分布的點(diǎn)云數(shù)據(jù), 具有較強(qiáng)的泛化能力; 但該算法對于點(diǎn)云數(shù)據(jù)的局部特征提取能力不足。 后來提出的PointNet++算法是一種分層次的結(jié)構(gòu), 采用下采樣和區(qū)域劃分的方法, 在局部區(qū)域內(nèi)可以進(jìn)行特征提?。?4], 但其仍然是獨(dú)立進(jìn)行的, 忽略了點(diǎn)對的關(guān)聯(lián)關(guān)系。
2.3.2 PointCNN算法
PointCNN算法[45]仍是對點(diǎn)云數(shù)據(jù)進(jìn)行處理, 并不是將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為其他形式的數(shù)據(jù), 而是直接對無序點(diǎn)云進(jìn)行一個X操作, 將其轉(zhuǎn)化為規(guī)則的數(shù)據(jù)集。 其主要包括特征提取和X矩陣訓(xùn)練。 在特征提取階段, 利用空間-局部關(guān)聯(lián)的方式, 通過X-Conv操作符對輸入點(diǎn)和特征進(jìn)行加權(quán)和置換, 將輸入點(diǎn)轉(zhuǎn)換為規(guī)范的順序。 然后在X矩陣訓(xùn)練階段, 該網(wǎng)絡(luò)利用K近鄰的方法實(shí)現(xiàn)結(jié)構(gòu)化, 并在X操作后處理整個數(shù)據(jù)集。 此外, 該算法還采用了分層卷積和X卷積算子來提高模型的性能, 可以在保留點(diǎn)云數(shù)據(jù)的局部信息的同時, 有效地減少了模型的參數(shù)數(shù)量, 從而可以提高模型的訓(xùn)練效率和泛化能力; 但是該方法在處理數(shù)據(jù)時可能會丟失位置信息, 其排列后的點(diǎn)云順序存在誤差。
2.3.3 DGCNN算法
DGCNN算法, 全稱為Dynamic Graph CNN算法[46], 其主要思想是每一層圖結(jié)構(gòu)均是采取距離計算來確定節(jié)點(diǎn)的近鄰, 從而可以動態(tài)建立點(diǎn)云圖結(jié)構(gòu), 以便更好地捕獲點(diǎn)云間的幾何關(guān)系。 其次, 該算法引入了Edge Conv模塊, 其融合了局部鄰居信息, 通過堆疊或循環(huán)使用, 來建立點(diǎn)與點(diǎn)之間的拓?fù)潢P(guān)系, 從而提取到全局的形狀信息, 可以增強(qiáng)表征的能力, 同時該算法可以端到端地處理點(diǎn)云數(shù)據(jù), 直接對原始點(diǎn)云數(shù)據(jù)進(jìn)行學(xué)習(xí), 并能夠捕獲局部幾何特征, 能更深入地理解點(diǎn)云數(shù)據(jù)的內(nèi)在特性; 但是該方法也存在計算量大、 占用內(nèi)存等問題。
2.3.4 VGAE算法
VGAE算法, 即變分圖自編碼器算法[47], 其是為了解決標(biāo)準(zhǔn)自動編碼器無法直接處理低維向量圖的問題, 在變分自編碼器的基礎(chǔ)上改進(jìn)而來, 主要思想是將圖卷積神經(jīng)網(wǎng)絡(luò)與變分自編碼器相結(jié)合, 優(yōu)勢互補(bǔ), 其模型訓(xùn)練的步驟主要有編碼、 變分自編碼和解碼。 其中編碼是將低維向量圖中的每個節(jié)點(diǎn)和邊的特征向量通過多層GCN來傳遞和聚合信息, 以學(xué)習(xí)其潛在特征; 變分自編碼是將每個節(jié)點(diǎn)及其鄰邊的特征向量映射到潛在空間中, 并在其中進(jìn)行采樣, 以獲取節(jié)點(diǎn)和邊的嵌入特征; 解碼是將每個節(jié)點(diǎn)和邊的嵌入向量通過多層GCN進(jìn)行信息傳遞和聚合, 從而生成重構(gòu)的圖像。 該算法可以通過調(diào)整超參數(shù)以適應(yīng)不同類型的圖像重建, 且在不完整的數(shù)據(jù)集上進(jìn)行訓(xùn)練仍具有較好的魯棒性; 但是該方法也存在模型相對較為復(fù)雜, 需要更多的計算資源和時間進(jìn)行訓(xùn)練, 同時對具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的圖像處理能力不足。
2.4 基于多目視覺的未爆子彈藥智能三維重建技術(shù)
通過對主動視覺、 被動視覺和深度學(xué)習(xí)的三維重建技術(shù)進(jìn)行梳理對比(如表2所示), 發(fā)現(xiàn)其在對目標(biāo)進(jìn)行三維重建時均存在一定的不足, 為了彌補(bǔ)其不足, 提高三維重建的效率, 本文采取多目視覺與深度學(xué)習(xí)算法相結(jié)合, 通過對五種視角對目標(biāo)進(jìn)行成像, 爾后利用深度學(xué)習(xí)算法對目標(biāo)進(jìn)行特征提取, 生成三維圖像點(diǎn)云, 最后將點(diǎn)云融合生成三維圖像, 其流程如圖16~17所示。
基于深度學(xué)習(xí)的三維重建技術(shù)是將深度學(xué)習(xí)算法與三維重建技術(shù)相結(jié)合, 充分利用深度學(xué)習(xí)算法分析提取圖像的深層特征, 再利用三維重建技術(shù)將圖像特征進(jìn)行聚合, 從而生成完整的圖像。 雖然對圖像信息提取特征的算法有很多, 也都能直接將圖像作為輸入, 直接進(jìn)行計算, 但是在進(jìn)行圖像操作之前仍要根據(jù)需求及特點(diǎn), 結(jié)合各種算法使用對象、 運(yùn)行環(huán)境及性能合理選擇, 確保所使用的算法能夠完成特定任務(wù)。
3 結(jié)論及展望
數(shù)據(jù)集是深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練、 驗(yàn)證、 評估的基礎(chǔ), 網(wǎng)絡(luò)模型通過對目標(biāo)數(shù)據(jù)集的訓(xùn)練可以有效地提取出目標(biāo)的深層特征, 通過對深層特征的學(xué)習(xí)來調(diào)整模型中各變量之間的權(quán)重系數(shù)以達(dá)到最優(yōu)組合, 從而實(shí)現(xiàn)精確檢測與定位目標(biāo)的目的。 目標(biāo)數(shù)據(jù)集的優(yōu)劣直接關(guān)系到深度學(xué)習(xí)模型檢測識別的效率和精度, 由于沒有通用的未爆子彈藥數(shù)據(jù)集, 互聯(lián)網(wǎng)上的相關(guān)開源數(shù)據(jù)也比較少, 因此構(gòu)建數(shù)據(jù)充足的、 精確的、 規(guī)范的未爆子彈藥專用數(shù)據(jù)集對于進(jìn)行未爆子彈藥快速智能檢測與定位具有十分重要的意義。
隨著大數(shù)據(jù)時代的不斷發(fā)展演進(jìn), 數(shù)據(jù)量將會呈指數(shù)級增長, 同時數(shù)據(jù)的價值和保護(hù)也會引起越來越多的重視, 未來對于數(shù)據(jù)集的構(gòu)建方法會根據(jù)數(shù)據(jù)量的增長而變得越來越復(fù)雜多樣。
一是互聯(lián)網(wǎng)爬蟲算法會更加智能高效。 面對互聯(lián)網(wǎng)上龐大的數(shù)據(jù)量, 僅靠固定的搜索策略爬蟲不但抓取的數(shù)據(jù)數(shù)量較小、 形式單一, 而且會耗費(fèi)大量的時間, 并且有些爬蟲對搜索的關(guān)鍵詞比較敏感, 不能從語義的角度靈活改進(jìn)關(guān)鍵詞, 這將使得其查準(zhǔn)率和查群率都比較低, 未來將會開發(fā)出能夠根據(jù)語義靈活改進(jìn)主題關(guān)鍵詞且能夠兼容抓取各種數(shù)據(jù)類型的算法, 并且能夠根據(jù)用戶需求直接生成規(guī)范化的數(shù)據(jù)集。
二是三維虛擬數(shù)據(jù)集將會更加豐富全面。 由于通過真實(shí)實(shí)物圖像采集獲得的數(shù)據(jù)量比較少, 數(shù)據(jù)及其所處環(huán)境比較單一, 且會耗費(fèi)大量的人力、 物力和時間用于數(shù)據(jù)采集, 而采用真實(shí)實(shí)物圖片進(jìn)行三維重建可以獲得與真實(shí)實(shí)物一樣包含大量詳細(xì)特征的數(shù)據(jù), 能夠保證數(shù)據(jù)質(zhì)量的同時不需要構(gòu)建龐大的采集系統(tǒng), 還可以根據(jù)自身需求進(jìn)行形狀變換和更換數(shù)據(jù)背景, 數(shù)據(jù)內(nèi)容會更加充足精確。
三是虛擬仿真數(shù)據(jù)集將會更加安全高效。 隨著對數(shù)據(jù)價值的重視越來越高, 數(shù)據(jù)的安全保密要求也會越來越高, 數(shù)據(jù)產(chǎn)權(quán)的保護(hù)也會得到重視, 通用開源數(shù)據(jù)集雖然仍然可以使用, 但是越來越多的將會是構(gòu)建專用數(shù)據(jù)集, 為了能夠快速構(gòu)建所需的數(shù)據(jù)集, 將會激發(fā)學(xué)者研究虛擬仿真的方法, 虛擬的數(shù)據(jù)也將會越來越逼真高效, 數(shù)據(jù)的質(zhì)量也將會越來越高。
參考文獻(xiàn):
[1] 胡聰, 何曉暉, 邵發(fā)明, 等. 基于Faster R-CNN的未爆彈檢測[J]. 機(jī)電產(chǎn)品開發(fā)與創(chuàng)新, 2021, 34(5): 105-107.
Hu Cong, He Xiaohui, Shao Faming, et al. Unexploded Ordnance Detection Based on Faster R-CNN[J]. Development & Innovation of Machinery & Electrical Products, 2021, 34(5): 105-107. (in Chinese)
[2] 單成之, 張健. 基于關(guān)鍵點(diǎn)的未爆彈圖像目標(biāo)檢測算法[J]. 現(xiàn)代計算機(jī), 2023, 29(1): 39-44.
Shan Chengzhi, Zhang Jian. An Algorithm for Object Detection in Unexploded Bombs Images Based on Key Points[J]. Modern Computer, 2023, 29(1): 39-44. (in Chinese)
[3] 曾俊, 盧瑞濤, 楊小岡, 等. 六旋翼無人機(jī)空基智能排爆系統(tǒng)設(shè)計與實(shí)現(xiàn)[J]. 電光與控制, 2023, 30(5): 61-65.
Zeng Jun, Lu Ruitao, Yang Xiaogang, et al. Design and Implementation of Air-Based Intelligent EOD System Based on Six-Rotor UAV[J]. Electronics Optics & Control, 2023, 30(5): 61-65. (in Chinese)
[4] 彭亞茹. 基于深度學(xué)習(xí)的零件表面缺陷檢測圖像增強(qiáng)技術(shù)研究[D]. 武漢: 華中科技大學(xué), 2022: 3-6.
Peng Yaru. Research on Image Enhancement Technology of Parts Surface Defect Detection Based on Deep Learning[D]. Wuhan: Huazhong University of Science and Technology, 2022: 3-6. (in Chinese)
[5] 潘曉英, 陳柳, 余慧敏, 等. 主題爬蟲技術(shù)研究綜述[J]. 計算機(jī)應(yīng)用研究, 2020, 37(4): 961-965.
Pan Xiaoying, Chen Liu, Yu Huimin, et al. Survey on Research of Topic Crawling Technique[J]. Application Research of Computers, 2020, 37(4): 961-965. (in Chinese)
[6] Wang H Z, Li M D, Bu Y Y, et al. Cleanix[J]. ACM SIGMOD Record, 2016, 44(4): 35-40.
[7] 劉峰. 智慧校園背景下的數(shù)據(jù)清洗關(guān)鍵技術(shù)研究[D]. 杭州: 杭州電子科技大學(xué), 2022: 13-23.
Liu Feng. Research on Key Technologies of Data Cleaning in the Background of Smart Campus[D]. Hangzhou: Hangzhou Dianzi University, 2022: 13-23. (in Chinese)
[8] 沈沛, 毛海濤, 胡文林, 等. 面向時序的相似重復(fù)數(shù)據(jù)清洗算法優(yōu)化[J]. 計算機(jī)時代, 2022(9): 68-72.
Shen Pei, Mao Haitao, Hu Wenlin, et al. Time-Series-Oriented Duplicate Data Cleaning Algorithm Optimization[J]. Computer Era, 2022(9): 68-72. (in Chinese)
[9] 周世杰, 婁淵勝. 基于字段過濾和伸縮窗口的SNM算法優(yōu)化[J]. 計算機(jī)工程與科學(xué), 2022, 44(4): 699-706.
Zhou Shijie, Lou Yuansheng. SNM Algorithm Optimization Based on Field Filtering and Scaling Window[J]. Computer Engineering & Science, 2022, 44(4): 699-706. (in Chinese)
[10] 羅正東. 大規(guī)模食品圖像數(shù)據(jù)集構(gòu)建及識別方法研究[D]. 北京: 中國科學(xué)院大學(xué), 2020: 18-19.
Luo Zhengdong. Research on Large-Scale Food Image Dataset Construction and Recognition[D]. Beijing: University of Chinese Academy of Sciences, 2020: 18-19. (in Chinese)
[11] Midi H, Sarkar S K, Rana S. Collinearity Diagnostics of Binary Logistic Regression Model[J]. Journal of Interdisciplinary Mathematics, 2010, 13(3): 253-267.
[12] Guo G D, Wang H, Bell D, et al. KNN Model-Based Approach in Classification[C]∥OTM Confederated International Conferences “On the Move to Meaningful Internet Systems”, 2003: 986-996.
[13] Song J Y, Yu Q, Bao R Y. The Detection Algorithms for Similar Duplicate Data[C]∥6th International Conference on Systems and Informatics (ICSAI), 2019: 1534-1542.
[14] 熊中敏, 郭懷宇, 吳月欣. 缺失數(shù)據(jù)處理方法研究綜述[J]. 計算機(jī)工程與應(yīng)用, 2021, 57(14): 27-38.
Xiong Zhongmin, Guo Huaiyu, Wu Yuexin. Review of Missing Data Processing Methods[J]. Computer Engineering and Applications, 2021, 57(14): 27-38. (in Chinese)
[15] 余華擎. 基于深度學(xué)習(xí)的圖像數(shù)據(jù)清洗方法研究[D]. 北京: 北京工業(yè)大學(xué), 2018: 8-22.
Yu Huaqing. Research on Cleaning Image Data Based on Deep Learning[D]. Beijing: Beijing University of Technology, 2018: 8-22. (in Chinese)
[16] 梁雪慧, 程云澤, 張瑞杰, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的橋梁裂縫識別和測量方法[J]. 計算機(jī)應(yīng)用, 2020, 40(4): 1056-1061.
Liang Xuehui, Cheng Yunze, Zhang Ruijie, et al. Bridge Crack Classification and Measurement Method Based on Deep Convolutional Neural Network[J]. Journal of Computer Applications, 2020, 40(4): 1056-1061. (in Chinese)
[17]湯國安, 張友順, 劉詠梅. 遙感數(shù)字圖像處理[M]. 北京: 科學(xué)出版社, 2004: 12-20.
Tong Guoan, Zhang Youshun, Liu Yongmei. Remote Sensing Digi-tal Image Processing[M]. Beijing: Science Press, 2004: 12-20. (in Chinese)
[18] 陳長吉. 適用于深度學(xué)習(xí)的數(shù)據(jù)預(yù)處理并行算法實(shí)現(xiàn)及性能優(yōu)化[D]. 上海: 上海海洋大學(xué), 2018: 20-21.
Chen Changji. Data Preprocessing Parallel Algorithm Implementation and Performance Optimization for Deep Learning[D]. Shanghai: Shanghai Ocean University, 2018: 20-21. (in Chinese)
[19] 郭經(jīng). 國外遙感數(shù)據(jù)格式標(biāo)準(zhǔn)及啟示[J]. 航天標(biāo)準(zhǔn)化, 2011(4): 29-31.
Guo Jing. Foreign Remote Sensing Data Format Standards and Its Enlightenment[J]. Aerospace Standardization, 2011(4): 29-31. (in Chinese)
[20] 呂念祖. 基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割算法研究[D]. 綿陽: 西南科技大學(xué), 2021: 9.
Lü Nianzu. Research on Medical Image Segmentation Algorithm Based on Deep Learning[D]. Mianyang: Southwest University of Science and Technology, 2021: 9. (in Chinese)
[21] 張玉蓮. 光學(xué)圖像海面艦船目標(biāo)智能檢測與識別方法研究[D]. 長春: 中國科學(xué)院大學(xué)(中國科學(xué)院長春光學(xué)精密機(jī)械與物理研究所), 2021: 44-47.
Zhang Yulian. Research on Intelligent Detection and Recognition Methods of Ship Targets on the Sea Surface in Optical Images[D]. Changchun: Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Sciences, 2021: 44-47. (in Chinese)
[22] 黃成, 王紅梅. 干擾條件下的紅外目標(biāo)檢測方法研究[J]. 航空兵器, 2017(5): 31-36.
Huang Cheng, Wang Hongmei. Research on Infrared Target Detection Method under Jamming Condition[J]. Aero Weaponry, 2017(5): 31-36. (in Chinese)
[23] 胡學(xué)龍. 數(shù)字圖像處理[M]. 4版. 北京: 電子工業(yè)出版社, 2020: 5, 23-33.
Hu Xuelong. Digital Image Processing[M]. 4th ed. Beijing: Publishing House of Electronics Industry, 2020: 5, 23-33. (in Chinese)
[24] 盧建宏, 劉海鵬, 王蒙. 改進(jìn)海鷗算法的多閾值圖像分割算法[J]. 光電子·激光, 2022, 33(9): 932-939.
Lu Jianhong, Liu Haipeng, Wang Meng. Multi-Threshold Image Segmentation Based on Improved Seagull Optimization Algorithm[J]. Journal of Optoelectronics·Laser, 2022, 33(9): 932-939. (in Chinese)
[25] 張婷, 秦涵書, 趙若璇. 基于多尺度注意力融合網(wǎng)絡(luò)的胃癌病理圖像分割方法[J]. 電子技術(shù)應(yīng)用, 2023, 46(9): 46-52.
Zhang Ting, Qin Hanshu, Zhao Ruoxuan. Gastric Cancer Pathological Image Segmentation Method Based on Multi-Scale Attention Fusion Network[J]. Application of Electronic Technique, 2023, 46(9): 46-52. (in Chinese)
[26] 汪凌艷, 徐貴力, 王彪, 等. 基于機(jī)器視覺的無人機(jī)紅外合作目標(biāo)分割方法研究[J]. 航空兵器, 2011(5): 32-35.
Wang Lingyan, Xu Guili, Wang Biao, et al. Research on Segmentation of UAV’s IR Cooperative Target Based on Machine Vision[J]. Aero Weaponry, 2011(5): 32-35. (in Chinese)
[27] 盧榮勝, 史艷瓊, 胡海兵. 機(jī)器人視覺三維成像技術(shù)綜述[J]. 激光與光電子學(xué)進(jìn)展, 2020, 57(4): 040001.
Lu Rongsheng, Shi Yanqiong, Hu Haibing. Review of Three-Dimensional Imaging Techniques for Robotic Vision[J]. Laser & Optoelectronics Progress, 2020, 57(4): 040001. (in Chinese)
[28] Zhong K, Li Z W, Zhou X H, et al. Enhanced Phase Measurement Profilometry for Industrial 3D Inspection Automation[J]. The International Journal of Advanced Manufacturing Technology, 2015, 76(9): 1563-1574.
[29] Servin M, Padilla M, Garnica G, et al. Profilometry of Three-Dimensional Discontinuous Solids by Combining Two-Steps Temporal Phase Unwrapping, Co-Phased Profilometry and Phase-Shifting Interferometry[J]. Optics and Lasers in Engineering, 2016, 87: 75-82.
[30] Servin M, Garnica G, Estrada J C, et al. Coherent Digital Demodulation of Single-Camera N-Projections for 3D-Object Shape Measurement: Co-Phased Profilometry[J]. Optics Express, 2013, 21(21): 24873-24878.
[31] 鄭太雄, 黃帥, 李永福, 等. 基于視覺的三維重建關(guān)鍵技術(shù)研究綜述[J]. 自動化學(xué)報, 2020, 46(4): 631-652.
Zheng Taixiong, Huang Shuai, Li Yongfu, et al. Key Techniques for Vision Based 3D Reconstruction: A Review[J]. Acta Automatica Sinica, 2020, 46(4): 631-652. (in Chinese)
[32] 段志堅(jiān). 基于3D-TOF圖像傳感器采集系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D]. 湘潭: 湘潭大學(xué), 2015: 7-10.
Duan Zhijian. The Implementation and Design of Acquisition System Based on 3D-TOF Image Sensor[D]. Xiangtan: Xiangtan University, 2015: 7-10. (in Chinese)
[33] 劉志海, 代振銳, 田紹魯, 等. 非接觸式三維重建技術(shù)綜述[J]. 科學(xué)技術(shù)與工程, 2022, 22(23): 9897-9908.
Liu Zhihai, Dai Zhenrui, Tian Shaolu, et al. Review of Non-Contact Three-Dimensional Reconstruction Techniques[J]. Science Technology and Engineering, 2022, 22(23): 9897-9908. (in Chinese)
[34] 沈劉晶, 梅海平, 任益充, 等. 激光陰影法探測大氣湍流中二維風(fēng)矢量的可行性[J]. 中國激光, 2021, 48(13): 1304004.
Shen Liujing, Mei Haiping, Ren Yichong, et al. Feasibility of Laser Shadow Method to Detect Two-Dimensional Wind Vector in Atmospheric Turbulence[J]. Chinese Journal of Lasers, 2021, 48(13): 1304004. (in Chinese)
[35] 徐麗學(xué). 基于機(jī)器學(xué)習(xí)的水下單目視覺感知技術(shù)研究[D]. 哈爾濱: 哈爾濱工程大學(xué), 2019: 11-12.
Xu Lixue. Research on Perception of Underwater Monocular Vision Based on Machine Learning[D]. Harbin: Harbin Engineering University, 2019: 11-12. (in Chinese)
[36] Zhang R, Tsai P S, Cryer J E, et al. Shape-from-Shading: A Survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1999, 21(8): 690-706.
[37] 陳輝, 王婷婷, 代作曉, 等. 基于運(yùn)動恢復(fù)結(jié)構(gòu)的無規(guī)則植物葉片面積三維測量方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報, 2021, 52(4): 230-238.
Chen Hui, Wang Tingting, Dai Zuoxiao, et al. 3D Measurement Method for Area of Irregular Plant Leaf Based on Structure from Motion[J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(4): 230-238. (in Chinese)
[38] 劉歡. 基于雙目視覺立體匹配算法的研究與應(yīng)用[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2018: 8-10.
Liu Huan. The Research and Application of Stereo-Matching Algorithm Based on Binocular Vision[D]. Harbin: Harbin Institute of Technology, 2018: 8-10. (in Chinese)
[39] 張文明, 劉彬, 李海濱. 基于雙目視覺的三維重建中特征點(diǎn)提取及匹配算法的研究[J]. 光學(xué)技術(shù), 2008, 34(2): 181-185.
Zhang Wenming, Liu Bin, Li Haibin. Characteristic Point Extracts and the Match Algorithm Based on the Binocular Vision in Three Dimensional Reconstruction[J]. Optical Technique, 2008, 34(2): 181-185. (in Chinese)
[40] 丁蘇楠. 基于雙目視覺的散亂工件識別與定位技術(shù)研究[D]. 無錫: 江南大學(xué), 2020: 26-28.
Ding Sunan. Research on Recognition and Orientation Technology of Scattered Workpieces Based on Binocular Vision[D]. Wuxi: Jiangnan University, 2020: 26-28. (in Chinese)
[41] 李明陽, 陳偉, 王珊珊, 等. 視覺深度學(xué)習(xí)的三維重建方法綜述[J]. 計算機(jī)科學(xué)與探索, 2023, 17(2): 279-302.
Li Mingyang, Chen Wei, Wang Shanshan, et al. Survey on 3D Reconstruction Methods Based on Visual Deep Learning[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(2): 279-302. (in Chinese)
[42] 沙歐. 基于雙目線結(jié)構(gòu)光的三維重建及其關(guān)鍵技術(shù)研究[D]. 長春: 中國科學(xué)院大學(xué)(中國科學(xué)院長春光學(xué)精密機(jī)械與物理研究所), 2022: 24.
Sha Ou. Research of 3D Reconstruction and Its Key Technologies Based on Binocular and Linear Structured Light[D]. Changchun: Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Sciences, 2022: 24. (in Chinese)
[43] 王紅霄. 基于深度學(xué)習(xí)的點(diǎn)云場景分割方法研究[D]. 西安: 西安理工大學(xué), 2022: 2-3.
Wang Hongxiao. Research on Point Cloud Scene Segmentation Method Based on Deep Learning[D]. Xi’an: Xi’an University of Technology, 2022: 2-3. (in Chinese)
[44] 楊璽, 雷航, 錢偉中, 等. 基于深度霍夫優(yōu)化投票的三維時敏單目標(biāo)跟蹤[J]. 航空兵器, 2022, 29(2): 45-51.
Yang Xi, Lei Hang, Qian Weizhong, et al. Time-Sensitive 3D Single Target Tracking Based on Deep Hough Optimized Voting[J]. Aero Weaponry, 2022, 29(2): 45-51. (in Chinese)
[45] 白靜, 邵會會, 姬卉, 等. 面向三維點(diǎn)云的端到端細(xì)粒度分類網(wǎng)絡(luò)[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2023, 35(1): 128-134.
Bai Jing, Shao Huihui, Ji Hui, et al. An End-to-End Fine-Grained Classification Network for 3D Point Clouds[J]. Journal of Computer-Aided Design & Computer Graphics, 2023, 35(1): 128-134. (in Chinese)
[46] Wang Y, Sun Y B, Liu Z W, et al. Dynamic Graph CNN for Learning on Point Clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 146.
[47] 胡堅(jiān). 基于圖神經(jīng)網(wǎng)絡(luò)的虛擬網(wǎng)絡(luò)嵌入模型與算法研究[D]. 昆明: 云南財經(jīng)大學(xué), 2023: 20-22.
Hu Jian. Research on Virtual Network Embedding Model and Algorithm Based on Graph Neural Network[D]. Kunming: Yunnan University of Finance and Economics, 2023: 20-22. (in Chinese)
Research on the Construction Method and Key Technologies of
Unexploded Submunition Image Dataset
Yan Xiaowei, Chen Dong*
(Laboratory of Guidance Control and Information Perception Technology of High Overload Projectiles,
PLA Army Academy of Artillery and Air Defense, Hefei 230031, China)
Abstract:
With the rapid development and application of computer technology and machine vision technology, the exploration of unexploded submunition search technology based on “artificial intelligence +” model has received extensive attention. However, due to the danger of unexploded submunitions and the particularity of military applications, data set construction is a bottleneck problem that needs to be solved urgently. Based on this, the paper discusses the construction methods and processes of real physical image data sets and three-dimensional reconstruction data sets using physical images. It focuses on the analysis of the key technologies and their advantages and disadvantages in the construction process of the two data sets. A multi-camera is used to collect the target image and geographic coordinate information, and then the deep learning algorithm is used to extract the target feature, generate the three-dimensional point cloud and fuse the three-dimensional image. The experimental results show that the three-dimensional data set constructed by this method can effectively solve the problem of insufficient data volume of the existing data set of unexploded submunitions. Finally, the future development direction of the data set construction method is prospected.
Key words: unexploded submunitions; image dataset; deep learning; three-dimensional reconstruction; image processing