卷積神經(jīng)網(wǎng)絡(luò)在無人機(jī)圖像識別中的應(yīng)用

2024-05-03 05:41:52茹鮮古麗蘇來滿吾爾尼沙依米提涂偉滬

信息記錄材料 2024年3期

茹鮮古麗·蘇來滿，吾爾尼沙·依米提，涂偉滬

（哈密開放大學(xué) 新疆哈密 839000）

0 引言

隨著無人機(jī)技術(shù)的快速發(fā)展，無人機(jī)在軍事、民用和商業(yè)領(lǐng)域的應(yīng)用逐漸成為研究和關(guān)注的焦點(diǎn)。在無人機(jī)的廣泛應(yīng)用中，圖像識別技術(shù)扮演著至關(guān)重要的角色，為無人機(jī)系統(tǒng)提供了豐富的信息和智能決策支持［1－2］。為了提高無人機(jī)圖像識別的準(zhǔn)確性和效率，深度學(xué)習(xí)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network， CNN）［3－4］被廣泛應(yīng)用。本文旨在深入研究卷積神經(jīng)網(wǎng)絡(luò)在無人機(jī)圖像識別中的應(yīng)用，聚焦于輕量化卷積神經(jīng)網(wǎng)絡(luò)MobileNet-V1［5－6］的結(jié)構(gòu)與實(shí)際應(yīng)用。本研究期望為無人機(jī)圖像識別技術(shù)的不斷優(yōu)化和發(fā)展貢獻(xiàn)新的見解，推動無人機(jī)系統(tǒng)在各個領(lǐng)域的更廣泛而深入的應(yīng)用。

1 輕量化卷積神經(jīng)網(wǎng)絡(luò)

MobileNet-V1 是一種輕量級卷積神經(jīng)網(wǎng)絡(luò)，其基本結(jié)構(gòu)采用了深度可分離卷積的設(shè)計(jì)思想，整體結(jié)構(gòu)包括深度可分離卷積和逐點(diǎn)卷積兩個關(guān)鍵步驟。如圖1 所示，該網(wǎng)絡(luò)的核心結(jié)構(gòu)包括圖像輸入層，3 個3×3×1 的卷積核產(chǎn)生的特征圖，輸出通道數(shù)為3，以及5 個1×1×3 的卷積核產(chǎn)生的特征圖，輸出通道數(shù)為5。

圖1 輕量化卷積神經(jīng)網(wǎng)絡(luò)MobileNet-V1

MobileNet-V1 的第一步是應(yīng)用3 個3×3×1 的卷積核對輸入圖像進(jìn)行卷積操作，從而生成3 個特征圖。這一步驟旨在通過小型卷積核捕捉圖像中的局部特征，有助于提高網(wǎng)絡(luò)的感知力和表達(dá)能力。接下來，通過應(yīng)用5 個1×1×3 的卷積核對前一步驟產(chǎn)生的特征圖進(jìn)行卷積操作，生成5 個輸出通道的特征圖。這一步驟稱為逐點(diǎn)卷積，其目的是通過使用較小的卷積核減少計(jì)算復(fù)雜度，同時在特征圖之間引入非線性變換，增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。

MobileNet-V1 的重要特點(diǎn)之一是采用深度可分離卷積，該卷積操作分為深度卷積和逐點(diǎn)卷積兩個步驟。深度可分離卷積首先通過3×3 的深度卷積對輸入特征圖的每個通道進(jìn)行處理，然后再通過1×1 的逐點(diǎn)卷積進(jìn)行通道間的整合。這一設(shè)計(jì)有效地降低了參數(shù)數(shù)量，減小了計(jì)算負(fù)擔(dān)，使得MobileNet-V1 適用于計(jì)算資源有限的場景，為無人機(jī)圖像識別等應(yīng)用提供了高效的解決方案。

2 基于MobileNet-V1 的無人機(jī)圖像識別

2.1 圖像增強(qiáng)方法

為了應(yīng)對無人機(jī)圖像的特征，本研究提出了一種基于直方圖均衡（histogram equalization）［7－8］和高斯濾波（Gaussian smoothing）［9－10］的圖像增強(qiáng)方法，以優(yōu)化圖像的對比度和降低噪聲。

首先，考慮到無人機(jī)圖像可能存在部分區(qū)域亮度過低或過高的問題，本研究采用直方圖均衡化來調(diào)整圖像的灰度分布，提高圖像的整體對比度。直方圖均衡的基本思想是通過拉伸原始圖像的灰度級別，使得灰度值均勻分布，從而增強(qiáng)圖像的細(xì)節(jié)。具體而言，對于一幅無人機(jī)圖像的灰度直方圖，其離散形式可以表示為式（1）：

式（1）中，Pr（rk）是灰度級別rk的概率密度函數(shù)，nk是灰度級別rk的像素?cái)?shù)量，N是總像素?cái)?shù)量。通過對累積分布函數(shù)進(jìn)行線性映射，可以獲得均衡化后的灰度級別，如式（2）所示：

通過對整個圖像應(yīng)用T（rk）可以實(shí)現(xiàn)直方圖均衡化，從而改善圖像的對比度。其次，為了減小無人機(jī)圖像中可能存在的噪聲，本研究引入高斯濾波進(jìn)行平滑處理。高斯濾波的離散形式可以表示為式（3）：

式（3）中，G（x，y）是高斯核，σ是高斯濾波器的標(biāo)準(zhǔn)差。通過卷積原始圖像與高斯核，可以實(shí)現(xiàn)對圖像的平滑處理，抑制噪聲的影響。綜合考慮直方圖均衡化和高斯濾波，本研究提出的圖像增強(qiáng)方法可以表示為式（4）：

式（4）中，Ioriginal是原始無人機(jī)圖像，T是直方圖均衡化的變換函數(shù)，G是高斯濾波核，Ienhanced是圖像增強(qiáng)結(jié)果。通過這一方法，本研究旨在優(yōu)化無人機(jī)圖像的質(zhì)量，為后續(xù)基于MobileNet-V1 的圖像識別方法提供更具有魯棒性的輸入。

2.2 圖像識別方法

使用MobileNet-V1 進(jìn)行圖像識別的方法涉及圖像的前向傳播和特征提取過程。設(shè)輸入圖像為Ienhanced，MobileNet-V1 的前向傳播過程可以描述為式（5）：

式（5）中，F(xiàn)mnv1是MobileNet-V1 的前向傳播函數(shù)，Θ 表示網(wǎng)絡(luò)參數(shù)，?是網(wǎng)絡(luò)輸出的特征圖。MobileNet-V1 的結(jié)構(gòu)包括深度可分離卷積和逐點(diǎn)卷積，通過這些卷積層逐漸提取圖像的抽象特征。

首先，輸入圖像經(jīng)過深度可分離卷積層，該卷積操作分為深度卷積（depthwise convolution）和逐點(diǎn)卷積（pointwise convolution）兩個步驟。深度可分離卷積的數(shù)學(xué)表示為式（6）、式（7）：

式（6）、式（7）中，DWConv 表示深度卷積，PWConv 表示逐點(diǎn)卷積，Θdw和Θpw分別是深度卷積和逐點(diǎn)卷積的參數(shù)。這兩個步驟將輸入圖像分別進(jìn)行通道內(nèi)和通道間的信息提取，生成特征圖。接下來，通過多個這樣的深度可分離卷積層的堆疊，逐漸提高特征的抽象層次，形成更高級別的特征表示。最終的特征圖?可以通過逐點(diǎn)卷積操作輸出：

得到特征圖后，可以應(yīng)用全局平均池化（global average pooling）操作將特征圖轉(zhuǎn)換為定長的特征向量，如式（9）所示：

式（9）中，GAP 表示全局平均池化操作。這一步驟有助于減少參數(shù)數(shù)量，降低過擬合的風(fēng)險(xiǎn)。最后，通過連接全連接（fully connected， FC）層和Softmax 層，可以得到圖像的類別概率分布如式（10）所示：

式（10）中，F(xiàn)C表示全連接操作，Softmax 表示激活函數(shù)，Θfc和Θsoftmax分別是全連接層和Softmax 層的參數(shù)。

綜合而言，使用MobileNet-V1 進(jìn)行圖像識別的過程經(jīng)過一系列卷積、池化和全連接操作，將輸入圖像轉(zhuǎn)換為類別概率分布。通過訓(xùn)練網(wǎng)絡(luò)參數(shù)Θ，可以實(shí)現(xiàn)對無人機(jī)圖像的高效分類。

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集與環(huán)境配置

AU-AIR 數(shù)據(jù)集［11］是一個廣泛應(yīng)用于無人機(jī)圖像處理和機(jī)器學(xué)習(xí)算法驗(yàn)證的開放數(shù)據(jù)集。該數(shù)據(jù)集由澳大利亞國立大學(xué)制作，包含了多個場景下的高分辨率無人機(jī)圖像，涵蓋了城市、農(nóng)田、森林等不同地貌。AU-AIR 數(shù)據(jù)集的圖像標(biāo)注包括了多個類別，如建筑物、道路、車輛等，使其適用于各種無人機(jī)應(yīng)用領(lǐng)域的研究。另外，本實(shí)驗(yàn)的硬件和軟件環(huán)境配置分別如表1、表2 所示。

表1 硬件環(huán)境配置

表2 軟件環(huán)境配置

3.2 實(shí)驗(yàn)方案設(shè)計(jì)

本實(shí)驗(yàn)的實(shí)驗(yàn)方案包含以下幾個部分：

（1）數(shù)據(jù)準(zhǔn)備。下載AU-AIR 數(shù)據(jù)集，并將其70%和30%分別劃分為訓(xùn)練集和測試集。然后，對訓(xùn)練集進(jìn)行隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等操作，以擴(kuò)充訓(xùn)練數(shù)據(jù)。

（2）數(shù)據(jù)增強(qiáng)。對數(shù)據(jù)進(jìn)行直方圖均衡和高斯濾波。

（3）網(wǎng)絡(luò)模型構(gòu)建?；赥ensorFlow 和Keras 構(gòu)建MobileNet-V1 模型，包括深度可分離卷積和逐點(diǎn)卷積層；添加全局平均池化和全連接層，以生成類別概率分布。

（4）模型訓(xùn)練。使用訓(xùn)練集對MobileNet-V1 進(jìn)行端到端的訓(xùn)練。

（5）模型評估。使用測試集對訓(xùn)練好的MobileNet-V1進(jìn)行評估，計(jì)算分類準(zhǔn)確度等指標(biāo)。

3.3 結(jié)果與分析

本實(shí)驗(yàn)的部分目標(biāo)識別結(jié)果如圖2 所示，可以看出所提方法準(zhǔn)確地識別出圖片中的車輛和行人等目標(biāo)，其中，汽車被標(biāo)為紅色方框，行人被標(biāo)為紫色方框，摩托車或電動車被標(biāo)為綠色方框。

圖2 部分目標(biāo)識別結(jié)果

表3 展示了在AU-AIR 數(shù)據(jù)集上使用所提方法訓(xùn)練的MobileNet-V1 模型的性能指標(biāo)實(shí)驗(yàn)結(jié)果。綜合而言，所提方法訓(xùn)練的MobileNet-V1 模型在AU-AIR 數(shù)據(jù)集上表現(xiàn)良好。準(zhǔn)確度、精確度、召回率和F1 分?jǐn)?shù)表明模型在無人機(jī)圖像識別任務(wù)中取得了較好的綜合性能。然而，具體分析中還需要考慮不同類別的性能，以進(jìn)一步優(yōu)化模型的特定識別能力。進(jìn)一步的實(shí)驗(yàn)和分析可以幫助深化對模型性能的理解，并為進(jìn)一步改進(jìn)提供有針對性的方向。

表3 實(shí)驗(yàn)結(jié)果

4 結(jié)語

綜上所述，本文通過深入研究卷積神經(jīng)網(wǎng)絡(luò)在無人機(jī)圖像識別中的應(yīng)用［12］，提出了一種基于輕量化網(wǎng)絡(luò)MobileNet-V1 的方法，并在AU-AIR 數(shù)據(jù)集上進(jìn)行了實(shí)證驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，所提出的方法在無人機(jī)圖像識別中表現(xiàn)出色，為輕量級網(wǎng)絡(luò)在實(shí)際應(yīng)用中的有效性提供了有力支持。通過本研究為無人機(jī)圖像識別領(lǐng)域的進(jìn)一步探索和優(yōu)化提供了新的思路和方法。