茹鮮古麗·蘇來滿,吾爾尼沙·依米提,涂偉滬
(哈密開放大學(xué) 新疆 哈密 839000)
隨著無人機(jī)技術(shù)的快速發(fā)展,無人機(jī)在軍事、民用和商業(yè)領(lǐng)域的應(yīng)用逐漸成為研究和關(guān)注的焦點(diǎn)。在無人機(jī)的廣泛應(yīng)用中,圖像識別技術(shù)扮演著至關(guān)重要的角色,為無人機(jī)系統(tǒng)提供了豐富的信息和智能決策支持[1-2]。為了提高無人機(jī)圖像識別的準(zhǔn)確性和效率,深度學(xué)習(xí)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[3-4]被廣泛應(yīng)用。本文旨在深入研究卷積神經(jīng)網(wǎng)絡(luò)在無人機(jī)圖像識別中的應(yīng)用,聚焦于輕量化卷積神經(jīng)網(wǎng)絡(luò)MobileNet-V1[5-6]的結(jié)構(gòu)與實(shí)際應(yīng)用。本研究期望為無人機(jī)圖像識別技術(shù)的不斷優(yōu)化和發(fā)展貢獻(xiàn)新的見解,推動無人機(jī)系統(tǒng)在各個領(lǐng)域的更廣泛而深入的應(yīng)用。
MobileNet-V1 是一種輕量級卷積神經(jīng)網(wǎng)絡(luò),其基本結(jié)構(gòu)采用了深度可分離卷積的設(shè)計(jì)思想,整體結(jié)構(gòu)包括深度可分離卷積和逐點(diǎn)卷積兩個關(guān)鍵步驟。如圖1 所示,該網(wǎng)絡(luò)的核心結(jié)構(gòu)包括圖像輸入層,3 個3×3×1 的卷積核產(chǎn)生的特征圖,輸出通道數(shù)為3,以及5 個1×1×3 的卷積核產(chǎn)生的特征圖,輸出通道數(shù)為5。
圖1 輕量化卷積神經(jīng)網(wǎng)絡(luò)MobileNet-V1
MobileNet-V1 的第一步是應(yīng)用3 個3×3×1 的卷積核對輸入圖像進(jìn)行卷積操作,從而生成3 個特征圖。這一步驟旨在通過小型卷積核捕捉圖像中的局部特征,有助于提高網(wǎng)絡(luò)的感知力和表達(dá)能力。接下來,通過應(yīng)用5 個1×1×3 的卷積核對前一步驟產(chǎn)生的特征圖進(jìn)行卷積操作,生成5 個輸出通道的特征圖。這一步驟稱為逐點(diǎn)卷積,其目的是通過使用較小的卷積核減少計(jì)算復(fù)雜度,同時在特征圖之間引入非線性變換,增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。
MobileNet-V1 的重要特點(diǎn)之一是采用深度可分離卷積,該卷積操作分為深度卷積和逐點(diǎn)卷積兩個步驟。深度可分離卷積首先通過3×3 的深度卷積對輸入特征圖的每個通道進(jìn)行處理,然后再通過1×1 的逐點(diǎn)卷積進(jìn)行通道間的整合。這一設(shè)計(jì)有效地降低了參數(shù)數(shù)量,減小了計(jì)算負(fù)擔(dān),使得MobileNet-V1 適用于計(jì)算資源有限的場景,為無人機(jī)圖像識別等應(yīng)用提供了高效的解決方案。
為了應(yīng)對無人機(jī)圖像的特征,本研究提出了一種基于直方圖均衡(histogram equalization)[7-8]和高斯濾波(Gaussian smoothing)[9-10]的圖像增強(qiáng)方法,以優(yōu)化圖像的對比度和降低噪聲。
首先,考慮到無人機(jī)圖像可能存在部分區(qū)域亮度過低或過高的問題,本研究采用直方圖均衡化來調(diào)整圖像的灰度分布,提高圖像的整體對比度。直方圖均衡的基本思想是通過拉伸原始圖像的灰度級別,使得灰度值均勻分布,從而增強(qiáng)圖像的細(xì)節(jié)。具體而言,對于一幅無人機(jī)圖像的灰度直方圖,其離散形式可以表示為式(1):
式(1)中,Pr(rk) 是灰度級別rk的概率密度函數(shù),nk是灰度級別rk的像素?cái)?shù)量,N是總像素?cái)?shù)量。通過對累積分布函數(shù)進(jìn)行線性映射,可以獲得均衡化后的灰度級別,如式(2)所示:
通過對整個圖像應(yīng)用T(rk) 可以實(shí)現(xiàn)直方圖均衡化,從而改善圖像的對比度。其次,為了減小無人機(jī)圖像中可能存在的噪聲,本研究引入高斯濾波進(jìn)行平滑處理。高斯濾波的離散形式可以表示為式(3):
式(3)中,G(x,y) 是高斯核,σ是高斯濾波器的標(biāo)準(zhǔn)差。通過卷積原始圖像與高斯核,可以實(shí)現(xiàn)對圖像的平滑處理,抑制噪聲的影響。綜合考慮直方圖均衡化和高斯濾波,本研究提出的圖像增強(qiáng)方法可以表示為式(4):
式(4)中,Ioriginal是原始無人機(jī)圖像,T是直方圖均衡化的變換函數(shù),G是高斯濾波核,Ienhanced是圖像增強(qiáng)結(jié)果。通過這一方法,本研究旨在優(yōu)化無人機(jī)圖像的質(zhì)量,為后續(xù)基于MobileNet-V1 的圖像識別方法提供更具有魯棒性的輸入。
使用MobileNet-V1 進(jìn)行圖像識別的方法涉及圖像的前向傳播和特征提取過程。設(shè)輸入圖像為Ienhanced,MobileNet-V1 的前向傳播過程可以描述為式(5):
式(5)中,F(xiàn)mnv1是MobileNet-V1 的前向傳播函數(shù),Θ 表示網(wǎng)絡(luò)參數(shù),?是網(wǎng)絡(luò)輸出的特征圖。MobileNet-V1 的結(jié)構(gòu)包括深度可分離卷積和逐點(diǎn)卷積,通過這些卷積層逐漸提取圖像的抽象特征。
首先,輸入圖像經(jīng)過深度可分離卷積層,該卷積操作分為深度卷積(depthwise convolution) 和逐點(diǎn)卷積(pointwise convolution)兩個步驟。深度可分離卷積的數(shù)學(xué)表示為式(6)、式(7):
式(6)、式(7)中,DWConv 表示深度卷積,PWConv 表示逐點(diǎn)卷積,Θdw和Θpw分別是深度卷積和逐點(diǎn)卷積的參數(shù)。這兩個步驟將輸入圖像分別進(jìn)行通道內(nèi)和通道間的信息提取,生成特征圖。接下來,通過多個這樣的深度可分離卷積層的堆疊,逐漸提高特征的抽象層次,形成更高級別的特征表示。最終的特征圖?可以通過逐點(diǎn)卷積操作輸出:
得到特征圖后,可以應(yīng)用全局平均池化(global average pooling)操作將特征圖轉(zhuǎn)換為定長的特征向量,如式(9)所示:
式(9)中,GAP 表示全局平均池化操作。這一步驟有助于減少參數(shù)數(shù)量,降低過擬合的風(fēng)險(xiǎn)。最后,通過連接全連接(fully connected, FC)層和Softmax 層,可以得到圖像的類別概率分布如式(10)所示:
式(10)中,F(xiàn)C表示全連接操作,Softmax 表示激活函數(shù),Θfc和Θsoftmax分別是全連接層和Softmax 層的參數(shù)。
綜合而言,使用MobileNet-V1 進(jìn)行圖像識別的過程經(jīng)過一系列卷積、池化和全連接操作,將輸入圖像轉(zhuǎn)換為類別概率分布。通過訓(xùn)練網(wǎng)絡(luò)參數(shù)Θ,可以實(shí)現(xiàn)對無人機(jī)圖像的高效分類。
AU-AIR 數(shù)據(jù)集[11]是一個廣泛應(yīng)用于無人機(jī)圖像處理和機(jī)器學(xué)習(xí)算法驗(yàn)證的開放數(shù)據(jù)集。該數(shù)據(jù)集由澳大利亞國立大學(xué)制作,包含了多個場景下的高分辨率無人機(jī)圖像,涵蓋了城市、農(nóng)田、森林等不同地貌。AU-AIR 數(shù)據(jù)集的圖像標(biāo)注包括了多個類別,如建筑物、道路、車輛等,使其適用于各種無人機(jī)應(yīng)用領(lǐng)域的研究。另外,本實(shí)驗(yàn)的硬件和軟件環(huán)境配置分別如表1、表2 所示。
表1 硬件環(huán)境配置
表2 軟件環(huán)境配置
本實(shí)驗(yàn)的實(shí)驗(yàn)方案包含以下幾個部分:
(1)數(shù)據(jù)準(zhǔn)備。下載AU-AIR 數(shù)據(jù)集,并將其70%和30%分別劃分為訓(xùn)練集和測試集。然后,對訓(xùn)練集進(jìn)行隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等操作,以擴(kuò)充訓(xùn)練數(shù)據(jù)。
(2)數(shù)據(jù)增強(qiáng)。對數(shù)據(jù)進(jìn)行直方圖均衡和高斯濾波。
(3)網(wǎng)絡(luò)模型構(gòu)建?;赥ensorFlow 和Keras 構(gòu)建MobileNet-V1 模型,包括深度可分離卷積和逐點(diǎn)卷積層;添加全局平均池化和全連接層,以生成類別概率分布。
(4)模型訓(xùn)練。使用訓(xùn)練集對MobileNet-V1 進(jìn)行端到端的訓(xùn)練。
(5)模型評估。使用測試集對訓(xùn)練好的MobileNet-V1進(jìn)行評估,計(jì)算分類準(zhǔn)確度等指標(biāo)。
本實(shí)驗(yàn)的部分目標(biāo)識別結(jié)果如圖2 所示,可以看出所提方法準(zhǔn)確地識別出圖片中的車輛和行人等目標(biāo),其中,汽車被標(biāo)為紅色方框,行人被標(biāo)為紫色方框,摩托車或電動車被標(biāo)為綠色方框。
圖2 部分目標(biāo)識別結(jié)果
表3 展示了在AU-AIR 數(shù)據(jù)集上使用所提方法訓(xùn)練的MobileNet-V1 模型的性能指標(biāo)實(shí)驗(yàn)結(jié)果。綜合而言,所提方法訓(xùn)練的MobileNet-V1 模型在AU-AIR 數(shù)據(jù)集上表現(xiàn)良好。準(zhǔn)確度、精確度、召回率和F1 分?jǐn)?shù)表明模型在無人機(jī)圖像識別任務(wù)中取得了較好的綜合性能。然而,具體分析中還需要考慮不同類別的性能,以進(jìn)一步優(yōu)化模型的特定識別能力。進(jìn)一步的實(shí)驗(yàn)和分析可以幫助深化對模型性能的理解,并為進(jìn)一步改進(jìn)提供有針對性的方向。
表3 實(shí)驗(yàn)結(jié)果
綜上所述,本文通過深入研究卷積神經(jīng)網(wǎng)絡(luò)在無人機(jī)圖像識別中的應(yīng)用[12],提出了一種基于輕量化網(wǎng)絡(luò)MobileNet-V1 的方法,并在AU-AIR 數(shù)據(jù)集上進(jìn)行了實(shí)證驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,所提出的方法在無人機(jī)圖像識別中表現(xiàn)出色,為輕量級網(wǎng)絡(luò)在實(shí)際應(yīng)用中的有效性提供了有力支持。通過本研究為無人機(jī)圖像識別領(lǐng)域的進(jìn)一步探索和優(yōu)化提供了新的思路和方法。