摘 要:種子分類識別技術(shù)的應用潛力巨大,可以在種子生產(chǎn)、農(nóng)業(yè)科研、種植管理等領(lǐng)域發(fā)揮重要作用。通過采集不同品種的玉米種子圖像,并利用預處理和數(shù)據(jù)增強技術(shù)對數(shù)據(jù)集進行處理,構(gòu)建了一個包含4種深度學習網(wǎng)絡模型的試驗框架(MobileNetV3、VGG16、GoogLeNet及ShuffleNet),對比4種模型在訓練和測試階段的表現(xiàn),評估其準確率、損失值、訓練時間,然后分析各個模型之間的差異。試驗結(jié)果顯示:MobileNetV3深度學習網(wǎng)絡模型在玉米種子分類識別任務中表現(xiàn)出色,對玉米種子的識別精準度達到了93.4%。相比其他3種模型,MobileNetV3深度學習網(wǎng)絡模型在準確率和損失值方面展現(xiàn)出最佳性能,并且具有較快的收斂速度和穩(wěn)定的訓練過程。
關(guān)鍵詞:玉米;品種識別;深度學習
中圖分類號:TP183;TP391.9 文獻標志碼:A 文章編號:1674-7909-(2023)13-141-3
0 引言
玉米是我國重要的糧食作物之一,其種植面積大、分布范圍廣,在保證我國糧食供給、促進經(jīng)濟發(fā)展、農(nóng)民增收、維護社會穩(wěn)定等方面具有重要作用。種子分類對于提高玉米產(chǎn)量和品質(zhì)具有重要意義,有助于促進種子產(chǎn)業(yè)化發(fā)展和農(nóng)業(yè)生產(chǎn)優(yōu)化,助力農(nóng)業(yè)產(chǎn)業(yè)可持續(xù)發(fā)展。近年來,深度學習技術(shù)快速發(fā)展,其在圖像識別和分類領(lǐng)域應用廣泛,如深度學習網(wǎng)絡模型[1-2]。深度學習網(wǎng)絡模型包括深度神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡等。
馬睿等[3]提出的基于卷積神經(jīng)網(wǎng)絡模型的Xception與胚乳數(shù)據(jù)集建模方法較優(yōu),測試集準確率達到了92.78%。司海平等[4]提出一種基于特征融合的玉米品種圖像識別方法,通過VGG16和ResNet50兩種預訓練網(wǎng)絡來獲取圖像的深度特征,試驗結(jié)果表明對特征進行融合相較于單一使用深度特征或傳統(tǒng)特征具有更高的識別準確率。
此次研究旨在探索利用深度學習網(wǎng)絡模型對玉米種子進行分類識別的可行性和效果。筆者采集不同品種的玉米種子圖像,并利用預處理和數(shù)據(jù)增強技術(shù)對數(shù)據(jù)集進行處理,構(gòu)建了一個包含4種深度學習網(wǎng)絡模型的試驗框架(MobileNetV3、VGG16、GoogLeNet和ShuffleNet),通過對比4種模型在訓練和測試階段的表現(xiàn),評估其準確率、損失值、訓練時間,并分析各個模型之間的差異。
1 試驗材料與預處理
1.1 數(shù)據(jù)采集
此次研究以小金黃、金色超人、甜糯黃玉米、甜妃4個玉米品種為研究對象。在選取玉米種子過程中采用人工選種法,挑選飽滿、無破損的玉米種子。其中,小金黃265粒、金色超人256粒、甜糯黃玉米172粒、甜妃166粒。將每種種子平鋪在黑色桌面上,使用iPhone 12手機固定在桌面14 cm高處,在實驗室自然光情況下垂直對玉米種子進行拍攝。
1.2 數(shù)據(jù)集的增強與劃分
為了提高深度學習網(wǎng)絡模型對玉米種子識別的準確率,此次試驗利用Python和Opencv將多粒玉米種子圖片區(qū)域分割成單粒玉米種子圖片。分割前,先對圖像進行閾值分割和二值化、去除邊緣顆粒等處理。
針對樣本數(shù)據(jù)不足導致的深度學習網(wǎng)絡模型能力不足問題,為提高深度學習網(wǎng)絡模型的準確度,此次研究采用隨機旋轉(zhuǎn)45°或-45°、增加噪聲、圖片池化、隨機變色等操作對玉米種子數(shù)據(jù)集進行增強,數(shù)據(jù)集圖片數(shù)量增加到原來的近4倍。從中隨機選取每種玉米種子的80%的圖像作為訓練集,10%的圖像作為測試集、10%的圖像作為驗證集,分別存放在對應的子目錄中,如表1所示。
2 試驗環(huán)境與模型原理
2.1 圖像識別模型
此次研究采用了MobileNetV3、VGG16、GoogLeNet、ShuffleNet等4種不同的卷積神經(jīng)網(wǎng)絡模型作為試驗的訓練模型對玉米種子進行建模,分析各個網(wǎng)絡和數(shù)據(jù)建模之間的差異。
2.1.1 MobileNetV3
相比于MobileNetV2,MobileNetV3更新了倒殘差結(jié)構(gòu),加入了SE模塊并且更新了激活函數(shù),使用NAS搜索參數(shù),重新設計耗時層結(jié)構(gòu)。同時,MobileNetV3仍保持輕量級特性,具有較小的模型尺寸和計算開銷,適用于計算資源受限的設備和應用。MobileNetV3 Large較于V2版本檢測速度提升了25%,MobileNetV3 Small的準確度提高了6.6%,有效提高了應用在移動端的圖像分類和檢測任務的精度。因此,MobileNetV3是一種高性能、可調(diào)節(jié)、輕量級的卷積神經(jīng)網(wǎng)絡模型。
2.1.2 VGG16
VGG16的突出特點是卷積層均采用相同的卷積核參數(shù),即每個卷積層的寬和高相同。VGG16卷積串聯(lián)比單獨使用一個較大的卷積核擁有更少的參數(shù),同時比單獨一個卷積層擁有更多的非線性變化,適應更復雜的模式[5]。而卷積核串聯(lián)多次提取特征,比單一的卷積核提取的特征要細膩。Padding的步幅小于核的大小,可以覆蓋提取特征,也提高了特征的細膩度。
2.1.3 GoogLeNet
GoogLeNet是由Google團隊提出的一種深度卷積神經(jīng)網(wǎng)絡架構(gòu),其主要原理是采用了Inception模塊來提取圖像特征[6]。網(wǎng)絡引入Inception結(jié)構(gòu)代替了單純的“卷積+激活函數(shù)”的傳統(tǒng)操作,實現(xiàn)了高效的特征提取和計算過程,并具有較好的參數(shù)效率和抗衰減性。網(wǎng)絡最后采用了average pooling來代替全連接層,使網(wǎng)絡參數(shù)得到了明顯降低,性能得到了提升。
2.1.4 ShuffleNet
ShuffleNet架構(gòu)中主要采用了兩種新操作:分組卷積(Pointwise Group Convolution)和通道重排(Channel Shuffle)。這兩種操作在保持模型精度的同時大大降低了計算量,實現(xiàn)了高效的特征提取和交互。分組卷積將輸入通道分組并進行卷積操作,可減少計算復雜度;通道重排操作增加特征之間的交互,可提高特征表示的豐富性[7]。
2.2 超參數(shù)設置
采用Python編程語言,使用基于Torch的PyTorch深度學習框架,使用PyCharm作為集成開發(fā)環(huán)境編寫深度學習網(wǎng)絡模型,并在一臺搭載CPU為i7-12700H、GPU為RTX3060的筆記本電腦上進行試驗。各個深度學習網(wǎng)絡模型的參數(shù)均設置成學習率為0.001,一次訓練所選取的樣本數(shù)(BatchSize)設置為16,訓練輪數(shù)(Epoch)均為100輪,均采用隨機梯度下降算法(Stochastic Gradient Descent,SGD)作為優(yōu)化算法,并且輸出每輪訓練所得到的損失值和玉米種子識別準確率。
3 試驗結(jié)果與分析
此試驗分別使用4種不同的深度學習網(wǎng)絡模型對玉米種子進行分類識別訓練,其中MobileNetV3和ShuffleNet為輕量級網(wǎng)絡。對于玉米種子圖像分類的4種深度學習網(wǎng)絡模型,選擇平均識別準確率、訓練測試過程中損失函數(shù)的值及訓練過程所需要的時間這3項指標作為評價指標。在經(jīng)過100輪的迭代訓練之后,4種深度學習網(wǎng)絡模型對玉米種子分類識別的準確率如表2所示。
試驗發(fā)現(xiàn),在對玉米種子分類識別任務中,MobileNetV3深度學習網(wǎng)絡模型表現(xiàn)最為出色。與其他3種網(wǎng)絡模型相比,MobileNetV3深度學習網(wǎng)絡模型在準確率和損失值方面表現(xiàn)出了最佳性能,網(wǎng)絡收斂速度最快,對玉米圖像的分類識別準確率最高并且在100輪迭代訓練中損失值波動幅度最小。這可能歸因于MobileNetV3深度學習網(wǎng)絡模型在輕量級結(jié)構(gòu)的基礎(chǔ)上,引入了SE模塊和更新的激活函數(shù),以及通過NAS搜索參數(shù)進行的優(yōu)化,從而提高了模型的性能。
對深度學習網(wǎng)絡模型的準確率和損失值進行計算,MobileNetV3深度學習網(wǎng)絡模型的準確率曲線圖和損失值函數(shù)曲線圖如圖1所示。MobileNetV3深度學習網(wǎng)絡模型的損失函數(shù)曲線在10輪后趨于平穩(wěn),準確率曲線在18輪后趨于穩(wěn)定。但是,其他3種深度學習網(wǎng)絡模型的準確率和損失值在進行35輪迭代訓練后才趨于平緩。綜上對比,MobileNetV3深度學習網(wǎng)絡模型具有較高的識別精度。
在此次試驗中,4種模型在訓練過程中均出現(xiàn)了局部震蕩現(xiàn)象,但MobileNetV3深度學習網(wǎng)絡模型的震蕩幅度較小,在4種模型中表現(xiàn)最為穩(wěn)定。而ShuffleNet深度學習網(wǎng)絡模型出現(xiàn)局部震蕩次數(shù)較多且最為明顯。這可能與不同網(wǎng)絡結(jié)構(gòu)和參數(shù)設置之間的差異有關(guān),需要進一步研究和調(diào)整。
MobileNetV3深度學習網(wǎng)絡模型的訓練時間最短,平均每秒鐘可對3.6張圖片進行訓練;ShuffleNet深度學習網(wǎng)絡模型的訓練時間最長,平均每秒鐘只能對1.6張圖片進行訓練。這與模型的復雜度和計算開銷有關(guān),輕量級模型在訓練時間上具有一定的優(yōu)勢。
4 結(jié)論與討論
此次研究采用了4種深度學習網(wǎng)絡模型(MobileNetV3、ShuffleNet、GoogLeNet、VGG16)對玉米種子進行分類識別,并對其性能進行了評估和比較,其中MobileNetV3深度學習網(wǎng)絡模型的測試準確率為93.4%。研究表明,MobileNetV3深度學習網(wǎng)絡模型在玉米種子分類識別任務中具有較高的準確率、穩(wěn)定性和較短的訓練時間。該試驗結(jié)果對于玉米種子的自動化分類和識別具有重要的應用價值,并為進一步優(yōu)化和改進深度學習網(wǎng)絡模型在農(nóng)業(yè)領(lǐng)域的應用提供了參考。然而,此次研究的數(shù)據(jù)集規(guī)模相對較小,對其他玉米品種和泛化能力的研究還需要進一步擴充和探索。
參考文獻:
[1]KHAKI S,PHAM H,HAN Y,et al.Convolutional neural networks for image-based corn kernel detection and counting[J].Sensors(Basel),2020(9):2721.
[2]KHAKI S,PHAM H,HAN Y,et al.DeepCorn:a semi-supervised deep learning method for high-throughput image-based corn kernel counting and yield estimation[J].Knowledge-Based Systems,2021(12):106874.
[3]馬睿,王佳,趙威,等.基于卷積神經(jīng)網(wǎng)絡與遷移學習的玉米籽粒圖像分類識別[J/OL].中國糧油學報:1-10[2023-05-31].http://kns.cnki.net/kcms/detail/11.2864.TS.20220803.1310.010.html.
[4]司海平,萬里,王云鵬,等.基于特征融合的玉米品種識別[J/OL].中國糧油學報:1-12[2023-05-31].https://doi.org/10.20048/j.cnki.issn.1003-0174.000167.
[5]王嶸.基于深度學習的圖像搜索算法研究[J].計算機產(chǎn)品與流通,2018(11):150.
[6]惠苗.融合壓縮與激勵的GoogLeNet模型云檢測算法[J].榆林學院學報,2023(2):68-72.
[7]畢鵬程,羅健欣,陳衛(wèi)衛(wèi).輕量化卷積神經(jīng)網(wǎng)絡技術(shù)研究[J].計算機工程與應用,2019(16):25-35.
作者簡介:張宇航(2000—),男,碩士生,研究方向:農(nóng)業(yè)工程與信息技術(shù);楊冬風(1977—),女,博士,副教授,研究方向:模式識別在農(nóng)業(yè)中的應用。