摘" 要: 近年來,由于氣候變化、室外空氣污染物的增加以及全球變暖,木薯葉片病害變得更加普遍,及時和準(zhǔn)確地檢測木薯葉部病害對于防止其蔓延和確保農(nóng)業(yè)生產(chǎn)的可持續(xù)性至關(guān)重要。然而,現(xiàn)有的木薯葉病檢測模型很容易受到環(huán)境背景噪聲的影響,這使得其由于無法有效提取出木薯葉病圖片的特征,而導(dǎo)致其識別檢測精度較低。針對該問題,文中設(shè)計(jì)了一種卷積視覺Transformer的木薯葉病檢測模型——CViT,并提出了一種最小注意力裁剪算法(LeIAP)來選擇Transformer模型中每一層最重要的注意力頭,以提高模型的性能。該模型在Transformer的基礎(chǔ)上利用多頭注意力模塊來提取圖像高級特征,利用軟分割標(biāo)記嵌入捕獲局部信息,這不僅可以提高學(xué)習(xí)到的信息的豐富度,也有利于細(xì)粒度的特征學(xué)習(xí)。此外,該模型還使用了一種焦點(diǎn)角度間隔懲罰損失函數(shù)([F]?Softmax),通過更好地學(xué)習(xí)類間距離,以改善模型在不同類別疾病數(shù)據(jù)上的識別精度。實(shí)驗(yàn)結(jié)果表明,該模型在2021年的Kaggle比賽數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于現(xiàn)有的主流模型。
關(guān)鍵詞: 木薯葉病檢測; 視覺Transformer; 多頭注意力; 損失函數(shù); 識別精度; 最小注意力裁剪
中圖分類號: TN911.73?34; TP301" " " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " 文章編號: 1004?373X(2025)03?0061?08
Cassava leaf disease recognition model based on convolutional vision Transformer
XIE Cong1, XIE Cong2, WANG Tianshun3, JI Shaopei4
(1. Guangxi Police College, Nanning 530007, China;
2. Guangxi Vocational University of Agriculture, Nanning 530007, China;
3. Henan Institute of Technology, Xinxiang 453003, China;
4. The 30th Research Institute of China Electronics Technology Group Corporation, Chengdu 610041, China)
Abstract: Due to the climate change, increased outdoor air pollutants, and global warming in recent years, cassava leaf diseases have become more common. Timely and accurate detection of cassava leaf diseases is crucial for preventing their spread and ensuring the sustainability of agricultural production. However, the existing cassava leaf disease detection models are affected easily by the background noise in the environments, so it is difficult for these models to extract features from cassava leaf disease images effectively, which results in low recognition and detection accuracy. In view of this, a convolutional visual Transformer based cassava leaf disease detection model CViT is designed, and a least attention pruning algorithm named LeIAP is proposed to select the most important attention head in each layer of the Transformer based model to improve the model performance. This model extracts advanced features of the image by the multi?head attention module on the basis of Transformer, and captures local information by soft segmentation label embedding. This can not only improve the richness of the learned information, but also facilitate fine?grained feature learning. In addition, a focus angle interval penalty loss function ([F]?Softmax) is employed in the model to improve the recognition accuracy of the model on different categories of disease data on the basis of learning the inter?class distance more thoroughly. The experimental results show that the accuracy of the model on the 2021 Kaggle competition dataset is superior to that of the existing mainstream models.
Keywords: cassava leaf disease detection; ViT; multi?head attention; loss function; recognition accuracy; LeIAP
0" 引" 言
農(nóng)業(yè)已成為各個國家的主要收入來源,在過去幾十年里推動了全球經(jīng)濟(jì)的發(fā)展。然而,農(nóng)業(yè)生產(chǎn)力容易受到植物病害的影響,從而對糧食安全構(gòu)成威脅。例如,病原體、蟲害使全球五種主要糧食作物減產(chǎn)10%~40%,包括小麥、水稻、玉米、土豆和大豆[1]。緩解這些威脅需要經(jīng)常檢查疾病癥狀,既費(fèi)時又費(fèi)力,特別是對大片農(nóng)田而言。因此,有效檢測植物病害對實(shí)現(xiàn)精準(zhǔn)農(nóng)業(yè)具有舉足輕重的作用。
在機(jī)器學(xué)習(xí)的普及和推動下,多個研究小組一直致力于實(shí)現(xiàn)植物病害檢測的自動化。研究人員們傾向于從圖像中提取重要特征,并依賴這些特征識別疾病。例如,Thilagavathi等人利用尺度不變特征變換(SIFT)來提取圖像特征,然后使用支持向量機(jī)(SVM)對番石榴葉片病害進(jìn)行分類[2]。在類似的嘗試中,許多研究使用支持向量機(jī)分析植物病害,但采用了不同的特征提取方法,取得了顯著的效果,也有其他研究用K近鄰(KNN)分類器代替支持向量機(jī)處理復(fù)雜的數(shù)據(jù)模型和海量的訓(xùn)練數(shù)據(jù)[3?6]。例如,Parikh等人將局部統(tǒng)計(jì)特征和KNN相結(jié)合,對棉花灰霉病進(jìn)行了分類[7]。然而,上述工作都需要多個預(yù)處理和特征提取步驟,它們在多分類時是無效的,并且對預(yù)定義參數(shù)敏感。
為了克服這些局限性,一些研究將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用到農(nóng)業(yè)中,以提高病害檢測質(zhì)量。典型的例子是Babu等人利用三層反向傳播神經(jīng)網(wǎng)絡(luò)對被昆蟲或真菌破壞的葉片進(jìn)行分類[8];Karmokar等人提出了結(jié)合特征提取的集成神經(jīng)網(wǎng)絡(luò)技術(shù),通過減少疾病的負(fù)面影響來提高茶葉產(chǎn)量[9]。然而,這些人工神經(jīng)網(wǎng)絡(luò)分類器在將二維圖像轉(zhuǎn)換為一維向量來執(zhí)行圖像分類任務(wù)時,失去了圖像的空間特征。此外,這也會成倍增加可訓(xùn)練參數(shù)的數(shù)量,最終增加存儲和計(jì)算的復(fù)雜性。
深度神經(jīng)網(wǎng)絡(luò)(DNN),特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN),近年來被有效地應(yīng)用于農(nóng)業(yè)行業(yè),克服了已有方法的缺點(diǎn)[10]。例如,文獻(xiàn)[11]使用Mask?RCNN模型與遷移學(xué)習(xí)技術(shù)檢測小麥赤霉病。該模型在含有450幅彩色圖像的測試數(shù)據(jù)集上取得了92.01%的平均準(zhǔn)確率。文獻(xiàn)[12]使用Resnet152、Inception V3和MobileNet模型識別蘋果葉片病害,識別準(zhǔn)確率分別為77.65%、75.59%和73.50%;文獻(xiàn)[13]引入了一個自定義網(wǎng)絡(luò)模型,該模型在珍珠小米疾病分類中獲得了93.18%的高準(zhǔn)確率。盡管這些最先進(jìn)的深度學(xué)習(xí)模型實(shí)現(xiàn)了高性能的結(jié)果,并且符合輕量化部署的要求,但它們消耗了大量的計(jì)算資源來訓(xùn)練模型。
受Transformer在自然語言處理(NLP)中的工作啟發(fā),許多研究者將Transformer架構(gòu)引入到圖像分類中[14]。視覺Transformer(ViT)是第一種基于變壓器的圖像處理方法[15]。為了處理2D圖像,將圖像重塑為一系列離散的不重疊的16×16補(bǔ)丁。此外,2D補(bǔ)丁被扁平成1D標(biāo)記,并通過線性投影,投影到[D]維。最后,將位置嵌入的平坦塊的線性投影輸入到標(biāo)準(zhǔn)變壓器編碼器層。雖然ViT在更大規(guī)模數(shù)據(jù)集上的視覺任務(wù)得到了成功,但在中等數(shù)據(jù)集上從頭訓(xùn)練時,識別精度略低于類似大小的卷積神經(jīng)網(wǎng)絡(luò)。Transformer在被引入視覺任務(wù)時已經(jīng)被證明有非凡的能力,但它們的性能仍然不如類似大小的CNN,這主要有三個原因:為了將序列作為Transformer的輸入,將圖像分割成補(bǔ)丁序列,這導(dǎo)致該模型只關(guān)注局部信息,而忽略了圖像目標(biāo)的全局特征;由于補(bǔ)丁大小固定,很難明確地提取低分辨率和多尺度的特征圖;當(dāng)訓(xùn)練數(shù)據(jù)不足時,ViT骨干學(xué)習(xí)到的特征不如基于CNN的模型豐富和有效。
針對上述問題,本文設(shè)計(jì)了一種基于卷積視覺Transformer的木薯葉病識別模型(CViT)。該模型將軟分割標(biāo)記嵌入和深度卷積引入到Transformer中,不僅可以學(xué)習(xí)患病木薯葉的局部空間特征,而且還側(cè)重于學(xué)習(xí)數(shù)據(jù)的高級特征信息;其次,本文還提出了一種最小注意力裁剪(LeIAP)算法來選擇CViT模型Transformer中的每一層最重要的注意力頭,以提高模型的性能。此外,本文還使用了一種焦點(diǎn)角邊緣懲罰軟損失函數(shù)([F]?Softmax),通過更好地學(xué)習(xí)類間距離,以改善模型在不同類別疾病數(shù)據(jù)上的識別精度。
1" 視覺Transformer
隨著Transformer在自然語言處理問題中的成功引用,Dosovitskiy等人開發(fā)了基于原始Transformer架構(gòu)的視覺Transformer模型(ViT)[15]。ViT由自注意塊和多層感知器(MLP)網(wǎng)絡(luò)組成,對輸入圖像具有線性投影和位置嵌入機(jī)制。一個典型的ViT組織結(jié)構(gòu)如圖1所示,輸入圖像被劃分為固定大小的非重疊斑塊。此外,扁平補(bǔ)丁采用線性投影進(jìn)行位置嵌入。位置嵌入主要用來保留補(bǔ)丁相對于原始圖像的位置信息,然后將輸出向量傳遞到[N]個Transformer塊的堆棧中。典型Transformer的主要組件是多頭自注意力塊(MHA)和MLP,每一個Transformer之前都有一個標(biāo)準(zhǔn)化層和剩余連接。MHA包括多個自注意力塊,它被單獨(dú)應(yīng)用于每個補(bǔ)丁。在MHA中,輸入向量被轉(zhuǎn)換為三個獨(dú)立的向量:query([Q])、key([K])和值([V])。具體計(jì)算公式為[Q=XWQ]、[K=XWK]和[V=VWV],其中[WQ]、[WK]和[WV]是權(quán)重矩陣;利用[Q]和[K]的點(diǎn)積,基于嵌入式補(bǔ)丁的顯著性生成分?jǐn)?shù)矩陣;然后,將Softmax激活函數(shù)應(yīng)用于分?jǐn)?shù)矩陣,進(jìn)一步,將輸出乘以[V]生成自注意結(jié)果。自注意結(jié)果如式(1)所示:
[SA(Q,K,V)=SoftmaxQKTdk*V] (1)
式中[dk]表示向量[K]的維數(shù)。
最后,將自注意矩陣組合并傳遞到一個線性層,然后是一個線性回歸頭。自注意塊可以在圖像中選擇相關(guān)的語義特征進(jìn)行分類,在Transformer編碼器中可以存在任意數(shù)量的自注意塊,稱為MHA,MHA塊的輸出可以使用式(2)進(jìn)行計(jì)算。MLP堆放在MHA層后,包括具有GeLU激活函數(shù)的人工神經(jīng)網(wǎng)絡(luò)層。GeLU激活函數(shù)是通過將輸入乘以其伯努利分布來計(jì)算的。Transformer塊的輸出可以使用式(3)進(jìn)行計(jì)算。
[MHAout=MHANORM(xin)+xin] (2)
式中:[xin]為Transformer的輸入;NORM為歸一化層;MHA為多頭自注意;MHAout為多頭自注意層的輸出。
[TFout=MLPNORM(MHAout)+MHAout] (3)
式中:MLP為多層感知器;TFout為Transformer的輸出。
2" 基于卷積視覺Transformer的木薯葉病檢測模型構(gòu)建
本文通過在視覺Transformer架構(gòu)的基礎(chǔ)上,通過引入軟分割標(biāo)記嵌入和深度卷積Transformer塊,提出了一種基于卷積視覺Transformer的木薯葉病檢測模型(CViT)。CViT模型共分為三個階段,以MLP作為分類器進(jìn)行分類,每個階段均由軟分割標(biāo)記嵌入和深度卷積Transformer塊組成。模型架構(gòu)如圖2所示。
2.1" 軟分割標(biāo)記嵌入
軟分割標(biāo)記嵌入主要是對圖像四周的局部像素和補(bǔ)丁信息進(jìn)行建模。本文利用卷積來實(shí)現(xiàn)軟分割標(biāo)記嵌入。
假設(shè)給定一個大小為[Hi-1×Wi-1×Ci-1]的圖像,首先將其輸入卷積層進(jìn)行函數(shù)[f(?)]學(xué)習(xí),卷積層中步長為[s],卷積核大小為[S]×[S],填充值為[P],卷積核數(shù)為[Ci],[Sgt;s]。輸出[f(xi?1)∈?Hi×Wi×Ci]可以表示為:
[Hi=Hi-1-S+2Ps+1," " Wi=Wi-1-S+2Ps+1] (4)
然后在空間維度上將[f(xi?1)]扁平化為[Hi×Wi×Ci],并對其進(jìn)行歸一化處理。
這種標(biāo)記嵌入方法可以逐步減少標(biāo)記序列的長度,增加標(biāo)記特征的維數(shù)。與卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相似,這給了標(biāo)記一個更大的接受域來表示越來越復(fù)雜的視覺模式。
2.2" 深度卷積Transformer塊
與標(biāo)準(zhǔn)的視覺Transformer不同,本文使用深度卷積投影層作為三個階段的Transformer塊對局部空間上下文信息進(jìn)行建模。如圖3所示,首先將輸入標(biāo)記重塑為二維標(biāo)記映射;然后,使用核大小為[s]×[s]的深度卷積投影,將映射的標(biāo)記壓縮為一維,作為多頭注意模塊的輸入。
多頭注意模塊輸入的具體計(jì)算公式如下:
[xq/k/vi=FlattenConv2DReshape2D(xi),s] (5)
式中:[xq/k/vi]是第[i]層的標(biāo)記輸入;[xi]是卷積投影之前的軟分割標(biāo)記;Conv2D是卷積核大小為[s]×[s]的卷積。與傳統(tǒng)視覺Transformer中的線性投影相比,深度級卷積投影的參數(shù)量更少,因此在計(jì)算時更加有優(yōu)勢。
2.3" 基于最小注意力裁剪算法的自注意力頭縮減
為了提高CViT模型的性能,本文提出了一種最小注意力裁剪算法(LeIAP)來優(yōu)化Transformer中的自注意頭。
首先,嘗試剪除每一層中相同的注意力頭部,以減小模型的大??;然后,計(jì)算每一層中每個注意力頭的權(quán)重,計(jì)算出每一層所依賴的一組不同的注意力頭部。該算法的具體實(shí)現(xiàn)如下所示。
算法1: LeIAP?最小注意力裁剪算法
輸入:[N]個訓(xùn)練樣本,[T={I1,I2,…,IN}]
輸出:設(shè)置[K] heads為根據(jù)[L]個Transformer編碼層按最重要原則排序后的結(jié)果,[H={H1,H2,…,HL}],其中,[Hl={headl1,headl2,…,headlK}]
初始化:
[Himport∈RL×n]
步驟1:通過[N]個樣本計(jì)算每一個注意力頭的關(guān)注值
for [l]=1 to [L] do
for [i]=1 to [n] do
[ headli=t=1NAttention(Qli,Kli,Vli)]
end for
end for
步驟2:計(jì)算每個注意力和頭的重要性
for [l]=1 to [L] do
for [i]=1 to [n] do
[headimportli=headli]
[Himport.add(headimportli)]
end for
end for
步驟3: 獲取[Himport]矩陣中每行[K]個最大標(biāo)量值的索引
for [l]=1 to [L] do
[Indexl1,Indexl2,…,IndexlK=find K Largest Value(Hlimport)]
end for
步驟4: 獲取每層[K]個最大索引對應(yīng)的[K]個頭,并設(shè)置為輸出[H]
返回[H]
如算法1所示,輸入是[N]個訓(xùn)練圖像,而輸出[H]是每個Transformer編碼器層的[K]個最基本的注意力頭的集合。算法初始化的重要矩陣[Himport]用于保存每層頭部的重要值。首先,通過式(6)計(jì)算注意力;然后,將每個注意矩陣的所有元素相加,計(jì)算出每個注意頭的重要值;最后,獲得與每個Transformer編碼器層中注意力頭的[K]個最大標(biāo)量值的索引集合作為[H]。很明顯,輸出[H]取決于訓(xùn)練數(shù)據(jù)集。
2.4" 焦點(diǎn)角度間隔懲罰損失函數(shù)
傳統(tǒng)的Softmax損失函數(shù)定義如下:
[Softmax=eWTyifij=1ceWTyjfi=eWificosθij=1cWjficosθj] (6)
式中:[fi]是在最后一個完全連接層之前屬于[i]類的特征向量;[WTyi]或[Wi]是特征向量[fi]對應(yīng)的權(quán)值;[cosθi]是余弦值,[θi]是權(quán)重[Wi]和特征[fi]之間的間隔。
Softmax函數(shù)雖然在[θ]和[W]上進(jìn)行了優(yōu)化任務(wù),但是這個優(yōu)化方向?qū)Ψ诸惾蝿?wù)并不嚴(yán)格。如果優(yōu)化目標(biāo)集中在一個特定的變量([θ]或[W])上,那么優(yōu)化方向?qū)⒆兊酶用鞔_,并最終提高性能。本文的主要目的是獲得更嚴(yán)格的分類邊界,這一目標(biāo)的實(shí)現(xiàn)取決于類內(nèi)和類間的互動。因此,本文定義了兩個函數(shù):類內(nèi)函數(shù)[ζ(θi)]和類間函數(shù)[ξ(θj)],具體如下:
[ζ(θi)=cos(θi+m)] (7)
[ξ(θj)=cos(θj-m)] (8)
式中[m∈[0,π]],為焦點(diǎn)角度間隔。
本節(jié)定義了焦點(diǎn)角度間隔懲罰函數(shù)([F]?Softmax),具體如下:
[?F?Softmax=eS?ζ(θi)eS?ζ(θi)+j=1, j≠iceS?ξ(θj)] (9)
式中:[S]是放大樣本分布差異的比例因子;[?F?Softmax]是類[i]的預(yù)測概率值。本文將[F]?Softmax集成到損失函數(shù)中,不平衡問題、類間問題和類內(nèi)問題都可以得到一定程度的解決。也就是說,本文研究不僅關(guān)注類間/類內(nèi)嵌入特征空間,而且還關(guān)注不平衡的數(shù)據(jù)集。最終的損失函數(shù)可表示如下:
[L=-1Ni=1Nat(1-?F?Softmax)βlog(?F?Softmax)] (10)
[at=logk=tcGkk≠tcGk] (11)
式中:[t]為當(dāng)前樣本的真實(shí)標(biāo)簽;[k]為一個類別;[at]為當(dāng)前樣本所屬類別對應(yīng)的權(quán)值;[Gk]為不同類別中的樣本數(shù)。在訓(xùn)練過程中,為了避免模型傾向于某一類別,[β]=2可以使模型學(xué)習(xí)不容易分類的樣本。
由于[F]?Softmax損失函數(shù)依賴于[m]來產(chǎn)生帶有邊際的分類效應(yīng),從而更多地分離分類邊界,獲得比Softmax損失函數(shù)更好的分類效果。本文的損失函數(shù)充分結(jié)合焦點(diǎn)損失和類內(nèi)損失的優(yōu)勢,允許模型不僅學(xué)習(xí)困難樣本和減輕樣本失衡的影響,也更好地學(xué)習(xí)更大的類間距離,這有利于模型改善在不同疾病數(shù)據(jù)上的分類效果。
3" 實(shí)驗(yàn)對比與分析
3.1" 圖像數(shù)據(jù)集
實(shí)驗(yàn)中使用的圖像數(shù)據(jù)集來自2021年的Kaggle比賽,該競賽提供了一個包含5個疾病類別的木薯葉疾病數(shù)據(jù)集[16]。木薯葉病數(shù)據(jù)集包括木薯細(xì)菌性枯萎?。–BB)圖像1 087張、木薯花葉?。–MD)圖像2 189張、木薯褐條紋?。–BSD)圖像2 386張、木薯綠點(diǎn)?。–GM)圖像13 158張和健康個體圖像2 577張。對于實(shí)驗(yàn),使用了[k]=5的分層[k]折疊交叉驗(yàn)證技術(shù),該技術(shù)使每個折疊中的類之間的比率與原始數(shù)據(jù)集中的比率保持不變,確??梢愿鼫?zhǔn)確地估計(jì)模型性能和損失。同時,將數(shù)據(jù)分為兩個訓(xùn)練和驗(yàn)證集,比例為4∶1。訓(xùn)練和測試數(shù)據(jù)集中各類木薯葉的葉數(shù)如表1所示。很大部分?jǐn)?shù)據(jù)包含CMD和CBSD疾病圖像,只有一小部分?jǐn)?shù)據(jù)包含健康圖像。在這個數(shù)據(jù)集中存在一個類別不平衡。
3.2" 評估指標(biāo)和實(shí)驗(yàn)環(huán)境
本文使用以下最常見的評價(jià)指標(biāo),包括精度(Precision)、召回率(Recall)和[F1]?Score,來評估模型在木薯葉病數(shù)據(jù)集上的性能。
[Precision=TPTP+FP] (12)
[Recall=TPTP+FN] (13)
[F1?Score=2×Precision×RecallPrecision+Recall] (14)
式中:TP為真陽性;FP為假陽性;FN為假陰性;精度是對準(zhǔn)確預(yù)測的真正值相對于正預(yù)測觀測值總數(shù)的測量;召回率是對所有正確預(yù)測數(shù)量的一種衡量標(biāo)準(zhǔn);[F1]?Score是一個平衡精度和召回率的度量,這些指標(biāo)可以具體歸類為宏觀平均和加權(quán)平均估計(jì)。
實(shí)驗(yàn)操作系統(tǒng)為Ubuntu 18.04 LTS,處理器為AMD 7742,內(nèi)存為512 GB,代碼利用Keras框架和cuDNN v8.3庫實(shí)現(xiàn)。
3.3" 參數(shù)設(shè)置
表2為CViT模型的詳細(xì)參數(shù)設(shè)置。輸入圖像的默認(rèn)大小是224×224,ST代表軟分割標(biāo)記嵌入,[Hi]代表第[i]個MHA組件中的頭數(shù),[Di]是嵌入特征維度的數(shù)量,[Ri]是第[i]個MLP層中的特征維度膨脹系數(shù)。
3.4" 實(shí)驗(yàn)和分析
本節(jié)進(jìn)行了三個方面的實(shí)驗(yàn):將CViT模型與未使用LeIAP算法進(jìn)行注意力頭裁剪的CViT(CViT?1)進(jìn)行對比,以驗(yàn)證LeIAP算法的有效性;將CViT模型與未使用[F]?Softmax損失函數(shù)的CViT(CViT?2)進(jìn)行對比,以驗(yàn)證[F]?Softmax損失函數(shù)的有效性;將CViT模型與已有的其他模型進(jìn)行對比,以驗(yàn)證其相對于已有模型的有效性。
3.4.1" CViT與CViT?1模型對比
本節(jié)將CViT模型與未使用LeIAP算法進(jìn)行注意力頭裁剪的CViT(CViT?1)進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表3、圖4所示。
從表3中可以看出,使用LeIAP算法進(jìn)行自注意力頭裁剪的模型比未使用LeIAP算法的模型在使用更少的推理時間的同時獲得了更好的[F1]?Score,這是因?yàn)長eIAP算法可以識別并保留模型中最重要的注意頭。這說明CViT模型由于能夠識別模型中最重要的注意頭,可以在保持模型性能(例如[F1]?Score)的同時,有效地減小模型尺寸。
3.4.2" CViT與CViT?2模型對比
將CViT模型與未使用[F]?Softmax損失函數(shù)的CViT(CViT?2)進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表4、圖5所示。
從表4中可以看出,在損失函數(shù)中加入[F]?Softmax函數(shù),使得CViT模型在Precision、Recall、[F1]?Score三個指標(biāo)上均有所提升。這是因?yàn)樵趽p失函數(shù)中加入[F]?Softmax函數(shù),可以充分結(jié)合焦點(diǎn)損失和類內(nèi)損失的優(yōu)勢,允許模型不僅學(xué)習(xí)困難樣本和減輕樣本失衡的影響,也更好地學(xué)習(xí)更大的類間距離,這有利于模型改善在不同疾病數(shù)據(jù)上的分類效果。
3.4.3" CViT與已有模型對比
本節(jié)首先給出了CViT模型在木薯葉部病害數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,如表5所示。另外,將CViT模型與其他已有模型進(jìn)行了比較,如表6所示。其中,Inception?V3[17]、Resnet50[18]和Inception Resnet V2[19]的[F1]?Score分別為84.25%、82.81%、85.54%;VGG[20]、EfficientNetB0[21]和Xception[22]模型的[F1]?Score分別為86.13%、85.25%、90.75%;本文的最佳擬合模型總體上達(dá)到了94.81%的[F1]?Score,與其他已有的最佳模型相比高出4%。這些結(jié)果表明,與最先進(jìn)的研究相比,本文提出的模型在木薯葉部病害數(shù)據(jù)集分類方面是有效的。
3.4.4" 可視化分析
由于實(shí)驗(yàn)數(shù)據(jù)集中包含大量CMD和CBSD疾病圖像,只有一小部分?jǐn)?shù)據(jù)包含健康圖像,在這個數(shù)據(jù)集中存在一個類別不平衡。此外,如圖6b)所示,使用t?SNE對數(shù)據(jù)集進(jìn)行可視化的結(jié)果顯示,不同類別數(shù)據(jù)集的分布分散和混合在一起,數(shù)據(jù)集顯示高度非線性分離的情況,不同的顏色代表不同類別的樣本,因此是具有挑戰(zhàn)性的疾病分類問題。
表6" CViT模型與其他模型分類結(jié)果比較" " "%[模型 Precision Recall [F1]?Score Inception?V3 79.85 78.26 84.25 Resnet50 83.49 82.15 82.81 Inception Resnet V2 85.26 85.83 85.54 VGG 86.78 85.49 86.13 EfficientNetB0 88.84 86.53 85.25 Xception 91.26 90.24 90.75 CViT 95.23 94.36 94.81 ]
本節(jié)利用t?SNE技術(shù)分析了CViT模型學(xué)習(xí)到的特征空間分布,對由模型生成的特征進(jìn)行可視化,結(jié)果如圖6b)所示,其中不同的顏色表示不同的樣本類別。從圖中可以看出,不同類別的特征表示之間有明顯的間距。相比之下,各類別中樣本的分布也更加集中,表明本文的CViT模型能夠有效地提取出類別間的鑒別特征。
4" 結(jié)" 論
本文提出了一種基于卷積視覺Transformer的木薯葉病檢測模型(CViT),同時為了提高模型的性能,還提出了兩種優(yōu)化方法,即LeIAP和焦點(diǎn)角度間隔懲罰損失函數(shù)([F]?Softmax),在保證分類質(zhì)量的前提下,減少了模型大小、加快了訓(xùn)練時間。其中,LeIAP算法主要用來選擇Transformer模型中每一層最重要的注意力頭,以提高模型的性能;[F]?Softmax主要通過更好地學(xué)習(xí)類間距離,以改善模型在不同類別疾病數(shù)據(jù)上的識別精度。實(shí)驗(yàn)結(jié)果表明,該模型在2021年的Kaggle比賽數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于現(xiàn)有的主流模型。
在未來的研究中,將把本文研究與數(shù)據(jù)增強(qiáng)技術(shù)相結(jié)合,以進(jìn)一步提升木薯葉病檢測的精度,同時將本文模型應(yīng)用在其他農(nóng)業(yè)作物的葉病檢測中以進(jìn)一步驗(yàn)證其有效性。
注:本文通訊作者為謝聰(廣西農(nóng)業(yè)職業(yè)技術(shù)大學(xué))。
參考文獻(xiàn)
[1] SHAIKH T A, RASOOL T, LONE F R. Towards leveraging the role of machine learning and artificial intelligence in precision agriculture and smart farming [J]. Computers and electronics in agriculture, 2022, 198: 107119.
[2] MOSTAFA A M, KUMAR S A, MERAJ T, et al. Guava disease detection using deep convolutional neural networks: A case study of guava plants [J]. Applied sciences, 2021, 12(1): 239.
[3] KARTHIK R, HARIHARAN M, ANAND S, et al. Attention embedded residual CNN for disease detection in tomato leaves [J]. Applied soft computing, 2020, 86: 105933.
[4] VISHNOI V K, KUMAR K, KUMAR B. Plant disease detection using computational intelligence and image processing [J]. Journal of plant diseases and protection, 2021, 128(1): 19?53.
[5] NGUGI L C, ABELWAHAB M, ABO?ZAHHAD M. Recent advances in image processing techniques for automated leaf pest and disease recognition: A review [J]. Information processing in agriculture, 2021, 8(1): 27.
[6] PAREZ S, DILSHAD N, ALGHAMDI N S, et al. Visual intelligence in precision agriculture: Exploring plant disease detection via efficient vision transformers [J]. Sensors, 2023, 23(15): 6949.
[7] SHOAIB M, SHAH B, EI?SAPPAGH S, et al. An advanced deep learning models?based plant disease detection: A review of recent research [J]. Frontiers in plant science, 2023, 14: 1158933.
[8] MANAVALAN R. Towards an intelligent approaches for cotton diseases detection: A review [J]. Computers and electronics in agriculture, 2022, 200: 107255.
[9] AGARWAL M, GUPTA S K, BISWAS K K. A new Conv2D model with modified ReLU activation function for identification of disease type and severity in cucumber plant [J]. Sustainable computing: Informatics and systems, 2021, 30: 100473.
[10] DHAKA V S, MEENA S V, RANI G, et al. A survey of deep convolutional neural networks applied for prediction of plant leaf diseases [J]. Sensors, 2021, 21(14): 4749.
[11] QIU R C, YANG C, MOGHIMI A, et al. Detection of fusarium head blight in wheat using a deep neural network and color imaging [J]. Remote sensing, 2019, 11(22): 2658.
[12] BI C K, WANG J M, DUAN Y L, et al. MobileNet based apple leaf diseases identification [J]. Mobile networks and applications, 2022, 27(1): 172?180.
[13] KUNDU N, RANI G, DHAKA V S, et al. IoT and interpretable machine learning based framework for disease prediction in pearl millet [J]. Sensors, 2021, 21(16): 5386.
[14] SUBAKAN C, RAVANELLI M, CORNELL S, et al. Attention is all you need in speech separation [C]// 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York: IEEE, 2021: 21?25.
[15] WANG Y L, HUANG R, SONG S J, et al. Not all images are worth 16x16 words: Dynamic transformers for efficient image recognition [C]// Advances in Neural Information Processing Systems 34: Annual Conference on Neural Information Processing Systems 2021. [S.l.: s.n.], 2021: 11960?11973.
[16] LIU J, WANG X W. Plant diseases and pests detection based on deep learning: A review [J]. Plant methods, 2021, 17(1): 1?18.
[17] DONG N, ZHAO L, WU C H, et al. Inception v3 based cervical cell classification combined with artificially extracted features [J]. Applied soft computing, 2020, 93: 106311.
[18] ALZAMILY J Y I, ARIFFIN S B, ABU S S. Classification of encrypted images using deep learning?Resnet50 [J]. Journal of theoretical and applied information technology, 2022, 100(21): 6610?6620.
[19] PENG C, LIU Y K, YUAN X P, et al. Research of image recognition method based on enhanced inception?ResNet?V2 [J]. Multimedia tools and applications, 2022, 81(24): 34345?34365.
[20] DING X H, ZHANG X Y, MA N N, et al. RepVGG: Making VGG?style ConvNets great again [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13733?13742.
[21] GOUTHAM V, SAMEERUNNISA A, BABU S, et al. Brain tumor classification using EfficientNet?B0 model [C]// 2022 2nd International Conference on Advance Computing and Innovative Technologies in Engineering (ICACITE). New York: IEEE, 2022: 2503?2509.
[22] SHARMA S, KUMAR S. The Xception model: A potential feature extractor in breast cancer histology images classification [J]. ICT express, 2022, 8(1): 101?108.
[23] THAI H T, LE K H, NGUYEN N L T. FormerLeaf: An efficient vision transformer for cassava leaf disease detection [J]. Computers and electronics in agriculture, 2023, 204: 107518.