魏秋彥
(銅仁職業(yè)技術(shù)學(xué)院 貴州 銅仁 554300)
近年來,隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域的快速發(fā)展,圖像識(shí)別與分類在人工智能研究中扮演著重要的角色[1-2]。圖像識(shí)別與分類技術(shù)的應(yīng)用范圍廣泛,其中之一是垃圾圖像分類領(lǐng)域[3-4]。垃圾圖像分類是一項(xiàng)關(guān)鍵的環(huán)境保護(hù)任務(wù),其旨在將廢棄物按照可回收、不可回收和有害等不同類別進(jìn)行準(zhǔn)確分類,以促進(jìn)可持續(xù)發(fā)展和資源回收利用。然而,傳統(tǒng)的垃圾圖像分類方法通常依賴于人工設(shè)計(jì)的特征和規(guī)則,其識(shí)別準(zhǔn)確度和魯棒性有限。為了克服傳統(tǒng)方法的局限性,深度學(xué)習(xí)技術(shù)逐漸成為垃圾圖像分類領(lǐng)域的研究熱點(diǎn)。深度學(xué)習(xí)通過學(xué)習(xí)從原始圖像數(shù)據(jù)中提取高級(jí)特征的能力,可以更好地處理圖像分類任務(wù)。在深度學(xué)習(xí)模型中,卷積神經(jīng)網(wǎng)絡(luò)無連接節(jié)點(diǎn)網(wǎng)絡(luò)服務(wù)(connectionless node network service,CNNs)由于出色的特征提取能力而受到廣泛關(guān)注[5-6]。
為了推動(dòng)技術(shù)的發(fā)展,本文提出了一種基于稠密卷積網(wǎng)絡(luò)(dense convolutional network,DenseNet)深度學(xué)習(xí)網(wǎng)絡(luò)[7-8]的垃圾圖像分類模型。相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),DenseNet能夠充分利用特征的信息,提高模型的識(shí)別性能。為了驗(yàn)證基于DenseNet的垃圾圖像分類模型的有效性,本研究選擇了NWNU-TRASH數(shù)據(jù)集作為訓(xùn)練和測試數(shù)據(jù)。通過在該數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)和評(píng)估,對(duì)比了所提出模型的性能。實(shí)驗(yàn)結(jié)果顯示,基于DenseNet的垃圾圖像分類模型在NWNU-TRASH數(shù)據(jù)集上取得了顯著的效果。
DenseNet是一種深度學(xué)習(xí)架構(gòu),被廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù),如圖像分類和目標(biāo)檢測。DenseNet的設(shè)計(jì)思想是通過最大程度地促進(jìn)特征重用來提高網(wǎng)絡(luò)性能。它的主要?jiǎng)?chuàng)新是密集連接機(jī)制,使得網(wǎng)絡(luò)中每一層都直接與其他層相連。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,特征從底層傳遞到頂層,需要經(jīng)過多個(gè)非線性層。而在DenseNet中,每一層不僅接收前一層的輸出,還接收來自所有前面層的連接。這種密集連接的方式有效地提高了特征的流動(dòng)和信息傳遞,使得網(wǎng)絡(luò)更容易學(xué)習(xí)到復(fù)雜的特征,如圖1所示。其中,H表示批標(biāo)準(zhǔn)化-激活函數(shù)-卷積層。
圖1 本實(shí)驗(yàn)采用的五層DenseNet深度學(xué)習(xí)網(wǎng)絡(luò)
密集連接的方式使網(wǎng)絡(luò)中的每一層都可以直接訪問之前所有層的特征圖,從而增強(qiáng)了信息流動(dòng)和特征傳遞的能力。密集連接可表示為式(1):
xk=Hk({x0,x1,…,xk-1})
(1)
式(1)中,xk表示第k層的輸出,Hk表示第k層的非線性變換函數(shù),{x0,x1,…,xk-1}表示前面所有層的輸出。
DenseNet由多個(gè)密集塊和過渡層交替組成。每個(gè)密集塊由多個(gè)卷積層組成,且每個(gè)卷積層的輸入都是前面所有層的輸出的串聯(lián)。過渡層用于控制網(wǎng)絡(luò)的維度,減少特征圖的大小和數(shù)量,從而降低計(jì)算復(fù)雜度。
密集塊由多個(gè)卷積層組成,可以表示為式(2)、式(3):
x0=inputfeature
(2)
xk=Hk({x0,x1,…,xk-1}),for1≤k≤L
(3)
式(2)、式(3)中,L是密集塊中的卷積層數(shù)量。過渡層可以表示為式(4)、式(5):
x'=transition(x,Θ)=BN(Conv(1×1)(x))
(4)
x''=avgpool(x'),fork≤L
(5)
式(4)、式(5)中,x是輸入特征圖,x'是經(jīng)過過渡層的輸出,x''是經(jīng)過平均池化的輸出,Conv(1×1)表示1×1卷積操作,avgpool表示平均池化操作,BN表示批歸一化操作。
該模型通過預(yù)訓(xùn)練和參數(shù)微調(diào)的方式實(shí)現(xiàn)了對(duì)垃圾圖片分類任務(wù)的高效解決,如圖2所示。首先利用ImageNet對(duì)模型進(jìn)行預(yù)訓(xùn)練;其次將預(yù)訓(xùn)練的參數(shù)遷移至DenseNet模型中,以利用其密集連接和多個(gè)密集塊的優(yōu)勢;再次通過NWNU-TRASH數(shù)據(jù)集對(duì)模型進(jìn)行參數(shù)微調(diào),以適應(yīng)具體的垃圾圖像分類任務(wù);最后,模型根據(jù)輸入圖像的特征進(jìn)行垃圾類別的預(yù)測輸出。具體為:
圖2 基于DenseNet深度學(xué)習(xí)網(wǎng)絡(luò)的遷移學(xué)習(xí)框架
(1)預(yù)訓(xùn)練
在模型的第一階段,使用ImageNet數(shù)據(jù)集[9-10]對(duì)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。通過在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,模型可以學(xué)習(xí)到豐富的圖像特征。
(2)模型遷移
在預(yù)訓(xùn)練完成后,將預(yù)訓(xùn)練的參數(shù)遷移至DenseNet模型中。DenseNet深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)具有密集連接和多個(gè)密集塊的特點(diǎn),可以充分利用圖像特征的信息。通過遷移預(yù)訓(xùn)練參數(shù),模型可以快速適應(yīng)垃圾圖像分類任務(wù),并具備較好的初始性能。
(3)參數(shù)微調(diào)
在模型遷移后,使用NWNU-TRASH數(shù)據(jù)集對(duì)模型進(jìn)行參數(shù)微調(diào)。NWNU-TRASH數(shù)據(jù)集是用于垃圾圖像分類任務(wù)的數(shù)據(jù)集,其中包含了多個(gè)垃圾類別的圖像樣本。通過將該數(shù)據(jù)集輸入模型進(jìn)行訓(xùn)練,可以進(jìn)一步調(diào)整模型參數(shù)以適應(yīng)特定的垃圾圖像分類任務(wù)。
(4)垃圾圖像分類輸出
經(jīng)過參數(shù)微調(diào)后,模型可以根據(jù)輸入的圖像樣本預(yù)測其所屬的垃圾類別。通過對(duì)模型最后一層的輸出進(jìn)行softmax激活。根據(jù)最高概率值所對(duì)應(yīng)的類別,即可確定圖像樣本所屬的垃圾類別。對(duì)于給定的向量x=(x1,x2,…,xk),softmax函數(shù)將每個(gè)元素映射到[0, 1]區(qū)間內(nèi),并使得所有元素的和等于1,其定義為式(6)所示:
(6)
式(6)中,e是自然對(duì)數(shù)的底數(shù),約等于2.718 28。
NWNU-TRASH圖像數(shù)據(jù)集是用于垃圾圖像分類任務(wù)的一個(gè)常用數(shù)據(jù)集,旨在提供一個(gè)豐富多樣的垃圾圖像樣本集合,以用于垃圾圖像分類算法的評(píng)估和性能測試,部分圖像如圖3所示。該數(shù)據(jù)集包含了共計(jì)42 580張圖像樣本,涵蓋了40個(gè)不同的垃圾類別。每個(gè)垃圾類別都有一定數(shù)量的圖像樣本,使得數(shù)據(jù)集具有較為均衡的類別分布。其圖像樣本涵蓋了多種類型的垃圾,包括紙類、塑料類、玻璃類、金屬類、電子廢物等,每個(gè)圖像樣本都配有詳細(xì)的標(biāo)注信息,包括圖像所屬的垃圾類別。這些標(biāo)注信息可以用于訓(xùn)練和評(píng)估垃圾圖像分類算法的準(zhǔn)確性和效果。
使用NWNU-TRASH數(shù)據(jù)集訓(xùn)練和測試基于DenseNet的垃圾圖像分類網(wǎng)絡(luò)的方法包括數(shù)據(jù)預(yù)處理、模型初始化和參數(shù)遷移、參數(shù)微調(diào)、模型評(píng)估和測試。
(1)數(shù)據(jù)預(yù)處理。首先對(duì)NWNU-TRASH數(shù)據(jù)集進(jìn)行預(yù)處理(部分?jǐn)?shù)據(jù)示例如表1所示)。其次包括圖像的加載和調(diào)整大小,以使其適應(yīng)網(wǎng)絡(luò)的輸入要求。本實(shí)驗(yàn)將圖像調(diào)整為統(tǒng)一的尺寸,224×224像素。
表1 評(píng)估結(jié)果
(2)模型初始化和參數(shù)遷移。將DenseNet模型的參數(shù)進(jìn)行初始化,并從預(yù)訓(xùn)練的ImageNet模型中遷移參數(shù)。通過這種方式,模型從ImageNet數(shù)據(jù)集中學(xué)習(xí)到的通用圖像特征可以在垃圾圖像分類任務(wù)中得到重用,從而加快模型的訓(xùn)練收斂和提高初始性能。
(3)參數(shù)微調(diào)。在模型初始化和參數(shù)遷移后,使用NWNU-TRASH數(shù)據(jù)集對(duì)模型進(jìn)行參數(shù)微調(diào)。
(4)模型評(píng)估和測試。使用NWNU-TRASH數(shù)據(jù)集中的測試集對(duì)模型進(jìn)行評(píng)估和測試,并用準(zhǔn)確率、精確度、召回率、F1值等指標(biāo)來量化模型性能。這些指標(biāo)可以衡量模型在垃圾圖像分類任務(wù)中的分類準(zhǔn)確性和效果。
本實(shí)驗(yàn)使用準(zhǔn)確率、精確度和F1值對(duì)模型進(jìn)行測試評(píng)估,并對(duì)比了所提架構(gòu)與CNNs的實(shí)驗(yàn)結(jié)果,如表1所示。
表1顯示了基于準(zhǔn)確率、精確度和F1值評(píng)估CNNs和DenseNet架構(gòu)在不同類別以及整體平均值上的測試結(jié)果。
在該數(shù)據(jù)集上,CNNs和本模型的平均準(zhǔn)確率分別為0.84和0.86;平均精確度分別為0.86和0.87,表示模型在預(yù)測為正確類別的樣本中有將近90%是真正的正類別。在F1值方面,CNNs和本模型的平均值分別達(dá)到了0.83和0.86??傊?基于準(zhǔn)確率、精確度、召回率和F1值的評(píng)估結(jié)果表明,CNNs和該基于DenseNet的垃圾圖像分類模型在NWNU-TRASH數(shù)據(jù)集上取得了較好的分類效果,并且所提模型的綜合性能顯著優(yōu)于卷積神經(jīng)網(wǎng)絡(luò),如圖4所示。
圖4 CNNs和DenseNet架構(gòu)在準(zhǔn)確率、精確度和F1值的平均值對(duì)比
綜上所述,本文基于DenseNet深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)了一種垃圾圖像分類模型,并用NWPU-TRASH圖像數(shù)據(jù)集進(jìn)行了驗(yàn)證。在該過程中,預(yù)訓(xùn)練和參數(shù)遷移提高了模型的初始性能和訓(xùn)練收斂速度。參數(shù)微調(diào)過程進(jìn)一步優(yōu)化了模型,使其在NWPU-TRASH圖像數(shù)據(jù)集上取得了較高的準(zhǔn)確率、精確度和召回率。這表明所提出的垃圾圖像分類模型在實(shí)際應(yīng)用中具有潛力,并為垃圾圖像分類領(lǐng)域的研究和實(shí)踐提供了有價(jià)值的參考。本文提出的基于DenseNet的垃圾圖像分類模型在NWPU-TRASH圖像數(shù)據(jù)集上取得了良好效果。未來,可以從探索其他網(wǎng)絡(luò)結(jié)構(gòu)或優(yōu)化算法等方面進(jìn)行研究,以提高垃圾圖像分類模型的性能和泛化能力。此外,可以考慮將該模型應(yīng)用于實(shí)際垃圾圖像分類場景,并對(duì)其在不同環(huán)境和數(shù)據(jù)集上的適應(yīng)性進(jìn)行進(jìn)一步研究。