田鑫宇 劉蕾 吳金聰 朱大洲
摘 要:當(dāng)前社會食品營養(yǎng)安全謠言泛濫,網(wǎng)絡(luò)平臺上發(fā)布的虛假哲學(xué)極易引發(fā)社會恐慌,因此學(xué)者們對實現(xiàn)網(wǎng)絡(luò)平臺信息的監(jiān)測進(jìn)行了深入研究。在前期對于食品營養(yǎng)安全科普文本進(jìn)行監(jiān)測的基礎(chǔ)上加入對科普圖像的監(jiān)測。首先利用網(wǎng)絡(luò)爬蟲實現(xiàn)對食品營養(yǎng)安全科普圖像的抓取,其次通過卷積神經(jīng)網(wǎng)絡(luò)模型中的Resnet18網(wǎng)絡(luò)實現(xiàn)對圖像的二分類,在數(shù)據(jù)預(yù)處理過程中加入Focal Loss實現(xiàn)數(shù)據(jù)的不平衡處理,并在卷積神經(jīng)網(wǎng)絡(luò)中加入注意力機(jī)制,同時利用1×1卷積層替換全連接層,最終實現(xiàn)圖像分類效果的提升。對帶文字的科普類圖像及純圖像分類準(zhǔn)確率分別由89.7%及68.9%提升至98.3%及75.6%。此研究對食品營養(yǎng)安全科普圖像的二分類效果提升明顯,為圖像二分類問題提供了新方法。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);Resnet18;ECA模塊
Absrtact: In the current society, rumors about food nutrition safety are rampant, and false philosophies published on online platforms are easy to cause social panic. Therefore, scholars have conducted in-depth research on the realization of information monitoring on online platforms. On the basis of monitoring the popular science text of food nutrition safety in the early stage, the monitoring of popular science image is added. Firstly, web crawler was used to capture popular science images of food nutrition safety. Secondly, Resnet18 network in the convolutional neural network model was used to realize binary classification of images. In the process of data preprocessing, Focal Loss was added to realize data imbalance processing, and attention mechanism was added to the convolutional neural network. At the same time, 1×1 convolution layer is used to replace the full connection layer, and finally the image classification effect is improved. The classification accuracy of the two kinds of image data increased from 89.7% and 68.9% to 98.3% and 75.6%, respectively. This study significantly improved the biclassification effect of popular science images of food nutrition safety providing a new method for image biclassification.
Keywords: convolutional neural network; Resnet18; ECA module
當(dāng)今社會網(wǎng)絡(luò)發(fā)達(dá),謠言傳播的速度和范圍遠(yuǎn)超有關(guān)部門的科普力度。例如,之前的“鴻茅藥酒”“植脂末”等事件,因有關(guān)部門沒有及時監(jiān)測到謠言信息并進(jìn)行正確科普導(dǎo)致謠言肆意泛濫,造成不良的社會影響。針對此類問題,王輝[1]已基本實現(xiàn)食品營養(yǎng)安全科普信息監(jiān)測系統(tǒng)的搭建,可以實現(xiàn)對網(wǎng)絡(luò)公眾平臺上關(guān)于食品營養(yǎng)安全科普文字的抓取和監(jiān)測,同時生成報告反映給有關(guān)部門,供有關(guān)部門及時對此類事件進(jìn)行反映。但當(dāng)前通過網(wǎng)絡(luò)爬蟲所設(shè)計的此類輿情監(jiān)測系統(tǒng)中,通常只實現(xiàn)了對文本類信息的抓取和監(jiān)測,但這是遠(yuǎn)遠(yuǎn)不夠的。當(dāng)今各媒體市場競爭激烈,人們對知識的需求量增大,但獲取知識的時間和熱情卻在減少,圖片的“一目了然”及趣味性讓人們趨向于將圖像科普作為獲取知識的途徑,從最開始的“重文輕圖”再到如今的“圖文并重”,這是科普事業(yè)發(fā)展的規(guī)律,也是日趨激烈的媒體競爭的必然要求。因此,只針對文字進(jìn)行采集的形式已經(jīng)不能滿足系統(tǒng)的需求,在系統(tǒng)中加入對科普圖片的采集是至關(guān)重要和迫切的。
本研究在利用網(wǎng)絡(luò)爬蟲進(jìn)行食品營養(yǎng)安全科普圖像抓取的同時,為了剔除不包含科普文字的純圖像,利用深度學(xué)習(xí)中的卷積網(wǎng)絡(luò)模型實現(xiàn)對圖像的二分類[2]。選用2015年HE等[3]提出的殘差網(wǎng)絡(luò)進(jìn)行圖像的二分類,同時為了提升Resnet18的分類效果,針對圖像中文字存在較為分散的問題,在卷積神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制,且為了降低模型的復(fù)雜度、實現(xiàn)特征通道的維度改變、增加網(wǎng)絡(luò)的非線性、減少計算量,利用1×1的卷積層對全連接層進(jìn)行替換,在降低了模型復(fù)雜度的基礎(chǔ)上使改進(jìn)后的Resnet18模型的分類效果顯著提升。
1 數(shù)據(jù)來源與方法
1.1 數(shù)據(jù)來源與清洗
本研究數(shù)據(jù)來源采用網(wǎng)絡(luò)爬蟲方式分別從微博、微信公眾號以及科普中國這3個網(wǎng)站共獲取1 700張食品營養(yǎng)安全科普圖像,對圖像進(jìn)行數(shù)據(jù)清洗、去重等處理后用于實驗的數(shù)據(jù)量為1 678張。其中,帶文字的圖像為1 456張,純圖像為222張。將兩類數(shù)據(jù)分別以8∶2的比例劃分,帶文字的圖像訓(xùn)練集總數(shù)為1 164張,測試集總數(shù)為292張,純圖像訓(xùn)練集總數(shù)為177張,測試集總數(shù)為45張。帶文字及不帶文字的部分樣本數(shù)據(jù)如圖1、圖2所示。
1.2 Focal Loss數(shù)據(jù)預(yù)處理
由于網(wǎng)絡(luò)爬蟲爬取食品營養(yǎng)安全科普圖像數(shù)據(jù)質(zhì)量較高,因此出現(xiàn)了分類任務(wù)中常見的數(shù)據(jù)不平衡的現(xiàn)象,這樣會導(dǎo)致對于數(shù)量較少的數(shù)據(jù)集即使出現(xiàn)分類錯誤也不會對分類結(jié)果產(chǎn)生一定影響,因此需要對此類不平衡的數(shù)據(jù)進(jìn)行處理。本研究選用Focal Loss進(jìn)行數(shù)據(jù)不平衡處理,使模型更專注于數(shù)量較少的圖像數(shù)據(jù)。常用的Cross Entropy Loss計算公式為
式中:p為真實的標(biāo)簽值;y為預(yù)測概率值。
從式中可以看出對于正樣本來說,p與Loss成反比,對于負(fù)樣本來說p與Loss成正比,但對于正負(fù)比例失衡的樣本來說,此計算方法并不能準(zhǔn)確地展示分類效果,因此需要對少量樣本的Loss進(jìn)行強(qiáng)化,因此引入殘差法對Loss進(jìn)行加強(qiáng)或減弱,F(xiàn)ocal Loss的計算公式為
式中:FL(pt)為損失函數(shù)值;αt為權(quán)重;(1-pt)γ為調(diào)節(jié)因子;γ為可調(diào)節(jié)的聚焦參數(shù);pt為模型預(yù)測的概率。
從式中可以看出當(dāng)殘差過大時,相應(yīng)的Loss會做增強(qiáng),乘以權(quán)重后使模型對這部分?jǐn)?shù)據(jù)進(jìn)行加強(qiáng)處理,在一定程度上調(diào)節(jié)食品營養(yǎng)安全科普圖像數(shù)據(jù)樣本不均衡的問題。
1.3 模型的建立與優(yōu)化
本研究要解決的是圖像的二分類問題,對比深度學(xué)習(xí)分類模型特征后,發(fā)現(xiàn)Resnet18網(wǎng)絡(luò)有著層數(shù)少、復(fù)雜度低及運算時間短等優(yōu)點。針對食品營養(yǎng)安全圖像數(shù)據(jù)量適中且分類標(biāo)準(zhǔn)不會過于復(fù)雜的特點,Resnet18網(wǎng)絡(luò)更適用于食品營養(yǎng)安全科普圖像的二分類問題。
一個基本的Resnet18網(wǎng)絡(luò)架構(gòu),首先將輸入圖像分為RGB這3個通道,通道大小為224*224;開始進(jìn)入第一個卷積層(conv),卷積核大小為77,步長為2;然后經(jīng)過最大池化層(maxpool),卷積核大小為33,步長為1,不改變通道數(shù)但將數(shù)據(jù)減半,輸出數(shù)據(jù)為64*56*56;之后進(jìn)入四層卷積結(jié)構(gòu)(conv*4),第一層卷積數(shù)據(jù)大小及通道數(shù)均不改變,輸出數(shù)據(jù)為64*56*56,第二層到第4層都進(jìn)行升維下采樣,即將卷積數(shù)據(jù)大小減半通道數(shù)翻倍,則第二層數(shù)據(jù)結(jié)果為128*28*28,第三層輸出結(jié)果為256*14*14,第四層輸出結(jié)果為512*7*7;之后進(jìn)入平均池化層(avgpool),最終輸出結(jié)果為512*1*1。輸出數(shù)據(jù)計算公式為
式中:nout為輸出通道數(shù);nin為輸入通道數(shù);p為填充的大?。籯為卷積核的大?。籹為步長。
1.3.1 ECA模塊
在運用傳統(tǒng)Resnet18網(wǎng)絡(luò)模型進(jìn)行食品營養(yǎng)安全科普圖像數(shù)據(jù)分類后,發(fā)現(xiàn)由于部分圖像內(nèi)可能含有類似文字的圖畫標(biāo)志或存在水印等原因,導(dǎo)致模型對于此類圖像數(shù)據(jù)分類錯誤,因此在Resnet18網(wǎng)絡(luò)模型中加入注意力機(jī)制,以此提高模型分類的準(zhǔn)確率。但在研究中發(fā)現(xiàn)傳統(tǒng)的SENet在卷積塊中引入通道注意力機(jī)制的分類方法,隨著模型精度及復(fù)雜度的增高,計算量及計算成本也隨之增大,且SE模塊中所采用的降維操作會影響通道注意力的預(yù)測[4],因此在Resnet18網(wǎng)絡(luò)模型中加入WANG等[5]提出的一種針對CNN的ECA模塊(Efficient Channel Attention Module),可以實現(xiàn)無需降維的局部跨通道交互策略,在性能穩(wěn)定的同時對食品營養(yǎng)安全科普圖像的分類也有明顯的增益效果。ECA模塊使用不降維的GAP聚合卷積特征后,首先自適應(yīng)確定核大小K(局部跨通道交互覆蓋范圍),然后進(jìn)行一維卷積,再進(jìn)行Sigmoid函數(shù)學(xué)習(xí)channel attention。ECA模型架構(gòu)如圖3所示。
1.3.2 全連接層替換
由于食品營養(yǎng)安全科普圖像的尺寸不固定,而圖像的大小會影響全連接層的參數(shù)。用傳統(tǒng)方式對圖像進(jìn)行隨機(jī)剪裁會使圖像信息無法完整呈現(xiàn),會嚴(yán)重影響模型的分類效果。因此,為了突破全連接層對于尺寸的限制,將全連接層節(jié)點個數(shù)替換為卷積層的channel個數(shù);樣本替換為空間上高和寬的元素;特征替換為通道數(shù),完成了1*1卷積層對全連接層的替換,代替了全連接層在卷積神經(jīng)網(wǎng)絡(luò)中的將卷積后的特征進(jìn)行綜合的作用[6],在提升模型對于食品營養(yǎng)安全科普圖像分類效果的同時降低了模型復(fù)雜度。更新后的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
2 結(jié)果與分析
2.1 混淆矩陣對比分析
利用網(wǎng)絡(luò)爬蟲實現(xiàn)食品營養(yǎng)安全科普圖像數(shù)據(jù)的獲取,利用Resnet18網(wǎng)絡(luò)實現(xiàn)食品營養(yǎng)安全科普圖像數(shù)據(jù)的二分類,同時對Resnet18網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,實現(xiàn)對模型分類效果的提升。實驗在pycharm平臺下,使用python軟件進(jìn)行編程以及模型的優(yōu)化和改進(jìn),實現(xiàn)實驗結(jié)果的可視化。利用混淆矩陣、分類準(zhǔn)確率及損失函數(shù)作為判斷分類結(jié)果的標(biāo)準(zhǔn)。
原Resnet18網(wǎng)絡(luò)模型分類結(jié)果如圖5所示,優(yōu)化后的網(wǎng)絡(luò)模型分類結(jié)果如圖6所示。數(shù)字越大,對應(yīng)的混淆矩陣顏色越深,在混淆矩陣中(0,0),(1,1)坐標(biāo)為兩類數(shù)據(jù)分類準(zhǔn)確的個數(shù),其中(0,0)坐標(biāo)為帶文字的圖像分類準(zhǔn)確的個數(shù),(1,1)坐標(biāo)為純圖像分類準(zhǔn)確的個數(shù);(0,1),(1,0)兩個坐標(biāo)為分類錯誤的個數(shù),其中(0,1)坐標(biāo)為帶文字的圖像分類錯誤的個數(shù),(1,0)坐標(biāo)為純圖像分類錯誤的個數(shù)。如圖5、6可知,優(yōu)化前后對于帶文字的圖像數(shù)據(jù)分類準(zhǔn)確個數(shù)由262提升至287,對于純圖像數(shù)據(jù)分類準(zhǔn)確個數(shù)由31提升至34。對于帶文字的圖像數(shù)據(jù)分類錯誤個數(shù)由30降低至5,對于純圖像數(shù)據(jù)分類錯誤個數(shù)由14降低至11。說明優(yōu)化后的模型分類效果優(yōu)于優(yōu)化前的模型。
2.2 損失函數(shù)對比分析
當(dāng)預(yù)測類別等于真實類別時,Loss為0,否則Loss為1,損失函數(shù)L的計算公式為
式中:yi為真實值;f(xi)為預(yù)測值,當(dāng)預(yù)測值與真實值相等時,損失函數(shù)值為1,否則為0;0ifyi=f(xi)為若(即if)預(yù)測值等于真實值時,Loss為0。
優(yōu)化前后的損失函數(shù)的對比如圖7所示。Loss值是衡量模型性能的重要指標(biāo)。由圖7可知,改進(jìn)后的Resnet18模型相較原始Resnet18模型的Loss值低,且更加穩(wěn)定,隨著epochs的增加,損失率逐漸下降并趨于穩(wěn)定,并保持在0.05以下,說明該模型表現(xiàn)較好。由上述實驗結(jié)果可以證明,改進(jìn)后的Resnet18模型針對食物營養(yǎng)科普圖像分類任務(wù)是可行、有效的。
2.3 準(zhǔn)確率對比分析
為了更加直觀地展示Resnet18模型與改進(jìn)后的Resnet18模型對于食品營養(yǎng)安全科普圖像數(shù)據(jù)的分類效果,將模型分類的準(zhǔn)確率進(jìn)行可視化展示,準(zhǔn)確率可以直觀地反映不同方法的分類效果,通過圖8可以看出改進(jìn)后的Resnet18模型更加穩(wěn)定且分類效果明顯優(yōu)于原Resnet18模型。
模型優(yōu)化前對帶科普文字的圖像數(shù)據(jù)分類準(zhǔn)確率為89.7%(262/292),對不符合要求的少量樣本的數(shù)據(jù)即純圖像分類準(zhǔn)確率為68.9%(31/45),全部樣本數(shù)據(jù)分類的準(zhǔn)確率為86.9%(293/337);優(yōu)化后的模型對符合要求的數(shù)據(jù)分類準(zhǔn)確率為98.3%(287/292),較優(yōu)化前提升8.6%,對不符合要求的少量樣本數(shù)據(jù)分類準(zhǔn)確率為75.6%(34/45),較優(yōu)化前提升6.7%;對全部樣本數(shù)據(jù)分類的準(zhǔn)確率高達(dá)95.3%(321/337),較優(yōu)化前提升8.4%。改進(jìn)后的模型的分類性能較傳統(tǒng)的Resnet18網(wǎng)絡(luò)模型有了較大提升。
3 結(jié)論
本研究使用網(wǎng)絡(luò)爬蟲實現(xiàn)食品營養(yǎng)安全科普圖像數(shù)據(jù)的采集,針對兩類食品營養(yǎng)安全圖像數(shù)據(jù)進(jìn)行了Focal loss數(shù)據(jù)不平衡處理,使用Resnet18網(wǎng)絡(luò)實現(xiàn)圖像二分類并在傳統(tǒng)的Resnet18網(wǎng)絡(luò)分類模型中加入了ECA注意力機(jī)制,使模型性能顯著提高,并利用1*1的卷積結(jié)構(gòu)替換了傳統(tǒng)模型的全連接層,降低了模型的復(fù)雜度的同時提升了模型分類效果。對比實驗表明改進(jìn)后的模型分類的準(zhǔn)確率更高,且在每種類別的分類上均有提升。本研究為解決圖像中是否包含文字的分類問題提供了新方法。
參考文獻(xiàn)
[1]王輝.基于主題爬蟲的食物營養(yǎng)科普信息監(jiān)測系統(tǒng)研究[D].大慶:黑龍江八一農(nóng)墾大學(xué),2022.
[2]李飛騰.卷積神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[D].大連:大連理工大學(xué),2014.
[3]HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.LasVegas:IEEE,2016:770-778.
[4]郝阿香,賈郭軍.結(jié)合注意力與批特征擦除的行人重識別模型[J].計算機(jī)工程,2022,48(7):270-276.
[5]WANG Q L,WU B G,ZHU P F,et al.ECA-Net: efficient channel attention for deep convolutional neural networks[EB/OL].(2022-08-11)[2023-05-05].https://www.doc88.com/p-19939671004363.html.
[6]肖恩.基于深度學(xué)習(xí)的SAR車輛目標(biāo)分類與識別[D].西安:西安電子科技大學(xué),2020.