劉偉 鄒偉紅 盧彥杰 胡為 劉塔斯
〔摘要〕 目的 為了提高中藥材圖像識別的準(zhǔn)確率,針對中藥材形狀不規(guī)則、紋理特征細(xì)微、種類繁多等特點,結(jié)合深度學(xué)習(xí)方法開展中藥材圖像識別研究。方法 通過爬蟲獲取中藥材圖像并進行數(shù)據(jù)預(yù)處理,構(gòu)建中藥材圖像數(shù)據(jù)集,使用Xception、DenseNet作為主干網(wǎng)絡(luò)提取中藥材特征,通過遷移學(xué)習(xí)、數(shù)據(jù)增強、模型融合等方法優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),并提出一種基于Xception和DenseNet融合的中藥材圖像識別模型DxFusion。結(jié)果 通過遷移學(xué)習(xí)、數(shù)據(jù)增強和模型融合,DxFusion在60種中藥材測試集上分類精度可達(dá)99.65%,效果優(yōu)于已有分類模型。結(jié)論 基于遷移學(xué)習(xí)和多模型融合的深度卷積神經(jīng)網(wǎng)絡(luò)可以提取圖像中不規(guī)則的中藥材特征,有效提升中藥材圖像識別的準(zhǔn)確率。
〔關(guān)鍵詞〕 深度學(xué)習(xí);中藥材識別;卷積神經(jīng)網(wǎng)絡(luò);遷移學(xué)習(xí);數(shù)據(jù)增強;模型融合
〔中圖分類號〕R282;TP751? ? ? ?〔文獻標(biāo)志碼〕A? ? ? ? 〔文章編號〕doi:10.3969/j.issn.1674-070X.2022.05.019
Research on image recognition of Chinese medicinal materials based on transfer
learning and model fusion
LIU Wei1, ZOU Weihong1, LU Yanjie1, HU Wei1, LIU Tasi2*
(1. School of Information Science and Engineering, Hunan University of Chinese Medicine, Changsha, Hunan 410208, China;
2. School of Pharmacy, Hunan University of Chinese Medicine, Changsha, Hunan 410208, China)
〔Abstract〕 Objective In order to improve the accuracy of Chinese medicinal materials image recognition, the research of Chinese medicinal materials image recognition is carried out based on deep learning according to the characteristics of irregular shape, subtle texture characteristics, and various types. Methods Images of Chinese medicinal materials were obtained through crawlers and data preprocessing was performed, image data sets of Chinese medicinal materials were established, Xception and DenseNet was used as the backbone network to extract the characteristics of Chinese medicinal materials, and the network structure was optimized by transfer learning, data augmentation and model fusion. A method called DxFusion for image recognition of Chinese medicinal materials based on the fusion of Xception and DenseNet was proposed. Results Through transfer learning, data augmentation and model fusion, the classification accuracy of DxFusion was reached 99.65% on 60 kinds of Chinese medicinal materials test sets, which was better than the existing classification models. Conclusion The deep convolutional neural network based on transfer learning and multi-model fusion can extract the irregular characteristics of Chinese medicinal materials in the image, and effectively improve the accuracy for the image recognition of Chinese medicinal materials.
〔Keywords〕 deep learning; recognition of Chinese medicinal materials; convolutional neural network; transfer learning; data augmentation; model fusion
中藥材是中醫(yī)藥事業(yè)傳承和發(fā)展的物質(zhì)基礎(chǔ)。隨著科學(xué)技術(shù)的飛速發(fā)展,計算機技術(shù)已應(yīng)用于中藥材的溯源、鑒定、質(zhì)量控制。近年來,人工智能在自然語言處理、計算機視覺等領(lǐng)域均取得了重要突破。
中藥材圖像識別是通過圖像處理技術(shù)對中藥材進行識別,可應(yīng)用于中藥材自動分揀和快速鑒定等環(huán)節(jié)。在中藥材領(lǐng)域,深度學(xué)習(xí)相關(guān)研究不斷涌現(xiàn)。莊奕珊[1]使用SqueezeNet、GoogLeNet集成學(xué)習(xí)提取中藥材特征進行分類;黃方亮等[2]使用AlexNet模型應(yīng)用于5種中草藥分類;王寒迎[3]使用ZCA白化減少中藥材微性狀圖像間的冗余性,改進卷積神經(jīng)網(wǎng)絡(luò)提取特征;吳沖等[4]使用YOLO提取圖像中的中藥飲片,使用ResNet50和VGG16提取中藥飲片特征然后進行分類;史婷婷等[5]在GoogLeNet網(wǎng)絡(luò)增加2個輔助Softmax進行仿野生種植金銀花遙感識別;陶益等[6]使用卷積神經(jīng)網(wǎng)絡(luò)和深度自動編碼器預(yù)測干燥黑枸杞中總花色苷、總黃酮和總酚類物質(zhì)含量。
由于中藥材具有形狀不規(guī)則、紋理特征細(xì)微、種類繁多等特點,使用傳統(tǒng)機器學(xué)習(xí)分類算法精度不佳。因此,本文使用MobileNet、Inception、Xception、ResNet、DenseNet卷積神經(jīng)網(wǎng)絡(luò)提取中藥材特征,使用Softmax歸一化分類,通過模型融合、Dropout、BN等方法來優(yōu)化卷積神經(jīng)網(wǎng)絡(luò),在60種中藥材類別上取得了99.65%的準(zhǔn)確率,提升了中藥材圖像識別的質(zhì)量。
1 資料與方法
1.1? 中藥材圖像數(shù)據(jù)集構(gòu)建
1.1.1? 中藥材類別挑選? 本文選取60種常用的中藥材用于識別研究,具體類別名見表1所示。
1.1.2? 中藥材圖片采集? 在Python語言中,提供了requests、lxml等大量爬蟲工具庫,借助這些模塊,可以快速實現(xiàn)根據(jù)關(guān)鍵詞爬取百度圖片和谷歌圖片的爬蟲代碼。本文使用多線程和正則表達(dá)式等技術(shù)實現(xiàn)了根據(jù)關(guān)鍵詞爬取中藥材圖片。
1.1.3? 中藥材圖片清洗? 在中藥材圖片采集階段共獲得了15 287張圖片,由于存在一些非對應(yīng)類別、含有大量水印、較為模糊、圖像特征不明顯的圖像數(shù)據(jù),因此需要進行人工剔除無用的數(shù)據(jù)操作。經(jīng)過數(shù)據(jù)清洗后,最終選取的中藥材數(shù)據(jù)集圖片數(shù)量為9987張,對應(yīng)60個類別,且各類別間圖像數(shù)量較為均衡。
1.1.4? 圖像歸一化 由于卷積神經(jīng)網(wǎng)絡(luò)模型對輸入尺寸要求為224或299,而采集的圖片輸入尺寸不一,因此需要對圖像進行歸一化操作,即將其處理為統(tǒng)一輸入尺寸,調(diào)整為卷積神經(jīng)網(wǎng)絡(luò)標(biāo)準(zhǔn)輸入形式224和299。
1.1.5? 數(shù)據(jù)集劃分? 為了保證實驗變量的唯一性,本文按照6∶2∶2的比例對原始數(shù)據(jù)集和增強數(shù)據(jù)集進行劃分。其中,訓(xùn)練集、驗證集和測試集均無交集。
1.2? 基礎(chǔ)理論知識
1.2.1? 深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)? 深度學(xué)習(xí)是機器學(xué)習(xí)的一個重要研究方向。它通過學(xué)習(xí)樣本表現(xiàn)特征和內(nèi)在規(guī)律,從而對新的數(shù)據(jù)進行解釋推理,解決了很多過去無法實現(xiàn)的模式識別復(fù)雜難題[7]。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)是目前深度學(xué)習(xí)計算機視覺(computer version, CV)領(lǐng)域最常用的算法[8-9],它可以大幅提升圖像分類精度,其基本結(jié)構(gòu)如圖1所示。
1.2.2? 激活函數(shù)與優(yōu)化算法? 神經(jīng)網(wǎng)絡(luò)中每一層的神經(jīng)元都會接受上一層神經(jīng)元的輸出作為本層輸入,再將本層神經(jīng)元的輸出傳遞給下一層。如果輸入與輸出之間不存在函數(shù)關(guān)系,則神經(jīng)網(wǎng)絡(luò)只是簡單的線性組合關(guān)系,表達(dá)能力很弱。因此,研究人員在輸入與輸出之間添加了函數(shù)關(guān)系,使神經(jīng)網(wǎng)絡(luò)的表達(dá)能力大大增強,這樣的函數(shù)稱為激活函數(shù)[10]。
機器學(xué)習(xí)問題即為最優(yōu)化問題,使用優(yōu)化算法來最優(yōu)化損失函數(shù)。按照梯度類型可分為有梯度算法和無梯度算法,其中,有梯度算法包括梯度下降算法[11-12]、動量法、RMSProp[13]、Adam[14]等。
1.2.3? 遷移學(xué)習(xí)與數(shù)據(jù)增強? 遷移學(xué)習(xí)是一種機器學(xué)習(xí)方法,把某個領(lǐng)域下學(xué)習(xí)的知識遷移到另外一個領(lǐng)域,使其取得更好的學(xué)習(xí)效果[15]。通常,當(dāng)源域與目標(biāo)域具有相似特征,且源域樣本數(shù)據(jù)充足,目標(biāo)域樣本數(shù)據(jù)較小時,非常適合通過遷移學(xué)習(xí)來提高樣本不足任務(wù)的學(xué)習(xí)效果。有實驗表明,遷移學(xué)習(xí)在小樣本下效果顯著[16]。
數(shù)據(jù)增強是為了減少由于數(shù)據(jù)集較小而導(dǎo)致模型過擬合現(xiàn)象而提出來的方法[17]。通過對圖像進行各種變化后作為訓(xùn)練集,進而提高模型的泛化能力。常用的數(shù)據(jù)增強方法包括圖像旋轉(zhuǎn)、縮放、平移、噪聲和尺寸變化等[18]。
1.2.4? 模型融合? 模型融合即按照某種方法訓(xùn)練多個模型??梢酝ㄟ^數(shù)學(xué)證明,隨著個體分類器數(shù)目的增多,集成的錯誤率將呈指數(shù)級下降,最終可以趨于零。
1.3? 經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)
1.3.1? MobileNet? MobileNet[19]具有輕量級的特點,為了使網(wǎng)絡(luò)參數(shù)下降,它使用了一種深度可分離卷積,相比于傳統(tǒng)卷積操作大大減少了參數(shù)數(shù)量,真正達(dá)到輕量級的目的。
1.3.2? Inception? Inception[20]通過尋找一個密集成分來代替最優(yōu)局部稀疏結(jié)構(gòu),引入了大量的卷積操作進行降維,使得Inception可以高效擬合網(wǎng)絡(luò)的稀疏部分,如圖2所示。
1.3.3? Xception? Xception[21]網(wǎng)絡(luò)是對InceptionV3網(wǎng)絡(luò)的一種改進,Xception想要解耦通道相關(guān)性和空間相關(guān)性,使用了深度可分離卷積來代替Inception原有的卷積操作。即先使用深度方向卷積,對每個通道進行卷積后連接,再使用逐點卷積,對深度方向卷積連接的結(jié)果進行一次卷積。
1.3.4? ResNet? 在殘差網(wǎng)絡(luò)沒有出現(xiàn)之前,在計算機視覺領(lǐng)域運用CNN時,當(dāng)GoogleNet在原有22層或VGG在原有19層再次增加網(wǎng)絡(luò)層數(shù)后,網(wǎng)絡(luò)會出現(xiàn)退化現(xiàn)象,損失由最初的逐漸下降趨于平穩(wěn)或不斷上升,不再收斂,準(zhǔn)確率也不斷下降。在ResNet[22]中,通過殘差網(wǎng)絡(luò)來解決這一問題。殘差網(wǎng)絡(luò)的基本模塊是殘差塊,其結(jié)構(gòu)如圖3所示。
1.3.5? DenseNet? DenseNet[23]最大的特點是在常規(guī)池化層之后使用了一個被稱之為Dense Block的結(jié)構(gòu)連接。DenseNet被稱為密集連接網(wǎng)絡(luò)的原因在于:Dense Block中每一層Bottle Neck的輸入均來源于上一層Bottle Neck的輸出和原始輸入的堆疊。
1.4? DxFusion融合模型
本研究對DenseNet和Xception經(jīng)過全局池化得到的特征向量使用Concatenate層來進行特征融合,再使用全連接層保證足夠多的特征,然后加入Dropout層防止過擬合,最后再使用Softmax進行分類。在本文中,將這個新的網(wǎng)絡(luò)結(jié)構(gòu)稱為DxFusion(DenseNet Xception Fusion),其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
2 結(jié)果與分析
2.1? 圖像分類評價指標(biāo)
在深度學(xué)習(xí)計算機視覺領(lǐng)域,對于多分類任務(wù)而言,常用評價指標(biāo)包括準(zhǔn)確率(accuracy)、召回率(recall)、精確率(precision)和F1-Score值等。
對于多分類問題而言,平均精確率、召回率和F1-Score值等價于準(zhǔn)確率,因此本文選擇測試集準(zhǔn)確率作為模型評價指標(biāo)。具體計算公式如下:
2.2? 遷移學(xué)習(xí)實驗結(jié)果
分別對MobileNet、Inception、Xception、ResNet、DenseNet等網(wǎng)絡(luò)結(jié)構(gòu)進行從頭開始和遷移學(xué)習(xí)兩種訓(xùn)練方式,目的在于比較遷移學(xué)習(xí)和從頭訓(xùn)練在中藥材數(shù)據(jù)集上的準(zhǔn)確率和收斂速率,通過比較分析,得出實驗結(jié)果。實驗分為兩個階段,即從頭訓(xùn)練和微調(diào)訓(xùn)練,基本訓(xùn)練參數(shù)設(shè)置如表2和表3所示,訓(xùn)練結(jié)果如圖5和圖6所示。由圖6可知,從頭訓(xùn)練收斂速率較慢,且由于樣本不夠廣泛,驗證集上模型的準(zhǔn)確率不夠高,在中藥材數(shù)據(jù)集上難以訓(xùn)練得到一個較好的模型;而遷移學(xué)習(xí)下的模型收斂速率很快,驗證集上也擁有較高的準(zhǔn)確率。
2.3? 數(shù)據(jù)增強實驗結(jié)果
對原始數(shù)據(jù)集通過垂直翻轉(zhuǎn)、水平橫移、垂直橫移、隨機旋轉(zhuǎn)和隨機縮放等方式進行增強,得到增強數(shù)據(jù)集。原始數(shù)據(jù)集為經(jīng)過數(shù)據(jù)清洗后的9987張圖片,增強數(shù)據(jù)集圖片數(shù)量為34 040張。訓(xùn)練參數(shù)與表2微調(diào)訓(xùn)練一致,訓(xùn)練結(jié)果如圖7和表4所示。由結(jié)果數(shù)據(jù)可知,各個網(wǎng)絡(luò)模型在數(shù)據(jù)增強之后,在驗證集、測試集上的準(zhǔn)確率均有一定提升。
2.4? 模型融合實驗結(jié)果
本文使用在數(shù)據(jù)增強實驗階段表現(xiàn)最好的兩個網(wǎng)絡(luò)DenseNet和Xception進行模型融合,共同提取特征,構(gòu)建了DxFusion融合模型。訓(xùn)練參數(shù)與表2微調(diào)訓(xùn)練一致,使用數(shù)據(jù)增強得到增強數(shù)據(jù)集,訓(xùn)練曲線如圖8所示,評價結(jié)果如表5所示。由表5中的數(shù)據(jù)可知,融合后的模型DxFusion在測試集上的準(zhǔn)確率(99.65%)均優(yōu)于單個DenseNet網(wǎng)絡(luò)(96.50%)和Xception網(wǎng)絡(luò)(96.65%),說明模型融合可以進一步提高模型的識別準(zhǔn)確率。
2.5? 方法比較
不同方法的中藥材圖像識別準(zhǔn)確率對比結(jié)果如表6所示。消融實驗的結(jié)果表明,加入遷移學(xué)習(xí)、數(shù)據(jù)增強、模型融合等優(yōu)化策略之后,本文的中藥材識別的準(zhǔn)確率取得了顯著提升。為了比較不同網(wǎng)絡(luò)結(jié)構(gòu)在不同訓(xùn)練方式下中藥材圖像識別的差異,本文以測試集準(zhǔn)確率作為評價指標(biāo)。由表6可知,從頭訓(xùn)練階段,中藥材識別準(zhǔn)確率為76.98%;通過遷移學(xué)習(xí),中藥材識別準(zhǔn)確率為94.18%;通過數(shù)據(jù)增強,準(zhǔn)確率提升為96.56%;通過模型融合,準(zhǔn)確率提升至99.65%。
與已有的中藥材圖像識別研究相比[1-5],本文基于遷移學(xué)習(xí)和模型融合開展中藥材圖像識別研究,取得了良好的效果,如表7所示。
3 討論
目前,在中藥材圖像識別領(lǐng)域存在缺少大規(guī)模樣本、相關(guān)研究文獻較少等問題,找不到公開的中藥材數(shù)據(jù)集,本文通過網(wǎng)絡(luò)爬蟲自行構(gòu)建了數(shù)據(jù)集。實驗結(jié)果說明,遷移學(xué)習(xí)、數(shù)據(jù)增強、模型融合等方式可以提高中藥材識別的準(zhǔn)確率,利用Xception和DenseNet進行模型融合,在60種類別的測試集上達(dá)到了99.65%的準(zhǔn)確率,表明了卷積神經(jīng)網(wǎng)絡(luò)可以很好地提取出中藥材的特征,較好地完成了60種中藥材自動識別,具有準(zhǔn)確性、高效性等特點,從而減少了人為中藥材辨別的工作量。本文所提出的智能化中藥材圖像識別方法可降低人為識別中藥材的難度和成本。
本文將深度學(xué)習(xí)遷移學(xué)習(xí)、數(shù)據(jù)增強、模型融合等技術(shù)并應(yīng)用于中藥材圖像識別,通過Dropout、BN算法改進卷積神經(jīng)網(wǎng)絡(luò),為中藥材識別研究提供了一種新思路,主要貢獻和創(chuàng)新點如下:(1)使用了目前較為先進的CNN網(wǎng)絡(luò)結(jié)構(gòu)(DenseNet和Xception),并對它們提取的全局特征進行融合,提出了一種新的網(wǎng)絡(luò)結(jié)構(gòu)DxFusion,構(gòu)建了新型融合模型;(2)運用數(shù)據(jù)增強技術(shù)擴充中藥材圖像數(shù)據(jù)集,構(gòu)建了超過34 000張圖片的中藥材圖像增強數(shù)據(jù)集,可廣泛應(yīng)用于中藥材圖像研究;(3)已有研究存在識別中藥材類別數(shù)目較少或識別準(zhǔn)確率較低等問題,本文在60種中藥材類別上取得了99.65%的準(zhǔn)確率,在識別類別數(shù)目和準(zhǔn)確率兩個指標(biāo)上均優(yōu)于已有大多數(shù)中藥材圖像識別方法。
在后續(xù)的研究工作中,將進一步增加中藥材類別并擴充數(shù)據(jù)集。同時充分考慮中藥材紋理底層特性,通過集成學(xué)習(xí)來進一步提升中藥材識別準(zhǔn)確率。此外,還將利用生成對抗網(wǎng)絡(luò)來產(chǎn)生對抗樣本,對模型進行對抗訓(xùn)練,提升圖像識別模型的穩(wěn)健性和抗干擾能力。
參考文獻
[1] 莊奕珊.基于深度神經(jīng)網(wǎng)絡(luò)的中藥材識別[D].廣州:華南理工大學(xué), 2018.
[2] 黃方亮,俞? 磊,沈同平,等.基于AlexNet深度學(xué)習(xí)模型的中草藥植物圖像分類研究與實現(xiàn)[J].齊魯工業(yè)大學(xué)學(xué)報,2020,34(2):44-49.
[3] 王寒迎.基于深度學(xué)習(xí)的中藥材鑒別方法研究[D].桂林:桂林電子科技大學(xué),2019.
[4] 吳? 沖,譚超群,黃永亮,等.基于深度學(xué)習(xí)算法的川貝母、山楂及半夏飲片的智能鑒別[J].中國實驗方劑學(xué)雜志,2020,26(21):195-201.
[5] 史婷婷,張小波,郭蘭萍,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的仿野生種植金銀花遙感識別方法研究[J].中國中藥雜志,2020,45(23):5658-5662.
[6] 陶? 益,陳? 林,江恩賜,等.人工智能和工業(yè)4.0視域下高光譜成像技術(shù)融合深度學(xué)習(xí)方法在中藥領(lǐng)域中的應(yīng)用與展望[J].中國中藥雜志,2020,45(22):5438-5442.
[7] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[8] SCHMIDHUBER J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61(1): 85-117.
[9] ULLAH S, HALIM Z. Imagined character recognition through EEG signals using deep convolutional neural network[J]. Medical & Biological Engineering & Computing, 2021, 59(5): 1167-1183.
[10] QIAN S, LIU H, LIU C, et al. Adaptive activation functions in convolutional neural networks[J]. Neurocomputing, 2018, 272(1): 204-212.
[11] BOTTOU L. Large-scale machine learning with stochastic gradient descent[C]//Proceedings of COMPSTAT'2010, Physica-Verlag, 2010: 177-186.
[12] KETKAR N. Deep Learning with Python[M]. Berkeley: Apress, 2017: 113-132.
[13] XU D P, ZHANG S D, ZHANG H S, et al. Convergence of the RMSProp deep learning method with penalty for nonconvex optimization[J]. Neural Networks, 2021, 139(7): 17-23.
[14] BARAKAT, BIANCHI P. Convergence and dynamical behavior of the ADAM algorithm for nonconvex stochastic optimization[J]. SIAM Journal on Optimization, 2021, 31(1): 244-274.
[15] 楊? 強,張? 宇,戴文淵,等.遷移學(xué)習(xí)[M].北京:機械工業(yè)出版社, 2020.
[16] 胡勝利,吳? 季.一種基于遷移學(xué)習(xí)的小樣本圖像分類方法[J]. 湖北理工學(xué)院學(xué)報,2021,37(2):27-32.
[17] SHORTEN C, KHOSHGOFTAAR T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data, 2019, 6(1): 1-48.
[18] MIKOLAJCZYK A, GROCHOWSKI M. Data augmentation for improving deep learning in image classification problem[C]//2018 International Interdisciplinary PhD Workshop, IEEE, 2018: 117-122.
[19] LI G, ZHANG H X, E L N, et al. Recognition of honeycomb lung in CT images based on improved MobileNet model[J]. Medical Physics, 2021, 48(8): 4304-4315.
[20] LIU Z Y, YANG C, HUANG J , et al. Deep learning framework based on integration of S-Mask R-CNN and Inception-v3 for ultrasound image-aided diagnosis of prostate cancer[J]. Future Generation Computer Systems, 2021, 114(1): 358-367.
[21] CHEN B J, JU X W, XIAO B, et al. Locally GAN-generated face detection based on an improved Xception[J]. Information Sciences, 2021, 572(9): 16-28.
[22] PHAWINEE S, CAI J F, GUO Z Y, et al. Face recognition in an intelligent door lock with ResNet model based on deep learning[J]. Journal of Intelligent and Fuzzy Systems, 2021, 40(4): 1-11.
[23] HEMALATHA J, ROSELINE S A, et al. An efficient DenseNet-based deep learning model for malware detection[J]. Entropy, 2021, 23(3): 344.
(本文編輯? 匡靜之)