基于自我監(jiān)督預(yù)處理的食物圖像分類

2021-08-09 10:27:12姚偉盛沈宇帆彭玉波沈煒

智能計(jì)算機(jī)與應(yīng)用 2021年3期

姚偉盛沈宇帆彭玉波沈煒

摘要：隨著社交網(wǎng)絡(luò)的快速發(fā)展，人們通常會(huì)上傳、分享和記錄食物圖片，因此食物圖像分類的應(yīng)用價(jià)值也越來越大，對(duì)食品推薦、營養(yǎng)搭配、烹飪文化等方面都產(chǎn)生了積極的影響。盡管食物圖像分類有著巨大的應(yīng)用潛力，但從圖像中識(shí)別食物仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了解決食物的細(xì)粒度識(shí)別問題，本文提出了一種基于自我監(jiān)督預(yù)處理的食物圖像分類模型，通過自我監(jiān)督的學(xué)習(xí)方式更高程度地學(xué)習(xí)食物圖像特征。該模型在基于密集連接網(wǎng)絡(luò)的食物圖像分類模型DenseFood基礎(chǔ)上搭建，采用上下文恢復(fù)的自我監(jiān)督策略，將訓(xùn)練好的網(wǎng)絡(luò)權(quán)重用于初始化DenseFood模型，訓(xùn)練微調(diào)完成分類任務(wù)。上下文恢復(fù)的自我監(jiān)督策略和密集連接網(wǎng)絡(luò)都是專注于圖像特征的提取，同時(shí)結(jié)合兩者，充分學(xué)習(xí)食物圖像特征，來達(dá)到更好的食物圖像分類精確度。為了進(jìn)行性能比較，使用VIREO-172數(shù)據(jù)集對(duì)基于自我監(jiān)督預(yù)處理的食物圖像分類模型、未預(yù)處理的食物圖像分類模型DenseFood以及基于ImageNet數(shù)據(jù)集訓(xùn)練預(yù)處理的DenseNet、ResNet這四個(gè)模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明，本文提出的食物圖像分類模型優(yōu)于其他策略。

關(guān)鍵詞：圖像分類; 自監(jiān)督學(xué)習(xí); 卷積神經(jīng)網(wǎng)絡(luò)

文章編號(hào)： 2095-2163（2021）03-0009-07 中圖分類號(hào)：TP183 文獻(xiàn)標(biāo)志碼：A

【Abstract】With the rapid development of social networks， people usually upload， share and record food images， so the application value of food image classification is also increasing， which has a positive impact on food recommendation， nutrition collocation， cooking culture and so on. Although food image classification has great application potential， it is still a challenging task to recognize food from images. In order to solve the problem of fine-grained food recognition， this paper proposes a food image classification model based on self supervised preprocessing， which can learn food image features to a higher degree through self supervised learning. The model is based on DenseFood， a food image classification model based on dense connected network. The self-monitoring strategy of context recovery is adopted. The trained network weight is used to initialize DenseFood model， and fine-tuned trained to complete the classification task. The self-monitoring strategy of context recovery and dense connection convolution network are both focused on the extraction of image features. The research combines them to fully learn the food image features to achieve better classification accuracy of food image. In order to compare the performance， VIREO-172 data set is used to train four food image classification models： self supervised preprocessing based food image classification model， non preprocessed food image classification model densefood， and ImageNet data set based training preprocessing DenseNet and ResNet. The experimental results show that the proposed food image classification model is superior to other strategies.

【Key words】 image classification; self supervised learning; convolution neural network

0 引言

食物是人類生活的必需品，關(guān)系到人民群眾的身體健康和生命安全。隨著社交網(wǎng)絡(luò)的快速發(fā)展，人們通常會(huì)記錄、上傳和分享食物圖片，因此食物圖像分類的應(yīng)用價(jià)值也越來越大，對(duì)營養(yǎng)搭配、食品推薦、餐飲、社交等方面都產(chǎn)生了積極的影響，受到了廣泛的關(guān)注。在營養(yǎng)搭配方面，營養(yǎng)習(xí)慣被認(rèn)為是導(dǎo)致糖尿病和肥胖癥等健康問題的主要原因。因此，食物攝入評(píng)估是肥胖管理的一個(gè)重要方法[1]，可以幫助人們了解和保持良好的飲食習(xí)慣，在跟蹤卡路里消耗量的日常健身中進(jìn)行使用[2]。在食品推薦方面，可以幫助社交媒體平臺(tái)為餐館和飲料公司針對(duì)其用戶提供食品推薦方案。在餐飲方面，通過客戶提供的圖像樣本幫助餐廳和食堂識(shí)別食物，并通過識(shí)別托盤中的食物幫助出納自動(dòng)計(jì)費(fèi)。使用自動(dòng)計(jì)費(fèi)可以在保證減少錯(cuò)誤的前提下提高工作效率[3]。在社交方面，可以通過社交媒體與朋友分享食物照片，根據(jù)其食物偏好對(duì)使用者進(jìn)行聚類。此外，還可以幫助人們使用圖像搜索食物。

盡管食物圖像分類有著巨大的應(yīng)用潛力，但從圖像中識(shí)別食物仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，挑戰(zhàn)來自3個(gè)方面：

（1）缺乏用于食物識(shí)別的大規(guī)模數(shù)據(jù)集?，F(xiàn)有的工作主要集中在利用較小的數(shù)據(jù)集進(jìn)行食物識(shí)別，如ETH-food-101[4]和Vireo-food-172[5]。例如，Bossard等人[4]發(fā)布了一個(gè)來自西餐的食物數(shù)據(jù)集ETH food-101，包含101個(gè)食物類別和101 000張圖片。Chen等人[5]介紹了來自172個(gè)中國食品類別的Vireo Food-172數(shù)據(jù)集。這些數(shù)據(jù)集缺乏食品類別的多樣性和覆蓋面，沒有包括廣泛的食品圖像。因此，可能并不足以構(gòu)建更復(fù)雜的食物識(shí)別深度學(xué)習(xí)模型。

（2）不同種類的食物可能從外觀上看極其相似，但是類間相似性非常高，如圖1所示。由圖1可知，麻婆豆腐和紅燒豆腐從外觀上看基本上無法分辨。雖然已經(jīng)有許多方法用于解決食物識(shí)別問題，但這些方法大多側(cè)重于提取特定類型或某些類型的特征，而忽略了其他方面。例如，研究[6]的工作主要是提取顏色特征，而Martinel等人[7]設(shè)計(jì)了一個(gè)用于食物識(shí)別的網(wǎng)絡(luò)來捕獲特定的垂直結(jié)構(gòu)。

（3）一種特定的食物可能有數(shù)千種不同的外觀，但其本質(zhì)上是相同的食物，如圖2所示。由圖2可知，烤魚以不同形式的外觀表現(xiàn)出來。因?yàn)橄嗤澄锏呐浞娇梢愿鶕?jù)位置、食材成分以及最后但并非最不重要的個(gè)人口味而有所不同。食物圖像中有細(xì)微的辨別細(xì)節(jié)，在很多情況下很難捕捉到。食物識(shí)別屬于細(xì)粒度識(shí)別，其中有很多細(xì)微差別的細(xì)節(jié)，現(xiàn)有的圖像分類技術(shù)還無法很好地獲取并區(qū)分圖像細(xì)節(jié)特征[8]。

由于有監(jiān)督學(xué)習(xí)需要大量的手動(dòng)數(shù)據(jù)注釋，這一要求耗時(shí)耗力，因此無監(jiān)督學(xué)習(xí)越來越受到了關(guān)注，尤其是在自我監(jiān)督學(xué)習(xí)方面。自我監(jiān)督學(xué)習(xí)是一種特殊的無監(jiān)督學(xué)習(xí)，其目標(biāo)是監(jiān)督特征學(xué)習(xí)，其中監(jiān)督任務(wù)是從數(shù)據(jù)本身生成的。模型必須充分學(xué)習(xí)圖像特征，才能有效完成這類監(jiān)督任務(wù)，所以基于自我監(jiān)督的卷積神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練會(huì)產(chǎn)生有用的權(quán)重，有助于后續(xù)的學(xué)習(xí)任務(wù)[9]。

本文主要研究食物圖像的自我監(jiān)督，提出了一種基于自我監(jiān)督預(yù)處理的食物圖像分類網(wǎng)絡(luò)模型。文中的方法是將上下文恢復(fù)作為一項(xiàng)自我監(jiān)督任務(wù)，上下文恢復(fù)策略訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)專注于學(xué)習(xí)有用的語義特征，學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)特征對(duì)后續(xù)分類任務(wù)有用[10]。同時(shí)由于基于密集連接網(wǎng)絡(luò)的食物圖像分類模型DenseFood在食物識(shí)別應(yīng)用中表現(xiàn)出的優(yōu)異性能[11]，研究中選擇其作為后續(xù)的分類任務(wù)。建立自我監(jiān)督預(yù)處理模型，訓(xùn)練好的網(wǎng)絡(luò)權(quán)重初始化DenseFood網(wǎng)絡(luò)，訓(xùn)練微調(diào)完成分類任務(wù)。通過使用VIREO-172數(shù)據(jù)集，對(duì)基于自我監(jiān)督預(yù)處理的食物圖像分類網(wǎng)絡(luò)、無預(yù)處理的DenseFood網(wǎng)絡(luò)模型以及基于ImageNet數(shù)據(jù)集訓(xùn)練預(yù)處理的DenseNet、ResNet這四個(gè)模型進(jìn)行評(píng)估，實(shí)驗(yàn)結(jié)果表明，所提出的基于自我監(jiān)督預(yù)處理的食物圖像分類網(wǎng)絡(luò)模型優(yōu)于其他策略。

1 相關(guān)研究

自我監(jiān)督學(xué)習(xí)的關(guān)鍵挑戰(zhàn)是確定一個(gè)合適的自我監(jiān)督任務(wù)，即通過數(shù)據(jù)生成模型輸入輸出對(duì)。Chen等人[10]（2019）提出了一種醫(yī)學(xué)圖像自監(jiān)督學(xué)習(xí)策略。具體來說，給定一幅圖像，隨機(jī)選擇并交換2個(gè)補(bǔ)丁。多次重復(fù)此操作會(huì)產(chǎn)生一個(gè)新的圖像，該圖像的強(qiáng)度分布被保留，但其空間信息被改變，然后通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)將改變后的圖像恢復(fù)到原來的版本。所提出的上下文恢復(fù)策略有3個(gè)優(yōu)點(diǎn)：在該任務(wù)中訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)專注于學(xué)習(xí)有用的語義特征;在該任務(wù)中學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)特征對(duì)后續(xù)不同類型的任務(wù)（包括分類、定位和分割）有用;實(shí)現(xiàn)簡單明了。

針對(duì)醫(yī)學(xué)圖像分析中的3個(gè)常見問題，即：分類、定位和分割，對(duì)該自監(jiān)督學(xué)習(xí)策略進(jìn)行了評(píng)估。評(píng)估使用了不同類型的醫(yī)學(xué)圖像：對(duì)二維胎兒超聲（US）圖像進(jìn)行圖像分類;對(duì)腹部計(jì)算機(jī)斷層掃描（CT）圖像進(jìn)行器官定位;對(duì)腦磁共振（MR）圖像進(jìn)行分割。在這三個(gè)任務(wù)中，基于上下文恢復(fù)策略的預(yù)訓(xùn)練都優(yōu)于其他的自監(jiān)督學(xué)習(xí)策略，也優(yōu)于沒有自監(jiān)督訓(xùn)練的學(xué)習(xí)策略。

食物圖像分類方面，卷積神經(jīng)網(wǎng)絡(luò)取得了廣泛的成功，其性能優(yōu)于其他方法。卷積神經(jīng)網(wǎng)絡(luò)有許多不同的架構(gòu)，如AlexNet[12]、VGG[13]、GoogleNet[14]、ResNet[15]、DenseNet[16]等，其中DenseNet的性能表現(xiàn)優(yōu)異。密集連接網(wǎng)絡(luò)DenseNet在2017年的ImageNet大規(guī)模視覺識(shí)別大賽（ILSVRC）上表現(xiàn)出出眾的效果。DenseNet專注于圖像特征的提取與復(fù)用，加強(qiáng)了圖像特征的傳遞，一定程度上減輕了梯度消失的問題，通過對(duì)圖像特征的極致利用達(dá)到了更少的參數(shù)和更好的效果。Metwalli等人[11]（2020）提出了基于DenseNet的食物圖像識(shí)別模型DenseFood，使用了softmax損失函數(shù)和中心損失函數(shù)相結(jié)合的方法，該模型從頭開始訓(xùn)練就達(dá)到了81.23%的準(zhǔn)確率，僅次于基于大規(guī)模ImageNet數(shù)據(jù)集訓(xùn)練的ResNet和DenseNet。

基于此，本次研究中針對(duì)食物圖像分類，提出了一種基于自我監(jiān)督預(yù)處理的網(wǎng)絡(luò)模型，使用基于上下文恢復(fù)的自我監(jiān)督預(yù)處理方法，訓(xùn)練好的權(quán)重用于初始化食物分類網(wǎng)絡(luò)模型DenseFood，再進(jìn)一步訓(xùn)練微調(diào)完成分類任務(wù)，來達(dá)到更好的分類效果。

2 本文方法

研究中基于自我監(jiān)督預(yù)處理的食物圖像分類網(wǎng)絡(luò)模型由2部分組成，分別是：基于上下文恢復(fù)的自我監(jiān)督預(yù)處理模型和食物圖像分類模型。對(duì)此擬展開研究論述如下。

2.1 基于上下文恢復(fù)的自我監(jiān)督預(yù)處理模型

基于上下文恢復(fù)的自我監(jiān)督預(yù)處理是將原始的圖像進(jìn)行打亂，再利用卷積網(wǎng)絡(luò)將其上下文訓(xùn)練恢復(fù)為原始圖片[10]。打亂的方式是選取圖像中隨機(jī)的2個(gè)小塊進(jìn)行交換，迭代多次，保證所有小塊不會(huì)出現(xiàn)重疊，防止圖片打亂過于復(fù)雜，最終將會(huì)生成一個(gè)亂序的圖片。亂序算法的偽代碼如圖3所示，其中，x為原圖，取小塊大小為10×10，迭代次數(shù)N為10。亂序圖像生成過程如圖4所示。通過上下文恢復(fù)的自我監(jiān)督學(xué)習(xí)，卷積神經(jīng)網(wǎng)絡(luò)可以更加專注地學(xué)習(xí)食物圖像的語義特征。如圖5所示，基于上下文恢復(fù)的自我監(jiān)督預(yù)處理模型由2部分組成，即：預(yù)處理部分和恢復(fù)部分。

預(yù)處理部分主要由初始化層、密集連接塊和過渡層組成，訓(xùn)練出的權(quán)重用于初始化后續(xù)的圖像分類網(wǎng)絡(luò)。初始化層由卷積層和匯聚層組成，在將信息輸入密集塊層之前從圖像中提取出大量的信息，特征映射被下采樣以減少參數(shù)的數(shù)量。密集連接塊由批標(biāo)準(zhǔn)化、激活函數(shù)和卷積層組成。如圖6所示，每一層的輸出都作為輸入提供給后續(xù)層，因此，第k層接受來自先前所有層的特征映射。將X0，X1，...，Xk-1視為輸入，即：

為了降低特征映射的維數(shù)，將網(wǎng)絡(luò)結(jié)構(gòu)劃分為4個(gè)密集連接塊，密集連接塊之間通過過渡層銜接，過渡層由批處理歸一化、ELU、1×1卷積層和2×2最大池化層組成。池化層使用最大池、而不是平均池來減少特征映射的數(shù)量，避免過擬合，以使模型更具通用性。值得一提的是，簡單模型可能無法很好地?cái)M合數(shù)據(jù)，因此可能會(huì)出現(xiàn)欠擬合，而層數(shù)較多的模型可能會(huì)產(chǎn)生較高的計(jì)算成本，通常需要更大的數(shù)據(jù)集來避免過度擬合，提高精度，并實(shí)現(xiàn)可推廣的性能[17]?？紤]到本次研究的數(shù)據(jù)集不夠大，無法訓(xùn)練一個(gè)復(fù)雜的模型，因此分別構(gòu)造了4個(gè)6層、12層、24層和16層的密集連接塊，以避免過度擬合和欠[CM（22]擬合。由于密集連接網(wǎng)絡(luò)較深，導(dǎo)致圖像恢復(fù)效果[CM）]

較差，研究中就選取了前三個(gè)密集連接塊作為預(yù)處理部分，既加強(qiáng)了圖像特征學(xué)習(xí)，又保證了圖像恢復(fù)效果?；謴?fù)部分主要由upSampling上采樣層、過渡層和Min-Max標(biāo)準(zhǔn)化層組成，輸出為圖片。由于恢復(fù)部分不會(huì)應(yīng)用于后續(xù)的分類工作，所以相對(duì)預(yù)處理部分較為簡單，upSampling上采樣層采用重采樣和插值方法，過渡層由批處理歸一化、ELU、1×1卷積層組成，Min-Max標(biāo)準(zhǔn)化層將輸出進(jìn)行標(biāo)準(zhǔn)化，Min-Max標(biāo)準(zhǔn)化公式見如下：

其中，x1，x2，...，xn為輸入序列，對(duì)其進(jìn)行變換得到標(biāo)準(zhǔn)化序列y1，y2，...，yn。由于該模型訓(xùn)練的數(shù)據(jù)標(biāo)簽是圖片，會(huì)占用大量內(nèi)存，導(dǎo)致可訓(xùn)練的數(shù)據(jù)集容量較小，因而將網(wǎng)絡(luò)輸出的圖片大小以及做比對(duì)的原始圖片都縮小為原來的1/4（寬和高各縮小為原來的1/2），來保證可以訓(xùn)練更大的數(shù)據(jù)集，提高訓(xùn)練效率及效果。同時(shí)由于恢復(fù)部分的網(wǎng)絡(luò)權(quán)重并不會(huì)應(yīng)用到后續(xù)的分類工作中，因此縮小輸出圖片所帶來的像素?fù)p失對(duì)分類結(jié)果的影響較小。

2.2 食物圖像分類模型

將上下文恢復(fù)預(yù)處理模型中的預(yù)處理部分的網(wǎng)絡(luò)權(quán)重對(duì)食物圖像分類網(wǎng)絡(luò)進(jìn)行初始化，再進(jìn)一步訓(xùn)練微調(diào)。如圖7所示，主要由4部分組成，即初始層、密集連接塊層、過渡層和完全連接層。前面介紹過，為了避免過度擬合和欠擬合，研究中構(gòu)造了4個(gè)6層、12層、24層和16層的密集連接塊，初始層、前三個(gè)密集連接塊層、過渡層組成了預(yù)處理部分，由預(yù)處理模型權(quán)重進(jìn)行初始化。最后一部分包括一個(gè)密集連接塊層、過渡層和2個(gè)完全連接層，第一個(gè)完全連接層使用全局平均池將特征映射展平成一個(gè)包含1 024個(gè)節(jié)點(diǎn)的數(shù)組，然后將其作為分類器輸入到第二個(gè)完全連接層，該層包含172個(gè)神經(jīng)元，每個(gè)神經(jīng)元代表一個(gè)食物類。

2.3 損失函數(shù)

對(duì)于自我監(jiān)督預(yù)處理模型，文中采用L2損失訓(xùn)練網(wǎng)絡(luò)來完成上下文恢復(fù)任務(wù)，L2損失可以預(yù)估出圖片的恢復(fù)程度：

其中，xi和yi分別表示恢復(fù)圖和原圖的像素值;L2損失函數(shù)又稱為最小平方誤差，把目標(biāo)值和估計(jì)值的平方和最小化。盡管上下文恢復(fù)的輸出可能是模糊的，但是L2損失對(duì)于特征學(xué)習(xí)來說是足夠的了。

對(duì)于分類網(wǎng)絡(luò)模型，考慮到食物圖像具有類間相似性和類內(nèi)變化，采用softmax損失和中心損失相結(jié)合，并使用λ來平衡2個(gè)損失函數(shù)[18-19]，如下所示：

softmax損失可以最大化類間差異[19]：

2.4 圖像預(yù)處理

研究中使用的數(shù)據(jù)集的大小有限，平均每個(gè)類641張圖像的172個(gè)類只包含110 241個(gè)圖像。為了解決這一問題，防止訓(xùn)練中的過度擬合，通過使用水平翻轉(zhuǎn)、旋轉(zhuǎn)、錯(cuò)切變換、縮放和平移等方法來增加數(shù)據(jù)，如圖8所示。圖像的大小總是調(diào)整為224×224，以適應(yīng)模型。

3 實(shí)驗(yàn)與結(jié)果

3.1 數(shù)據(jù)集

VIREO-FOOD數(shù)據(jù)集是一個(gè)大型的公共中餐食品數(shù)據(jù)庫，包含172類的110 241張圖片，如圖9所示，用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)有不錯(cuò)的效果。文中將數(shù)據(jù)集分為2個(gè)子集，即：80%用于分類網(wǎng)絡(luò)訓(xùn)練，20%用于分類網(wǎng)絡(luò)測試。同時(shí)用于訓(xùn)練的子集部分中，80%作為訓(xùn)練集，20%作為校驗(yàn)集。分類網(wǎng)絡(luò)的訓(xùn)練集的40%用于自我監(jiān)督預(yù)處理的訓(xùn)練，校驗(yàn)集的30%用于自我監(jiān)督預(yù)處理的校驗(yàn)。

3.2 實(shí)驗(yàn)平臺(tái)

文中使用TensorFlow實(shí)現(xiàn)了研究中的分類網(wǎng)絡(luò)模型，TensorFlow是由Google開發(fā)的一個(gè)端到端開放源代碼機(jī)器學(xué)習(xí)平臺(tái)，具有靈活和全面的工具、庫和資源生態(tài)系統(tǒng)[20]。訓(xùn)練過程是在Intel CoreTM i7 2.8 GHz CPU、32 GB RAM和一個(gè)6 GB的Nvidia GeForce GTX 1060 GPU。訓(xùn)練以平均52.48張圖像/s的速度進(jìn)行。

3.3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練

自我監(jiān)督預(yù)處理模型的訓(xùn)練初始學(xué)習(xí)率設(shè)置為0.01，分類網(wǎng)絡(luò)模型是在預(yù)訓(xùn)練基礎(chǔ)上訓(xùn)練的，為了避免權(quán)重失真，初始學(xué)習(xí)率改為0.005。此外，在學(xué)習(xí)速率表中使用余弦衰減來降低學(xué)習(xí)速率。同時(shí)使用中心損失函數(shù)和softmax分類交叉熵函數(shù)相結(jié)合進(jìn)行分類，其中λ的值設(shè)為0.5，以平衡損失函數(shù)，因?yàn)榇蠖鄶?shù)食品類別的類內(nèi)變化較小。為了避免過度擬合和提高精度，在訓(xùn)練期間使用了數(shù)據(jù)擴(kuò)充，使用隨機(jī)的水平翻轉(zhuǎn)、旋轉(zhuǎn)、錯(cuò)切變換、縮放和平移。由于計(jì)算資源有限，批量大小設(shè)為16，訓(xùn)練時(shí)長設(shè)為40個(gè)周期。

3.4 實(shí)驗(yàn)結(jié)果

研究中，在VIREO-172數(shù)據(jù)集上評(píng)估了上下文恢復(fù)模型以及分類網(wǎng)絡(luò)模型，上下文恢復(fù)訓(xùn)練結(jié)果如圖10所示，還原圖較為模糊，但對(duì)于預(yù)訓(xùn)練分類網(wǎng)絡(luò)已經(jīng)足夠了。緊接著，訓(xùn)練了無預(yù)處理的食物圖像分類網(wǎng)絡(luò)模型DenseFood、基于ImageNet數(shù)據(jù)集預(yù)處理的DenseNet121、ResNet50和基于自我監(jiān)督預(yù)處理的食物圖像分類網(wǎng)絡(luò)四個(gè)模型，提供Top-1和Top-5精度，實(shí)驗(yàn)結(jié)果見表1。由表1可以看出，基于自我監(jiān)督預(yù)處理的食物圖像分類網(wǎng)絡(luò)的Top-1和Top-5精度分別為84.25%和96.97%，準(zhǔn)確率高于其他模型，驗(yàn)證了本文的網(wǎng)絡(luò)模型具有更有效的食物圖像特征學(xué)習(xí)。在此基礎(chǔ)上，還繪制了這4個(gè)模型的損失曲線和精確度曲線，如圖11、圖12所示，文中的模型對(duì)損失值做到了更好的最小化，其損失值為0.69。

4 結(jié)束語

本文提出了一種基于自我監(jiān)督預(yù)處理的食物圖像分類網(wǎng)絡(luò)。研究中構(gòu)建模型訓(xùn)練食物圖片的上下文恢復(fù)能力來學(xué)習(xí)圖像特征，將該模型訓(xùn)練出的網(wǎng)絡(luò)權(quán)重在分類網(wǎng)絡(luò)中進(jìn)行初始化，再進(jìn)一步訓(xùn)練微調(diào)，使用密集連接卷積網(wǎng)絡(luò)進(jìn)一步提取和復(fù)用圖像特征，充分實(shí)現(xiàn)對(duì)食物圖片細(xì)節(jié)上的圖像特征的學(xué)習(xí)和提取，來提高食物圖像分類的精確度。實(shí)驗(yàn)結(jié)果也驗(yàn)證了本文的論點(diǎn)，文中研發(fā)的模型Top-1和Top-5精確度高達(dá)84.25%和96.97%，優(yōu)于其他模型。

參考文獻(xiàn)

[1] HE Hongsheng， KONG Fanyu， TAN Jindong. DietCam： Multiview food recognition using a multikernel SVM[J]. IEEE Journal of Biomedical and Health Informatics， 2015， 20（3）：848-855.

[2] PANDEY P， DEEPTHI A， MANDAL B， et al. FoodNet： Recognizing foods using ensemble of Deep Networks[J]. IEEE Signal Processing Letters， 2017， 24（12）：1758-1762.

[3] AGUILAR E， REMESEIRO B ，BOLAOS M， et al. Grab， Pay and eat： Semantic food detection for smart restaurants[J]. IEEE Transactions on Multimedia， 2018，20（12）：3266-3275.

[4] BOSSARD L， GUILLAUMIN M， GOOL L V. Food-101-Mining discriminative components with Random Forests[C]//European Conference on Computer Vision.Zurich：Springer，2014：446-461.

[5] CHEN Jingjing， NGO C W. Deep-based ingredient recognition for cooking recipe retrieval[C]//Proceedings of the 24th ACM on International Conference on Multimedia （MM'16）. New York， NY， United States：ACM，2016： 32-41.

[6] BETTADAPURA V， THOMAZ E， PARNAMI A， et al. Leveraging context to support automated food recognition in restaurants[C]// IEEE Winter Conference on Applications of Computer Vision. Waikoloa， HI， USA：IEEE，2015：580-587.

[7] MARTINEL N， FORESTI G L， MICHELONI C. Wide-slice residual networks for food recognition[C]// IEEE Winter Conference on Applications of Computer Vision.Lake Placid，NY，USA： IEEE Computer Society， 2016： 567-576.

[8] MIN Weiqing， LIU Linhu， WANG Zhiling， et al. ISIA Food-500： A dataset for large-scale food recognition via stacked global-local attention network[C]// Proceedings of the 28th ACM International Conference on Multimedia（MM '20）.2020：393-401.

[9] ?GIDARIS S， SINGH P， KOMODAKIS N. Unsupervised representation learning by predicting image rotations[J]. arXiv preprint arXiv：1803.07728，2018.

[10]CHEN L， BENTLEY P， MORI K， et al. Self-supervised learning for medical image analysis using image context restoration[J]. Medical Image Analysis， 2019，58（11）：101539.

[11]METWALLI A S， SHEN W， WU C Q. Food image recognition based on densely Connected Convolutional Neural Networks[C]// 2020 International Conference on Artificial Intelligence in Information and Communication （ICAIIC）.Fukuoka， Japan：IEEE， 2020：27-32.

[12]KRIZHEVSKY A， SUTSKEVER I， HINTON G. ImageNet classification with Deep Convolutional Neural Networks[C]// Neural Information Processing Systems（NIPS）. USA：Morgan Kaufmann Publishers， Inc.， United States of America， 2012，141：1097-1105.

[13]SIMONYAN K， ZIEEERMAN A. Very Deep Convolutional Networks for large-scale image recognition[J]. arXiv preprint arXiv：1409.1556， 2014.

[14]SZEGEDYC， IOFFE S， VANHOUCKE V， et al. Inception-v4， inceptionresnet and the impact of residual connections on learning[C]// AAAI Conference on Artificial Intelligence （AAAI）. San Francisco， California，USA： AAAI， 2017：4278-4284.

[15]SZEGEDY C， LIU W， JIA Y， et al. Going Deeper with Convolutions[C]//Proceedings of The IEEE Conference On Computer Vision and Pattern Recognition， Boston， MA：IEEE， 2015：1-9.

[16]HUANG G， LIU Z， LAURENS V D M， et al. Densely Connected Convolutional Networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition（CVPR 2017）. Washington， DC： IEEE Computer Society，2017：2261-2269.

[17]KABKAB M， HANDS E， CHELLAPPA R. On the size of Convolutional Neural Networks and generalization performance[C]// 2016 23rd International Conference on Pattern Recognition （ICPR）. Cancun， Mexico：IEEE， 2016：3572-3577.

[18]WANG F， XIANG X， CHENG J， et al. NormFace： L2 hypersphere embedding for face verification[C]//Proceedings of the 2017 ACM on Multimedia Conference. Mountain View， CA， USA：ACM， 2017： 1041-1049.

[19]ZHANG Tong， WANG Rong， DING Jianwei， et al. Face recognition based on densely Connected Convolutional Networks[C]// IEEE Fourth International Conference on Multimedia Big Data（BigMM）. Xi'an， China：IEEE Computer Society， 2018：1-6.

[20]Google. Tensorflow[EB/OL]. [2019]. http：//tensorflow.google.cn.