• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于殘差網(wǎng)絡(luò)的食物圖像識(shí)別研究

    2019-09-17 08:27:38劉鵬臻
    電子技術(shù)與軟件工程 2019年16期
    關(guān)鍵詞:圖像識(shí)別殘差準(zhǔn)確率

    文/劉鵬臻

    如今,在關(guān)注人們的健康和飲食狀況方面,技術(shù)手段正扮演越來(lái)越重要的角色。因此誕生了許多應(yīng)用可以讓用戶拍下的食物照片,識(shí)別食物并檢測(cè)營(yíng)養(yǎng)成分。怎么及時(shí)有效地從食物照片中提取出有用的信息是個(gè)挑戰(zhàn)。在食物圖像識(shí)別領(lǐng)域,現(xiàn)在也有一些食物圖像識(shí)別的項(xiàng)目,這些項(xiàng)目主要基于手工設(shè)計(jì)特征提取的傳統(tǒng)方法,然后使用機(jī)器學(xué)習(xí)的分類器進(jìn)行食物分類。本文中,我們提出了一個(gè)ResNetcompress50網(wǎng)絡(luò)模型,來(lái)實(shí)現(xiàn)食物識(shí)別。

    1 相關(guān)介紹

    圖像識(shí)別屬于人工智能的一個(gè)重要領(lǐng)域,國(guó)外很多高校和公司在圖像識(shí)別方面投入了大量的資金和人力研究。2012年,深度學(xué)習(xí)技術(shù)在圖像識(shí)別領(lǐng)域產(chǎn)生了巨大突破,Hinton教授的研究小組在ImageNet的大規(guī)模視覺挑戰(zhàn)賽的圖像分類比賽中贏得了第一名,準(zhǔn)確率超過(guò)第二名10%之多,而其他小組均是使用的傳統(tǒng)的圖像識(shí)別方法。同年,谷歌受到深度學(xué)習(xí)的啟發(fā),發(fā)布了基于深度學(xué)習(xí)的圖像搜索引擎,與之前圖像搜索引擎對(duì)比,圖像的準(zhǔn)確率得到大幅提升。2015年的ImageNet圖像識(shí)別比賽中,微軟亞洲研究院的何凱明等人設(shè)計(jì)的殘差網(wǎng)絡(luò)更是達(dá)到了152層之深,并一舉奪得冠軍。2019年Hinton也因?yàn)樯疃葘W(xué)習(xí)獲得圖靈獎(jiǎng)。

    圖1:圖片增強(qiáng)結(jié)果示意圖

    圖2:瓶頸單元塊結(jié)構(gòu)示意圖

    2 數(shù)據(jù)集和模型實(shí)現(xiàn)

    2.1 數(shù)據(jù)集

    數(shù)據(jù)集的圖像識(shí)別對(duì)象是新加坡的常見食物,我們使用爬蟲從網(wǎng)上爬取新加坡食物的圖片,進(jìn)行數(shù)據(jù)清洗,給每個(gè)圖片貼上準(zhǔn)確的食物標(biāo)簽,進(jìn)行監(jiān)督學(xué)習(xí)。

    訓(xùn)練集中每種食物只包含了400張圖片,為了防止過(guò)擬合,這里我們參考使用ResNet論文中的方法進(jìn)行圖像增強(qiáng)。通過(guò)將原始圖像統(tǒng)一調(diào)整到256×256像素,對(duì)圖片進(jìn)行截取和翻轉(zhuǎn)將一張圖片變成多張圖片。截取是指分別在統(tǒng)一調(diào)整的圖像左上角,右上角,左下角,右下角以及中間截取五處,截取大小為224×224像素。每張截取的圖片都進(jìn)行翻轉(zhuǎn),一張圖片經(jīng)過(guò)增強(qiáng)處理后,變成十張圖片。如圖1所示,這是一張辣椒螃蟹的圖片進(jìn)行圖像增強(qiáng)后的結(jié)果。

    2.2 模型實(shí)現(xiàn)

    根據(jù)相關(guān)文獻(xiàn)論文,使用CIFAR-10數(shù)據(jù)集,同樣深度的深度殘差網(wǎng)絡(luò)和普通網(wǎng)絡(luò),深度殘差網(wǎng)絡(luò)在解決了深度退化問(wèn)題,表現(xiàn)顯然更好,所以我們選用深度殘差網(wǎng)絡(luò)。我們提出的ResNet-compress50模型是根據(jù)何凱明提出的深度殘差網(wǎng)絡(luò)50層模型結(jié)構(gòu)改進(jìn)的,減少了其中卷積層中的卷積核總數(shù)的1/4。根據(jù)實(shí)驗(yàn)結(jié)果顯示,該方案確實(shí)大大減少了模型的訓(xùn)練時(shí)間和模型的大小,而準(zhǔn)確率沒有明顯衰減。我們的網(wǎng)絡(luò)單元塊結(jié)構(gòu)使用了何凱明提出的瓶頸結(jié)構(gòu),如圖2所示。

    我們使用三層網(wǎng)絡(luò)來(lái)描述殘差函數(shù),三層的卷積核大小分別是1x1,3x3和1x1,其中1x1的卷積層主要是針對(duì)輸入和輸出維度不同是,使用1x1的卷積核可以做到先減少維度,后恢復(fù)維度,使得3x3的卷積層具有較小的輸入輸出尺寸。瓶頸結(jié)構(gòu)相對(duì)于三層卷積層,三種卷積的時(shí)間復(fù)雜度很接近。這樣設(shè)計(jì)卷積層的操作不會(huì)改變輸入數(shù)據(jù)的維度,即輸出的特征圖和輸入數(shù)據(jù)的維度不會(huì)改變,在于使用3*3的卷積核卷積層都會(huì)配一個(gè)大小為1的pad,同時(shí)步長(zhǎng)被設(shè)置為1,同時(shí)每做一次池化操作輸出的特征圖的長(zhǎng)寬都會(huì)縮小一倍。而1*1的卷積核的加入可以進(jìn)一步增加模型的非線性,并且不會(huì)改變特征圖的大小,這就大大增加了模型的表現(xiàn)能力。在輸入方面,因?yàn)闅埐罹W(wǎng)絡(luò)的輸入設(shè)計(jì)一般都設(shè)置為256或者384等維度,模型不需要根據(jù)不同的輸入維度設(shè)計(jì)不同的卷積結(jié)構(gòu),這就大大方便了模型的設(shè)計(jì),直接加深網(wǎng)絡(luò)結(jié)構(gòu)使用同樣的單元塊就可以了。另外,我們?cè)谂恳?guī)范化層之后的激活函數(shù)都使用的是ReLU,ReLU能夠使得函數(shù)收斂得更快,取得更高的準(zhǔn)確率。在何凱明的另一篇論文中,提出了另一個(gè)瓶頸結(jié)構(gòu),把批量規(guī)范化放到相加層之后,如圖3所示。

    圖5:相加層使用BN和沒有使用BN對(duì)比圖

    圖6:使用checkpoint和不使用checkpoint訓(xùn)練對(duì)比圖

    組合瓶頸塊結(jié)構(gòu),根據(jù)何凱明提出的殘差網(wǎng)絡(luò)結(jié)構(gòu),如圖4所示。我們的實(shí)現(xiàn)的殘差網(wǎng)絡(luò)共50層,有4個(gè)stage,每個(gè)stage分別包含了3,4,6,3個(gè)單元塊,為了減少模型的參數(shù)以及訓(xùn)練的時(shí)間,我們對(duì)模型結(jié)構(gòu)進(jìn)行了一些改進(jìn),減少了卷積層conv2到conv5卷積核的個(gè)數(shù),卷積核的個(gè)數(shù)變?yōu)樵瓉?lái)的3/4。在輸出層,沒有使用全連接層,這就大大減少了模型的參數(shù),縮短了訓(xùn)練時(shí)間和驗(yàn)證用時(shí)。在輸出之前,殘差網(wǎng)絡(luò)使用了全局平均池化層,全局平均池化將最后一層的特征圖進(jìn)行全局的均值池化,通過(guò)輸入平鋪層,形成一個(gè)個(gè)特征點(diǎn),然后將這些特征點(diǎn)組成特征向量,通過(guò)softmax層進(jìn)行歸一化處理,計(jì)算分類概率。

    3 實(shí)驗(yàn)與分析

    3.1 模型實(shí)驗(yàn)

    深度學(xué)習(xí)訓(xùn)練平臺(tái)使用的是新加坡國(guó)立大學(xué)的深度學(xué)習(xí)框架SINGA,現(xiàn)在網(wǎng)絡(luò)模型越來(lái)越深,數(shù)據(jù)集也越來(lái)越大,目前一般采用的算法時(shí)上述兩種方法的折中,訓(xùn)練方法采用小批量梯度下降法,小批量梯度下降法把數(shù)據(jù)分為若干個(gè)批,按批來(lái)更新參數(shù)。

    我們進(jìn)行三個(gè)實(shí)驗(yàn),選出最好的模型和超參數(shù)。第一個(gè)是對(duì)比不同層數(shù)的普通卷積神經(jīng)網(wǎng)絡(luò)和殘差網(wǎng)絡(luò),以及我們提出的改進(jìn)的方案性能,數(shù)據(jù)集采用的是ImageNet,我們初始化網(wǎng)絡(luò)參數(shù)采用服從期望為0,標(biāo)準(zhǔn)差是0.01的高斯分布,網(wǎng)絡(luò)的學(xué)習(xí)速率被初始化為0.01,每次遇到錯(cuò)誤率平臺(tái)區(qū)時(shí)學(xué)習(xí)率除以10,進(jìn)行下一階段的訓(xùn)練。為了提升模型的泛化能力,避免過(guò)擬合,我們?cè)谟?xùn)練過(guò)程中還使用了權(quán)值衰減懲罰技術(shù),其速率參數(shù)大小設(shè)為0.0001,沖量參數(shù)大小設(shè)為0.9,目標(biāo)函數(shù)使用了L2范式的正則化處理。

    表1:不同網(wǎng)絡(luò)模型性能對(duì)比

    表2:不同Iteration的Accuracy

    表3:Sgfood50數(shù)據(jù)集兩種網(wǎng)絡(luò)對(duì)比

    第二個(gè)實(shí)驗(yàn)是在使用了另一種瓶頸結(jié)構(gòu)與普通殘差網(wǎng)絡(luò)的瓶頸結(jié)構(gòu)效果進(jìn)行對(duì)比。參數(shù)相關(guān)設(shè)置同實(shí)驗(yàn)一。

    第三個(gè)實(shí)驗(yàn)是采用了預(yù)訓(xùn)練的方式,在初始化參數(shù)時(shí),我們首先使用ImageNet的數(shù)據(jù)集進(jìn)行預(yù)先訓(xùn)練,得到的參數(shù)作為checkpoint,不再使用隨機(jī)參數(shù),而是采用checkpoint。其余設(shè)置同實(shí)驗(yàn)一。

    3.2 實(shí)驗(yàn)結(jié)果分析

    3.2.1 實(shí)驗(yàn)設(shè)置

    使用的硬件設(shè)備是單節(jié)點(diǎn)機(jī)器,使用GPU進(jìn)行訓(xùn)練,單節(jié)點(diǎn)包含了3個(gè)NVIDIA GeForce GT 970 GPU,每個(gè)GPU內(nèi)存4G,操作系統(tǒng)是Ubuntu16.04。

    數(shù)據(jù)集一共包含了50種新加坡常見食物,整個(gè)數(shù)據(jù)集共有二十萬(wàn)張圖片,訓(xùn)練集和驗(yàn)證集的比例我們?cè)O(shè)置成9:1,即訓(xùn)練集有18萬(wàn)張圖片,驗(yàn)證集有2萬(wàn)張圖片。

    3.2.2 實(shí)驗(yàn)結(jié)果分析

    第一個(gè)實(shí)驗(yàn)對(duì)比卷積神經(jīng)網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)。我們使用SINGA訓(xùn)練了五種不同的網(wǎng)絡(luò),普通卷積神經(jīng)網(wǎng)絡(luò)19層34層及深度殘差網(wǎng)絡(luò)的19層,34層和50層結(jié)構(gòu)。如表1所示,普通神經(jīng)網(wǎng)絡(luò)參數(shù)大,錯(cuò)誤率高。而使用ResNet則解決了梯度消失的問(wèn)題,網(wǎng)絡(luò)越深,識(shí)別率效果越好,模型相對(duì)普通卷積神經(jīng)網(wǎng)絡(luò)要小得多。

    第二個(gè)實(shí)驗(yàn)我們?cè)诘谝粋€(gè)實(shí)驗(yàn)基礎(chǔ)上,選擇ResNet-compress50進(jìn)行繼續(xù)訓(xùn)練,對(duì)50層模塊進(jìn)行改進(jìn),在一個(gè)瓶頸基礎(chǔ)塊中的相加層之后加上批量規(guī)范化層。在使用了不同的瓶頸單元塊之后,50層的網(wǎng)絡(luò)結(jié)果的變化,實(shí)驗(yàn)結(jié)果如圖5所示,實(shí)驗(yàn)證明在相加層之后使用了模型規(guī)范化在本數(shù)據(jù)集中是較好的選擇。

    第三個(gè)實(shí)驗(yàn)是關(guān)于訓(xùn)練方式的優(yōu)化,如圖6所示,顯然使用了checkpoint的參數(shù)進(jìn)行訓(xùn)練的效果要好很多,通過(guò)優(yōu)化,ResNetcompress50的網(wǎng)絡(luò)的預(yù)測(cè)準(zhǔn)確率可以達(dá)到82.3%,準(zhǔn)確度甚至更優(yōu),訓(xùn)練收斂速度更快。

    模型的訓(xùn)練時(shí)間。訓(xùn)練一個(gè)50層的模型需要大量的時(shí)間,使用殘差網(wǎng)絡(luò)向前傳播大概一張圖片需要3到4秒鐘。在我們的實(shí)驗(yàn)中,訓(xùn)練的時(shí)間主要受幾方面影響,一個(gè)是GPU的性能,如果使用CPU,訓(xùn)練時(shí)間可能達(dá)到一周甚至更久,輸入圖片的大小,以及我們的迭代次數(shù)和mini-batch的大小。根據(jù)粗略的估計(jì),我們使用ImageNet進(jìn)行預(yù)訓(xùn)練的時(shí)間大概需要10個(gè)小時(shí),然后使用預(yù)訓(xùn)練的參數(shù)模型進(jìn)行訓(xùn)練需要7個(gè)小時(shí)左右。

    最終,我們?cè)趯?shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)選用的是50層的殘差網(wǎng)絡(luò),訓(xùn)練方法采用使用ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練得到的參數(shù)進(jìn)行初始化模型,再使用基于mini-batch的隨機(jī)梯度下降算法進(jìn)行訓(xùn)練和權(quán)重更新。第一種食物準(zhǔn)確率達(dá)到82.3%,前五種食物的識(shí)別準(zhǔn)確率可達(dá)95.2%。

    3.2.3 模型性能評(píng)估

    最后,對(duì)我們的ResNet-compress50模型的評(píng)估,我們主要從三個(gè)方面進(jìn)行評(píng)估。

    第一個(gè)方面是ResNet-compress50模型的準(zhǔn)確率Accuracy,系統(tǒng)的功能測(cè)試結(jié)果,我們得到第一名的預(yù)測(cè)結(jié)果準(zhǔn)確率達(dá)到82.3%,前五位包含正確結(jié)果準(zhǔn)確率達(dá)到95.2%。如表2所示。

    第二個(gè)方面是,模型參數(shù)大小,訓(xùn)練總長(zhǎng),主要通過(guò)與原始ResNet50模型的對(duì)比。模型大小是92MB,訓(xùn)練時(shí)間需要7個(gè)小時(shí)左右,相對(duì)于原始的ResNet50網(wǎng)絡(luò),我們訓(xùn)練時(shí)間縮短了4個(gè)小時(shí),模型大小也縮小了35MB,而模型識(shí)別的準(zhǔn)確率幾乎沒有明顯變化,訓(xùn)練時(shí)間的縮短對(duì)于日后使用用戶數(shù)據(jù)集進(jìn)行持續(xù)訓(xùn)練是大有好處的,對(duì)比結(jié)果如表3所示。

    第三個(gè)方面是訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間,針對(duì)NVIDIA GeForce GT 970 GPU,加速庫(kù)使用的是cuDNN5.1,每次迭代訓(xùn)練時(shí)間是測(cè)出一個(gè)minibatch一次迭代的時(shí)間,我們計(jì)算10次連續(xù)迭代過(guò)程間的平均時(shí)間差,我們?cè)O(shè)置每個(gè)minibatch大小是50,最后得到平均每秒可以執(zhí)行1.2次迭代,而預(yù)測(cè)平均每秒可以執(zhí)行6.7次迭代。

    4 總結(jié)

    我們提出了一個(gè)基于ResNet的網(wǎng)絡(luò)模型ResNet-compress50來(lái)實(shí)現(xiàn)食物識(shí)別,這個(gè)50層的深層神經(jīng)網(wǎng)絡(luò)的表現(xiàn)很好,前五種結(jié)果識(shí)別準(zhǔn)確率達(dá)95%,滿足了一個(gè)關(guān)注健康和飲食應(yīng)用所需要的圖像準(zhǔn)確識(shí)別的需求。

    通過(guò)實(shí)驗(yàn),本文選出最適合我們食物圖像識(shí)別系統(tǒng)的模型,調(diào)優(yōu)了模型的超參數(shù)以及最好的訓(xùn)練方法。因此,利用了深度學(xué)習(xí)的技術(shù)來(lái)滿足食物圖像識(shí)別的功能需求,這對(duì)于許多食物識(shí)別的的應(yīng)用都是有參考意義的。

    猜你喜歡
    圖像識(shí)別殘差準(zhǔn)確率
    基于雙向GRU與殘差擬合的車輛跟馳建模
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
    2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
    基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
    基于Resnet-50的貓狗圖像識(shí)別
    電子制作(2019年16期)2019-09-27 09:34:50
    基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
    高速公路圖像識(shí)別技術(shù)應(yīng)用探討
    圖像識(shí)別在物聯(lián)網(wǎng)上的應(yīng)用
    電子制作(2018年19期)2018-11-14 02:37:04
    高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
    城口县| 云霄县| 体育| 青阳县| 马尔康县| 含山县| 宜春市| 双桥区| 罗田县| 曲松县| 富宁县| 永新县| 绿春县| 沐川县| 金华市| 盐山县| 汉寿县| 邵武市| 武义县| 翁牛特旗| 政和县| 沈丘县| 西和县| 禄劝| 大足县| 海淀区| 姜堰市| 崇文区| 石棉县| 宜君县| 大石桥市| 阜康市| 教育| 玛曲县| 县级市| 奉节县| 洛扎县| 江川县| 吉水县| 宁波市| 武安市|