• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于RGB-D的肉牛圖像全卷積網(wǎng)絡(luò)語(yǔ)義分割優(yōu)化

    2019-11-08 00:57:30鄧寒冰周云成許童羽
    關(guān)鍵詞:像素點(diǎn)肉牛語(yǔ)義

    鄧寒冰,周云成,許童羽,苗 騰,3,徐 靜

    基于RGB-D的肉牛圖像全卷積網(wǎng)絡(luò)語(yǔ)義分割優(yōu)化

    鄧寒冰1,2,周云成1,2※,許童羽1,2,苗 騰1,2,3,徐 靜1,2

    (1. 沈陽(yáng)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,沈陽(yáng) 110866;2. 遼寧省農(nóng)業(yè)信息化工程技術(shù)研究中心,沈陽(yáng) 110866;3. 北京農(nóng)業(yè)信息技術(shù)研究中心,北京 100097)

    基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型已越來越多的應(yīng)用于檢測(cè)肉牛行為。利用卷積操作實(shí)現(xiàn)肉牛圖像的像素級(jí)分割有助于實(shí)現(xiàn)遠(yuǎn)距離、無接觸、自動(dòng)化的檢測(cè)肉牛行為,為肉牛異常行為早期發(fā)現(xiàn)提供必要手段。為了提高復(fù)雜背景下肉牛圖像語(yǔ)義分割精度,降低上采樣過程中的語(yǔ)義分割誤差,該文提出基于RGB-D的肉牛圖像全卷積網(wǎng)絡(luò)(fully convolutional networks, FCN)的語(yǔ)義分割優(yōu)化方法,用深度密度值來量化深度圖像中不同像素點(diǎn)是否屬于相同類型的概率,并根據(jù)深度圖像與彩色圖像在內(nèi)容上的互補(bǔ)關(guān)系,優(yōu)化和提升FCN對(duì)肉牛圖像的語(yǔ)義分割(像素密集預(yù)測(cè))精度。通過試驗(yàn)驗(yàn)證,該方法與全卷積網(wǎng)絡(luò)的最優(yōu)分割結(jié)果相比,可以將統(tǒng)計(jì)像素準(zhǔn)確率平均提高2.5%,類別平均準(zhǔn)確率平均提升2.3%,平均區(qū)域重合度平均提升3.4%,頻率加權(quán)區(qū)域重合度平均提升2.7%。試驗(yàn)證明,該方法可以提升全卷積網(wǎng)絡(luò)模型在復(fù)雜背景下肉牛圖像語(yǔ)義分割精度。

    圖像處理;模型;動(dòng)物;語(yǔ)義分割;RGB-D;全卷積網(wǎng)絡(luò);多模態(tài);肉牛圖像

    0 引 言

    隨著圖像傳感設(shè)備成本的不斷降低,目前在畜牧養(yǎng)殖過程中已經(jīng)逐步實(shí)現(xiàn)了全時(shí)段監(jiān)控,特別是對(duì)動(dòng)物全生命周期的行為監(jiān)控和行為分析已經(jīng)成為畜牧養(yǎng)殖業(yè)的一個(gè)研究熱點(diǎn)。人們?cè)讷@取大量動(dòng)物圖像和視頻信息的同時(shí),更關(guān)心如何實(shí)現(xiàn)對(duì)這些圖像信息的處理、分析、理解和應(yīng)用[1];如何將動(dòng)態(tài)的目標(biāo)對(duì)象從復(fù)雜環(huán)境背景中分割出來,這是進(jìn)行動(dòng)物行為分析的前提條件,同時(shí)也是實(shí)現(xiàn)遠(yuǎn)距離、無接觸、自動(dòng)化檢測(cè)動(dòng)物行為的關(guān)鍵。

    計(jì)算機(jī)視覺領(lǐng)域中的傳統(tǒng)分割方法是通過人工提取圖像特征來實(shí)現(xiàn)像素的聚類和提取,當(dāng)圖像背景復(fù)雜時(shí),特征提取將變得非常麻煩甚至難以實(shí)現(xiàn)[2]。而隨著深層卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,一種“端到端”的概念被引入到計(jì)算機(jī)視覺中來。讓計(jì)算機(jī)自動(dòng)在每個(gè)特定類別對(duì)象中學(xué)習(xí)和尋找最具描述性、最突出的特征,讓深層網(wǎng)絡(luò)去發(fā)現(xiàn)各種類型圖像中的潛在模式[3]。在大量標(biāo)注數(shù)據(jù)的基礎(chǔ)上,通過不斷的訓(xùn)練來自動(dòng)提高卷積神經(jīng)網(wǎng)絡(luò)的分類、分割、識(shí)別、檢測(cè)等處理的精度,將人工成本從算法設(shè)計(jì)轉(zhuǎn)移到數(shù)據(jù)獲取,降低了技術(shù)應(yīng)用難度[4]。

    在農(nóng)業(yè)領(lǐng)域,基于卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺技術(shù)已經(jīng)逐漸成為主流研究方向。例如植物關(guān)鍵器官識(shí)別[5-8],蟲害個(gè)體識(shí)別[9-11],植物病害分級(jí)[12-13],利用多層卷積操作可以在不同尺度自動(dòng)抽取圖像特征,最后通過特征抽象可以獲得目標(biāo)位置和目標(biāo)類型;針對(duì)家禽、水產(chǎn)等動(dòng)物的視頻圖像處理方面,利用深層卷積網(wǎng)絡(luò)可以實(shí)現(xiàn)針對(duì)動(dòng)物個(gè)體輪廓提取、特征標(biāo)定、行為軌跡追蹤等[14-18]。然而,由于卷積神經(jīng)網(wǎng)絡(luò)中淺層的卷積感知域較小,只能學(xué)習(xí)到一些局部區(qū)域的特征;而深層的卷積層具有較大的感知域,對(duì)物體的大小、位置和方向等敏感性更低,有助于實(shí)現(xiàn)分類,但是因?yàn)閬G失了物體的一些細(xì)節(jié),不能指出每個(gè)像素具體屬于哪個(gè)物體,很難做到精確的分割,不能夠準(zhǔn)確的給出目標(biāo)對(duì)象的清晰邊界信息[19-22]。而為了實(shí)現(xiàn)精準(zhǔn)的像素分類,通常是以卷積過程中卷積核中心位置像素為基準(zhǔn)點(diǎn),通過判斷該點(diǎn)周圍區(qū)域像素組成的圖像類別來預(yù)測(cè)該基準(zhǔn)點(diǎn)的目標(biāo)類別。然而,當(dāng)卷積核區(qū)域不能覆蓋一個(gè)完整對(duì)象時(shí),預(yù)測(cè)精度會(huì)明顯下降,而增大卷積核區(qū)域會(huì)造成運(yùn)算過程中存儲(chǔ)量的增加和計(jì)算效率的降低。為此,Evan等提出了全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)用于圖像分割[23],該網(wǎng)絡(luò)從抽象的特征中恢復(fù)出每個(gè)像素所屬的類別,與傳統(tǒng)用CNN進(jìn)行圖像分割的方法相比,該網(wǎng)絡(luò)采用的是全卷積連接的結(jié)構(gòu),卷積過程共享感知區(qū)域,因此可以避免重復(fù)計(jì)算并提高卷積操作效率。

    然而對(duì)于肉牛圖像分割問題,由于肉牛所處的養(yǎng)殖環(huán)境復(fù)雜,圖像中環(huán)境信息的顏色和紋理等會(huì)對(duì)肉牛形體細(xì)節(jié)部位的分割產(chǎn)生影響。特別是FCN在上采樣過程中使用反卷積操作,對(duì)于圖像中細(xì)節(jié)信息不敏感,沒有考慮像素間的類別關(guān)系,使分割結(jié)果缺乏空間規(guī)整性和空間一致性[24],這樣得到的分割效果會(huì)非常粗糙。為了提高全卷積網(wǎng)絡(luò)語(yǔ)義分割的精度,改善肉牛圖像細(xì)節(jié)部位的分割效果,本文提出了基于RGB-D肉牛圖像全卷積網(wǎng)絡(luò)語(yǔ)義分割優(yōu)化方法,定義了深度密度概念,利用深度密度值來量化深度圖像中不同像素點(diǎn)是否屬于相同類型的概率,并根據(jù)深度圖像與彩色圖像在像素內(nèi)容上的映射關(guān)系,優(yōu)化全卷積網(wǎng)絡(luò)對(duì)肉牛圖像的語(yǔ)義分割結(jié)果,提升分割的精度。

    1 材料與方法

    1.1 試驗(yàn)材料和準(zhǔn)備工作

    試驗(yàn)數(shù)據(jù)采集自遼寧省沈陽(yáng)市北部地區(qū)肉牛養(yǎng)殖中心,肉牛品種為西門塔爾肉牛。為了增加樣本多樣性,試驗(yàn)在5月、8月和10月,分別于上午(8:00-10:00)、中午(11:00-13:00)和下午(14:00-16:00)在室內(nèi)和室外獲取肉牛圖像信息。采集設(shè)備為Kinect Sensor(2.0版本),可以同步獲取分辨率為1 920像素×1 080像素的彩色圖像(RGB)和分辨率為512像素×424像素的深度圖像(Depth)。由于Kinect設(shè)備通過設(shè)備本身發(fā)出的結(jié)構(gòu)光來計(jì)算物體的距離信息,所以在室外采集的深度圖像存在較大的噪聲,因此在室外采集過程中,只使用獲取到的RGB圖像(用于分類網(wǎng)絡(luò)訓(xùn)練);而室內(nèi)采集的肉牛圖像,由于外部光線可控,因此深度信息比較準(zhǔn)確,可用于分割優(yōu)化使用。在數(shù)據(jù)獲取過程中,Kinect設(shè)備位置固定,與拍攝對(duì)象(肉牛)保持0.5~4.5m距離,被拍攝對(duì)象在該范圍可以自主活動(dòng)。具體環(huán)境布局如圖1所示。

    圖1 試驗(yàn)環(huán)境布局圖

    本試驗(yàn)選取的肉牛數(shù)量約為70頭(室內(nèi)30頭,室外40頭),從Kinect視頻流等間隔(5張/s)抽取RGB圖像和深度圖像,而且RGB圖像和深度圖像在時(shí)間軌跡上是同步的。將彩色圖像通過人工加標(biāo)注的方式形成4種用途的樣本:用于分類網(wǎng)絡(luò)訓(xùn)練,用于分類網(wǎng)絡(luò)測(cè)試,用于分割網(wǎng)絡(luò)訓(xùn)練和用于分割網(wǎng)絡(luò)測(cè)試。在設(shè)定樣本尺寸以及樣本數(shù)量時(shí),考慮到全卷積網(wǎng)絡(luò)中不存在全連接層,因此可以實(shí)現(xiàn)對(duì)任意尺寸圖片的處理。因此,本文利用可以將試驗(yàn)中用到的RGB圖像和深度圖像的尺寸統(tǒng)一到512像素×424像素。為了增加樣本多樣性,分別于不同日期的上午、中午、下午3個(gè)時(shí)間段中各選取2 000張圖像作為分類網(wǎng)絡(luò)的訓(xùn)練樣本(共6 000張),500張圖像作為分類網(wǎng)絡(luò)的測(cè)試樣本(共1 500張);與此同時(shí),在上述3個(gè)時(shí)間中,從室內(nèi)采集的樣本中選取1 000張分割網(wǎng)絡(luò)的訓(xùn)練樣本,200張分割網(wǎng)絡(luò)的測(cè)試樣本。而深度圖像是通過將Kinect獲取的物體深度信息進(jìn)行可視化表示后的效果圖,即將可視范圍內(nèi)的深度值轉(zhuǎn)換為灰度值,灰度歸一化后范圍是[0,1],在后文中會(huì)利用深度圖像計(jì)算每個(gè)像素點(diǎn)的深度密度,利用深度密度值來優(yōu)化FCN語(yǔ)義分割結(jié)果。

    本文后面章節(jié)將介紹如何設(shè)計(jì)試驗(yàn)和實(shí)現(xiàn)相關(guān)方法,具體包括3個(gè)主要過程,如圖2所示。

    圖2 主要方法流程圖

    1)利用分類樣本集和分割樣本集分別對(duì)基礎(chǔ)分類網(wǎng)絡(luò)和全卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練,其中基礎(chǔ)分類網(wǎng)絡(luò)的參數(shù)可以用于初始化全卷積網(wǎng)絡(luò),以加速訓(xùn)練過程中損失函數(shù)收斂;FCN的輸出特征圖可以通過上采樣得到初步的分割結(jié)果。

    2)提出深度密度概念并給出深度密度計(jì)算方法,通過深度圖像中每個(gè)像素點(diǎn)的深度密度,可以量化該像素點(diǎn)與周圍空間其他像素點(diǎn)屬于同一類別的概率。

    3)利用深度密度值對(duì)分割結(jié)果中細(xì)節(jié)部位(例如邊緣部位)進(jìn)行調(diào)優(yōu),得到最終優(yōu)化后的分割結(jié)果。

    1.2 基礎(chǔ)網(wǎng)絡(luò)構(gòu)建與訓(xùn)練

    建立深層分類網(wǎng)絡(luò)是解決逐像素預(yù)測(cè)問題和語(yǔ)義分割問題的基礎(chǔ),而VGG系列網(wǎng)絡(luò)在0~100類左右的分類問題上,其分類精度與Inception系列、ResNet系列等分類網(wǎng)絡(luò)非常接近,而且VGG網(wǎng)絡(luò)結(jié)構(gòu)相對(duì)簡(jiǎn)單,沒有Inception和ResNet網(wǎng)絡(luò)結(jié)構(gòu)中的用于優(yōu)化訓(xùn)練的分支結(jié)構(gòu),因此更容易改造為全卷積網(wǎng)絡(luò),因此本文選擇VGG-19[25]作為分類網(wǎng)絡(luò)的基本模型。VGG系列網(wǎng)絡(luò)在ILSVRC2014(ImageNet[26]Large-Scale Visual Recognition Challenge)上首次提出,其網(wǎng)絡(luò)結(jié)構(gòu)參考了AlexNet[27]。由于全卷積分割網(wǎng)絡(luò)是在分類網(wǎng)絡(luò)的基礎(chǔ)上建立的,兩類網(wǎng)絡(luò)在多個(gè)卷積層上是權(quán)值共享的,因此對(duì)分類網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練可以簡(jiǎn)化分割網(wǎng)絡(luò)的訓(xùn)練過程,并且對(duì)分割精度有明顯提升。此外,為了防止數(shù)據(jù)量不夠而導(dǎo)致的過擬合問題,在訓(xùn)練分類網(wǎng)絡(luò)的過程中加入了ILSVRC2016部分?jǐn)?shù)據(jù)集,其中選擇與試驗(yàn)場(chǎng)景相似的150類圖片,形成了151類的數(shù)據(jù)集合。

    在訓(xùn)練VGG-19方面,本文采用與文獻(xiàn)[25]相同的訓(xùn)練方法。由于分類網(wǎng)絡(luò)與全卷積分割網(wǎng)絡(luò)在卷積層是共享權(quán)值的,因此在訓(xùn)練全卷積分割網(wǎng)絡(luò)之前,對(duì)分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練會(huì)提高分割網(wǎng)絡(luò)的分割精度,同時(shí)縮短分割網(wǎng)絡(luò)的訓(xùn)練時(shí)間。圖3a給出了VGG-19訓(xùn)練過程中的損失函數(shù)的變化趨勢(shì)圖。由于本文使用的數(shù)據(jù)集規(guī)模要遠(yuǎn)小于ImageNet[28],因此在經(jīng)歷次80 000次batch迭代后,損失值已經(jīng)在(0,0.05)之間,而平均分類精度可以達(dá)到0.9以上,已經(jīng)基本達(dá)到了分類要求。同時(shí)基于同樣的數(shù)據(jù)集和訓(xùn)練方法對(duì)AlexNet進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果如圖3b所示。而相比AlexNet而言,雖然VGG-19層數(shù)更多,但是由于卷積核更小,因此網(wǎng)絡(luò)收斂過程更加平穩(wěn),沒有出現(xiàn)AlexNet在訓(xùn)練后期出現(xiàn)的loss值跳變的情況。所得到的VGG-19分類網(wǎng)絡(luò)模型可以作為后文中全卷積網(wǎng)絡(luò)的基礎(chǔ)網(wǎng)絡(luò)模型。

    圖3 VGG-19和AlexNet訓(xùn)練過程中的loss值

    1.3 全卷積網(wǎng)絡(luò)構(gòu)建

    VGG-19只能通過輸出的特征向量來判定圖像的具體類別,整個(gè)過程丟失大量的像素信息,無法實(shí)現(xiàn)像素級(jí)別的分類。全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)以分類卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),將分類網(wǎng)絡(luò)中的全連接層轉(zhuǎn)換為卷積層,以保留輸入圖像的二維信息;對(duì)輸出的特征圖進(jìn)行上采樣操作,使其恢復(fù)到原始圖像的尺寸,最后通過逐個(gè)像素分類獲取每個(gè)像素的類別,從而實(shí)現(xiàn)對(duì)全圖像的語(yǔ)義分割。本文中的全卷積網(wǎng)絡(luò)的結(jié)構(gòu)如圖4所示,其中、分別表示初始圖像的高和寬,表示通道數(shù)或維度。

    FCN是基于VGG-19建立的,每層池化操作可以使圖片縮小一半,將VGG-19中的全連接層全部換成卷積層,卷積核的大小為1×1,通道數(shù)保持不變,這樣就可以保留特征圖的二維空間屬性,最終可以獲得與類別數(shù)相等的熱圖(圖4中FC19)。熱圖的尺寸在經(jīng)歷過5次池化過程后,變成原圖像大小的1/32(如圖4中FC17、FC18和FC19)。為了實(shí)現(xiàn)端到端的語(yǔ)義分割,需要將熱圖進(jìn)行32倍的上采樣操作,以獲取與原圖像尺寸相等的語(yǔ)義分割結(jié)果。

    注:C表示卷積層,F(xiàn)C表示卷積核為1×1的全卷積層;H表示輸入圖像的高度值,W表示輸入圖像的寬度值,D表示輸入圖像和輸出的特征圖通道數(shù)。全卷積網(wǎng)絡(luò)最后輸出的特征圖(熱圖)可以通過上采樣操作獲得與輸入圖像具有相同尺寸的語(yǔ)義分割結(jié)果。

    1.4 基于全卷積網(wǎng)絡(luò)的上采樣操作

    上采樣(up-sample)是池化操作的逆過程,上采樣后數(shù)據(jù)數(shù)量會(huì)增多。在計(jì)算機(jī)視覺領(lǐng)域,常用的上采樣方法有3種:1)雙線性插值[29](bilinear):這種方法特點(diǎn)是不需要進(jìn)行學(xué)習(xí),運(yùn)行速度快,操作簡(jiǎn)單;2)反卷積[30](deconvolution),利用轉(zhuǎn)置卷積核的方法,對(duì)卷積核進(jìn)行180°翻轉(zhuǎn);3)反池化[31](depooling),在池化過程中記錄坐標(biāo)位置,然后根據(jù)之前坐標(biāo)將元素填寫進(jìn)去,其他位置補(bǔ)0。

    與文獻(xiàn)[23]中的上采樣過程不同,為了提高上采樣操作的精度,本文對(duì)于2倍尺寸的上采樣操作選擇雙線性插值法,對(duì)于大于2倍尺寸的上采樣操作選擇反卷積法。對(duì)于雙線性插值法,設(shè)原始特征圖的尺寸為×,雙線性插值法首先將原始特征圖的尺寸變?yōu)?2+1)×(2+1),然后利用2×2的卷積核對(duì)新特征圖進(jìn)行valid模式的卷積操作,最終獲得尺寸為2×2的新特征圖;而對(duì)于反卷積法,設(shè)原始尺寸為×,利用×的卷積核對(duì)特征圖進(jìn)行full模式的卷積操作,最終可以獲得尺寸為(+-1)×(+-1)的新特征圖。

    因?yàn)閂GG-19中有5次池化操作,每經(jīng)過一次池化操作,特征圖的尺寸都變?yōu)樵叽绲?/2。本文分別將每次池化后得到的特征圖命名為p1、p2、p3、p4和p5。如圖5所示,輸入圖像的尺寸為·,經(jīng)過5次池化操作后p5的尺寸變?yōu)?/32)·(/32)。而p1~p5都可以作為本文上采樣的輸入特征圖,參照輸入圖像的尺寸,分別恢復(fù)到對(duì)應(yīng)特征圖的2倍、4倍、8倍、16倍和32倍。本文沿用文獻(xiàn)[26]中的名稱,稱這些結(jié)果為FCN-2s、FCN-4s、FCN-8s、FCN-16s和FCN-32s。(圖5中只給出了FCN-8s、FCN-16s和FCN-32s的上采樣過程)。為了解釋計(jì)算過程,本文設(shè)輸入圖像的尺寸為32×32像素,VGG-19網(wǎng)絡(luò)中卷積操作不改變?cè)撾A段輸入圖像或特征圖的大小,則p1的尺寸為16×16像素,p2的尺寸為8×8像素,p3的尺寸為4×4像素,p4的尺寸為2×2像素,p5的尺寸為1×1像素。FCN最后的3個(gè)全卷積層的卷積操作(1×1的卷積核)不會(huì)改變特征圖的二維空間屬性,因此輸出的特征圖尺寸仍與p5相等,為1×1像素,而且通道數(shù)與分類數(shù)(Number of classes)相等。

    1)對(duì)于FCN-32s,熱圖的大小為1í1,F(xiàn)CN-32s是由熱圖直接通過32倍的反卷積操作還原成32í32的尺寸。即用=32的卷積核對(duì)=1的特征圖進(jìn)行反卷積處理,輸出的分割圖為32í32(+?1=32)。

    2)對(duì)于FCN-16s,對(duì)熱圖進(jìn)行1次雙線性插值操作,將熱圖的寬和高分別增大2倍,然后與p4相加,最后將相加的結(jié)果進(jìn)行16倍的反卷積操作(=31,=2),可以獲得與原圖像相同尺寸的圖像。

    3)對(duì)于FCN-8s,對(duì)熱圖進(jìn)行2次雙線性插值操作,使熱圖的寬和高分別增大4倍;然后對(duì)p4進(jìn)行1次雙線性插值操作,即將p4的寬和高分別增大2倍;最后將增大后的熱圖、p4與p3相加,對(duì)相加的結(jié)果進(jìn)行8倍的反卷積操作(=29,=4),可以獲得與原圖像相同尺寸的圖像。

    從結(jié)構(gòu)上看,仍舊可以針對(duì)p1和p2的結(jié)果進(jìn)行上采樣處理,分別得到FCN-2s和FCN-4s,但是根據(jù)文獻(xiàn)[23]的結(jié)果顯示在8倍上采樣之后,優(yōu)化效果已經(jīng)不明顯。因此,本文選擇可以生成FCN-8s的全卷積網(wǎng)絡(luò)作為語(yǔ)義分割的基礎(chǔ)網(wǎng)絡(luò),但是上采樣操作將熱圖中的分類像素點(diǎn)還原到原輸入圖像的尺寸,該過程存在較大的像素分類誤差,即像素的錯(cuò)誤分類以及像素丟失,而基于深度密度的圖像分割優(yōu)化方法可以用于優(yōu)化該網(wǎng)絡(luò)的語(yǔ)義分割結(jié)果。

    圖5 全卷積網(wǎng)絡(luò)的上采樣操作

    2 基于深度密度的圖像分割優(yōu)化

    2.1 深度圖像分析

    深度圖像中每個(gè)像素值表示空間中該點(diǎn)的位置與攝像頭的空間距離,因此深度圖像可以很好的描述復(fù)雜環(huán)境中肉牛的的輪廓信息(如圖6a所示),而深度圖像與RGB圖像的像素之間存在內(nèi)容上的映射關(guān)系(如圖6b)。在試驗(yàn)中,每張用于語(yǔ)義分割的RGB圖像有與其對(duì)應(yīng)的、具有相同尺寸的深度圖像,而且通過Kinect2.0的軟件處理,可以實(shí)現(xiàn)RGB圖像與深度圖像在內(nèi)容上的近似映射。

    圖6 Kinect獲取的肉牛圖像

    從深度圖像上可以看出,同一物體的細(xì)節(jié)信息可以通過連續(xù)變化的深度值表示出來,特別是對(duì)于同一目標(biāo)來說,深度值一般是連續(xù)的,而相鄰不同物體間的邊界信息會(huì)出現(xiàn)深度值的跳變。通過統(tǒng)計(jì)可以發(fā)現(xiàn),在同一張圖片上,深度值相近的像素點(diǎn)在空間上有較大概率是是臨近的,而且深度圖像中屬于同一物體并且在空間上連續(xù)的像素點(diǎn),一般具有連續(xù)的灰度值區(qū)間。利用深度圖像上的這一特點(diǎn),本文提出了深度密度(depth density)的概念。

    2.2 深度密度定義

    設(shè)深度圖像的尺寸為×,其中為圖像的行數(shù),為圖像的列數(shù);(,)為深度圖像上點(diǎn)(,)的深度值(由灰度表示);(,)表示圖像上點(diǎn)(,)對(duì)應(yīng)的深度密度值,其表達(dá)式由公式(1)所示。

    為了計(jì)算相似度,本文首先給出幾個(gè)參數(shù)定義:

    式中為深度密度計(jì)算過程中區(qū)域邊長(zhǎng)。

    這樣,利用公式(8)就可以計(jì)算像素點(diǎn)(,)的深度密度值,即

    利用該公式計(jì)算得到的深度密度(,)的取值區(qū)間為(0,1]。其中,深度密度值越接近于0表示該點(diǎn)與該區(qū)域的整體深度值分布情況差異很大,則該點(diǎn)屬于深度圖中的邊界像素或者噪聲像素的概率較高;深度密度值越接近于1表示該點(diǎn)與該區(qū)域的整體深度值分布差異較小,則該像素點(diǎn)位于物體表面的幾率較大。這就證明了如果一個(gè)像素點(diǎn)的深度密度接近于1,則該點(diǎn)有很大概率與其周圍×范圍內(nèi)的像素點(diǎn)屬于同一物體?;谶@一原理可以對(duì)全卷積的分割結(jié)果進(jìn)行優(yōu)化。圖7給出了=7時(shí)的深度密度圖,其中圖7a是肉牛的深度圖像,圖7b是深度圖像通過計(jì)算深度密度計(jì)算后獲取的深度密度圖像。在深度密度圖中,像素點(diǎn)的灰度值表示深度密度值,深度密度值越接近與1(白色),表示該像素點(diǎn)與周圍像素點(diǎn)深度值差別越小,而深度密度值越接近于0(黑色),表示該像素點(diǎn)與周圍像素點(diǎn)深度值差別越大,或該像素點(diǎn)在原深度圖像中為無效小像素點(diǎn)。肉牛邊緣處由于深度值變化明顯、噪聲多,因此邊緣位置像素的深度密度值較低,而肉牛軀體部分由于深度值分布平滑,因此該位置深度密度值較高。

    注:s為深度密度計(jì)算過程中K區(qū)域邊長(zhǎng)。

    3 試驗(yàn)結(jié)果分析

    圖8 平滑區(qū)域與邊緣區(qū)域深度密度表示與對(duì)比

    如圖8a所示,在同一深度圖中截取2類區(qū)域,其中紅色區(qū)域(標(biāo)注9)表示深度圖像中的深度平滑區(qū)域,粉色區(qū)域(標(biāo)注45)表示深度圖像中深度邊緣區(qū)域。通過像素映射找到2類區(qū)域?qū)?yīng)的深度密度值,對(duì)這兩個(gè)區(qū)域的深度密度進(jìn)行分析。圖8展示了=7值條件下深度平滑區(qū)域的深度密度分布情況。其中圖8b表示深度圖像中平滑區(qū)域(圖8a中紅色區(qū)域)的深度密度值,該區(qū)域圖的深度密度值普遍分布在[0.8, 1]區(qū)間,這表明該區(qū)域所在的像素點(diǎn)與其周圍像素點(diǎn)的深度差非常?。欢鴪D8c表示深度圖像中邊緣區(qū)域(圖8a中粉色區(qū)域),從圖中可見,該區(qū)域深度密度值在[0, 0.8]區(qū)間反復(fù)震蕩,這是由于深度圖邊緣區(qū)域深度值變化很大,同時(shí)Kinect采集的深度圖像在物體邊緣區(qū)域存在大量“黑色”噪點(diǎn),因此邊緣的深度密度值會(huì)更接近于0邊緣區(qū)域也是產(chǎn)生噪聲的主要區(qū)域,因此深度密度變化劇烈。圖8d給出了平滑區(qū)域與邊緣區(qū)域深度密度值的比較結(jié)果,其中分別在每個(gè)區(qū)域選取15 000個(gè)像素點(diǎn)進(jìn)行比較,其中紅色點(diǎn)表示平滑區(qū)域的深度密度值,藍(lán)色點(diǎn)表示邊緣區(qū)域深度密度值,從圖中可以明顯看到平滑區(qū)域像素點(diǎn)主要分布在[0.8,1]區(qū)間,而邊緣區(qū)域雖然有些像素點(diǎn)的深度密度值也能達(dá)到0.8,但那是由于在深度圖像中截取邊緣區(qū)域時(shí)附帶的平滑區(qū)域像素點(diǎn)造成的。

    注:Ad表示深度密度圖像中的有邊緣信息的對(duì)象區(qū)域,Af為FCN-8s結(jié)果中的分割區(qū)域。

    對(duì)于結(jié)果分析,本文選用4種通用的語(yǔ)義分割和場(chǎng)景解析的度量評(píng)價(jià)標(biāo)準(zhǔn),用于評(píng)價(jià)像素精度和區(qū)域重合度,包括:統(tǒng)計(jì)像素準(zhǔn)確率(pixel accuracy,pa)、類別平均準(zhǔn)確率(mean accuracy,ma)、平均區(qū)域重合度(mean intersection over union,mIU)和頻率加權(quán)區(qū)域重合度(frequency weight intersection over union,fwIU)。4種評(píng)價(jià)標(biāo)準(zhǔn)的取值范圍在0到1之間,值越接近于1表示分割精度越高。具體定義如下:

    為了避免對(duì)單一類別(肉牛)訓(xùn)練網(wǎng)絡(luò)而造成的過擬合問題,本文將肉牛的訓(xùn)練數(shù)據(jù)與NYUDv2數(shù)據(jù)集[32](40個(gè)類別)混合使用,其中NYUDv2是用Kinect設(shè)備采集并整理得到的一個(gè)公開RGB-D數(shù)據(jù)集合,該數(shù)據(jù)集中有1 449張RGB-D圖像,同時(shí)包含40個(gè)類的語(yǔ)義分割標(biāo)簽。利用NYUD2v數(shù)據(jù)集,本文對(duì)FCN網(wǎng)絡(luò)的8倍上采樣語(yǔ)義分割結(jié)果(FCN-8s),以及RGBD圖像語(yǔ)義分割結(jié)果(D-FCN-8s)在4種語(yǔ)義分割度量評(píng)價(jià)標(biāo)準(zhǔn)下進(jìn)行精度比較。具體結(jié)果如表1所示。

    表1 在NYUDv2數(shù)據(jù)集上的語(yǔ)義分割比較

    注:FCN-8s表示全卷積網(wǎng)絡(luò)通過8倍上采樣而獲得的語(yǔ)義分割結(jié)果。D-FCN-8s表示基于深度密度的全卷積網(wǎng)絡(luò)通過8倍上采樣而獲得的語(yǔ)義分割結(jié)果。NYUDv2+1表示在原NYUDv2數(shù)據(jù)集上添加1個(gè)新類別(肉牛)后形成的數(shù)據(jù)集(共41種類別)。NYUDv2-20+1和NYUDv2-10+1同上。

    Note: FCN-8s denotes the semantics segmentation result of fully convolutional networks by ‘8×’ up-sampling. D-FCN-8s denotes the semantics segmentation results of fully convolutional networks based on depth density by ‘8×’ up-sampling. NYUDv2+1 represents the data set (41 categories) formed by adding a new category (cattle) to the original NYUDv2 data set. NYUDv2-20+1 and NYUDv2-10+1 are the same with NYUDv2-40.

    經(jīng)過對(duì)比發(fā)現(xiàn),當(dāng)數(shù)據(jù)集類別減少時(shí)(41類、21類、11類),F(xiàn)CN-8s和D-FCN-8s在分割精度上都有一定的提升,這是因?yàn)槿矸e網(wǎng)絡(luò)的基礎(chǔ)分類網(wǎng)絡(luò)參數(shù)較多,而隨著數(shù)據(jù)集類別的減少,網(wǎng)絡(luò)訓(xùn)練過程出現(xiàn)了輕微的過擬合趨勢(shì)。此外,使用RGBD圖像進(jìn)行語(yǔ)義分割時(shí),通過判斷深度圖像中每個(gè)像素點(diǎn)的深度密度值是否操作特定閾值,可以區(qū)分該像素點(diǎn)是否處于肉牛邊緣像素或肉牛軀體平滑區(qū)域,進(jìn)而提高全卷積網(wǎng)絡(luò)對(duì)RGB圖像上采樣語(yǔ)義分割的像素分類精度。參照表1中D-FCN-8s和FCN-8s對(duì)應(yīng)的統(tǒng)計(jì)像素準(zhǔn)確率(pa)、類平均準(zhǔn)確率(ma)、平均區(qū)域重合度(mIU)和頻率加權(quán)區(qū)域重合度(fwIU)的4組值,分別求得D-FCN-8s和FCN-8s在不同數(shù)據(jù)集(NYUDv2+1、NYUDv2-20+1和NYUDv2-10+1)下的精度差,最后可以求得平均精度差值(Average precision difference, APD),如表2所示,精度差值D-FCN-8s在統(tǒng)計(jì)像素準(zhǔn)確率、類別平均準(zhǔn)確率、平均區(qū)域重合度和頻率加權(quán)區(qū)域重合度4種指標(biāo)上比FCN-8s分別提高了2.5%、2.3%、3.4%和2.7%(表2中最后一列)。

    為了驗(yàn)證該方法在FCN系列網(wǎng)絡(luò)中的有效性,本文對(duì)原FCN的模型進(jìn)行了改良,參照了文獻(xiàn)[33]和文獻(xiàn)[34]中的方案,在FCN結(jié)構(gòu)后面加入了全連接條件隨機(jī)場(chǎng)(conditional random fields, CRF)和馬爾科夫隨機(jī)場(chǎng)(Markov random fields, MRF),其中全連接條件隨機(jī)場(chǎng)能夠建立像素之間的全連接距離關(guān)系,而距離值與顏色和實(shí)際相對(duì)距離相關(guān),這可以讓該網(wǎng)絡(luò)在語(yǔ)義分割過程中讓圖像盡量在邊界處分割。而馬爾科夫隨機(jī)場(chǎng)對(duì)原CRF中的二元?jiǎng)莺瘮?shù)進(jìn)行了修改,加入了懲罰因子,能夠更加充分的運(yùn)用局部上下文信息產(chǎn)生分割結(jié)果。表3中給出了4種分割方案在4種通用的語(yǔ)義分割度量評(píng)價(jià)標(biāo)準(zhǔn)下的比較情況,其中CRF-FCN-8s是加入全連接條件隨機(jī)場(chǎng)得到的語(yǔ)義分割結(jié)果,MRF-FCN-8s是加入馬爾科夫隨機(jī)場(chǎng)得到的語(yǔ)義分割結(jié)果。結(jié)果表明,即時(shí)對(duì)原FCN網(wǎng)絡(luò)進(jìn)行改造,其各項(xiàng)指標(biāo)也比深度密度對(duì)FCN-8s優(yōu)化后的各項(xiàng)指標(biāo)差,這是由于深度密度也采用了局部像素關(guān)聯(lián)的方式來對(duì)具體像素點(diǎn)進(jìn)行深度區(qū)域分類,而CRF和MRF雖然也是采用了距離關(guān)聯(lián)方式,但是其關(guān)聯(lián)關(guān)系的精度要低于深度圖像中深度關(guān)聯(lián)的精度,因此采用深度密度方法會(huì)得到更好的分割結(jié)果。這表明深度密度可以用于優(yōu)化全卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割結(jié)果,能夠提升語(yǔ)義分割精度。圖10分別給出FCN-8s以及為優(yōu)化后的D-FCN-8s與真值的對(duì)比效果圖,其中FCN-8s的分割細(xì)節(jié)部分明顯不如D-FCN-8s,而利用深度密度得到的分割結(jié)果非常接近與真值圖。

    表2 FCN-8s與D-FCN-8s在3類數(shù)據(jù)集上的平均精度差

    注:平均精度差(APD)的計(jì)算公式為,APD(average precision difference) = ((NYUDv2+1)X+(NYUDv2-20+1)X+(NYUDv2-10+1)X)/3,其中X∈{pa, ma, mIU, fwIU}.

    Note: Formula for calculating the average accuracy difference is as follows, APD (Average Precision Difference)=((NYUDv2+1)X+(NYUDv2-20+1)X+ (NYUDv2-10+1)X)/3, where X∈{pa, ma, mIU, fwIU}.

    表3 FCN-8s、CRF-FCN-8s、MRF-FCN-8s和D-FCN-8s在NYUDv2+1數(shù)據(jù)集上的語(yǔ)義分割結(jié)果比較

    注:CRF-FCN-8s是以FCN為基礎(chǔ)并加入全連接條件隨機(jī)場(chǎng)后得到的分割結(jié)果,MRF-FCN-8s是以FCN為基礎(chǔ)并加入馬爾科夫條件隨機(jī)場(chǎng)后得到的分割結(jié)果。

    Note: CRF-FCN-8s is s segmentation result based on FCN and adding Conditional Random Fields (CRF). MRF-FCN-8s is a segmentation result based on FCN and adding Markov Random Field (MRF).

    圖10 D-FCN-8s、FCN-8s與真值對(duì)比

    5 結(jié) 論

    1)在對(duì)全卷積網(wǎng)絡(luò)輸出的特征圖(熱圖)進(jìn)行上采樣過程中,交替使用了雙線性插值方法和全尺寸反卷積方法,避免了直接采用全尺寸反卷積操作而造成的分割結(jié)果粗糙的問題。

    3)基于像素密度值,可以對(duì)FCN-8s中肉牛細(xì)節(jié)部分(例如邊緣部位)進(jìn)行優(yōu)化,經(jīng)過試驗(yàn)結(jié)果分析,在3類數(shù)據(jù)集上(NYUDv2+1,NYUDv2-20+1,NYUDv2-10+1)進(jìn)行分割驗(yàn)證,與原始FCN-8s分割結(jié)果相比,D-FCN-8s在統(tǒng)計(jì)像素準(zhǔn)確率提高2.5%,在類別平均準(zhǔn)確率提升2.3%,在平均區(qū)域重合度提升3.4%,在頻率加權(quán)區(qū)域重合度提升2.7%。

    4)本文在FCN的基礎(chǔ)上,分別加入了全連接條件隨機(jī)場(chǎng)和馬爾科夫隨機(jī)場(chǎng),用于在對(duì)像素分類過程中增加像素局部上下文信息,提高FCN系列網(wǎng)絡(luò)的分割精度,通過NYUDv2+1數(shù)據(jù)集驗(yàn)證發(fā)現(xiàn)D-FCN-8s結(jié)果仍優(yōu)于這兩種網(wǎng)絡(luò),因?yàn)樯疃让芏仁窃谏疃葓D像中使用了局部深度全局信息,而深度圖像的精度要高于全連接條件隨機(jī)場(chǎng)和馬爾科夫隨機(jī)場(chǎng)中的距離值,因此分割效果更好。

    因此,上述結(jié)論證明通過計(jì)算和使用RGBD圖像中像素點(diǎn)的深度密度,可以優(yōu)化全卷積網(wǎng)絡(luò)在肉牛細(xì)節(jié)部位的分割效果,提高全卷積網(wǎng)絡(luò)的語(yǔ)義分割精度。

    [1] Zhu Nanyang, Liu Xu, Liu Ziqian, et al. Deep learning for smart agriculture: Concepts, tools, applications, and opportunities[J]. IJABE. 2018, 1(4): 32-44.

    [2] David Stutz, Alexander Hermans, Bastian Leibe. Superpixels: An evaluation of the state-of-the-art[J]. Computer Vision and Image Understanding. 2018, 166: 1-27.

    [3] Bell S, Zitnick C L, Bala K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks[C]//IEEE Conference on Computer Vision and Pattern Recognition, Las Vega, 2016: 2874-2883.

    [4] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2016, 313(5786): 504-507.

    [5] 周云成,許童羽,鄭偉,等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的番茄主要器官分類識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(15):219-226.

    Zhou Yuncheng, Xu Tongyu, Zheng Wei, et al. Classification and recognition approaches of tomato main organs based on DCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(15): 219-226. (in Chinese with English abstract)

    [6] 田有文,程怡,王小奇,等. 基于高光譜成像的蘋果蟲傷缺陷與果梗/花萼識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(4):325-331.

    Tian Youwen, Cheng Yi, Wang Xiaoqi, et al. Recognition method of insect damage and stem/calyx on apple based on hyperspectral imaging[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(4): 325-331. (in Chinese with English abstract)

    [7] 趙源深,貢亮,周斌,等. 番茄采摘機(jī)器人非顏色編碼化目標(biāo)識(shí)別算法研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,47(7):1-7.

    Zhao Yuanshen, Gong Liang, Zhou Bin, et al. Object recognition algorithm of tomato harvesting robot using non-color coding approach[J]. Transactions of the Chinese Society for Agricultural Engineering, 2016, 47(7): 1-7. (in Chinese with English abstract)

    [8] 賈偉寬,趙德安,劉曉樣,等. 機(jī)器人采摘蘋果果實(shí)的K-means和GA-RBF-LMS神經(jīng)網(wǎng)絡(luò)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(18):175-183.

    Jia Weikuan, Zhao Dean, Liu Xiaoyang, et al. Apple recognition based on K-means and GA-RBF-LMS neural network applicated in harvesting robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(18): 175-183. (in Chinese with English abstract)

    [9] 楊國(guó)國(guó),鮑一丹,劉子毅,等. 基于圖像顯著性分析與卷積神經(jīng)網(wǎng)絡(luò)的茶園害蟲定位與識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(6):156-162.

    Yang Guoguo, Bao Yidan, Liu Ziyi, et al. Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(6): 156-162. (in Chinese with English abstract)

    [10] 譚文學(xué),趙春江,吳華瑞,等. 基于彈性動(dòng)量深度學(xué)習(xí)的果體病例圖像識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(1):20-25.

    Tan Wenxue, Zhao Chunjiang, Wu Huarui, et al. A deep learning network for recognizing fruit pathologic images based on flexible momentum[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(1): 20-25. (in Chinese with English abstract)

    [11] 王獻(xiàn)鋒,張善文,王震,等. 基于葉片圖像和環(huán)境信息的黃瓜病害識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2014,30(14):148-153.

    Wang Xianfeng, Zhang Shanwen, Wang Zhen, et al. Recognition of cucumber diseases based on leaf image and environmental information[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(14): 148-153. (in Chinese with English abstract)

    [12] 王新忠,韓旭,毛罕平. 基于吊蔓繩的溫室番茄主莖稈視覺識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2012,28(21):135-141.

    Wang Xinzhong, Han Xu, Mao Hanping. Vision-based detection of tomato main stem in greenhouse with red rope[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(21): 135-241. (in Chinese with English abstract)

    [13] 郭艾俠,熊俊濤,肖德琴,等. 融合Harris與SIFT算法的荔枝采摘點(diǎn)計(jì)算與立體匹配[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(12):11-17.

    Guo Aixia, Xiong Juntao, Xiao Deqin, et al. Computation of picking point of litchi and its binocular stereo matching based on combined algorithms of Harris and SIFT[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(12): 11-17. (in Chinese with English abstract)

    [14] 趙凱旋,何東鍵. 基于卷積神經(jīng)網(wǎng)絡(luò)的奶牛個(gè)體身份識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(5):181-187.

    Zhao Kaixuan, He Dongjian. Recognition of individual dairy cattle based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(5): 181-187. (in Chinese with English abstract)

    [15] 段延娥,李道亮,李振波,等. 基于計(jì)算機(jī)視覺的水產(chǎn)動(dòng)物視覺特征測(cè)量研究綜述[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(15):1-11.

    Duan Yan’e, Li Daoliang, Li Zhenbo, et al. Review on visual characteristic measurement research of aquatic animals based on computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(15): 1-11. (in Chinese with English abstract).

    [16] 高云,郁厚安,雷明剛,等. 基于頭尾定位的群豬運(yùn)動(dòng)軌跡追蹤[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(2):220-226.

    Gao Yun, Yu Houan, Lei Minggang, et al. Trajectory tracking for group housed pigs based on locations of head/tail[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(2): 220-226. (in Chinese with English abstract)

    [17] 鄧寒冰,許童羽,周云成,等. 基于DRGB的運(yùn)動(dòng)中肉牛形體部位識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(5):166-175.

    Deng Hanbing, Xu Tongyu, Zhou Yuncheng, et al. Body shape parts recognition of moving cattle based on DRGB[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(5): 166-175. (in Chinese with English abstract)

    [18] 楊阿慶,薛月菊,黃華盛,等. 基于全卷積網(wǎng)絡(luò)的哺乳母豬圖像分割[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(23):219-225.

    Yang Aqing, Xue Yueju, Huang Huasheng, et al. Lactating sow image segmentation based on fully convolutional networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(23): 219-225. (in Chinese with English abstract)

    [19] 郭祥云,臺(tái)海江. 深度學(xué)習(xí)在大田種植中的應(yīng)用及展望[J]. 中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào),2019,24(1):119-129.

    Guo Xiangyun, Tai Haijiang. Current situation and prospect of deep learning application in field planting[J]. Journal of China Agricultural University, 2019, 24(1): 119-129. (in Chinese with English abstract)

    [20] 王丹丹,何東健. 基于R-FCN深度卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器人疏果前蘋果目標(biāo)的識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(3):156-163.

    Wang Dandan, He Dongjian. Recognition of apple targets before fruits thinning by robot based on R-FCN deep convolution neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 156-163. (in Chinese with English abstract)

    [21] 劉立波,程曉龍,賴軍臣. 基于改進(jìn)全卷積網(wǎng)絡(luò)的棉花冠層圖像分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(12):193-201.

    Liu Libo, Cheng Xiaolong, Lai Junchen. Segmentation method for cotton canopy image based on improved fully convolutional network model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 193-201. (in Chinese with English abstract)

    [22] 段凌鳳,熊雄,劉謙,等. 基于深度全卷積神經(jīng)網(wǎng)絡(luò)的大田稻穗分割[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(12):202-209.

    Duan Lingfeng, Xiong Xiong, Liu Qian, et al. Field rice panicle segmentation based on deep full convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(12): 202-209. (in Chinese with English abstract)

    [23] Evan Shelhamer, Jonathan Long, Trevor Darrell. Fully Convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

    [24] Ronghang Hu, Piotr Dollar, Kaiming He, et al. Learning to segment every thing[C]//IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018, 4233-4241.

    [25] Karen Simonyan, Andrew Zisserman. Very deep convolutional networks for large-scale image recognition[C]// International Conference on Learning Representations, San Diego, 2014: 1-14.

    [26] Deng Jia, Dong Wei, Socher Richard, et al. ImageNet: A large-scale hierarchical image database[C]//IEEE Conference on Computer Vision and Pattern Recognition, Hawaii, 2009: 248-255.

    [27] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton. ImageNet classification with deep convolutional neural networks[J]. International Conference on Neural Information Processing System, 2012, 60(2): 1097-1105.

    [28] Jia Deng, Wei Dong, Richard Socher, et al. ImageNet: A large-scale hierarchical image database[C]// IEEE Conference on Computer Vision & Pattern Recognition, 2009: 248-255.

    [29] Lin Tsungyu, Aruni RoyChowdhury, Subhransu Maji. Bilinear CNN models for fine-grained visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(6): 1309-1322.

    [30] Zheng Shou, Jonathan Chan, Alireza Zareian, et al. CDC: convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1417-1426.

    [31] Matthew D Zeiler, Rob Fergus. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision, Zurich, 2014: 818-833.

    [32] Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from rgbd images[C]//In ECCV, 2012.7

    [33] Zheng S, Jayasumana S, Romera-Paredes B, et al. Conditional random fields as recurrent neural networks[C]// 2015 IEEE International Conference on Computer Vision. 2015.

    [34] Liu Ziwei, Li Xiaoxiao, Luo Ping, et al. Semantic image segmentation via deep parsing network[C]// IEEE International Conference on Computer Vision. 2015.

    Optimization of cattle’s image semantics segmentation with fully convolutional networks based on RGB-D

    Deng Hanbing1,2, Zhou Yuncheng1,2※, Xu Tongyu1,2, Miao Teng1,2,3, Xu Jing1,2

    (1.110866,;2.110866,;3.100097,)

    With the decreasing cost of image sensor equipment, full-time monitoring has been gradually realized in the process of cattle breeding. Especially, in the whole life of cattle, the monitoring and analysis for cattle’s behavior have become a research hotspot in the field of breeding. Acquiring a large amount of cattle image and video information, people are more concerned about how to process, analyze, understand and apply these data. How to segment dynamic objects from complex environment background is the precondition of cattle behavior analysis, and it is also the key of realizing long-distance, contactless and automatic detection for cattle behavior. The traditional machine vision image segmentation method is used to realize the clustering and extraction of pixels by artificially extracting image features. However, when the image background is complex, feature extraction will become very troublesome and even difficult to achieve. Deep Convolutional Neural Networks (DCNN) provides another solution, which enables computers to automatically learn and find the most descriptive and prominent features in each specific category of objects, and allows deep networks to discover potential patterns in various types of images. On the basis of massive labeled data, the accuracy of classification, segmentation, recognition and detection with convolutional neural network can be improved automatically through continuous training, and the labor cost is transferred from algorithm design to data acquisition, which reduces the difficulty of technology application. However, for cattle image segmentation, the complex breeding environment will be a problem. The color and texture of environmental information in the image will have an impact on the segmentation of cattle’s details. Especially when FCN uses deconvolution operation in the process of up-sampling, it is insensitive to the details of the image and does not take into account the class relationship between the pixels, which makes the segmentation result lack of spatial regularity and spatial consistency, so the segmentation effect will be very rough. In order to improve the accuracy of semantics segmentation for fully convolutional networks and segmentation effect of cattle image details, this paper proposes a method of fully convolutional networks semantic segmentation based on RGBD cattle image. We create a concept which named “depth density”. The value of depth density can quantify the probability about whether different pixels have the same category. According to the mapping relationship between RGB image and depth image on pixel level content, we optimize the semantic segmentation results of cattle’s image by FCN. The experimental results showed that, better than FCN-8s, the proposed method could improve the pixel accuracy, mean accuracy, mean intersection over union and frequency weight intersection over union by 2.5%, 2.3%, 3.4% and 2.7% respectively.

    image processing; models; animals; semantic segmentation; RGB-D; fully convolutional networks; multimodal; cattle’s image

    鄧寒冰,周云成,許童羽,苗 騰,徐 靜. 基于RGB-D的肉牛圖像全卷積網(wǎng)絡(luò)語(yǔ)義分割優(yōu)化[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(18):151-160.doi:10.11975/j.issn.1002-6819.2019.18.019 http://www.tcsae.org

    Deng Hanbing, Zhou Yuncheng, Xu Tongyu, Miao Teng, Xu Jing. Optimization of cattle’s image semantics segmentation with fully convolutional networks based on RGB-D[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 151-160. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.18.019 http://www.tcsae.org

    2019-04-02

    2019-08-20

    國(guó)家自然科學(xué)基金資助項(xiàng)目(31601218,61673281,31601219);中國(guó)博士后科學(xué)基金(2018M631812);遼寧省自然基金面上項(xiàng)目(20180551102)

    鄧寒冰,講師,博士,主要從事農(nóng)業(yè)領(lǐng)域的機(jī)器學(xué)習(xí)與模式識(shí)別研究工作。Email:denghanbing@syau.edu.cn

    周云成,副教授,博士,主要農(nóng)業(yè)領(lǐng)域機(jī)器學(xué)習(xí)與模式識(shí)別研究工作。Email:zhouyc2002@syau.edu.cn

    10.11975/j.issn.1002-6819.2019.18.019

    S823.92; TP391.41

    A

    1002-6819(2019)-18-0151-10

    猜你喜歡
    像素點(diǎn)肉牛語(yǔ)義
    冬季肉牛咋喂精料
    冬春如何提高肉牛采食量
    今日農(nóng)業(yè)(2021年21期)2021-11-26 05:07:00
    語(yǔ)言與語(yǔ)義
    基于canvas的前端數(shù)據(jù)加密
    基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)分割模型的上皮和間質(zhì)組織分割
    “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
    認(rèn)知范疇模糊與語(yǔ)義模糊
    基于Node-Cell結(jié)構(gòu)的HEVC幀內(nèi)編碼
    調(diào)運(yùn)肉牛應(yīng)激反應(yīng)繼發(fā)癥的診斷和治療
    马公市| 兰溪市| 泾源县| 广德县| 巴彦淖尔市| 军事| 信宜市| 孟连| 新余市| 华阴市| 临江市| 马龙县| 永春县| 班戈县| 开平市| 西和县| 施甸县| 称多县| 牙克石市| 广东省| 泊头市| 安义县| 梓潼县| 马公市| 嘉定区| 五原县| 武夷山市| 怀远县| 吉水县| 赤水市| 从江县| 喀喇沁旗| 常宁市| 东丰县| 平顶山市| 博野县| 福泉市| 黄大仙区| 承德县| 鹤壁市| 新闻|