趙亞楠,鄧寒冰,2,劉 婷,趙露露,趙 凱,楊 景,張羽豐
基于弱監(jiān)督學(xué)習(xí)的玉米苗期植株圖像實例分割方法
趙亞楠1,鄧寒冰1,2※,劉 婷1,趙露露1,趙 凱1,楊 景1,張羽豐1
(1. 沈陽農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,沈陽 110866;2. 遼寧省農(nóng)業(yè)信息化工程技術(shù)研究中心,沈陽 110866)
基于有監(jiān)督深度學(xué)習(xí)的圖像分割任務(wù)通常利用像素級標(biāo)簽來保證模型的訓(xùn)練和測試精度,但受植株復(fù)雜形態(tài)影響,保證像素級標(biāo)簽精度的同時,時間成本也顯著提高。為降低深度模型訓(xùn)練成本,同時保證模型能夠有較高的圖像分割精度,該研究提出一種基于邊界框掩膜的深度卷積神經(jīng)網(wǎng)絡(luò)(Bounding-box Mask Deep Convolutional Neural Network,BM-DCNN),在有監(jiān)督深度學(xué)習(xí)模型中融入偽標(biāo)簽生成模塊,利用偽標(biāo)簽代替真值標(biāo)簽進行網(wǎng)絡(luò)訓(xùn)練。試驗結(jié)果表明,偽標(biāo)簽與真值標(biāo)簽的平均交并比為81.83%,平均余弦相似度為86.14%,高于Grabcut類方法生成偽標(biāo)簽精度(與真值標(biāo)簽的平均交并比為40.49%,平均余弦相似度為61.84%);對于玉米苗期圖像(頂視圖)計算了三種人工標(biāo)注方式的時間成本,邊界框標(biāo)簽為2.5 min/張,涂鴉標(biāo)簽為15.8 min/張,像素級標(biāo)簽為32.4 min/張;利用偽標(biāo)簽樣本進行訓(xùn)練后,BM-DCNN模型的兩種主干網(wǎng)絡(luò)當(dāng)IoU值大于0.7時(AP70),BM-DCNN模型對應(yīng)的實例分割精度已經(jīng)高于有監(jiān)督模型。BM-DCNN模型的兩種主干網(wǎng)絡(luò)對應(yīng)的平均準(zhǔn)確率分別為67.57%和75.37%,接近相同條件下的有監(jiān)督實例分割結(jié)果(分別為67.95%和78.52%),最高可達到有監(jiān)督分割結(jié)果的99.44%。試驗證明BM-DCNN模型可以使用低成本的弱標(biāo)簽實現(xiàn)高精度的玉米苗期植株圖像實例分割,為基于圖像的玉米出苗率統(tǒng)計以及苗期冠層覆蓋度計算提供低成本解決方案及技術(shù)支持。
實例分割;深度學(xué)習(xí);弱監(jiān)督學(xué)習(xí);玉米;植物表型
在深度學(xué)習(xí)技術(shù)普及之前,實現(xiàn)圖像目標(biāo)檢測和圖像分割等任務(wù)主要依賴于人工設(shè)計的局部特征,利用圖像特征的抽象信息概括全局信息,進而區(qū)分圖像中的不同區(qū)域和不同對象。但如何描述局部特征需要極強的專業(yè)領(lǐng)域知識,在驗證局部特征有效性上也需要耗費大量人力,而且人工描述的特征也往往依賴于圖像場景,不具有普適性。近些年,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,借助深層卷積神經(jīng)網(wǎng)絡(luò)可以從圖像中學(xué)習(xí)具有不同層次的特征表述,通過特征融合以實現(xiàn)更加精準(zhǔn)的視覺任務(wù)。目前,主流的計算機視覺技術(shù)任務(wù)可以分為圖像分類、目標(biāo)檢測、圖像分割等,其中圖像分割領(lǐng)域的實例分割是最具挑戰(zhàn)性的任務(wù)之一。要實現(xiàn)圖像實例分割,不僅需要對圖像中的對象進行精確定位,還要對每個實例進行像素級別的分類,因而同時具備了目標(biāo)檢測和語義分割的功能。從技術(shù)發(fā)展的趨勢以及應(yīng)用效果看,基于深層卷積神經(jīng)網(wǎng)絡(luò)的圖像實例分割方法已經(jīng)成為該領(lǐng)域的首選技術(shù)[1-3]。深度學(xué)習(xí)技術(shù)對圖像復(fù)雜特征的描述和融合能力得到了植物表型研究領(lǐng)域的關(guān)注,由于其能自動完成對圖像中植物復(fù)雜形態(tài)的精準(zhǔn)描述,已經(jīng)有很多成熟的植物表型平臺、模型和技術(shù)方法是在深度學(xué)習(xí)模型基礎(chǔ)上演變而來[4-7]。
但深度學(xué)習(xí)技術(shù)的應(yīng)用需要大量的可訓(xùn)練數(shù)據(jù),這樣才能充分發(fā)揮深層卷積神經(jīng)網(wǎng)絡(luò)強大的特征提取和圖像分析能力。由于圖像實例分割的訓(xùn)練樣本需要使用像素級的掩膜信息,這也直接提高了人工標(biāo)注成本,特別是面對植物表型領(lǐng)域的圖像樣本,其圖像的多樣性、植株形體的復(fù)雜性、海量的樣本數(shù)都導(dǎo)致無法高質(zhì)量、高效率的實現(xiàn)訓(xùn)練樣本的人工標(biāo)注。Amy等[8]對樣本標(biāo)注方式進行了比較,對平均包含2.8個對象的圖像進行像素級標(biāo)注大概需要4 min,而對于單一植物性狀特征的像素級標(biāo)注時間成本要增加2~3倍。因此,為了降低樣本的人工標(biāo)注成本,有研究人員提出了基于弱監(jiān)督學(xué)習(xí)的實例分割方法?;谌醣O(jiān)督學(xué)習(xí)的實例分割是在弱標(biāo)簽的監(jiān)督下,對圖像中感興趣目標(biāo)進行分類、定位和分割,這減少了實例分割模型對像素級信息的過度依賴,在粗粒度的范圍下實現(xiàn)圖像特征提取和解析。目前,考慮到模型穩(wěn)定性以及實現(xiàn)成本,基于弱監(jiān)督學(xué)習(xí)的實例分割模型較多采用兩段式結(jié)構(gòu),其實現(xiàn)流程為:1)在弱標(biāo)簽基礎(chǔ)上自動生成實例分割所需的像素級偽標(biāo)簽;2)在偽標(biāo)簽的監(jiān)督下訓(xùn)練一個有監(jiān)督實例分割網(wǎng)絡(luò)。這種方式是在有監(jiān)督深度學(xué)習(xí)模型的基礎(chǔ)上,根據(jù)偽標(biāo)簽的特性和質(zhì)量,完善并實現(xiàn)全監(jiān)督實例分割網(wǎng)絡(luò),進而減少弱監(jiān)督訓(xùn)練標(biāo)簽對實例分割的限制。弱標(biāo)簽的標(biāo)注方式和特征表達對于生成偽標(biāo)簽的質(zhì)量以及圖像分割的精度影響比較大。目前,弱監(jiān)督學(xué)習(xí)的實例分割方法從標(biāo)簽類型上區(qū)分主要包括:基于邊界框的弱監(jiān)督圖像分割方法[9-11]、基于涂鴉信息的弱監(jiān)督圖像分割方法[12-13]、基于圖像類別標(biāo)簽的弱監(jiān)督圖像分割方法[14-16]等。這些方法的共同特點是標(biāo)注的對象信息不如像素級信息精確,但相比起無監(jiān)督學(xué)習(xí)方法又給出了更有效的特征區(qū)域和特征信息。從時間成本上看,最容易獲得的弱標(biāo)簽是類別標(biāo)簽,用類別標(biāo)記圖像大約需要20 s,但它只描述了某些類別的對象,并且沒有給出它們在圖像中的位置信息,對于分離同一類的不同對象也沒有幫助。邊界框注釋每幅圖像大約需要38.1 s[17],雖然增加了標(biāo)注的時間成本,但邊界框提供有關(guān)單個對象及其位置的信息,這比構(gòu)建像素級掩膜更有吸引力。許多研究人員已經(jīng)開展了基于邊界框的圖像語義分割[18]和圖像實例分割[19-21]方法研究,將邊界框注釋作為搜索空間,通過對象掩膜生成器可以在其中找到類不可知的對象掩膜。這些掩膜生成器中,有的使用概率圖模型(如條件隨機場[22]和GrabCut[23])、有的使用圖像的底層特征作為二元約束項進行多尺度組合分組(Multiscale Combinatorial Grouping,MCG)[24],有的利用圖像RGB顏色空間[25],還有利用圖像中的邊緣特征。Rajch等[26]提出從邊界框獲取像素級標(biāo)簽的DeepCut方法,該方法通過迭代密集條件隨機場和卷積神經(jīng)網(wǎng)絡(luò)模型來擴展Grabcut方法,可以實現(xiàn)給定邊界框的神經(jīng)網(wǎng)絡(luò)分類器訓(xùn)練,將分類問題看作稠密連接的條件隨機場下的能量最小化問題,并不斷迭代實現(xiàn)實例分割。Khoreva等[27]使用邊界框標(biāo)簽訓(xùn)練弱監(jiān)督實例分割模型,該方法使用類似Grabcut算法,從已有邊界框標(biāo)簽中獲得訓(xùn)練標(biāo)簽,將訓(xùn)練標(biāo)簽放入全監(jiān)督模型中訓(xùn)練實現(xiàn)實例分割。Hsu等[28]假設(shè)給出的所有邊界框都是緊密貼合的,采用多任務(wù)學(xué)習(xí)解決緊密邊界框內(nèi)前景與背景不明確問題,該方法在每個邊界框內(nèi)遍歷掃描生成正負(fù)框,并將多任務(wù)學(xué)習(xí)集成到弱監(jiān)督實例分割網(wǎng)絡(luò)中,通過對邊界框內(nèi)前景、背景的判斷以及掩碼的對應(yīng)推導(dǎo)出最終的實例掩碼。Tian等[29]提出每個像素點預(yù)測在坐標(biāo)軸上的位置投影損失函數(shù),利用邊界框內(nèi)相同顏色可能屬于同類物體的先驗計算像素點之間的相似性損失函數(shù),通過這一策略能夠有效解決監(jiān)督標(biāo)注信息缺失的問題。Boxsup算法[30]、Box-driven算法[31]從邊界框標(biāo)注信息中獲取到像素級分割,進行語義分割模型的訓(xùn)練。上述方法在解決非農(nóng)業(yè)場景圖像分割問題時給出了一些有效的方案,但對于大田環(huán)境下的苗期玉米圖像實例分割問題,由于玉米種植密度較高,圖像中存在植株間交叉、植株與陰影形態(tài)相似等問題,這都會導(dǎo)致利用弱標(biāo)簽來生成的偽標(biāo)簽與真值(Ground truth)相差過大,嚴(yán)重影響偽標(biāo)簽的質(zhì)量,降低了模型的實例分割精度。
為了解決這一問題,本文提出一種基于弱監(jiān)督深度學(xué)習(xí)的苗期玉米植株圖像實例分割方法,利用邊界框信息在圖像上產(chǎn)生弱標(biāo)簽,同時將圖像的RGB顏色模型轉(zhuǎn)換為HSV顏色模型,并配合使用全連接條件隨機場消除圖像中植株影子以及圖像噪聲對偽標(biāo)簽精度的影響,將偽標(biāo)簽代替真值標(biāo)簽對優(yōu)化后的YOLACT模型[32]進行訓(xùn)練,最終得到可以用于玉米苗期植株實例分割的模型。
試驗選取的玉米品種是“先玉335”。該品種幼苗時期長勢較強,幼苗葉鞘紫色,葉片、葉緣綠色,株型緊湊,葉片上舉,全株葉片數(shù)20片左右,具有抗玉米瘤黑粉病、灰斑病、紋枯病和玉米螟,高抗莖腐病,中抗彎孢菌葉斑病等,其優(yōu)越的抗病性可以讓玉米在整個生長周期保持植株健康。
試驗主要采集玉米苗期植株的頂視圖像,為了保證數(shù)據(jù)采集效率和圖像質(zhì)量,試驗選用大疆的“精靈4-RTK”無人機,起飛質(zhì)量1.39 kg,續(xù)航時間約為30 min,最大水平飛行速度為50 km/h,相機分辨率為5 472×3 078像素,所有參數(shù)能夠滿足本試驗的要求。在利用無人機進行原始圖像采集時,為了保證玉米苗期植株形態(tài)的穩(wěn)定,拍攝時的風(fēng)力應(yīng)小于3級且天氣晴朗,采集時間為9:00-11:00,航飛高度控制為6 m。飛行采用自動起飛規(guī)劃的航線,整個航線覆蓋玉米植株生長的全部試驗田。
經(jīng)過初步人工篩查,共為試驗挑選出1 000張玉米苗期群體頂視圖像。其中800張圖像(80%)作為訓(xùn)練樣本集,100張圖像(10%)作為訓(xùn)練過程中階段性檢驗?zāi)P偷尿炞C樣本集,100張圖像(10%)作為模型最終的測試樣本集。
本文提出基于弱監(jiān)督深度學(xué)習(xí)的圖像實例分割方法,訓(xùn)練樣本的標(biāo)簽是非像素級的弱標(biāo)簽(Weak labels),利用弱標(biāo)簽來產(chǎn)生像素級的偽標(biāo)簽(Pseudo labels),進而完成模型訓(xùn)練。因此,為了驗證偽標(biāo)簽的精度以及模型的分割效果,本試驗需要準(zhǔn)備兩種類型的標(biāo)簽:一是像素級別的真值標(biāo)簽(Ground truth labels),另一種是弱監(jiān)督標(biāo)簽。其中真值標(biāo)簽用在測評偽標(biāo)簽質(zhì)量以及最終的模型分割精度,而弱監(jiān)督標(biāo)簽用來產(chǎn)生偽標(biāo)簽并訓(xùn)練模型。
由于在圖像上標(biāo)注真值標(biāo)簽和弱監(jiān)督標(biāo)簽都需要人工參與,所以本文選用開源的Labelme標(biāo)注工具,對原始玉米苗期植株的頂視圖像進行兩次標(biāo)注(如圖1所示)。試驗選用邊界框(Bounding box)作為弱監(jiān)督標(biāo)簽的基本形狀,邊界框區(qū)域內(nèi)的像素被標(biāo)記為前景(即玉米植株區(qū)域),邊界框外部的像素被標(biāo)記為背景。其中圖1b是有監(jiān)督學(xué)習(xí)對應(yīng)的像素級真值標(biāo)簽,圖1c是本研究使用的邊界框標(biāo)簽。從圖1中的對比可以看出,利用邊界框作為標(biāo)簽區(qū)域會附帶很多背景像素,但是由于標(biāo)注方式簡單,人工標(biāo)注的時間成本遠遠低于像素級別的標(biāo)注方式。此外,為了保證深度學(xué)習(xí)模型訓(xùn)練樣本多樣性,試驗對現(xiàn)有的樣本集進行圖像增強,對800張訓(xùn)練樣本進行90°旋轉(zhuǎn)、180°旋轉(zhuǎn)、鏡像、亮度增強操作,將訓(xùn)練集擴增到3 200張。
a. 原始圖像a. Original imageb. 像素級真值標(biāo)簽b. Pixel-wise ground truth labelsc. 邊界框標(biāo)簽c. Bounding-box labels
本文以邊界框作為實例分割樣本的標(biāo)簽形態(tài),提出一種基于邊界框掩膜的深度卷積神經(jīng)網(wǎng)絡(luò)(Bounding-box Mask Deep Convolutional Neural Networks,BM-DCNN)模型,利用弱標(biāo)簽提供的前景信息實現(xiàn)網(wǎng)絡(luò)參數(shù)的訓(xùn)練。整個過程如圖2所示,包括以下3個主要步驟:1)圖像中玉米植株的弱標(biāo)簽獲取,即使用標(biāo)注工具(本試驗使用Labelme)對圖像中的玉米植株進行邊界框標(biāo)注;2)利用弱標(biāo)簽生成像素級偽標(biāo)簽,首先通過顏色空間轉(zhuǎn)換優(yōu)化圖割方法生成的偽標(biāo)簽,利用HSV顏色模型的各分量閾值減少圖割結(jié)果中的背景像素,再使用全連接條件隨機場消除圖像中植株影子以及植株附近噪聲對偽標(biāo)簽精度的影響,最終得到偽標(biāo)簽;3)利用偽標(biāo)簽訓(xùn)練實例分割網(wǎng)絡(luò),將偽標(biāo)簽代替真值信息監(jiān)督模型訓(xùn)練過程并對模型進行測試和評價。
圖2 邊界框掩膜深度卷積神經(jīng)網(wǎng)絡(luò)
在試驗的模型訓(xùn)練過程中,需要對不同標(biāo)簽形式的樣本進行訓(xùn)練和測試對比,為保證訓(xùn)練、測試過程的公平性,本試驗將模型對應(yīng)的訓(xùn)練任務(wù)放到同一硬件平臺上完成。試驗平臺采用Dell Precision 7920,內(nèi)存為64 GB,中央處理器主頻為2.1 GHz,中央處理器核心數(shù)為16,圖形處理器(Graphic Processing Pnit,GPU)為NVIDA 2080Ti,圖形處理器顯存為11 GB,圖形處理器核心數(shù)為4 352。
圖像采集過程由于受太陽光的直射干擾,玉米植株會在附近區(qū)域產(chǎn)生較大面積的陰影,因此在進行邊界框標(biāo)注時,這些陰影與植株本身被同時標(biāo)注為前景信息,該部分植株陰影會對偽標(biāo)簽的準(zhǔn)確度產(chǎn)生巨大影響,特別是在算法本身需要使用圖像的紋理和邊界等信息對前景分割時(比如Grabcut),由于植株陰影與植株本身邊緣信息高度相似,因此陰影部分的像素也經(jīng)常被誤認(rèn)為是植株區(qū)域,將陰影與真正的植株區(qū)域進行合并處理,這會導(dǎo)致偽標(biāo)簽與真值之間的誤差過大,利用這樣的偽標(biāo)簽來訓(xùn)練模型,收斂后的模型輸出精度普遍較低。
由此可見,本試驗中邊界框區(qū)域的植株陰影是影響偽標(biāo)簽精確度的重要因素,去除植株陰影是提高偽標(biāo)簽精度的必要步驟??紤]到玉米植株與其陰影在RGB顏色直方圖中存在較多重疊區(qū)間,而相比于RGB顏色空間模型,HSV顏色空間模型更加符合人類對顏色的描述和解釋,試驗首先將圖像從RGB顏色空間轉(zhuǎn)換成HSV顏色空間。將RGB圖像進行通道分離,分離后分別對、、三通道,按照式(1)進行歸一化處理,分別獲得、和。
式中的、、分別代表RGB圖像在HSV顏色空間模型中轉(zhuǎn)換之后的數(shù)值。通過HSV的各分量直方圖(圖3)可以看出,植株與陰影對應(yīng)的像素之間存在明顯的波谷區(qū)域,以、、各通道的波谷區(qū)域作為區(qū)分植株和陰影的閾值選取區(qū)間,經(jīng)過抽樣和篩選最終確定通道的取值范圍是[35,77],通道的取值范圍是[43,200],的閾值范圍是[46,255]。
圖3 玉米植株圖像H、S、V分量直方圖(統(tǒng)計值)
利用HSV三個通道的閾值范圍,在圖像的所有邊界框區(qū)域中去除玉米植株陰影部分,可以獲得邊界框區(qū)域內(nèi)的初級偽標(biāo)簽(Primary Pseudo Label),如圖4c所示。
a. 原始圖像a. Original Imageb. Grabcut產(chǎn)生的偽標(biāo)簽b. Pseudo label with Grabcutc. 初級偽標(biāo)簽c. Primary pseudo labeld. 最終偽標(biāo)簽d. Final pseudo-label
由于初級偽標(biāo)簽中存在大量無效像素區(qū)域(如圖4c所示),其與真值標(biāo)簽之間仍存在較大精度差距,利用初級偽標(biāo)簽進行訓(xùn)練時,無效像素會影響模型收斂過程。通過觀察,無效像素區(qū)域通常在圖像中是孤立的,而植株區(qū)域的像素都是連通的,因此可以從全局像素間的位置和距離來判斷像素類別。因此,為獲得精度更高的偽標(biāo)簽圖像,本文選用全連接條件隨機場(Dense Condition Random Field,DenseCRF)對初級偽標(biāo)簽進行二次優(yōu)化。
全連接條件隨機場是目前圖像分割中常使用的一種圖像后處理方式,它是條件隨機場(Condition Random Field,CRF)的改進模式,可以結(jié)合原圖像中所有像素之間的關(guān)系對已有分類結(jié)果進行處理,優(yōu)化已有分類中粗糙和不確定的標(biāo)簽,修正細(xì)碎的錯分區(qū)域,得到更精細(xì)的圖像前景邊界。為了更加精準(zhǔn)地生成邊界框標(biāo)注內(nèi)的玉米植株像素信息,本文利用DenseCRF對初級偽標(biāo)簽進行像素級二次優(yōu)化。其中DenseCRF的能量函數(shù)由一元勢函數(shù)和二元勢函數(shù)構(gòu)成,如式(5)所示:
利用DenseCRF對初級偽標(biāo)簽進行優(yōu)化并獲得偽標(biāo)簽,單個邊界框弱標(biāo)簽的圖像結(jié)果如圖4d所示。圖5給出了無人機拍攝的玉米植株圖像上生成初級偽標(biāo)簽和偽標(biāo)簽圖像的效果圖,從圖中可以看出,DenseCRF消除了初始標(biāo)簽圖中植株附近的大量的噪聲點,降低了偽標(biāo)簽與真值圖像的精度差。
a. 原始圖像a. Original imageb.初級偽標(biāo)簽b. Primary pseudo-labelc. 最終偽標(biāo)簽c. Final pseudo-label
由于BM-DCNN是利用弱監(jiān)督標(biāo)簽來產(chǎn)生像素級偽標(biāo)簽,進而代替像素級真值標(biāo)簽完成模型訓(xùn)練,為了驗證偽標(biāo)簽的精度,本研究選取兩種評價指標(biāo),分別是平均交并比,平均余弦相似度。平均交并比(Mean Intersection over Union,mIoU)如式(7)所示:
式中inst表示圖像中全部實例集合,TP()表示第個實例的真正例,F(xiàn)P()表示第個實例的假正例,F(xiàn)N()表示第個實例的假負(fù)例,class表示圖像集中的類別集合,因為本研究中只針對玉米植株進行處理,因此|class|=1。
此外,本研究還利用余弦相似度來驗證偽標(biāo)簽精度,通過比較空間向量中兩個向量夾角的余弦值來衡量個體之間的差異。當(dāng)余弦值越接近于1,代表兩個個體之間的夾角越小,兩個向量之間越相似。假設(shè)向量和是多維向量,那么向量和向量之間夾角的余弦值計算公式如下:
除本文方法外,選取常用的3種偽標(biāo)簽生成方式,利用上述評價標(biāo)準(zhǔn)對不同方法產(chǎn)生的偽標(biāo)簽與真值標(biāo)簽對比,結(jié)果如表1所示,對于大田環(huán)境下苗期玉米植株數(shù)據(jù)集,偽標(biāo)簽與真值標(biāo)簽的平均交并比為81.83%,平均余弦相似度為86.14%,明顯優(yōu)于初級偽標(biāo)簽與真值標(biāo)簽的平均交并比(mIoU=75.33%)和平均余弦相似度(cos()=74.77%),線標(biāo)注產(chǎn)生的偽標(biāo)簽與真值標(biāo)簽的平均交并比(mIoU=70.50%)和平均余弦相似度(cos()=79.69%)以及Grabcut產(chǎn)生的偽標(biāo)簽與真值標(biāo)簽的平均交并比(mIoU=40.49%)和平均余弦相似度(cos()=61.84%)。
表1 偽標(biāo)簽與真值標(biāo)簽對比結(jié)果
圖6分別給出了真值標(biāo)簽(圖6b)、Grabcut偽標(biāo)簽(圖6c)、涂鴉標(biāo)注偽標(biāo)簽(圖6d)和本文方法得到的偽標(biāo)簽(圖6f),其中圖6f已經(jīng)去掉了初級偽標(biāo)簽(圖6e)中大部分的噪聲像素以及Grabcut偽標(biāo)簽和涂鴉標(biāo)注偽標(biāo)簽中的錯誤標(biāo)注區(qū)域。
為了滿足實例分割精度和分割實時性要求,本研究選擇YOLACT(You Only Look At Coefficients)實例分割模型作為BM-DCNN的基礎(chǔ)模型。YOLACT是基于目標(biāo)檢測模型開發(fā)的實例分割模型,模型結(jié)構(gòu)見圖7,在目標(biāo)檢測基礎(chǔ)上增加了掩膜分支,將實例分割過程劃分成兩個并行分支:一是掩膜分割,通過全卷積網(wǎng)絡(luò)[33](Fully Convolutional Networks,F(xiàn)CN)生成與輸入圖像大小一致的原型掩膜(Prototype masks),該分支不依賴于特定實例,單個實例是在檢測結(jié)果上通過剪裁得到的;二是目標(biāo)檢測,針對圖像錨點(Anchor)預(yù)測掩膜系數(shù),來獲取圖像中實例的坐標(biāo)位置,最后通過非極大值抑制(Non-Maximum Suppression,NMS)篩選,將模型的兩個分支利用線性組合來獲得最后的預(yù)測結(jié)果。
a. 原始圖像a. Original imageb. 真值標(biāo)簽b. Ground truth labelsc. Grabcut偽標(biāo)簽c. Grabcut pseudo-label d. 涂鴉標(biāo)注偽標(biāo)簽d. Graffiti labeling pseudo-labele.初級偽標(biāo)簽e. Primary pseudo-labelf. 優(yōu)化后的偽標(biāo)簽f. Optimized pseudo-label
注:ROI Pooling是指感興趣區(qū)域池化,RPN表示區(qū)域生成網(wǎng)絡(luò),Conv表示卷積核。
文獻[27]中使用ResNet101作為整個模型的特征提取網(wǎng)絡(luò),但本試驗使用的數(shù)據(jù)集規(guī)模要遠小于公共數(shù)據(jù)集(如ImageNet、COCO),因此該模型的固有參數(shù)數(shù)量和層數(shù)都容易在小規(guī)模數(shù)據(jù)集上出現(xiàn)過擬合或梯度爆炸問題,因此在試驗中,對YOLACT框架進行改造,分別用ResNet50-FPN和Darknet53作為基礎(chǔ)網(wǎng)絡(luò),替代ResNet101進行特征提取。此外,試驗中使用動量(Momentum)優(yōu)化器來訓(xùn)練和優(yōu)化網(wǎng)絡(luò),具體如式(9)所示:
式中V是指數(shù)加權(quán)平均計算出的速度,是Momentum動量,d是原始梯度,是未訓(xùn)練的網(wǎng)絡(luò)參數(shù),是學(xué)習(xí)率。由于模型學(xué)習(xí)速度與學(xué)習(xí)率有關(guān),將訓(xùn)練的初始學(xué)習(xí)率設(shè)為0.01。此外,在大量的深度學(xué)習(xí)實驗中發(fā)現(xiàn)初始動量為0.9時模型魯棒性較強,因此將初始動量設(shè)置為0.9。由于NVIDA 2080Ti圖形處理器GPU顯存上限為11GB,考慮訓(xùn)練樣本分辨率較高,所以將訓(xùn)練批次尺寸(batch size)設(shè)置為8,在訓(xùn)練過程中,每輪訓(xùn)練步數(shù)為3 000,訓(xùn)練輪數(shù)上限數(shù)為100,每完成一次全樣本迭代后對模型進行階段驗證,同時降低學(xué)習(xí)率,使得模型逐步趨向收斂。經(jīng)過模型微調(diào),動量始終保持在0.9,學(xué)習(xí)率穩(wěn)定在0.000 1,在上述參數(shù)的約束下YOLACT模型能夠快速收斂。
因為樣本數(shù)量有限,即使采用數(shù)據(jù)增強也無法滿足網(wǎng)絡(luò)中多層參數(shù)的充分訓(xùn)練,為了讓網(wǎng)絡(luò)模型能夠更好地實現(xiàn)特征提取,本研究選擇在預(yù)訓(xùn)練好的模型上進行微調(diào)(fine-tuning)的方式來訓(xùn)練BM-DCNN的基礎(chǔ)模型,即基于遷移學(xué)習(xí)(Transfer learning)[34]方法來解決此問題,利用遷移學(xué)習(xí)可以讓模型從不同領(lǐng)域?qū)W習(xí)到的特征應(yīng)用于特定領(lǐng)域。本研究中將在COCO數(shù)據(jù)集上訓(xùn)練的特征提取網(wǎng)絡(luò)參數(shù)遷移到BM-DCNN的主干網(wǎng)絡(luò)中,以提升模型對多種玉米植株圖像的特征敏感度,最終實現(xiàn)玉米植株圖像實例分割。
由于YOLACT模型中的ResNet101作為模型的特征提取網(wǎng)絡(luò)的參數(shù)較多,對于本試驗中的數(shù)據(jù)集規(guī)模容易出現(xiàn)訓(xùn)練不充分的情況,因此試驗更換了特征提取網(wǎng)絡(luò),以適應(yīng)本試驗的數(shù)據(jù)集特點。圖8給出了模型在訓(xùn)練過程中損失函數(shù)的變化情況,可以看出在使用預(yù)訓(xùn)練參數(shù)對基礎(chǔ)模型賦值之后,無論使用ResNet50-FPN還是Darknet53作為基礎(chǔ)網(wǎng)絡(luò),BM-DCNN模型的在訓(xùn)練過程中損失值隨著訓(xùn)練輪數(shù)的增加,都呈現(xiàn)出明顯的下降趨勢。通過對比,ResNet50-FPN和Darknet53兩種模型的模型深度適中,訓(xùn)練時間成本可控,訓(xùn)練過程中的損失函數(shù)值收斂趨勢明顯,因此選擇這兩種網(wǎng)絡(luò)作為模型的特征提取網(wǎng)絡(luò)。
圖8 基于遷移學(xué)習(xí)的BM-DCNN模型在訓(xùn)練中的損失值
基于這兩種模型提取的特征信息,試驗對比了有監(jiān)督模型與弱監(jiān)督模型在測試集上的分割精度(如表2所示)。掩膜對應(yīng)圖像中玉米植株實例分割掩模的平均精確度。其中AP50、AP55、AP60和AP70分別代表分割結(jié)果與真值之間的交并比值大于等于0.5、0.55、0.6和0.7時的平均精度。
由表2可知,用Grabcut偽標(biāo)簽和涂鴉標(biāo)注偽標(biāo)簽代替真值標(biāo)簽訓(xùn)練時,在ResNet50-FPN和Darknet53兩種訓(xùn)練條件下,掩膜的平均精度在AP50、AP55、AP60和AP70遠低于BM-DCNN,這表明本文方法生成的偽標(biāo)簽代替真值標(biāo)簽進行實例分割模型訓(xùn)練的表現(xiàn)遠好于Grabcut偽標(biāo)簽與線標(biāo)注偽標(biāo)簽。ResNet50-FPN和Darknet53在有監(jiān)督訓(xùn)練條件下,掩膜的平均精度差小于1個百分點,其中ResNet50-FPN每項對應(yīng)的分割精度更高。而在BM-DCNN模型訓(xùn)練條件下,兩個模型的掩膜精度,ResNet50-FPN除了在AP50和AP55上略高于Darknet53之外,在AP60和AP70上都低于Darknet53。這表明BM-DCNN模型在使用Darknet53作為特征提取網(wǎng)絡(luò)時,在高IoU條件下計算平均精度時表現(xiàn)得更好。
此外,通過對比模型在有監(jiān)督和弱監(jiān)督條件下的分割精度,發(fā)現(xiàn)BM-DCNN模型與有監(jiān)督模型非常接近,主干網(wǎng)絡(luò)分別為ResNet50-FPN和Darknet53時,BM-DCNN的掩膜AP50值分別達到有監(jiān)督實例分割的91.01%和87.50%。當(dāng)IoU值大于0.7時(AP70),BM-DCNN模型對應(yīng)的實例分割精度甚至高于有監(jiān)督模型。其原因是在人工標(biāo)注過程中,錯誤像素類別的比例與玉米植株形態(tài)復(fù)雜程度成正比,而弱標(biāo)簽產(chǎn)生方式只與圖像顏色、紋理等基本特征有關(guān),因此錯誤像素產(chǎn)生的比例因植株形態(tài)變化而有較大差異,因此在IoU值大于0.7時,兩種特征提取網(wǎng)絡(luò)對應(yīng)的平均像素精度都高于有監(jiān)督模型。
表2 不同標(biāo)注方式實例分割檢測結(jié)果表
注:AP50表示交并比大于0.5時模型的平均像素準(zhǔn)確率(AP55,AP60和AP70同理)。
Note: AP50 is the average pixel accuracy of models when the intersection of union ratio is greater than 0.5. (AP55, AP60 and AP70 are the same)
圖9給出了BM-DCNN模型與有監(jiān)督實例分割模型在測試集上的效果對比,從圖中可以看出,兩種模型在對無人機拍攝的玉米苗期圖像上進行玉米植株實例分割的效果非常接近,對于單株或者重疊較少的植株都能夠準(zhǔn)確區(qū)分,而且對于陰影部分也能統(tǒng)一歸為背景,而不會誤分割成玉米植株。
圖9 有監(jiān)督模型與弱監(jiān)督模型的實例分割效果對比
此外,本試驗還計算了有監(jiān)督實例分割模型和BM-DCNN模型的在測試集中平均準(zhǔn)確率(Mean accuracy),如表3所示,在使用ResNet50-FPN作為特征提取網(wǎng)絡(luò)時,有監(jiān)督實例分割模型和BM-DCNN實例分割的平均準(zhǔn)確率分別為67.95%和67.57%,BM-DCNN實例分割的平均準(zhǔn)確率可以達到有監(jiān)督實例分割的99.44%。在使用Darknet53作為特征提取網(wǎng)絡(luò)時,有監(jiān)督實例分割模型和BM-DCNN實例分割的平均準(zhǔn)確率分別為78.52%和75.37%,BM-DCNN實例分割的平均準(zhǔn)確率可以達到有監(jiān)督實例分割的95.99%。這表明BM-DCNN實例分割的結(jié)果與有監(jiān)督實例分割結(jié)果十分接近。
表3 實例分割平均準(zhǔn)確率結(jié)果表
為進一步驗證本文算法的實例分割效果,又利用真值標(biāo)簽和本文偽標(biāo)簽分別對MASK R-CNN、Deep Snake、SOLOv2進行訓(xùn)練,用訓(xùn)練好的模型驗證苗期玉米的實例分割效果。從表4可以看出,對無人機尺度下大田環(huán)境玉米圖片進行人工標(biāo)注,平均每張圖片的像素級標(biāo)注成本是32.4 min/張,涂鴉標(biāo)注成本是15.8 min/張,邊界框標(biāo)注成本是2.5 min/張,獲得真值標(biāo)簽的人工標(biāo)注成本是本文偽標(biāo)簽的13倍,獲得涂鴉標(biāo)注偽標(biāo)簽的時間成本是本文偽標(biāo)簽的6倍。
表4 不同標(biāo)注方式人工成本
從表5可以看出,不同實例分割模型使用真值標(biāo)簽和本文偽標(biāo)簽實例分割檢測速度差在1幀/s左右,實例分割結(jié)果平均準(zhǔn)確率差在3個百分點左右,使用本文偽標(biāo)簽進行弱監(jiān)督實例分割精度可以達到全監(jiān)督實例分割精度的96%以上,這表明使用本文偽標(biāo)簽來代替真值標(biāo)簽對大田環(huán)境下苗期玉米圖像進行實例分割是可行的,且本文方法生成的偽標(biāo)簽可以極大減少人工標(biāo)注成本。
表5 不同實例分割模型分割數(shù)據(jù)對比表
本研究以大田玉米苗期植株為研究對象,提出一種基于弱監(jiān)督學(xué)習(xí)的玉米苗期植株圖像實例分割模型BM-DCNN,利用邊界框形式的弱標(biāo)簽產(chǎn)生像素級偽標(biāo)簽作為訓(xùn)練樣本,在YOLACT網(wǎng)絡(luò)框架下分別使用ResNet5-FPN和Darknet53替代原基礎(chǔ)網(wǎng)絡(luò)并根據(jù)任務(wù)類型和數(shù)據(jù)規(guī)模調(diào)整了網(wǎng)絡(luò),最終得到以下結(jié)論:
1)針對苗期玉米植株圖像像素級標(biāo)簽的時間成本問題,本文基于邊界框(Bounding box)提出了一種弱標(biāo)簽生成方法,在邊界框范圍內(nèi)生成像素級偽標(biāo)簽,通過改變顏色空間并使用全連接條件隨機場提高偽標(biāo)簽的精度,降低了圖像中影子與噪聲對標(biāo)簽的影響,經(jīng)驗證偽標(biāo)簽人工標(biāo)注成本為2.5 min/張,真值標(biāo)簽人工標(biāo)注成本為32.4 min/張,極大程度減少人工標(biāo)注成本,偽標(biāo)簽與真值標(biāo)簽的平均交并比可以達到81.83%,平均余弦相似度可以達到86.14%,考慮到真值標(biāo)簽在植株細(xì)節(jié)處理方面存在認(rèn)為誤差,這個精度下的偽標(biāo)簽可以用于網(wǎng)絡(luò)訓(xùn)練。
2)以偽標(biāo)簽代替像素級真值標(biāo)簽進行網(wǎng)絡(luò)訓(xùn)練,同時分別選擇ResNet50-FPN和Darknet53作為BM-DCNN模型的特征提取網(wǎng)絡(luò)當(dāng)特征提取網(wǎng)絡(luò)。試驗中發(fā)現(xiàn)兩種網(wǎng)絡(luò)對于模型實現(xiàn)高精度的弱監(jiān)督實例分割都提供了較好的特征支持。當(dāng)主干網(wǎng)絡(luò)為ResNet50-FPN時,BM-DCNN的掩膜的AP50值達到有監(jiān)督實例分割的91.01%,當(dāng)主干網(wǎng)絡(luò)為Darknet53時,BM-DCNN的掩膜的AP50值達到有監(jiān)督實例分割的87.50%。
3)在計算AP70值時,BM-DCNN的掩膜精度超過了有監(jiān)督模型,這表明在對平均交并比做更嚴(yán)格的限制時,弱監(jiān)督學(xué)習(xí)在分割精度上要優(yōu)于有監(jiān)督模型,是由于植物性狀結(jié)構(gòu)復(fù)雜而導(dǎo)致的人工標(biāo)注不精細(xì)導(dǎo)致的,BM-DCNN的偽標(biāo)簽產(chǎn)生過程會克服該問題,提升像素級標(biāo)簽在植株邊緣的分割精度。
4)對比有監(jiān)督實例分割模型和BM-DCNN在測試集上的平均準(zhǔn)確率,使用ResNet50-FPN作為特征提取網(wǎng)絡(luò)時,BM-DCNN實例分割的平均準(zhǔn)確率可以達到有監(jiān)督實例分割的99.44%。使用Darknet53作為特征提取網(wǎng)絡(luò)時,BM-DCNN實例分割的平均準(zhǔn)確率可以達到有監(jiān)督實例分割的95.99%。這表明BM-DCNN實例分割的結(jié)果與有監(jiān)督實例分割結(jié)果十分接近。
5)不同實例分割模型分別使用真值標(biāo)簽和本文偽標(biāo)簽訓(xùn)練,實例分割檢測速度差在1幀/s左右,測試集的實例分割結(jié)果平均準(zhǔn)確率差在3個百分點左右。
由此可見,針對玉米苗期植株圖像(頂視圖)的實例分割任務(wù),BM-DCNN的實例分割效果幾乎可以達到同等條件下有監(jiān)督實例分割模型的分割效果。由此可見,在無人機大面積作業(yè)場景下,利用圖像的邊界框標(biāo)簽來代替像素級真值標(biāo)簽來完成深度學(xué)習(xí)模型的訓(xùn)練是具備可行性的,這大幅度降低了樣本人工標(biāo)注的時間成本,為快速實現(xiàn)玉米苗期植株數(shù)量統(tǒng)計和冠層覆蓋度計算等應(yīng)用場景提供理論方法支撐。
[1] 蘇麗,孫雨鑫,苑守正. 基于深度學(xué)習(xí)的實例分割研究綜述[J]. 智能系統(tǒng)學(xué)報,2022,17(1):16-31.
Su Li, Sun Yuxin, Yuan Shouzheng. A survey of instance segmentation research based on deep learning[J]. CAAI Transactions on Intelligent Systems, 2022, 17(1): 16-31. (in Chinese with English abstract)
[2] 鄧穎,吳華瑞,朱華吉. 基于實例分割的柑橘花朵識別及花量統(tǒng)計[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(7):200-207.
Deng Ying, Wu Huarui, Zhu Huaji. Recognition and counting of citrus flowers based on instance segmentation[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(7): 200-207. (in Chinese with English abstract)
[3] 宋杰,肖亮,練智超,等. 基于深度學(xué)習(xí)的數(shù)字病理圖像分割綜述與展望[J]. 軟件學(xué)報,2021,32(5):1427-1460.
Song Jie, Xiao Liang, Lian Zhichao, et al. Overview and prospect of deep learning for image segmentation in digital pathology[J]. Journal of Software, 2021, 32(5): 1427-1460. (in Chinese with English abstract)
[4] 岑海燕,朱月明,孫大偉,等. 深度學(xué)習(xí)在植物表型研究中的應(yīng)用現(xiàn)狀與展望[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(9):1-16.
Cen Haiyan, Zhu Yueming, Sun Dawei, et al. Current status and future perspective of the application of deep learning in plant phenotype research[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(9): 1-16. (in Chinese with English abstract)
[5] 王春穎,泮瑋婷,李祥,等. 基于ST-LSTM的植物生長發(fā)育預(yù)測模型[J]. 農(nóng)業(yè)機械學(xué)報,2022,53(6):250-258.
Wang Chunying, Pan Weiting, Li Xiang, et al. Plant growth and development prediction model based on ST-LSTM[J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(6): 250-258. (in Chinese with English abstract)
[6] 鄧寒冰,許童羽,周云成,等基于深度掩碼的玉米植株圖像分割模型[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(18):109-120.
Deng Hanbing, Xu Tongyu, Zhou Yuncheng, et al. Segmentation model for maize plant images based on depth mask[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 109-120. (in Chinese with English abstract)
[7] Hati A J, Singh R R. Artificial intelligence in smart farms: Plant phenotyping for species recognition and health condition identification using deep learning[J]. Artificial Intelligence, 2021, 2(2): 274-289.
[8] Amy B, Olga R, Vittorio F, et al. What’s the point: Semantic segmentation with point supervision[C]// European Conference on Computer Vision, Amsterdam: IEEE, 2016.
[9] Remez T, Huang J, Brown M. Learning to segment via cut-and-paste[C]// IEEE International Conference on Computer Vision, Venice: IEEE, 2017.
[10] Li Qizhu, Arnab A, Torr P. Weakly-and semisupervised panoptic segmentation[C]// European Conference on Computer Vision, Munich: IEEE, 2018.
[11] Jaedong H, Seohyun K, Jeany S, et al. Weakly supervised instance segmentation by deep community learning[C]// IEEE Winter Conference on Applications of Computer Vision, Waikoloa: IEEE, 2021.
[12] Lin D, Dai J, Jia J, et al. ScribbleSup: Scribble-Supervised convolutional networks for semantic segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016.
[13] ?zgün ?, Abdulkadir A, Lienkamp S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention, Athens: MICCAI, 2016.
[14] Jiwoon A, Sunghyun C, Suha K. Weakly supervised learning of instance segmentation with inter-pixel relations[C]// IEEE Conference on Computer Vision and Pattern Recognition, Long Beach: IEEE, 2019.
[15] Jiwoon A, Suha K. Learning pixel-level semantic affinity with image-level supervision for weakly supervised semantic segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City: IEEE, 2018.
[16] Jungbeom L, Eunji K, Sungmin L, et al. Ficklenet: Weakly and semi-supervised semantic image segmentation using stochastic inference[C]// IEEE Conference on Computer Vision and Pattern Recognition, Long Beach: IEEE, 2019.
[17] Miriam B, Amaia S Jordi T, et al. Budget-aware semi-supervised semantic and instance segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition, Long Beach: IEEE, 2019.
[18] Viveka K, Siddhartha C, Amit A, et al. Box2seg: Attention weighted loss and discriminative feature learning for weakly supervised segmentation[C]// European Conference on Computer Vision, Edinburgh: IEEE, 2020.
[19] Aditya A, Jawahar C, Pawan K. Weakly supervised instance segmentation by learning annotation consistent instances[C]// European Conference on Computer Vision, Edinburgh: IEEE, 2020.
[20] Liao S, Sun Y, Gao C, et al. Weakly supervised instance segmentation using hybrid networks[C]// International Conference on Acoustics, Speech and Signal Processing, Brighton: IEEE, 2019.
[21] Sun Y, Liao S, Gao C, et al. Weakly supervised instance segmentation based on two-stage transfer learning[J]. IEEE Access, 2020, 8: 24135-24144.
[22] Lafferty J, Mccallum A , Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//International Conference on Machine Learning, Berkshires: IMLS, 2001.
[23] Carsten R, Vladimir K, Andrew B. GrabCut: Interactive foreground extraction using iterated graph cuts[J]. Proceedings of Siggraph, 2004, 23(3): 309-314.
[24] Pont-Tuset J, Arbelaez P, Barron J, et al. Multiscale combinatorial grouping for image segmentation and object proposal generation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(1): 128-140.
[25] Papandreou G, Chen L C, Murphy K, et al. Weakly- and semi-supervised learning of a DCNN for semantic image segmentation[C]// IEEE International Conference on Computer Vision, Santiago: IEEE, 2015.
[26] Rajchl M, Lee M, Oktay O, et al. DeepCut: Object segmentation from bounding box annotations using convolutional neural networks[J]. IEEE Transactions on Medical Imaging, 2016, 36(2): 674-683.
[27] Khoreva A, Benenson R, Hosang J, et al. Simple does it: Weakly supervised instance and semantic segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: IEEE, 2017.
[28] Hsu C, Hsu K, Tsai C, et al. Weakly supervised instance segmentation using the bounding box tightness prior[C]// Conference and Workshop on Neural Information Processing Systems, Vancouver: NIPS, 2019.
[29] Tian Z, Shen C, Wang X, et al. BoxInst: High-performance instance segmentation with box annotations[C]//IEEE Conference on Computer Vision and Pattern Recognition, Montreal: IEEE, 2021.
[30] Dai J, He K, Sun J. Boxsup: Exploiting bounding boxes to supervise convolutional networks for semantic segmentation[C]// IEEE International Conference on Computer Vision, Santiago: IEEE, 2015.
[31] Song C, Huang Y, Ouyang W, et al. Box-driven class-wise region masking and filling rate guided loss for weakly supervised semantic segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition, Long Beach: IEEE, 2019.
[32] Bolya D, Zhou C, Xiao F, et al. YOLACT:Real-time instance segmentation[C]// IEEE International Conference on Computer Vision, Seoul: IEEE, 2019.
[33] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016.
[34] Pan S, Yang Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
Instance segmentation method of seedling maize plant images based on weak supervised learning
Zhao Yanan1, Deng Hanbing1,2※, Liu Ting1, Zhao Lulu1, Zhao Kai1, Yang Jing1, Zhang Yufeng1
(1.110866;2.110866)
Deep learning has gradually been one of the most important technologies in the field of agriculture in recent years. However, the problems of labeling quality and cost of training samples for supervised deep learning have become the bottleneck of restricting the development of technology. In order to reduce the cost of deep model training and ensure that the model can have high image segmentation accuracy, in this study, a model named Bounding-box Mask Deep Convolutional Neural Network (BM-DCNN) was proposed to realize automatic training and segmentation for maize plant. First of all, using DJI’s Genie 4-RTK drone to collect top images of maize seedlings. The flight uses an automatic take-off planned route, and the entire route covers the entire test field. Second of all, using the open source labeling tool called Labelme to label top images of maize seedlings. The top images of the original maize seedling plants need to be labeled twice. In this study, we used bounding boxes as the basic shapes for weakly supervised labels, and pixels within the bounding boxes area were marked as foreground(i.e. the possible effective pixels of a maize plant). Pixels outside the bounding boxes were marked as background. Finally, the information of bounding boxes was used to generate primary pseudo-labels on the images, and the RGB color model of the images was converted to the HSV(Hue-Saturation-Value) color model, and the full connection condition random field(DenceCRF) was used to eliminate the influence of plant shadow and the image noise on the pseudo-labels accuracy in the images. The pseudo-labels were trained on the optimized YoLact model instead of the ground truth labels. The optimized model can be used for the instance segmentation of the plants at the maize seedling stage. We designed an experiment for verification and testing of BM-DCNN. By comparing the similarity between pseudo-labels mask and ground truth, it found that the mean intersection over union (mIoU) was 81.83% and mean cosine similarity (mcos(ɑ)) was 86.14%, which was higher than the accuracy of pseudo-labels generated by Grabcut(the mIoU was 40.49% and mean cosine similarity was 61.84%). For the maize seedling image (top view), the time cost of three manual annotation methods was calculated, with bounding box labels of 2.5 min/sheet, scirbbles labels of 15.8 min/sheet, and pixel-level labels of 32.4 min/sheet. Considering that the ground truth labels had an error in the handing of maize plant details, the pseudo-labels at the accuracy can be used for deep convolutional neural network training. By comparing the accuracy of instance segmentation between BM-DCNN and fully supervised instance segmentation model, when the IoU value of the BM-DCNN was greater than 0.7(AP70), the instance segmentation accuracy corresponding to the BM-DCNN model was higher than that of the supervised model. The average accuracy of the two backbone networks of the BM-DCNN model were 67.57% and 75.37%, respectively, which were close to the supervised instance segmentation results under the same conditions (67.95% and 78.52%, respectively), and the higher average accuracy can reach 99.44% of the supervised segmentation results. Therefore, For the instance segmentation task of the maize seedling plants images(top view), the instance segmentation effect of BM-DCNN can almost achieve the segmentation effect of the supervised instance segmentation model under the same conditions. It can be seen that in the large-area operation scenario of the UAV, it was feasible to use the bounding box labels of the images to replace the ground truth labels to complete the training of deep learning model, which greatly reduced the time cost of manual labeling of the samples, and provided theoretical support for the rapid realization of the application scenarios, such as the number of plants at the seedling stage of maize and the calculation of canopy coverage.
instance segmentation; deep learning; weak supervised learning; maize; plant phenotype
10.11975/j.issn.1002-6819.2022.19.016
S823.92; TP391.41
A
1002-6819(2022)-19-0143-10
趙亞楠,鄧寒冰,劉婷,等. 基于弱監(jiān)督學(xué)習(xí)的玉米苗期植株圖像實例分割方法[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(19):143-152.doi:10.11975/j.issn.1002-6819.2022.19.016 http://www.tcsae.org
Zhao Yanan, Deng Hanbing, Liu Ting, et al. Instance segmentation method of seedling maize plant images based on weak supervised learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(19): 143-152. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.19.016 http://www.tcsae.org
2022-06-28
2022-09-28
國家自然科學(xué)基金項目(31601218,31901399);遼寧省教育廳科學(xué)研究經(jīng)費項目(LSNQN202022,LSNJC202004);遼寧省創(chuàng)新能力提升聯(lián)合基金項目(2021-NLTS-11-03)
趙亞楠,研究方向為機器學(xué)習(xí)與模式識別。Email:zynzhaoyanan@163.com
鄧寒冰,博士,副教授,研究方向為機器學(xué)習(xí)與模式識別、計算機視覺、作物表型信息獲取與分析。Email:denghanbing@syau.edu.cn