趙凱旋 李國(guó)強(qiáng) 何東健
(西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院, 楊凌 712100)
基于機(jī)器學(xué)習(xí)的奶牛深度圖像身體區(qū)域精細(xì)分割方法
趙凱旋 李國(guó)強(qiáng) 何東健
(西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院, 楊凌 712100)
奶牛目標(biāo)各區(qū)域的精細(xì)分割和識(shí)別能夠提供精確的奶牛形體細(xì)節(jié)信息,是奶牛體形評(píng)價(jià)、姿態(tài)檢測(cè)、行為分析和理解的前提和基礎(chǔ)。為實(shí)現(xiàn)深度圖像中奶牛頭、頸、軀干和四肢等身體區(qū)域的精確分割,提出一種基于深度圖像特征和機(jī)器學(xué)習(xí)的奶牛目標(biāo)各區(qū)域精細(xì)分割方法。該方法以每個(gè)像素點(diǎn)在不同采樣半徑下的帶閾值LBP序列為深度特征值,設(shè)置分類約束條件,用決策樹(shù)森林機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)奶牛各區(qū)域的精細(xì)分類。對(duì)10頭奶牛的288幅側(cè)視深度圖像進(jìn)行試驗(yàn),結(jié)果表明,當(dāng)采樣半徑分段數(shù)為30,決策樹(shù)訓(xùn)練至20層時(shí),奶牛整體各像素點(diǎn)的平均識(shí)別率為95.15%,較傳統(tǒng)深度圖像特征值有更強(qiáng)的細(xì)節(jié)信息提取能力,可以用較少參數(shù)實(shí)現(xiàn)對(duì)復(fù)雜結(jié)構(gòu)的精確識(shí)別。
奶牛; 目標(biāo)檢測(cè); 肢干分割; 深度圖像; 機(jī)器學(xué)習(xí)
視頻分析技術(shù)能夠?qū)?dòng)物的行為進(jìn)行自動(dòng)監(jiān)測(cè)和理解,是提高養(yǎng)殖管理智能化水平的重要手段[1],已越來(lái)越多地應(yīng)用于奶牛智能化養(yǎng)殖[2-4]。近年來(lái),奶牛疫病檢測(cè)[5-7]、身體評(píng)分[8-9]、行為信息智能獲取[10-13]等受到了研究人員的廣泛關(guān)注。奶牛目標(biāo)捕捉是行為理解、智能監(jiān)控等領(lǐng)域的技術(shù)基礎(chǔ)和前提[14]。然而受環(huán)境背景、光照變化等因素的影響[15-16],目標(biāo)檢測(cè)仍是一個(gè)具有挑戰(zhàn)性的課題[17]。近年來(lái)發(fā)展的深度圖像為實(shí)現(xiàn)奶牛目標(biāo)跟蹤與分割提供了新的思路和方法。微軟公司發(fā)布的基于結(jié)構(gòu)光技術(shù)的多傳感器3D圖像采集設(shè)備Kinect,能夠同時(shí)獲取目標(biāo)像素點(diǎn)RGBD數(shù)據(jù)。由于其具有成本低、精度高、布設(shè)方便等優(yōu)點(diǎn),已在奶牛姿態(tài)檢測(cè)和識(shí)別等相關(guān)研究中應(yīng)用[18]。
用深度圖像進(jìn)行姿態(tài)檢測(cè)和識(shí)別時(shí),首先需要分割頭部、頸、軀干、四肢等區(qū)域,然后觀測(cè)頭部和四肢的動(dòng)作,并對(duì)前后肢進(jìn)行更細(xì)致的分析以識(shí)別姿態(tài)和行為。此外,奶牛身體區(qū)域的精細(xì)分割能夠提高奶牛體形評(píng)價(jià)的自動(dòng)化程度和精度。因此,需要一個(gè)魯棒性強(qiáng)的奶牛肢干分割算法以區(qū)分奶牛身體各部分區(qū)域。目前針對(duì)奶牛的目標(biāo)檢測(cè)方法只能將視頻圖像中的奶牛作為一個(gè)整體進(jìn)行分割[17],奶牛身體區(qū)域的精細(xì)識(shí)別未見(jiàn)報(bào)道。人體區(qū)域精細(xì)分割的相關(guān)研究為解決這一問(wèn)題提供了思路。SHOTTON等[19]提出一種基于深度圖像的人體肢干檢測(cè)方法,該方法用預(yù)設(shè)的像素點(diǎn)深度值約束算子訓(xùn)練隨機(jī)森林,然后預(yù)測(cè)未知像素點(diǎn)所屬的身體區(qū)域,最后用mean shift方法估計(jì)人體關(guān)節(jié)并繪制骨架。ANTONIO等[20]對(duì)上述方法進(jìn)行了補(bǔ)充,使用圖割理論(Graph-cuts theory)對(duì)隨機(jī)森林算法得到的肢干分類結(jié)果進(jìn)行了優(yōu)化,且將時(shí)間和空間上鄰近數(shù)據(jù)點(diǎn)的深度值用于確定目標(biāo)邊界。
上述2種算法中均使用同一種深度圖像特征進(jìn)行像素點(diǎn)識(shí)別,圖像特征值原理簡(jiǎn)單易于實(shí)現(xiàn),但每個(gè)特征值均包含4個(gè)未知量,每個(gè)像素點(diǎn)均需要多組偏置量進(jìn)行約束性檢測(cè),因此導(dǎo)致分類器中可變參數(shù)較多、訓(xùn)練收斂速度慢。且該特征不具備旋轉(zhuǎn)不變性,為得到較好的識(shí)別效果,需要大量不同姿態(tài)人體圖像對(duì)模型進(jìn)行訓(xùn)練。
為降低奶牛肢干分割與識(shí)別過(guò)程中模型訓(xùn)練的難度并提高識(shí)別精度,本文提出一種基于局部二值模式(Local binary patterns,LBP)原理的深度圖像特征,該特征使用深度歸一化后的帶閾值LBP序列,具有深度圖像目標(biāo)細(xì)節(jié)信息提取能力。首先計(jì)算每個(gè)像素點(diǎn)在不同采樣半徑下的統(tǒng)一LBP序列值,并以此作為分類條件,用決策樹(shù)森林方法實(shí)現(xiàn)奶牛肢干的精細(xì)分類。
1.1 深度圖像采集
2015年8月在陜西楊凌科元克隆股份有限公司奶牛養(yǎng)殖場(chǎng),以荷斯坦奶牛為對(duì)象獲取試驗(yàn)圖像。奶牛擠奶結(jié)束后經(jīng)過(guò)窄道行走至飲水池飲水,窄道兩側(cè)有高度為1.4 m的欄桿,奶牛、攝像機(jī)與圍欄的相對(duì)位置如圖1所示。在窄道一側(cè)欄桿處布設(shè)Kinect V2體感器(Microsoft, 美國(guó)),Kinect V2安裝于三角架上,傳感器中心距離地面1.45 m,且深度圖像傳感器與奶牛行走方向平行。沿窄道邊放置高度為0.1 m的長(zhǎng)條形導(dǎo)向阻擋物,以保證奶牛行走至視野中心時(shí)與攝像機(jī)的距離約為2.5 m。由于奶牛從擠奶室行走至飲水池過(guò)程中已形成直線行走的習(xí)性,因此奶牛通過(guò)視野時(shí)始終與攝像機(jī)平行。阻擋物對(duì)后續(xù)圖像分析與處理的影響可忽略不計(jì)。
圖1 試驗(yàn)設(shè)置與攝像機(jī)位置示意圖Fig.1 Sketch of experiment setup and location of video camera
在室外晴天20:00—20:30時(shí)段對(duì)奶牛進(jìn)行拍攝。通過(guò)便捷式計(jì)算機(jī)用Microsoft公司提供的Kinect Studio v2.0軟件控制Kinect攝像機(jī)錄制深度數(shù)據(jù)。奶牛個(gè)體全部出現(xiàn)在視頻左側(cè)時(shí)開(kāi)始采集,持續(xù)采集到奶牛行走至視野右側(cè)邊緣。采集得到的碼流數(shù)據(jù)保存在計(jì)算機(jī)硬盤內(nèi),該數(shù)據(jù)流文件中包含了每幀中顏色、深度、紅外圖像等信息。視頻幀率為20 幀/s,深度圖像分辨率為512像素(水平)×424像素(垂直)。
數(shù)據(jù)處理計(jì)算機(jī)處理器為Intel Core I5-2400,主頻為3.2 GHz,8 GB內(nèi)存,500 GB硬盤。首先在Visual Studio 2012平臺(tái)上將Kinect采集的數(shù)據(jù)流解析成深度數(shù)據(jù)文件并保存在硬盤中,然后用Matlab 2012a讀取數(shù)據(jù)文件并進(jìn)行后續(xù)算法的開(kāi)發(fā)。
1.2 供試數(shù)據(jù)
對(duì)不同體形的奶牛,拍攝其在直線行走過(guò)程中的深度圖像,奶牛經(jīng)過(guò)通道耗時(shí)2 s左右。由于幀率為20 幀/s,每頭奶牛通過(guò)視野過(guò)程中將產(chǎn)生約40幅圖像。拍攝持續(xù)7 d,挑選出無(wú)異常行為并連續(xù)行走的10頭奶牛,剔除奶牛進(jìn)入和離開(kāi)視野時(shí)不完整的圖像,最終共得到奶牛側(cè)視深度圖像288幅,平均每頭奶牛約30幅。10頭奶牛中高大體形有2頭、中等體形5頭和矮小體形3頭;嚴(yán)重跛行1頭,中等跛行3頭,正常行走6頭。奶牛橫穿攝像機(jī)視野的過(guò)程中,奶牛在圖像中所處的位置以及四肢相對(duì)位置均不斷發(fā)生變化。因此采集的數(shù)據(jù)對(duì)于奶牛體形、姿態(tài)和在圖像中的位置均具有一定的多樣性。
深度圖像中奶牛與攝像機(jī)的距離固定為2.5 m左右,且攝像機(jī)與目標(biāo)之間無(wú)前景遮擋。因此使用深度閾值分割出奶牛整體目標(biāo)。然后參照奶牛肢體分類方法手工將288幅圖像中的奶牛標(biāo)識(shí)為頭、頸、前肢(包括左前肢和右前肢)、后肢(包括左后肢和右后肢)、尾巴、軀干等區(qū)域,從中隨機(jī)選取150幅作為訓(xùn)練集樣本,其余圖像作為測(cè)試集樣本。
1.3 傳統(tǒng)的深度圖像特征
傳統(tǒng)方法中,用被檢測(cè)像素點(diǎn)2個(gè)偏移位置的深度差值作為該像素點(diǎn)的特征值[19-20],其計(jì)算公式為
(1)
式中dI(x)——圖像I中像素點(diǎn)x處的深度u、v——2個(gè)相對(duì)于x的偏置向量φ——u和v的一組值
圖2為2個(gè)特征在不同像素點(diǎn)上的檢測(cè)原理。圖中特征值fφ1向上檢測(cè)該像素點(diǎn)與鄰近點(diǎn)的關(guān)系。假設(shè)背景點(diǎn)的深度為+∞,由于偏移點(diǎn)分別在目標(biāo)和背景上,則fφ1的值為+∞。fφ2能夠檢測(cè)出類似于四肢的細(xì)長(zhǎng)形結(jié)構(gòu),對(duì)于圖中檢測(cè)薄片結(jié)構(gòu)的fφ2特征值,2個(gè)偏移點(diǎn)均落到背景上,因此fφ2的值為零。但對(duì)于同一特征值,當(dāng)奶牛肢體發(fā)生旋轉(zhuǎn)時(shí),其值將發(fā)生變化,因此傳統(tǒng)的深度圖像特征值不具備旋轉(zhuǎn)不變性。此外,傳統(tǒng)方法中u、v值的選取具有很強(qiáng)的盲目性,通常使用隨時(shí)數(shù)生成其取值空間里的可能值,然后對(duì)其進(jìn)行檢視和篩選,以確定有效的u、v,選取過(guò)程耗時(shí)耗力。
圖2 傳統(tǒng)深度圖像特征值的檢測(cè)原理Fig.2 Detection principle of original depth image features
由式(1)可知,該深度圖像特征值包含2個(gè)偏置向量共4個(gè)變量,用以計(jì)算目標(biāo)像素點(diǎn)鄰近的2個(gè)點(diǎn)的深度差值,以評(píng)估目標(biāo)像素點(diǎn)所在的身體區(qū)域。結(jié)合式(1)和圖2可知,傳統(tǒng)的圖像特征值只能提供目標(biāo)區(qū)域的微弱信息,對(duì)分類器的性能要求較高,且需要大量訓(xùn)練數(shù)據(jù)以覆蓋各結(jié)構(gòu)的不同旋轉(zhuǎn)角度,模型訓(xùn)練成本較高,難以保證精度。
1.4 基于LBP的深度圖像特征
考慮到式(1)中傳統(tǒng)深度圖像特征值不具備旋轉(zhuǎn)不變性,且采樣精度難以實(shí)現(xiàn)細(xì)小結(jié)構(gòu)的識(shí)別,為更有效地提取深度圖像中的像素點(diǎn)信息,本文提出使用基于LBP原理的深度圖像局部二值模式(Deep image LBP,DILBP)。LBP是一種典型的紋理特征值,其衡量了某一點(diǎn)鄰近區(qū)域內(nèi)灰度值跳變的模式[16],原始的LBP算子定義為:在采樣半徑p×p的窗口內(nèi),以窗口中心像素為閾值,將相鄰的2p個(gè)像素的灰度與其進(jìn)行比較,若周圍像素值大于中心像素值,則該像素點(diǎn)的位置被標(biāo)記為1,否則為0。
本文對(duì)原始LBP中的判定原則加以改進(jìn)以提高LBP對(duì)幾何結(jié)構(gòu)的敏感性,同時(shí)對(duì)采樣半徑進(jìn)行深度歸一化處理,使其具有深度不變性。改進(jìn)后的DILBP為
(2)
式中DP,R——深度圖像局部二值模式(DILBP)P——采樣點(diǎn)數(shù)R——采樣半徑dp——第p個(gè)采樣點(diǎn)的深度dc——中心點(diǎn)的深度s——判定函數(shù)
由于攝像機(jī)成像平面與奶牛側(cè)身基本平行,因此在深度圖像中屬于奶牛同一身體區(qū)域像素點(diǎn)的深度差異較小,而目標(biāo)與背景之間的差值較大。故本文用帶閾值的判定函數(shù),以判定采樣點(diǎn)與中心點(diǎn)是否同屬于奶牛身體區(qū)域。
(3)
式中T——同一身體區(qū)域內(nèi)的深度差異度閾值
本文使用統(tǒng)一的LBP模式,因此特征值計(jì)算結(jié)果為58個(gè)固定的模式之一[21]。DILBP模式中的采樣半徑為
(4)
式中Rt——真實(shí)空間內(nèi)的采樣半徑
真實(shí)空間內(nèi)的半徑Rt乘以1/dI(x)以確保圖像特征具有深度不變性,能夠消除目標(biāo)與攝像機(jī)之間距離對(duì)檢測(cè)結(jié)果的影響。本文DILBP序列中的1和0分別表示該采樣點(diǎn)與中心點(diǎn)是否屬于同一肢干。如圖3所示,對(duì)于某一肢干,其內(nèi)部的像素點(diǎn)在特定的采樣半徑R下,計(jì)算得到的DILBP序列基本相同。然而不同肢干之間,其特定的采樣半徑和DILBP序列均不同。因此,多個(gè)采樣半徑下的DILBP序列值,能夠?qū)⒉煌眢w區(qū)域內(nèi)的像素點(diǎn)進(jìn)行分類。
圖3 基于DILBP模式的深度圖像特征檢測(cè)原理Fig.3 Detection principle of depth image features based on DILBP
由圖3可知,當(dāng)被檢測(cè)的四肢發(fā)生旋轉(zhuǎn)時(shí),特定的采樣點(diǎn)總是落在肢干區(qū)域內(nèi),由于統(tǒng)一的LBP模式計(jì)算LBP序列內(nèi)0和1的跳變次數(shù),因此本文提出的基于LBP的深度圖像特征值繼承了LBP的旋轉(zhuǎn)不變性。
傳統(tǒng)的深度圖像特征使用4個(gè)參數(shù)檢測(cè)目標(biāo)點(diǎn)與鄰近2個(gè)偏置點(diǎn)的位置關(guān)系。而本文提出的DILBP圖像特征僅通過(guò)一個(gè)參數(shù)即可對(duì)目標(biāo)點(diǎn)周圍的8個(gè)點(diǎn)進(jìn)行檢測(cè),且檢測(cè)結(jié)果為固定的58個(gè)模式值,降低了參數(shù)值的選取難度。
1.5 隨機(jī)決策森林
隨機(jī)決策森林是一種經(jīng)典的機(jī)器學(xué)習(xí)方法??紤]到奶牛目標(biāo)肢干分割屬于先驗(yàn)的模式識(shí)別問(wèn)題,因此用DILBP特征構(gòu)建隨機(jī)決策森林。對(duì)于給定的帶分類標(biāo)簽的奶牛目標(biāo)深度圖像,決策樹(shù)的構(gòu)建過(guò)程如下[20]:
(1)決策樹(shù)中第i個(gè)分支節(jié)點(diǎn)包含一組判定參數(shù)Ri和Li,其值為各自取值空間內(nèi)的隨機(jī)數(shù)。決策樹(shù)訓(xùn)練完成后,每個(gè)分支節(jié)點(diǎn)參數(shù)的R和L將取得最優(yōu)值,能夠?qū)⒘魅朐摴?jié)點(diǎn)的樣本點(diǎn)劃分成2組,且分類前后的熵增益最大。
(2)設(shè)Q為訓(xùn)練圖像數(shù)據(jù)集中所有參與訓(xùn)練樣的像素點(diǎn)的集合,Q對(duì)于分類標(biāo)簽c的概率分布計(jì)算公式為
(5)
式中hQ(c)——集合Q相對(duì)于標(biāo)簽c的直方圖 |Q|——集合Q中元素的個(gè)數(shù)PQ——集合Q的概率分布函數(shù)C——Q中的標(biāo)簽集合
(3)對(duì)于第i個(gè)未被處理的節(jié)點(diǎn),若該節(jié)點(diǎn)內(nèi)的樣本點(diǎn)屬于同一類,說(shuō)明該節(jié)點(diǎn)是葉子節(jié)點(diǎn),直接跳過(guò)處理;否則該節(jié)點(diǎn)為分支節(jié)點(diǎn)。假設(shè)流入該節(jié)點(diǎn)的樣本集為Qi,則隨機(jī)選取一組R和L參數(shù)值將Qi劃分為QL和QR2部分,即
(6)
式中 DILBPP,R(I,x)——按式(2)計(jì)算圖像I中像素點(diǎn)x處的深度圖像局部二值模式特征值
CQi(QL)——計(jì)算QL在Qi中補(bǔ)集的函數(shù)
然后用式(5)分別計(jì)算QL和QR的概率分布函數(shù)得到PQL和PQR。
(4)估計(jì)當(dāng)前節(jié)點(diǎn)的最佳分類參數(shù)φ*,該參數(shù)保證分類前后的信息熵增益取得最大值。分類前后的信息熵增益計(jì)算公式為
(7)
式中H(Q)——集合Q的信息熵GQ(φ)——使用參數(shù)φ對(duì)集合Q進(jìn)行劃分前后的信息熵增益
將φ的所有可能值代入式(7),最終通過(guò)比較得到最佳的分類參數(shù)φ*,其值使得GQ(φ)在其定義域內(nèi)取得最大值。
(5)在每個(gè)新生成的節(jié)點(diǎn)中執(zhí)行步驟(3)、(4),直到?jīng)Q策樹(shù)層數(shù)達(dá)到預(yù)設(shè)值時(shí)中止訓(xùn)練,未處理的節(jié)點(diǎn)視為葉子節(jié)點(diǎn),并保存該節(jié)點(diǎn)樣本的概率分布函數(shù)。
一旦訓(xùn)練完成,對(duì)于某一個(gè)待識(shí)別的像素點(diǎn),從樹(shù)的根節(jié)點(diǎn)開(kāi)始,根據(jù)式(6)和該節(jié)點(diǎn)所保存的分類參數(shù)判定該像素點(diǎn)的路徑,直到該像素點(diǎn)到達(dá)某一葉子節(jié)點(diǎn),并得出分類結(jié)果。
當(dāng)參與決策樹(shù)訓(xùn)練的樣本數(shù)過(guò)多時(shí),訓(xùn)練過(guò)程將消耗大量的計(jì)算資源。故將訓(xùn)練數(shù)據(jù)隨機(jī)劃分為奇數(shù)組,分別訓(xùn)練多個(gè)決策樹(shù)構(gòu)成決策森林。將待檢測(cè)樣本分別輸入每個(gè)決策樹(shù),得到每棵樹(shù)最終葉子節(jié)點(diǎn)處的概率分布函數(shù),然后對(duì)其進(jìn)行合并
(8)
式中Pt(c|I,x)——圖像I中像素點(diǎn)x在第t棵樹(shù)中最終達(dá)到的葉子節(jié)點(diǎn)所保存概率分布函數(shù)
最終,樣本的識(shí)別結(jié)果為合并后的概率分布函數(shù)中所占比例最大的類。
2.1 奶牛各區(qū)域識(shí)別結(jié)果
將訓(xùn)練集中150幅圖像平均分成3組分別訓(xùn)練3棵決策樹(shù),每幅圖像中奶牛目標(biāo)上的像素點(diǎn)均參與訓(xùn)練。測(cè)試集圖像中每個(gè)像素點(diǎn)均進(jìn)入3棵樹(shù)進(jìn)行決策得到的結(jié)果按式(8)進(jìn)行合并后,得到最終的分類結(jié)果。構(gòu)建決策樹(shù)過(guò)程中,采樣半徑的最大值為奶牛的體高,采樣半徑的分段數(shù)B決定了深度特征值的精度。分段數(shù)最大,候選的分類含參數(shù)越多。決策樹(shù)的最大層數(shù)Y決定了分類的精度,層數(shù)越大則決策樹(shù)對(duì)于訓(xùn)練樣本的識(shí)別精度越高,但決策樹(shù)的泛化能力將會(huì)降低。為確定最優(yōu)訓(xùn)練參數(shù),對(duì)不同參數(shù)組合進(jìn)行了比較試驗(yàn),表1為本文算法在不同參數(shù)下的平均識(shí)別率。
表1 本文算法在不同參數(shù)組合下的平均識(shí)別率
注:*識(shí)別率最高的前4種組合。
由表1可知,提高采樣半徑R的分段數(shù)B能提高檢測(cè)精度,但在訓(xùn)練層數(shù)為10層時(shí),分段數(shù)40相對(duì)分段數(shù)30的識(shí)別效果提升并不明顯。這是由于分段數(shù)較多導(dǎo)致決策樹(shù)中待訓(xùn)練的參數(shù)增加,而較淺的決策樹(shù)難以訓(xùn)練出最優(yōu)分類參數(shù)。為進(jìn)一步分析分段數(shù)和訓(xùn)練層數(shù)對(duì)識(shí)別結(jié)果的影響,表2給出了平均識(shí)別率最高的前4種組合下的奶牛身體各區(qū)域識(shí)別結(jié)果。
由表2可知,當(dāng)決策樹(shù)由15層訓(xùn)練到20層后,奶牛頭部識(shí)別精度有微小提升,頸、軀干等簡(jiǎn)單粗大結(jié)構(gòu)的識(shí)別率均有所下降,前肢、后肢和尾巴等細(xì)小復(fù)雜結(jié)構(gòu)的識(shí)別率得到明顯提升。尤其是尾巴的識(shí)別率提高超過(guò)10個(gè)百分點(diǎn)。表明多層決策樹(shù)對(duì)細(xì)小結(jié)構(gòu)的識(shí)別能力較強(qiáng),但對(duì)粗大結(jié)構(gòu)的泛化能力受到影響。
表2 4種組合下奶牛各區(qū)域的識(shí)別結(jié)果
在相同的訓(xùn)練層數(shù)下,分段數(shù)分別為30和40時(shí),各區(qū)域的識(shí)別精度差異很小,然而后肢的識(shí)別率反而下降,表明分段數(shù)越多,決策樹(shù)泛化能力隨層數(shù)的下降速度越快。
由于尾巴所包含的奶牛身體及行為信息較少,故本文以分段數(shù)為30、層數(shù)為20作為最優(yōu)參數(shù),進(jìn)一步研究決策樹(shù)的分割性能。圖4為對(duì)不同體形和姿態(tài)下的奶牛各肢干人工分割及決策樹(shù)分割結(jié)果。從上到下分別為高體深壯碩正常行走奶牛A、低體深瘦小中等跛行奶牛B、樣本中較少的嚴(yán)重跛行奶牛C。
圖4 不同奶牛的分割效果示例圖Fig.4 Recognition results of different cows
圖4中A、C奶牛尾巴已經(jīng)被人工去除,而奶牛B由于尾巴過(guò)于靠近軀干,故人工分割時(shí)均未將其分割出來(lái)。但決策樹(shù)能正確地將奶牛B大部分尾巴像素點(diǎn)識(shí)別出來(lái)。奶牛A、B、C體深、頭部位置均不同,用決策樹(shù)均得到較高的識(shí)別精度,表明本文算法對(duì)于奶牛的體形、姿態(tài)具有很好的魯棒性。四肢錯(cuò)誤識(shí)別的像素點(diǎn)主要集中于四肢與軀干接合處的過(guò)渡區(qū)域。
2.2 識(shí)別率與各區(qū)域樣本比例的關(guān)系
表3為奶牛身體各區(qū)域的識(shí)別率與該區(qū)域所占奶牛整體目標(biāo)比例的比較結(jié)果。
由表3可知,奶牛身體各區(qū)域所占比例和識(shí)別率呈正相關(guān)關(guān)系,占奶牛目標(biāo)比例最大的軀干區(qū)域識(shí)別率最高;占奶牛目標(biāo)比例最小的尾巴區(qū)域識(shí)別率最低。這是由于在訓(xùn)練分類器時(shí),各個(gè)類別內(nèi)樣本數(shù)分布不均造成的。當(dāng)訓(xùn)練決策樹(shù)時(shí),訓(xùn)練圖像中所有像素點(diǎn)均參與訓(xùn)練,因此流入第1個(gè)節(jié)點(diǎn)的數(shù)據(jù)中軀干區(qū)域樣本點(diǎn)比例最大,由于決策樹(shù)總是以最大熵增加值作為評(píng)估依據(jù),因此占絕對(duì)數(shù)量的軀干類將在前幾層被優(yōu)先分割出來(lái)。雖然頸部所占比例略高于頭部,但識(shí)別率比頭部低4.21個(gè)百分點(diǎn)。這是由于頸部作為頭部和軀干的連接區(qū)域,形狀復(fù)雜且變形度較大,同時(shí)頸部靠近軀干區(qū)域,受大容量樣本的影響大,因此識(shí)別率低于頭部。后肢受尾巴的影響,識(shí)別率略低于前肢。此外,由于四肢、尾巴等區(qū)域自身的像素點(diǎn)數(shù)較少,少量錯(cuò)誤識(shí)別的像素點(diǎn)即會(huì)導(dǎo)致較大的識(shí)別錯(cuò)誤率。
表3 奶牛身體各區(qū)域所占比例和識(shí)別率
尾巴區(qū)域的識(shí)別率低于55%,這是由于參與訓(xùn)練的尾巴區(qū)域的像素點(diǎn)太少所致。
2.3 與Kinect原始方法的比較
為比較本文方法相對(duì)于Kinect原始方法的目標(biāo)分割效果,根據(jù)文獻(xiàn)[14]中的深度圖像特征值,用相同的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)進(jìn)行對(duì)比試驗(yàn)。為保證與本文算法相近的參數(shù)數(shù)量,試驗(yàn)中傳統(tǒng)方法的偏置點(diǎn)為40組,待比較閾值為20個(gè)。2種方法的分割結(jié)果如表4所示。
表4 傳統(tǒng)方法與本文方法識(shí)別結(jié)果比較
如表4所示,傳統(tǒng)方法中頭部的識(shí)別精度高于本文方法,軀干識(shí)別精度與本文接近。本文方法中頸、前肢的識(shí)別精度提高了10個(gè)百分點(diǎn)以上。尤其是尾巴識(shí)別精度由13.14%提高到54.97%。2種方法的識(shí)別效果示例如圖5所示。
圖5 傳統(tǒng)方法和本文方法識(shí)別效果示例Fig.5 Two examples of recognition results of two methods
由圖5可知,傳統(tǒng)方法中雖然頭部的識(shí)別精度較高,但頭與頸結(jié)合處出現(xiàn)了較多的交叉分割,不利于定位頭頸結(jié)合關(guān)節(jié)。兩頭奶牛的識(shí)別結(jié)果顯示,傳統(tǒng)方法均將尾巴錯(cuò)誤識(shí)別為軀干。綜上所述,本文方法交叉識(shí)別少,較傳統(tǒng)方法具有更強(qiáng)的細(xì)節(jié)信息提取能力,能夠以較少的參數(shù),實(shí)現(xiàn)對(duì)復(fù)雜結(jié)構(gòu)的精確識(shí)別。
為比較傳統(tǒng)方法與本文方法的效率,每個(gè)像素點(diǎn)進(jìn)入決策樹(shù)森林到得出識(shí)別結(jié)果所需要的時(shí)間定義為單個(gè)像素點(diǎn)的識(shí)別耗時(shí),奶牛目標(biāo)上的所有像素點(diǎn)的總體耗時(shí)定義為奶牛目標(biāo)的識(shí)別耗時(shí)。傳統(tǒng)方法與本文算法的平均訓(xùn)練耗時(shí)、決策樹(shù)節(jié)點(diǎn)數(shù)量以及平均識(shí)別耗時(shí)如表5所示。
表5 傳統(tǒng)方法與本文方法訓(xùn)練與識(shí)別效率比較
由于本文方法中圖像特征較傳統(tǒng)方法復(fù)雜,因此訓(xùn)練耗時(shí)較長(zhǎng)。但由于參數(shù)利用率高,決策樹(shù)中的節(jié)點(diǎn)數(shù)量較少,因此能夠以較短路徑達(dá)到葉子節(jié)點(diǎn),故識(shí)別效率更高。由于單幅圖像中所有的像素點(diǎn)均參與識(shí)別,故圖像的識(shí)別耗時(shí)為15 s左右。實(shí)際進(jìn)行奶牛各區(qū)域?qū)崟r(shí)檢測(cè)時(shí),可隨機(jī)選取圖像中10%的像素點(diǎn)進(jìn)行檢測(cè),即可得到奶牛各區(qū)域的大體輪廓,則可將單幅圖像識(shí)別耗時(shí)降低至1.5 s,且用C++語(yǔ)言實(shí)現(xiàn)識(shí)別算法可進(jìn)一步提高識(shí)別效率。
(1)提出一種深度歸一化后的帶閾值LBP序列作為深度圖像特征,與傳統(tǒng)深度特征值[14]相比,該特征值具有平移和旋轉(zhuǎn)不變性,且參數(shù)利用率高,能以較少的訓(xùn)練圖像實(shí)現(xiàn)較高識(shí)別精度。
(2)用本文深度圖像特征值作為分類條件構(gòu)建決策樹(shù)森林,可實(shí)現(xiàn)奶牛肢干的精細(xì)分割和識(shí)別。奶牛各身體區(qū)域平均識(shí)別率為95.15%,除尾巴外的奶牛各個(gè)主要身體區(qū)域均保持較高的識(shí)別率。
(3)本文方法交叉識(shí)別少,較Kinect原始方法[14]具有更強(qiáng)的細(xì)節(jié)信息提取能力,能夠?qū)崿F(xiàn)對(duì)復(fù)雜結(jié)構(gòu)的精確識(shí)別。
1 何東健,劉冬,趙凱旋. 精準(zhǔn)畜牧業(yè)中動(dòng)物信息智能感知與行為檢測(cè)研究進(jìn)展[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2016, 47(5): 231-244.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20160532&journal_id=jcsam.DOI: 10.6041/j.issn.1000-1298.2016.05.032. HE Dongjian, LIU Dong, ZHAO Kaixuan. Review of perceiving animal information and behavior in precision livestock farming[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(5): 231-244.(in Chinese)
2 HOFFMANN G, SCHMIDT M, AMMON C, et al. Monitoring the body temperature of cows and calves using video recordings from an infrared thermography camera[J]. Veterinary Research Communications, 2013, 37(2): 91-99.
3 CHAPINAL N, TUCKER C B. Validation of an automated method to count steps while cows stand on a weighing platform and its application as a measure to detect lameness[J]. Journal of Dairy Science, 2012, 95(11): 6523-6528.
4 BRUYERE P, HETREAU T, PONSART C, et al. Can video cameras replace visual estrus detection in dairy cows[J]. Theriogenology, 2012, 77(3): 525-530.
5 VIAZZI S, BAHR C, SCHLAGETER-TELLO A, et al. Analysis of individual classification of lameness using automatic measurement of back posture in dairy cattle[J]. Journal of Dairy Science, 2013, 96(1): 257-266.
6 PLUK A, BAHR C, POURSABERI A, et al. Automatic measurement of touch and release angles of the fetlock joint for lameness detection in dairy cattle using vision techniques[J]. Journal of Dairy Science, 2012, 95(4): 1738-1748.
7 POURSABERI A, BAHR C, PLUK A, et al. Real-time automatic lameness detection based on back posture extraction in dairy cattle: shape analysis of cow with image processing techniques[J]. Computer and Electronics in Agriculture, 2010, 74(1): 110-119.
8 AZZARO G, CACCAMO M, FERGUSON J D, et al. Objective estimation of body condition score by modeling cow body shape from digital images[J]. Journal of Dairy Science, 2011, 94(4): 2126-2137.
9 BEWLEY J M, PEACOCK A M, LEWIS O, et al. Potential for estimation of body condition scores in dairy cattle from digital images[J]. Journal of Dairy Science, 2008, 91(9): 3439-3453.
10 PORTO S M C, ARCIDIACONO C, ANGUZZA U, et al. A computer vision-based system for the automatic detection of lying behaviour of dairy cows in free-stall barns[J]. Biosystems Engineering, 2013, 115(2): 184-194.
11 MIEDEMA H, COCKRAM M, DWYER C, et al. Behavioural predictors of the start of normal and dystocic calving in dairy cows and heifers[J]. Applied Animal Behaviour Science, 2011, 132(1-2): 14-19.
12 CANGAR O, LEROY T, GUARINO M, et al. Automatic real-time monitoring of locomotion and posture behaviour of pregnant cows prior to calving using online image analysis[J]. Computers and Electronics in Agriculture, 2008, 64(1): 53-60.
13 趙凱旋,何東健,王恩澤. 基于視頻分析的奶牛呼吸頻率與異常檢測(cè)[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2014, 45(10): 258-263.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20141040&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2014.10.040. ZHAO Kaixuan, HE Dongjian, WANG Enze.Detection of breathing rate and abnormity of dairy cattle based on video analysis[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(10): 258-263.(in Chinese)
14 趙凱旋,何東健. 基于卷積神經(jīng)網(wǎng)絡(luò)的奶牛個(gè)體身份識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2015, 31(5): 181-187. ZHAO Kaixuan, HE Dongjian. Recognition of individual dairy cattle based on convolutional neural networks[J]. Transactions of the CSAE,2015, 31(5): 181-187. (in Chinese)
15 劉冬,趙凱旋,何東健. 基于混合高斯模型的移動(dòng)奶牛目標(biāo)實(shí)時(shí)檢測(cè)[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2016, 47(5): 288-294.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20160539&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2016.05.039. LIU Dong, ZHAO Kaixuan, HE Dongjian.Real-time target detection for moving cows based on gaussian mixture model[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(5): 288-294. (in Chinese)
16 何東健,孟凡昌,趙凱旋,等. 基于視頻分析的犢牛基本行為識(shí)別[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2016, 47(9): 294-300.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20160940&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2016.09.040. HE Dongjian, MENG Fanchang, ZHAO Kaixuan, et al.Recognition of calf basic behaviors based on video analysis[J/OL]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(9): 294-300. (in Chinese)
17 ZHAO K, HE D. Target detection method for moving cows based on background subtraction[J]. International Journal of Agricultural and Biological Engineering, 2015, 8(1): 42-49.
18 VIAZZI S, BAHR C, Van HERTEM T, et al. Comparison of a three-dimensional and two-dimensional camera system for automated measurement of back posture in dairy cows[J]. Computers and Electronics in Agriculture, 2014, 100(1): 139-147.
19 SHOTTON J, SHARP T, KIPMAN A, et al.Real-time human pose recognition in parts from single depth images[J]. Communications of the ACM, 2013, 56(1): 116-124.
20 ANTONIO H V, NADEZHDA Z, ALEXANDER M, et al. Graph cuts optimization for multi-limb human segmentation in depth maps[C]∥2012 IEEE Conference on Computer Vision & Pattern Recognition,2012:726-732.
21 NANNI L, BRAHNAM S, LUMINI A. A simple method for improving local binary patterns by considering non-uniform patterns[J].Pattern Recognition, 2012, 45(10): 3844-3852.
Fine Segment Method of Cows’ Body Parts in Depth Images Based on Machine Learning
ZHAO Kaixuan LI Guoqiang HE Dongjian
(CollegeofMechanicalandElectronicEngineering,NorthwestA&FUniversity,Yangling,Shaanxi712100,China)
The recognition of cows’ body parts is essential for providing accurate details of the cows’ shape, which is the fundamental prerequisite for locomotion scoring, posture detection and behavioral quantifications. The objective was to develop a robust depth feature in order to reduce the difficulty in building the classifier and detect cows’ body parts with higher accuracy. Therefore, a method for segmenting cows’ body parts was proposed, including the head, neck, body, forelimbs, hind limbs and tail, with high accuracy on the basis of depth image processing and machine learning. The local binary patterns of each pixel under several sampling radii were used as the features with which the filtering rules were designed, and a decision forest was trained and tested to classify the pixels into six groups. Furthermore, totally 288 depth images were captured from 30 cows; 150 images were randomly selected to build three decision trees, and the rest images were used for testing. The results showed that when the number of sampling radii and training layers were 30 and 20, respectively, the recognition rate reached 95.15%. Among the cows’ body parts, the recognition rate of tail was 54.97%, and the minimum recognition rate of other parts was 89.22%. In some cases that tail was too close to trunk to segment tail from trunk by human marker, the decision trees recognized the tail successfully. The average recognition time for pixel were 0.38 ms and 0.25 ms, and the recognition time for cow target were 20.30 s and 15.25 s for the conventional method and new method, respectively. This LBP-based depth image feature was translation-invariant and rotation-invariant and had fewer parameters. The results showed that the new method proposed was more effective in recognizing small and complex structures of the cow target with higher accuracy. Compared with the typical depth image features, the new feature employed was capable of extracting the details of cows’ body and recognizing complex parts more accurately with fewer parameters and simple model.
cows; target detection; body segment; depth image; machine learning
10.6041/j.issn.1000-1298.2017.04.023
2017-01-02
2017-02-11
國(guó)家自然科學(xué)基金項(xiàng)目(61473235)
趙凱旋(1989—),男,博士生,主要從事基于圖像處理的動(dòng)物行為分析方法研究,E-mail: zkx@nwsuaf.edu.cn
何東健(1957—),男,教授,博士生導(dǎo)師,主要從事生物圖像分析及識(shí)別、智能化檢測(cè)與控制研究,E-mail: hdj168@nwsuaf.edu.cn
S24; S823.9+1
A
1000-1298(2017)04-0173-07