駱 頗
(復旦大學 計算機科學技術(shù)學院,上海 120013)
隨著技術(shù)的發(fā)展,機器人逐步從最初的軍事、航天等領(lǐng)域逐步擴展到工業(yè)制造,并向民用領(lǐng)域發(fā)展.服務(wù)機器人是機器人家族中一個較為年輕的成員,主要分為專業(yè)領(lǐng)域的服務(wù)機器人和個人服務(wù)機器人.服務(wù)機器人大多可以移動.在家用場景下存在著對目標進行發(fā)現(xiàn)和跟隨的需要.
本文研究室內(nèi)場景下低成本單目機器人上視覺目標人的發(fā)現(xiàn)和跟隨.相關(guān)的研究工作在進行目標人追蹤時主要依賴人臉檢測[1],頭肩檢測[2]或者是目標人手持彩色板[3]的方式進行,應(yīng)用上存在較大局限.本文針對整個人進行發(fā)現(xiàn)和追蹤,能夠適應(yīng)遮擋,不需要人為發(fā)出指令.本文主要研究場景變化檢測算法和視覺目標追蹤算法,并介紹了目標人檢測和主動跟隨的實現(xiàn)方法.
場景變化檢測算法分析可能出現(xiàn)人的圖像幀和區(qū)域.和此需要相關(guān)的主要是視頻分析領(lǐng)域,同時定位、建圖和運動目標追蹤 (Simultaneous Localization And Mapping and Moving Object Tracking,即 SLAMMOT)領(lǐng)域和多體運動恢復結(jié)構(gòu)(Multibody Structure From Motion)領(lǐng)域.視頻分析的運動區(qū)域檢測領(lǐng)域有大量的研究成果,方法主要有幀間差分法[4],光流法[5]和背景減除法[6].然而監(jiān)控視頻中的運動分析方法主要適用于攝像頭固定的場景.多體運動恢復結(jié)構(gòu)[7]和SLAMMOT[8]的研究主要利用投影幾何約束關(guān)系,結(jié)合光流或者是占用網(wǎng)格等方法來發(fā)現(xiàn)運動物體并且進行持續(xù)的追蹤.這兩種方法應(yīng)用于家庭場景的主要問題在于對家庭場景中常見的自運動物體如風扇、植物等比較敏感.本文針對本研究場景提出了基于關(guān)鍵場景的超像素聚類的候選運動區(qū)域檢測算法.通過快速高效的場景變化檢測,為視覺目標人檢測提供潛在變化幀和潛在變化區(qū)域,提高系統(tǒng)運行速度,減少機器人卡頓.
視覺目標追蹤領(lǐng)域近年來取得了很多新的研究成果[9-11].但是現(xiàn)有的研究成果主要面向攝像頭參數(shù)未知的場景,僅利用2維圖像信息來對目標進行建模和追蹤,并未考慮到圖像序列中包含的場景結(jié)構(gòu)信息.且目前的追蹤算法主要是通過檢測進行追蹤,在模型更新的時候大多直接將當前幀的目標框內(nèi)的圖像認為是屬于目標的,未直接考慮遮擋、目標框內(nèi)包含部分背景信息等問題.針對以上問題,本文研究結(jié)合表觀模型與機器人在同時定位和建圖時得到的場景信息,減少由于遮擋,目標區(qū)域包含背景信息等原因?qū)е碌钠?
視覺目標人檢測方面使用深度神經(jīng)網(wǎng)絡(luò).目標檢測近二十年取得了很多的研究成果[12,13].尤其是在2012年以后,深度學習在目標檢測問題上取得了較大突破[14].近幾年,研究人員提出了大量的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來解決目標檢測問題[15-17].目前目標檢測較好的神經(jīng)網(wǎng)絡(luò)需要使用計算顯卡來進行運算,而低成本機器人并不配備計算顯卡,且CPU的計算能力有限.本文針對室內(nèi)場景下人的檢測訓練一個小型深度網(wǎng)絡(luò),在檢測效果和運行速度方面取得一個較好的平衡.
本系統(tǒng)總體分成三部分:相關(guān)Web頁面獲取模塊、Web信息抽取模塊、知識表示模塊.系統(tǒng)總體框圖如圖1所示.
圖1 系統(tǒng)總體框圖
在機器人采集到新的圖像幀之后,先進行SLAM過程.本研究中SLAM模塊使用ORB_SLAM[18].待SLAM過程結(jié)束之后,如果SLAM過程判斷該位置是關(guān)鍵場景,則建立關(guān)鍵場景背景模型.在當前幀同時進行運動區(qū)域的檢測.如果當前幀存在顯著的運動區(qū)域,則目標人檢測算法在當前幀的運動區(qū)域進行目標人檢測.如果在當前幀檢測到目標人,視覺追蹤算法會持續(xù)追蹤該目標人,并且為機器人的主動跟隨提供方向信息.在追蹤的過程中SLAM所獲取的場景信息可以用來輔助目標追蹤算法.依據(jù)視覺目標追蹤提供的目標方向信息,控制機器人跟隨目標.
本文研究的重點在于在常見的家庭場景,基于低成本的單目攝像機的機器人平臺來較好地完成對目標,主要是人,進行跟隨的任務(wù).在跟隨任務(wù)中跟目標保持一定距離.在單目SLAM能夠較為穩(wěn)定工作的假設(shè)下,在常見家庭場景下進行運動區(qū)域檢測的主要關(guān)注點在于有較高的運行速度,對光照變化、自運動、震動等具備良好的適應(yīng)性,能夠減少對目標進行較為耗時的檢測算法的調(diào)用.
基于應(yīng)用場景的需要,本文設(shè)計了基于關(guān)鍵場景的超像素聚類的候選運動區(qū)域檢測算法.關(guān)鍵場景的選取依據(jù)SLAM過程中所分析出來的關(guān)鍵幀位置.采樣關(guān)鍵幀前后位置及關(guān)鍵幀圖像進行超像素分割,并在HSI空間中對超像素進行聚類,建立背景模型.當機器人采集到新的圖像幀時,將機器人采集的圖像進行超像素分割,選取空間位置相鄰的場景模型,在HSI空間中相對于場景模型進行聚類,依據(jù)與聚類中心和聚類半徑之間的關(guān)系計算超像素的背景概率.
為了構(gòu)建關(guān)鍵場景的場景模型,在SLAM過程得到的關(guān)鍵場景(關(guān)鍵幀)位置,抽取臨近的p幀圖像,序號記為t.使用 SLIC (Simple Linear Iterative Clustering)[19]算法進行超像素分割,在HSI空間中提取HS通道信息進行聚類.算法步驟如下:
① 將第t幀圖像進行超像素分割,得到Nt個超像素.每個超像素由一個特征向量來表示.
當新的圖像幀到達的時候,將新的圖像在RGB空間中分割為Nt個超像素.為了計算該幀每個像素屬于前景的概率,我們在HSI空間中評估每個超像素,并且計算對應(yīng)超像素對應(yīng)于空間位置最為相近的場景變化的概率,每個超像素的概率由它屬于哪個聚類和在特征空間中與聚類中心之間的距離這兩個因素決定.
第一個因素在于超像素相對于所屬的聚類clst(i)而言,該超像素是否位于聚類半徑內(nèi).第二個因素是一個權(quán)重因子,這個因子考慮了距離的影響.一個超像素的特征在特征空間中距離對應(yīng)的聚類中心越遠,那么這個超像素屬于該聚類的可能性越低,每個超像素的置信度由以下公式度量:
依據(jù)針孔攝像頭模型,計算5米處1.5米高的直立人在圖像中的成像外接矩形面積.當圖像幀中存在大于該面積1/3且概率大于0的連通區(qū)域,則認為該幀是潛在運動幀,該區(qū)域周圍一定范圍的區(qū)域為潛在目標區(qū)域.
當機器人重新進入相似位置和場景的時候,在去除圖片中人的信息之后,將新抽取的H個圖像,加入訓練圖像集.這個過程保留了過去在該場景下的多個圖像信息.每K次經(jīng)過該場景時,使用保存的信息更新一次表觀模型.具體更新算法同訓練過程.
本文在錄制的3個室內(nèi)場景視頻中進行了實驗.圖2為樣例圖.圖2(c)中的風扇處于打開并轉(zhuǎn)動狀態(tài).
圖2 場景變化檢測樣例圖
表1為候選目標區(qū)域檢測算法在測試數(shù)據(jù)上的表現(xiàn)結(jié)果.表中計算時間減少時,對比基準設(shè)定為每5幀執(zhí)行1次檢測算法.測試中候選目標區(qū)域檢測算法的運行速度為 39 fps.目標檢測耗時為 0.73 s/幀.如果記候選目標區(qū)域檢測算法每幀處理時間為t1,記檢測算法每幀處理時間為t2,檢測比為p.那么計算時間減少可以由以下公式計算得出:
表1 候選目標區(qū)域檢測算法結(jié)果
表1中計算時間減少一欄結(jié)果表明,本文提出的基于關(guān)鍵場景超像素聚類的候選目標區(qū)域檢測算法能夠有效減少調(diào)用檢測算法的次數(shù),降低了總體的計算時間.值得一提的是,減少調(diào)用檢測算法的次數(shù)不僅僅是降低總體的計算時間,更重要的是使得機器人在運行的時候能夠較少卡頓,提高交互性.
我們分析了實驗中誤報的幀,發(fā)現(xiàn)誤報主要集中在以下兩點.第一點是如果相機對于場景遍歷比較稀疏,那么當相機以不同的位置或朝向經(jīng)過類似場景的時候,圖像中所包含的場景區(qū)域不一樣,會有一些誤報.第二點是在光線充足的鏡面反射區(qū)域,視角的輕微差距便會導致圖像有較大的區(qū)別,導致誤報較多.圖3是未遍歷場景誤報和鏡面反射誤報.
圖3 (a)(b)為未遍歷場景誤報;(c)(d)為鏡面反射誤報
從實驗結(jié)果可以看到,本文設(shè)計的方法能夠顯著提高運行速度.本文的算法優(yōu)點在于能夠適應(yīng)一定程度的光照變化,對于家庭場景中常見的自運動物體具備良好的適應(yīng)性.本文設(shè)計的方法劣勢在于忽略了物體在場景中的相對位置信息如人從沙發(fā)上站起來,運動區(qū)域檢測算法并不能夠魯棒地分析出該運動.應(yīng)該認識到的是,這個劣勢在本文的研究場景下并不會造成障礙.如果機器人一直在伴隨人,那么人的圖像信息會被過濾掉,并不會進入背景模型.
目前目標檢測較好的神經(jīng)網(wǎng)絡(luò)需要使用計算顯卡來進行運算,而低成本機器人并不配備計算顯卡,且CPU的計算能力有限.在本文的實驗平臺上,使用大型的深度網(wǎng)絡(luò)yolo,檢測一幀640×480像素的圖片需要約10 s.而在家庭場景中進行目標人的發(fā)現(xiàn)并不需要支持1000類甚至更多類別的物體識別能力.因而需要一個對人的檢測效果較好且運算速度快的神經(jīng)網(wǎng)絡(luò).本文中的目標檢測網(wǎng)絡(luò)使用和tiny-yolo相同的網(wǎng)絡(luò)結(jié)構(gòu).tiny-yolo的創(chuàng)新之處是將檢測和定位問題轉(zhuǎn)換成一個回歸問題,只需要對圖像進行一次處理就可以得到該圖像中包含的所有目標的位置.tiny-yolo包含9個卷基層,其中前4個卷積層后面有一個2×2的最大值池化層.網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.
圖4 tiny-yolo 網(wǎng)絡(luò)結(jié)構(gòu)[17]
本文中神經(jīng)網(wǎng)絡(luò)的訓練使用pascal voc(pascal visual object classes challenge)[20]數(shù)據(jù)集加上我們搜集人的圖片進行訓練,其中voc數(shù)據(jù)共16552張,我們搜集的人的數(shù)據(jù)共1897張,其中走廊場景241張,室內(nèi)場景1656張.voc中的圖像橫向的尺寸大多在500*375左右,縱向的尺寸大多在375*500左右.我們搜集的數(shù)據(jù)尺寸為460*640.樣例訓練圖片如圖5所示.
圖5 訓練數(shù)據(jù)樣例.(a)(b)來自 voc[20];(c)(d)是我們搜集的
測試數(shù)據(jù)使用我們標注的室內(nèi)場景數(shù)據(jù)共482張,所有測試數(shù)據(jù)中的人均未在訓練數(shù)據(jù)中出現(xiàn)過.樣例圖片如圖6所示.
圖6 測試數(shù)據(jù)樣例
目標檢測實驗對比了tiny-yolo,yolo和我們的模型.在voc數(shù)據(jù)上訓練得到的tiny-yolo模型記為tinyyolo-voc.我們在voc數(shù)據(jù)集和搜集的人數(shù)據(jù)上訓練得到的模型記為tiny-yolo-voc-lab.tiny-yolo-voc和我們的模型使用同樣的訓練參數(shù),區(qū)別在于我們的模型加入了更多的人的圖片.yolo模型使用作者提供的預訓練的模型.評測指標為 AP (Average Precision),AP 是PR(Precision Recall)曲線下面的面積.實驗結(jié)果如表2所示.
表2 目標檢測結(jié)果
檢測結(jié)果樣例如圖7.
圖7 目標檢測結(jié)果樣例
實驗結(jié)果表明,即使是網(wǎng)絡(luò)規(guī)模較小的神經(jīng)網(wǎng)絡(luò),在訓練集中包含更多室內(nèi)場景下包含人的圖片時,能夠取得較好的效果,縮小和大型神經(jīng)網(wǎng)絡(luò)的差距.
本模塊算法詳細流程如圖8所示.目標追蹤的過程為在當前幀的前一幀的目標位置周圍尋找目標.當前幀的目標位置為目標概率最大的區(qū)域.由視覺表觀模型和地圖點信息共同決定每個像素屬于目標的概率或者叫置信度.表觀模型部分使用超像素追蹤算法[21].
圖8 視覺目標追蹤算法詳細流程
為了構(gòu)建目標和背景的表觀模型,可以從m個訓練幀中提取每個像素的標簽信息.對于第t幀中坐標位置為(x,y)的像素.我們可以得到該像素的標簽:
在通常的追蹤場景下,這個信息難于獲得.在追蹤開始之前從一組樣本中推斷先驗信息是一種可行的方式.以下方法可以用于從樣本中推斷超像素和目標之前的關(guān)系.
① 將第t幀中的目標周圍區(qū)域進行超像素分割,得到Nt個超像素.每個超像素由一個特征向量來表示.
特征表示使用歸一化的HSI顏色空間直方圖.sp 代表super pixel(超像素),clst代表cluster(聚類).
使用超像素的優(yōu)點在于,即使有少量的背景超像素出現(xiàn)在目標區(qū)域,它們大部分也會被聚類到背景超像素所在的聚類,且可以進行逐像素的前景估計.使用超像素的劣勢在于,隨著目標的運動,目標的尺寸、形態(tài)的變化,目標區(qū)域會被更多的背景超像素所占據(jù).因而模型在更新的過程中,更多的背景超像素被當做目標,模型逐漸的就會漂移.本文結(jié)合SLAM過程所建立的地圖信息來處理模型偏移問題.
2.3.2.1 表觀模型打分
當新的圖像幀到達的時候,首先在前一幀的目標區(qū)域周圍提取一個搜索區(qū)域,并且分割為Nt個超像素.為了計算該幀的置信度,我們評估每個超像素,并且計算對應(yīng)的得分,每個超像素的初始得分由它屬于哪個聚類和在特征空間中與聚類中心之間的距離這兩個因素決定.第一個因素在于如果一個超像素屬于聚類的前景置信度表明了該超像素屬于前景的可能性.第二個因素是一個權(quán)重因子,這個因子考慮了距離的影響.一個超像素的特征在特征空間中距離對應(yīng)的聚類中心越遠,那么這個超像素屬于該聚類的可能性越低,每個超像素的置信度由以下公式度量:
對于整個圖像幀,通過以下步驟得到每個像素的置信值.對于搜索區(qū)域內(nèi)每個屬于超像素的像素打分為對于搜索領(lǐng)域之外的像素打分為–1.
2.3.2.2 地圖點打分
依據(jù)表觀模型對新的圖像幀中的目標領(lǐng)域進行打分之后,依據(jù)SLAM所建模的地圖點信息,對于地圖點所在的超像素判斷是否屬于背景,進而對置信度打分進行調(diào)整.
在SLAM過程中計算得到的地圖點有兩個重要的信息:一是共見次數(shù);二是地圖點的位置.
共見次數(shù)就是某一個地圖點在多少個圖像幀中被發(fā)現(xiàn)到,即地圖點在該幀圖像中的投影點和多少幀中的投影點可以關(guān)聯(lián)上.目標表面會存在邊界等能夠提取出角點的位置,且符合在不同圖像幀之間的幾何約束,但是運動的目標表面無法存在持續(xù)而穩(wěn)定的符合極點幾何的特征點.使用簡單的可見次數(shù)閾值就可以過濾掉大部分錯誤匹配的目標表面角點.地圖點周圍的超像素塊屬于背景的可能性隨著地圖點共見次數(shù)升高而降低.我們用以下公式來計算地圖點所在超像素塊的的置信度.
2.3.2.3 打分融合
表觀模型的得分和地圖點的得分通過求均值的方式進行融合,融合的位置僅限地圖點周圍的超像素,沒有地圖點的超像素的打分僅由表觀模型決定.
2.3.2.4 遮擋判定
當概率最大的目標候選區(qū)域的平均置信度低于閾值且置信度較低的區(qū)域伴隨大量可靠地圖點,即可判定目標被遮擋.具體的遮擋程度以及目標可見部分的位置和大小使用類似于camshift[22]中所使用的質(zhì)心法來估算.計算步驟如下:
① 以超像素為單位進行高斯模糊.
② 使用meanshift尋找概率密度最高的區(qū)域.
④ 繼續(xù)步驟2和3直到收斂.
⑤ 如果步驟3得到的s低于當前目標尺寸一定閾值,則判定目標遮擋
如果判斷目標被遮擋,那么該幀的目標圖像信息不會用來更新表觀模型.
表觀模型在線學習使用滑動窗口的學習模式.在追蹤過程中存儲H個圖像幀構(gòu)成的序列,每隔U個圖像幀,放入一個新的圖像幀進入該序列,并且刪除序列中最老的幀.這個過程保留了過去H*U個圖像幀的一個記錄.對于這個序列中的每個幀,保留它的目標狀態(tài)和超像素分割的結(jié)果.位于目標區(qū)域外或者是地圖點判斷為屬于背景的的超像素作為負樣本,位于目標區(qū)域內(nèi)且未被地圖點信息判斷為屬于背景的超像素作為正樣本.每W幀使用保存的信息更新一次表觀模型.具體更新算法同訓練過程.
本文主要的研究目的是幫助室內(nèi)機器人進行目標的主動跟隨,確定機器人路徑規(guī)劃的目標,機器人路徑規(guī)劃的目標由視覺目標追蹤算法提供.由于無法構(gòu)造完全一樣的場景和目標移動過程來對比多個視覺目標追蹤算法且目前常用的目標追蹤數(shù)據(jù)集并不包含錄制時鏡頭內(nèi)參信息,而SLAM系統(tǒng)需要該信息來進行建圖,故錄制實驗數(shù)據(jù)集,本節(jié)實驗在離線視頻上評估追蹤算法在應(yīng)對場景變化,目標遮擋等問題時的表現(xiàn).
本文3段視頻上比較了4個算法,比較的4個算法是 CT (Compressive Tracking)[9],TLD (Tracking-Learning-Detection)[10],SPT (Super Pixel Tracking)[21],STRUCK (Structured output tracking with kernels)[23].
2.3.4.1 視覺目標追蹤數(shù)據(jù)集
視頻數(shù)據(jù)集的錄制設(shè)備為iPhone 6s,自動對焦參數(shù)設(shè)置為 0.74F.數(shù)據(jù)集為 lab1,lab2,lab3.數(shù)據(jù)集錄制選取常見的室內(nèi)場景.視頻中的目標,主要為人在室內(nèi)正常的走動,過程中有不同程度的遮擋,尺度變化和光照變化.視頻如圖9所示.
2.3.4.2 視覺目標追蹤評測指標
實驗結(jié)果使用兩個指標來衡量.第一個評價指標是成功率,幀內(nèi)追蹤得分為是追蹤算法得到的目標框,ROIG是標注的目標真實位置.如果在某一個幀里的得分(score)大于0.5,則認為該幀追蹤成功.第二個評價指標是中心位置偏移 (center location error).偏移值為追蹤算法得到的目標框中心坐標和標注的目標中心之間的距離長度.
圖9 目標追蹤的數(shù)據(jù)集.(a)Lab1 視頻中目標短暫嚴重遮擋;(b)Lab2 視頻中目標長期部分遮擋;(c)Lab3 視頻中目標迅速且持續(xù)被嚴重遮擋
2.3.4.3 實驗結(jié)果和分析
表3和4給出了算法評測結(jié)果.效果最好的用字體加粗來表示,效果次好的用斜體來表示.
從表3中可以看出,本文提出的基于單目SLAM的目標追蹤算法的成功率在3個測試視頻中的1個視頻上取得第一,1個視頻上取得第二,1個視頻上與第二相差無幾的效果.尤其是本文提出的算法SPT+MapPoint,相對于SPT在長期部分遮擋的情況下取得了較大的提升.由于追蹤算法在丟失之后得出的目標位置是隨機的,并不能很好的反映算法的定位能力,因而平均中心位置偏移在此僅列出,具體的價值需要由使用場景來確定.
表3 算法追蹤成功率 (單位:%)
表4 算法中心位置偏移 (單位:像素)
測試視頻Lab1中目標有較為短暫的嚴重遮擋,TLD算法和CT算法逐步向背景漂移,STRUCK表現(xiàn)最好.TLD算法篩選出大量代表性正負樣例,在短期的嚴重遮擋并伴隨視角的快速變化的情況下,迅速丟失目標,但是當目標重新以相似視角出現(xiàn)時可以找回目標.CT算法由于采用了逐幀更新的模式,在遮擋之后迅速漂移,目標重新出現(xiàn)之后無法找回.STRUCK篩選出的正負支撐向量能夠有效區(qū)分目標和背景,在短暫的嚴重遮擋下表現(xiàn)最好.SPT算法由于在模型跟新的時候采取和CT類似的不加區(qū)分的將目標框內(nèi)的圖像信息認作是目標,迅速漂移.本文提出的SPT+MapPoint的算法能夠有效判斷遮擋,阻止不屬于目標的圖像信息進入模型,且在目標脫離遮擋之后,重新追蹤成功.相對于SPT取得了顯著的42.75%的提升.
Lab2中目標同時存在光照變化,部分遮擋和尺度變化.CT算法依舊最先漂移.TLD算法能夠較好處理尺度變化,但是對于目標的外觀變化,光照變化等情況存在一些問題,當這些問題同時出現(xiàn)的時候,算法的表現(xiàn)一般.STRUCK表現(xiàn)較好,但是在持續(xù)的遮擋情形下,也會逐步漂移.本文提出的算法SPT+MapPoint由于能夠較好的進行遮擋判定,相對于SPT算法取得了74.68%的相對提升.
Lab3中目標從最初的無遮擋到部分遮擋到最終被嚴重遮擋的變化過程很快,在這個過程中TLD算法最先丟失,CT 緊隨其后.STRUCK 算法表現(xiàn)最好.由于目標很快被嚴重遮擋.本文提出的算法相比于SPT而言,沒有提升.
以上視頻的總體結(jié)果來看,在比較的四種算法中,STRUCK表現(xiàn)最好.本文提出的算法性能高于STRUCK或與STRUCK接近.但是相對于沒有利用地圖點信息的原始SPT算法而言,在利用地圖點信息之后,取得了非常明顯的提升.在家用機器人追蹤目標的應(yīng)用場景下,面對經(jīng)常出現(xiàn)的長期部分遮擋,光線變化,目標尺度變化等問題時,本文提出的算法在實驗數(shù)據(jù)上取得較好的成績.
由于單目攝像頭無法得到可靠的深度信息.視覺目標追蹤算法僅能給機器人提供目標相對于機器人正前方的角度偏移,因而機器人的主動跟隨的控制目標是使得目標人位于機器人攝像頭的水平成像中心上.
其中c代表機器人的控制指令,Ctx代表目標在圖像中的水平位置,Cix代表圖像的水平中心點.
本文的主要研究內(nèi)容是目標人的發(fā)現(xiàn)與視覺追蹤,并且實現(xiàn)機器人的主動跟隨,不涉及到機器人的全局路徑規(guī)劃和避障能力的研究.跟隨部分實現(xiàn)機器人在無障礙和有障礙兩種情形下的主動跟隨.
本研究基于的機器人平臺是小強機器人,其主要參數(shù)如表5所示.
表5 機器人平臺主要參數(shù)
圖10和圖11為機器人主動跟隨結(jié)果.機器人運動控制的目標是保持跟隨的人位于機器人攝像頭成像水平中心位置.在圖 10 和圖 11 中,人最初在右邊,機器人面朝人前進,當人移動到左邊之后,機器人轉(zhuǎn)而向左前方前進.圖11中間圖中人被凳子遮擋.
圖10 無遮擋機器人主動跟隨實驗結(jié)果
圖11 有遮擋機器人主動跟隨實驗結(jié)果
本文詳細介紹了在低成本輪式單目機器人上對于目標人的視覺發(fā)現(xiàn)和跟隨的研究.本文主要研究了場景變化檢測算法和視覺目標追蹤算法,并介紹了神經(jīng)網(wǎng)絡(luò)在單目機器人上進行目標人檢測的經(jīng)驗.實驗表明結(jié)果表明基于關(guān)鍵場景的場景變化檢測算法運行速度快 (39 fps),能夠有效減少檢測算法的運行次數(shù),提高系統(tǒng)運行效率,減少機器人卡頓.針對室內(nèi)場景下人進行訓練的小型深度網(wǎng)絡(luò)在檢測效果和運行速度之間取得了較好的平衡,和大型深度網(wǎng)絡(luò)的差距不大.結(jié)合SLAM過程改進的超像素追蹤算法能夠較好的處理遮擋,光照變化等問題.在實驗平臺上,機器人在有障礙物存在的情況下成功跟隨人.
1 Feyrer S,Zell A.Detection,tracking,and pursuit of humans with an autonomous mobile robot. Proceedings of International Conference on Intelligent Robots and Systems(IROS’99).Kyongju,Korea.1999.864–869.
2 Hirai N,Mizoguchi H.Visual tracking of human back and shoulder for person following robot.Proceedings of 2003 IEEE/ASME International Conference on Advanced Intelligent Mechatronics.Kobe,Japan.IEEE.2003.527–532.
3 Hassan MS,Khan AF,Khan MW,et al.A computationally low cost vision based tracking algorithm for human following robot. Proceedings of the 2nd International Conference on Control,Automation and Robotics (ICCAR).Hong Kong,China.2016.62–65.
4 Collins RT,Lipton AJ,Kanade T,et al.A system for video surveillance and monitoring.Pittsburgh:Carnegie Mellon University,2000.
5 Lucas BD,Kanade T. An iterative image registration technique with an application to stereo vision.Proceedings of the 7th International Joint Conference on Artificial Intelligence.Vancouver,BC,Canada.1981.674–679.
6 Stauffer C,Grimson WEL.Adaptive background mixture models for real-time tracking. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins,CO,USA.1999.252.
7 Vidal R,Yi M,Soatto S,et al.Two-view multibody structure from motion. International Journal of Computer Vision,2006,68(1):7–25.[doi:10.1007/s11263-005-4839-7]
8 Wang CC,Thorpe CS,Thrun S,et al. Simultaneous localization,mapping and moving object tracking. The International Journal of Robotics Research,2007,26(9):889–916.[doi:10.1177/0278364907081229]
9 Zhang KH,Zhang L,Yang MH.Real-time compressive tracking.In:Fitzgibbon A,Lazebnik S,Perona P,et al,eds.European Conference on Computer Vision. Berlin,Heidelberg.Springer.2012.864–877.
10 Kalal Z,Mikolajczyk K,Matas J. Tracking-learningdetection. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1409–1422.
11 Babenko B,Yang MH,Belongie S.Visual tracking with online multiple instance learning. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA.2009.983–990.
12 Viola P,Jones Ml.Rapid object detection using a boosted cascade of simple features. Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Kauai,HI,USA.2001.I-511–I-518.
13 Dalal N,Triggs B.Histograms of oriented gradients for human detection.Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA.2005.886–893.
14 Krizhevsky A,Sutskever I,Hinton GE. Imagenet classification with deep convolutional neural networks.Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,NV,USA.2012.1097–1105.
15 Girshick R,Donahue J,Darrell T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA.2014.580–587.
16 Girshick R.Fast R-CNN.Proceedings of IEEE International Conference on Computer Vision. Santiago,Chile. 2015.1440–1448.
17 Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV,USA.2016.779–788.
18 Mur-Artal R,Montiel JMM,Tardós JD.ORB-SLAM:A versatile and accurate monocular SLAM system. IEEE Transactions on Robotics,2015,31(5):1147 –1163.[doi:10.1109/TRO.2015.2463671]
19 Achanta R,Shaji A,Smith K,et al. SLIC superpixels compared to state-of-the-art superpixel methods. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2274–2282.[doi:10.1109/TPAMI.2012.120]
20 Everingham M,Van Gool L,Williams CKI,et al.The pascal visual object classes (voc)challenge.International Journal of Computer Vision,2010,88(2):303–338.[doi:10.1007/s11263-009-0275-4]
21 Wang S,Lu HC,Yang F,et al. Superpixel tracking.Proceedings of 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona,Spain. 2011.1323–1330.
22 Bradski GR. Real time face and object tracking as a component of a perceptual user interface.Proceedings of the Fourth IEEE Workshop on Applications of Computer Vision,1998.WACV’98.Princeton,NJ,USA.1998.214–219.
23 Hare S,Golodetz S,Saffari A,et al.Struck:Structured output tracking with kernels.IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(10):2096–2109.[doi:10.1109/TPAMI.2015.2509974]