胡正委,朱 明
(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,合肥 230031)
近年來,深度學(xué)習(xí)被用于很多領(lǐng)域.如人臉識別,對象檢測等[1–4].深度學(xué)習(xí)可以從大量的數(shù)據(jù)捕捉有用的信息,同時(shí)也由于大數(shù)據(jù)時(shí)代的來臨與計(jì)算設(shè)備性能的提高,使深度學(xué)習(xí)的應(yīng)用成為現(xiàn)實(shí).VGG[1,5]模型起初被用于物體識別,然后被擴(kuò)展到人臉識別等任務(wù)中.GoogleNet[6]提出的Inception結(jié)構(gòu),使用多個(gè)小尺寸的卷積核來代替大尺寸卷積核,減少了網(wǎng)絡(luò)參數(shù),也提高了模型性能.Resnet[7]的提出很大程度上改進(jìn)了傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu),并在Imagenet上獲得最好的效果.通過遷移學(xué)習(xí)[8],這些網(wǎng)絡(luò)模型也已經(jīng)被廣泛地應(yīng)用到了各種識別任務(wù)中.同時(shí),對象識別任務(wù)逐漸擴(kuò)展到對象檢測任務(wù),即從單個(gè)對象的分類擴(kuò)展到了多個(gè)對象的分類和定位.Faster RCNN[3]及其擴(kuò)展版本成為近年來最有效的方法之一.
然而若將上述方法遷移到新的任務(wù)中,都需要在新的任務(wù)上使用大量標(biāo)定數(shù)據(jù)重新調(diào)整模型.但是,在實(shí)際場景中,數(shù)據(jù)的標(biāo)定是非常難的工作,需要消耗很大的財(cái)力物力和人力[9].Vinyals,Koch[10,11]等人開始致力于研究如何在僅有少量訓(xùn)練樣本甚至沒有訓(xùn)練樣本時(shí)進(jìn)行分類工作.然而相比較于分類任務(wù)的數(shù)據(jù)標(biāo)定,檢測任務(wù)中邊框定位數(shù)據(jù)的標(biāo)定更難獲得.如何在沒有邊框標(biāo)定數(shù)據(jù)的情況下,將分類任務(wù)遷移到檢測任務(wù)也是目前研究的難點(diǎn).
本文提出一種方法,解決了數(shù)據(jù)瓶頸問題,可以在無需邊框標(biāo)定的情況下進(jìn)行商品的檢測定位.本文構(gòu)建的數(shù)據(jù)集中,訓(xùn)練圖像僅包含單個(gè)商品,且沒有邊框標(biāo)定,而測試圖像中包含多個(gè)商品.本文首先對Faster RCNN進(jìn)行改進(jìn),提出非類別特異性Faster RCNN,并結(jié)合遷移學(xué)習(xí),對訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)標(biāo)定; 然后結(jié)合Grabcut[12]無監(jiān)督方法,對訓(xùn)練數(shù)據(jù)進(jìn)行樣本增強(qiáng),生成逼真的多個(gè)物體的訓(xùn)練圖像; 然后再對非類別特異性Faster RCNN進(jìn)行訓(xùn)練,使其可以檢測多個(gè)物體; 最后提出基于Faster RCNN的重識別方法,在Faster RCNN中添加重識別層,來提高多個(gè)物體檢測精度.
傳統(tǒng)的Faster RCNN包括兩部分,如圖1所示: 區(qū)域候選網(wǎng)絡(luò)(RPN)和頭網(wǎng)絡(luò)(Network Head).其中區(qū)域候選網(wǎng)絡(luò)為頭網(wǎng)絡(luò)提供Feature Map(特征圖) 和ROI(感興趣區(qū)域).頭網(wǎng)絡(luò)利用ROIAlign/ROIPool[13]從特征圖中提取特定ROI的特征,并利用分類層和邊框回歸進(jìn)行物體分類和邊框回歸.
圖1 Faster RCNN框架
其中分類層的輸出維度為分類類別數(shù)目C與背景類別,即C+1.回歸層輸出維度為類別數(shù)目的4倍,即4C,為預(yù)測的每個(gè)類別的中心坐標(biāo)與長寬.本文將其中的回歸層稱為類別特異性的回歸,因?yàn)槠鋵γ總€(gè)類別都會產(chǎn)生對應(yīng)的邊框預(yù)測.然而在預(yù)測時(shí),只有1個(gè)類別的邊框會被選中.因此其它類別的邊框回歸結(jié)果可以認(rèn)為是一定程度的冗余.而且不同的數(shù)據(jù)集具有不同的類別數(shù)目,則相應(yīng)的邊框回歸層也需要采集大量的邊框標(biāo)定數(shù)據(jù)進(jìn)行訓(xùn)練.
本文對回歸層進(jìn)行改進(jìn),提出非類別特異性回歸層.其中,回歸層輸出維度與類別無關(guān),輸出維度由4C改為4.并在公開的COCO[14]數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后遷移到商品數(shù)據(jù)集上,且不需要再訓(xùn)練.一方面減少了模型的冗余,另一方面解決了數(shù)據(jù)的瓶頸問題.
本文利用提出的非類別特異性Faster RCNN,對構(gòu)建的商品數(shù)據(jù)集中的訓(xùn)練圖像進(jìn)行預(yù)標(biāo)定.其中訓(xùn)練圖像僅包含單個(gè)商品.因?yàn)閷?shí)際應(yīng)用中,單個(gè)商品的圖像非常容易采集,而邊框的標(biāo)定工作則需要大量的成本.如圖2顯示了本文提出的非類別特異性Faster RCNN對訓(xùn)練圖片的預(yù)標(biāo)定效果.
圖2 非類別特異性Faster RCNN邊框預(yù)標(biāo)定
非類別特異性的Faster RCNN解決了邊框回歸的問題,但是在訓(xùn)練數(shù)據(jù)中只有單個(gè)商品,而測試圖片中有多個(gè)商品時(shí),分類問題是目前很難解決的.即使可以用單個(gè)商品來訓(xùn)練分類模型,但測試圖像中的多個(gè)商品會存在邊框重疊甚至遮擋的情況.在訓(xùn)練圖像沒有出現(xiàn)商品重疊的情況下進(jìn)行模型的訓(xùn)練,會使模型的分類能力不夠魯棒,不足以識別邊框重疊甚至遮擋的商品,增大了分類的難度.因此本文提出一種樣本增強(qiáng)方法,通過對單個(gè)商品訓(xùn)練圖片的處理,來生成具有多個(gè)商品的訓(xùn)練圖像.
通過類別非特異性的Faster RCNN,可以得到單個(gè)商品圖像中商品的邊框.一個(gè)直接的想法是將圖像中的商品邊框部分提取出來,經(jīng)過旋轉(zhuǎn)或者平移之后,與其它商品進(jìn)行組合,如圖3所示.
圖3 僅基于邊框預(yù)標(biāo)定的樣本增強(qiáng)
然而,這種方法會導(dǎo)致商品邊框中的背景區(qū)域會覆蓋其它商品區(qū)域,與實(shí)際圖片相差很大.因此僅利用商品圖像的邊框不足以完成逼真的樣本生成.若能獲得商品的精確區(qū)域信息,例如商品對象掩碼,則可以分離出背景區(qū)域,解決生成的樣本中商品被背景遮擋的問題.因此本文利用Gabcut方法對訓(xùn)練圖像中商品進(jìn)行分割.
Grabcut在用戶交互的基礎(chǔ)上,分別為背景和前景構(gòu)建了GMM(高斯混合模型).背景和前景模型都分別包含個(gè)GMM函數(shù).RGB圖像中的像素集定義為,圖像中每個(gè)像素都有一個(gè)高斯函數(shù)標(biāo)記,表示一個(gè)GMM函數(shù).最終組成了向量每個(gè)像素還有一個(gè)表示是否為背景的標(biāo)記,值為0表示背景,為1表示前景.并定義能量函數(shù):
其中,U定義為:
Grabcut與Graphcut[15]方法都是交互式圖像分割方法.其中Graphcut需要在交互時(shí)提供精確前景和背景像素種子區(qū)域,并計(jì)算其它像素與前景和背景的相似度,利用圖論算法計(jì)算最佳分割.而Grabcut算法的用戶交互較少,僅需要提供一個(gè)包含前景的矩形邊框,分割步驟如下:
(1) 通過用戶交互提供前景對象的邊框,將邊框外的區(qū)域初始化為,邊框內(nèi)的區(qū)域初始化為不確定區(qū)域前景區(qū)域初始化為空對于區(qū)域總的像素,置區(qū)域中像素,置然后分別對的像素分別初始化個(gè)高斯函數(shù).
在利用本文提出的非類別特異性Faster RCNN之后,可以獲得訓(xùn)練圖像中單個(gè)商品的矩形邊框,因此只需要再結(jié)合Grabcut算法,對商品的精確區(qū)域進(jìn)行分割.然后再將訓(xùn)練集中的單個(gè)商品區(qū)域進(jìn)行隨機(jī)旋轉(zhuǎn)和平移,并進(jìn)行隨機(jī)組合,即可生成多個(gè)商品的訓(xùn)練圖像,效果如圖4所示.值得注意的是,考慮到數(shù)據(jù)的準(zhǔn)確性,商品之間不能完全覆蓋,因?yàn)槿绻唐愤^度覆蓋,會導(dǎo)致區(qū)域內(nèi)的真實(shí)商品幾乎被覆蓋,而占大面積區(qū)域的商品與實(shí)際標(biāo)簽不符,這樣會誤導(dǎo)識別模型的訓(xùn)練.因此隨機(jī)組合時(shí)需要對商品的重疊區(qū)域面積進(jìn)行約束,假設(shè)重疊面積的上限為sup.考慮三種融合策略:(1)進(jìn)行隨機(jī)旋轉(zhuǎn)和平移,僅約束重疊面積的上限,即sc≤sup,即融合時(shí),商品可能會距離較遠(yuǎn),這是sc=0.(2)在限制重疊面積上限的同時(shí),對重疊面積的下限做約束,即sc≥0.這種方案使商品之間必須有重疊,保證了商品之間的距離較近,但又沒有大面積覆蓋.(3)增大對重疊面積下限的約束,即這樣做是為了商品之間重疊的可能性更大,并通過模型的訓(xùn)練來區(qū)分重疊的情況.
圖4 結(jié)合Grabcut的樣本增強(qiáng)
Faster RCNN是一種兩級(tow stage)方法.第一級由RPN(候選區(qū)域網(wǎng)絡(luò))先篩選出候選區(qū)域,過濾掉一部分背景區(qū)域.第二級由頭網(wǎng)絡(luò)對候選區(qū)域進(jìn)行細(xì)分類,同時(shí)對每個(gè)候選區(qū)域的邊框進(jìn)行矯正,即邊框回歸.顯然RPN提取的候選區(qū)域是不精確的,這會影響頭網(wǎng)絡(luò)識別準(zhǔn)確度.因此本文提出重識別層,來提高Faster RCNN識別的準(zhǔn)確度.
因?yàn)榻?jīng)過頭網(wǎng)絡(luò)的邊框回歸層之后的邊框位置會更精確,這里的邊框回歸層為本文提出的非類別特異性回歸方法.而且頭網(wǎng)絡(luò)的分類層又過濾了一大部分背景區(qū)域.本文將利用頭網(wǎng)絡(luò)回歸之后的精確區(qū)域,并結(jié)合ROIAlign方法,對這些區(qū)域作為輸入,再一次經(jīng)過頭網(wǎng)絡(luò)的分類層.如圖5所示.
圖5 重識別層模型
傳統(tǒng)Faster RCNN可以定義為:
所添加的重識別層,選出候選區(qū)域中被分類為非背景的區(qū)域,背景類別用0表示,然后將其回歸邊框作為新的候選區(qū)域再進(jìn)行分類和回歸,表示為:
本文在構(gòu)建的商品數(shù)據(jù)集上驗(yàn)證了提出了方法.本文提出的數(shù)據(jù)集如圖6所示.利用本文的方法.我們不需要在商品數(shù)據(jù)集上訓(xùn)練邊框回歸.所以本文構(gòu)建的商品數(shù)據(jù)集訓(xùn)練圖像僅包含類別信息.訓(xùn)練集中共包含3200張訓(xùn)練圖像,400張測試圖像,共計(jì)40個(gè)商品類別.訓(xùn)練圖像通過2個(gè)攝像頭在4個(gè)不同的視角下拍攝的,每張圖像只有一個(gè)商品對象.而測試圖像包含多個(gè)商品,使用另外一個(gè)攝像頭拍攝,且圖像中的商品位置,角度多樣,且包含跨背景的測試圖像,如購物車背景下采集的測試圖像.
圖6 本文構(gòu)建的商品數(shù)據(jù)集圖片示例
所提出的非類別特異性Faster RCNN是在COCO數(shù)據(jù)集訓(xùn)練完成的,并直接應(yīng)用于商品訓(xùn)練圖像數(shù)據(jù)的預(yù)標(biāo)注.COCO數(shù)據(jù)集共80個(gè)類別,并包括非常多的圖片以及邊框和類別標(biāo)注.
本文構(gòu)建的商品數(shù)據(jù)集和COCO數(shù)據(jù)集主要的區(qū)別在于,本文商品數(shù)據(jù)集中的物體時(shí)可旋轉(zhuǎn)的,且訓(xùn)練數(shù)據(jù)遠(yuǎn)遠(yuǎn)少于COCO數(shù)據(jù)集.且本文構(gòu)建的數(shù)據(jù)集中,訓(xùn)練圖片僅包含單個(gè)商品,且不需邊框標(biāo)定.
本文提出的非類別特異性回歸層來改進(jìn)原始Faster RCNN 的類別特異性回歸層,組成非特異性Faster RCNN 模型.希望能夠從公開數(shù)據(jù)集中學(xué)習(xí)邊框回歸知識,并直接應(yīng)用于單個(gè)商品訓(xùn)練圖片的預(yù)標(biāo)注.(1) 首先利用原始的FasterRCNN 在COCO 上進(jìn)行訓(xùn)練,其主干網(wǎng)絡(luò)中Resnet 模型使用ImageNet 預(yù)訓(xùn)練模型,然后進(jìn)行分類層和回歸層的訓(xùn)練,最后進(jìn)行整體網(wǎng)絡(luò)模型的聯(lián)合訓(xùn)練.這樣做是為了使的模型從COCO數(shù)據(jù)集中學(xué)習(xí)到有效的特征泛化能力.(2) 將訓(xùn)練好的Faster RCNN 模型中的邊框回歸層改為所提出的非類別特異性回歸層,其他部分的參數(shù)保持不變,僅在COCO 數(shù)據(jù)集訓(xùn)練非類別特異性回歸層.(3) 對于新的非類別特異性Faster RCNN,再使用COCO 數(shù)據(jù)集調(diào)優(yōu)整個(gè)網(wǎng)絡(luò).這樣是為了使ROIAlign 得到的特征可以兼顧分類和邊框回歸的能力.通過以上步驟訓(xùn)練完成的模型可以直接用于商品訓(xùn)練圖像的標(biāo)注.訓(xùn)練非類別特異性Faster RCNN時(shí),其基本超參數(shù)設(shè)置如表1所示.
表1 非類別特異性Faster RCNN基本參數(shù)設(shè)置
通過非類別特異性Faster RCNN與Grabcut的結(jié)合,可以生成大量的多個(gè)商品圖像樣本.并用于整體模型的訓(xùn)練.訓(xùn)練步驟如下: (1)首先,在用于訓(xùn)練樣本預(yù)標(biāo)定的非類別特異性Faster RCNN 的參數(shù)基礎(chǔ)上進(jìn)行訓(xùn)練,保持主干網(wǎng)絡(luò)和非類別特異性回歸層參數(shù)不變,僅訓(xùn)練分類層模型.(2)然后保持非類別特異性回歸層參數(shù)不變,同時(shí)訓(xùn)練RPN 網(wǎng)絡(luò)的分類層和回歸層,以及步驟(1)中的分類層.(3)訓(xùn)練整個(gè)網(wǎng)絡(luò),包括主干網(wǎng)絡(luò)中的Resnet 參數(shù),僅固定非類別特異性回歸層.這是因?yàn)橹鞲删W(wǎng)絡(luò)中的特征由COCO 訓(xùn)練完成,為了使其更好地提取商品數(shù)據(jù)中的特征,需要對其主干網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練.通過以上步驟,利用生成的樣本訓(xùn)練完成的模型可以用于真實(shí)商品圖像的檢測任務(wù).而且其中的非類別特異性回歸層無需在目標(biāo)數(shù)據(jù)集進(jìn)行再訓(xùn)練,更加印證了其知識遷移的能力.
在實(shí)驗(yàn)中,我們使用Faster RCNN的擴(kuò)展版Mask RCNN,其除Faster RCNN方法外利用了特征金字塔網(wǎng)絡(luò)(FPN)和興趣區(qū)域?qū)R(ROIAlign)方法[6].在訓(xùn)練過程中不需要進(jìn)行分割預(yù)測,因此我們移除了Mask RCNN中的分割分支,只使用其分類和回歸分支.實(shí)驗(yàn)在2個(gè)NVIDIA TITANX GPU上進(jìn)行.初始的學(xué)習(xí)率為0.001,并在訓(xùn)練時(shí)手動調(diào)整.動量參數(shù)Momentum為0.9.
首先利用COCO數(shù)據(jù)集訓(xùn)練Faster RCNN中的分類分支與本文提出的非類別特異性回歸分支.如圖7所示,圖中的黑色邊界是由于Mask RCNN[13]方法中的零填充(Zero Padding)導(dǎo)致的,Mask RCNN方法是Faster RCNN的擴(kuò)展版本.其中虛線代表候選區(qū)域,實(shí)線代表候選區(qū)域?qū)?yīng)的邊框回歸結(jié)果,可以看出本文提出的非類別特異性回歸分支可以預(yù)測候選區(qū)域的真實(shí)邊框,而且商品周圍的候選區(qū)域?qū)?yīng)的回歸邊框趨向于同一位置.同時(shí)相較于傳統(tǒng)Faster RCNN,回歸層參數(shù)量減少很多,且不需再訓(xùn)練即可遷移到其它數(shù)據(jù)集.
圖7 候選區(qū)域與其對應(yīng)的回歸邊框
提取訓(xùn)練圖像的商品邊框之后,結(jié)合Grabcut算法對商品區(qū)域進(jìn)行分割.因?yàn)橛?xùn)練圖像包含大面積背景,若直接利用Grabcut算法對原始訓(xùn)練圖像進(jìn)行分割,其分割效果非常不理想.因?yàn)闆]有邊框來標(biāo)定圖像的背景區(qū)域,一般取圖像的最外圍的像素作為背景.然而其所占面積非常小,很難對整個(gè)背景進(jìn)行建模.在結(jié)合本文提出的非類別特異性Faster RCNN預(yù)標(biāo)注算法與Grabcut算法進(jìn)行訓(xùn)練集的商品圖像分割.然后使用簡單的圖像處理方法,來生成多個(gè)商品的訓(xùn)練圖像,用于Faster RNN模型的訓(xùn)練,生成的圖像數(shù)據(jù)如圖4所示.在使用Grabcut 算法進(jìn)行圖像生成時(shí),對象重疊面積上限設(shè)置為10 000.對于不同的重疊面積,本文對其效果進(jìn)行了對比.如圖8,當(dāng)重疊面積為0時(shí),即商品距離較遠(yuǎn)時(shí),效果不好,因?yàn)樯唐肪嚯x較遠(yuǎn),很難出現(xiàn)折疊等情況,使得網(wǎng)絡(luò)得不到折疊情況的訓(xùn)練,所以效果相對較差.當(dāng)重疊面積為6000時(shí),模型的召回率(Recall) 和精度(Precision) 分別達(dá)到93.8%和96.3%,效果最好.重疊面積過大時(shí),會使商品之間大面積覆蓋,會傾向于誤導(dǎo)網(wǎng)絡(luò)誤識別.
模型在進(jìn)行識別和定位時(shí),對于每個(gè)區(qū)域都會輸出其對應(yīng)類別的概率,在進(jìn)行模型的布置時(shí)通常需要對概率進(jìn)行閾值化,過濾概率低的預(yù)測,保留概率高的結(jié)果.因此,我們分析了不同的閾值對于模型的召回率和精度的影響,如圖9.一般情況下概率閾值越高,精度越高,召回率越低.概率閾值越低,精度越低,召回率越高.圖9中,概率閾值為0.3時(shí),我們的模型能同時(shí)達(dá)到較高的精度和召回率,這是因?yàn)槟P蛯︻悇e的預(yù)測概率較高,低閾值對其影響不大,模型預(yù)測能力強(qiáng).本文為了權(quán)衡準(zhǔn)確率和召回率,確定概率閾值為0.7,這是召回率為93.8%,精度為96.3%.
圖8 不同組合策略的檢測結(jié)果
圖9 不同概率閾值的檢測效果
如表2,我們通過對模型各部分進(jìn)行分析,所提出的結(jié)合Grabcut 的樣本增強(qiáng)方法,使檢測召回率提升超過40%,精確度提升了30%.為了提高多個(gè)商品檢測的精度,本文提出了重識別層,將分類與回歸之后的候選區(qū)域,經(jīng)過邊框回歸層矯正之后,再次輸入分類層.經(jīng)過非特異性邊框回歸層的矯正,可以有效避免候選區(qū)域不精確帶來的分類誤差.在使用重識別層時(shí),比不使用重識別層時(shí)召回率提高了3%,精率提高了4%.
表2 本文所提方法各部分效果分析
因?yàn)樗岢龅姆穷悇e特異性Faster RCNN可以檢測到單個(gè)商品邊框,當(dāng)應(yīng)用到多個(gè)商品的檢測時(shí),其主要問題是當(dāng)商品邊框內(nèi)存在其他商品的區(qū)域時(shí)會對識別造成干擾.而非類別特異性Faster RCNN的邊框回歸不受多個(gè)商品的影響.因此,在使用本文生成的多個(gè)商品的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),僅訓(xùn)練分類層的參數(shù),同時(shí)保持非類別特異性回歸層參數(shù)不變.檢測結(jié)果如圖10所示,通過所提出的圖像增強(qiáng)技術(shù),實(shí)現(xiàn)了多個(gè)商品的檢測,且其中的非類別特異性回歸層僅使用公開數(shù)據(jù)集訓(xùn)練,并學(xué)習(xí)到了回歸知識,且遷移到商品圖像檢測時(shí)并不需要再訓(xùn)練.
圖10 商品檢測結(jié)果
本文在構(gòu)建的商品數(shù)據(jù)集中量化驗(yàn)證了所提出的方法.由于本文旨在解決數(shù)據(jù)瓶頸問題.所構(gòu)建的訓(xùn)練數(shù)據(jù)集中僅有類別標(biāo)簽,沒有邊框標(biāo)定.這種情況下,傳統(tǒng)的圖像檢測方法一般使用無監(jiān)督的SIFT[16]特征,計(jì)算被檢索圖像的局部特征并與訓(xùn)練集中圖像的特征做相似度匹配.目前效果最好的深度學(xué)習(xí)方法,如VGG16[1]、VGG19[1]、 Xception[17]、Resnet[7],一般將其視為多標(biāo)簽分類任務(wù)進(jìn)行識別.本章對這些方法進(jìn)行了比較.如表3所示,SIFT和其它目前最優(yōu)的深度學(xué)習(xí)方法的性能明顯低于本文所提出的方法.一方面SIFT沒有區(qū)別背景特征,從而導(dǎo)致背景特征影響了匹配效果;另一方面其為無監(jiān)督人工特征,在識別效果上不及有監(jiān)督方法,而且商品包裝會有嚴(yán)重的反光,也使其特征性能較低.其它深度學(xué)習(xí)方法由于從單個(gè)商品訓(xùn)練圖像推廣到多個(gè)商品訓(xùn)練圖像時(shí),沒有學(xué)習(xí)到多個(gè)商品相近時(shí)的區(qū)分信息,同時(shí)也沒有區(qū)別背景特征,因此識別率低.而有些深度學(xué)習(xí)模型如VGG16和VGG19,其效果和SIFT相差不大,這是因?yàn)閺膯蝹€(gè)商品訓(xùn)練圖像到多個(gè)商品識別與定位這種跨任務(wù)識別任務(wù)使得深度學(xué)習(xí)模型性能很低.而本文方法通過提出一種無需目標(biāo)數(shù)據(jù)集訓(xùn)練的樣本標(biāo)注以及樣本增強(qiáng)方法,可以利用單個(gè)商品的訓(xùn)練圖像來學(xué)習(xí)到多個(gè)商品的區(qū)分信息,起到了跨任務(wù)的橋梁作用,對性能有很大提升.
表3 不同的方法對比
本文基于Faster RCNN提出了一種非類別特異性的邊框回歸層,僅使用公開數(shù)據(jù)集訓(xùn)練,無需在目標(biāo)數(shù)據(jù)集上進(jìn)行再訓(xùn)練,并將其用于數(shù)據(jù)預(yù)標(biāo)定與商品檢測.同時(shí)結(jié)合Grabcut與非類別特異性Faster RCNN提出了一種樣本增強(qiáng)方法,來生成包含多個(gè)商品的訓(xùn)練圖像,用于模型的訓(xùn)練; 并為Faster RCNN添加了重識別層,提高了檢測精度.未來,我們將致力于研究如何在沒有數(shù)據(jù)標(biāo)定的情況下,將本文方法拓展到圖像分割領(lǐng)域.