(重慶交通大學(xué) 信息科學(xué)與工程學(xué)院,重慶 400074)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究?jī)?nèi)容,近年來(lái)得益于GPU的并行計(jì)算能力以及深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力,深度學(xué)習(xí)在圖像處理領(lǐng)域取得了很大的進(jìn)步。但在目標(biāo)檢測(cè)中除了使用圖像信息以外,學(xué)術(shù)界早已提出使用多模態(tài)的信息來(lái)提升某一個(gè)任務(wù)的性能,其中自然語(yǔ)言就是一種重要的多媒體信息。與其他類(lèi)型的信息相比,自然語(yǔ)言可以提供一種靈活而緊湊的方式來(lái)描述區(qū)分不同的視覺(jué)特征。
自然語(yǔ)言與圖像的匹配方法主要分為兩種類(lèi)型,一種是匹配式:提取圖像特征與自然語(yǔ)言特征,將二者的特征進(jìn)行匹配,返回相似度最高的圖片區(qū)域。另一種是生成式:為每個(gè)圖像的候選區(qū)域生成自然語(yǔ)言描述,與目標(biāo)自然語(yǔ)言對(duì)比,返回相似度最高的區(qū)域。
本文將從匹配式和生成式兩個(gè)方面介紹基于自然語(yǔ)言的目標(biāo)檢測(cè)算法,并對(duì)該領(lǐng)域的發(fā)展趨勢(shì)進(jìn)行展望。
2017年,Shuang Li等人首次提出使用自然語(yǔ)言進(jìn)行行人重識(shí)別,并且首次建立了一個(gè)包括不同來(lái)源圖片樣本和詳細(xì)自然語(yǔ)言注釋的大型行人資料數(shù)據(jù)集CUHK-PEDES,其中提出了一種基于門(mén)控神經(jīng)注意機(jī)制的遞歸神經(jīng)網(wǎng)絡(luò)GNA-RNN,該網(wǎng)絡(luò)中包含一個(gè)視覺(jué)子網(wǎng)絡(luò)和一個(gè)語(yǔ)言子網(wǎng)絡(luò),視覺(jué)子網(wǎng)絡(luò)用于提取圖像特征,語(yǔ)言子網(wǎng)絡(luò)用于提取語(yǔ)言特征并為不同的詞語(yǔ)賦予權(quán)重,根據(jù)查詢(xún)對(duì)象的文本描述,利用搜索算法對(duì)數(shù)據(jù)庫(kù)中的所有樣本進(jìn)行排序,從而檢索出與描述最相關(guān)的樣本[1]。
Tianlang Chen等人針對(duì)Shuang Li的算法中對(duì)圖像空間中的關(guān)鍵屬性感知能力不強(qiáng)的問(wèn)題,設(shè)計(jì)了一個(gè)動(dòng)態(tài)閾值機(jī)制來(lái)計(jì)算單詞與局部圖像塊的關(guān)聯(lián)度。對(duì)于每個(gè)單詞都設(shè)置一個(gè)閾值來(lái)判定是否和圖像匹配,并對(duì)關(guān)聯(lián)度進(jìn)行一個(gè)動(dòng)態(tài)壓縮以緩解匹配時(shí)的敏感問(wèn)題。Ying Zhang在隱空間特征學(xué)習(xí)的跨模態(tài)檢索方法基礎(chǔ)上提出了兩個(gè)損失函數(shù),分別為Cross-Modal Projection Matching(CMPM)和Cross-Modal Projection Classification(CMPC),用以提升跨模態(tài)特征的匹配性能。Dapeng Chen等人針對(duì)行人重識(shí)別的問(wèn)題,提出在訓(xùn)練階段利用自然語(yǔ)言來(lái)輔助進(jìn)行圖像特征的學(xué)習(xí),使用注意力函數(shù)構(gòu)建自然語(yǔ)言和圖像特定區(qū)域的關(guān)聯(lián),形成加權(quán)聚合特征向量,最終測(cè)試時(shí)利用學(xué)習(xí)到的圖像特征進(jìn)行檢索。Kuang-Huei Lee分別對(duì)文本和圖像應(yīng)用注意力機(jī)制,學(xué)習(xí)比較好的文本和圖像表示,然后再在共享的子空間中利用三重?fù)p失度量文本和圖像之間的相似性。周炫余[2]首先利用圖像分析的方法初步獲取圖像目標(biāo)的候選框,其次通過(guò)文本分析的方法獲取文本中有關(guān)圖像目標(biāo)的實(shí)體表達(dá),并提出一種基于馬爾科夫隨機(jī)場(chǎng)的模型用于推斷圖像候選框與文本實(shí)體表達(dá)之間的共指關(guān)系,以此聯(lián)合圖像和文本信息以輔助機(jī)器視覺(jué)提高交通場(chǎng)景下行人檢測(cè)精度。
匹配式方法計(jì)算量小、速度快,但是訓(xùn)練過(guò)程中圖像特征不能被優(yōu)化,模型準(zhǔn)確率不高。
Bokun Wang等人基于在不同模態(tài)之間進(jìn)行對(duì)抗學(xué)習(xí)可以獲得一個(gè)有效的共享子空間,提出了一種對(duì)抗性的跨模態(tài)檢索方法。Yan Huang等人發(fā)現(xiàn)使用券積神經(jīng)網(wǎng)絡(luò)提取特征向量時(shí),背景的一些細(xì)節(jié)將會(huì)被忽略,像素級(jí)別的圖片描述缺少高層次的語(yǔ)義信息。針對(duì)該問(wèn)題Yan Huang提出了語(yǔ)義增強(qiáng)圖片及語(yǔ)句匹配模型,該模型中設(shè)計(jì)了一個(gè)門(mén)融合單元將全局特征和局部特征組合在一起,通過(guò)對(duì)圖片進(jìn)行語(yǔ)義學(xué)習(xí)并組織為正確的語(yǔ)義順序來(lái)實(shí)現(xiàn)語(yǔ)句生成。
Jiuxiang Gu第一次同時(shí)利用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)和強(qiáng)化學(xué)習(xí)做跨媒體檢索,提出了可以同時(shí)做三件跨媒體任務(wù)的生成式跨模態(tài)特征學(xué)習(xí)框架(Generative Cross-modal Feature Learning Framework,GXN)。主要包含三個(gè)步驟:Look、Imageine、Match。Look:給出一個(gè)查詢(xún)文本或圖像,提取出對(duì)應(yīng)的抽象表示。Image:將第一步中得到的一種模態(tài)的特征表示生成為另一種模態(tài)表示,并將其和真實(shí)數(shù)據(jù)進(jìn)行比較來(lái)生成一個(gè)更加精細(xì)的底層表示。Match:使用組合了高層抽象表示和局部底層表示的特征表示來(lái)進(jìn)行圖像和文本對(duì)的關(guān)聯(lián)匹配。莫建文[3]在堆疊式文本到圖像生成模型的基礎(chǔ)上,針對(duì)其生成樣本分布不均勻?qū)е露鄻有圆蛔愕膯?wèn)題,提出了一種結(jié)合局部-全局互信息最大化的堆疊式文本到圖像的生成對(duì)抗網(wǎng)絡(luò)模型。
生成式方法可以在訓(xùn)練的過(guò)程中端到端的訓(xùn)練圖像區(qū)域特征,但是對(duì)每個(gè)圖像區(qū)域特征都需要生成自然語(yǔ)言,計(jì)算量大。當(dāng)圖像中候選區(qū)域較多時(shí),生成式方法計(jì)算速度慢,消耗資源多。
大量免費(fèi)公開(kāi)的數(shù)據(jù)集用于圖像及文本的研究,這些數(shù)據(jù)集中的圖像與文本描述相關(guān)聯(lián),不同的數(shù)據(jù)集中圖像張數(shù),自然語(yǔ)言描述的條數(shù)、句子長(zhǎng)短、句子格式等也不相同。常用的數(shù)據(jù)集包括CUHK-PEDES數(shù)據(jù)集、Flickr8K數(shù)據(jù)集、Flickr30k數(shù)據(jù)集、MSCOCO數(shù)據(jù)集、Cops-Ref數(shù)據(jù)集等。
目前基于自然語(yǔ)言的目標(biāo)檢測(cè)算法發(fā)展相對(duì)緩慢,主要原因在于建模理解圖像和自然語(yǔ)言之間的聯(lián)系比較難。圖像中有顏色、位置、紋理等多種屬性,自然語(yǔ)言可能描述其一種或多種屬性。針對(duì)這些挑戰(zhàn),未來(lái)可以考慮結(jié)合更復(fù)雜的多任務(wù)或注意力機(jī)制,充分融合圖像特征和語(yǔ)言特征向量。