黃 立,朱定局
(華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510631)
隨著5G 網(wǎng)絡(luò)技術(shù)的發(fā)展和視頻拍攝以及創(chuàng)作技術(shù)門檻的降低,包括以嗶哩嗶哩為代表的長視頻平臺(tái)和以抖音為代表的短視頻平臺(tái)的視頻規(guī)模、投稿數(shù)和用戶活躍度都得到了極速的增長,導(dǎo)致了現(xiàn)在互聯(lián)網(wǎng)上的視頻數(shù)據(jù)量呈爆炸式增長.以長視頻平臺(tái)嗶哩嗶哩為例,根據(jù)嗶哩嗶哩2020年第二季度的財(cái)報(bào)顯示,該平臺(tái)視頻創(chuàng)作者月均投稿量相比上個(gè)季度同比增長148%,日均視頻播放量達(dá)到了12 億次.面對(duì)大量的視頻數(shù)據(jù),如何從這些視頻庫中檢索出人們所需的視頻,是當(dāng)下面臨的一個(gè)挑戰(zhàn).因此,許多視頻檢索系統(tǒng)也由此而誕生和引入.
本文旨在綜述基于語義的視頻檢索方法,在第1 節(jié)中詮釋了相關(guān)視頻術(shù)語,在第2 節(jié)中討論了基于語義的視頻檢索系統(tǒng)的結(jié)構(gòu),在第3 節(jié)中對(duì)基于語義的視頻檢索領(lǐng)域中的應(yīng)用進(jìn)行了概述,在最后第4 節(jié)中作了總結(jié)與展望.
視頻檢索技術(shù)的相關(guān)概念包括視頻檢索技術(shù)本身的分類和發(fā)展,以及視頻的基礎(chǔ)概念知識(shí).
視頻檢索的檢索技術(shù)主要有兩種形式:基于文本的視頻檢索技術(shù)(Text Based Video Retrieval,TBVR)[1]和基于內(nèi)容的視頻檢索技術(shù)(Content Based Video Retrieval,CBVR)[2].在基于文本的視頻檢索技術(shù)中,需要對(duì)視頻進(jìn)行大量的手工注釋,這種方法的視頻檢索依賴于與每個(gè)視頻相關(guān)的元數(shù)據(jù),例如標(biāo)簽、標(biāo)題、描述和關(guān)鍵字等,缺點(diǎn)是需要人工進(jìn)行注釋.基于內(nèi)容的視頻檢索技術(shù)的研發(fā)初衷就是為了解決基于文本的視頻檢索技術(shù)中的缺點(diǎn),基于內(nèi)容的視頻檢索技術(shù)能夠自動(dòng)地識(shí)別視頻中內(nèi)容的特征,例如顏色、紋理、形狀等,然后根據(jù)所提取的特征做進(jìn)一步的處理,包括關(guān)鍵幀檢測提取、聚類和建立索引等工作.
語義表達(dá)是構(gòu)建高效視頻數(shù)據(jù)索引的基礎(chǔ),除了視頻畫面中所表現(xiàn)的各種物體顏色和形狀等信息,真正能夠讓人們識(shí)別視頻的關(guān)鍵因素還是視頻所表達(dá)的意義和概念.因此,基于語義的視頻檢索技術(shù)(Semantic Based Video Retrieval,SBVR)[3,4]是視頻檢索系統(tǒng)領(lǐng)域的重要研究方向.通常情況下,人類能夠準(zhǔn)確感知視頻中的內(nèi)容所表達(dá)的意義,但計(jì)算機(jī)的感知能力還遠(yuǎn)不如人類般切實(shí),這種差異化的表現(xiàn)被稱為語義鴻溝(semantic gap)[5,6].基于語義表達(dá)技術(shù)的核心思想是將從視頻的內(nèi)容中提取到的低層特征與人類對(duì)這些特征的認(rèn)知理解之間進(jìn)行映射匹配,結(jié)構(gòu)如圖1所示.
圖1 跨越語義鴻溝
視頻的屬性信息可以分為3 類:第1 類是顏色、形狀等視覺上可見的低層特征信息;第2 類是聽覺上的如響度和音調(diào)等,或是文字和符號(hào)等描述信息;第3 類是用戶能夠感知到的視頻中發(fā)生的事情的語義信息.能被用來確定視頻中所發(fā)生的事件的語義的信息包括:事件對(duì)象信息、空間信息和時(shí)間信息.提取不同模態(tài)的視頻特征的目的,就是為了彌合低水平特征和高水平語義概念之間的鴻溝.
視頻的結(jié)構(gòu)自頂向下主要分為:視頻、場景、鏡頭和幀,如圖2所示.視頻是由許多場景組成,是一組連續(xù)靜態(tài)圖像的序列,同時(shí)敘述一個(gè)完整的故事結(jié)構(gòu).場景是一組在語義上相關(guān)、在時(shí)間上相鄰的鏡頭,是在相同的地點(diǎn)和連續(xù)的時(shí)間內(nèi)進(jìn)行描述的一個(gè)高級(jí)的概念.物理邊界描述了鏡頭,語義邊界則描述了場景.鏡頭是指使用單個(gè)鏡頭進(jìn)行連續(xù)拍攝的片段,且視頻序列內(nèi)容也沒有明顯變化,是一段視頻序列的基本組成單元,鏡頭邊界檢測(shot boundary detection)[7]是指將視頻片段分割到鏡頭層面的處理操作.幀是構(gòu)成完整運(yùn)動(dòng)畫面的靜止圖像之一,是視頻中的最小單位.關(guān)鍵幀是由于連續(xù)幀之間的相似性,因此需要根據(jù)鏡頭內(nèi)容的復(fù)雜性從單個(gè)鏡頭中選擇一個(gè)或多個(gè)關(guān)鍵幀,所選擇的關(guān)鍵幀即代表著當(dāng)前視頻幀的內(nèi)容.
圖2 視頻分層結(jié)構(gòu)
基于語義的視頻檢索系統(tǒng)的總體結(jié)構(gòu)如圖3所示.包括如下幾個(gè)部分:結(jié)構(gòu)分析,包括鏡頭邊界檢測、關(guān)鍵幀提取和場景分割;特征提取,即從視頻圖像中提取特征;視頻挖掘,即對(duì)提取到的特征進(jìn)行挖掘;視頻標(biāo)注,即對(duì)提取特征的語義索引的構(gòu)建和對(duì)相關(guān)知識(shí)的挖掘;用戶查詢,即在視頻數(shù)據(jù)庫中搜索所需的視頻;相關(guān)性反饋,即通過相關(guān)性反饋優(yōu)化搜索結(jié)果.
圖3 基于語義的視頻檢索系統(tǒng)結(jié)構(gòu)
首先通過鏡頭檢測算法將視頻分割成多個(gè)鏡頭,然后確定能夠代表該鏡頭的關(guān)鍵幀.
鏡頭邊界檢測是指將整個(gè)視頻流分割成多個(gè)鏡頭,在鏡頭邊界位置的幀與其下一幀在視覺特征上是相當(dāng)不同的,這是大多數(shù)鏡頭檢測算法所依賴的基本原則.鏡頭邊界指的是連續(xù)鏡頭突變或漸變(如溶解、淡入、淡出、擦除等)的轉(zhuǎn)折點(diǎn)[8].鏡頭邊界檢測常用的方法有:閾值法[9]將幀與幀之間的相似性與預(yù)先設(shè)定的閾值進(jìn)行比較;統(tǒng)計(jì)法將鏡頭的邊界檢測作為分類任務(wù),可以采用支持向量機(jī)(Support Vector Machines,SVM)的監(jiān)督學(xué)習(xí)算法[10]和模糊K-means (Fuzzy Kmeans)的無監(jiān)督學(xué)習(xí)算法[11]等方法進(jìn)行分類.
由于同一鏡頭的幀存在冗余,因此選擇一個(gè)或者多個(gè)最能反映鏡頭內(nèi)容的幀作為關(guān)鍵幀來表示鏡頭,提取關(guān)鍵幀的關(guān)鍵在于選擇最能反映鏡頭內(nèi)容同時(shí)盡可能避免冗余的幀[12].可以利用顏色直方圖、邊緣圖和低層形狀特征等方式確定關(guān)鍵幀,關(guān)鍵幀的提取可以基于順序比較[13]、參考幀[14]、聚類算法[15]和對(duì)象-事件模式[16]等.
特征是視頻數(shù)據(jù)中的描述性參數(shù),視頻數(shù)據(jù)的特征描述一般分為:低層特征、高層特征、對(duì)象特征和運(yùn)動(dòng)特征等.
低層特征可以從關(guān)鍵幀中提取,包括從完整圖像中提取的全局特征和所選圖像部分的局部特征.顏色特征的典型表示包括顏色直方圖、顏色矩陣和顏色相干向量等,其中使用最多的是顏色直方圖,它描述了圖像中每種顏色的相對(duì)數(shù)量.紋理特征可以通過Gabor濾波器[17]、小波變換[18]、方向特征[19]和共現(xiàn)矩陣[20]等方式來提取.形狀特征可以通過連接物體的邊緣線,從關(guān)鍵幀的物體的輪廓中提取.邊緣直方圖描述符(Edge Histogram Descriptor,EHD)[21]是一種用于邊緣檢測的算法,使用直方圖描述邊緣的分布.
對(duì)象特征包括對(duì)象所在區(qū)域內(nèi)的顏色、形狀和紋理等特征,可以根據(jù)這些相關(guān)特征來返回可能包含相似對(duì)象的視頻片段.對(duì)象表示法是一種描述對(duì)象的方法,通過該方法可以方便地從視頻流中檢測和檢索出對(duì)象.一般可以用物體的形狀來表示,例如基于原始的幾何形狀、輪廓和邊界線,也可以用物體的外觀來表示.對(duì)象特征的缺點(diǎn)是視頻中對(duì)對(duì)象的識(shí)別比較復(fù)雜,目前還是主要專注于識(shí)別對(duì)象的特定部分,比如僅針對(duì)手部等.
運(yùn)動(dòng)是動(dòng)態(tài)視頻的基本特征,它攜帶了視頻的時(shí)間信息,與顏色、紋理等其他特征相比,更接近于客觀的語義概念.基于運(yùn)動(dòng)的特征分為兩類:第1 類是基于相機(jī)鏡頭的運(yùn)動(dòng)特征,例如放大縮小、向左向右平移、向上向下傾斜等;第2 類是基于物體本身的運(yùn)動(dòng)特征.運(yùn)動(dòng)統(tǒng)計(jì)法[22],視頻幀中的點(diǎn)在視頻中形成運(yùn)動(dòng)分布圖,從而提取統(tǒng)計(jì)運(yùn)動(dòng)的特征.運(yùn)動(dòng)軌跡法[23],通過對(duì)視頻中物體運(yùn)動(dòng)軌跡的建模,提取軌跡特征,這些特征的準(zhǔn)確性依賴于運(yùn)動(dòng)視頻中正確的分割和目標(biāo)跟蹤.對(duì)象關(guān)系法[24],對(duì)多個(gè)對(duì)象之間的關(guān)系進(jìn)行描述,而這些特征的缺點(diǎn)是很難標(biāo)記每個(gè)對(duì)象及其位置.
視頻中的文本是對(duì)視頻進(jìn)行自動(dòng)標(biāo)注和建立索引的關(guān)鍵信息,幀或幀序列中的文本會(huì)根據(jù)其不同的屬性展示不同的變化,如運(yùn)動(dòng)狀態(tài)、顏色狀態(tài)、幾何狀態(tài)以及邊緣狀態(tài)等.由于文本區(qū)域?qū)υ肼暠容^敏感,在分辨率較低時(shí),需要對(duì)文本特征進(jìn)行增強(qiáng)處理,同時(shí)可以采用光學(xué)字符識(shí)別(Optical Character Recognition,OCR)技術(shù)提取文本特征并將其轉(zhuǎn)換為純文本.
視頻挖掘是從視頻數(shù)據(jù)中挖掘發(fā)現(xiàn)特定的匹配模式及其相關(guān)性,從而提取出未被發(fā)現(xiàn)的內(nèi)容的過程.
視頻的語義事件是人們?cè)谟^看視頻時(shí)能夠理解的高層次語義信息,視頻事件的檢測技術(shù)試圖使計(jì)算機(jī)對(duì)事件的感知能力接近于人類對(duì)事件的感知能力.而導(dǎo)致計(jì)算機(jī)對(duì)視頻事件理解困難的原因有很多,例如目標(biāo)檢測和跟蹤的不準(zhǔn)確、某些事件的畫面發(fā)生變化、不同事件的畫面表現(xiàn)相似、事件語義的定義解釋存在歧義等.
使用無監(jiān)督或半監(jiān)督學(xué)習(xí)技術(shù)來自動(dòng)檢測未知的匹配模式,利用匹配模式可以檢測挖掘出與當(dāng)前匹配模式不同的非尋常事件.匹配模式挖掘還可以發(fā)現(xiàn)一些特殊的內(nèi)容,例如挖掘相似的運(yùn)動(dòng)模式[25]和挖掘相似的目標(biāo)對(duì)象[26].
視頻關(guān)聯(lián)挖掘可以定義為檢測不同事件之間的未知關(guān)系,識(shí)別不同對(duì)象之間的關(guān)聯(lián)模式的過程.
在基于語義的視頻檢索中,視頻標(biāo)注是為視頻鏡頭分配語義概念的過程,如人、車、天空和行人等.視頻標(biāo)注和視頻分類的一個(gè)不同之處在于視頻分類一般適用于整個(gè)視頻,而視頻標(biāo)注通常使用的是視頻鏡頭作為基礎(chǔ)組成單元.由于視頻標(biāo)注技術(shù)有助于彌合語義鴻溝,因此它也是視頻分析任務(wù)的基礎(chǔ),自動(dòng)化生成視頻標(biāo)注至今仍然是一項(xiàng)艱巨的任務(wù).基于學(xué)習(xí)技術(shù),視頻標(biāo)注可以分為3 類:監(jiān)督學(xué)習(xí)[27]需要足夠數(shù)量的標(biāo)記訓(xùn)練樣本來學(xué)習(xí)每個(gè)概念的具有魯棒性的檢測器,并且需要的數(shù)量隨著特征維數(shù)的增加而急劇增加;主動(dòng)學(xué)習(xí)[28]是將無標(biāo)記樣本與監(jiān)督學(xué)習(xí)技術(shù)相結(jié)合來解決無標(biāo)記樣本問題的一種有效方法;半輔助學(xué)習(xí)[29]也是一種利用未標(biāo)記樣本增加已標(biāo)記樣本信息的有效方法.
視頻檢索的目的是返回用戶查詢的最相關(guān)的視頻,而不同的提交查詢數(shù)據(jù)會(huì)得到非常不同的查詢結(jié)果.
查詢類型可以分類為基于非語義的查詢,例如按對(duì)象查詢和按示例查詢等,以及基于語義的查詢,例如按關(guān)鍵字查詢和按自然語言查詢等.按示例查詢,用戶提供一個(gè)圖像或視頻作為示例,以便在該查詢中檢索所需的視頻.從特定的圖像或視頻示例中提取低層特征,然后通過特征相似性度量確定相似視頻;按草圖查詢,視頻草圖由用戶繪制,以便使用它們檢索所需的視頻;按對(duì)象查詢,利用用戶提供的對(duì)象圖像,在系統(tǒng)視頻數(shù)據(jù)庫中檢索出現(xiàn)的所有該對(duì)象;按關(guān)鍵字查詢,用一組關(guān)鍵字描述用戶的查詢,它能夠從視頻中獲得一定程度的語義信息;按概念查詢,也稱為語義查詢,它是關(guān)鍵字查詢和示例查詢的擴(kuò)展,用以縮小查詢結(jié)果范圍,它依賴于具有與視頻內(nèi)容信息相關(guān)概念的語義標(biāo)注;按自然語言查詢,這是表示語言查詢中最自然也是最合適的方向,這種類型查詢的難點(diǎn)在于分析和從自然語言中派生出正確的語義信息;基于組合的查詢,集成各種類型的查詢,如關(guān)鍵字查詢和對(duì)象查詢,它適用于多模型的系統(tǒng).
根據(jù)用戶對(duì)檢索系統(tǒng)的查詢提交,將相似度度量技術(shù)應(yīng)用于數(shù)據(jù)庫中的視頻檢索.一些常見的相似性度量依據(jù)包括歐氏距離(Euclidean distance)、平方弦距離(squared chord distance)、卡方距離(chi-squared distance)、發(fā)散度和相關(guān)性等.根據(jù)查詢類型,選擇用于度量視頻相似性的方法.特征匹配方法[30]根據(jù)對(duì)應(yīng)幀的特征之間的距離來度量視頻與查詢條件之間的相似度.文本匹配方法[31]采用歸一化處理后的向量空間模型來計(jì)算概念描述文本與查詢文本之間的相似性.組合匹配方法[32]結(jié)合不同的匹配方法,它能夠適應(yīng)多種模式.
相關(guān)性反饋將用戶查詢條件帶入系統(tǒng)循環(huán)檢索,用以縮小提交查詢所表示的內(nèi)容和用戶所想內(nèi)容之間的差距.相關(guān)性反饋是對(duì)檢索結(jié)果的優(yōu)化,相關(guān)性反饋根據(jù)查詢條件和返回視頻之間的相似性,對(duì)檢索到的視頻進(jìn)行評(píng)分排名來反映用戶所表達(dá)意思的優(yōu)先級(jí).根據(jù)檢索結(jié)果列出視頻,以便于最相關(guān)的視頻在檢索列表的頂部呈現(xiàn)給用戶.顯式相關(guān)性反饋[33]要求用戶確定選擇相關(guān)的視頻,顯式反饋因?yàn)橹苯永昧擞脩舻姆答?所以反饋效果較好,但也需要更多的互動(dòng)和用戶的配合.隱式相關(guān)性反饋[34]當(dāng)用戶點(diǎn)擊檢索到的視頻時(shí),記錄此次點(diǎn)擊用以優(yōu)化檢索結(jié)果,與顯式反饋不同,隱式反饋不需要用戶協(xié)作,更容易被接受和實(shí)施,但從用戶處收集的信息不如顯式反饋的信息精確.偽相關(guān)性反饋[35]在沒有用戶干預(yù)的情況下,從已有的檢索結(jié)果中選擇正樣本和負(fù)樣本,再將這些樣本送回系統(tǒng)中進(jìn)行研究處理,雖然偽相關(guān)性反饋無需與用戶進(jìn)行交互,但語義的理解差距導(dǎo)致偽相關(guān)性反饋在應(yīng)用中受到一定限制.
近年視頻檢索技術(shù)在商業(yè)、工業(yè)和教育等領(lǐng)域都進(jìn)行了一定規(guī)模的應(yīng)用,以下選擇主要從視頻盜版檢測、視頻廣告監(jiān)管以及其他方向的應(yīng)用進(jìn)行闡述.
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,近年來中國網(wǎng)絡(luò)核心版權(quán)的產(chǎn)業(yè)規(guī)模迅速增長,核心版權(quán)包括大眾所熟知的視頻、音樂、文學(xué)、游戲、廣告以及圖片等,國內(nèi)視頻網(wǎng)站也越來越重視版權(quán)價(jià)值并將維護(hù)版權(quán)作為發(fā)展重點(diǎn).與此產(chǎn)生鮮明對(duì)比的是網(wǎng)絡(luò)視頻盜版給企業(yè)特別是著作權(quán)方帶來了嚴(yán)重的損失,并且這種影響是全球性的,盜版造成的損失與正版產(chǎn)生的收入呈正相關(guān),在越來越多正版視頻出現(xiàn)的同時(shí),視頻的盜版現(xiàn)象也越來越嚴(yán)重.典型的侵權(quán)模式主要是用戶通過下載、破解等手段從擁有正版版權(quán)的視頻網(wǎng)站上非法下載內(nèi)容,經(jīng)過一些包括添加水印、廣告在內(nèi)的剪輯、加工處理后,將盜版文件上傳至網(wǎng)盤、集合類視頻網(wǎng)站等平臺(tái)供其他用戶非法下載觀看從而獲取不正當(dāng)收益.
視頻檢索技術(shù)可以實(shí)現(xiàn)在大規(guī)模的視頻數(shù)據(jù)中檢索出近似重復(fù)的視頻片段,便于精準(zhǔn)、快速打擊盜版視頻.Chou 等[36]提出了一種基于時(shí)空模式的分層過濾框架下的近重復(fù)視頻檢索與定位方法,通過基于模式的索引樹(Pattern-based Index Tree,PI-Tree),快速過濾掉非近似重復(fù)的視頻,再設(shè)計(jì)基于m 模式的動(dòng)態(tài)規(guī)劃(m-Pattern-based Dynamic Programming,mPDP)算法來定位近似重復(fù)的視頻片段.da Silva 等[37]提出了一種相似自連接(similarity self-join)的聚類策略,視頻數(shù)據(jù)集中所有彼此相似的元素進(jìn)行自連接操作,將近似重復(fù)的視頻片段聚集起來進(jìn)行定位.當(dāng)被盜視頻被進(jìn)行一些加工處理,例如被添加廣告水印或被做了剪輯時(shí),對(duì)近似重復(fù)視頻檢索技術(shù)便會(huì)產(chǎn)生一定的影響造成一定程度的誤判.為提高在視頻畫面發(fā)生變化時(shí)檢索的準(zhǔn)確率,D’Amiano 等[38]提出了一種用于檢測和定位畫面發(fā)生一些變化的被拷貝視頻的方法,通過快速隨機(jī)化Patch 匹配算法和分層分析策略,對(duì)被遮擋、旋轉(zhuǎn)和壓縮的近似重復(fù)視頻片段也具有較好的檢測和定位能力.
視頻廣告作為數(shù)字視頻中的一個(gè)重要組成部分,正潛移默化地影響著人們的生活,其作為商業(yè)信息的重要載體,在傳遞商業(yè)信息上起著無可替代的作用.隨著視頻廣告數(shù)量的不斷增加和廣告播放方式的多樣化,通過視頻檢索技術(shù)對(duì)特定廣告進(jìn)行監(jiān)管和識(shí)別,有利于支撐廣告動(dòng)態(tài)分成業(yè)務(wù)生態(tài),輕松把控廣告投放的時(shí)間、次數(shù)等,同時(shí)保障了廣告版權(quán)方和投放平臺(tái)的利益,另外,基于此技術(shù)可以進(jìn)行廣告的高效識(shí)別、替換及廣告位競拍.
在海量視頻集中對(duì)廣告商品準(zhǔn)確、快速的識(shí)別和定位,有利于平臺(tái)的廣告監(jiān)管部門對(duì)視頻中出現(xiàn)的廣告進(jìn)行把控和管理,可以實(shí)現(xiàn)通過廣告的分布合理評(píng)估營收等應(yīng)用.Xu 等[39]提出了一種引入高集成度的多級(jí)特征集成模型的方案,通過更緊密地融合視覺與文本特征信息,再根據(jù)輸入的文本數(shù)據(jù),如特定廣告物品描述文本,利用一種雙層的長短時(shí)記憶(Long Short-Term Memory,LSTM)模型直接預(yù)測句子查詢和視頻片段之間的相似度分?jǐn)?shù),再使用分段網(wǎng)絡(luò)過濾掉目標(biāo)物品不存在的視頻片段,從而可以對(duì)出現(xiàn)目標(biāo)廣告物品的視頻片段實(shí)現(xiàn)定位.Mithun 等[40]提出了一種多模態(tài)視覺線索檢索的框架,根據(jù)多模態(tài)的視覺線索使用多專家系統(tǒng)(mixture of expert system)進(jìn)行檢索.為了能夠更有效地利用視頻中可用的多模態(tài)線索來完成視頻文本檢索的任務(wù),多專家系統(tǒng)注意力主要聚焦于3 個(gè)較為顯著和穩(wěn)定的視頻線索,即物體、活動(dòng)和地點(diǎn),通過對(duì)廣告商品在這3 個(gè)方面較完整的文本描述,檢索文本與系統(tǒng)模型的組合可以進(jìn)行較高質(zhì)量的檢索定位工作.相比直接使用文本進(jìn)行對(duì)廣告商品的檢索,當(dāng)文字概念描述與廣告商品本身不容易契合時(shí),使用商品圖片進(jìn)行檢索也是一個(gè)可用的選擇.Garcia 等[41]提出了一種基于深度學(xué)習(xí)(deep learning)架構(gòu)的非對(duì)稱時(shí)空嵌入(asymmetric spatio-temporal embedding)模型,用以在視頻集合中根據(jù)余弦相似度(cosine similarity)找到與輸入物品圖像最匹配的視頻片段.Cheng 等與Alibaba Group 一同提出了一種新的深度神經(jīng)網(wǎng)絡(luò)模型AsymNet[42],目標(biāo)是將視頻中出現(xiàn)的商品衣物與線上店鋪中相同的商品進(jìn)行匹配.從每個(gè)視頻幀的被檢測目標(biāo)區(qū)域中提取深度視覺特征,并將其輸入到LSTM 框架中進(jìn)行序列建模,再對(duì)視頻的LSTM 隱藏狀態(tài)與從靜態(tài)圖像中提取的圖像特征進(jìn)行聯(lián)合建模,實(shí)現(xiàn)視頻中的商品與網(wǎng)上購物圖像的精確匹配,樣例效果如圖4所示,虛線左邊為視頻片段,右邊為商品圖,方框圈出部分為匹配結(jié)果中細(xì)節(jié)裝飾的差異.
圖4 AsymNet 模型的部分檢索匹配結(jié)果[42]
視頻檢索技術(shù)除了應(yīng)用在商業(yè)視頻領(lǐng)域,例如視頻盜版檢測和視頻廣告監(jiān)管等方向之外,還可以應(yīng)用于城市建設(shè)、智能交通、安防監(jiān)管和教育視訊等領(lǐng)域.平安城市建設(shè)作為全國范圍的以視頻監(jiān)控應(yīng)用為主導(dǎo),兼顧城市管理、交通管理和應(yīng)急指揮等應(yīng)用的綜合體系,自然成為智能產(chǎn)品和技術(shù)應(yīng)用的重點(diǎn).隨著感知型攝像機(jī)的硬件實(shí)力配合云計(jì)算的強(qiáng)大算力進(jìn)入現(xiàn)實(shí)應(yīng)用中,可以對(duì)海量視頻數(shù)據(jù)進(jìn)行分析以實(shí)現(xiàn)基于語義的視頻檢索應(yīng)用,例如高危人員比對(duì)、人臉照片檢索、全身像檢索、車輛視頻管控和防區(qū)視頻管控等智能應(yīng)用.隨著城市汽車保有量的迅速增長,交通問題日漸突出,交通監(jiān)視控制系統(tǒng)、交通誘導(dǎo)系統(tǒng)和信息采集系統(tǒng)等在交通管理中逐漸發(fā)揮越來越大的作用,視頻檢索技術(shù)運(yùn)用在交通領(lǐng)域可以實(shí)現(xiàn)對(duì)包括車牌、車標(biāo)、車型、車輛顏色和司乘人員等信息進(jìn)行自動(dòng)檢索,對(duì)各類交通違法事件也可以實(shí)現(xiàn)智能監(jiān)測.由于公安、司法監(jiān)所關(guān)押人員的特殊性,安全管理工作尤為重要,智能視頻檢索技術(shù)用在監(jiān)獄監(jiān)所中,可以實(shí)現(xiàn)警戒線檢測、劇烈運(yùn)動(dòng)檢測、起身檢測、區(qū)域逗留檢測、視頻遮擋檢測等應(yīng)用,方便快速發(fā)現(xiàn)監(jiān)所內(nèi)人員及設(shè)備的異常狀況,及時(shí)做出處理措施,有效遏制所內(nèi)各類突發(fā)事件進(jìn)一步發(fā)展.在教育信息化的大背景下,傳統(tǒng)的現(xiàn)場教學(xué)已經(jīng)無法滿足遠(yuǎn)程教學(xué)、后期回看等教學(xué)要求.通過視頻檢索技術(shù),可以實(shí)現(xiàn)對(duì)教師教學(xué)細(xì)節(jié)的跟蹤記錄,后期可根據(jù)教學(xué)場景進(jìn)行畫面切換,為學(xué)生、老師實(shí)時(shí)或后期觀看時(shí)提供更好的體驗(yàn).
將視頻內(nèi)容具有的特征轉(zhuǎn)化為人類的語義概念,是近年來備受關(guān)注的研究課題.本文綜述了基于語義的視頻檢索技術(shù)的研究,視頻檢索算法的本質(zhì)任務(wù)是根據(jù)用戶提交的查詢,從給定的數(shù)據(jù)集合中返回相似的視頻,挖掘和提取視頻信息中的語義概念以及如何跨越語義鴻溝的問題仍然是現(xiàn)今視頻檢索系統(tǒng)中面臨的主要挑戰(zhàn).目前還沒有一種完全通用的框架可以用于各種視頻的語義特征提取,當(dāng)前檢索系統(tǒng)的研究應(yīng)用大多是為了提高特定領(lǐng)域的檢索性能和效率.當(dāng)系統(tǒng)自動(dòng)檢測語義的特征時(shí),更精確的檢測設(shè)備對(duì)于檢測結(jié)果準(zhǔn)確率的提高有很大幫助.相關(guān)性反饋通過收集用戶在搜索過程中的反饋信息,是對(duì)查詢進(jìn)行迭代更新的有效方法,查詢結(jié)果得到改進(jìn),檢索性能也會(huì)得到提高.檢索模型對(duì)檢索結(jié)果具有決定性的影響,通過合理的策略組合獲得多模態(tài)和多概念的學(xué)習(xí)模型,可以發(fā)揮檢索模型和多概念學(xué)習(xí)模型各自的優(yōu)勢(shì),提高檢索系統(tǒng)的性能.雖然在視頻檢索領(lǐng)域已經(jīng)做了大量的科研工作,但仍有一些方向可以進(jìn)一步研究發(fā)展:
(1)分層次解析視頻內(nèi)容畫面的特征信息,以選擇合適的特征用于語義概念檢測.視頻在不同的層次上通常會(huì)包含不同的語義信息,按照特定的規(guī)則提煉不同層次的語義信息,再針對(duì)不同層次的特征使用不同的映射或?qū)W習(xí)方法,可以減小單層特征信息交叉解析時(shí)帶來的影響偏差.
(2)提升概念探測器的性能,提高概念檢測的速度和精度.在用戶進(jìn)行查詢條件輸入時(shí),可以直接從中提取高級(jí)語義概念將其轉(zhuǎn)換生成合適的概念檢測器,對(duì)視頻片段中的語義概念進(jìn)行檢測,縮減處理流程.再通過循環(huán)迭代接收相關(guān)性反饋信息,根據(jù)反饋不斷完善檢測方法提升檢測精度.
(3)融合不同的機(jī)器學(xué)習(xí)方法獲得更準(zhǔn)確的語義概念.如何提高對(duì)廣泛概念的識(shí)別性能仍然是一個(gè)極具挑戰(zhàn)性的問題,尤其是對(duì)于較稀有的概念.近年來通過引入各種不同的機(jī)器學(xué)習(xí)方法,結(jié)合跨模態(tài)檢索技術(shù)對(duì)視頻片段的語義概念構(gòu)建準(zhǔn)確度對(duì)比傳統(tǒng)方法有顯著的提升,結(jié)合深度學(xué)習(xí)的檢索方式已然成為視頻檢索領(lǐng)域的熱點(diǎn).