尹玉 詹永照 姜震
摘 要:在視頻語義檢測中,有標記樣本不足會嚴重影響檢測的性能,而且偽標簽樣本中的噪聲也會導致集成學習基分類器性能提升不足。為此,提出一種偽標簽置信選擇的半監(jiān)督集成學習算法。首先,在三個不同的特征空間上訓練出三個基分類器,得到基分類器的標簽矢量;然后,引入加權(quán)融合樣本所屬某個類別的最大概率與次大概率的誤差和樣本所屬某個類別的最大概率與樣本所屬其他各類別的平均概率的誤差,作為基分類器的標簽置信度,并融合標簽矢量和標簽置信度得到樣本的偽標簽和集成置信度;接著,選擇集成置信度高的樣本加入到有標簽的樣本集,迭代訓練基分類器;最后,采用訓練好的基分類器集成協(xié)作檢測視頻語義概念。該算法在實驗數(shù)據(jù)集UCF11上的平均準確率到達了83.48%,與Co-KNN-SVM算法相比,平均準確率提高了3.48個百分點。該算法選擇的偽標簽能體現(xiàn)樣本所屬類別與其他類別的總體差異性,又能體現(xiàn)所屬類別的唯一性,可減少利用偽標簽樣本的風險,有效提高視頻語義概念檢測的準確率。
關鍵詞:視頻語義概念檢測;半監(jiān)督;集成學習;偽標簽;置信度
中圖分類號:?TP391.41
文獻標志碼:A
Semi-supervised ensemble learning for video semantic detection based on pseudo-label confidence selection
YIN Yu, ZHAN Yongzhao*, JIANG Zhen
School of Computer Science and Telecommunication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China
Abstract:
Focusing on the problems in video semantic detection that the insufficience of labeled samples would seriously affect the performance of the detection and the performances of the base classifiers in ensemble learning would be improved deficiently due to noise in the pseudo-label samples, a semi-supervised ensemble learning algorithm based on pseudo-label confidence selection was proposed. Firstly, three base classifiers were trained in three different feature spaces to get the label vectors of the base classifiers. Secondly, the error between the maximum and submaximal probability of a certain class of weighted fusion samples and the error between the maximum probability of a certain class of samples and the average probability of the other classes of samples were introduced as the label confidences of the base classifiers, and the pseudo-label and integrated confidence of samples were obtained through fusing label vectors and label confidences. Thirdly, samples with high degree of integrated confidence were added to the labeled sample set, and base classifiers were trained iteratively. Finally, the trained base classifiers were integrated to detect the video semantic concept collaboratively. The average accuracy of the algorithm on the experimental data set UCF11 reaches 83.48%. Compared with Co-KNN-SVM algorithm, the average accuracy is increased by 3.48 percentage points. The selected pseudo-label by the algorithm can reflect the overall variation among the class of samples and other classes, as well as the uniqueness of the class of samples, which can reduce the risk of using pseudo-label samples, and effectively improve the accuracy of video semantic concept detection.
Key words:
video semantic concept detection; semi-supervised; ensemble learning; pseudo-label; confidence
0 引言
在多媒體技術和互聯(lián)網(wǎng)技術大發(fā)展的環(huán)境下,視頻資源得到了人們的廣泛關注。近些年來,智能攜帶設備所代表的移動互聯(lián)網(wǎng)的興起,視頻特別是短視頻依然是人們最感興趣的內(nèi)容之一。在這種情況下,如何快速又準確地幫助用戶獲取其關注的語義概念[1],更有效地檢測出視頻事件,已經(jīng)成為當前迫切需要解決的問題[2-4]。
網(wǎng)絡視頻檢索早先是采用人工標注視頻語義概念,由已標注的視頻語義概念實現(xiàn)檢索;但是手工標注十分耗時,同時由于每個人對視頻理解的差異性,手動標注還具有主觀性,無法應對大量而豐富多彩的視頻內(nèi)容檢索任務。為了克服手工標注的缺點,研究者們提出了基于內(nèi)容的視頻檢索檢測方法,但是這種方法采用的是視頻的低層視覺特征進行相似性檢索檢測,不能體現(xiàn)視頻的高層語義信息。為了跨越低層特征到高層語義概念之間的語義鴻溝,基于語義的視頻檢測技術應運而生。基于語義的視頻檢測技術利用人們所理解的視頻內(nèi)容的高層語義概念建立了低層特征與高層語義概念之間的映射關系,并使用這種映射關系實現(xiàn)視頻內(nèi)容的檢測,使計算機對視頻的理解更貼近人的思維,所表達出的語義概念更加準確,因此基于語義的視頻檢測技術已成為了當今研究視頻檢索檢測的熱門和熱點。
基于語義的視頻檢測最關鍵的技術之一是語義模型的建立。充分的視頻語義模型的描述和其泛化能力是提高視頻語義概念檢測準確性的關鍵所在,但是在現(xiàn)實應用中,由于訓練模型的有標記樣本嚴重不足,而未標記樣本往往很容易收集,因此如何利用這些大量的未標記樣本來更合理地建立視頻語義概念模型并使其具有良好的泛化性能,就成為了研究重點。半監(jiān)督學習[5]恰恰提供了一條利用“廉價”的未標記樣本的途徑,它能自動地利用未標記樣本來提升語義概念分類器模型的性能;但是預測效果不好的分類器會造成誤差傳播,導致最終學習得到的分類器的性能提升不足。而集成學習[6]則是通過構(gòu)建并結(jié)合多個有差異的分類器來協(xié)同完成學習任務,可以有效地抑制誤差傳播,從而可以獲得比單一分類器更顯著的性能提升和泛化效果。
目前利用對無標記樣本進行半監(jiān)督集成學習獲得的偽標簽樣本來增強分類器訓練還存在著偽標簽樣本引入的噪聲問題[7-9],如何更置信地選擇偽標簽樣本促進分類器的協(xié)同學習、提升視頻語義概念檢測性能仍需進一步研究。
為了保證集成學習的基分類器的差異性,解決半監(jiān)督學習的分類器效果不理想導致的偽標簽誤差傳播問題,本文提出一種偽標簽置信選擇的半監(jiān)督集成學習的視頻語義檢測方法。該方法利用不同特征所訓練出的基分類器進行偽標簽預測,引入加權(quán)融合樣本所屬某個類別的最大概率與次大概率的誤差和樣本所屬某個類別的最大概率與樣本所屬其他各類別的平均概率誤差,來確定樣本作為偽標簽的置信度,融合選擇偽標簽置信度高的樣本加入到有標簽的樣本集,迭代訓練基分類器,最后采用訓練好的基分類器集成融合檢測視頻語義概念,以期有效減小利用未標記樣本的風險,提高視頻語義概念檢測的準確性。
1 相關研究
1.1 基于多特征的視頻語義檢測方法
基于多特征的視頻語義檢測就是利用不同的特征提取算法,采用不同的結(jié)合策略對視頻中的對象進行檢測的方法。它主要分兩類,第一類是只利用視頻中視覺圖像特征進行語義檢測。此類方法分別使用基于視覺圖像的特征提取算法對視頻進行特征提取,然后將得到的特征向量采用某種方法結(jié)合,形成統(tǒng)一的特征向量。文獻[10]利用多特征加權(quán)融合方法提取行人特征,與前一幀中的行人特征信息進行匹配;文獻[11]分別提取顏色、區(qū)域和紋理特征向量,然后結(jié)合這些特征向量和主成分分析(Principal Component Analysis, PCA)得到用于分類的低維特征向量;
這里的兩幅彩色RGB特征圖是根據(jù)不同的特征公式得到的兩個不同的特征。
文獻[12]把根據(jù)不同的特征公式得到的兩幅彩色RGB(Red Green Blue)特征圖、紋理特征圖和運動特征圖這四個特征映射通過四元數(shù)離散余弦變換,組合生成四元數(shù)特征。第二類則是利用視覺圖像特征以外的特征和視覺圖像特征相結(jié)合的方法來表達視頻的特征。在文獻[13]中提取人物衣服的顏色以及人物聲音作為視頻特征,而文獻[14]則結(jié)合顏色和紋理的圖像特征和相應的文本特征作為視頻的特征。這類特征組合方法雖然有較好的效果,但并不是所有的視頻都會具有音頻或文本等特征,所以該類特征組合方法有較大的局限性。而在視頻語義檢測中所采用的特征提取方法,既要表達人們觀看視頻時所關注的人或物體的顏色、輪廓和紋理等信息,又要適應環(huán)境和人或物體的運動而導致的變化。HSV(Hue Saturation Value)顏色模型恰恰符合人眼的視覺特征,直接用色調(diào)(Hue, H)、飽和度(Saturation, S)和亮度(Value, V)這三要素來表達顏色空間。而局部二值模式(Local Binary Pattern, LBP)是一種描述圖像局部紋理的特征提取方法,主要反映像素與周圍像素之間的關系,它具有灰度不變性和旋轉(zhuǎn)不變性。方向梯度直方圖(Histogram of Oriented Gradients, HOG)是一種進行物體檢測的特征描述方法,通過計算局部區(qū)域的每個像素的梯度,并且統(tǒng)計直方圖來構(gòu)成特征,具有幾何和光學的形變不變性。根據(jù)以上三種特征提取方法的特點,本文通過使用這三種特征提取方法所訓練出的代表不同特征視角的分類器來保證集成學習基分類器的差異性。
1.2 半監(jiān)督與集成學習視頻語義檢測方法
有不少研究者研究了基于半監(jiān)督學習的視頻語義檢測方法。Martin等[15]提出了一個完整的、一般的和模塊化的半監(jiān)督系統(tǒng),它能夠檢測和跟蹤多攝像機運動視頻中的每個運動員,而且為了匹配跨攝像機的軌跡,重點研究了所檢測出的斑點的不同軌跡的融合。
Zhan等[16]提出了一種基于視頻語義檢測的自適應概率超圖的半監(jiān)督增量學習方法。在概率超圖模型中,可以自適應地決定頂點是否屬于超集。該模型可以克服傳統(tǒng)概率超圖模型中屬于同一超集的固定數(shù)頂點的缺陷,具有很強的魯棒性。
Misra等[17]提出了一種半監(jiān)督的方法,該方法在長視頻中定位多個未知對象實例,從少量有標簽框開始,學習和標注數(shù)十萬個對象實例;同時還提出了用于約束半監(jiān)督學習過程的準則。實驗通過評估各種度量上的自動標記數(shù)據(jù)驗證了該方法的有效性。但這些方法在不同程度上存在著偽標簽樣本引入的噪聲問題,限制了語義概念分類模型性能的提升。
在基于集成學習的視頻語義概念檢測方面,Yang等[18]提出了一種積極的增強型集成學習框架,包含了新的采樣技術和基于基本學習算法的集成學習機制,在探索性實驗中證明了該框架的有效性。
Mitrea等[19]主要研究視頻監(jiān)控多實例人物檢索問題,使用增強、打包和混合(堆疊)這三種基于集成學習的技術訓練多個學習器,并且組合其輸出。該方案在評估系統(tǒng)中也得到了較好的結(jié)果。
文獻[9]提出了一種協(xié)同訓練半監(jiān)督學習方法——Co-KNN-SVM,該方法利用K近鄰(K-Nearest Neighbors, KNN)和支持向量機(Support Vector Machine, SVM)作為基分類器,分別用這兩個基分類器對無標簽樣本進行預測,形成偽標簽樣本集,然后利用偽標簽選擇策略,選擇出具有較高置信度的樣本加入到對方訓練集中迭代訓練,利用這兩個性能較好的基分類器進行視頻語義概念檢測分類。但這些方法還未更合理考慮利用各分類器檢測的置信度來融合檢測語義概念,影響了語義概念檢測分類性能的進一步提升。
2 偽標簽置信選擇的半監(jiān)督集成分類器訓練
2.1 算法的基本思想
現(xiàn)有研究已表明集成特征不同的基分類器進行任務的分類可提高分類的性能[20-22],然而在有標簽訓練樣本有限的情形下,各基分類器訓練不足會影響分類性能,從而影響集成分類的最終分類性能與泛化能力。偽標簽置信選擇的半監(jiān)督集成分類器訓練的基本思想是:采用半監(jiān)督集成學習在無標簽的樣本中更置信地判斷出其標簽,即偽標簽,并將置信度高的偽標簽樣本選擇出來,加入到有標簽的訓練樣本集中重新訓練各基分類器,以便提升各基分類器的分類性能,從而提升集成分類最終的分類性能與泛化能力。本文算法將樣本集分為:有標簽樣本集DL、無標簽樣本集DU和預測試樣本集DT,分別采用HSV、LBP和HOG方法對視頻關鍵幀進特征提取,使用這些有差異性的特征作為各自的支持向量機基分類器SVMHSV、SVMLBP和SVMHOG訓練和預測試的特征向量。
首先,在有標簽樣本集DL上訓練三個基分類器;然后,使用這三個分類器對無標簽樣本集DU進行預測,得到相應的樣本偽標簽和置信度,
并根據(jù)偽標簽融合選擇策略選擇置信度最高的前m個偽標簽樣本,將這些樣本從DU中刪去并加入到DL中,從而形成新的DL和DU,
再進一步迭代訓練基分類器,并用預測試樣本集DT進行集成分類測試,從而獲得集成分類性能更高的基分類器,直到無標簽樣本集DU為空或集成分類性能已無法再提升為止。本文算法的處理流程如圖1所示。
2.2 偽標簽選擇策略
在半監(jiān)督學習偽標簽樣本重新注入過程中,需要根據(jù)置信度選擇偽標簽樣本。傳統(tǒng)的方法是選擇基分類器的最大類預測概率作為選擇偽標簽樣本為該類的置信度,文獻[9]提出了對基分類器采用樣本所屬某個類別的最大概率與次大概率的誤差作為該基分類器的置信度。但是這些置信度并沒有充分表達樣本的隨機分布特性,因此這些置信度無法合理地權(quán)衡樣本所屬類別與其他類別的總體差異性和所屬類別的唯一性。所以本文考慮加權(quán)融合樣本所屬某個類別的最大概率與次大概率的誤差和樣本所屬某個類別的最大概率與樣本所屬其他各類別的平均概率誤差,以確定樣本作為基分類器對偽標簽選擇的置信度,該置信度既可考慮樣本所屬類別與其他類別的總體差異性,又可考慮所屬類別的唯一性。該置信度算式如下:
Cg( x )= (1-λ)(Pmaxg( x )-Psubmaxg( x ))+
λ Pmaxg( x )- 1 n-1
∑ n-1 i=1, ?pg,i( x )≠Pmaxg( x )
pg,i(x)
(1)
其中:Cg( x )表示基分類器g判別樣本 x 所屬某個類別的標簽置信度,g∈{SVMHSV,SVMLBP,SVMHOG};Pmaxg( x )表示基分類器g判別樣本 x 所屬某個類別的最大概率;Psubmaxg( x )表示基分類器g判別樣本 x 所屬某個類別的次大概率; 1 n-1
∑ n-1 i=1, ?pg,i( x )≠Pmaxg( x )
pg,i( x )表示基分類器g判別樣本 x 所屬某個類別的除了最大概率之外的概率平均值;pg,i( x )表示基分類器g判別樣本 x 所屬類別i的概率;λ為置信度參數(shù),0<λ<1;n為數(shù)據(jù)樣本集的類別總數(shù)。
本置信度算式有效性和可行性分析:
式(1)等號右邊的第一項(+號前的項)是測量樣本所屬某個類別的最大概率與所屬另一類別且是所有類別中的次大概率的誤差,該誤差越大,表明分類器將樣本鑒別為最大概率的類別越確定、越唯一。這與文獻[9]的思想是一致的,文獻[9]的置信度是本置信度的特例。式(1)等號右邊的第二項(+號后的項)是測量樣本所屬某個類別的最大概率與樣本所屬其他各類別的平均概率誤差,該誤差越大,相對其他類別來看,分類器將樣本鑒別為最大概率的類別越值得肯定。因此本置信度算式綜合考慮了以上2項的誤差,既可衡量分類器判別類別的唯一性程度,又可衡量分類器判別類別值得認可的程度,故本置信度算式是有效和可行的。
3 多分類器集成的視頻語義概念檢測
對一個待檢測視頻樣本 x k,本文的多分類器集成的視頻語義檢測是基于待測樣本在每個基分類器檢測的語義概念類別的置信度的,集成融合各基分類器的檢測類別矢量和置信度,將集成檢測置信度最高的類別作為最終的視頻語義概念類別。該算法有以下四個步驟:
首先,對待檢測視頻樣本 x k
取k個關鍵幀,選用HSV、LBP和HOG這三種特征提取方法分別對這些關鍵幀進行特征提取并形成特征向量;
其次,分別利用迭代訓練得到的更優(yōu)基分類器SVMHSV、SVMLBP和SVMHOG對待檢測樣本 x k進行預測,得到預測標簽矢量 y HSV( x k)、? y LBP( x k)和 y HOG( x k);
再次,使用式(1)得到各分類器的標簽置信度CHSV( x k)、CLBP( x k)和CHOG( x k),再利用式(2)集成融合各基分類器的檢測類別標簽矢量和標簽置信度;
最后,利用式(3)和(4)將集成檢測置信度最高的類別作為最終的視頻語義概念類別。
多分類器集成的視頻語義概念檢測具體算法如算法2所示。
算法2
多分類器集成的視頻語義概念檢測算法。
輸入
已經(jīng)訓練好的具有更優(yōu)性能的三個基分類器SVMHSV,SVMLBP,SVMHOG,待檢測視頻樣本 x k。
輸出
視頻樣本 x k的視頻語義概念類別l x k。
步驟1? 對待檢測視頻樣本 x k取k個關鍵幀,選用HSV、LBP和HOG這三種特征提取方法分別對這些關鍵幀進行特征提取并形成特征向量。
步驟2? ?x k SVMHSV? ?y HSV x k, x k SVMLBP? ?y LBP x k,? x k SVMHOG? ?y HOG x k。
步驟3? ?x k 式(1)? CHSV x k, x k 式(1)? CLBP x k, x k 式(1)? CHOG x k,L( x ) 式(2)? a1,a2,…,an。
步驟4? 利用式(3)和(4)將集成檢測置信度最高的類別作為最終的視頻語義概念類別l x k。
返回:視頻樣本 x k的視頻語義概念類別l x k。
4 實驗結(jié)果與分析
4.1 實驗數(shù)據(jù)集
實驗采用的數(shù)據(jù)集是UCF YouTube Action數(shù)據(jù)集(UCF11)。在UCF11中,所有的視頻都轉(zhuǎn)換為29.97幀/s(frames per second, fps),并且完成了所有視頻的注釋。該數(shù)據(jù)集包含11個動作類別:投籃球(basketball shooting)、
騎自行車(biking/cycling)、
跳水(diving)、打高爾夫(golf swinging)、騎馬(horse back riding)、顛球(soccer juggling)、蕩秋千(swinging)、打網(wǎng)球(tennis swinging)、蹦麻(trampoline jumping)、打排球(volleyball spiking)和溜狗(walking with a dog),如圖2所示。每個類別有25個組,每組有4個以上的視頻片段,同一組中的視頻具有相同的目標、類似的背景和類似的視角等特點。在以上數(shù)據(jù)集上,利用基于視頻片段邊界的方法來進行對視頻進行關鍵幀提取,選取視頻片段的第一幀、中間幀和最后一幀這三幀作為關鍵幀,然后在這些關鍵幀的基礎上,利用本文提出的算法進行視頻語義檢測。
4.2 置信度參數(shù)的實驗分析
在半監(jiān)督學習偽標簽樣本重新注入過程中,需要根據(jù)置信度選擇偽標簽樣本。本文的置信度選擇方法如式(1)所示。該置信度是兩種誤差的加權(quán)融合,其中λ是置信度參數(shù)。在預測試集上,讓λ在[0.1, 0.9]區(qū)間變化,得到了不同的置信度參數(shù)下的視頻語義概念預測準確率的變化情況,如圖3所示。從圖3可以看出,在隨著λ增大,視頻語義概念預測準確率逐步提高,這說明代表類別概率波動的誤差在分類器分類的置信度確定中有重要的貢獻。當λ=0.7時,預測準確率達到最佳狀態(tài),所以本文將選用λ=0.7作為分類器分類的置信度參數(shù)。
4.3 實驗對比分析
為了驗證本文算法的有效性,本文選擇在HSV、LBP、HOG和HSV+LBP+HOG這四種特征空間下訓練的SVM分類器和Co-KNN-SVM算法[9]與本文的算法進行對比實驗,并采用十折交叉驗證來計算各算法的檢測分類準確率。
表1給出了分別在220、440、660個有標記樣本下不同方法的平均檢測準確率。由表1可知,由于本文的方法和Co-KNN-SVM采用了半監(jiān)督集成學習,可以利用偽標簽樣本來提升分類器性能,所以它們都比單獨使用SVM分類器進行視頻語義檢測具有更高的準確性。但是Co-KNN-SVM算法是基分類器KNN和SVM分別把置信度較高的偽標簽樣本加入到對方的有標簽訓練集中,這樣會很容易引入噪聲,而本文算法是集成三個分類器,采用了更加合理的置信度選擇標準,選取置信度較高的偽標簽樣本加入到有標簽訓練集中進行迭代訓練,該置信度選擇策略既體現(xiàn)了樣本所屬類別與其他類別的總體差異性,又能體現(xiàn)所屬類別的唯一性,可有效降低偽標簽樣本引入的噪聲,從而提升分類器的泛化能力,所以分類準確率高于Co-KNN-SVM方法,在有標記樣本數(shù)為220、440和660時,本文方法比Co-KNN-SVM方法分別高出255個百分點、1.40個百分點和3.48個百分點。
表2給出了本文方法分別在220、440、660個有標記樣本下11個類別的初始檢測準確率和最終檢測準確率。從表2可以看出,本文方法在三種有標記樣本數(shù)下,經(jīng)過迭代集成訓練,每個類別的檢測準確率都有了較大的提升。在有標記樣本數(shù)為220時,diving、tennis swinging和volleyball spiking三類的檢測準確率達到了90%以上,平均檢測準確率提高了2220個百分點。在有標記樣本數(shù)為440時,平均檢測準確率提高了13.36個百分點。在有標記樣本數(shù)為660時,basketball shooting類的最終檢測準確率也提升到了90%以上,平均檢測準確率提高了8.99個百分點。這說明采用偽標簽置信選擇的半監(jiān)督集成分類器迭代訓練方法能有效提高視頻語義概念檢測準確率。
同時,又對目前優(yōu)秀的視頻語義概念檢測分類方法在UCF11數(shù)據(jù)集上的實驗結(jié)果進行比較。文獻[23]采用多特征的早期和晚期融合,并且結(jié)合場景上下文去處理視頻樣本,檢測分類準確率達到了73.20%;文獻[24]采用將光流場和哈里斯三維角探測器相結(jié)合的方法來獲得一種新的視頻序列的時空估計,然后從估計動作區(qū)域中提取局部特征,最后利用SVM進行檢測,檢測分類準確率達到了76.06%;文獻[25]研究了基于多通道的時空興趣點的視頻語義概念問題,檢測分類準確率達到了78.6%;本文方法檢測的準確率分別比文獻[23] 、文獻[24] 和文獻[25]方法提高了10.28個百分點、7.42個百分點和4.88個百分點。這說明采用偽標簽置信選擇的半監(jiān)督集成分類器迭代訓練的多分類器集成的檢測分類方法能更合理融合多分類器協(xié)同檢測分類,有效提高視頻語義概念檢測準確率。
5 結(jié)語
本文針對有標記樣本不足會嚴重影響視頻語義概念分類器的檢測性能,以及由于在半監(jiān)督集成學習中偽標簽樣本選擇置信不足而影響集成分類器性能提升有限的問題,提出了一種偽標簽置信選擇的半監(jiān)督集成學習的視頻語義概念檢測方法。該方法引入加權(quán)融合樣本所屬某個類別的最大概率與次大概率的誤差和樣本所屬某個類別的最大概率與樣本所屬其他各類別的平均概率誤差,來確定基分類器將樣本作為偽標簽的置信度,融合選擇偽標簽置信度高的樣本加入到有標簽的樣本集,迭代訓練基分類器,這種偽標簽的選擇可有效減少利用偽標簽樣本的風險;再利用這種方法訓練好的基分類器集成檢測視頻語義概念。實驗結(jié)果表明,本文提出的方法與其他方法相比,能有效減少偽標簽樣本引入的噪聲,同時更合理融合多分類器協(xié)同檢測分類,提升了視頻語義檢測的準確性。在未來的工作中,可考慮引入基于深度學習的視頻特征與半監(jiān)督分類器集成學習相結(jié)合的方法,實現(xiàn)更有效的視頻語義概念檢測。
參考文獻
[1]?UEKI K, KOBAYASHI T. Object detection oriented feature pooling for video semantic indexing [C]// Proceedings of the 12th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. Setúbal: SciTePress, 2017, 5: 44-51.
[2]?KIKUCHI K, UEKI K, OGAWA T, et al. Video semantic indexing using object detection-derived features [C]// Proceedings of the 24th European Signal Processing Conference. Piscataway, NJ: IEEE, 2016: 1288-1292.
[3]??QUEMY A, JAMROG K, JANISZEWSKI M. Unsupervised video? semantic partitioning using IBM Watson and topic modelling [C]// Proceedings of the Workshops of the EDBT/ICDT 2018 Joint Conference. Piscataway, NJ: IEEE, 2018: 44-49.?Proceedings of the 2018 Workshops of the International Conference on Extending Database Technology and the International Conference on Database Theory. Vienna: CEUR-WS, 2018, 2083: 44-49.
[4]?SHELHAMER E, RAKELLY K, HOFFMAN J, et al. Clockwork convnets for video semantic segmentation [C]// Proceedings of the 14th European Conference on Computer Vision, LNCS 9915. Berlin: Springer, 2016: 852-868.
[5]?BULL L, WORDEN K, MANSON G, et al. Active learning for semi-supervised structural health monitoring [J]. Journal of Sound and Vibration, 2018, 437: 373-388.
[6]?ZHOU Z-H. Ensemble Methods: Foundations and Algorithms [M]. 1st ed. Boca Raton, FL: Chapman & Hall, 2012: 47-66.
[7]?JANG W D, KIM C-S. Semi-supervised video object segmentation using multiple random walkers [C]// Proceedings of the 27th British Machine Vision Conference. Guildford, UK: BMVA Press, 2016: 57.1-57.13.?http://www.bmva.org/bmvc/2016/papers/paper057/index.html
[8]?KUMAR V, NAMBOODIRI A, JAWAHAR C V. Semi-supervised annotation of faces in image collection [J]. Signal, Image and Video Processing, 2018, 12(1): 141-149.
[9]?景陳勇,詹永照,姜震.基于混合式協(xié)同訓練的人體動作識別算法研究[J].計算機科學,2017,44(7):275-278. (JING C Y, ZHAN Y Z, JIANG Z. Research on action recognition algorithm based on hybrid cooperative training [J]. Computer Science, 2017, 44(7): 275-278.)
[10]?WANG X, SONG H, CUI H. Pedestrian abnormal event detection based on multi-feature fusion in traffic video [J]. Optik, 2018, 154: 22-32.
[11]?LI P, WANG H. Video semantic classification based on ELM and multi-features fusion [C]// Proceedings of the 2014 International Conference on Network Security and Communication Engineering. Leiden: CRC Press, 2015: 305-308.?NSCE 2014
[12]?嚴云洋, 杜靜, 高尚兵, 等. 融合多特征的視頻火焰檢測[J]. 計算機輔助設計與圖形學學報, 2015, 27(3): 433-440. (YAN Y Y, DU J, GAO S B, et al. Video flame detection based on fusion of multi-feature [J]. Journal of Computer-Aded Design & Computer Graphics, 2015, 27(3): 433-440.)
[13]?蔣鵬, 秦小麟. 一種基于多特征的視頻人物聚類方法[J].計算機科學,2008,35(5):240-242,245. (JIANG P, QIN X L. Automated person indexing in video [J]. Computer Science, 2008, 35(5): 240-242, 245.)
[14]?陳芬,賴茂生.多特征視頻分類挖掘?qū)嶒炑芯縖J].現(xiàn)代圖書情報技術,2012,28(5):76-80. (CHEN F, LAI M S. Video classification using multiple features [J]. New Technology of Library and Information Service, 2012, 28 (5): 76-80.)
[15]??MARTN R, MARTNEZ J M. A semi-supervised system for players detection and tracking in multi-camera soccer videos [J]. Multimedia Tools & Applications, 2014, 73(3): 1617-1642.
[16]?ZHAN Y, SUN J, NIU D, et al. A semi-supervised incremental learning method based on adaptive probabilistic hypergraph for video semantic detection [J]. Multimedia Tools & Applications, 2015, 74(15): 5513-5531.
[17]??MISRA I, SHRIVASTAVA A, HEBERT M. Watch and learn:? semi-supervised learning of object detectors from videos [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3593-3602.
[18]?YANG Y, CHEN S. Ensemble learning from imbalanced data set for video event detection [C]// Proceedings of the 16th IEEE International Conference on Information Reuse and Integration. Piscataway, NJ: IEEE, 2015: 82-89.
[19]?MITREA C A, CARATA S, IONESCU B, et al. Ensemble-based learning using few training samples for video surveillance scenarios [C]// Proceedings of the 5th International Conference on Image Processing, Theory, Tools and Applications. Piscataway, NJ: IEEE, 2015: 93-98.
[20]?SHI W, JIANG M. Face recognition based on multi-view: ensemble learning [C]// Proceedings of the 1st Chinese Conference on Pattern Recognition and Computer Vision, LNCS 11258. Cham: Springer, 2018: 127-136.
[21]?ZHANG Y, HUANG Q, MA X, et al. Using multi-features and ensemble learning method for imbalanced malware classification [C]// Proceedings of the 2016 IEEE Trustcom/BigDataSE/ISPA. Piscataway, NJ: IEEE, 2016: 965-973.?15th IEEE International Conference on Trust, Security and Privacy in Computing and Communications
[22]?ALBUKHANAJER W A, JIN Y, BRIFFA J A. Classifier ensembles for image identification using multi-objective Pareto features [J]. Neurocomputing, 2017, 238: 316-327.
[23]?REDDY K K, SHAH M. Recognizing 50 human action categories of web videos [J]. Machine Vision and Applications, 2013, 24(5): 971-981.
[24]?LIU D, SHYU M, ZHAO G. Spatial-temporal motion information integration for action detection and recognition in non-static background [C]// Proceedings of the 14th International Conference on Information Reuse and Integration. Washington, DC: IEEE Computer Society, 2013: 626-633.
[25]?EVERTS I, GEMERT J C van, GEVERS T. Evaluation of color STIPs for human action recognition [C]// Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 2850-2857.