• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      異構復合遷移學習的視頻內容標注方法

      2018-08-28 08:52:18饒文碧
      計算機應用 2018年6期
      關鍵詞:源域異構矩陣

      譚 瑤,饒文碧,2*

      (1.武漢理工大學計算機科學與技術學院,武漢430070; 2.交通物聯(lián)網技術湖北省重點實驗室(武漢理工大學),武漢430070)(*通信作者電子郵箱wbrao@whut.edu.cn)

      0 引言

      由于對用戶視頻的人工標注常常會出現(xiàn)標注缺失、不全以及標注過于主觀的問題,這就導致了傳統(tǒng)的基于文本的視頻檢索和分類越來越不適應當前用戶視頻集[1-2]。而基于視頻內容的標注能夠更加高效、智能地對用戶視頻進行檢索和分類,因此它一直作為計算機視覺領域重要的研究課題[3]。目前基于視頻內容的標注需要人工收集和標注大量的訓練樣本才能夠取得較好的泛化能力和魯棒性,然而收集和標注訓練樣本又是一項非常費時費力的工作,因此本文利用遷移學習的思想,從日趨成熟的互聯(lián)網圖像搜索引擎中獲取大量的領域知識,進而將這些知識遷移到視頻領域,用以完成視頻標注任務。

      近年來,遷移學習在多媒體內容分析領域引起了學者的廣泛重視[4-7]。Redko 等[8]利用非負矩陣分解(Non-negative Matrix Factorization,NMF)技術來最小化領域間投影的距離,進而提出了一種完全無監(jiān)督的領域適應方法。Fernando等[9]通過學習一個映射矩陣來對齊源域和目標域的子空間,在對齊后的共同空間中訓練模型完成知識遷移。然而他們提出的領域適應方法都是假設源域和目標域的樣本能夠被表示成相同維度和同種類型的特征,這與本文描述的領域間異構不一致。Wang等[10]利用典型相關性分析[11-13]去獲得異構特征的公共特征子空間,解決了特征空間異構的問題。張博等[14]提出了一種跨領域的典型相關性分析(Canonical Correlation Analysis,CCA)的遷移學習方法,該方法保持了領域特有特征和共享特征之間的相關性,通過選擇合適的基向量組合來訓練分類器,使降維后的相關特征在領域間具有相似的判別性,但是CCA是一個監(jiān)督學習的過程,這也使得這種方法不是完全無監(jiān)督的。楊柳等[15]提出了一種異構直推式遷移學習(Heterogeneous Transductive Transfer Learning,HTTL)的算法,該算法采用無監(jiān)督匹配源領域和目標領域特征空間的方法來學習映射函數,學習到的映射函數能夠將源領域數據在目標域中重新表示,該算法是一個普適性的解決方法,但是針對本文描述的特定遷移問題,并不一定能夠取得良好的表現(xiàn)。目前有關使用互聯(lián)網圖像來進行視頻標注的研究比較少。Duan等[3]提出了一種利用互聯(lián)網圖像來對用戶視頻進行事件識別的方法,該方法將圖像特征和視頻特征分開處理,并沒有考慮這些異構特征之間的內在聯(lián)系。王晗等[16]聯(lián)合學習了圖像特征和視頻特征,提出了一種跨領域的結構化模型(Cross Domain Structural Model,CDSM),但是這個模型缺乏對源領域和目標領域同構后的特征空間的比較。

      本文利用視頻與其關鍵幀的對應關系,借助CCA來建立圖像和視頻兩個異構域之間的同構鏈接,之后在這兩個同構空間中進行子空間對齊得到最終的公共子空間。借助這個公共子空間,從圖像域學習的分類器就能夠直接分類視頻域數據。具體的學習框架如圖1所示。

      圖1 異構復合遷移學習框架Fig.1 Heterogeneous compound transfer learning framework

      1 問題描述

      本文研究的目標是提出一種異構直推式遷移學習方法,用于解決將互聯(lián)網圖像的知識遷移到用戶視頻領域并完成標注任務的問題。異構直推式遷移學習是在源域中有標注數據,而在目標域中沒有標注數據的知識遷移問題[17]。

      假設有一個帶標注的圖像域和一個無標注的視頻域,圖像域和視頻域的特征空間不相同,但是它們預測的類別空間是相同的。定義圖像域(源域)為Ds=(χs,P(xs));視頻域(目標域) 為Dt=(χt,P(xt))。xs和xt分別表示源域和目標域的樣本數據,P(xs)和P(xt)分別表示源域數據的特征空間χs和目標域數據的特征空間χt的分布。另外,本文定義Y是源域和目標域共同的類別空間。其中,x={,n是源域樣本ss的數目,這里∈ Rds,ds表示源域圖像特征的維度;xt={,nt是目標域樣本的數目,這里∈ Rdt,dt表示目標域視頻特征的維度;Y={,這里∈R,c代表源域和目標域的類別個數。

      2 異構空間的同構化

      由于當前大量的領域適應方法是基于這一假設:源域和目標域的樣本數據能夠表示成同種類型、同一維度的特征。也就是說,這些方法適用于同構化空間內的知識遷移。然而,本文研究是一個異構空間下的遷移問題,無法直接利用當前較為成熟的領域適應方法。受到文獻[10]的啟發(fā),本文采用典型相關性分析來學習兩個映射矩陣ωs∈Rdc×ds和ωt∈Rdc×dt,其中dc是同構空間的維度,任意源域和目標域的樣本數據都能夠分別通過這兩個映射矩陣投影到相應的同構空間上,之后就能夠在同構空間上解決具體的領域適應問題。

      2.1 同構空間

      本文使用典型相關性分析(CCA)方法來學習兩個映射矩陣。CCA廣泛應用于非自然語言的知識遷移中,傳統(tǒng)的CCA方法通常是有監(jiān)督的,但是本文中視頻域的數據都是無標注的,因此不能直接使用CCA來將源域和目標域進行同構化。然而,結合本文所研究的具體問題,可以利用視頻和其關鍵幀的對應關系,為CCA提供一種監(jiān)督信息。為了得到更具普適性的解決方案,也可以利用一定數量的帶標注目標域和源域數據之間的對應關系來實現(xiàn)同構化。給定n個樣本對{(,),(,),…,(,)},其中∈Rds和∈ Rdt分別表示源域圖像(或目標域視頻關鍵幀)和視頻樣本數據,記Xs=[x,…]∈ Rds×n,Xt= [,,…,]∈ Rdt×n。CCA的目標是學習兩組基向量ws∈Rds和wt∈Rdt,使得線性組合u=Xs和v=Xt之間的相關系數最大,即:

      其中:Css=∈ Rds×ds和 Ctt=∈ Rdt×dt分別表示 Xs和Xt的自相關矩陣;Cst=Xs∈ Rds×dt表示 Xs和 Xt的協(xié)方差矩陣,并且有Cst=。

      2.2 問題求解

      使用Lagrange乘子法,構造Lagrange函數:

      結合式(3)~(5)可將原問題等價轉化為以下特征值問題:

      取dc=min(rank(Xs),rank(Xt)),映射矩陣的前dc個特征值對應了dc個基向量,即所求解的ωs和ωt。

      3 同構空間下的對齊化

      經過第2章的同構化操作,可以得到同構空間下的源域和目標域數據:

      目前解決這類同構空間下知識遷移的方法有很多,本文結合當前子空間對齊的思想,提出了一種基于最小代價的子空間對齊模型。在這個模型中,本文提出了一個代價函數,用來表示源域和目標域特征空間向共同子空間投影的代價,通過最小化代價函數,可以得到子空間對齊的矩陣。最終,可以將源域特征翻譯到目標域特征空間中,也就完成了從源域到目標域知識遷移的過程。

      3.1 特征降維

      為了盡量避免過擬合問題,并且加速模型的收斂,本文對源域和目標域的數據進行特征降維。常用的降維方法有主成分分析(Principal Component Analysis,PCA)和非負矩陣分解(NMF)。Yang等[18]在標準的NMF基礎上提出了正交投影的非負矩陣分解(Orthogonal Projective NMF,OPNMF)。Redko等[8]在 MNIST數據集上應用 PCA、標準 NMF和OPNMF得到分解后矩陣的稀疏值分別是:0.2994、0.4912和0.5400。由此可以看到,正交約束確實能夠提高稀疏性,而稀疏性的提高對于數據去噪有著重要意義,所以本文選用OPNMF來完成特征降維。OPNMF定義如下:

      其中:X∈Rm×n是輸入矩陣;U∈Rm×d是分解得到的基向量矩陣;d是最終降到的目標維數。

      Xs和Xt經過OPNMF特征降維后分別得到兩個基向量矩陣 Us∈ Rdc×d和 Ut∈ Rdc×d。

      3.2 子空間對齊模型

      考慮到源域和目標域投影到公共子空間的代價,提出一種最小化代價函數:

      其中:U*是Us和Ut共享子空間的基向量矩陣;Hs和Ht分別是Us和Ut分解得到的矩陣。

      由Frobenius范數的正交不變性,可以重寫式(8)如下:

      根據式(9)可以得出最優(yōu)化的結果是:

      至此,可以得出子空間對齊的轉換矩陣M=Hs,使得Ut=UsM。通過轉化矩陣M,源域的特征能夠被翻譯到目標域的特征空間中。

      3.3 問題求解

      使用Lagrange乘子法,構造Lagrange函數:

      其中,Λ1和Λ2是引入的拉格朗日乘子,這是兩個對角矩陣。

      為了解決上述問題,引入3個輔助函數G(U*,U*')、G(Hs,Hs') 和 G(Ht,Ht'),它們滿足:

      定義如下:

      通過構造:

      使得能夠迭代地應用式(15)~(17)來得到一個閉合解。

      首先求解U*的迭代更新公式:

      構造輔助函數:

      其中式(21)放大到式(22)是利用引理1得來。引理1[18]對任意矩陣 A ∈,W ∈和 W'∈,有:

      式(24)即為U*的迭代更新公式。繼續(xù)求解Hs的迭代更新公式:

      構造輔助函數:

      使用KKT(Karush-Kuhn-Tucker)條件有:

      可得:Λ1=(UsHs-U*)TU*。由式(9)最優(yōu)化結果U*=UsHs,有Λ1=0,因此Hs最終的迭代更新公式為:

      由于對稱性,易得Ht的迭代更新公式為:

      至此,最小化代價函數得以求解,相應地,轉換矩陣M也得以求解。

      3.4 模型算法

      由于圖像域和視頻域的異構性,本文提出了一種基于異構復合遷移學習 (Heterogeneous Compound Transfer Learning,HCTL)的視頻標注方法,該方法利用CCA將原本異構的特征空間同構化,之后構造源域和目標域向共同空間投影的最小代價函數,以此習得子空間對齊的轉換矩陣,最終將源域的特征翻譯到目標域的特征空間中,完成問題中的知識遷移。具體的算法步驟如下。

      算法1 異構復合遷移學習(HCTL)算法。

      輸入 源域數據集Xs,源域數據集Xt,源域標簽集Ls,迭代次數niter;

      輸出 預測目標域標簽集Lt。

      1) 由CCA習得兩個映射矩陣ωs和ωt

      2) Xs← ωsXs

      3) Xt← ωtXt

      4) Us←OPNMF(Xs)

      5) Ut←OPNMF(Xt)

      6) for i←1 to niterdo

      7) Ss=XsUsHs

      8) Tt=XtUt

      9) Lt=Classifier(Ss,Tt,Ls)

      3.5 性能分析

      通過最小化代價函數可以得到子空間對齊的轉換矩陣M,結合3.4模型算法的第7)步,有:

      因為Ut是正交分解而來,滿足UTtUt=I,可以重寫式(31)為:

      定義A=UsM,再結合3.4節(jié)模型算法的第8)步,可得:

      由此可以看出A=UsM就是將源域特征翻譯到目標域特征空間中的轉換矩陣。

      受Fernando等[9]工作的啟發(fā),可以通過證明A存在一個上界來說明提出的對齊轉換矩陣M具備穩(wěn)定性和防過擬合性。

      引理2[8]對任意向量x,有‖x‖≤B。是Cn正交分解后的前d個特征向量,是與前d+1個特征值(λ1>λ2>… >λd>λd+1>0)相關的的期望值,Hn和H分別是和非負矩陣分解得來的。對任意,至少有1-δ概率有:

      根據引理2,可以推導出定理1,定理1表述如下。

      定理1 Usn(Utn)是樣本大小ns(nt)的源域(目標域)的正交映射算子,而Us(Ut)是與前d+1個特征值λs1>λs2>… >>(>>… >>)相關的Usn(Utn)的期望值,Hs(Ht)和Hsn(Htn)分別是Us(Ut)和Usn(Utn)非負矩陣分解得來的。至少有1-δ概率有:

      其中,Mn=Hsn。

      證明:

      通過定理1可以發(fā)現(xiàn)A存在一個上界。

      4 實驗結果與分析

      4.1 實驗數據和特征

      本文采用兩個真實世界的用戶視頻數據集來檢驗和評價HCTL方法。

      Kodak數據庫:該數據庫包含了真實用戶上傳的195個視頻,并且這些視頻帶有正確的標簽。該視頻數據庫按照事件類別可分為 6 大類:birthday、parade、picnic、show、sports、wedding。

      CCV數據庫[19]:該數據庫是由哥倫比亞大學收集的用戶視頻數據集,其中包含了4659個訓練視頻和4658個測試視頻,并且所有視頻都被正確標注為20個大類。由于本文研究的是有關視頻事件的標注,因此排除掉CCV數據庫中的非事件視頻(如 beach、bird、cat、dog 和 playground),并且為了方便處理,本文將一些子類進行了合并。最終形成了以下11個事件類別:basketball(bask)、baseball(base)、biking(biki)、birthday(birt)、graduation(grad)、parade(para)、performance(perf)、soccer(socc)、sports(spor)、swimming(swim)、wedding(wedd)。

      對于圖像數據,本文通過互聯(lián)網圖像搜索引擎來獲取。具體來說,就是將前面提到的兩個視頻數據庫中的事件名作為關鍵字在互聯(lián)網圖像搜索引擎中進行檢索。對于每一類事件,本文選擇前300張圖片作為初始源域數據集。

      針對每一張源域圖像,本文提取其128維尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征來作為圖像特征。而對于每一個視頻,結合2.1節(jié)空間同構的需求,則提取兩種特征:視頻特征和關鍵幀(圖像)特征。對于Kodak和CCV數據庫中的視頻數據,本文分別提取96維的梯度方向直方圖(Histogram of Oriented Gradient,HOG)特征和144維的時空興趣點(Space-Time Interest Point,STIP)特征作為其視頻運動特征。另外,從每個視頻中隨機選取7個關鍵幀并提取其SIFT特征來作為關鍵幀(圖像)特征。

      4.2 實驗設置

      在本文實驗中,采用詞袋模型來表示圖像和視頻特征。具體來說,先提取所有圖片的SIFT特征并且利用k-means方法將這些特征進行聚類,得到2000個聚類中心,之后通過統(tǒng)計每一張圖片中SIFT特征在這2000個聚類中心出現(xiàn)的詞頻來將圖片特征量化為一個2000維的詞頻特征。同樣地,對于Kodak和CCV數據庫中的視頻特征也采用上述方法分別得到2000維和5000維的視頻特征。

      針對某一個事件,實驗選擇前面收集的300張圖片作為正樣本,然后隨機從其他事件中選擇300張圖片作為負樣本。而對于視頻樣本,從Kodak數據庫選擇全部195個視頻作為訓練樣本,并且從CCV數據庫選擇篩選后的訓練視頻來作為訓練樣本。

      為了驗證本文提出的HCTL方法,本實驗將設置兩種與標準的支持向量機(Standard Support Vector Machine,S_SVM)方法、領域適應支持向量機(Domain Adaptation SVM,DASVM)方法[20]、HTTL 方法、CDSM 方法、領域選擇機(Domain Selection Machine,DSM)方法[3]、異構源域下的多領域適應(Multi-domain Adaptation with Heterogeneous Sources,MDA-HS)方法[21]和判別性相關分析(Discriminative Correlation Analysis,DCA)方法[22]之間的對比實驗。第一種是在目標域(視頻域)數據完全無標注的假設情況下進行的,用以說明HCTL方法在無監(jiān)督學習下的表現(xiàn);第二種是用少量的帶標注目標域(視頻域)數據來輔助訓練目標分類器,用以說明3.2節(jié)的子空間對齊遷移學習模型在少量的帶標注數據的訓練下的表現(xiàn),這里的帶標注數據是從目標域中隨機選取的,根據Kodak和CCV數據集大小的不同,選取的數量分別為{5,10,20}和{20,50,100},并且為了防止選擇的偶然性,在本實驗中會獨立重復3次,然后以這3次的均值作為最后的實驗結果。S_SVM方法和DASVM方法是對分類和領域適應下分類的基礎方法,通過實驗對比能夠得出HCTL方法的有效性。HCTL方法是綜合了HTTL方法和CDSM方法在解決此類問題中存在的缺陷而提出的,因此在此設置對比實驗來證明HCTL方法在此類問題上具有更好的表現(xiàn)。DSM和MDA-HS方法是當前使用互聯(lián)網圖像完成視頻標注經典的解決方法,而DCA是近年來表現(xiàn)最好的異構領域適應方法,通過對比實驗能夠說明HCTL方法的效果。

      本實驗使用平均準確率(Average Precision,AP)來作為評價的標準,并且將mAP(mean AP)作為所有事件的平均AP值。

      4.3 結果分析

      在目標域無標注數據的假設前提下,將HCTL方法與4.2節(jié)提到的7種方法在Kodak和CCV數據庫上進行對比實驗,實驗結果如圖2所示,并且在表1中列出了在這兩個數據庫上的mAP結果。

      通過分析圖2可以得出,沒有任何一種方法能夠在所有的事件上都取得最好的效果,導致出現(xiàn)這一現(xiàn)象的原因可能是不相關源域的圖片影響了較好分類器的學習過程。從表1可以看出,所有方法在CCV數據庫上取得的標注準確率均顯著低于Kodak數據庫,這可能是因為CCV數據庫中包含的事件類別更多并且也更為復雜,但是本文提出的HCTL方法在這兩個數據庫上均取得了最好的mAP結果,這也表明了HCTL方法的穩(wěn)定性。

      圖2 不同方法在不同數據庫上每個事件的AP結果Fig.2 Per-event AP of different methods on different datasets

      表1 不同方法在Kodak和CCV數據集上的mAP結果 %Tab.1 mAP results of different methods on Kodak and CCV %

      在Kodak數據庫上,本文提出的HCTL方法在標注效果mAP上比 S_SVM、DASVM、HTTL、CDSM、DSM、MDA-HS和DCA 方法相對提高了 58.03%、23.06%、45.04%、6.70%、15.52%、13.07%和 6.74%;而在 CCV 數據庫上,分別相對提高了 133.71%、37.28%、14.34%、24.88%、16.40%、20.73%和12.48%,這也驗證了HCTL方法的有效性。

      在第二種對比實驗的設置下,本文將HCTL方法與4.2節(jié)提到的7種方法在Kodak和CCV數據庫上進行對比,實驗結果分別如表2和表3所示。

      從表2和表3可以得出,隨著帶標注目標域數據數量的增大,標注的mAP結果有了顯著的提升,這也驗證了HCTL方法的有效性。另外,綜合表1~3可以看出,加入少量的帶標注的數據可以使得遷移模型在分類準確率上有較大的提升,出現(xiàn)這一結果的原因可能是3.2節(jié)的子空間對齊遷移學習模型只能利用領域間相似的知識來完成分類標注任務,但是加入少量的帶標注數據后,遷移模型能夠利用這部分目標領域的知識將源領域大量相似的知識更加準確地遷移過來。

      最后,本文實驗設置了從視頻中提取不同數量關鍵幀的對比實驗,用以說明幀數對標注效果mAP的影響,實驗結果如圖3所示。

      從圖3可以看出,當幀數提高到7幀時,mAP顯著提升,但是繼續(xù)增加幀數,mAP只有很小的提升。因此,本文實驗設置從視頻中提取的關鍵幀數為7。

      表2 在Kodak數據庫上,不同方法使用不同數量標注數據的mAP結果 %Tab.2 mAP results of different methods using different number of labeled data on Kodak %

      表3 在CCV數據庫上,不同方法使用不同數量標注數據的mAP結果 %Tab.3 mAP results of different methods using different number of labeled data on CCV %

      5 結語

      本文提出了一種異構復合遷移學習(HCTL)方法用以解決將知識從互聯(lián)網圖像遷移到用戶視頻,最終在視頻領域完成基于內容的標注。實驗結果表明,HCTL方法采用的先同構再對齊的復合遷移思想是有效的。在同構化過程中,CCA需要監(jiān)督信息,本文方法借助視頻和其關鍵幀的天然對應關系可以提供這種信息,并且針對更一般化的問題,本文方法也可以使用一定數量帶標注的目標域和源域數據來完成,但是后者不是一個完全無監(jiān)督的過程。另外,本文方法沒有考慮多源域情況下的知識遷移問題,為了習得更好的目標分類器,下一步可以研究多源域下的視頻內容標注問題。

      猜你喜歡
      源域異構矩陣
      多源域適應方法綜述
      試論同課異構之“同”與“異”
      基于參數字典的多源域自適應學習算法
      overlay SDN實現(xiàn)異構兼容的關鍵技術
      電信科學(2016年11期)2016-11-23 05:07:56
      初等行變換與初等列變換并用求逆矩陣
      LTE異構網技術與組網研究
      矩陣
      南都周刊(2015年4期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年3期)2015-09-10 07:22:44
      矩陣
      南都周刊(2015年1期)2015-09-10 07:22:44
      可遷移測度準則下的協(xié)變量偏移修正多源集成方法
      凤庆县| 洮南市| 沙雅县| 长治市| 信宜市| 五莲县| 石楼县| 逊克县| 阜新市| 潜山县| 恩施市| 毕节市| 贵定县| 商洛市| 青河县| 通州区| 榆树市| 通榆县| 鲁甸县| 贡山| 油尖旺区| 同心县| 东莞市| 浠水县| 临沭县| 乐昌市| 汽车| 诏安县| 晋宁县| 吕梁市| 隆尧县| 仪征市| 金乡县| 安化县| 丰城市| 浦城县| 抚州市| 三门县| 巴彦县| 交口县| 开平市|