• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于口型運動速度的視頻序列對齊方法

      2018-01-03 01:55:02王小芳王文青
      計算機應(yīng)用與軟件 2017年12期
      關(guān)鍵詞:口型相似性人臉

      王小芳 王文青 魏 瑋

      (河北工業(yè)大學(xué)計算機科學(xué)與軟件學(xué)院 天津 300401)

      基于口型運動速度的視頻序列對齊方法

      王小芳 王文青 魏 瑋

      (河北工業(yè)大學(xué)計算機科學(xué)與軟件學(xué)院 天津 300401)

      基于視頻人臉替換系統(tǒng)中降低視頻抖動和滿足語音跟口型匹配的要求,提出一種基于視頻圖像中口型運動速度特征的視頻口型對齊方法。視頻中將ASM和光流法相結(jié)合,獲取穩(wěn)定的口型運動速度特征;利用平行線約束條件對動態(tài)時間規(guī)整(DTW)算法的路徑搜索范圍進行約束以快速求得最優(yōu)的匹配路徑;得到對齊后的視頻并給出相似性評價。實驗結(jié)果表明,該方法可以使得兩段視頻中說話的口型保持一致??谛蛯R不僅滿足人物正臉不動的情況,而且能滿足人物有任意小角度(<45°)的頭部運動的情況。最后對模仿視頻給出比較客觀的相似性評價,評價結(jié)果顯示該方法切實可行。

      口型運動速度特征 DTW 視頻口型對齊 相似性評價

      0 引 言

      目前視頻中的人臉替換存在的一個最大問題就是替換上的人臉出現(xiàn)抖動的現(xiàn)象,許多人臉替換的前提假設(shè)源圖像和目標圖像姿態(tài)的相似性[1],其中視頻中替換人臉的口型與源視頻中人臉口型的相似匹配對替換結(jié)果是很重要的[2]。這是因為視頻中人臉變化最大、最不穩(wěn)定的區(qū)域就是嘴部,由于人物說話的影響會使得人臉的長度發(fā)生變化,從而對替換人臉中比例因子這個參數(shù)產(chǎn)生比較大的影響,如果視頻序列口型沒有對齊,最后會導(dǎo)致融合的結(jié)果中人物的臉大小變化比較大,從而出現(xiàn)閃動的現(xiàn)象。

      由于每個人的口型張合程度不一樣,視頻中人物鏡頭的遠近不同以及視頻中人物頭部本身存在運動變化,單純利用嘴部特征的相對位置不能反映說話口型真實的變化趨勢。本文選取了嘴部說話的運動速度特征,能夠消除掉頭部整體運動產(chǎn)生的影響,從而體現(xiàn)出口型真實的運動變化趨勢。

      本文進行時間序列調(diào)整時利用的是動態(tài)時間規(guī)整DTW算法來實現(xiàn)的。DTW算法最早是在20世紀60年代由Itakura提出,在1993年DTW算法最早應(yīng)用在語音識別中,該算法在處理語音信號相似性方面應(yīng)用比較廣[3-5]。現(xiàn)在該算法已推廣到多種應(yīng)用領(lǐng)域,如單個手語識別[6]、動態(tài)手勢識別[7-9]以及信息安全領(lǐng)域的簽名認證系統(tǒng)[10]等。而該算法用在視頻中口型對齊這方面卻很少見。本文利用DTW算法根據(jù)口型的運動速度特征進行時間規(guī)整,對視頻重新調(diào)整,達到兩段視頻序列中口型對齊效果理想。

      本文的主要貢獻就是提出了正向口型運動速度特征和能夠適應(yīng)歪頭等復(fù)雜情況下的斜向口型運動速度特征,并對傳統(tǒng)的DTW進行改進,對路徑搜索時加入了平行線約束條件,提高了算法的運行速度。最后本文提出了一種視頻對齊的相似性評價標準,能夠比較準確地反映視頻中口型對齊的優(yōu)劣程度。

      1 視頻圖像中口型特征提取

      在本節(jié)中我們主要介紹一下視頻中對圖像序列提取反映語音信息的口型運動速度特征。人臉特征點跟蹤是計算機視覺中一個基本且極具挑戰(zhàn)性的研究課題。光流法是目前運動圖像分析的重要方法,因為光流可以從單個像素的角度進行特征點跟蹤而得到廣泛的應(yīng)用[11]。首先利用Haar_like算法對視頻首幀進行人臉檢測,得到目標人臉;用主動外觀模型(ASM)對要對齊的目標人臉進行特征點提??;對要提取的特征點在以后的視頻幀中使用光流法跟蹤。最后根據(jù)設(shè)定的閾值用ASM進行特征點矯正,計算得到反映人物語音信息的口型特征。

      1.1 人臉特征點檢測

      對視頻圖像進行人臉檢測,然后選擇要進行口型對齊的目標人臉,再用ASM對人臉進行特征點檢測,獲取人臉上的特征點。如圖1所示為檢測到的人臉及面部的特征點。

      圖1 人臉及面部的特征點檢測

      對于以后視頻幀中的特征點我們利用光流法進行跟蹤,每次跟蹤都會與預(yù)先設(shè)定的閾值進行比較,如果超出閾值則利用ASM進行校正。假設(shè)當(dāng)前跟蹤的特征點位置為pi,前一幀的特征點位置為pi-1,考慮到嘴唇的點在縱向距離變化比較大,而在橫向的變化距離小,經(jīng)過實驗獲得經(jīng)驗閾值:橫向閾值r1=1和縱向閾值r2=3。當(dāng)|pi.x-pi-1.x|>r1or|pi.y-pi-1.y|>r2時重新進行ASM人臉特征點檢測,更新當(dāng)前的特征點位置。

      1.2 口型運動速度特征

      經(jīng)過ASM特征點檢測,我們得到了人臉的77個特征點。因為提取的是反映講話的口型特征,考慮到嘴唇講話時張合變化最大的是嘴唇中間的點,所以本文選取的是上下嘴唇外輪廓的中心點,即第62和第74個特征點pi1和pi2,如圖1(b)中嘴唇上面的兩個特征點。在以后的視頻人臉跟蹤中分別跟蹤第62和第74這兩個點,嘴唇上面的點記作第一個特征點,嘴唇下面的記作第二個特征點。對于正臉和歪頭的情況,我們分別提出了正向口型運動速度特征和兼容兩種情況的斜向口型運動速度特征。

      1.2.1 正向口型運動速度特征

      對于視頻中人物正臉的情況,人物講話過程的嘴唇變化最主要的就是嘴唇的張合,所以本文計算嘴唇的上下相對距離來作為嘴唇張合的判斷依據(jù)。然后利用前后幀嘴唇張合的相對距離計算時間序列的一階差分獲得嘴唇的速度信息,這樣可以規(guī)避掉由于人物本身運動或頭部運動產(chǎn)生的速度干擾。那么視頻序列A的第i幀的口型運動速度為ai,如公式:

      ai=(yi-1,2-yi-1,1)-(yi,2-yi,1)

      (1)

      式中,yi,1表示第i幀的第一個特征點的縱坐標。如此就得到了反映口型速度的特征向量a=(a1,a2,…,am)。

      1.2.2 斜向口型運動速度特征

      由于式(1)只用了兩點的縱坐標的變化,該方法可以很好地適應(yīng)人物正臉說話的情況,但是不適合對于人物說話有隨意的小角度(一般不超過45°)的頭部運動的情況。當(dāng)頭有歪頭的情況時,導(dǎo)致嘴的實際的運動方向并不是沿著垂直方向而是始終沿著人臉的垂直方向,自然地,口型運動的實際方向就有了一個偏轉(zhuǎn)角度θ,就是沿著垂直方向偏轉(zhuǎn)θ角度的方向,因此本文提出了斜向口型運動速度,定義視頻序列A的第i幀的斜向口型運動速度為ai,如公式:

      (2)

      式中:xi,1表示第i幀的第一個特征點的橫坐標,yi-1,2表示第i-1幀的第二個特征點的縱坐標,其他同理。

      2 視頻對齊

      DTW算法最早是由Itakura提出來的,主要目的是用來衡量兩個長度不同的時間序列的相似度。其在語音處理領(lǐng)域應(yīng)用范圍很廣。本文在傳統(tǒng)的DTW算法的基礎(chǔ)上對其進行了改進,提出了一種平行線約束條件對局部搜索路徑進行約束,利用該方法來解決圖像信息處理中的口型對齊問題,能夠使得模仿視頻中人物口型與參考視頻模板對齊,對以后視頻處理奠定了基礎(chǔ)。

      2.1 改進DTW算法

      首先,設(shè)有兩段視頻序列,其中一個為參考模板A,另外一個為測試模板B,前提條件是視頻序列B是參照參考模板模仿得到的,即兩段講話中的語素是相同的,不同的就是說話的語速、嘴型的張合力度等因素。兩段視頻序列的長度分別為m和n。經(jīng)過這兩種人臉特征點檢測的介紹,就可以分別獲得兩段視頻序列的口型速度特征向量a和b,即:

      a=(a1,a2,…,am);b=(b1,b2,…,bn)

      為了對齊兩段視頻序列,就需要構(gòu)造一個m×n的累加距離矩陣D。首先定義一下視頻序列中任意兩個特征點之間的距離d(ai,bj)=(ai-bj)2;對于累加距離矩陣中任意元素d(i,j),它的值只可能來自于三個方向,如圖2所示。只來自于(i,j-1)、(i-1,j-1)和(i-1,j)。因此定義累加距離矩陣的計算公式為:

      (3)

      圖2 相鄰節(jié)點示意圖

      由于兩段視頻序列中m和n一般比較大,如果全部計算累加距離矩陣中的每個值,此矩陣必然很龐大,運算量也會很大?;诖?,不少方法都對DTW的搜索路徑進行了改進,從而減少計算量,提高系統(tǒng)的效率,如文獻[12]中提出了基于菱形的全局路徑約束。以上方法固定了搜索路徑的斜率,不能夠很好地適應(yīng)兩段口型時間上差別比較大的情形。文獻[13]提出了三個矩形區(qū)域的路徑約束條件,該方法更適合視頻序列比較長的情況。本文對DTW算法進行了改進,提出了平行線的路徑搜索約束條件,搜索范圍由兩段視頻的時間差異決定,適合任意長度的視頻序列。

      在匹配過程中,許多節(jié)點是到達不了的,因此通過設(shè)置匹配窗口的大小,只計算兩條平行線之內(nèi)的部分累加距離,平行線之外的距離是不需要計算的,如圖3中陰影部分,從而縮小了計算量,提高了運算速度。

      圖3 路徑約束示意圖

      這兩條平行線的斜率由參考模板的長度m和待測模板的長度n共同決定,這兩條平行線的方程分別為:

      x(m-n+r)-yr+r(n-r)+2r=0x(m-n+r)-yr+r(n-r)=0

      (4)

      (1) 當(dāng)i=0,j=0時,d(i,j)=2|a0-b0|。

      (2) 當(dāng)1≤i≤r,j=0時,d(i,j)=d(i-1,0)+ |ai-b0|。

      (3) 當(dāng)i=0,1≤j≤r時,d(i,j)=d(0,j-1)+ |a0-bj|。

      (4) 當(dāng)istart≤i≤imax,1≤j

      d(i,j)= min{d(i-1,j)+ |ai-bj|;d(i-1,j-1)+

      2 |ai-bj|;d(i,j-1)+|ai-bj|}

      累加距離矩陣計算完成之后,矩陣中最后位置(m-1,n-1)的值存放兩個時間序列對齊之后的最小距離,即d(m-1,n-1)。

      2.2 逆向搜索法尋找最優(yōu)路徑

      根據(jù)前面計算得到的累加距離矩陣,從最大位置(m-1,n-1)開始逆向搜索,直到(0,0)點結(jié)束。首先給出任意兩個數(shù)p和q,兩數(shù)的較小者我們簡單地定義為:

      (5)

      設(shè)m=min{min(d(i-1,j),d(i-1,j-1)),d(i,j-1)},定義矩陣Pm×n來存放最優(yōu)路徑,初始化矩陣全部為零,當(dāng)某位置(i,j)處有路徑經(jīng)過時,則將此處元素賦值為1,即p(i,j)=1。具體過程如下:

      (1) ifm=d(i-1,j) 則i--,p(i-1,j)=1。

      (2) ifm=d(i-1,j-1)則i--,j--,p(i-1,j-1)=1。

      (3) ifm=d(i,j-1) 則j--,p(i,j-1)=1。

      (4) ifi==0,則j--,p(0,j-1)=1。

      (5) ifj==0,則i--,p(i-1,0)=1。

      最后遍歷整個矩陣P,將值為1的坐標(xi,yi)輸出,即得到最后的最優(yōu)路徑p0,…,pi,…,pm=(x0,y0),…,(xi,yj),…,(xm,yn),其中pi=(xi,yj),即A序列的第xi幀與B序列的第yj幀相對齊。由于待測模板向參考模板對齊,最后調(diào)整的待測模板長度與參考模板相同。對于最后得到的最優(yōu)路徑中待測模板某一幀同時對應(yīng)參考模板好幾幀的情況,即存在某段路徑:(xi,yj-k),…,(xi,yj),…,(xi,yj+l),根據(jù)式(6)將該幀與參考模板重復(fù)的每一幀進行比較,計算速度的差值,選取差值最小的那一幀作為最后的對應(yīng)幀。

      (6)

      3 視頻序列的相似性評價

      針對視頻序列對齊的結(jié)果,本文給出了關(guān)于對齊結(jié)果的相似性評價準則。它能夠給出待測模板根據(jù)參考模板對齊之后達到的相似性程度,通過定義的匹配時間誤差來判斷。因為視頻對齊的目的是使得替換的人臉口型保持相似,從而使得五官位于臉上的比例相似,視頻替換上的聲音仍取自電影聲音,所以要求的是口型的相似而不是發(fā)音語素的相似。基于此,本文就認為口型張合的程度越相近就認為模仿越像,也就是相似性越高。

      由于兩段說話視頻中表演者開始講話的開始時間是隨意的,評價的對象是表演者從開始說話到講話完成為止這段時間內(nèi)表演者兩段講話的相似性,所以首先獲得整段序列中表演者講話的那部分序列幀,對兩段視頻序列的口型速度特征向量a和b對時間求導(dǎo),計算其一階差分:

      (7)

      本文提出了口型相似性評價參數(shù)為相似度系數(shù)SC(Similarity Coefficient),定義為:

      (8)

      式中:pi·x表示得到的最優(yōu)路徑的第pi個點的橫坐標;該公式表示計算對齊之后的視頻與參考視頻兩個口型上下差值的歐式距離。經(jīng)過統(tǒng)計整段視頻每幀對應(yīng)的匹配系數(shù),當(dāng)SC小于經(jīng)驗閾值4時就認為匹配正確,最后計算匹配正確的幀數(shù)占總幀數(shù)的比例得到視頻口型對齊之后的相似性概率SP(Similarity Probability),即SP=正確匹配幀數(shù)/總幀數(shù)。

      4 實驗結(jié)果

      靠嘴部的運動反映表演者說話內(nèi)容,不同于直接提取語音信息,這就要求說話者能夠?qū)⒃捴械拿總€字的發(fā)音口型表達清楚,只有這樣,才能得到對話語比較準確的特征,才能夠使得匹配更加精確。實驗中分別選取了不同的9段話,其中包括中文和英文。隨機找了10個人來講這9段話,每句講2遍,講話過程人物頭部隨意擺動,只要擺動角度在左右偏轉(zhuǎn)45度之內(nèi)就行,在實驗室環(huán)境下拍攝共180段樣本數(shù)據(jù);所有實驗都是在Win7 64位+Intel core i3+CPU 2.30 GHz的PC機上進行的。

      實驗一:下面是對人物正臉講話情況下,發(fā)音為“open”時對齊的結(jié)果如圖4所示,(a)是參考模板分別為第30、32、34、36、38、40幀時的圖片,(b)是待測模板對應(yīng)的相應(yīng)幀的圖片,(c)和(d)是分別用正向和斜向口型運動速度特征對待測模板口型對齊之后相應(yīng)幀的圖片。

      圖4 正臉口型對齊結(jié)果

      實驗二:以下是對人物頭部有歪頭情況下,發(fā)音為“我是不是哪里不好啊”時對齊結(jié)果展示,如圖5所示,(a)是參考模板分別為第35、40、45、50、55、60、65、70、75幀時的圖片,(b)是待測模板對應(yīng)的相應(yīng)幀的圖片,(c)和(d)分別是用正向和斜向口型運動速度特征對待測模板口型對齊之后相應(yīng)幀的圖片。

      圖5 歪頭情況口型對齊結(jié)果

      從圖4可以看出對于正臉情況,本文提出的兩種口型運動速度特征都能使得兩段視頻口型對齊。但由圖5(c)、(d)與(a)比較可知,正向運動速度特征已不能滿足歪頭的情況。由圖4和圖5綜合比較可以看出,本文提出的斜向口型運動速度特征不僅適應(yīng)正臉情況,而且在人物歪頭或頭部有任意小角度(<45°)運動的情況下,都能夠使得兩段視頻序列的口型對齊。

      實驗三:為了避開人物嘴唇形狀、厚度等外界因素的影響,本文設(shè)計的實驗為每個人根據(jù)不同的9段話分別說兩遍,然后測試每個人說的這兩段話的相似性概率,最后計算每組匹配相似性概率的均值,共10組數(shù)據(jù)如圖6所示。

      圖6 口型相似性評價結(jié)果

      從圖6中可以看出,經(jīng)本文提出的口型對齊結(jié)果相似性評價方法進行評價可以得到:有的對齊比較準確,能夠達到正確率95%左右;但有的結(jié)果不理想,僅有73%。經(jīng)實驗分析,即使是同一個人說相同的話,這兩遍的發(fā)音口型也不完全相同,有時在開始結(jié)尾處的差別比較大,導(dǎo)致對齊的相似性概率比較低。但總平均相似性概率能夠達到85.08%,說明本文提出的方法能夠比較好地滿足口型對齊的目的。

      實驗四:實驗比較了傳統(tǒng)DTW算法和經(jīng)過本文改進之后的DTW算法應(yīng)用到本系統(tǒng)中的時間效率,實驗中分別統(tǒng)計了兩種方法在180段實驗樣本中運行的時間,表1所示為對齊1 min的視頻序列所需的平均時間。

      表1 算法平均時間比較

      由表中的實驗數(shù)據(jù)分析得出,本文改進DTW算法相比傳統(tǒng)DTW算法可以使得整個系統(tǒng)的效率提高將近2倍。

      5 結(jié) 語

      在口型特征點檢測時本文將ASM和光流法跟蹤相結(jié)合,通過設(shè)定閾值來糾正跟蹤結(jié)果以獲得準確的嘴唇特征點。在對齊過程中利用了DTW算法,經(jīng)過提出的平行線的路徑搜索約束條件的限制,算法運算速度明顯提高。最后利用嘴唇上下運動的速度特征實現(xiàn)了正臉人物講話時的口型對齊,并在此基礎(chǔ)上又提出了斜向的運動速度特征,解決了人物講話頭部有任意小角度擺動的情況下口型對齊問題,為以后視頻人臉替換奠定了基礎(chǔ)。人物講話存在嘴部歪斜不對稱的情況,如何解決這類問題將口型對齊更加完善,將是下一步研究的問題。

      [1] Bitouk D,Kumar N,Dhillon S,et al.Face swapping automatically replacing faces in photographs[C]//Proc ACM SIGGRAPH 2008.New York:ACM press,2008:1-8.

      [2] Dale K,Sunkavalli K,Johnson M K,et al.Video Face Replacement[J].Acm Transactions on Graphics,2011,30(6):61-64.

      [3] 李燕萍,陶定元,林樂.基于DTW模型補償?shù)膫窝b語音說話人識別研究[J].計算機技術(shù)與發(fā)展,2017,27(1):93-96.

      [4] 吳康妍,李鏘,關(guān)欣.一種結(jié)合端點檢測可檢錯的DTW樂譜跟隨算法[J].計算機應(yīng)用與軟件,2015,32(3):158-161.

      [5] Sun X,Miyanaga Y.Dynamic time warping for speech recognition with training part to reduce the computation[C]//International Symposium on Signals,Circuits and Systems.IEEE,2013:1-4.

      [6] 張露.基于DTW的單個手語識別算法[J].現(xiàn)代計算機,2016(8):77-80.

      [7] Moon C H,Kim Y C.Hybrid gesture classifying method using K-NN and DTW for smart remote control[C]//International Conference on Information Science,Electronics and Electrical Engineering.IEEE,2014:1298-1300.

      [8] Hong D,Luo Y.A gesture trace detection method using DTW[J].Applied Mechanics and Materials,2013,380-384:3874-3877.

      [9] Ruan X,Tian C.Dynamic gesture recognition based on improved DTW algorithm[C]//IEEE International Conference on Mechatronics and Automation.IEEE,2015:2134-2138.

      [10] 鄢晨丹,楊陽,程久軍,等.基于統(tǒng)計模型的DTW簽名認證系統(tǒng)[J].信息網(wǎng)絡(luò)安全,2015(7):64-70.

      [11] Ahn B,Han Y,Kweon I S.Real-time facial landmarks tracking using active shape model and LK optical flow[C]//International Conference on Ubiquitous Robots and Ambient Intelligence.IEEE,2012:541-543.

      [12] Jambhale S S,Khaparde A.Gesture recognition using DTW & piecewise DTW[C]//International Conference on Electronics and Communication Systems,2014:1-5.

      [13] Lou Y,Ao H,Dong Y.Improvement of Dynamic Time Warping (DTW) Algorithm[C]//International Symposium on Distributed Computing and Applications for Business Engineering and Science.IEEE,2015:384-387.

      VIDEOSEQUENCEALIGNMENTMETHODBASEDONVELOCITYOFMOUTHMOVEMENT

      Wang Xiaofang Wang Wenqing Wei Wei

      (SchoolofComputerScienceandSoftware,HebeiUniversityofTechnology,Tianjin300401,China)

      Based on the requirement of reducing video jitter and video matching between mouth and voice in video face replacement system, a video mouth alignment method based on the characteristics of mouth speed in video image is proposed. In the video, the ASM and the optical flow method were combined to obtain the stable velocity characteristics of the mouth, and then the path search range of the Dynamic Time Warping (DTW) algorithm was constrained by the parallel line constraint condition to obtain the optimal matching path quickly. Finally, the aligned video was obtained and the similarity evaluation was given. Experimental results show that the proposed method can make the mouth speak two videos in consistent alignment. This method not only satisfies the situation of human face immobility, but also satisfies the human head motion at any degree less than 45 degrees. Finally objective similarity evaluation is given to the imitation video, and the evaluation results show that the method is feasible.

      Velocity characteristics of mouth movement DTW Video mouth shape alignment Similarity evaluatio

      2017-03-11。天津市科技計劃項目(14RCGFGX00846);河北省自然科學(xué)基金面上項目(F2015202239);天津市科技計劃項目(15ZCZDNC00130)。王小芳,講師,主研領(lǐng)域:機器視覺。王文青,碩士生。魏瑋,教授。

      TP3

      A

      10.3969/j.issn.1000-386x.2017.12.040

      猜你喜歡
      口型相似性人臉
      一類上三角算子矩陣的相似性與酉相似性
      有特點的人臉
      輪胎擠出口型參數(shù)化設(shè)計與加工
      橡膠科技(2021年11期)2021-07-20 03:23:54
      MG動畫中制作角色聲畫同步口型的研究
      淺析當(dāng)代中西方繪畫的相似性
      河北畫報(2020年8期)2020-10-27 02:54:20
      三國漫——人臉解鎖
      動漫星空(2018年9期)2018-10-26 01:17:14
      不一樣的/e/和/?/
      淺談巴松管演奏的口型技巧與氣息運用
      草原歌聲(2017年1期)2017-04-23 05:08:59
      低滲透黏土中氯離子彌散作用離心模擬相似性
      馬面部與人臉相似度驚人
      宜兰市| 开远市| 玛多县| 连城县| 钟山县| 隆林| 勃利县| 玉山县| 年辖:市辖区| 南丰县| 常宁市| 收藏| 鹤庆县| 宁海县| 嘉鱼县| 易门县| 铁力市| 玛纳斯县| 比如县| 会东县| 饶平县| 岑巩县| 河源市| 三原县| 大埔县| 巴青县| 盐城市| 新闻| 清水河县| 泗洪县| 永宁县| 濮阳县| 中牟县| 延津县| 甘孜县| 清涧县| 恭城| 满洲里市| 保康县| 呼玛县| 南召县|