• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語音驅(qū)動(dòng)弗格森曲線合成嘴唇動(dòng)畫

      2021-09-15 08:35:14張凈波楊元維蔣夢(mèng)月杜李慧
      關(guān)鍵詞:弗格森音素口型

      張凈波 楊元維 徐 杰 蔣夢(mèng)月 李 鵬 杜李慧

      (1.長(zhǎng)江大學(xué)地球科學(xué)學(xué)院 武漢 430100)(2.中國(guó)石油管道科技研究中心 廊坊 065000)(3.中國(guó)石油天然氣集團(tuán)公司油氣儲(chǔ)運(yùn)重點(diǎn)實(shí)驗(yàn)室 廊坊 065000)

      1 引言

      迄今,國(guó)內(nèi)外的許多學(xué)者一直致力于研究出一種實(shí)時(shí)、自然、逼真的嘴唇動(dòng)畫。Terry基于新型貝葉斯網(wǎng)絡(luò)模型法確定視素和音素信息[1],實(shí)現(xiàn)語音驅(qū)動(dòng)模型生成嘴唇動(dòng)畫。文獻(xiàn)[2]基于Bernstein-Bézier曲線與唇部運(yùn)動(dòng)規(guī)律通過構(gòu)造函數(shù)的方法描述動(dòng)態(tài)視位,通過該方法合成的動(dòng)畫相對(duì)真實(shí)、自然,但當(dāng)語速較快時(shí)易發(fā)生跳變。肖葉清等采用肌肉控制模型模擬口型動(dòng)畫,但未考慮到漢語協(xié)同發(fā)音的特點(diǎn)[3]。Moro等基于神經(jīng)網(wǎng)絡(luò)法將聲學(xué)的特征參數(shù)和人臉動(dòng)畫匹配,提出了一種自動(dòng)克隆的會(huì)說話的虛擬人的方法[4]。范鑫鑫等依據(jù)輸入的語音信號(hào)提出了一種嘴唇同步算法,該算法具有較高的準(zhǔn)確率和重用性[5]。文獻(xiàn)[6]基于HMM(Hidden Markov Model)建立了用于語音音素分類與用于情感分類的層次結(jié)構(gòu),并實(shí)現(xiàn)了語音驅(qū)動(dòng)表情。文獻(xiàn)[7]通過改進(jìn)的最小轉(zhuǎn)換軌跡誤差訓(xùn)練對(duì)語音特征參數(shù)以及口型特征參數(shù)同步的方法進(jìn)行了相關(guān)研究,實(shí)現(xiàn)了語音驅(qū)動(dòng)口型動(dòng)畫。王躍根據(jù)漢語具有協(xié)同發(fā)音的特點(diǎn),提出了一種基于漢語協(xié)同發(fā)音的文本驅(qū)動(dòng)三維口型合成動(dòng)畫,使生成的動(dòng)畫更接近真人的口型[8]。

      口型動(dòng)畫的研究雖取得了不少成果,但仍然存在兩點(diǎn)問題,其一是MPEG-4標(biāo)準(zhǔn)中提供的嘴唇特征點(diǎn)數(shù)量不足,導(dǎo)致合成的嘴唇動(dòng)畫輪廓不自然;其二是語音與動(dòng)畫的映射關(guān)系不能做到在時(shí)間上完全匹配。針對(duì)以上存在的問題,本文提出基于弗格森函數(shù)添加特征點(diǎn)的方法,并基于聲母韻母建立語音和動(dòng)畫映射,采用線性插值的方法保證語音和動(dòng)畫在時(shí)間上同步。其設(shè)計(jì)思想如圖1所示。

      圖1 動(dòng)畫生成流程

      2 語音信息的提取

      語音信息包含語音的文字信息和語音的時(shí)間信息。語音的文字信息即語音的內(nèi)容,本文通過調(diào)用百度接口識(shí)別出目標(biāo)段語音包含的文字序列;語音的時(shí)間信息指的是單個(gè)文字播放時(shí)的時(shí)間點(diǎn),本文采用語音端點(diǎn)檢測(cè)技術(shù)獲取單個(gè)漢字在語音段中的時(shí)間片段。

      2.1 基于百度接口提取語音文字

      百度語音識(shí)別接口運(yùn)用基于多層單向(Long Short-Term Memory,LSTM)的漢語聲韻母整體建模技術(shù),并把連接時(shí)序分類(Connectionist Temporal Classification,CTC)訓(xùn)練技術(shù)嵌入到傳統(tǒng)識(shí)別建模的框架中,再結(jié)合語音識(shí)別領(lǐng)域的區(qū)分度訓(xùn)練、跨詞解碼、決策樹聚類等技術(shù)[9],可以較為理想地實(shí)現(xiàn)語音識(shí)別。百度將深層卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNN)模型與LSTM、CTC結(jié)合,降低了語音識(shí)別解碼的計(jì)算量,減少了人為干預(yù)。引入了DCNN的概念,使模型在時(shí)頻域上具有很好的平移不變性,提高了模型抗噪性,錯(cuò)誤率相對(duì)下降10%,提高了語音識(shí)別的性能[10]。

      2.2 基于語音端點(diǎn)檢測(cè)的語音分割

      語音端點(diǎn)檢測(cè)是語音信號(hào)處理中的一個(gè)重要環(huán)節(jié),用來檢測(cè)語音段中文字間出現(xiàn)的短暫停頓點(diǎn)。將短時(shí)能量(Short Term Energy)和短時(shí)過零率(Short Term Zero Crossing Rate)結(jié)合分析是語音端點(diǎn)檢測(cè)技術(shù)常用的方法[11],本文采用該方法進(jìn)行語音分割。

      一幀語音信號(hào)的能量稱為短時(shí)能量,第n幀短時(shí)能量定義為

      其中,Qn表示第n幀的短時(shí)能量,N表示第n幀中包含的音頻采樣數(shù)量,Sn表示第n個(gè)采樣的取樣值[12]。

      一幀語音信號(hào)中的信號(hào)波形正負(fù)號(hào)變化的次數(shù)稱為語音信號(hào)的過零率,第n幀的短時(shí)過零率定義:

      其中,Zn表示第n幀的短時(shí)過零率,N表示信號(hào)幀長(zhǎng),Sn表示第n個(gè)音頻的采樣值,sgn()表示符號(hào)函數(shù),將式(3)帶入式(2)中即可得到第n幀的短時(shí)過零率。

      語音端點(diǎn)檢測(cè)技術(shù)的基本思想是[13]為短時(shí)能量與短時(shí)過零率分別確定兩個(gè)門限值,一個(gè)為較低的門限值,對(duì)音頻信號(hào)變化相對(duì)敏感;另一個(gè)為較高的門限值。當(dāng)高門限值被超過且在接下來的一段時(shí)間內(nèi)低門限值始終被超過,則表明語音信號(hào)開始。

      例如,對(duì)“長(zhǎng)江大學(xué)歡迎您”這一段語音進(jìn)行切割,結(jié)果如圖2所示。

      圖2 語音分割情況

      3 基于弗格森函數(shù)刻畫嘴唇

      弗格森函數(shù)是由多段的三次多項(xiàng)式拼接而成的[14],在拼接位置處,不僅函數(shù)自身是連續(xù)的,而且其一階導(dǎo)數(shù),二階導(dǎo)數(shù),曲率也是連續(xù)的。因此該函數(shù)最大限度的保證了曲線的平滑、連續(xù)。

      嘴唇動(dòng)畫的生成需要建立相應(yīng)的特征點(diǎn)。MPEG-4標(biāo)準(zhǔn)中提供的人臉特征點(diǎn)定義參數(shù)(Facial Definition Parameters,F(xiàn)DP),如 圖3所 示。MPEG-4標(biāo)準(zhǔn)中指定的特征點(diǎn)過于稀疏,不能較為準(zhǔn)確地刻畫嘴唇運(yùn)動(dòng)的諸多細(xì)節(jié),需增加特征點(diǎn)的數(shù)量以保證動(dòng)畫的真實(shí)性。本文將MPEG-4中定義的特征點(diǎn)作為控制點(diǎn),建立弗格森函數(shù),基于已有特征點(diǎn)的函數(shù)關(guān)系來增加特征點(diǎn)數(shù)量。

      圖3 MPEG-4特征點(diǎn)坐標(biāo)系

      本文以左側(cè)嘴角為原點(diǎn)建立的平面直角坐標(biāo)系,圖3中將MPEG-4中的特征點(diǎn)劃分為4組,分別為:1)上唇外側(cè)2)上唇內(nèi)側(cè)3)下唇內(nèi)側(cè)4)下唇外側(cè)。每組由5個(gè)特征點(diǎn)組成(其中嘴角處的特征點(diǎn)上唇下唇共用)。嘴唇在張合運(yùn)動(dòng)過程中,各組中各點(diǎn)縱向運(yùn)動(dòng)幅度△y存在著相關(guān)性。用照相機(jī)在說話人的正面對(duì)嘴唇進(jìn)行連續(xù)照相,為降低個(gè)體嘴唇差異的影響選取了若干名說話人,每個(gè)人都發(fā)相同的音,對(duì)應(yīng)MPEG-4標(biāo)準(zhǔn)中指定的特征點(diǎn),計(jì)算每個(gè)特征點(diǎn)由嘴唇不發(fā)音位置到發(fā)音位置的位移變化量,取其平均值作為最終的運(yùn)動(dòng)比例系數(shù)△y,最終得到各個(gè)特征點(diǎn)縱向位移變化量(xj,△yj),(j=1,2,…,16)。由每組的5個(gè)特征點(diǎn)作為控制點(diǎn)建立弗格森函數(shù),共計(jì)建立四組函數(shù)。

      基于上述求得的函數(shù),確定了特征點(diǎn)縱向位移變化量與橫坐標(biāo)的映射關(guān)系,只要輸入任意位置的橫坐標(biāo)即可獲得該位置縱向位移變化量△y,因此基于該函數(shù)可無限增加特征點(diǎn)的數(shù)量。綜上,本文建立嘴唇特征點(diǎn)運(yùn)動(dòng)模型:

      其中l(wèi)i(i=1,2,…,n)表示嘴唇曲線運(yùn)動(dòng)過程中特征點(diǎn)縱坐標(biāo),yi為嘴唇閉合時(shí)特征點(diǎn)的縱坐標(biāo),△yi表示運(yùn)動(dòng)比例系數(shù)。R為視位參數(shù)(R∈[0,5])。再將所有的特征點(diǎn)用弗格森曲線連接繪制出嘴唇輪廓,通過不斷改變R的值即可模擬出整個(gè)發(fā)音過程嘴唇的動(dòng)畫。本文基于聲母韻母建立了語音與動(dòng)畫的映射關(guān)系,該映射關(guān)系定義了聲母韻母對(duì)應(yīng)的視位參數(shù)R,具體的定義方法將在下一節(jié)中介紹。

      4 基于聲母韻母語音動(dòng)畫的映射

      本文首先基于拼音的聲母韻母對(duì)語音進(jìn)行劃分,再對(duì)劃分后的聲母韻母建立相應(yīng)的視位參數(shù)。獲取視位參數(shù)的具體方法:用相機(jī)正對(duì)說話人的嘴唇照相,計(jì)算MPEG-4中指定的特征點(diǎn)在每一個(gè)聲母韻母的視位坐標(biāo)(xi,li),參考式(4)及預(yù)先定義的運(yùn)動(dòng)比例系數(shù)△yi獲取視位參數(shù)R。最終視位參數(shù)結(jié)果如表1所示。

      表1 聲母韻母視位分類結(jié)果(部分)

      5 基于線性插值的視位參數(shù)過渡

      基于聲母韻母建立語音與動(dòng)畫的映射的方法獲得了視位參數(shù),該視位參數(shù)為關(guān)鍵幀的視位參數(shù),而發(fā)音動(dòng)作是連續(xù)過程,因此需要在關(guān)鍵幀之間做視位參數(shù)的過渡處理[15]。本文基于協(xié)同發(fā)音中的音素影響因子計(jì)算音素發(fā)音時(shí)刻,然后基于音素發(fā)音時(shí)刻采用線性插值的方法過渡處理視位參數(shù),保證語音和動(dòng)畫在時(shí)間上的同步。

      在嘴唇動(dòng)畫中,當(dāng)前發(fā)音的口型除了受當(dāng)前發(fā)音的音素影響外,還受到該音素前后音素的影響。在漢語中元音處于影響地位,輔音處于被影響地位[16]。音節(jié)控制模型[17]中定義了元音的影響等級(jí),并給出了量化的影響值,如表2所示,影響等級(jí)從1級(jí)到4級(jí)逐漸遞減。影響等級(jí)越高(影響因子越大),越容易影響其他音素[18]。

      表2 音素影響等級(jí)表

      影響因子描述了音素間彼此的影響程度,結(jié)合音節(jié)控制模型計(jì)算每個(gè)文字中的音素開始發(fā)音的時(shí)間點(diǎn),公式如下:

      其中Tn表示該文字中第n個(gè)音素開始發(fā)音的時(shí)刻,Tx表示第x個(gè)文字的開始時(shí)刻,Tl表示該文字發(fā)音的持續(xù)時(shí)間。D表示前一音素對(duì)當(dāng)前音素的影響因子。通過該方法算出語音中每個(gè)音素的發(fā)音開始時(shí)刻。

      為了實(shí)現(xiàn)任意時(shí)刻的動(dòng)畫幀與語音流的同步匹配,本文將關(guān)鍵幀視位參數(shù)做線性插值處理生成過渡幀視位參數(shù)。過渡幀視位參數(shù)插值算法公式如下:

      其中Ti表示第i幀動(dòng)畫發(fā)音時(shí)刻,Rx表示Ti(i∈[a,b])時(shí)刻的視位參數(shù),Ra、Rb表示前后關(guān)鍵幀的視位參數(shù)。Ta、Tb表示前后關(guān)鍵幀的發(fā)音開始時(shí)刻。結(jié)合式(5)、(6)中即可得到Ti時(shí)刻的視位參數(shù)。

      6 實(shí)驗(yàn)及結(jié)果分析

      6.1 實(shí)驗(yàn)設(shè)計(jì)

      為驗(yàn)證本文提出方法的正確性,本文設(shè)計(jì)三組實(shí)驗(yàn)如下。

      實(shí)驗(yàn)一用無噪聲的語音驅(qū)動(dòng)嘴唇曲線,分別測(cè)試不同語速條件下生成的嘴唇動(dòng)畫的準(zhǔn)確率并對(duì)結(jié)果加以進(jìn)行分析。

      實(shí)驗(yàn)二用“美好長(zhǎng)大”四個(gè)字的語音驅(qū)動(dòng)嘴唇動(dòng)畫,將本文方法合成的嘴唇動(dòng)畫與真實(shí)口型對(duì)比,觀察對(duì)應(yīng)動(dòng)畫與真實(shí)口型的相似度。

      實(shí)驗(yàn)三將本文方法分別與文獻(xiàn)[19]自定義添加特征點(diǎn)法、文獻(xiàn)[20]基于唇部子運(yùn)動(dòng)與權(quán)重函數(shù)法生成的嘴唇動(dòng)畫的準(zhǔn)確率對(duì)比,并對(duì)結(jié)果進(jìn)行分析。

      6.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

      1)實(shí)驗(yàn)一、三評(píng)價(jià)標(biāo)準(zhǔn)

      在發(fā)音內(nèi)容及語速相同的情況下,測(cè)量真人嘴唇特征點(diǎn)位移Vreal(i),考慮到個(gè)體差異性,取n個(gè)人正常發(fā)音的嘴唇位移的平均值作為Vreal。計(jì)算Vreal與動(dòng)畫嘴唇特征點(diǎn)位移Vanim之差△V,△V與Vreal之比作為動(dòng)畫誤差。即:

      綜上,結(jié)合式(7)、(8)最終評(píng)價(jià)準(zhǔn)確率標(biāo)準(zhǔn):

      2)實(shí)驗(yàn)二評(píng)價(jià)標(biāo)準(zhǔn)

      本實(shí)驗(yàn)從嘴唇開合大小、嘴唇形狀、是否有病態(tài)口型(如嘴唇出現(xiàn)不合理的凹凸)三個(gè)方面對(duì)嘴唇輪廓效果進(jìn)行評(píng)價(jià)。

      6.3 實(shí)驗(yàn)結(jié)果與分析

      1)實(shí)驗(yàn)一結(jié)果如表3所示。

      表3 實(shí)驗(yàn)結(jié)果

      由表3可知?jiǎng)赢嬐狡ヅ錅?zhǔn)確率的降低趨勢(shì)大致和語速增加成反比。本文中定義的語音與動(dòng)畫的映射關(guān)系不隨語速的變化而變化,根據(jù)弗格森曲線繪制的嘴唇曲線特征點(diǎn)坐標(biāo)不隨語速的變化而變化,因此導(dǎo)致該情況的發(fā)生的主要原因有兩個(gè)。

      (1)當(dāng)語速加快時(shí)語音自身的模糊性會(huì)提高,百度語音識(shí)別接口的語音模型、聲學(xué)模型算法的強(qiáng)健性有限,因此識(shí)別的偏差會(huì)導(dǎo)致動(dòng)畫視位參數(shù)序列出現(xiàn)誤差。

      (2)當(dāng)語速過快時(shí),語音短時(shí)能量與短時(shí)過零率變化幅度過小,使分割出現(xiàn)誤差,導(dǎo)致動(dòng)畫分配的時(shí)間偏差,最終出現(xiàn)動(dòng)畫與時(shí)間不同步匹配。

      2)實(shí)驗(yàn)二結(jié)果如圖4所示。

      圖4 真實(shí)口型與本文方法合成的口型動(dòng)畫對(duì)比圖

      與真人的嘴唇圖片對(duì)比發(fā)現(xiàn),通過本文方法繪制的嘴唇曲線無病態(tài)口型,與真實(shí)口型相比并未失真,嘴唇開合大小基本與真人保持一致。主要原因如下:

      (1)基于弗格森曲線繪制的嘴唇最大限度地使嘴唇曲線曲率變化連續(xù),凹凸程度變化連續(xù),避免出現(xiàn)不自然的凹凸等錯(cuò)誤狀態(tài)。

      (2)基于線性插值的方法對(duì)口型進(jìn)行過渡,如“美”,“好”兩個(gè)字過渡階段嘴唇直接從“ei”的口型過渡到“h”的口型;而當(dāng)單獨(dú)發(fā)“h”的音時(shí),嘴唇動(dòng)作為從閉合到張開。該方法符合人們正常說話時(shí)的狀態(tài)。

      (3)本文基于聲母韻母建立了語音和動(dòng)畫的映射,通過調(diào)節(jié)視位參數(shù)直接控制了嘴唇開合的大小,保證了嘴唇動(dòng)畫的真實(shí)性。

      (4)基于弗格森函數(shù)從特征點(diǎn)縱向位移變化量的角度定義了各個(gè)特征點(diǎn)的位移量之比,再結(jié)合嘴唇動(dòng)畫模型從根本上避免了病態(tài)口型的出現(xiàn)。

      3)實(shí)驗(yàn)三結(jié)果如表4所示。

      表4 實(shí)驗(yàn)結(jié)果

      結(jié)果表明,基于函數(shù)關(guān)系添加特征點(diǎn)法較自定義添加特征點(diǎn)法生成的動(dòng)畫準(zhǔn)確率更高。主要原因如下:

      (1)文獻(xiàn)[19]在原有的MPEG-4特征點(diǎn)的之間自定義添加特征點(diǎn)及特征點(diǎn)上下位移量,人為因素過多導(dǎo)致誤差增大;自定義特征點(diǎn)的數(shù)量有限,對(duì)于細(xì)節(jié)較多的嘴唇無法真實(shí)刻畫。

      (2)文獻(xiàn)[20]建立的權(quán)重函數(shù)未充分考慮語速對(duì)口型的影響;單獨(dú)的子運(yùn)動(dòng)造成了唇部運(yùn)動(dòng)缺少真實(shí)感,特別是降低了輔音受后接元音的影響。

      (3)本文基于MPEG-4特征點(diǎn)建立弗格森函數(shù),可基于函數(shù)關(guān)系添加數(shù)量較多的特征點(diǎn),使嘴唇輪廓更加逼真;基于函數(shù)關(guān)系建立了特征點(diǎn)的運(yùn)動(dòng)模型,符合嘴唇運(yùn)動(dòng)的規(guī)律。

      7 結(jié)語

      本文融合了百度語音識(shí)別、語音端點(diǎn)檢測(cè)、弗格森曲線驅(qū)動(dòng)嘴唇動(dòng)畫等方法,完成了語音驅(qū)動(dòng)嘴唇動(dòng)畫的全過程,并且生成的嘴唇動(dòng)畫與語音有良好的匹配效果。在功能的實(shí)現(xiàn)過程中,本文基于嘴唇的運(yùn)動(dòng)特點(diǎn),建立了動(dòng)畫模型,嘴唇輪廓在變化過程中光滑,無病態(tài)口型出現(xiàn)。然而嘴唇動(dòng)畫的實(shí)現(xiàn)是一個(gè)復(fù)雜的過程,所涉及的變量過多,如語速與嘴唇開合程度的關(guān)系,語音大小與嘴唇形狀的關(guān)系。因此如何將這些變量科學(xué)的融合在一起將是我們接下來研究的內(nèi)容。

      猜你喜歡
      弗格森音素口型
      新目標(biāo)英語七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
      輪胎擠出口型參數(shù)化設(shè)計(jì)與加工
      橡膠科技(2021年11期)2021-07-20 03:23:54
      MG動(dòng)畫中制作角色聲畫同步口型的研究
      依托繪本課程,培養(yǎng)學(xué)生英語音素意識(shí)
      小學(xué)英語課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
      ?不定冠詞a與an
      不一樣的/e/和/?/
      淺談巴松管演奏的口型技巧與氣息運(yùn)用
      草原歌聲(2017年1期)2017-04-23 05:08:59
      TWO MANAGERS,0NE TROPHY
      足球周刊(2016年11期)2016-10-09 11:58:19
      宣判不公 弗格森抗議不止
      海外星云(2015年17期)2015-03-17 01:30:43
      石楼县| 双辽市| 神池县| 九江市| 滕州市| 兰坪| 崇州市| 仁化县| 平陆县| 新津县| 民权县| 沂水县| 莱州市| 峨眉山市| 新闻| 肃宁县| 永泰县| 长岛县| 秦皇岛市| 金门县| 双柏县| 深水埗区| 西乌珠穆沁旗| 中方县| 明光市| 南昌市| 平阳县| 舟山市| 平度市| 伊川县| 鄂托克前旗| 上虞市| 土默特右旗| 宁安市| 镇江市| 苏尼特左旗| 扎兰屯市| 新竹市| 新宾| 旺苍县| 佳木斯市|