• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于云計(jì)算技術(shù)的虛擬數(shù)字人算法研究

    2024-05-25 06:29:04鐘政黃琳舒曾炎麟黎雪黃馳
    電子元器件與信息技術(shù) 2024年2期
    關(guān)鍵詞:關(guān)節(jié)點(diǎn)骨骼架構(gòu)

    鐘政,黃琳舒,曾炎麟,黎雪,黃馳

    廣州城市理工學(xué)院計(jì)算機(jī)工程學(xué)院,廣東廣州,510850

    0 引言

    在數(shù)字媒體時(shí)代,虛擬數(shù)字人在廣播、娛樂和教育等領(lǐng)域已嶄露頭角。它們不僅在網(wǎng)絡(luò)上娛樂觀眾,為學(xué)生提供個(gè)性化教育,還能作為智能助手為日常生活帶來便利。但制作和部署這些虛擬數(shù)字人仍面臨諸多挑戰(zhàn)。

    1 虛擬數(shù)字人技術(shù)

    1.1 背景與意義

    目前,虛擬數(shù)字人的制作和部署方式眾多,且驅(qū)動系統(tǒng)各異,導(dǎo)致移植和部署過程中出現(xiàn)許多問題。為應(yīng)對這一挑戰(zhàn),本文研究了一種云端的輕量、高效且靈活的虛擬數(shù)字人部署架構(gòu)。

    1.2 研究問題

    本文著重關(guān)注了兩項(xiàng)核心技術(shù):算法的容器化和無服務(wù)器計(jì)算。容器化技術(shù)提供了一種高度靈活和可移植的虛擬數(shù)字人算法部署方式。無論虛擬數(shù)字人的制作者使用何種云計(jì)算平臺,算法都可以在容器中穩(wěn)定運(yùn)行,實(shí)現(xiàn)快速部署和高度的可移植性。

    對普通用戶和大多數(shù)創(chuàng)作者而言,虛擬數(shù)字人既熟悉又陌生。熟悉的是其形象和聲音,而陌生的是背后的技術(shù)實(shí)現(xiàn),因?yàn)樘摂M數(shù)字人技術(shù)的學(xué)習(xí)和使用成本相對較高。但在本項(xiàng)目的架構(gòu)中,算法函數(shù)在容器中運(yùn)行,使得用戶無需關(guān)心服務(wù)器相關(guān)技術(shù),可以專注于內(nèi)容創(chuàng)作。高級用戶還可以用自己的算法替換原有算法。因此,云計(jì)算架構(gòu)和容器技術(shù)使虛擬數(shù)字人技術(shù)更為便捷和靈活。

    與此同時(shí),計(jì)算模型(云函數(shù))提供了一種創(chuàng)新的虛擬數(shù)字人部署范式。這種模型使得虛擬數(shù)字人視頻的制作具有靈活性和便利性。通過結(jié)合容器化技術(shù)和云計(jì)算,構(gòu)建了一種前沿的虛擬數(shù)字人輕量且高效的云上架構(gòu),這一架構(gòu)將推動虛擬數(shù)字人技術(shù)的普及,更好地服務(wù)于觀眾、學(xué)生和用戶。虛擬數(shù)字人不再僅限于特定平臺或場景,而是能在云端高效運(yùn)行,為各行業(yè)創(chuàng)造更多機(jī)會。

    1.3 研究目標(biāo)

    本文將聚焦于使用現(xiàn)有的目標(biāo)檢測算法、二維坐標(biāo)與三維坐標(biāo)轉(zhuǎn)換算法,以及語音生成算法,基于云函數(shù)計(jì)算和容器化計(jì)算,在云端部署一套易復(fù)現(xiàn)、高擴(kuò)展性的虛擬數(shù)字人視頻生成系統(tǒng)。

    2 虛擬數(shù)字人技術(shù)

    2.1 虛擬數(shù)字人建模

    虛擬數(shù)字人形象建模有許多不同的方法。其中五種常見的方法包括:掃描技術(shù)、手動建模、基于圖像的建模、基于物理仿真的建模和混合方法[1]。本文利用blender 3D建模軟件對虛擬數(shù)字人形象進(jìn)行手動建模,這種建模方式可以使得虛擬數(shù)字人模型更富有可塑性,在細(xì)節(jié)方面更具有精準(zhǔn)度,在對模型的調(diào)整方面更加靈活,也使得模型更加具有設(shè)計(jì)者的獨(dú)特風(fēng)格[2]。本文成功打造了具有青春活力的大學(xué)生形象的虛擬數(shù)字人模型,并讓虛擬數(shù)字人形象順利完成一些新聞播報(bào)視頻的制作。虛擬形象如圖1所示。

    圖1 虛擬數(shù)字人建模

    2.2 人物關(guān)節(jié)點(diǎn)檢測

    人物關(guān)節(jié)點(diǎn)檢測是虛擬數(shù)字人技術(shù)的核心環(huán)節(jié)。其目的是從圖像或視頻中精確定位和識別人體的關(guān)鍵部位,例如:頭部、手部和腳部。在這方面,YOLO系列技術(shù)備受矚目。特別是YOLO3,它采納了實(shí)時(shí)目標(biāo)檢測和識別的方法,以其高效和迅速的特性脫穎而出。本研究參考了YOLO3的方法,能夠從視頻中準(zhǔn)確地檢測出人體的17個(gè)關(guān)鍵節(jié)點(diǎn)的二維坐標(biāo),如圖2所示,為虛擬數(shù)字人的姿態(tài)估計(jì)提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

    圖2 人體關(guān)節(jié)點(diǎn)識別標(biāo)注

    2.3 3D骨骼動畫生成

    VideoTo3dPoseAndBvh算法融合了YOLO3模型,能夠?qū)OLO3逐幀識別的關(guān)節(jié)點(diǎn)二維坐標(biāo)轉(zhuǎn)化為三維坐標(biāo)。由于人體骨骼、經(jīng)絡(luò)和肌肉之間存在緊密的聯(lián)系,基于二維視頻關(guān)節(jié)點(diǎn)坐標(biāo),可以推導(dǎo)出指定坐標(biāo)系下的三維坐標(biāo)。獲取三維坐標(biāo)后,進(jìn)行坐標(biāo)轉(zhuǎn)換,將關(guān)節(jié)點(diǎn)坐標(biāo)移至坐標(biāo)系中心,然后將每幀的三維坐標(biāo)寫入指定格式的Bvh骨骼動畫文件。最終,在Blender等3D建模軟件中將骨骼動畫與人物模型結(jié)合,通過相機(jī)記錄動作,生成動作文件,達(dá)到驅(qū)動虛擬數(shù)字人的效果,如圖3所示。

    圖3 人物姿態(tài)動畫骨架

    2.4 語音合成

    在虛擬數(shù)字人技術(shù)中,賦予其說話能力的關(guān)鍵是語音合成。雖然存在眾多相關(guān)算法,但此處選擇了MockingBird算法,其核心基于Transformer架構(gòu)。在語音合成的過程中,Mockingbird的工作機(jī)制如下。

    ①文本到語音的轉(zhuǎn)換:在預(yù)訓(xùn)練階段,Mockingbird利用大量語音數(shù)據(jù)學(xué)習(xí)文本到語音的轉(zhuǎn)換規(guī)則。它嘗試預(yù)測輸入文本的下一個(gè)音頻幀,通過這種填空方式來掌握文本與語音的關(guān)聯(lián)。

    ②模型的重新訓(xùn)練:在此階段,需要為模型加入更多的中文訓(xùn)練數(shù)據(jù),使得模型對中文語音的合成有更好的魯棒性,MockingBird通過大量的音頻學(xué)習(xí),掌握了如何從中文文本映射至相應(yīng)的中文語音。

    ③模型的微調(diào):在此階段,Mockingbird使用標(biāo)注的文本數(shù)據(jù),例如句子及其對應(yīng)的語音,來微調(diào)預(yù)訓(xùn)練的模型參數(shù),確保輸出的語音與輸入文本高度匹配。

    ④WaveNet聲碼器的輸出:為了產(chǎn)生高品質(zhì)的語音輸出,Mockingbird結(jié)合了WaveNet聲碼器。WaveNet是一種能夠產(chǎn)生自然語音波形的先進(jìn)聲碼器。

    ⑤文本語音的合成:通過結(jié)合Transformer與WaveNet,Mockingbird能夠生成文本合成的語音波形,為虛擬數(shù)字人提供了逼真的語音輸出,并確??谛团c語音同步。

    系統(tǒng)的核心目標(biāo)是生成高品質(zhì)的動畫和語音,使得虛擬數(shù)字人能夠逼真地展現(xiàn)其動作和語音。通過整合VideoTo3dPoseAndBvh算法與Mockingbird算法,構(gòu)建了一個(gè)強(qiáng)大的系統(tǒng),適用于虛擬演員、虛擬主播、游戲角色等多種應(yīng)用場景。這一基于容器技術(shù)和云函數(shù)集群的無服務(wù)器架構(gòu),優(yōu)雅地應(yīng)對了多模型應(yīng)用場景的挑戰(zhàn),允許虛擬數(shù)字人的驅(qū)動流程與語音合成流程并行運(yùn)行,為虛擬數(shù)字人技術(shù)的應(yīng)用和部署開辟了新的路徑。

    2.5 視頻處理算法

    在視頻處理過程中,采用了VideoTo3dPose AndBvh算法,其核心步驟如下。

    ①人物關(guān)節(jié)點(diǎn)識別:利用YOLO3對視頻中的人物關(guān)節(jié)點(diǎn)進(jìn)行識別,從而提取出二維關(guān)節(jié)點(diǎn)坐標(biāo)。這些二維坐標(biāo)為后續(xù)推導(dǎo)出三維關(guān)節(jié)點(diǎn)坐標(biāo)提供了基礎(chǔ)。

    ②2D坐標(biāo)標(biāo)準(zhǔn)化:為了確保數(shù)據(jù)的一致性和方便后續(xù)計(jì)算,對提取的2D坐標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,使其均勻分布在-1到1的范圍內(nèi)。這一步驟確保了來自不同視頻源的數(shù)據(jù)具有一致性。

    ③3D坐標(biāo)生成:基于標(biāo)準(zhǔn)化的2D坐標(biāo),VideoTo3dPoseAndBvh算法將其映射到三維空間,生成對應(yīng)的3D關(guān)節(jié)點(diǎn)坐標(biāo)。這些三維坐標(biāo)包括x、y和z軸的位置信息,為接下來的骨骼動畫文件生成提供了關(guān)鍵數(shù)據(jù)。

    ④坐標(biāo)軸轉(zhuǎn)化:在合成和渲染視頻的過程中調(diào)用了blender SDK的相關(guān)接口,由于blender等不同3D渲染軟件可能存在參考系差異,因此,在視頻合成腳本中加入了可選的坐標(biāo)軸轉(zhuǎn)化。

    ⑤模型骨骼綁定:在驅(qū)動虛擬數(shù)字人模型時(shí),需要將模型與骨骼進(jìn)行綁定,而模型尺寸與骨骼尺寸很可能不匹配,因此在綁定前需要根據(jù)模型尺寸比例對骨骼尺寸進(jìn)行調(diào)整,使得模型尺寸與骨骼尺寸相吻合,如圖4所示。

    圖4 調(diào)整前后示例

    ⑥視頻合成:在模型骨骼綁定以后,視頻合成腳本將會把預(yù)制視頻環(huán)境載入,隨后調(diào)用3D渲染軟件的視頻制作接口,導(dǎo)出動畫視頻,最后將音頻與視頻進(jìn)行結(jié)合,導(dǎo)出視頻片段文件至指定區(qū)域,在最后部分視頻片段完成以后,調(diào)用流處理腳本,將多個(gè)小的視頻片段文件整合成完整視頻存儲。

    3 云上架構(gòu)

    遵循云原生理念,構(gòu)建了如圖5所示架構(gòu),并通過容器技術(shù)將算法部署在云函數(shù)中。

    圖5 云上架構(gòu)(以亞馬遜云為例)

    3.1 云函數(shù)計(jì)算

    無服務(wù)器計(jì)算是一種新興的云計(jì)算范例,它旨在簡化應(yīng)用程序的部署和管理。云函數(shù)允許開發(fā)者將代碼片段上傳到云平臺,而無需擔(dān)心底層服務(wù)器的配置和維護(hù)。這種計(jì)算方式具有自動化、事件觸發(fā)、高度可伸縮性等特點(diǎn),非常適合響應(yīng)性事件驅(qū)動的需求。在系統(tǒng)中,云函數(shù)集群構(gòu)建在無服務(wù)器架構(gòu)上,這使得系統(tǒng)具有高度的靈活性,能夠根據(jù)工作負(fù)載的需要自動擴(kuò)展或縮減,以響應(yīng)不同的流量需求[3]。

    3.2 云函數(shù)集群架構(gòu)

    由于視頻數(shù)據(jù)可以進(jìn)行幀級別并發(fā),為了盡可能滿足不同視頻多任務(wù)并發(fā)和視頻內(nèi)幀級別并發(fā)的需求,系統(tǒng)的部署使用容器映像來創(chuàng)建云函數(shù),這種方式可以保證不同任務(wù)間和同一任務(wù)內(nèi)部的計(jì)算資源隔離,以及云函數(shù)的快速啟動,實(shí)現(xiàn)快速拉起算力,完成多層次的并發(fā)處理。

    在部署階段,用戶首先使用云資源監(jiān)測服務(wù)來進(jìn)行負(fù)載測試。通過在單個(gè)云函數(shù)中對模型進(jìn)行單幀或小時(shí)間片段的負(fù)載測試,用戶可以根據(jù)實(shí)時(shí)性需求計(jì)算出單個(gè)模型所需要的并發(fā)云函數(shù)需求量。這個(gè)過程的目的是通過云監(jiān)控服務(wù)獲取單個(gè)云函數(shù)對算法的處理能力,根據(jù)客戶期望的處理速度,計(jì)算出相應(yīng)時(shí)間內(nèi)需要拉取的云函數(shù)數(shù)量,并最終配置云函數(shù)倉庫中的云函數(shù)參數(shù)。根據(jù)測試數(shù)據(jù)來獲取合適的云函數(shù)并發(fā)量,系統(tǒng)可以對云函數(shù)觸發(fā)數(shù)量進(jìn)行配置,從而滿足用戶對任務(wù)處理速度的需求。在使用階段,用戶只需要將數(shù)據(jù)流上傳至云端,并通過云廠商提供的流處理服務(wù)觸發(fā)云函數(shù)[4]。云函數(shù)會對數(shù)據(jù)流進(jìn)行處理,并將處理結(jié)果返回給參數(shù)服務(wù)器,最終將整合完成后的數(shù)據(jù)流保存到對象存儲服務(wù)中。這一過程實(shí)現(xiàn)了數(shù)據(jù)流的處理和存儲的自動化,大大提高了數(shù)據(jù)處理的效率和靈活性[5]。

    云函數(shù)計(jì)算在處理大規(guī)模數(shù)據(jù)流時(shí)具有很大的優(yōu)勢。通過合理配置云函數(shù)并發(fā)量,可以靈活地處理不同規(guī)模和實(shí)時(shí)性需求的任務(wù)。將各種算法分別編排為云函數(shù)集群,根據(jù)云函數(shù)數(shù)據(jù)吞吐率定義集群中單次任務(wù)響應(yīng)云函數(shù)數(shù)量,如圖6所示。云函數(shù)計(jì)算的使用還能減少資源的浪費(fèi),因?yàn)?,用戶可以根?jù)實(shí)際需求動態(tài)調(diào)整云函數(shù)的數(shù)量和并發(fā)量,避免了資源浪費(fèi)。

    圖6 云函數(shù)并發(fā)處理結(jié)構(gòu)

    4 總結(jié)

    云上架構(gòu)的成功應(yīng)用:本文成功構(gòu)建了一個(gè)基于云端的架構(gòu),通過容器技術(shù)部署了Video To3dPoseAndBvh和Mockingbird兩大算法和視頻合成腳本三部分云函數(shù)集群。這一架構(gòu)為虛擬數(shù)字人的動作和語音合成提供了高效且靈活的解決路徑。

    YOLO3的表現(xiàn):YOLO3在人物關(guān)節(jié)點(diǎn)檢測上有著出色的表現(xiàn),能夠準(zhǔn)確地檢測出17個(gè)關(guān)鍵節(jié)點(diǎn)。但在某些遮擋情況下,該算法可能會遇到錯(cuò)檢、漏檢或關(guān)節(jié)點(diǎn)扭曲的問題。為了進(jìn)一步提高算法的穩(wěn)定性,未來的研究方向可以集中在增強(qiáng)算法的魯棒性。

    VideoTo3dPoseAndBvh算法的效果:該算法成功地將2D關(guān)節(jié)點(diǎn)坐標(biāo)映射到3D空間,并生成了高品質(zhì)的骨骼動畫。但在處理低幀率視頻時(shí),可能會出現(xiàn)動畫不流暢的現(xiàn)象,這提示我們在未來的優(yōu)化中考慮動態(tài)調(diào)整幀率。

    Mockingbird算法的應(yīng)用:Mockingbird為虛擬數(shù)字人提供了高度逼真的語音合成效果,極大地增強(qiáng)了虛擬數(shù)字人的真實(shí)感和吸引力。但在部分語音合成任務(wù)中,合成的語音存在著部分噪聲,在優(yōu)化語音合成效果方面,需要進(jìn)一步提高訓(xùn)練數(shù)據(jù)的質(zhì)量,在進(jìn)行模型訓(xùn)練前需要對訓(xùn)練數(shù)據(jù)進(jìn)行降噪處理,降低噪聲干擾。

    視頻合成腳本:視頻合成腳本可完成虛擬數(shù)字人模型和骨骼動畫的綁定,并調(diào)用3D動畫制作接口渲染出虛擬數(shù)字人視頻,最后完成視頻和音軌合并等一系列任務(wù)。但腳本中的模型骨骼綁定算法需要提前輸入模型尺寸數(shù)據(jù),這部分往往需要手動測量,在虛擬數(shù)字人模型更換時(shí)較為復(fù)雜。在系統(tǒng)改進(jìn)方案中,可進(jìn)一步調(diào)用YOLO3算法,對虛擬數(shù)字人標(biāo)準(zhǔn)T型姿勢下各部分軀體數(shù)據(jù)進(jìn)行監(jiān)測,在虛擬數(shù)字人模型更換時(shí)自動完成模型尺寸數(shù)據(jù)的更新。

    5 結(jié)論

    經(jīng)過本次項(xiàng)目的深入探討與實(shí)證分析,在虛擬數(shù)字人領(lǐng)域的云計(jì)算技術(shù)應(yīng)用上取得了顯著的研究成果?;谠贫说募軜?gòu)在實(shí)現(xiàn)虛擬數(shù)字人驅(qū)動時(shí)表現(xiàn)卓越,實(shí)現(xiàn)了視頻到3D姿態(tài)及動畫的高效轉(zhuǎn)換,并利用Mockingbird算法為數(shù)字人帶來了高度真實(shí)的語音效果。但當(dāng)前模型尺寸的手動輸入過程繁瑣,未來計(jì)劃集成更智能的算法,如利用YOLO3自動檢測并更新模型尺寸數(shù)據(jù),從而優(yōu)化用戶體驗(yàn)。

    猜你喜歡
    關(guān)節(jié)點(diǎn)骨骼架構(gòu)
    基于FPGA的RNN硬件加速架構(gòu)
    做家務(wù)的女性骨骼更強(qiáng)壯
    中老年保健(2021年5期)2021-12-02 15:48:21
    三減三健全民行動——健康骨骼
    中老年保健(2021年5期)2021-08-24 07:06:28
    基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
    功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
    汽車工程(2021年12期)2021-03-08 02:34:30
    關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
    骨骼和肌肉
    小布老虎(2017年1期)2017-07-18 10:57:27
    LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
    搞好新形勢下軍營美術(shù)活動需把握的關(guān)節(jié)點(diǎn)
    一種基于FPGA+ARM架構(gòu)的μPMU實(shí)現(xiàn)
    衡南县| 准格尔旗| 延津县| 南康市| 柘城县| 武邑县| 拉萨市| 秀山| 崇阳县| 成都市| 新龙县| 筠连县| 文昌市| 阿图什市| 昭通市| 蓬安县| 庆云县| 色达县| 安徽省| 漳浦县| 梅河口市| 农安县| 图们市| 清流县| 曲周县| 汶川县| 东台市| 南汇区| 棋牌| 揭阳市| 邹城市| 喀什市| 灌阳县| 武汉市| 苏州市| 舟曲县| 新郑市| 句容市| 台江县| 香格里拉县| 柳河县|