鄭廣寧 魏永靜 田兵 孫麗麗 劉鴻雁
摘要
隨著社會發(fā)展向著數(shù)字化和信息化邁進(jìn),人們工作交流的方式正與時俱進(jìn)的朝著越來越智能的方向發(fā)展,高清視頻會議正應(yīng)網(wǎng)絡(luò)時代的進(jìn)步開始了領(lǐng)銜會議通信的發(fā)展時期,給用戶帶來了的更高品質(zhì)的服務(wù)體驗。高清視頻會議終端產(chǎn)品是高清視頻會議實現(xiàn)的重要組成部分,目前,各品牌的終端服務(wù)產(chǎn)品層出不窮,但關(guān)鍵技術(shù)要升級換代、贏得市場的青睞,并不是一朝一夕的事,需要堅持不懈的鉆研和創(chuàng)新才能有所突破。來本文就高清視頻會議終端產(chǎn)品的關(guān)鍵技術(shù)展開研究,旨在為行業(yè)的持續(xù)發(fā)展提供借鑒。
【關(guān)鍵詞】高清視頻會議 終端 關(guān)鍵技術(shù) 視頻解碼器 音頻解碼器
1 高清視頻會議終端產(chǎn)品及技術(shù)發(fā)展現(xiàn)狀
從2006年首款高清視頻會議產(chǎn)品的720P問世,到2008年KEDACOM發(fā)布首款1080p高清視頻會議系統(tǒng),高清視頻理念迅速鋪開,視頻會議系統(tǒng)已經(jīng)進(jìn)入到了高清時代。其高保真的畫質(zhì)和更為流暢的音質(zhì)能為與會者帶來更優(yōu)質(zhì)的視聽體驗和更有效的會議信息交流服務(wù)。隨著科學(xué)技術(shù)的發(fā)展和市場需求的變化,高清視頻會議系統(tǒng)在各領(lǐng)域特別是分布廣、部門多、規(guī)模大的企業(yè)單位得到了極為有效的應(yīng)用和推廣。目前,高清視頻會議終端產(chǎn)品廠商眾多,但提供的產(chǎn)品也僅僅是基本能滿足市場的需求,在關(guān)鍵技術(shù)方面還存在著很大的改良和提升空間。雖然高清視頻會議終端產(chǎn)品越來越智能,但究其的本源,還是基于各種優(yōu)秀的開源解決方案開發(fā)出來的,如開源項目WebRTC具有高成熟度、高代碼質(zhì)量、高品質(zhì)抗網(wǎng)絡(luò)抖動策略以及可跨平臺和完整的音頻處理算法等性能,當(dāng)前國內(nèi)包括高清視頻會議在內(nèi)的視頻通信產(chǎn)品90%以上都是基于該項目開發(fā)的。目前,高清視屏?xí)h終端視頻產(chǎn)品的關(guān)鍵技術(shù)主要是視頻和音頻的效果的控制上。占據(jù)主流位置的視頻編解碼器依然是H.264,H.265因計算太過復(fù)雜和高昂的專利授權(quán)費,發(fā)展較為緩慢。Google也貢獻(xiàn)了VPS、VP9等免費視頻編碼器,開源的X264和思科的OpenH264項目成為大多數(shù)中小廠家的最為垂青的視頻解碼方案,應(yīng)用最為廣泛。由于網(wǎng)絡(luò)帶寬是有限的,要保證高清視頻的效果就必須在視頻傳輸?shù)目咕W(wǎng)絡(luò)異常性能上下功夫;音頻編解碼器方面,Google的Opus編碼被公認(rèn)是對適合網(wǎng)絡(luò)傳輸編解碼器,在抗分組丟失、變碼率、VAD等性能上都遠(yuǎn)遠(yuǎn)超出其它編解碼器,G711、G722、G729、SILK、SPEEX等也都是通用的編解碼器。由于聲音處理的效果會直接影響到用戶的體驗和產(chǎn)品功能的發(fā)揮,因此,高清視頻會議終端產(chǎn)品廠商需要特別重視專業(yè)的聲學(xué)和數(shù)字信號處理技術(shù),它們是實現(xiàn)高質(zhì)量的音頻效果的關(guān)鍵。
2 高清視頻傳輸?shù)目咕W(wǎng)絡(luò)異常技術(shù)
高清視頻的主要特點是高圖像分辨率,在一定網(wǎng)絡(luò)帶寬的限制下,要實現(xiàn)大量圖像數(shù)據(jù)的高效傳輸,就必須對視頻進(jìn)行編碼壓縮,并且根據(jù)網(wǎng)絡(luò)質(zhì)量實時優(yōu)化編碼碼率,以保證高清晰度的圖像質(zhì)量和流暢的播放效果。這就需要著重對高清視頻傳輸?shù)目咕W(wǎng)絡(luò)異常技術(shù)進(jìn)行研究。
2.1 網(wǎng)絡(luò)分組丟失
高清視頻會議實現(xiàn)的是實時性視頻通話,為符合實時性這一要求,一般都會用到UDP傳輸實時視頻分組的方法,但其缺點在于不能確保傳輸過程中的網(wǎng)絡(luò)分組不會丟失。而任何一幀視頻數(shù)據(jù)的不完整都會使解碼出的視頻圖像出現(xiàn)嚴(yán)重的馬賽克,而且馬賽克會直到下一幀完整的關(guān)鍵幀傳輸?shù)降臅r候才會消失。對此,解決這一問題的可行之法就是要統(tǒng)計輸送到解碼器的每一幀數(shù)據(jù)的完整性。
2.2 快速請求關(guān)鍵幀邏輯
高清視頻會議的客戶端會定時發(fā)送視頻關(guān)鍵幀,如果發(fā)送關(guān)鍵幀間隔時間太短就會增大碼率,快速請求關(guān)鍵幀算法就是解決這一問題可行技術(shù)。快速請求關(guān)鍵幀的原理就是當(dāng)解碼器返回解碼錯誤信息時,在查詢到視頻緩存區(qū)內(nèi)沒有關(guān)鍵幀后,清空視頻緩存區(qū)的同時向?qū)Ψ桨l(fā)送一個關(guān)鍵幀請求,對方接收到關(guān)鍵幀請求后,立即將下一幀編碼為關(guān)鍵幀并發(fā)送雖然通過這種方式處理后網(wǎng)絡(luò)分組如果丟失依然會造成視頻輕微卡頓,但卡頓時間目前可控制在300~400ms左右,且不會出現(xiàn)馬賽克現(xiàn)象,在網(wǎng)絡(luò)分組丟失率不高時,這種技術(shù)是非常實用的。
2.3 圖像渲染穩(wěn)定度
高清視頻會議終端顯示的圖像理論上是視頻解碼器解每出一幀圖像就會立刻顯示一幀出去,但實際上卻會因發(fā)送端不穩(wěn)定,網(wǎng)絡(luò)延遲抖動等原因?qū)е逻B續(xù)幾幀圖像之間的渲染間隔抖動嚴(yán)重,使視頻畫面時快時慢,顯示效果不穩(wěn)定。對于這種問題,則需要根據(jù)接收到視頻平均幀率來估計出一個穩(wěn)定的圖像渲染幀率,以繪制出更均勻的圖像,確保時間域圖像的高質(zhì)量。
3 高清視頻會議終端的音頻控制技術(shù)
聲音質(zhì)量是視頻通信的基本要求,終端設(shè)備聲學(xué)處理優(yōu)化如果不到位,就會出現(xiàn)回聲和底噪殘留等聲音質(zhì)量問題,直接給視頻通信的效果造成不利影響。網(wǎng)絡(luò)是高清視頻會議終端產(chǎn)品功能的基礎(chǔ),但網(wǎng)絡(luò)傳送的語音信號由于要經(jīng)過編碼、壓縮、打包等一系列處理,不可避免的會造成回聲路徑的延遲及其延遲抖動問題,使得語音質(zhì)量因回聲問題而影響通話雙方的主觀聽感。因此消除回聲技術(shù)就顯得十分重要了。目前,應(yīng)用效果較好的回聲消除算法(AEC)首先是基于揚聲器信號及其產(chǎn)生的多路徑回聲的相關(guān)性的,在建立遠(yuǎn)端信號的語音模型,并利用該語音模型對回聲進(jìn)行估計,同時不斷地修改濾波器的系數(shù),使估計值更加逼近真實的回聲,再從輸入信號中減去回聲估計值即可消除回聲。AEC還通過對話筒的輸入與揚聲器過去的值相比較,來達(dá)到消除延長延遲的多次反射的聲學(xué)回聲的目的。而在通用回聲消除算法基礎(chǔ)上,增加揚聲器端的自適應(yīng)自動增益控制模塊,能夠通過揚聲器自適應(yīng)增益控制與回聲消除的有效結(jié)合對近端和遠(yuǎn)端信號進(jìn)行同時處理,雙管齊下,更高效的實現(xiàn)回聲消除的目的。這種優(yōu)化技術(shù)對提升視頻通話效果有著明顯成效,值得借鑒和推廣。
4 結(jié)束語
隨著高清視頻技術(shù)的不斷發(fā)展與創(chuàng)新,其在視頻會議領(lǐng)域的應(yīng)用是時代的需求也是行業(yè)發(fā)展的必然。高清視頻會議的實現(xiàn)離不開終端產(chǎn)品的大力支持,在這市場需求瞬息萬變的時代,終端產(chǎn)品必須在關(guān)鍵技術(shù)上不斷突破、持續(xù)領(lǐng)先,才能爭得市場的一席之地,贏得與時代爭鋒的發(fā)展機會。未來,全數(shù)字化將是高清視頻的發(fā)展方向,相信終端產(chǎn)品的關(guān)鍵技術(shù)也會應(yīng)其發(fā)展而實現(xiàn)新的突破。
參考文獻(xiàn)
[1]段震霞.多媒體會議系統(tǒng)設(shè)計技術(shù)與應(yīng)用[M].中國建筑工業(yè)出版社,2009.
[2]王建.基于SIP的視頻會議系統(tǒng)的設(shè)計與實現(xiàn)[D].北京交通大學(xué),2009.
[3]畢厚杰.新一代視頻壓縮編碼標(biāo)準(zhǔn)——H.264/AVC(第二版)[M].人民郵電出版社,2009.
[4]丁國強,羅慶國.高清視頻會議系統(tǒng)技術(shù)及組網(wǎng)應(yīng)用[J].數(shù)據(jù)通信,2016.