譚 峰
(大連新聞傳媒集團(tuán)技術(shù)中心,遼寧 大連 116021)
隨著互聯(lián)網(wǎng)的發(fā)展,視頻通信技術(shù)日益成熟,融合了語(yǔ)音、圖像、數(shù)據(jù)多種信息,實(shí)現(xiàn)了音視頻的同步傳輸。視頻通信應(yīng)用于視頻會(huì)議、遠(yuǎn)程教學(xué)等領(lǐng)域,豐富了人們的交流方式。然而,視頻通信質(zhì)量容易受到網(wǎng)絡(luò)狀態(tài)及圖像處理技術(shù)限制的影響。在視頻通信過(guò)程中,圖像信息傳輸占主要地位,圖像處理技術(shù)直接關(guān)乎通信質(zhì)量。目前,視頻通信圖像存在劃塊、模糊等問(wèn)題,制約了視頻通信的應(yīng)用。因此,開展視頻通信領(lǐng)域的圖像處理技術(shù)研究,對(duì)于提高圖像傳輸質(zhì)量意義重大。
模擬圖像處理技術(shù)是基于光學(xué)原理和電子原理對(duì)模擬圖像進(jìn)行處理的技術(shù)。模擬圖像主要指電視圖像等活動(dòng)圖像。模擬圖像處理的核心設(shè)備是模擬圖像處理器,按照一定算法對(duì)輸入的模擬圖像信號(hào)進(jìn)行處理,經(jīng)過(guò)放大、濾波、檢波等處理后輸出優(yōu)化的模擬圖像信號(hào)。模擬圖像處理的特點(diǎn)是處理速度快,可以實(shí)現(xiàn)實(shí)時(shí)處理。其使用光子并行處理的特性,處理速度可以達(dá)到光速,滿足對(duì)活動(dòng)圖像處理的實(shí)時(shí)性要求[1]。模擬圖像處理具有靈活性差、精確度低的特點(diǎn)。其處理精度取決于電子器件的性能,一般可以達(dá)到視頻信號(hào)本身的精度,但對(duì)圖像的處理判斷能力和非線性處理能力較弱,難以實(shí)現(xiàn)復(fù)雜的圖像分析處理??傮w來(lái)看,模擬圖像處理技術(shù)適用于對(duì)活動(dòng)圖像的實(shí)時(shí)處理,特別是電視系統(tǒng)中的圖像處理,但在圖像分析處理方面較為薄弱。當(dāng)前,模擬圖像處理技術(shù)已逐漸被數(shù)字圖像處理技術(shù)所取代,但在需要實(shí)時(shí)處理的場(chǎng)合仍有應(yīng)用。
數(shù)字圖像處理技術(shù)是利用計(jì)算機(jī)對(duì)數(shù)字圖像進(jìn)行處理的技術(shù),也稱為計(jì)算機(jī)圖像處理。其基本過(guò)程是將模擬圖像信號(hào)采集并轉(zhuǎn)換為數(shù)字形式,然后在計(jì)算機(jī)內(nèi)部對(duì)數(shù)字圖像數(shù)據(jù)進(jìn)行各種算法處理,經(jīng)過(guò)處理后的數(shù)字圖像再轉(zhuǎn)換為模擬圖像輸出。數(shù)字圖像處理的特點(diǎn)是處理精度高。它可以實(shí)現(xiàn)復(fù)雜的非線性處理,并具有強(qiáng)大的分析判斷能力。與模擬圖像處理不同,數(shù)字圖像處理可以根據(jù)軟件進(jìn)行自由編程,更加靈活。另外,數(shù)字圖像處理技術(shù)提高了圖像處理的自動(dòng)化程度,可減少人工干預(yù)。但是數(shù)字圖像處理也存在處理速度較慢的缺點(diǎn),難以對(duì)活動(dòng)圖像做到實(shí)時(shí)處理。數(shù)字圖像的處理與存儲(chǔ)都需要消耗較大計(jì)算資源,對(duì)計(jì)算機(jī)硬件的性能提出了更高要求。數(shù)字圖像處理技術(shù)也受限于圖像采集與轉(zhuǎn)換中信息丟失的影響,但它在圖像分析、圖像復(fù)原等方面表現(xiàn)突出。未來(lái)隨著計(jì)算機(jī)技術(shù)的進(jìn)步,數(shù)字圖像處理技術(shù)會(huì)得到進(jìn)一步提升與發(fā)展。
視頻通信過(guò)程中,為實(shí)現(xiàn)圖像高效傳輸,需要對(duì)圖像進(jìn)行壓縮處理。圖像壓縮可大幅縮減圖像數(shù)據(jù)量,減少存儲(chǔ)空間及傳輸負(fù)荷。圖像壓縮技術(shù)在視頻通信中應(yīng)用廣泛,其基本原理是消除圖像中的冗余信息,提取最關(guān)鍵特征,再對(duì)特征數(shù)據(jù)進(jìn)行編碼。當(dāng)前圖像壓縮比較成熟的技術(shù)主要有向量量化、分形編碼及小波變換等。例如,分形編碼利用迭代函數(shù)系統(tǒng)對(duì)圖像進(jìn)行分解與重建,可取得較高的壓縮比;基于小波變換的壓縮技術(shù)則可以有效保留圖像邊緣等重要細(xì)節(jié)特征。為獲得更優(yōu)效果,可將不同技術(shù)進(jìn)行組合與改進(jìn)。
2.2.1 凸集投影法
凸集投影法是一種用于圖像恢復(fù)的數(shù)學(xué)方法。該方法將高質(zhì)量原始圖像看作希爾伯特空間中的一個(gè)向量,圖像壓縮和傳輸過(guò)程會(huì)導(dǎo)致向量發(fā)生變化,圖像質(zhì)量降低。為恢復(fù)圖像,可以先在希爾伯特空間內(nèi)建立多個(gè)封閉凸集S1,S2,…,將原始圖像向量約束在其中,然后計(jì)算出與各凸集相對(duì)應(yīng)的投影算子P1,P2,…。常用的約束凸集有量化限制凸集和平滑限制凸集等。接下來(lái),可以選擇恢復(fù)圖像的初始估計(jì),并通過(guò)迭代使用投影算子對(duì)其進(jìn)行處理,逐步收斂至恢復(fù)結(jié)果[2]。該方法能有效消除圖像塊效應(yīng),保持邊緣細(xì)節(jié)。例如,在量化限制凸集約束下,采用離散余弦變換(Discrete Cosine Transformation,DCT)和量化間隔控制,在平滑限制凸集約束下,可以抑制高頻噪聲,平滑圖像。經(jīng)過(guò)約10 次迭代,圖像就能基本恢復(fù)。凸集投影法數(shù)學(xué)規(guī)整,計(jì)算量不大,可獲得較好恢復(fù)效果。
2.2.2 貝葉斯方法
貝葉斯方法是一種概率統(tǒng)計(jì)方法,可應(yīng)用于圖像恢復(fù)處理。該方法將圖像處理看作隨機(jī)過(guò)程,運(yùn)用貝葉斯規(guī)則估計(jì)后驗(yàn)概率分布。具體而言,設(shè)原始高質(zhì)量圖像為X,低質(zhì)量受損圖像為Y,根據(jù)貝葉斯公式有P(X|Y)=P(Y|X)P(X)/P(Y)。其中,P(Y|X)表示從原圖像生成受損圖像的條件概率,反映圖像退化過(guò)程;P(X)為原圖像的先驗(yàn)概率分布。求解使后驗(yàn)概率P(X|Y)最大化的X,就是恢復(fù)結(jié)果。在模型上,通常采用馬爾可夫隨機(jī)場(chǎng)建模,以表征圖像局部與全局特性,如Gibbs 隨機(jī)場(chǎng)就可用于描述圖像的平滑特性。該方法通過(guò)全面分析圖像特性,結(jié)合退化過(guò)程建模,能有效恢復(fù)高質(zhì)量圖像,但計(jì)算復(fù)雜度較高,需設(shè)計(jì)高效算法。當(dāng)前研究可通過(guò)采樣、稀疏表示及先驗(yàn)?zāi)P蛯W(xué)習(xí)等方法進(jìn)行優(yōu)化,以提升貝葉斯圖像恢復(fù)效果。
2.3.1 環(huán)路濾波技術(shù)
環(huán)路濾波技術(shù)是視頻通信領(lǐng)域常用的圖像增強(qiáng)方法之一,通過(guò)在編碼端和解碼端采用對(duì)稱的環(huán)路濾波器結(jié)構(gòu),可以有效消除因壓縮編碼引起的圖像塊效應(yīng),提高圖像質(zhì)量。具體來(lái)說(shuō),在視頻編碼端,常使用國(guó)際標(biāo)準(zhǔn)中的環(huán)路濾波器,如H.263 標(biāo)準(zhǔn)中的環(huán)路濾波器或MPEG-4 中的去塊濾波器。這類濾波器能夠保證濾波前后圖像信號(hào)能量不變,避免引入模糊或鋸齒等失真。編碼端環(huán)路濾波可顯著抑制圖像中像素塊狀分布,提升圖像可壓縮性,一般可將壓縮后的峰值信噪比提高0.5 ~1.5 dB。而在解碼端,采用與編碼端對(duì)稱的環(huán)路濾波器,可以恢復(fù)圖像細(xì)節(jié),重構(gòu)邊緣輪廓,有效減少壓縮編碼導(dǎo)致的模糊感,增強(qiáng)圖像質(zhì)量。相比直接對(duì)解碼圖像進(jìn)行濾波,環(huán)路濾波可更好地保持圖像質(zhì)量。環(huán)路濾波計(jì)算量較小,結(jié)構(gòu)簡(jiǎn)單,可方便硬件實(shí)現(xiàn),從而進(jìn)行實(shí)時(shí)圖像增強(qiáng)處理。當(dāng)前,環(huán)路濾波技術(shù)已在視頻會(huì)議和視頻通話等系統(tǒng)中廣泛應(yīng)用,對(duì)圖像效果提升具有顯著效果。
2.3.2 后續(xù)濾波技術(shù)
后續(xù)濾波技術(shù)是視頻通信領(lǐng)域的另一種常用圖像增強(qiáng)方法。不同于環(huán)路濾波需要在編碼端進(jìn)行對(duì)應(yīng)配置,后續(xù)濾波完全在解碼端進(jìn)行,僅基于解碼圖像信號(hào)特征來(lái)設(shè)計(jì)濾波器。其主要目的是消除由視頻壓縮編碼引入的塊效應(yīng)。具體來(lái)說(shuō),塊效應(yīng)在頻域主要表現(xiàn)為高頻噪聲,進(jìn)行全局低通濾波雖可消除塊狀誤差,但也會(huì)模糊圖像細(xì)節(jié)。為解決這一問(wèn)題,后續(xù)濾波技術(shù)往往采用自適應(yīng)濾波,根據(jù)圖像不同區(qū)域設(shè)計(jì)不同濾波器,以保留細(xì)節(jié)。例如,可先采用離散余弦變換將圖像轉(zhuǎn)到頻域,再利用Walsh 變換得到4×4 塊狀結(jié)構(gòu),然后根據(jù)塊內(nèi)容自動(dòng)分割平坦區(qū)、紋理區(qū)和邊緣區(qū),最后對(duì)不同區(qū)域分別濾波。這樣可在消除塊效應(yīng)的同時(shí)最大限度地保留邊緣細(xì)節(jié)。后續(xù)濾波無(wú)須修改編碼器,僅添加解碼端處理模塊,易于部署。當(dāng)前,多種國(guó)際標(biāo)準(zhǔn)均采用后續(xù)濾波技術(shù)。它也已在視頻會(huì)議系統(tǒng)中廣泛應(yīng)用。
圖像數(shù)字化處理是將模擬圖像信號(hào)采集并轉(zhuǎn)換成數(shù)字形式進(jìn)行處理的技術(shù),在視頻通信系統(tǒng)中有重要應(yīng)用。數(shù)字圖像處理可利用數(shù)字信號(hào)處理器(Digital Signal Process,DSP)或現(xiàn)場(chǎng)可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)等硬件進(jìn)行并行計(jì)算,實(shí)現(xiàn)復(fù)雜算法。例如,在視頻采集端,可使用圖像傳感器獲得模擬信號(hào),再通過(guò)模數(shù)轉(zhuǎn)換器(Analog to Digital Converter,ADC)量化成數(shù)字信號(hào);經(jīng)過(guò)數(shù)字濾波、增強(qiáng)等處理后,再通過(guò)數(shù)模轉(zhuǎn)換器(Digital to Analog Converter,DAC)還原為模擬視頻信號(hào)進(jìn)行顯示。另外,在視頻解碼端也需將模擬信號(hào)數(shù)字化,才能進(jìn)行各種圖像恢復(fù)、去噪等處理。相比模擬信號(hào)處理,數(shù)字圖像處理可實(shí)現(xiàn)更復(fù)雜的算法,提高圖像質(zhì)量。
為降低視頻通信的帶寬需求,視頻壓縮編碼技術(shù)必不可少。目前,國(guó)際上較成熟的視頻壓縮標(biāo)準(zhǔn)主要有MPEG-4 和H.263。其中,MPEG-4 標(biāo)準(zhǔn)采用基于內(nèi)容的編碼技術(shù),可實(shí)現(xiàn)較高的壓縮率,壓縮效果優(yōu)異。MPEG-4 標(biāo)準(zhǔn)不僅可應(yīng)用于窄帶和寬帶環(huán)境,還支持多種先進(jìn)功能,如提高編碼效率、支持多路復(fù)用傳輸、內(nèi)容可擴(kuò)展性等。其核心思想是基于視頻對(duì)象(視頻圖像及音頻等元素)進(jìn)行編碼,以提取語(yǔ)義信息。具體來(lái)說(shuō),MPEG-4 標(biāo)準(zhǔn)利用基于分形理論的模型進(jìn)行面部特征提取,以參數(shù)化面部和身體運(yùn)動(dòng),顯著減少數(shù)據(jù)冗余度。另外還使用視覺(jué)感知模型移除視覺(jué)冗余,只保留關(guān)鍵信息。MPEG-4 使用基于小波變換的方法實(shí)現(xiàn)時(shí)域與頻域信息整合編碼。這些技術(shù)確保在低比特率下也能提供高質(zhì)量壓縮視頻。
MPEG-4 作為先進(jìn)的視頻壓縮標(biāo)準(zhǔn),具有良好的可擴(kuò)縮性是其重要特征之一。MPEG-4 標(biāo)準(zhǔn)可擴(kuò)縮算法的目的是讓視頻碼流能夠適應(yīng)不同的網(wǎng)絡(luò)帶寬、解碼能力等條件的變化。其實(shí)現(xiàn)的關(guān)鍵在于視頻壓縮器要具有可變的復(fù)雜度級(jí)別,并可以只傳輸解碼端所需的部分碼流。具體來(lái)說(shuō),MPEG-4 標(biāo)準(zhǔn)采用了層級(jí)編碼結(jié)構(gòu),包含一個(gè)基本層和多個(gè)可選的增強(qiáng)層?;緦油ㄟ^(guò)低復(fù)雜度壓縮編碼保證輸出視頻的基本質(zhì)量和重要功能,提供最低限度的可視性。增強(qiáng)層則使用更復(fù)雜的編碼工具改進(jìn)視頻質(zhì)量,提供更好的分辨率、更高的幀率及更低的噪聲等。在解碼端,可以僅選擇解碼基本層,來(lái)適應(yīng)有限的計(jì)算資源或網(wǎng)絡(luò)帶寬。資源允許時(shí),則可以附加解碼一些增強(qiáng)層,以提升視覺(jué)效果。這樣就可以平滑地調(diào)節(jié)解碼復(fù)雜度,實(shí)現(xiàn)可擴(kuò)展性。MPEG-4 編碼器的可擴(kuò)縮結(jié)構(gòu)如圖1 所示。
圖1 擴(kuò)展編碼器結(jié)構(gòu)
MPEG-4 標(biāo)準(zhǔn)還定義了多種編解碼工具以支持不同類型的可擴(kuò)展性,比如信噪比(Signal-to-Noise Ratio,SNR)可擴(kuò)縮性、時(shí)域可擴(kuò)展性和空域可擴(kuò)展性等[3]。例如,時(shí)域可擴(kuò)展性通過(guò)改變幀率來(lái)適應(yīng)可用帶寬,空域可擴(kuò)展性則通過(guò)改變分辨率進(jìn)行擴(kuò)展。綜合運(yùn)用這些工具,可以實(shí)現(xiàn)視頻質(zhì)量隨比特率平滑提升的可擴(kuò)縮性。
MPEG-4 中的可擴(kuò)縮框架,特別是FGS(Fine Granularity Scalability)算法,實(shí)現(xiàn)了良好的比特率可伸縮性。但是FGS 算法存在運(yùn)動(dòng)補(bǔ)償效果不佳、編碼效率偏低等問(wèn)題。其中,運(yùn)動(dòng)補(bǔ)償問(wèn)題是由于FGS 只使用基本層重構(gòu)幀進(jìn)行運(yùn)動(dòng)估計(jì)所致,可通過(guò)在運(yùn)動(dòng)預(yù)測(cè)中加入增強(qiáng)層信息進(jìn)行改進(jìn)。具體來(lái)說(shuō),可以增加一個(gè)直接使用原始視頻序列的參考鏈路,對(duì)每一幀視頻生成高質(zhì)量重構(gòu)圖像,并作為運(yùn)動(dòng)預(yù)測(cè)的參考,然后進(jìn)行精細(xì)的運(yùn)動(dòng)補(bǔ)償,改進(jìn)方式如圖2 所示。
圖2 MPEG-4 可擴(kuò)縮編碼改進(jìn)
這種方法能明顯提升FGS 編碼的運(yùn)動(dòng)補(bǔ)償效果。針對(duì)FGS 編碼效率偏低問(wèn)題,可通過(guò)優(yōu)化掃描方式、調(diào)整比特分配方案等進(jìn)行改進(jìn)。例如,改進(jìn)后的算法可先編碼低頻系數(shù),再編碼高頻系數(shù),這與視覺(jué)系統(tǒng)的特性更加吻合[4]。FGS 算法則可以根據(jù)基本層和增強(qiáng)層的復(fù)雜度動(dòng)態(tài)調(diào)整比特分配。這些改進(jìn)方法既提升了FGS 算法的編碼效率,也改善了圖像質(zhì)量,更適合視頻通信場(chǎng)景[5]。
視頻通信技術(shù)的發(fā)展,改善了人們的音視頻交流方式,但圖像處理仍是提升通信質(zhì)量的關(guān)鍵。針對(duì)視頻通信領(lǐng)域的圖像處理技術(shù)進(jìn)行研究,對(duì)于進(jìn)一步提高圖像傳輸質(zhì)量意義重大。通過(guò)分析視頻通信中的圖像壓縮、恢復(fù)、增強(qiáng)和數(shù)字化處理等核心技術(shù),可以找出現(xiàn)有方法的不足,并提出針對(duì)性的改進(jìn)方案。這將有助于消除圖像的模糊、塊效應(yīng)等問(wèn)題,使視頻通信圖像更清晰流暢。如果這些圖像處理技術(shù)能夠取得進(jìn)一步改進(jìn),必將大幅提升視頻通信的效果,豐富人們的交流方式。