肖尚武 胡瑞敏 肖 晶
1(武漢大學計算機學院國家多媒體軟件工程技術(shù)研究中心 湖北 武漢 430072) 2(武漢大學蘇州研究院 江蘇 蘇州 215123)
在社區(qū)樓道、小區(qū)門棟等場景中,面向人臉識別的智能視頻監(jiān)控越來越廣泛地應(yīng)用于智慧生活、安防保障等領(lǐng)域。隨著監(jiān)控內(nèi)容日益高清化和監(jiān)控設(shè)備海量布設(shè)的發(fā)展需求,數(shù)據(jù)規(guī)模高速增長與壓縮效率提升緩慢之間的矛盾日益突出。為了在減少人臉損失的前提下提高壓縮效率、降低成本,實現(xiàn)更多接入,亟須研究面向人臉特定業(yè)務(wù)的高效壓縮算法。
更高的分辨率才能實現(xiàn)更清晰的人臉采集,但是高分辨率帶來高碼率問題。高清監(jiān)控視頻數(shù)據(jù)量大、壓縮過程慢、功耗大、成本高,在相同帶寬下接入量更少。以普通1080P高清攝像頭為例,編碼后碼流約為5 Mbit/s,采用基于監(jiān)控視頻特性優(yōu)化的算法[1],碼流仍大于2 Mbit/s。現(xiàn)有的以寬帶為主的接入方式不利于擴大布設(shè)范圍,在實時編碼和傳輸方面也消耗過多資源。隨著窄帶物聯(lián)網(wǎng)(Narrow Band Internet of Thing,NB-IoT)技術(shù)的發(fā)展,由于其廣覆蓋、多連接、低功耗和低成本特性,可極大提升監(jiān)控系統(tǒng)的接入數(shù)量,為視頻監(jiān)控的擴展提供了條件[2]。雖然NB-IoT在智慧社區(qū)、智能家居方面有著很好的無線接入適配性,但是帶寬僅為180 Kbit/s,無法傳輸高清碼流,制約了物聯(lián)網(wǎng)環(huán)境下監(jiān)控視頻的發(fā)展。因此,需要開發(fā)更為高效的壓縮方法以適用于窄帶環(huán)境。
為提高壓縮效率,監(jiān)控視頻的特點已被充分地挖掘和利用。目前,主流壓縮方法可分為面向前景特性的編碼方法和面向背景特性的編碼方法[3]。特別地,在低碼率條件下,感興趣區(qū)域編碼和低分辨率視頻超分方法也是研究的重點方向[4]。針對背景特性,利用背景長時微變的特點,去除背景冗余;針對前景特性,利用前景對象的運動和外觀特征,去除紋理冗余;針對感興趣區(qū)域,利用代價轉(zhuǎn)換,合理分配碼率,犧牲部分背景來提升感興趣區(qū)域質(zhì)量。文獻[1]提出基于背景建模的編碼方法,通過滑動平均法構(gòu)造背景參考G幀,用于背景宏塊預(yù)測。高質(zhì)量G幀顯著提高了背景宏塊預(yù)測精度,大大降低了背景比特,但在編碼精細G幀時存在碼率激增問題。文獻[5]提出了一種基于全局運動補償?shù)牡蛷碗s度運動背景建模算法,通過選擇運動背景編碼樹單元,平均節(jié)省6.7%的背景比特。文獻[6]提出利用歷史背景圖像樣本離線訓練字典,可高效表示視頻中具有相似性的背景圖像。然而,壓縮過程內(nèi)存占用較大且高度依賴歷史數(shù)據(jù),僅使用字典元素導致背景存在一定誤差。文獻[7]建立前景車輛的參考圖像庫,實現(xiàn)了不同車型多姿態(tài)的預(yù)測參考,缺點是只針對特定剛體對象。文獻[8]以運動前景為感興趣區(qū)域,提出全局運動補償,以剩余圖像區(qū)域為代價獲得較高質(zhì)量的感興趣區(qū)域,其不足是背景失真較嚴重。文獻[4]對于低分辨率視頻超分提出基于生成對抗網(wǎng)絡(luò)的VSRResNet,通過特征空間和像素空間的正則化函數(shù)優(yōu)化距離損失,可以更準確地評估從神經(jīng)網(wǎng)絡(luò)獲得的感知質(zhì)量,在4倍視頻超分中有較好效果。上述方法還存在以下問題:基于運動分離的前景區(qū)域畫幅過大,關(guān)鍵區(qū)域提取不精確,占用過多碼率;建模過程和深度神經(jīng)網(wǎng)絡(luò)具有較高的計算復雜度,無法在計算資源有限的嵌入式物聯(lián)網(wǎng)設(shè)備中做到實時編碼??偟膩碚f,在NB-IoT環(huán)境下,現(xiàn)有的編碼方法對視頻的壓縮能力有限,在保障人臉質(zhì)量的前提下達不到窄帶極低碼率要求。
針對上述問題,本文提出一種NB-IoT環(huán)境下面向人臉業(yè)務(wù)的監(jiān)控視頻壓縮方法,主要創(chuàng)新如下:(1) 提出基于統(tǒng)計訓練約束的人臉檢測方法,實現(xiàn)監(jiān)控場景下人臉的快速提?。?2) 提出混合分辨率的編解碼方法。構(gòu)建基于掩膜的前景和背景序列,對人臉顯著區(qū)域和背景畫面采用不同的分辨率區(qū)別編碼。實驗表明混合分辨率編解碼方案在NB-IoT環(huán)境下優(yōu)于其他方法,更好地保證了人臉質(zhì)量。
針對監(jiān)控視頻的特點,通常會進行前景背景分離處理,常規(guī)方法有背景差分法、幀差法、光流場法、低秩分解法[9],但是,在面向人臉的監(jiān)控應(yīng)用中,不需要關(guān)注所有的運動物體,為更大程度地降低碼率,本文利用人臉檢測算法實現(xiàn)更為精確的目標分割,提取人臉區(qū)域作為前景,將人臉以外區(qū)域作為一般背景??紤]到檢測算法計算復雜度通常比跟蹤算法復雜得多,為提高人臉提取速度,本文采用檢測和跟蹤相結(jié)合的策略。在一段時間內(nèi),第一幀為檢測幀,后續(xù)多幀為跟蹤幀,交替進行,可極大提高時域上連續(xù)人臉提取速度。整體流程如圖1所示。
圖1 基于統(tǒng)計訓練約束的人臉顯著區(qū)域提取
基于深度學習的人臉檢測算法效果優(yōu)異,但是通常都需要訓練復雜的分類器模型,計算復雜度較高[10],不適用于計算資源有限的嵌入式物聯(lián)網(wǎng)終端設(shè)備。在眾多人臉檢測算法中,基于歸一化像素差異特征(Normalized Pixel Difference,NPD)檢測算法表現(xiàn)出眾[11],該算法使用任意兩點計算特征,表達靈活,在人臉較多、姿態(tài)變換、存在遮擋等情況下仍具有很好的檢測效果。為進一步提高圖像中人臉的檢測速度,不影響整體實時處理,本文在該算法基礎(chǔ)上提出一種基于統(tǒng)計訓練約束的人臉顯著區(qū)域檢測模型,對監(jiān)控圖像人臉的檢測速度有顯著提升。
在監(jiān)控環(huán)境下,固定攝像頭機位,設(shè)置初始狀態(tài)開始視頻采集工作,在一段時間內(nèi)隨機抽取足夠多的歷史幀進行離線訓練(如涵蓋基本場景的1 000幀圖像)。通過特定場景的訓練優(yōu)化,更新檢測約束參數(shù),可以排除60%的非人臉搜索,降低50%的計算量。訓練過程離線獨立完成,不影響實時處理速度,并且可固定時間重復訓練,不斷更新約束參數(shù)。訓練模型主要包括兩個方面, 分別為基于人臉出現(xiàn)的空間軌跡位置約束和基于統(tǒng)計平均的人臉自適應(yīng)尺寸約束。
1) 空間軌跡分布約束。在固定機位的攝像頭下,行人出現(xiàn)在指定的區(qū)域內(nèi),同樣人臉出現(xiàn)的區(qū)域也是有位置范圍限制的,并呈概率分布。標注訓練集中每一個人臉中心出現(xiàn)的空間位置,統(tǒng)計得到散點圖,通過二維聚類分析,找到密集中心點和擬合軌跡線,并得到人臉位置的概率分布圖。訓練集中人臉分布的散點圖和擬合中心線示意圖如圖2所示。
圖2 人臉空間分布建模示意圖
此處,本文采用一般多項式進行散點的曲線擬合,如式(1)所示,其中(x,y)為散點的空間坐標,ω為擬合系數(shù),考慮到一般復雜性,實際采用5階多項式。
(1)
(2)
同時,計算人臉在空間(x,y)位置出現(xiàn)的概率P,如式(3)所示,其中R為第i張人臉覆蓋區(qū)域的密集指數(shù)[12],累計訓練集中概率為pi人臉數(shù)之和,H為圖像高度,W為寬度,ρsample為訓練集平均人臉密度,F(xiàn)為統(tǒng)計圖像的總幀數(shù)。
(3)
2) 自適應(yīng)人臉尺寸約束。在指定場景中,攝像頭焦距不變的情況下,監(jiān)控視頻中出現(xiàn)的人臉尺寸是有一定范圍的,通過該參數(shù)可以根據(jù)攝像頭的實際位置自適應(yīng)地調(diào)整人臉搜索尺寸。首先統(tǒng)計訓練集中所有歷史人臉大小,得到正確檢測的最小尺寸s,最大尺寸l,留出一定余量δ(平均人臉尺寸的1/2),以h為人臉大小的分布范圍,默認不存在超出該范圍的人臉。搜索尺寸h的約束條件如式(4)所示,其中x為寬度,y為高度。
hx∈[sx-δx,lx+δx]
hy∈[sy-δy,ly+δy]
(4)
至此,完成了基于監(jiān)控視頻訓練集的統(tǒng)計模型離線訓練,得到全部約束參數(shù)。
在具體流程中,對于輸入的圖像幀,設(shè)置固定圖像組(Group of Picture,GOP)大小,每一個GOP中,首幀為關(guān)鍵幀,其余為非關(guān)鍵幀。對于關(guān)鍵幀,通過NPD檢測算法分離人臉,對于非關(guān)鍵幀,使用核相關(guān)濾波器(Kernel Correlation Filter,KCF)算法實現(xiàn)多目標人臉跟蹤提取[13]。載入NPD人臉檢測器后,初始化約束條件,更新人臉尺寸范圍參數(shù),依據(jù)人臉在空間位置的概率分布圖,劃出檢測范圍,在此范圍內(nèi)調(diào)用NPD算法實時檢測,在人臉搜索過程中,通過空間軌跡參數(shù)指導搜索路徑。為提高跟魯棒性、減少錯誤跟蹤,當人臉離開畫面或目標丟失時,判斷跟蹤框是否異常,如果跟蹤停滯,即目標中心在空間位置原地抖動(空間位移小且往復變化),則對當前跟蹤內(nèi)容進行人臉特征判斷,非人臉則停止跟蹤,否則延時判斷,繼續(xù)跟蹤。當未檢測到人臉或確認所有跟蹤目標離開畫面時則判定人臉不存在,最后逐幀輸出所有人臉圖像序列。
實現(xiàn)人臉區(qū)域的快速提取后,可以得到連續(xù)的人臉圖像和去除人臉的背景圖像。為保持人臉區(qū)域的可辨識性,需要對人臉高保真編碼,對占畫幅較大的背景區(qū)域降低質(zhì)量編碼,以節(jié)省更多碼率。本文采用基于混合分辨率的壓縮算法,整體框架流程如圖3所示。
圖3 混合分辨率監(jiān)控視頻編解碼框架
對于提取的人臉圖像,僅保留畫面內(nèi)容會使原始圖像中人臉的空間位置信息和幀序的時間位置信息丟失,無法在對應(yīng)幀的對應(yīng)位置還原至原始視頻圖像中。因此,首先提出基于掩膜(Mask)的前景與背景序列重構(gòu),分別得到掩膜框架下的人臉圖像序列(前景)和摳除人臉圖像后的背景序列;然后,以原始分辨率高質(zhì)量編碼連續(xù)人臉序列,去除時域冗余,對背景圖像序列通過下采樣處理,降低分辨率,以低質(zhì)量編碼實現(xiàn)高倍率和快速壓縮;最后,得到時序一一對應(yīng)的前景與背景混合碼流。經(jīng)過碼率控制和碼流同步后,通過NB-IoT實時傳輸至后端存儲或解碼。解碼過程與編碼過程相反,首先解碼混合碼流,得到前景序列和背景序列,調(diào)整至原始分辨率后,融合前景與背景圖像,得到人臉局部高清、背景低清的解碼圖像。
通過基于NPD特征的人臉檢測和KCF跟蹤,分離出人臉顯著區(qū)域信息。由于前景人臉和背景區(qū)域的關(guān)注程度不同,為實現(xiàn)不同的分辨率編碼,需要對原始序列分離預(yù)處理,重構(gòu)出獨立的人臉前景序列和去除人臉后的背景序列。
在上一環(huán)節(jié)中,可以判斷該幀圖像是否存在人臉,當人臉存在時,可以得到一到多張獨立的人臉圖像和相應(yīng)的空間坐標位置。除了人臉圖像本身的像素信息外,還有兩類信息不可丟失,一是幀序號的時間信息,記錄人臉圖像屬于哪一幀;二是空間位置信息,標記人臉在原始圖像中的位置。為了構(gòu)建新的人臉圖像序列,本文利用圖像掩膜(mask)處理[14],通過掩膜實現(xiàn)時域、空域信息的不丟失。掩膜人臉標記如圖4所示。
圖4 掩膜人臉標記示意圖
具體處理步驟如下:
輸入:視頻序列,人臉標記矩形框。
輸出:由掩膜組織的人臉序列;由掩膜屏蔽處理的背景序列。
(1) 構(gòu)造掩膜。初始化掩膜二進制圖像,記為MAP,分辨率與原始圖像寬、高相同,所有區(qū)域全部置0。
(2) 設(shè)置序列標志。判斷檢測(或跟蹤)圖像中是否存在人臉,當無人臉出現(xiàn)時,設(shè)置序列標志Zero_face_Flag=1,表示前景為零值幀;若存在人臉,則Zero_face_Flag置0。
(3) 掩膜處理。當圖像幀中存在人臉時,對于人臉部分的像素區(qū)域,將掩膜對應(yīng)空間位置置1,其余區(qū)域保持0值不變。完整處理一幀圖像,得到包含所有人臉位置分布的掩膜MAP圖。
(4) 前景序列構(gòu)建。依據(jù)MAP圖,將人臉圖像Ri復制到新的前景幀構(gòu)造圖像中,同時保存序列標志Zero_face_Flag,共同構(gòu)成前景序列Frontf。
(5)
(6) 循環(huán):返回步驟(1)處理下一幀數(shù)據(jù)。
至此,分離出獨立的前景與背景序列。預(yù)處理所有幀,得到前景背景分別獨立編碼的所需數(shù)據(jù)。
編碼過程包括前景編碼和背景編碼??紤]到監(jiān)控視頻的實時性和編碼復雜度,本文采用IPPP模式,不使用B幀。對于每一幀圖像先編碼前景序列,后編碼背景序列,交叉處理組成混合碼流。
前景序列Frontf包含原始人臉圖像、掩膜標識的坐標信息和幀標志Zero_face_Flag。由于提取的連續(xù)幀人臉在時域上同樣存在冗余,因此可用幀間預(yù)測的方式編碼的同一人臉。因為提取的人臉顯著區(qū)域位置和尺寸大小都會隨時間發(fā)生變化,離散的圖片破壞了空間位置上的運動聯(lián)系,不利于去除幀間冗余,所以需要利用掩膜轉(zhuǎn)換,通過像素空間位置映射還原至原始坐標位置,在統(tǒng)一坐標下做運動估計,實現(xiàn)幀間預(yù)測編碼,基本流程如圖5所示。
圖5 人臉前景編碼流程圖
具體處理步驟如下:
輸入:Zero_face_Flag、Mask圖片流。
輸出:前景碼流。
(1) 逐幀讀取重構(gòu)后的前景序列數(shù)據(jù)。
(2) 判斷Zero_face_Flag標志位,若為1,則表示沒有人臉,前景序列為空,將Zero_face_Flag寫入幀頭即可,無需編碼前景;若為0,則說明存在人臉,同樣將幀標志寫入幀頭信息,保證了前景與背景時序上的一一對應(yīng),然后進行前景編碼。
(3) 將序列中的人臉圖像數(shù)據(jù)Ri轉(zhuǎn)為YUV格式,并通過掩膜MAP進行空間位置映射,還原至實際的空間對應(yīng)位置,映射過程如式(6)所示。
Pi(RGB→YCbCr)⊕MAP
(6)
式中:(x,y)表示像素坐標;Pi為第i張人臉。映射過程分為三步:首先,對人臉圖片進行顏色空間轉(zhuǎn)換,將RGB轉(zhuǎn)換為YUV三通道數(shù)據(jù);然后,構(gòu)造相同分辨率大小的初始化虛擬幀,作為映射基準;最后,將人臉信息的坐標位置統(tǒng)一到MAP空間。此時,無人臉數(shù)據(jù)的空間位置不參與計算和編碼,對具有人臉信息的位置則在實際坐標系中進行差值計算和預(yù)測估計。其整體計算量小,能實現(xiàn)視頻中人臉局部的編碼。
(4) 判斷是否為關(guān)鍵幀,若為關(guān)鍵幀,對該幀所有人臉采用幀內(nèi)模式編碼為I幀;若為非關(guān)鍵幀,通過掩膜坐標編碼為P幀。
(5) 以此類推,按照此模式編碼完該幀所有人臉,得到前景碼流。
在每幀中編碼完前景序列(包括零值幀)后,緊接著對背景編碼,交叉處理,保證混合碼流的同步。編碼背景序列前,先進行下采樣。經(jīng)測試,CIF級(352×288)通用格式壓縮碼率可以滿足NB-IoT帶寬要求,考慮到分辨率變換時采用整數(shù)倍效率更高,所以低分辨率設(shè)置為原始1080P(1 920×1 080)圖像寬、高的1/4,即480×270,碼率與CIF格式相當。編碼時,為保持GOP大小一致,背景序列與前景序列采用相同編碼模式,I幀與P幀一一對應(yīng)。對于背景中屏蔽的前景區(qū)域,利用掩膜skip模式[14]跳過編碼,進一步降低碼流??紤]到碼流的穩(wěn)定性和大小限制,采用CVBR實現(xiàn)碼率控制[15],保證目標碼率不超過窄帶要求,并達到更好的碼率平穩(wěn)效果。在編碼過程中優(yōu)先編碼前景序列,以剩余碼率編碼背景,最后將背景碼流緊跟在前景碼流后,組成混合分辨率碼流,通過NB-IoT承載網(wǎng)絡(luò)傳輸或存儲。
解碼基本上是編碼的逆過程。由于混合分辨率碼流的結(jié)構(gòu)上有所改動,所以在收到碼流后,首先需要對碼流進行解析,分離得到每一幀的前景碼流和背景碼流。根據(jù)幀頭信息,可以判斷前景序列是否存在人臉,若不存在,標注前景為零值幀;若存在,則依次解碼前景和背景序列。因為碼流交叉混合傳輸,所以前景和背景需要并行解碼處理。對于前景序列,構(gòu)造原始分辨率的圖像M,將解碼后的人臉圖像根據(jù)掩膜進行坐標變換,填充至實際空間位置。對于背景,通過包含掩膜控制的skip模式進行多模式解碼[14],得到低分辨率的背景圖像,然后通過雙三次插值將背景圖像調(diào)整至原始分辨率大小,得到高分辨率、低清度的背景圖。最后,根據(jù)掩膜中人臉圖像的空間坐標參數(shù),將高分辨率人臉依次填充至對應(yīng)位置,得到融合后的解碼圖像。為了減弱高清人臉到低清背景清晰度差異大、過渡不自然的現(xiàn)象,可以對融合邊緣采用高斯濾波,進行平滑處理[16]。按照上述步驟逐幀解碼,最后輸出人臉局部高清、背景低清的監(jiān)控視頻圖像。
實驗采用的測試序列為6段YUV(采樣比為4 ∶2 ∶0)高清監(jiān)控:Passage1、Passage2、Hallway1、Hallway2、Door1、Door2,分別為3種不同場合面向人臉的室內(nèi)監(jiān)控場景,各取2段,視頻格式均為1 920×1 080/25 FPS。測試數(shù)據(jù)詳細信息如表1所示,數(shù)據(jù)樣例如圖6。實驗平臺為同一PC(Intel Xeon, 4 Core, 3.10 GHz,Memory 4 GB)。模擬NB-IoT網(wǎng)絡(luò)傳輸環(huán)境,碼率最高限制為180 Kbit/s,波動范圍控制在160~180 Kbit/s。
表1 測試視頻特點描述
圖6 監(jiān)控視頻測試數(shù)據(jù)集
在主流監(jiān)控視頻編碼方法中,背景建模方法整體性能最優(yōu),感興趣區(qū)域編碼方法在碼率下降情況下前景保持更好,因此為測試混合分辨率壓縮方法的實際效果,本文選取文獻[1]背景建模算法和文獻[8]的感興趣區(qū)域(Region of Interest,ROI)編碼算法作為參照對象。所有算法基于同一版本的x265源碼改進,默認參數(shù)設(shè)置相同。文獻[1]背景建模訓練集長度φ為120,對測試序列先建模后編碼;文獻[8]感興趣區(qū)域設(shè)置為經(jīng)過相同提取算法的人臉區(qū)域,碼率受限時,增大背景量化步長;本文混合分辨率中高分辨率保持原始1 920×1 080,低分辨率采用480×270,即原始畫面1/16大小。
為了評價本文方法的有效性,在NB-IoT環(huán)境下,以窄帶180 Kbit/s為目標控制碼率,分別測試不同算法的壓縮效果。實驗結(jié)果評價指標采用峰值信噪比(PSNR)、平均編碼速度(ES)評估圖像質(zhì)量和視頻壓縮速度[17]。
由于質(zhì)量差異較大,所以將人臉和背景分開對比,分別比較PSNR客觀指標和主觀視覺效果,最后對比算法速度性能,下面依次展開說明。
表2為NB-IoT環(huán)境下人臉局部PSNR質(zhì)量對比。需要說明的是,文獻[1]中沒有人臉的精確提取,所以解碼視頻通過位置標定截取相同人臉。測試時統(tǒng)計序列中所有人臉取平均值??梢钥闯?,本文算法在NB-IoT環(huán)境下可以更好地保障人臉質(zhì)量,相較于文獻[1]的PSNR平均提升了9.64 dB,相較于文獻[8]提升5.57 dB左右,主觀效果對比如圖7所示。
表2 NB-IoT環(huán)境下人臉PSNR質(zhì)量對比 單位:dB
圖7 人臉區(qū)域主觀質(zhì)量對比
可以看到背景建模方法人臉質(zhì)量極差,不適合NB-IoT極低碼率環(huán)境。該方法前景區(qū)域包括所有運動物體,而非更小的人臉局部區(qū)域,不具備可比性。以人臉為感興趣區(qū)域的編碼方法優(yōu)于背景建模,次于本文方法,損失了一定的人臉質(zhì)量,人臉較模糊。根據(jù)數(shù)據(jù)特點分析,對比測試序列1和2,可以看出,視頻中人臉數(shù)量增多時,人臉平均質(zhì)量略微有所下降。因為在有限的碼率下,過多的人臉數(shù)量必然擠壓資源,需要更大有損壓縮。對比Passage和Door場景,在可檢測的前提下,人臉尺寸增大,圖像質(zhì)量損失隨之增大。因為較大的畫幅需要編碼更多的像素,在碼率受限情況下,丟失了更多信息。但是實際情況中人臉的可辨識性受分辨率的影響更大,所以適度提高人臉尺寸,更有利于提高人臉的可分析性。綜合考慮帶寬要求、檢測效果等實際應(yīng)用場景,建議監(jiān)控布設(shè)時,人臉尺寸在50×50至250×250之間,視頻中人臉數(shù)量不超過5人。
在NB-IoT環(huán)境下,本文方法背景質(zhì)量也較為良好。文獻[1]背景建模方法顯著區(qū)域不一致,人臉質(zhì)量無法接受,所以不具備比較價值;文獻[8]感興趣區(qū)域編碼方法背景PSNR略高于本文方法,因為兩次分辨率變換引入了較多誤差,但在主觀視覺效果上,本文方法明顯更具優(yōu)勢。對比示例圖如圖8所示。
圖8 背景畫面主觀視覺效果對比示例圖
分析可知,碼率受限時,感興趣區(qū)域編碼方法對非感興趣區(qū)域進行粗糙量化,采用量化步長策略,存在嚴重的“塊效應(yīng)”。在大幅平坦區(qū)域會有“花屏”現(xiàn)象,對于較大的運動物體,在邊界處有明顯“鋸齒”,當移動速度較快時,存在偽影,嚴重破壞了圖像整體效果,造成極差的觀感。相同比特下,本文采用低分辨率編碼優(yōu)于高分辨率低清圖像,畫質(zhì)更為平滑,更適合低碼率條件。
表3給出了三種算法的平均編碼速度對比。可以看出本文方法比常規(guī)感興趣方案編碼速度平均提高了5.12倍,優(yōu)于文獻[1]和文獻[8]算法的碼率分配。從像素點處理和宏塊劃分的角度來看,低分辨率編碼極大地降低了計算量,編碼速度能夠滿足較低計算資源的實時編碼處理。
表3 NB-IoT環(huán)境下視頻整體畫面PSNR質(zhì)量對比
針對社區(qū)樓道、門棟等室內(nèi)監(jiān)控場景,本文提出一種面向人臉業(yè)務(wù)的混合分辨率視頻壓縮方法。為提高視頻中人臉提取速度,提出基于統(tǒng)計訓練優(yōu)化的人臉檢測方法;構(gòu)建基于掩膜的前景和背景序列,實現(xiàn)前景和背景不同分辨率的混合編碼。經(jīng)實驗證實,在低碼率條件下,本文方法優(yōu)于傳統(tǒng)背景建模和感興趣區(qū)域編碼方法,提高了人臉質(zhì)量,在NB-IoT環(huán)境下具有很強的實用性。后續(xù)將研究針對場景要素和帶寬自適應(yīng)的變分辨率編碼方法以改進本文方案。