音視頻識別處理系統(tǒng)探討

2016-02-28 06:30:42董明

西部廣播電視 2016年16期

關(guān)鍵詞：電視信號音視頻字幕

董明

（作者單位：中國華藝廣播公司電視中心）

音視頻識別處理系統(tǒng)探討

董明

（作者單位：中國華藝廣播公司電視中心）

本文主要對音視頻識別處理系統(tǒng)的組成、技術(shù)方案、關(guān)鍵技術(shù)、技術(shù)可行性分析及風險分析進行了一定的介紹，為業(yè)內(nèi)人士提供一定的參考。

音視頻識別處理系統(tǒng)；技術(shù)方案；研究與論證

隨著技術(shù)創(chuàng)新和電視節(jié)目制作需求的不斷增大，“音視頻識別處理系統(tǒng)”作為一套精確節(jié)目錄制、增強節(jié)目處理效果、完善節(jié)目處理手段的工具，能達到進一步提升電視節(jié)目制作的優(yōu)質(zhì)效果。

1　總體技術(shù)方案

1.1系統(tǒng)組成

音視頻識別處理系統(tǒng)主要包括硬件分系統(tǒng)和軟件分析錄制分系統(tǒng)。其中硬件分系統(tǒng)是由衛(wèi)星電視信號的接收、解調(diào)、處理和錄制分系統(tǒng)組成；軟件分析錄制分系統(tǒng)由衛(wèi)星電視在線處理和本地視頻離線處理兩部分組成。

1.2各分系統(tǒng)主要技術(shù)方案

1.2.1硬件分系統(tǒng)

一是戶外衛(wèi)星接收天線。建設(shè)一副地面接收天線接收衛(wèi)星信號，經(jīng)低噪聲放大和變頻為中頻段的信號。二是室內(nèi)衛(wèi)星接收系統(tǒng)。使用專業(yè)數(shù)字衛(wèi)星接收機接收衛(wèi)星天線信號，輸出的數(shù)字TS流，經(jīng)采集卡通過PCI總線傳輸給PC機。電視信號傳輸沒有采樣損失，TS流中還存在EPG信息，便于后續(xù)的處理。

1.2.2軟件分析錄制分系統(tǒng)

衛(wèi)星電視在線處理部分可對采集到的衛(wèi)星電視信號進行實時處理。本地視頻離線處理部分可對存儲在本地電腦上的視頻文件進行處理，格式可包括avi、mpg、flv、h.264等主流媒體格式。該軟件平臺具備視頻采集、播放、錄像、視頻抓拍、字幕檢測、字幕識別、字幕替換、人臉檢測以及人臉識別等功能。

1.3關(guān)鍵技術(shù)

1.3.1視頻識別技術(shù)

視頻中出現(xiàn)的人物眾多，其中一些人物可能無關(guān)緊要，因此需要對檢測出的所有人物進行過濾，獲取“有效人物”或“重要人物”。通常，視頻中的“有效人物”人臉一般出現(xiàn)在視頻的中央?yún)^(qū)域及其鄰域，且正面朝前，面部清晰完整，在視頻中反復(fù)出現(xiàn)的概率高，人臉畫面持續(xù)時間較長。在對特定人物的視頻進行分析后，形成面部特征庫，以后在電視節(jié)目中出現(xiàn)該人物時能自動匹配，并立即啟動錄制。

1.3.2臺標檢測識別技術(shù)

電視信號中的臺標包含電視臺名、節(jié)目取向等重要信息，是實現(xiàn)視頻分析、理解和檢索的重要來源。

1.3.3字幕檢測、識別、替換技術(shù)

電視新聞視頻中的字幕文本往往與視頻內(nèi)容密切相關(guān)，是實現(xiàn)自動化視頻分類、檢索、分析和理解的重要信息源之一。

2　技術(shù)可行性分析

2.1基于語義的重要人物人臉檢測方法和基于音素的聲音檢測方法

人臉是表征人物身份的主要特征，利用視頻中的語義和人臉數(shù)據(jù)庫建立的人臉特征進行關(guān)聯(lián)，提取重要人物。在獲取視頻的關(guān)鍵幀后，由于在YCbCr顏色空間，色度Cb、Cr構(gòu)成的二維平面膚色在顏色空間上集中在一個很小的區(qū)域，它的分布近似于高斯分布，能更好地區(qū)分膚色與其他顏色，并減少光照音素的影響。因此，選擇YCbCr顏色空間，進行RGB到Y(jié)CbCr的色度空間轉(zhuǎn)換，通過數(shù)字運算最后得到膚色和形狀過濾后的人臉區(qū)域。

在人臉檢測中，首先用主成分分析（PCA）方法提取出不具相關(guān)性的主要成分，然后用獨立成分分析（ICA）方法對面部圖像的主成分作進一步的處理來提取特征參數(shù)，最后采用支持向量（SVM）的分類方法檢測人臉。對檢測出的視頻人臉需進一步判斷是否為提取所需的語義人臉。

通過以上步驟檢測出視頻中“有效人物”的語義人臉，利用人臉數(shù)據(jù)庫中建立的人臉特征與高層語義的關(guān)聯(lián)，實現(xiàn)重要人物的檢測。

聲音首先要進行分幀，具體的分幀操作通常使用移動窗函數(shù)來實現(xiàn)。分幀后，必須將波形進行交換，通過提取MFCC特征，把每一幀波形變成一個12維向量，即聲學(xué)特征提取。接下來將聲音矩陣變成文本，即把幀識別為狀態(tài)，把狀態(tài)組合成音素，把音素組合成單詞。利用隱馬爾可夫模型（HMM）構(gòu)建一個狀態(tài)網(wǎng)絡(luò)，從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑，進而完成語音識別，與目標語音庫比對，完成關(guān)鍵人物鎖定。

2.2電視信號臺標檢測技術(shù)

臺標檢測是識別的第一步，對識別效果影響很大，主要采用圖像匹配法。圖像匹配是指通過一定的匹配算法在兩幅或多幅圖像之間識別同名點，并確定圖像間差異度。在二維圖像匹配時，通過比較目標區(qū)和搜索區(qū)中相同大小的窗口的相關(guān)系數(shù)，把搜索區(qū)中相關(guān)系數(shù)最大值所對應(yīng)的窗口中心點作為同名點，其實質(zhì)是在基元相似性的條件下，運用匹配準則取得最佳搜索。

2.3基于時空域信息的視頻字幕檢測定位方法。

視頻中的同一字幕或標題通常會在連續(xù)的多幀中出現(xiàn)，且它們的位置、形狀和尺寸在時間域上幾乎不變，利用字幕的這一時域特性和字幕與背景具有較強的對比度等空域特性對字幕和標題進行檢測定位。

3　系統(tǒng)的風險分析

音視頻識別處理系統(tǒng)專業(yè)化程度高，技術(shù)發(fā)展迅速，設(shè)備備件專業(yè)指標要求嚴格，具有可以在市場中直接采購的特點，只是很多設(shè)備均為精密設(shè)備，維修這些設(shè)備所需的維修費用多、設(shè)備的備件價格昂貴，需要一定的維修資金儲備。

音視頻識別處理系統(tǒng)探討

1 總體技術(shù)方案

2 技術(shù)可行性分析

3 系統(tǒng)的風險分析

1　總體技術(shù)方案

2　技術(shù)可行性分析

3　系統(tǒng)的風險分析