齊忠文
摘 要 將深度學(xué)習(xí)等人工智能技術(shù)應(yīng)用于廣播電視節(jié)目內(nèi)容監(jiān)測中,提出利用人工神經(jīng)算法解決人臉自動識別問題。探討B(tài)P神經(jīng)網(wǎng)絡(luò)主要算法特點,進而給出人臉自動識別流程和方案設(shè)計。
關(guān)鍵詞 深度學(xué)習(xí);人工神經(jīng)網(wǎng)絡(luò);人臉識別;BP網(wǎng)絡(luò)
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2018)14-0026-02
隨著廣播電視的快速發(fā)展,傳統(tǒng)的人工監(jiān)聽監(jiān)看方式難以滿足內(nèi)容監(jiān)管的需要。一些虛假電視醫(yī)療廣告、購物短片極大損害廣播電視作為主流公共媒體的公信力,侵害人民群眾利益。部分違規(guī)電視廣告中虛假專家常常以不同身份,在多個購物短片、醫(yī)療廣告中扮演不同角色。在電視節(jié)目內(nèi)容監(jiān)管中,經(jīng)常需要對上述包含有目標人物的電視節(jié)目進行快速分類,準確鑒別。面對海量電視節(jié)目,緊靠人工肉眼難以及時準確發(fā)現(xiàn)違規(guī)節(jié)目,因此,我們考慮利用深度學(xué)習(xí)技術(shù)應(yīng)用在人臉自動識別中,對目標人物人臉進行智能識別,從而提高監(jiān)測監(jiān)管自動化程度,迅速發(fā)現(xiàn)及時處置違規(guī)節(jié)目。
1 深度學(xué)習(xí)技術(shù)
深度學(xué)習(xí)是人工智能研究一個重要的研究部分。它汲取了多個學(xué)科的研究成果。包括數(shù)學(xué)、統(tǒng)計學(xué)、信息學(xué)、通信原理、計算機基礎(chǔ)理論乃至哲學(xué)、心理學(xué)等方面的研究支持。換個角度來講,深度學(xué)習(xí)可以看作利用計算機科技模擬人類學(xué)習(xí)思考過程,從已知的激勵響應(yīng)、函數(shù)結(jié)果中,不斷迭代優(yōu)化函數(shù)模型,進而在提供新變量數(shù)據(jù)時,系統(tǒng)根據(jù)模型判斷出即將產(chǎn)生的激勵結(jié)果。近年來,受益于計算機和互聯(lián)網(wǎng)等信息技術(shù)的發(fā)展成就,深度學(xué)習(xí)在人工智能研究中得到飛速發(fā)展。在語音識別、輔助判定方面,研究成果頗豐。在視頻自動識別領(lǐng)域,深度學(xué)習(xí)也得到了積極應(yīng)用。同語音智能識別相比,視頻圖像自動識別更加復(fù)雜。
2 人工神經(jīng)網(wǎng)絡(luò)基本原理
人工神經(jīng)網(wǎng)絡(luò)技術(shù)是采用計算機、網(wǎng)絡(luò)等技術(shù)模仿生物神經(jīng)網(wǎng)絡(luò)的研究。人工神經(jīng)網(wǎng)絡(luò)具有非線性、非有限性、非穩(wěn)定狀態(tài)和非平衡性等特性。
1)非線性。自然界中大部分系統(tǒng)都是非線性的,我們將人工神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元設(shè)置于開關(guān)兩種狀態(tài),進而模擬非線性系統(tǒng)。
2)非有限性。神經(jīng)網(wǎng)絡(luò)系統(tǒng)的響應(yīng),不只取決于單個單元,而取決于相互影響的多個單元。
3)非穩(wěn)定狀態(tài)。人工神經(jīng)網(wǎng)絡(luò)判定性能不是一成不變的,而是通過數(shù)據(jù)迭代,系統(tǒng)性能不斷提升進化完善。
4)非平衡性。通過數(shù)據(jù)迭代,性能不斷提升過程中,影響系統(tǒng)性能的單元并不均衡。某種狀態(tài)下,性能提升往往取決于特定函數(shù)的提升過程。
經(jīng)過測試比較,目前,比較好的算法是基于反向傳播算法?;诜聪騻鞑ニ惴ɑ驹硎峭ㄟ^輸入激勵和系統(tǒng)響應(yīng)修正的不斷優(yōu)化,來逐漸提升系統(tǒng)判定能力。分為兩個階段來完成,首先是激勵的正向輸入,然后是不斷逼近測試結(jié)果的系統(tǒng)調(diào)整。早期反向傳播網(wǎng)絡(luò)只有三層,input layer、hidden layer和output layer。受限于當(dāng)時計算機硬件性能影響,基于反向傳播算法耗時較長,并未得到進一步發(fā)展。近年來,隨著信息網(wǎng)絡(luò)計算的進一步發(fā)展,計算機計算性能大幅提升。并受益于大數(shù)據(jù)、云計算等信息技術(shù)發(fā)展?;诜聪騻鞑ニ惴ǖ纳疃壬窠?jīng)網(wǎng)絡(luò)分析再次走入人們視野,展示出其應(yīng)用價值。
人工神經(jīng)網(wǎng)絡(luò)算法最大的優(yōu)勢是,系統(tǒng)自動提取待檢樣本的特征。我們無需對樣本進行分解處理,這同以往的檢測識別方法相比,不僅節(jié)省了時間,簡化了流程,還提高了系統(tǒng)的魯棒性。例如在檢測電視節(jié)目中單幀畫面的時候,人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)自動提取畫面像素中的隱含特征。此外,利用人工神經(jīng)網(wǎng)絡(luò)系統(tǒng),各個人造神經(jīng)元同時獨立工作,也提高了系統(tǒng)運算效率。
3 電視節(jié)目中人臉畫面識別處理
在電視節(jié)目人臉畫面中,存在人臉之外的無關(guān)信息。這些無關(guān)信息會對系統(tǒng)自動識別帶來干擾,增加系統(tǒng)負擔(dān)。另外也會導(dǎo)致系統(tǒng)迭代結(jié)果達不到優(yōu)化效果。因此,首先,我們需要將節(jié)目畫面中人臉以外的節(jié)目信息過濾掉。
1)人臉偵測。人臉偵測的任務(wù)是在視頻節(jié)目每一幀畫面當(dāng)中,檢測是否有人臉存在,并去除人臉以外信息,將人臉畫面提取出來。早期人臉偵測主要依靠與模板比對,通過色澤,對比度等信息比較完成。缺點是耗時長,識別率低。利用BP網(wǎng)絡(luò)的偵測設(shè)計,可以很好解決以上問題。Multi-task convolutional neural networks算法是我國深圳一家研究院提出的人臉偵測算法。一般來講,第一層p-net作用為控制人臉邊緣區(qū)域,并對同一人物畫面歸一化。第二層r-net作用為進一步確認人臉位置區(qū)域,去除第一層確認的非人臉區(qū)域。第三層可以理解為第二層深化,人臉部位區(qū)域更加準確。
電視節(jié)目中的人臉姿態(tài)千變?nèi)f化,顏色、大小、方向各不相同,如果不加處理即進行分類訓(xùn)練,增加了后續(xù)分類判定的難度和準確性。因此,需要對不同姿態(tài)類別的人臉進行規(guī)范化處理,形成規(guī)范統(tǒng)一的人臉預(yù)處理樣本。目前比較好的歸一化方法一般采用仿射變換,即對電視圖像中的人臉進行平移縮放,規(guī)范至畫面中央。
2)人臉特征提取。經(jīng)過預(yù)處理的人臉圖像各種特征在同對應(yīng)的基礎(chǔ)模型各特征比較后,形成規(guī)范化的人臉特征參數(shù),構(gòu)成規(guī)范人臉特征向量,如圖1。利用卷積神經(jīng)網(wǎng)絡(luò)將規(guī)范后的人臉特征向量對應(yīng)至各節(jié)點,便于分類。不同類型的預(yù)處理過程,得到的特征向量維度并不相同。因此,我們采用將高維度向量降低維度,這樣我們可以在不減少信息熵的基礎(chǔ)上,降低系統(tǒng)設(shè)計難度和訓(xùn)練時間,從而獲得比較好的合成特征向量。在合成特征向量中,會有很多冗余信息,這些信息會增加識別開銷,降低判定效率,在設(shè)計中一般采用稀疏特征向量映射方式解決這一問題。
3)人臉樣本數(shù)據(jù)庫資源。正如前文所述,深度機器學(xué)習(xí)的技術(shù)支撐是海量的數(shù)據(jù)資源和當(dāng)前普遍低價高效計算能力(包含云計算支持)。而海量的數(shù)據(jù)中,必然含有對系統(tǒng)迭代優(yōu)化零貢獻甚至是負貢獻的無效數(shù)據(jù)。雖然有一些研究機構(gòu)提供相對數(shù)量的人臉樣本基本數(shù)據(jù),但就目前來講,規(guī)范化的數(shù)據(jù)仍然顯得稀少珍貴。為了解決這一問題,部分研究機構(gòu)開始構(gòu)建并開放自己的人臉數(shù)據(jù)資源
庫[1]。VGGface數(shù)據(jù)庫目前包含260萬張人臉數(shù)據(jù)樣本。CASIA是國內(nèi)最大的人臉數(shù)據(jù)庫,包含近50萬張人臉數(shù)據(jù)樣本。目前,也有使用計算機爬蟲技術(shù)在互聯(lián)網(wǎng)上搜索儲存人臉樣本資源的數(shù)據(jù)庫。相信這些數(shù)據(jù)在規(guī)范化后同樣可以得到廣泛使用。
4 人臉自動識別系統(tǒng)設(shè)計
基于電視節(jié)目對特定人物人臉識別的需求和深度學(xué)習(xí)技術(shù)特點,我們提出搭建人臉自動識別系統(tǒng)架構(gòu)。系統(tǒng)應(yīng)滿足7×24小時穩(wěn)定運行、可擴展等要求。整個系統(tǒng)分為編目單元、處理單元和業(yè)務(wù)單元三部分。
1)編目單元。編目單元負責(zé)完成電視節(jié)目的下載、存儲和編目。首先從各監(jiān)測系統(tǒng)(有線、無線、衛(wèi)星等)中把待檢節(jié)目下載存儲。對下載后的節(jié)目進行初步識別、切段和標記。該單元還負責(zé)目標人物特征參數(shù)的存儲。
2)處理單元。處理單元是人臉自動識別系統(tǒng)的核心單元。主要負責(zé)偵測視頻圖像是否含有人臉信息,并去除人臉以外的干擾信息,對人臉位置進行校正對齊。將歸一化的人臉信息輸入深度學(xué)習(xí)系統(tǒng),輸出判定結(jié)論。該單元還要完成系統(tǒng)的訓(xùn)練學(xué)習(xí)任務(wù),通過一次次數(shù)據(jù)迭代,完成優(yōu)化系統(tǒng)功能。
3)業(yè)務(wù)單元。主要包括系統(tǒng)管理與參數(shù)設(shè)置,數(shù)據(jù)維護、監(jiān)看任務(wù)管理。其中任務(wù)管理包括建立任務(wù)、實時或者下載任務(wù)。業(yè)務(wù)單元中,最重要的是人工審核處理。根據(jù)系統(tǒng)規(guī)劃,自動識別完成后,需要對比對結(jié)果進行復(fù)核。
4)業(yè)務(wù)流程。通過各監(jiān)測系統(tǒng),按需求下載待檢測節(jié)目錄像。對錄像節(jié)目進行預(yù)處理。預(yù)處理包括統(tǒng)一節(jié)目格式、歸一化人臉信息數(shù)據(jù)等。之后將處理后的人臉數(shù)據(jù)輸入檢測系統(tǒng)。系統(tǒng)將待檢數(shù)據(jù)同特征庫中的數(shù)據(jù)進行比對,檢測結(jié)果上報人工席位,最后由人工席位完成數(shù)據(jù)核準。人工席位不定期更新人臉數(shù)據(jù)庫,保證數(shù)據(jù)庫數(shù)據(jù)完整有效。
5 結(jié)論
深度學(xué)習(xí)技術(shù)已經(jīng)廣泛應(yīng)用于語音識別、圖像識別等人工智能領(lǐng)域。將深度學(xué)習(xí)、神經(jīng)算法等人工智能技術(shù)應(yīng)用于廣播電視節(jié)目內(nèi)容監(jiān)測的人臉比對等方面,將極大提高業(yè)務(wù)效率,從而更加準確發(fā)現(xiàn)違規(guī)節(jié)目,維護廣播電視秩序。相信人工智能技術(shù)的進一步發(fā)展會進一步加快其在廣播電視監(jiān)測監(jiān)管領(lǐng)域的成果轉(zhuǎn)化。
參考文獻
[1]郭麗麗,丁世飛.深度學(xué)習(xí)研究進展[J].計算化科學(xué),2015,42(5):28-33.