杜雪,王浩然,王欣悅
(南京郵電大學(xué),江蘇 南京 210000)
卷積神經(jīng)網(wǎng)絡(luò)是應(yīng)用最為廣泛的人工神經(jīng)網(wǎng)絡(luò),該模型由簡單和復(fù)雜細胞構(gòu)成,簡單細胞對應(yīng)不同區(qū)域,對于不同方向采取不同反應(yīng),獲得更大感受,通過交替出現(xiàn)簡單和復(fù)雜細胞,神經(jīng)網(wǎng)絡(luò)可以獲取圖像特征和抽象性。卷積神經(jīng)網(wǎng)絡(luò)是降采樣層和卷積層交替出現(xiàn)的神經(jīng)網(wǎng)絡(luò),經(jīng)過多年的應(yīng)用取得了突出進步,在計算機視覺領(lǐng)域中發(fā)揮著重要價值。
卷積神經(jīng)網(wǎng)絡(luò)是由卷積層提取特征,亞采樣層處理特征,交疊構(gòu)成多層神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)輸入是通過手寫方式輸入圖像,對結(jié)果識別,輸入過程需要進行多次卷積以及采樣加工,在全連接層進行和目標(biāo)的映射。一般情況下神經(jīng)元和感受神經(jīng)進行連接,卷積層用多個卷積核對通道,捕捉特征點,按照組合方式輸出,特征圖按照采樣層S2后,可以縮減尺寸,神經(jīng)元和對應(yīng)特征對應(yīng)映射,得到計算結(jié)果。卷積層神經(jīng)元、采樣層神經(jīng)元分別進行模擬簡單和復(fù)雜細胞,對卷積核共享,和特征對應(yīng),進行采樣操作。
卷積神經(jīng)網(wǎng)絡(luò)卷積層包含特征圖較多,在核對圖像后運算,將元素視為權(quán)值參數(shù),和輸出圖像像素值相乘,求和得到輸出像素。采樣層也被稱為池化層,進行池化采樣,在減少數(shù)據(jù)量同時保留信息[1]。神經(jīng)網(wǎng)絡(luò)和連接層進行對接,隱層結(jié)構(gòu)和連接層一致,神經(jīng)元一一對接。卷積神經(jīng)網(wǎng)絡(luò)在BP算法支持下,通過模擬訓(xùn)練,能夠讓神經(jīng)元享有連接權(quán),減少了訓(xùn)練數(shù)目。近年來通過增加神經(jīng)網(wǎng)絡(luò)的層數(shù),增加樣本,讓算法不斷優(yōu)化,從而超越傳統(tǒng)識別和機器學(xué)習(xí)算法,進一步提高了神經(jīng)網(wǎng)絡(luò)性能以及精準(zhǔn)度,讓神經(jīng)網(wǎng)絡(luò)的應(yīng)用效果得到顯著提升。借助于卷積神經(jīng)網(wǎng)絡(luò)的支持,計算機視覺服務(wù)范圍不斷擴大,已經(jīng)逐漸融入金融行業(yè)、交通行業(yè)、服務(wù)行業(yè)等體系中,實現(xiàn)廣泛應(yīng)用,支持全社會智能化水平的提高,讓人臉識別得到穩(wěn)定應(yīng)用,大幅提高社會服務(wù)和各個行業(yè)的便捷性。
在計算機視覺領(lǐng)域內(nèi)最基礎(chǔ)的應(yīng)用是圖像分類,根據(jù)設(shè)定對給定圖片進行分類,讓圖片內(nèi)容劃分到合適的分類中,并進行類別標(biāo)記。圖像分類的主要進展為ImageNet ILSVRC任務(wù)上,常見圖像分類數(shù)據(jù)集還包括Caltech256、SUN等。
在目標(biāo)檢測中,是計算機視覺基礎(chǔ)工作,可以標(biāo)記設(shè)定對象,對目標(biāo)物體進行標(biāo)記,并進行圖像分類。相比于圖像分類,目標(biāo)檢測在圖像特定區(qū)域、分類上更為重視,且檢測更加復(fù)雜。傳統(tǒng)目標(biāo)檢測使用Haar、SIFT等描述,通過滑動窗口能夠識別,對每類物體單獨訓(xùn)練分類器。目標(biāo)檢測領(lǐng)域作為最具影響力檢測算法,能夠?qū)δ繕?biāo)進行處理,具備較高檢測率,能夠滿足人臉檢測的需要,實現(xiàn)廣泛應(yīng)用。使用AdaBoost算法框架,提取Haar-like特征[2]。在窗口界面搜索定位,特征為圖像梯度直方圖,檢測通過支撐向量機實現(xiàn),考慮到自然界物體可能存在柔性形變,需要利用多尺度形變模型,該模型具備直方圖和支撐向量機的優(yōu)勢,用隱變量推理組件形變,固定模板分辨率,辨別寬高比來辨別目標(biāo)。如今神經(jīng)網(wǎng)絡(luò)的發(fā)展開始替換為DeepCNN進行檢測,提高了目標(biāo)檢測精度,建立R-CNN檢測框架,R-CNN算法使用選擇性搜索策略進行候選窗選擇,選定深度特征,并通過SVM分類器的應(yīng)用對候選窗劃分,使用非極大值篩選候選窗,確定目標(biāo)定位。
在計算機視覺領(lǐng)域中,研究人員精確理解目標(biāo)投向,通過語義分割滿足需求,解析訓(xùn)練圖像內(nèi)容,分割工程中獲得像素語義類別,并對圖像內(nèi)容予以標(biāo)記[3]。圖像語義分割需要對分割目標(biāo)準(zhǔn)確識別,精準(zhǔn)圖像語義分割能夠降低后續(xù)識別數(shù)據(jù)量,保留結(jié)構(gòu)化信息。常用數(shù)據(jù)庫包括MicrosoftCOCO、MSRCv2以及Sift Flow等。如今深度卷積沉浸網(wǎng)絡(luò)成功應(yīng)用于圖像檢測分類中,在圖像語義分割中使用DeepCNN,如使用多尺度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)特征,讓語義分割取得理想效果。在語義分割上FCN效果良好,但是未經(jīng)過對邊緣信息和空間的約束,導(dǎo)致分割結(jié)果十分粗糙。CRF模型對FCN輸出結(jié)果的處理,可以將分割數(shù)據(jù)集的精度提高至71.6%。為了識別圖像分割區(qū)域,語義分割必須要利用精準(zhǔn)像素對數(shù)據(jù)加以標(biāo)注,時間長,且數(shù)據(jù)數(shù)量有局限。按照經(jīng)驗,精確標(biāo)注目標(biāo)像素點,可以克服像素的約束,成功設(shè)置語義分割的算法。BoxSup通過檢測圖像進行監(jiān)督,捕捉監(jiān)督信號,先利用候選區(qū)進行初步結(jié)果的篩查。然后對FCN、檢測框的信息進行監(jiān)測。將物體點作為目標(biāo),通過設(shè)計函數(shù)監(jiān)督數(shù)據(jù),并對FCN函數(shù)約束訓(xùn)練。期間對關(guān)鍵像素賦予權(quán)值最大值,能夠?qū)Ω飨袼馗鼫?zhǔn)確標(biāo)注。
生成圖片的標(biāo)題是神經(jīng)網(wǎng)絡(luò)的重要業(yè)務(wù),借助于自然語言準(zhǔn)確描述圖片,體現(xiàn)出圖片的特征和內(nèi)容,隨著自然語言和深度學(xué)習(xí)的技術(shù)突破,圖片標(biāo)題生成逐漸在各個網(wǎng)站中使用。目前微軟和谷歌的技術(shù)仍然處于領(lǐng)先地位。部分圖片使用流程化方法進行圖片內(nèi)容的描述,向?qū)W習(xí)示例圖片,對各特征部分提取形容詞匯等,對應(yīng)CNN特征,可以充分表述CNN特征,然后使用MELM產(chǎn)生標(biāo)題。最后使用MERT對可能性最高的標(biāo)題排序。還有一部分圖片采取端對端方法,在機器翻譯的啟發(fā)以及支持下,通過RNN模型、CNN模型,完成圖片標(biāo)題以及獲取圖片特點,最終生成圖片的對應(yīng)標(biāo)題。
人臉識別包含人臉辨識和驗證兩部分,辨別人臉圖像正確率為50%,辨識人臉可以將人臉圖像劃分不同種類的身份,猜中概率為1/N。人臉的辨識難度更高,隨著類別數(shù)增加而增加,最大挑戰(zhàn)在于在不同表情、姿態(tài)、光線下的辨別。兩種變化分布十分復(fù)雜,呈現(xiàn)出非線性。目前最為著名的測試集是LFW,通過在互聯(lián)網(wǎng)上收集超過五千人的人臉照片,用于評估人臉驗證性能[4]。經(jīng)過測試集運算模擬,其準(zhǔn)確性基本達到97.53%。而深度學(xué)習(xí)準(zhǔn)確率可以達到99.47%。人臉識別需要在離線數(shù)據(jù)上運行,經(jīng)過模型模擬,再應(yīng)用于驗證任務(wù)上。通過對人臉監(jiān)督,捕捉人臉特點,對最小特征類識別,準(zhǔn)確率達到99.15%。使用Triplet網(wǎng)絡(luò)學(xué)習(xí)人臉特征,要求輸入不同類圖片一張、同類圖片兩張的圖像樣本,使用歐氏距離進行輸入圖像相似度的度量,在LFW數(shù)據(jù)集上達到了99.63%精度。
在監(jiān)控系統(tǒng)中主要利用行人再識別,在可控環(huán)境中,利用虹膜和人臉等特征進行人臉識別。監(jiān)控視頻環(huán)境十分復(fù)雜,不可控因素較多,獲得行人圖像的質(zhì)量差,無法準(zhǔn)確捕捉人臉特征。因此很多研究人員通過人攜帶物品和衣物進行識別。但受到光線和角度的影響,并不能準(zhǔn)確識別,誤識別率較高[5]。識別行人的算法主要包括特征識別以及距離度量兩種,度量距離是將行人特征分布作為學(xué)習(xí)度量,在不同行人目標(biāo)中,由于不同個體之間特征距離差距顯著,統(tǒng)一個體上特征距離差異小,能夠?qū)Σ煌腥四繕?biāo)進行區(qū)分,不易受到光線等環(huán)境因素的影響。利用TripletLoss監(jiān)督網(wǎng)絡(luò)學(xué)習(xí)過程,在數(shù)據(jù)集上取得良好效果。使用局部圖像塊匹配方法進行局部特征的學(xué)習(xí),提高了辨別能力。
識別人體動作已經(jīng)是計算機視覺研究中關(guān)注度很高的問題,通過攝像機對視頻數(shù)據(jù)進行捕捉和處理,對視頻中動作行為深入理解。能夠在圖像序列中準(zhǔn)確找到運動信息,并提取底層特征,快速建模,形成底層視覺對應(yīng)動作行為的關(guān)系。根據(jù)時序信息使用頻率,識別人體動作可以通過識別時空特征以及時序推理兩種。在視頻序列中利用人體動作識別法提取動作特征,主要解決簡單動作識別,可以分為局部特征、時空軌跡以及時空體模型等。使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)具備一定語義信息,逐漸得到廣泛應(yīng)用。使用三維卷積計算,于圖像序列準(zhǔn)確捕捉目標(biāo)動作,從多渠道獲取圖像特征,并將這些特征合并為最終動作。雙路卷積神經(jīng)網(wǎng)絡(luò)對于圖像的識別不僅支持靜態(tài)幀,也能在多幀圖像上加以處理,靜態(tài)幀是利用單幀信息對動作信息提取,并獲取時間信息,通過捕捉特征,并經(jīng)過SVM分類器識別圖像動作。
綜上所述,在我國各個行業(yè)中深度卷積神經(jīng)網(wǎng)絡(luò)均得到深度應(yīng)用,為各個行業(yè)的發(fā)展提供了技術(shù)上的支持。在計算機視覺應(yīng)用上,通過生成標(biāo)題、目標(biāo)監(jiān)測、人臉識別等功能實現(xiàn)。通過在不同領(lǐng)域上應(yīng)用滿足各個行業(yè)的需要,提高社會智能化水平。當(dāng)前在數(shù)據(jù)集中應(yīng)用良好,但應(yīng)對互聯(lián)網(wǎng)上大規(guī)模數(shù)據(jù)仍然較為困難,還需要不斷更新和遷移,進一步研究神經(jīng)網(wǎng)絡(luò)泛化能力,才能更穩(wěn)定應(yīng)對互聯(lián)網(wǎng)海量數(shù)據(jù),滿足其實際應(yīng)用需要。