摘要:近年來,隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,一種基于視覺圖神經(jīng)網(wǎng)絡(luò)(Visual"Graphic"Networks,"VGNN)的人臉識別方法受到了廣泛關(guān)注。"VGNN是近年來興起的一種深度學(xué)習(xí)方法,它把圖像表示成圖結(jié)構(gòu),并通過神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)圖像的特征與關(guān)系。在人臉識別領(lǐng)域,圖像神經(jīng)網(wǎng)絡(luò)能夠通過學(xué)習(xí)人臉圖像間的相互關(guān)系,從而完成人臉識別任務(wù)。首先,介紹了"GNN的基本理論與體系結(jié)構(gòu);其次,詳細(xì)闡述了基于視覺圖的神經(jīng)網(wǎng)絡(luò)模型體系結(jié)構(gòu)與訓(xùn)練方法,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。研究成果可為后續(xù)的人臉識別研究提供借鑒與參考。關(guān)鍵詞:人臉識別"圖神經(jīng)網(wǎng)絡(luò)""空間多尺度"注意力機(jī)制
中圖分類號:TP391.41;TP183
Research"on"Facial"Recognition"Method"of"Visual"Graph"Neural"Network
TANG"Wenhao
Heilongjiang"University"of"Business"and"Technology,"Harbin,"Heilongjiang"Province,150025"China
Abstract:"In"recent"years,"with"the"rapid"development"of"deep"learning"technology,"a"facial"recognition"method"based"on"Visual"Graphic"Networks(VGNN)"has"attracted"extensive"attention."VGNN"is"a"deep"learning"method"that"has"emerged"in"recent"years."It"represents"images"as"graph"structures"and"learns"the"characteristics"and"relationships"of"images"through"neural"networks."In"the"field"of"facial"recognition,"image"neural"network"can"complete"the"task"of"face"recognition"by"learning"the"relationship"between"facial"images."Firstly,"the"basic"theory"and"architecture"of"GNN"are"introduced;"Secondly,"the"architecture"and"training"method"of"neural"network"model"based"on"visual"graphs"are"expounded"in"detail,"and"the"experimental"verification"is"carried"out."The"research"achievements"can"provide"reference"and"guidance"for"the"subsequent"facial"recognition"research.
Key"Words:"Facial"recognition;"Graph"neural"network;"Spatial"multi-scale;"Attention"mechanism
人臉識別是一項(xiàng)非常重要的生物識別技術(shù)。人臉識別過程中,需要通過大量的人臉圖像來判斷是否為同一人。傳統(tǒng)的人臉識別方法一般都是手工設(shè)計(jì)特征并提取特征。隨著計(jì)算機(jī)視覺技術(shù)的不斷進(jìn)步,基于深度學(xué)習(xí)的方法也得到了廣泛應(yīng)用?;诖?,提出了一種基于視覺圖譜神經(jīng)網(wǎng)絡(luò)(Visual"Graphic"Networks,"VGNN)模型。VGNN由特征抽取層和分類層兩部分構(gòu)成。特征提取層采用卷積神經(jīng)網(wǎng)絡(luò)對人臉圖像進(jìn)行特征提取;分類層采用通用分類器對不同的人臉圖像進(jìn)行分類;在人臉識別領(lǐng)域,圖像神經(jīng)網(wǎng)絡(luò)常被用來解決諸如光照、表情、姿態(tài)等復(fù)雜問題[1]。該算法能夠有效地從人臉圖像中提取出特征,利用深度神經(jīng)網(wǎng)絡(luò)對人臉圖像進(jìn)行識別與分類。在實(shí)際應(yīng)用方面,圖神經(jīng)網(wǎng)絡(luò)已在安全保衛(wèi)、身份認(rèn)證等方面得到了廣泛的應(yīng)用。本文主要介紹了基于視覺圖的神經(jīng)網(wǎng)絡(luò)技術(shù)及其在人臉識別領(lǐng)域的應(yīng)用與實(shí)踐。在此基礎(chǔ)上,本項(xiàng)目還將對這一研究方向進(jìn)行展望。
1"視覺圖神經(jīng)網(wǎng)絡(luò)的人臉識別模型
VGNN是一種新興的人工智能技術(shù),可以被應(yīng)用于人臉識別。VGNN采用深度學(xué)習(xí)技術(shù),其核心網(wǎng)絡(luò)層"VGNN具有學(xué)習(xí)人臉特征的能力。在人臉識別方面,"VGNN可以用來識別不同的人臉特征,提高識別的準(zhǔn)確性。首先,"VGNN網(wǎng)絡(luò)的核心部分是由大量的節(jié)點(diǎn)和邊構(gòu)成的可視圖結(jié)構(gòu)。其中,節(jié)點(diǎn)代表了不同的人臉特征,而邊則代表了人臉間的相互關(guān)系。VGNN通過自主機(jī)制學(xué)習(xí)節(jié)點(diǎn)間的聯(lián)系,提高了識別精度。其次,基于圖的卷積運(yùn)算,提出了深度網(wǎng)絡(luò)模型。該方法能夠同時捕捉到人臉的整體與局部特征,提高了人臉識別的準(zhǔn)確性。VGNN通過把多個節(jié)點(diǎn)連接起來,能夠識別不同個體間的相似性和差異性,從而提高識別的準(zhǔn)確性。
2.實(shí)驗(yàn)部分
VGNN是一種基于深度學(xué)習(xí)的人臉識別模型[2]。該模型以深度學(xué)習(xí)算法為基礎(chǔ),將圖像特征顯示成圖結(jié)構(gòu),實(shí)現(xiàn)人臉識別。該網(wǎng)絡(luò)主要由多個結(jié)點(diǎn)和邊構(gòu)成,每個結(jié)點(diǎn)對應(yīng)一張圖,用來描述輸入圖像和輸出的對應(yīng)關(guān)系。節(jié)點(diǎn)間的關(guān)系是由節(jié)點(diǎn)間的邊連接起來的。VGNN技術(shù)的核心問題之一就是如何確定節(jié)點(diǎn)之間的連接關(guān)系。為此,本項(xiàng)目提出一種基于"長短期記憶網(wǎng)絡(luò)(Long"Short-Term"Memory,LSTM)的學(xué)習(xí)速率調(diào)控機(jī)制。該機(jī)制能夠根據(jù)節(jié)點(diǎn)間的相互關(guān)系等信息,自適應(yīng)地調(diào)整學(xué)習(xí)速率,從而提高模型的預(yù)測精度和推廣能力。在"VGNN中,采用了一種開放源代碼“PyTorch”來訓(xùn)練模型,該框架由輸入層、輸出層和優(yōu)化層3個部分組成。其中,輸入層負(fù)責(zé)將圖像輸入到圖像輸出層,由圖像輸出層完成特征提取與分類;圖表輸出層被用來以圖表結(jié)構(gòu)來表達(dá)特征;優(yōu)化器用來調(diào)節(jié)學(xué)習(xí)速率,提高模型精度。實(shí)驗(yàn)中,利用公共數(shù)據(jù)集"MNIST與CIFAR10對模型進(jìn)行訓(xùn)練與檢驗(yàn)。本文采用梯度下降法和交叉熵?fù)p函數(shù)對模型進(jìn)行了評價。在此基礎(chǔ)上,引入一種新的損失函數(shù)對模型進(jìn)行改進(jìn),使其具有更好的預(yù)測精度和推廣能力。實(shí)驗(yàn)證明,基于"PyTorch框架構(gòu)造的"VGNN模型在人臉識別方面具有較高的性能,能有效地提取圖像特征并精確分類。相對于其他深度學(xué)習(xí)算法,"VGNN在性能、泛化能力等方面都有較大的提高。
2.1實(shí)驗(yàn)設(shè)置
VGNN以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional""Neural"Networks,CNN)為基礎(chǔ),能夠?qū)θ四槇D像進(jìn)行檢測與分類。該模型使用了局部卷積和全局卷積兩大基本組件。利用局部卷積對圖像進(jìn)行細(xì)節(jié)提取,利用全局卷積學(xué)習(xí)圖像結(jié)構(gòu)特征。該算法的每一卷積由一個完全連通的層構(gòu)成,該層包含若干個分岔點(diǎn)和一個分岔點(diǎn)。本研究利用公開數(shù)據(jù)集,共400張人臉圖片,包括正、背、半側(cè)面3種人臉圖像。本項(xiàng)目以人臉數(shù)據(jù)為訓(xùn)練樣本,利用預(yù)訓(xùn)練好的模型對所提方法進(jìn)行驗(yàn)證。采用"FasterRCNN算法對預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,并采用微調(diào)策略對其進(jìn)行微調(diào)[3]。實(shí)驗(yàn)中,將測試集劃分為訓(xùn)練集和測試集,分別用來評價所提出的方法,并對所提方法進(jìn)行評價。在訓(xùn)練過程中,采用批量標(biāo)準(zhǔn)化、激活函數(shù)、損失函數(shù)、正則化等方法對模型參數(shù)進(jìn)行調(diào)整。批量標(biāo)準(zhǔn)化可解決過學(xué)習(xí)問題,激勵函數(shù)可選用多項(xiàng)式或"Gabor函數(shù),損失函數(shù)可選用梯度下降法或交叉熵?fù)p函數(shù)。正則化項(xiàng)可調(diào)節(jié)模型的正則系數(shù),以降低過擬合問題。本研究利用VGG16、VGG19、VGG15這3個模型對本項(xiàng)目提出的方法進(jìn)行了驗(yàn)證。在測試過程中,將測試結(jié)果和其他方法做了對比。實(shí)驗(yàn)結(jié)果表明,該算法對不同類型的人臉圖像都能進(jìn)行精確的識別。
2.2實(shí)驗(yàn)訓(xùn)練超參數(shù)設(shè)置
(1)數(shù)據(jù)集:本研究選取常用人臉圖像庫,包括"Yale"Fusion、"ImageNet等[4]。(2)圖像預(yù)處理:對圖像做一些預(yù)處理工作,如灰度化、降噪、歸一化等。在訓(xùn)練"VGNN模型時,采用梯度下降的方法,設(shè)定學(xué)習(xí)速率和梯度衰減系數(shù)。(3)模型體系結(jié)構(gòu):本文選用三層"VGNN體系結(jié)構(gòu),包含卷積層、池化層和全連通層。(4)超參數(shù)值設(shè)定:會使用一些超參量,如學(xué)習(xí)速率、正規(guī)化、批尺寸等來控制模型的效能。這里需特別指出的是學(xué)習(xí)速率這一超參數(shù)值的設(shè)定:當(dāng)學(xué)習(xí)率提高時,模型的準(zhǔn)確性會降低。因此,設(shè)定適當(dāng)?shù)膶W(xué)習(xí)率,以控制模型的準(zhǔn)確性。(5)規(guī)格化:規(guī)格化可借由增加規(guī)則項(xiàng)來降低模型過擬合風(fēng)險,但卻降低了模型的準(zhǔn)確性。批數(shù)是一個非常重要的參數(shù),它直接關(guān)系到模型在訓(xùn)練集與測試集中的性能。為了在精度與速度之間取得平衡,設(shè)定了適當(dāng)?shù)呐鷶?shù)。(6)訓(xùn)練策略:采用隨機(jī)梯度下降法對模型進(jìn)行訓(xùn)練,通過調(diào)節(jié)學(xué)習(xí)速率、梯度衰減系數(shù)等參數(shù),實(shí)現(xiàn)模型精度與速度的控制。(7)評價指標(biāo):使用一些評價標(biāo)準(zhǔn),如準(zhǔn)確率、召回率、F1得分來評價模型的表現(xiàn)。實(shí)驗(yàn)結(jié)果表明,該模型具有較好的識別效果,且具有較高的識別精度。
2.3損失函數(shù)
VGNN是一種以深度學(xué)習(xí)為基礎(chǔ)的人臉識別技術(shù),其核心是損失函數(shù)?;诖耍卷?xiàng)目提出了一種基于"VGNN的人臉特征提取方法。此損失函數(shù)使用名為“softmax損失”的新?lián)p失函數(shù)[5]。在此基礎(chǔ)上,結(jié)合特征與上下文信息,提出了一種改進(jìn)的人臉識別方法。在訓(xùn)練模型時,通過融合特征與上下文信息形成新的特征矢量,并以此矢量為輸入,實(shí)現(xiàn)人臉類別的預(yù)測。相較于傳統(tǒng)深度學(xué)習(xí)模型,"VGNN模型在特征表達(dá)能力、識別精度等方面有較大提高。另外,該模型具有很好的擴(kuò)展性,可以根據(jù)不同的人臉圖像及背景進(jìn)行自適應(yīng)調(diào)整。實(shí)驗(yàn)結(jié)果表明,該模型能夠有效地識別出不同性別、年齡、表情、姿態(tài)等特征的人臉。最后,提出了一種基于"VGNN的人臉識別算法。該算法采用了一種新的損失函數(shù),能有效地處理各種人臉圖像及背景。
2.4評價指標(biāo)
在視覺圖神經(jīng)網(wǎng)絡(luò)中,通常采用多種度量方法對模型進(jìn)行評價。其中,識別率和準(zhǔn)確性是最常用的度量。識別率是指模型對已有標(biāo)簽的人臉圖像進(jìn)行再識別的程度。正確率是指模型在無標(biāo)簽人臉圖像上的再認(rèn)程度,一般用F1得分來評價。另外,本文還給出了準(zhǔn)確度、召回率、F1得分等指標(biāo)。其中,正確率指有標(biāo)簽與無標(biāo)簽圖像的分類精度,一般用F1得分來評價;召回率是指模型對有標(biāo)簽與無標(biāo)簽圖像進(jìn)行檢測與修復(fù)的正確率,通常用F1得分來評價;F1得分反映了模型在有標(biāo)簽與無標(biāo)簽圖像之間的正確識別率,一般用F1得分來評價。在"VGGNN中,不同的度量指標(biāo)對人臉識別模型的評價結(jié)果也不一樣。例如:基于圖像特征的人臉識別模型可能更適用于識別率指數(shù),而基于序列數(shù)據(jù)的人臉識別模型則可能更加適用于精度指數(shù)?;趫D神經(jīng)網(wǎng)絡(luò)的人臉識別模型需要綜合考慮多個指標(biāo)才能對其進(jìn)行評價。在實(shí)際應(yīng)用中,可根據(jù)具體需要選取合適的評價指標(biāo)。
3"實(shí)驗(yàn)結(jié)果數(shù)據(jù)分析
首先,將了解"VGGNN的架構(gòu)。該網(wǎng)絡(luò)由人臉圖像、鄰接矩陣和圖像量3個部分構(gòu)成。人臉圖像由兩層卷積層和全連通層構(gòu)成,圖的矢量是隨機(jī)的種子節(jié)點(diǎn)。首先,用"ImageNet來訓(xùn)練模型;本研究以10"000張人臉圖像為訓(xùn)練樣本,其中正面圖片10"001張,背面圖片10"001張。在此基礎(chǔ)上,利用優(yōu)化器自適應(yīng)矩估計(jì)(Adaptive"Moment"Estimation,"Adam)訓(xùn)練模型,通過不斷調(diào)節(jié)學(xué)習(xí)速率,實(shí)現(xiàn)模型參數(shù)的自適應(yīng)調(diào)節(jié)。最后,用測試用例驗(yàn)證了模型的有效性。在訓(xùn)練階段,采用多種損失函數(shù)對模型進(jìn)行評價。其中,均方誤差(mean-square"error,"MSE)和平均絕對誤差(Mean"Absolute"Error,"MAE)是最常用的損失函數(shù)[6]。"MSE表征了模型對人臉圖像分類的正確率;MAE表征了模型識別人臉的準(zhǔn)確性。而最常見的損失函數(shù)為交叉熵?fù)p函數(shù)和余弦損耗函數(shù)。這些損失函數(shù)有助于對不同數(shù)據(jù)集下模型的性能進(jìn)行評估。最后,通過實(shí)驗(yàn)數(shù)據(jù)對"VGNN模型的數(shù)據(jù)進(jìn)行了分析。實(shí)驗(yàn)結(jié)果表明:"VGGNN模型對于各類人臉圖像具有良好的識別能力;VGGNN模型能夠準(zhǔn)確地識別前、后兩類人臉圖像。其次,"VGGNN模型具有更強(qiáng)的泛化能力,同時也更具穩(wěn)健性。經(jīng)過優(yōu)化,"VGGNN模型可適用于各種人臉圖像。
4"結(jié)語
綜上所述,本文主要研究了基于視覺圖神經(jīng)網(wǎng)絡(luò)的人臉識別方法。實(shí)驗(yàn)方面,將利用"Gabo、"Laplacian、GramSchmidt、"Butterworth等多種圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與算法,比較各種算法的性能,尋找最優(yōu)解。實(shí)驗(yàn)證明,本文提出的方法能較好地完成人臉識別任務(wù),并能對人臉進(jìn)行正確的識別。同時,項(xiàng)目的研究成果也可推廣到虹膜識別等其他生物特征識別領(lǐng)域。然而,由于視覺圖網(wǎng)絡(luò)本身的復(fù)雜性、算法的多樣性,以及不同算法間的差異性等問題,仍有待于進(jìn)一步的研究與改進(jìn)。
參考文獻(xiàn)[1] 魏永超,朱泓超,朱姿翰,等.視覺圖神經(jīng)網(wǎng)絡(luò)的人臉識別方法[J].現(xiàn)代計(jì)算""""機(jī),2024,30(3):18,17.
[2] 王晨海,彭嬋娟.基于機(jī)器視覺的局部遮擋人臉圖像識別仿真[J].計(jì)算機(jī)仿真,2023,40(11):170174.
[3] 季瑞瑞,謝宇輝,駱豐凱,等.改進(jìn)視覺Transformer的人臉識別方法[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(8):117126.
[4] 張凈.基于視覺的人臉屬性分析:表情識別與人臉幾何感知[D].杭州:浙江大學(xué),2022.
[5]韓笑,韓劍.基于融合分層視覺感知的人臉局部特征識別[J].計(jì)算機(jī)仿真,2022,39(7):184188.
[6] 羅巖,馮天波,邵潔.基于注意力及視覺Transformer的野外人臉表情識別[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(10):200207.