趙建洗,景海彬,程磊
(沈陽理工大學(xué)信息科學(xué)與工程學(xué)院,遼寧 沈陽 110170)
目前,由于人工智能和深度學(xué)習(xí)的飛速發(fā)展,對(duì)社會(huì)生活的各個(gè)方面都產(chǎn)生了重要的影響,其中計(jì)算機(jī)領(lǐng)域尤為顯著。比如在機(jī)器視覺領(lǐng)域,如圖像分類、目標(biāo)檢測、圖像分割等;在自然語言處理方面,如機(jī)器翻譯、語音識(shí)別、情感分析、文本分類等。本文重點(diǎn)研究的技術(shù)是動(dòng)作識(shí)別技術(shù),與之相比,動(dòng)作識(shí)別技術(shù)的研究及其應(yīng)用相對(duì)較少。其中一方面,由于動(dòng)作識(shí)別視頻數(shù)據(jù)源不穩(wěn)定,動(dòng)作類間差異較小或重疊;另一方面,連續(xù)動(dòng)作識(shí)別及長視頻識(shí)別動(dòng)作的起始和結(jié)束沒有明確的邊界等[1-2]。基于以上原因造成動(dòng)作識(shí)別技術(shù)難度較大,且準(zhǔn)確率難以保證。
迄今為止,動(dòng)作識(shí)別方法主要包括2 類,即基于傳統(tǒng)特征的方法和基于深度學(xué)習(xí)的方法。
傳統(tǒng)特征的動(dòng)作識(shí)別方法分為標(biāo)志點(diǎn)動(dòng)作識(shí)別技術(shù)和視頻分析處理動(dòng)作識(shí)別技術(shù)。標(biāo)志點(diǎn)動(dòng)作識(shí)別技術(shù)的原理是使用標(biāo)志點(diǎn)進(jìn)行識(shí)別,在人的不同關(guān)節(jié)放置很多的標(biāo)志點(diǎn),通過多個(gè)攝像機(jī)在不同的地理位置和攝像機(jī)到人體的位置關(guān)系拍攝人物的運(yùn)動(dòng),結(jié)合相關(guān)的數(shù)字模型來得到多個(gè)標(biāo)志點(diǎn)的位置關(guān)系,通過這種方式連續(xù)進(jìn)行識(shí)別,組成人物動(dòng)作,以此來達(dá)到動(dòng)作識(shí)別的相關(guān)目的;視頻分析處理動(dòng)作識(shí)別技術(shù)的原理是不依賴任何裝置及外部設(shè)備,直接對(duì)拍攝的圖片幀進(jìn)行分析,提取出特征,進(jìn)而得到人體的相關(guān)動(dòng)作[3]。
深度學(xué)習(xí)的動(dòng)作識(shí)別方法分為基于二維卷積神經(jīng)網(wǎng)絡(luò)技術(shù)和基于三維卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。
基于二維卷積神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展經(jīng)歷了2個(gè)階段,即雙流網(wǎng)絡(luò)基礎(chǔ)網(wǎng)絡(luò)階段和二維卷積神經(jīng)網(wǎng)絡(luò)階段。雙流網(wǎng)絡(luò)基礎(chǔ)網(wǎng)絡(luò)由空間流和時(shí)間流網(wǎng)絡(luò)組成,空間流網(wǎng)絡(luò)以單幀圖像作為輸入,作用是建模外觀特征;時(shí)間流網(wǎng)絡(luò)以光流圖像作為輸入,作用是建模運(yùn)動(dòng)特征。訓(xùn)練時(shí),空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)單獨(dú)地訓(xùn)練。二維卷積神經(jīng)網(wǎng)絡(luò)是被FEICHTENHOFER 等[4]提出的,采用卷積網(wǎng)絡(luò)融合雙流特征的方法,通過CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))學(xué)習(xí)空間線索和時(shí)間線索的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)了分類器級(jí)融合到特征級(jí)融合的轉(zhuǎn)變。CNN 網(wǎng)絡(luò)在圖像分類上的表現(xiàn)優(yōu)異,將它應(yīng)用于動(dòng)作識(shí)別,一定程度上推動(dòng)了動(dòng)作識(shí)別技術(shù)的發(fā)展。
基于三維卷積神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)輸入圖像在時(shí)間和空間維度上同時(shí)進(jìn)行卷積操作,這樣在獲取每一幀表觀特征的同時(shí),也能提取出相鄰幀隨時(shí)間推移而產(chǎn)生的關(guān)聯(lián)與變化,實(shí)現(xiàn)圖像序列中時(shí)空信息建模[5]。
由于技術(shù)的不斷推進(jìn)與發(fā)展,人體姿態(tài)估計(jì)技術(shù)橫空而出。人體姿態(tài)估計(jì)是指通過一張圖片能夠檢測出人體關(guān)節(jié)的關(guān)節(jié)點(diǎn),并按照人體的結(jié)構(gòu)將此相連接,從而得到一張人體關(guān)節(jié)姿態(tài)圖[6]。人體姿態(tài)估計(jì)可被廣泛地應(yīng)用在動(dòng)作識(shí)別[7-8]、人機(jī)交互[9]、智能跟蹤[10]等很多領(lǐng)域,已成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)之一。 在此基礎(chǔ)上進(jìn)行動(dòng)作識(shí)別技術(shù)的研究,既不需要外部設(shè)備,也不需要設(shè)置標(biāo)志點(diǎn)進(jìn)行復(fù)雜的操作。一方面,大大節(jié)省了時(shí)間成本;另一方面也使動(dòng)作識(shí)別技術(shù)變得相對(duì)簡單,為動(dòng)作識(shí)別技術(shù)的發(fā)展作出了重大貢獻(xiàn)。
近年來,由于深度學(xué)習(xí)的廣泛應(yīng)用,基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法陸續(xù)被提出,準(zhǔn)確率也越來越高。其中比較著名的有基于Google 的Mediapipe 框架下的人體姿態(tài)估計(jì)方法[11]、由卡內(nèi)基梅隆大學(xué)提出的基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督學(xué)習(xí)的OpenPose 人體姿態(tài)估計(jì)方法[12]、由上海交通大學(xué)提出的AlphaPose 人體姿態(tài)估計(jì)方法[13]、基于YOLO 框架的YOLO-Pose 人體姿態(tài)估計(jì)方法[14]。
經(jīng)過查閱資料,發(fā)現(xiàn)僅僅有較少的論文將人體姿態(tài)估計(jì)和動(dòng)作識(shí)別結(jié)合到一起,應(yīng)用于動(dòng)作識(shí)別。本文結(jié)合人體姿態(tài)估計(jì)得到了人體關(guān)節(jié)關(guān)鍵區(qū)域的姿態(tài)圖,使用連續(xù)25 張圖片動(dòng)作序列作為一個(gè)動(dòng)作輸入,使用改進(jìn)的圖片分類網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,將二維卷積神經(jīng)網(wǎng)絡(luò)改為三維卷積神經(jīng)網(wǎng)絡(luò),以適應(yīng)訓(xùn)練連續(xù)25張圖片動(dòng)作序列的目的[15]。
雖然通過人體姿態(tài)估計(jì)能夠得到人體關(guān)節(jié)姿態(tài)圖,但并不能很好地實(shí)現(xiàn)動(dòng)作識(shí)別的要求。僅僅通過一張圖片的關(guān)節(jié)姿態(tài)圖,可簡單地識(shí)別人物的動(dòng)作,如站、坐、躺、蹲等。但是對(duì)于一些復(fù)雜的動(dòng)作,單單通過一張圖片難以推測人物的真實(shí)動(dòng)作。本文的主旨是通過人體姿態(tài)估計(jì)連續(xù)提取25 張圖片的人體姿態(tài)圖作為一個(gè)動(dòng)作序列,之后結(jié)合三維卷積神經(jīng)網(wǎng)絡(luò),將大量的連續(xù)動(dòng)作序列作為網(wǎng)絡(luò)的輸入,最后訓(xùn)練出一個(gè)較好的三維卷積神經(jīng)網(wǎng)絡(luò)模型,通過訓(xùn)練三維卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行視頻動(dòng)作的識(shí)別。結(jié)果表明,三維卷積神經(jīng)網(wǎng)絡(luò)模型具有較好的動(dòng)作識(shí)別的辨別能力。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一[16-17]。
卷積神經(jīng)網(wǎng)絡(luò)的研究始于20 世紀(jì)80—90 年代,Lenet-5 是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)[18];不過剛開始時(shí),由于電腦運(yùn)算能力的低下及各種環(huán)境條件的限制,卷積神經(jīng)網(wǎng)絡(luò)并未得到過多的發(fā)展和重視。直到21 世紀(jì)后,隨著電腦性能的大幅度提升及卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的卓越能力,再加上深度學(xué)習(xí)的不斷完善,為卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和進(jìn)步提供了得天獨(dú)厚的條件。卷積神經(jīng)網(wǎng)絡(luò)不斷發(fā)展進(jìn)步,并被應(yīng)用到圖像分類、圖像識(shí)別、圖像分割等各個(gè)領(lǐng)域。
Lenet-5 網(wǎng)絡(luò)模型最早誕生于1994 年,是最早的卷積神經(jīng)網(wǎng)絡(luò)之一[18]。它的網(wǎng)絡(luò)結(jié)構(gòu)非常簡單,只包含了卷積層、池化層、全連接層,但包含了卷積神經(jīng)網(wǎng)絡(luò)的核心,是各種卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)發(fā)展的基石。事實(shí)證明,該神經(jīng)網(wǎng)絡(luò)在數(shù)字識(shí)別和字符識(shí)別領(lǐng)域獲得了卓越的成就。
Lenet-5 網(wǎng)絡(luò)模型結(jié)構(gòu)一共由7 層組成,即C1 卷積層、S2 池化層、C3 卷積層、S4 池化層、C5 全連接層、F6 全連接層和輸出層。該網(wǎng)絡(luò)結(jié)構(gòu)全部采用5×5的卷積核和2×2 的池化核,3 層全連接數(shù)量依次為120、84、10。網(wǎng)絡(luò)中padding 選擇valid 的方式,卷積計(jì)算后會(huì)縮小輸入圖片的形狀,池化會(huì)成倍縮小圖片的尺寸。事實(shí)證明,該網(wǎng)絡(luò)雖然簡單,但對(duì)手寫數(shù)字識(shí)別及字符識(shí)別這樣的數(shù)據(jù)無論是訓(xùn)練集、驗(yàn)證集還是測試集都有不錯(cuò)的擬合效果。Lenet-5 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。
圖1 Lenet-5 網(wǎng)絡(luò)模型結(jié)構(gòu)圖
Alexnet 網(wǎng)絡(luò)模型結(jié)構(gòu)在2012 年的ImageNet 競賽中脫穎而出后,卷積神經(jīng)網(wǎng)絡(luò)又引起了人們的廣泛關(guān)注[19]。它是以Lenet-5 模型結(jié)構(gòu)為基礎(chǔ)改進(jìn)的,一方面增加了網(wǎng)絡(luò)的深度,另一方面采用了不同的卷積核大小。實(shí)際說明,一定的網(wǎng)絡(luò)深度和不同的卷積核尺寸能夠在一定程度上提高神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率。
Alexnet 網(wǎng)絡(luò)模型結(jié)構(gòu)由5 個(gè)卷積層、3 個(gè)池化層和3 個(gè)全連接層組成。5 個(gè)卷積層分別使用11×11、5×5、3×3、3×3、3×3 的卷積核大小,卷積核的深度依次為48、128、192、192、128,padding 選擇same的方式,卷積計(jì)算后,保持原尺寸大小,不足的部分使用0 填充;3 個(gè)池化層使用的是2×2 池化核大小的最大池化,使輸入圖片變?yōu)樵瓉淼?/2;3 個(gè)全連接層數(shù)量依次為2 048、2 048、1 000。事實(shí)證明,該網(wǎng)絡(luò)結(jié)構(gòu)有效地提高了圖片分類的準(zhǔn)確率。Alexnet 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。
圖2 Alexnet 網(wǎng)絡(luò)模型結(jié)構(gòu)圖
Vggnet 網(wǎng)絡(luò)模型結(jié)構(gòu)于2014 年在ILSVRC 競賽中榮獲亞軍,各種卷積神經(jīng)網(wǎng)絡(luò)層出不窮,卷積神經(jīng)網(wǎng)絡(luò)迎來了發(fā)展高峰。Vggnet 網(wǎng)絡(luò)模型也是在Alexnet模型結(jié)構(gòu)基礎(chǔ)上進(jìn)行的改進(jìn),網(wǎng)絡(luò)的準(zhǔn)確度進(jìn)一步提高。雖然網(wǎng)絡(luò)深度增加,由于網(wǎng)絡(luò)結(jié)構(gòu)近似統(tǒng)一,不但看起來整潔易懂,而且準(zhǔn)確率也能達(dá)到不錯(cuò)的效果。
Vggnet16 由5 個(gè)卷積層、5 個(gè)池化層、3 個(gè)全連接層組成。卷積核大小全部為3×3,卷積核深度依次為64、128、256、512、512,卷積核數(shù)量依次為2、2、3、3、3,padding 選擇same 的方式,卷積計(jì)算后,保持原尺寸大??;5 個(gè)池化層的池化核采用2×2 大小的最大池化;3 個(gè)全連接層數(shù)量依次為4 096、4 096、1 000。Vggnet 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3 所示。
圖3 Vggnet 網(wǎng)絡(luò)模型結(jié)構(gòu)圖
Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò)最大的改進(jìn)就是使用三維卷積替代二維卷積,目的就是能夠使用圖片序列作為網(wǎng)絡(luò)模型的輸入,而不僅僅是一張圖片。相同的是該網(wǎng)絡(luò)模型由卷積層、池化層、卷積層、池化層和3個(gè)全連接層組成。
改進(jìn)的三維卷積神經(jīng)網(wǎng)絡(luò)模型輸入層的維度是25×128×72×1 的連續(xù)動(dòng)作序列;輸出層為訓(xùn)練模型的動(dòng)作類別,本文中為12 種不同動(dòng)作類別。2 個(gè)卷積層均使用3×3×3 的卷積核大小替代原網(wǎng)絡(luò)的5×5 的卷積核,步長為2。2 個(gè)池化層均采用1×2×2 的池化核大小,步長也為1×2×2。Lenet-5 三維網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4 所示。
圖4 Lenet-5 三維網(wǎng)絡(luò)模型結(jié)構(gòu)圖
Alexnet 三維卷積神經(jīng)網(wǎng)絡(luò)與上文相同,最大的改進(jìn)也是將二維卷積改為三維卷積,以達(dá)到使模型能夠訓(xùn)練動(dòng)作序列的要求。和上文相同的是輸入層和輸出層,不同的是卷積層和池化層。
改進(jìn)的Alexnet 三維卷積神經(jīng)網(wǎng)絡(luò)有5 個(gè)卷積層和2 個(gè)池化層。5 個(gè)卷積層卷積核大小依次為7×7×7、5×5×5、3×3×3、3×3×3、3×3×3,步長全部為2×2×2,卷積核深度和原始網(wǎng)絡(luò)保持一致,依次為48、128、192、192、128。池化層采用最大池化,池化核大小均使用2×2×2,步長也均為2×2×2。Alexnet三維網(wǎng)絡(luò)模型結(jié)構(gòu)如圖5 所示。
圖5 Alexnet 三維網(wǎng)絡(luò)模型結(jié)構(gòu)圖
Vggnet 三維卷積神經(jīng)網(wǎng)絡(luò)的處理方式也是將二維卷積改為三維卷積,以達(dá)到使模型能夠訓(xùn)練動(dòng)作序列的要求,并且使得模型能夠預(yù)測動(dòng)作序列。和上文保持了相同的輸入維度和輸出維度,與輸入層的圖片維度保持一致;不同的是中間層的處理,即卷積層和池化層。輸入層大小依舊是25×128×72×1,輸出層依舊為設(shè)定的動(dòng)作類別的數(shù)量。卷積核大小全部為3×3×3 的卷積核,池化核出最后一層外全部為2×2×2的最大池化。和原始網(wǎng)絡(luò)對(duì)比,5 個(gè)卷積層除了由二維卷積改為三維卷積外,卷積核數(shù)量、卷積核深度、卷積步長均有調(diào)整。5 個(gè)卷積層均包含2 次卷積,未改變5 個(gè)卷積層的第一次卷積,只調(diào)整了第二次卷積的參數(shù),將每個(gè)卷積層第二次卷積步長設(shè)定為2×2×2,第一次卷積步長不變;將第三、第四、第五這3 個(gè)卷積層的卷積次數(shù)由3 次改為2 次。由于電腦配置不足,將5 個(gè)卷積核的深度由64、128、256、512、512 調(diào)整為8、16、32、64、128。池化層除最后一個(gè)池化層使用1×1×1 的池化核外,其他均采用2×2×2 的池化核大小,步長也為2×2×2。為了更方便地觀察Vggent三維網(wǎng)絡(luò)模型結(jié)構(gòu),繪制了Vggent 三維網(wǎng)絡(luò)模型結(jié)構(gòu)圖,如圖6 所示。
圖6 Vggnet 三維網(wǎng)絡(luò)模型結(jié)構(gòu)圖
首先,圖片輸入是一組人物動(dòng)作的人體姿態(tài)估計(jì)的圖片序列。何為人體姿態(tài)估計(jì)呢?本文的人體姿態(tài)估計(jì)方法是利用已有深度學(xué)習(xí)方法在給定的一張包含人體的圖片之中,得到人體骨架的大致形狀輪廓。本文采用的是谷歌開源的Mediapipe 中的人體姿態(tài)估計(jì)方法,相比OpenPose 和AlphaPose,人體姿態(tài)估計(jì)的最大優(yōu)點(diǎn)是速度較快,能夠達(dá)到每秒提取30 張左右。將大量的動(dòng)作視頻拆分成連續(xù)的動(dòng)作序列,并將同種類別的視頻放到相同類別名稱的目錄之下,為訓(xùn)練三維卷積神經(jīng)網(wǎng)絡(luò)模型做準(zhǔn)備。
25 張人體姿態(tài)估計(jì)的連續(xù)序列圖片如圖7 所示,圖中展示了一個(gè)人跑步的25 張人體姿態(tài)估計(jì)的連續(xù)序列。
本節(jié)進(jìn)行模型訓(xùn)練前的準(zhǔn)備工作,包括三維卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)集、數(shù)據(jù)處理、參數(shù)設(shè)置等。首先,為了滿足實(shí)驗(yàn)的要求本文沒有使用官方數(shù)據(jù)集,收集了符合實(shí)驗(yàn)要求的大量數(shù)據(jù)。本文將大量的視頻數(shù)據(jù)通過人體姿態(tài)估計(jì)的方法,制成一個(gè)個(gè)連續(xù)的動(dòng)作序列作為訓(xùn)練的基礎(chǔ)數(shù)據(jù)。將數(shù)據(jù)集劃分為訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù),訓(xùn)練集數(shù)據(jù)包含37 000 多個(gè)動(dòng)作序列文件,測試集數(shù)據(jù)包含8 000 多個(gè)文件。將訓(xùn)練數(shù)據(jù)的85%作為訓(xùn)練集,15%作為驗(yàn)證集;測試數(shù)據(jù)全部作為測試集。初始學(xué)習(xí)率設(shè)置為0.000 01,訓(xùn)練次數(shù)為50 次。為了提高準(zhǔn)確率將訓(xùn)練的數(shù)據(jù)集和驗(yàn)證集重復(fù)32 次,這樣可以在訓(xùn)練次數(shù)較少的情況下提高準(zhǔn)確率;同樣也有缺點(diǎn),就是訓(xùn)練速度過慢。通過實(shí)驗(yàn)證明,不重復(fù)數(shù)據(jù)集時(shí),訓(xùn)練次數(shù)調(diào)整為30 倍,訓(xùn)練的模型不能達(dá)到很好的效果,會(huì)造成局部過擬合。
經(jīng)過實(shí)驗(yàn)分析,3 種不同的三維卷積神經(jīng)網(wǎng)絡(luò)模型都能夠達(dá)到對(duì)應(yīng)的動(dòng)作識(shí)別的預(yù)測效果。Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò)由于網(wǎng)絡(luò)簡單、計(jì)算量較小,因而訓(xùn)練速度較快,經(jīng)過驗(yàn)證該模型預(yù)測效果還可以;Alexnet三維卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相對(duì)復(fù)雜,訓(xùn)練速度慢3~4倍,經(jīng)過多次嘗試準(zhǔn)確率卻并沒有提升,且網(wǎng)絡(luò)訓(xùn)練效果不穩(wěn)定;Vggnet 三維卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)最為復(fù)雜,計(jì)算量更大,所用時(shí)間更長,模型預(yù)測效果經(jīng)驗(yàn)證是最好的。實(shí)驗(yàn)時(shí)的筆記本電腦顯卡配置較低,能夠較短時(shí)間內(nèi)訓(xùn)練出較好的Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò);另外2 種卷積神經(jīng)網(wǎng)絡(luò)因電腦配置較低,訓(xùn)練模型需要幾天。電腦配置不足的情況下,建議使用Lenet-5三維卷積神經(jīng)網(wǎng)絡(luò);電腦配置較高時(shí),可以考慮使用更復(fù)雜的三維卷積神經(jīng)網(wǎng)絡(luò)模型。
經(jīng)過多次實(shí)驗(yàn),Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練準(zhǔn)確率為96%左右,驗(yàn)證準(zhǔn)確率為80%,測試準(zhǔn)確率為40%~50%;Alexnet 三維卷積神經(jīng)網(wǎng)絡(luò)模型效果不穩(wěn)定,不能夠進(jìn)行有效使用;Vggnet 三維卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率相比Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò)稍有提升,但提升不大。本實(shí)驗(yàn)的數(shù)據(jù)量不多,動(dòng)作相似性較低,每個(gè)動(dòng)作只采用了5~10 個(gè)視頻,測試集數(shù)據(jù)是一個(gè)全新的動(dòng)作序列,和訓(xùn)練集數(shù)據(jù)關(guān)聯(lián)性不強(qiáng)。
為了更直觀地顯示改進(jìn)的三維卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別模型的效果,經(jīng)過多次實(shí)驗(yàn)通過相關(guān)代碼繪制出了以下準(zhǔn)確率曲線變化圖、損失函數(shù)變化曲線圖及混淆矩陣圖、ROC 曲線圖,如圖8 和圖9 所示,通過這些圖像使本文的實(shí)驗(yàn)結(jié)果更加直觀。
圖8 訓(xùn)練集及驗(yàn)證集準(zhǔn)確率和損失函數(shù)變化曲線圖
圖9 混淆矩陣和ROC 曲線圖
混淆矩陣和ROC 曲線都是圖像分類的一個(gè)重要評(píng)價(jià)指標(biāo)。從以上結(jié)果可知,模型實(shí)驗(yàn)結(jié)果對(duì)大部分的動(dòng)作類別分類效果是比較不錯(cuò)的,但是也有一小部分的分類結(jié)果不能達(dá)到預(yù)期效果。通過擴(kuò)大數(shù)據(jù)集或進(jìn)一步改進(jìn)網(wǎng)絡(luò)有望達(dá)到更好的結(jié)果,若要達(dá)到更高的準(zhǔn)確率還需要進(jìn)一步進(jìn)行實(shí)驗(yàn)與深入研究。