基于HOG特征協(xié)方差矩陣的動(dòng)作識別算法

2020-08-04 12:27:53金鋒張德王亞慧

現(xiàn)代電子技術(shù) 2020年3期

金鋒張德王亞慧

摘? 要：為了提高HOG在動(dòng)作識別應(yīng)用中的識別率，提出一種基于HOG特征協(xié)方差矩陣的動(dòng)作識別算法。算法以HOG特征為樣本計(jì)算協(xié)方差矩陣，再通過矩陣對數(shù)運(yùn)算，將協(xié)方差矩陣從黎曼流形映射到線性空間;然后從協(xié)方差矩陣中提取描述子，基于不同的核函數(shù)使用支持向量機(jī)進(jìn)行分類。在公開的三個(gè)數(shù)據(jù)庫Weizmann，KTH和UCF Sports上分別進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明，文中提出的算法具有很好的識別性能。

關(guān)鍵詞：動(dòng)作識別; 計(jì)算機(jī)視覺; 圖像處理; 模式識別; HOG特征; 協(xié)方差矩陣

中圖分類號： TN911.73?34; TP391.4? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼： A? ? ? ? ? ? ? ? ?文章編號： 1004?373X（2020）03?0078?04

Action recognition algorithm based on covariance matrix of HOG feature

JIN Feng， ZHANG De， WANG Yahui

（School of Electrical and Information Engineering， Beijing University of Civil Engineering and Architecture， Beijing 100044， China）

Abstract： An action recognition algorithm based on covariance matrix of HOG （histogram of oriented gradient） feature is proposed to improve the recognition rate of HOG in action recognition applications. In the algorithm， HOG features are taken as samples to calculate the covariance matrix， and then the covariance matrix is mapped from the Riemannian manifold to the linear space by matrix logarithm operation. Then the descriptors are extracted in the covariance matrix and classified by support vector machine according to different kernel functions. Some experiments are conducted on the three public databases Weizmann， KTH and UCF Sports respectively， and the results show that the proposed algorithm has good recognition performance.

Keywords： action recognition; computer vision; image processing; pattern recognition; HOG feature; covariance matrix

0? 引? 言

視頻圖像已成為人們獲取視覺信息的主要手段，特別是視頻流和計(jì)算機(jī)處理相結(jié)合，人們稱之為計(jì)算機(jī)視覺。人類獲取客觀世界信息的80%都來自于視覺，由此可見，人類視覺系統(tǒng)對人類獲取信息而言非常重要[1]。目前，人體運(yùn)動(dòng)分析是計(jì)算機(jī)視覺領(lǐng)域中最活躍的研究主題之一，其核心是利用計(jì)算機(jī)視覺技術(shù)從圖像序列中檢測、跟蹤和識別人并對其行為進(jìn)行理解與描述?；谟?jì)算機(jī)視覺的人體動(dòng)作識別在智能監(jiān)控、智能家用電器、人機(jī)接口、基于內(nèi)容的視頻檢索等領(lǐng)域有著廣闊的應(yīng)用前景和極大的經(jīng)濟(jì)價(jià)值和社會價(jià)值[2]。

人體動(dòng)作識別算法主要涉及動(dòng)作表示和動(dòng)作分類兩個(gè)步驟。目前，根據(jù)人體動(dòng)作將已有動(dòng)作識別的方法大體分為三類：

1）基于時(shí)序或者狀態(tài)模型的動(dòng)作識別方法[3]。該類方法通過對視頻中運(yùn)動(dòng)人體檢測、分割與跟蹤，提取人體輪廓特征并建立動(dòng)作的時(shí)序或狀態(tài)模型，然后比較輸入視頻中相應(yīng)特征與模型的相似性以達(dá)到動(dòng)作識別的目的[4]。該類方法計(jì)算簡單、方便快捷，但是該方法的缺點(diǎn)是識別結(jié)果容易受視角變換和部分遮擋的影響。

2）基于上下文及語境分析的動(dòng)作識別方法。該方法將人體運(yùn)動(dòng)信息與全局中的場景或者物體編碼為一個(gè)整體進(jìn)行動(dòng)作識別。此類方法識別效果較好，但是計(jì)算量大，只適合用于特定的場景[5]。

3）基于局部時(shí)空特征點(diǎn)的動(dòng)作識別方法。該類方法將視頻序列看成是時(shí)間域或者空間域上的三維時(shí)空卷，然后在三維時(shí)空卷上探測局部時(shí)空特征點(diǎn)并通過計(jì)算其特征進(jìn)行動(dòng)作識別[6]。此類方法計(jì)算復(fù)雜度低且對噪聲和部分遮擋不敏感，具有一定的魯棒性，但是要求特征點(diǎn)足夠稠密，以便能夠保證涵蓋運(yùn)動(dòng)目標(biāo)的全部信息。近年來基于深度學(xué)習(xí)的方法也受到廣大學(xué)者的關(guān)注與研究[7?8]。

為了提高所提取特征向量的表征性，提高動(dòng)作識別精度，本文提出一種基于HOG（Histogram of Oriented Gradient）特征協(xié)方差矩陣的動(dòng)作識別算法。算法以HOG特征為樣本計(jì)算協(xié)方差矩陣，再通過矩陣對數(shù)運(yùn)算，將協(xié)方差矩陣從黎曼流形映射到線性空間，然后運(yùn)用相關(guān)數(shù)學(xué)工具從協(xié)方差矩陣中提取描述子。

1? 動(dòng)作特征向量構(gòu)建

本文詳細(xì)講解了HOG特征提取方法，并詳細(xì)介紹了如何從HOG特征組成的矩陣計(jì)算協(xié)方差矩陣，并將其投影到向量空間，最終獲得特征向量。

1.1? HOG特征

HOG與其他時(shí)空特征不同的是，它描述的出發(fā)點(diǎn)是基于局部細(xì)胞單元的，而不是圖像整體。這樣就要求在計(jì)算特征向量的開始階段需要先將圖像劃分為一個(gè)個(gè)大小相同的細(xì)胞單元，然后通過計(jì)算細(xì)胞單元中每個(gè)像素點(diǎn)的梯度方向，并通過計(jì)算結(jié)果統(tǒng)計(jì)該細(xì)胞單元對應(yīng)的梯度方向直方圖。后來，為了提高特征描述子的性能，將塊的概念加入到HOG特征的計(jì)算中，即圖像中相鄰的若干個(gè)細(xì)胞單元組成小塊，塊之間允許出現(xiàn)相同的細(xì)胞單元。將塊的特征計(jì)算完成后，歸一化此特征的計(jì)算結(jié)果，使得HOG特征對圖像中的亮度變化和陰影等不敏感。以下是HOG特征的提取流程：

1）灰度化，把原圖片序列變?yōu)榛叶葓D片。

2）采用Gamma校正（歸一化）。

3）計(jì)算每個(gè)像素的梯度（包括大小和方向）：主要是為了捕獲輪廓信息，同時(shí)進(jìn)一步弱化光照的干擾。

4）將圖像劃分成cell，本文采用8×8的cell，并且cell間不重疊。

5）統(tǒng)計(jì)每個(gè)cell的梯度直方圖（不同梯度的個(gè)數(shù)）。每個(gè)cell分成9個(gè)bin，代表9個(gè)不同的方向，也就是每[360°9=]40°分到一個(gè)方向，每個(gè)方向直方圖大小按像素梯度幅值加權(quán)，最后歸一化直方圖，即可形成每個(gè)cell的描述子。

6）將每2×2個(gè)cell組成一個(gè)block，塊之間可以重疊，一個(gè)塊內(nèi)所有的cell的特征描述符串聯(lián)起來得到該塊的HOG特征描述符。

7）將圖片內(nèi)所有的block的HOG特征描述符串聯(lián)起來就可以得到該圖片的HOG特征描述符，接下來就可用于計(jì)算協(xié)方差矩陣。

以彎腰動(dòng)作中一幅圖片為例，HOG特征計(jì)算流程圖如圖1所示。

1.2? 基于協(xié)方差矩陣的特征向量構(gòu)建

通過矩陣對數(shù)運(yùn)算能夠?qū)f(xié)方差矩陣從黎曼流形映射到線性空間，以便于利用線性空間中的運(yùn)算子。然后運(yùn)用數(shù)學(xué)工具從協(xié)方差矩陣中提取描述子，再將描述子編碼，就可以使用支持向量機(jī)進(jìn)行分類。特征向量提取具體方法如下：

1）將每一幀圖像的HOG特征按照時(shí)間順序并列在一起，構(gòu)成一個(gè)較大的樣本矩陣，再計(jì)算該樣本矩陣的協(xié)方差矩陣。

2）利用矩陣對數(shù)運(yùn)算，將其投影到向量空間中。在向量空間中，協(xié)方差矩陣變成了對稱矩陣，一般不再是正定的。對稱矩陣所構(gòu)成的空間實(shí)際上并不是一個(gè)常見的線性空間，而是一個(gè)光滑的黎曼流形，因?yàn)槊總€(gè)對稱正定矩陣都是一個(gè)具有黎曼度量的張量。得到協(xié)方差矩陣后，接下來利用矩陣對數(shù)運(yùn)算計(jì)算這些協(xié)方差矩陣的對數(shù)，如式（4）所示，先對協(xié)方差矩陣進(jìn)行奇異值分解，得到它的兩個(gè)酉陣[p1，p2]，以及其奇異值組成的對角矩陣[λ]。[log Cov]是對稱陣，但是一般不再是正定的。由此，相當(dāng)于把正定矩陣[Cov]所在的空間投影到了向量空間，成了對稱矩陣[log Cov]。

3）將該對稱矩陣的上三角按列優(yōu)先的順序，拉成一列向量，這個(gè)向量便是表征視頻段的全局特征?？紤]到對稱矩陣大約一半的數(shù)據(jù)是重復(fù)的，在將其拉成一列向量時(shí)，只針對它的上三角區(qū)域。

特征向量構(gòu)建流程圖如圖2所示。

最后將得出的向量分別用卡方核函數(shù)的支持向量機(jī)和交叉核函數(shù)的支持向量機(jī)進(jìn)行訓(xùn)練分類。

2? 支持向量機(jī)

為了準(zhǔn)確地完成動(dòng)作識別，需要對所選擇的特征進(jìn)行分類學(xué)習(xí)，本文選擇支持向量機(jī)作為分類器。支持向量機(jī)是一種基于間距最大化的判別算法，把最大優(yōu)化問題等價(jià)轉(zhuǎn)化為凸二次規(guī)劃求解問題。當(dāng)訓(xùn)練數(shù)據(jù)集線性可分時(shí)，可以計(jì)算出一個(gè)距離最大的決策面將數(shù)據(jù)分開。支持向量機(jī)的最優(yōu)化目標(biāo)是決策面位于兩類之間，并且到兩類邊界的距離相等且最大。由于從視頻中提取出來的特征描述子長度太大，數(shù)據(jù)集通常不是線性的，也就無法利用線性支持向量機(jī)作為訓(xùn)練模型得到超平面。為了解決這個(gè)問題，就需要把低維中不能線性可分的數(shù)據(jù)，通過一定的映射方式，將其投影到高維空間，使之變得線性可分。而映射的方式則是通過核函數(shù)解決，本文采用的核函數(shù)為直方圖交叉核函數(shù)和卡方核函數(shù)。原因是因?yàn)橹狈綀D交叉核函數(shù)更適用于直方圖特征，全局特征也適用于卡方核函數(shù)。

3? 實(shí)驗(yàn)結(jié)果及分析

3.1? 數(shù)據(jù)庫與實(shí)驗(yàn)過程

為了驗(yàn)證所提算法的性能，本文采用動(dòng)作識別領(lǐng)域公開的三個(gè)數(shù)據(jù)庫Weizmann，KTH和UCF Sports進(jìn)行實(shí)驗(yàn)分析。Weizmann數(shù)據(jù)庫中包含10個(gè)動(dòng)作，每個(gè)動(dòng)作中含有9個(gè)或者10個(gè)視頻樣本，如圖3所示。第一排從左往右依次為wave2（雙臂揮手）、bend（彎腰）、jack（跳躍）、run（跑步）和walk（走路）;第二排為wave1（單臂揮手）、jump（向前跳躍）、pjump（向上跳躍）、side（側(cè)身跑步）和skip（單腳跑）。

KTH數(shù)據(jù)庫中包含6種動(dòng)作，每種動(dòng)作中含有100個(gè)視頻樣本，如圖4所示。第一排從左往右依次為boxing（出拳）、handclapping（拍手）、handwaving（揮手）;第二排依次為jogging（慢跑）、running（快跑）和walking（走路）。

UCF Sports Dataset數(shù)據(jù)庫中包含13種動(dòng)作，每個(gè)視頻樣本的數(shù)量從5～25個(gè)不等，如圖5所示。第一排從左往右依次為diving（跳水）、Golf?swinging（揮桿）、kicking（踢球）、lifting（舉重）和riding?horse（騎馬）;第二排從左往右為running（跑步）、skateboarding（滑板）、pommel horse（鞍馬）、horizontal bar（單杠）和walking（走路）。

依據(jù)上述數(shù)據(jù)庫，在實(shí)驗(yàn)過程中，首先將視頻分解為幀圖片，經(jīng)過圖片大小歸一化后計(jì)算HOG特征。這樣，每一幀圖片就對應(yīng)一個(gè)列向量，將同一類動(dòng)作的HOG特征放在一起，并進(jìn)行PCA（Principal Component Analysis）降維。然后計(jì)算其協(xié)方差矩陣，再對協(xié)方差矩陣進(jìn)行對數(shù)運(yùn)算。這樣就得到了特征向量和訓(xùn)練樣本。本文采用直方圖交叉核函數(shù)和卡方核函數(shù)的支持向量機(jī)作為分類器。在實(shí)驗(yàn)中，對于同一類動(dòng)作，隨機(jī)選取70%的視頻數(shù)據(jù)作為訓(xùn)練樣本，30%的視頻數(shù)據(jù)作為測試樣本。

3.2? 動(dòng)作識別結(jié)果比較與分析

通過使用訓(xùn)練樣本對支持向量機(jī)進(jìn)行訓(xùn)練，考慮運(yùn)用兩種核函數(shù)：直方圖交叉核函數(shù)和卡方核函數(shù)，以下是本文算法在三個(gè)數(shù)據(jù)庫上的識別率及分析。

對Weizmann數(shù)據(jù)庫中的90個(gè)視頻進(jìn)行實(shí)驗(yàn)所得的識別率如表1所示。從視頻內(nèi)容來看，Weizmann數(shù)據(jù)庫的運(yùn)動(dòng)背景單一，同一背景并且攝像頭固定。這都有利于有效地提取特征向量。從識別率來看，彎腰和向前跳的識別率較高，從視頻內(nèi)容來看，兩類動(dòng)作的差異比較大，即類內(nèi)差異大，利于支持向量機(jī)進(jìn)行分類。而跳躍與向上跳之間則比較容易出現(xiàn)混淆的部分，也就使得得出的識別率相對較低。

由表2可知，出拳、拍手與揮手，這兩大類動(dòng)作不難被區(qū)分，動(dòng)作分類的錯(cuò)誤率主要集中在慢跑與快跑之間，這兩種動(dòng)作具有一定的相似性，人體的軀干一直在移動(dòng)，四肢也在做周期的擺動(dòng)，并且它們的運(yùn)動(dòng)方向和擺動(dòng)幅度變化都不大，進(jìn)而提取出的HOG特征也具有很高的相似度。相對而言，支持向量機(jī)容易做出錯(cuò)誤的判斷，尤其是這兩類動(dòng)作的運(yùn)動(dòng)人體面對或背對鏡頭時(shí)所提取出的特征向量，因此這兩類動(dòng)作的識別率比其他動(dòng)作略低。

UCF Sports數(shù)據(jù)庫中一共有196段視頻，每一段視頻中只包含一個(gè)動(dòng)作，每一種動(dòng)作類別中包含的視頻數(shù)目不等。雖然該數(shù)據(jù)庫的視頻有較高的分辨率，圖像幾乎沒有噪聲，但拍攝角度及運(yùn)動(dòng)人體的尺度變化大，各類動(dòng)作執(zhí)行速率差異顯著。并且UCF Sports數(shù)據(jù)庫的場景十分復(fù)雜，攝像頭也不固定。由表3可看出，UCF Sports數(shù)據(jù)庫下的識別率要比其他兩個(gè)數(shù)據(jù)庫低。該數(shù)據(jù)庫的失誤率主要集中在滑板、騎馬和跑步三類動(dòng)作上，類內(nèi)之間的執(zhí)行速率差異過大，加上他們的背景變化快，同時(shí)在計(jì)算協(xié)方差矩陣時(shí)，樣本均值包含的信息減少。但是近幾年來提取的算法與本文算法在UCF Sports數(shù)據(jù)庫上的識別率相比，后者仍處于偏上的水平。

本文通過實(shí)驗(yàn)在三個(gè)數(shù)據(jù)庫上分別實(shí)現(xiàn)了基于HOG特征協(xié)方差矩陣的動(dòng)作識別算法，并分別同現(xiàn)有水平的其他動(dòng)作識別方法進(jìn)行比較，比較結(jié)果見表4。通過實(shí)驗(yàn)證實(shí)，本文所提出的動(dòng)作識別方法對視頻中的人體動(dòng)作有較好的分類效果，在一定水平上優(yōu)于其他動(dòng)作識別算法。

4? 結(jié)? 論

基于視頻的人體動(dòng)作識別是計(jì)算機(jī)視覺研究中一個(gè)非常具有挑戰(zhàn)性的研究領(lǐng)域，具有廣闊的應(yīng)用前景和研究價(jià)值。本文提出一種新的特征描述子，即基于HOG特征的協(xié)方差矩陣，該方法不僅涵蓋了人體的輪廓信息，還充分發(fā)揮了協(xié)方差矩陣數(shù)據(jù)表征的優(yōu)點(diǎn)。除此之外，本文還采用了兩種和函數(shù)的支持向量機(jī)進(jìn)行識別，最后進(jìn)行對比發(fā)現(xiàn)，直方圖交叉核函數(shù)更利于本文的動(dòng)作識別。通過實(shí)驗(yàn)證明，本文算法在Weizmann，KTH和UCF Sports三個(gè)數(shù)據(jù)庫上面取得了不錯(cuò)的識別率。

參考文獻(xiàn)

[1] 胡瓊，秦磊，黃慶明.基于視覺的人體動(dòng)作識別綜述[J].計(jì)算機(jī)學(xué)報(bào)，2013，36（12）：2512?2524.

[2] 李瑞峰，王亮亮，王珂.人體動(dòng)作行為識別研究綜述[J].模式識別與人工智能，2014，27（1）：35?48.

[3] 周風(fēng)余，尹建芹，楊陽，等.基于時(shí)序深度置信網(wǎng)絡(luò)的在線人體動(dòng)作識別[J].自動(dòng)化學(xué)報(bào)，2016，42（7）：1030?1039.

[4] ALFARO A， MERY D， SOTO A. Action recognition in video using sparse coding and relative features [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas， Nevada： IEEE， 2016： 2688?2697.

[5] WANG H， SCHMID C. Action recognition with improved trajectories [C]// 2013 IEEE International Conference on Computer Vision. [S.l.]： IEEE， 2013： 3551?3558.

[6] 宋健明，張樺，高贊，等.基于深度稠密時(shí)空興趣點(diǎn)的人體動(dòng)作描述算法[J].模式識別與人工智能，2015，28（10）：939?945.

[7] 吳軍，肖克聰.基于深度卷積神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識別[J].華中科技大學(xué)學(xué)報(bào)（自然科學(xué)版），2016，44（z1）：190?194.

[8] FEICHTENHOFER C， PINZ A， ZISSERMAN A. Convolutional two?stream network fusion for video action recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas， Nevada： IEEE， 2016： 1933?1941.

[9] JUNEJO I N， AGHBARI Z A. Using SAX representation for human action recognition [J]. Journal of visual communication and image representation， 2012， 23（6）： 853?861.

[10] LIU J， KUIPERS B， SAVARESE S. Recognizing human actions by attributes [C]// 2011 IEEE Conference on Computer Vision and Pattern Recognition. Colorado Springs， Columbia： IEEE， 2011： 3337?3344.

[11] WU X， XU D， DUAN L. Action recognition using context and appearance distribution features [C]// 2011 IEEE Conference on Computer Vision and Pattern Recognition. Providence， Rhode Island： IEEE， 2011： 489?496.