馮心欣 李文龍 何 兆 鄭海峰
(福州大學(xué)物理與信息工程學(xué)院 福建省媒體信息智能處理與無線傳輸重點實驗室 福州 350108)
在人機交互的發(fā)展過程當中,人體姿勢識別是其中關(guān)鍵技術(shù)之一[1]。人體姿勢識別技術(shù)在智能家居、運動分析、游戲娛樂等各類范疇均有運用[2]。
基于視覺的姿勢識別技術(shù)發(fā)展成熟[3–6],但是圖像質(zhì)量易受環(huán)境光照干擾,且目標在被障礙物或者其他對象所遮擋等不利條件下識別率相對較低。更重要的是,基于視覺的人體姿勢識別需要采集用戶的圖像信息,存在暴露用戶信息、泄露用戶隱私等安全隱患?;跓o線感知技術(shù)的姿勢識別方法是指通過電波、磁聲波等普適無線信號對人和環(huán)境進行非接觸式感知的技術(shù),是目前應(yīng)用前沿的一種人體姿勢識別技術(shù)[7]。由于無線信號的特性,該方法可以有效克服圖像的光照、障礙物干擾等因素的影響。而調(diào)頻連續(xù)波技術(shù)因其測距范圍廣、測量準確率高等特點而受到廣泛的關(guān)注[8]。文獻[9]介紹了調(diào)頻連續(xù)波(Frequency Modulated Continuous Wave, FMCW)雷達目標角度、速度和距離估計的原理與方法。文獻[10]通過對FMCW雷達信息進行時頻分析得到手勢目標的距離、多普勒及角度多維參數(shù),使用卷積神經(jīng)網(wǎng)絡(luò)及特征串聯(lián)融合方法進行手勢識別。文獻[11]通過將毫米波雷達的2維數(shù)據(jù)時間-范圍、時間-多普勒和距離-多普勒特征聯(lián)合拓展為3維數(shù)據(jù)模型然后進行人體運動的識別。文獻[12]提出利用圖像訓(xùn)練一個教師網(wǎng)絡(luò)來指導(dǎo)FMCW信號生成人體關(guān)節(jié)點熱圖以進行人體姿勢的識別。文獻[13]提出了利用射頻信號進行3D人體姿勢估計的方法,該方法利用了射頻信號對人體的各個部位進行跟蹤和定位,再結(jié)合神經(jīng)網(wǎng)絡(luò)的方法來進行人體姿勢識別。多模態(tài)研究是人工智能的一個新興領(lǐng)域,多模態(tài)數(shù)據(jù)融合是該領(lǐng)域的主要研究問題之一。多模態(tài)數(shù)據(jù)融合是將多個單模態(tài)表示整合為一個緊湊的多模態(tài)表示的過程[14]。文獻[15]使用級聯(lián)特征作為輸入,并組合特征聯(lián)合模型,從而消除了模態(tài)中存在的時間依賴性,實現(xiàn)多模態(tài)情感分析任務(wù)。文獻[16]為每個單模態(tài)特征建立單獨的模型,然后使用多數(shù)投票或加權(quán)平均等方法將輸出整合在一起進行最終的決策。為了充分考慮每個模態(tài)內(nèi)部的信息和跨模態(tài)之間的相互作用關(guān)系,文獻[17]利用張量的表示方式,基于張量外積對多模態(tài)特征進行融合,充分利用多模態(tài)特征之間的相關(guān)性。文獻[18]在文獻[17]的基礎(chǔ)上,引入張量分解的概念,進一步提出了低秩多模態(tài)融合網(wǎng)絡(luò),以減少網(wǎng)絡(luò)大量參數(shù)。文獻[19]結(jié)合對抗網(wǎng)絡(luò)概念提出域?qū)股窠?jīng)網(wǎng)絡(luò)(Domain-Adversarial Neural Network, DANN),通過讓網(wǎng)絡(luò)學(xué)習(xí)到的特征具有域不變性,達到域自適應(yīng)的效果,讓網(wǎng)絡(luò)適應(yīng)不同環(huán)境下的數(shù)據(jù)。
然而,現(xiàn)有的基于FMCW雷達信號對人體姿勢的感知方法存在以下問題。第一,對多維信息的利用不夠充分,只是進行了簡單的拼接融合或者維度拓展;第二,由于實際應(yīng)用中,背景環(huán)境是復(fù)雜多變的,但這些方法并未考慮到實際環(huán)境的多樣復(fù)雜性對系統(tǒng)性能的影響。針對以上工作和問題,本文提出一種基于多維信息融合的FMCW雷達人體姿勢識別方法,本方法使用3維快速傅里葉變換、具有噪聲的基于密度的聚類算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)及Hampel濾波算法對FMCW雷達信號進行分析得到有效的多維信息,然后通過低秩多模態(tài)融合網(wǎng)絡(luò)對多維信息進行融合,并結(jié)合對抗網(wǎng)絡(luò)的概念使用域鑒別器進一步獲得與環(huán)境無關(guān)的特征,最終通過分類器獲得分類結(jié)果。本文方法由于對融合網(wǎng)絡(luò)和域鑒別器的設(shè)計,在保證識別精度的同時,實現(xiàn)了對環(huán)境的強魯棒性。
本文提出基于多維信息特征融合的FMCW雷達人體姿勢識別系統(tǒng),主要包括FMCW雷達數(shù)據(jù)處理、數(shù)據(jù)集構(gòu)建及深度學(xué)習(xí)模型設(shè)計部分。首先,根據(jù)FMCW雷達原理對原始數(shù)據(jù)進行快速傅里葉變換得到距離、速度及角度參數(shù)。其次,利用DBSCAN聚類、Hampel濾波以及線性插值的方法獲取最終的數(shù)據(jù)集。最后,搭建深度學(xué)習(xí)模型框架進行姿勢識別。
FMCW雷達是一種調(diào)頻連續(xù)波雷達,它傳輸一種頻率隨時間遞增的信號。FMCW信號經(jīng)過目標反射回來后與發(fā)射的信號進行混合,得到的信號稱為中頻信號。FMCW雷達在某個時間點采集到的回波信號,經(jīng)過數(shù)字信號采樣后變成數(shù)字信號。采樣后的數(shù)據(jù)形狀是一個2維矩陣,分別為快時間維度和慢時間維度,采樣的數(shù)據(jù)點對應(yīng)快時間維度,慢時間維度對應(yīng)時間。對于多接收天線雷達,采樣后的數(shù)據(jù)可以排列成一個3維矩陣,即采樣點數(shù)、調(diào)頻脈沖數(shù)以及接收天線數(shù)。
在快時間維度對數(shù)據(jù)進行快速傅里葉變換(Fast Fourier Transform, FFT),并且為了防止頻譜泄漏,需要對每一列數(shù)據(jù)添加海明窗,得到距離-FFT圖。然后在慢時間維度上每一行做采樣點數(shù)的快速傅里葉變換,得到距離-多普勒圖。將距離-多普勒圖中位于不同接收天線但索引相同的值取出并進行補零,然后進行180點的快速傅里葉變換處理,得到角度-FFT圖,從而構(gòu)建成3維的距離-多普勒-角度圖,其中3個維度分別對應(yīng)距離、速度及角度。
3維快速傅里葉變換將數(shù)據(jù)從時域變換到頻域,然后通過峰值搜索檢測出峰值位置(x,y,z),其中x對應(yīng)距離維,y對應(yīng)速度維,z對應(yīng)角度維。當物體運動時,回波信號和發(fā)射信號之間有時延τ,而回波時延可以通過差拍頻率fb得到,這是因為差拍頻率與回波時延呈線性關(guān)系。但由于物體的運動,差拍頻率包含了多普勒頻移,測距時需要減去多普勒頻移fd,差拍頻率為
其中,fs是采樣頻率,NRFFT是距離維度的FFT點數(shù)。多普勒頻率為
其中, c為光速,k是調(diào)頻連續(xù)波信號頻率隨時間的變化率,λ是雷達初始頻率波長,L是接收天線間的 距離。
雷達探測到的距離及角度信息是相對于雷達而言的,因此經(jīng)過簡單的坐標變換可以獲得目標以雷達為原點的位置坐標信息。在實際環(huán)境中,雷達所探測到的信息不僅包含雷達前方有效的目標姿勢信息,同時也包含了雷達前方的各種無效的靜態(tài)或動態(tài)目標信息。DBSCAN聚類算法將聚類定義為高密度的連續(xù)區(qū)域,能夠?qū)?shù)據(jù)中不同類型的數(shù)據(jù)聚類成不同形態(tài)的簇[20]。由于人體運動的軌跡具有一定的連續(xù)性和規(guī)律性,在同一場景中,不同目標在執(zhí)行動作時所產(chǎn)生的運動軌跡具有不同的密度區(qū)域,因此通過DBSCAN聚類算法能夠?qū)⒗走_探測到的所有目標的位置坐標信息根據(jù)密度的差異聚類成不同形態(tài)的簇,從而去除無關(guān)目標的軌跡信息,保留所需的人體目標運動信息,進而保留對應(yīng)的距離、速度及角度參數(shù)。
本文以50幀數(shù)據(jù)為觀測時長,在時間上分別對距離、速度和角度參數(shù)進行積累,從而得到距離-時間圖(Distance-Time Map, DTM)、速度-時間圖(Velocity-Time Map, VTM)以及角度-時間圖的數(shù)據(jù)集。但由于硬件噪聲的原因,不同的數(shù)據(jù)集中可能存在異常點,本文采用Hampel濾波排除異常點。Hampel濾波是指將信號中特定的信號點濾除出去,從而抑制干擾,即對于數(shù)據(jù)集中的每個樣本,選取該樣本的左右各3個樣本組成窗口,同時求出這6個樣本的中值,確定窗口中的值與中值的偏差,并且將偏差的中值乘以用戶定義的閾值,然后根據(jù)該值判斷樣本點是否離群。如果窗口中的某個樣本為離群值,則用樣本中值替換掉該樣本的值。
在進行數(shù)據(jù)處理的過程中可能導(dǎo)致原本數(shù)據(jù)樣本的丟失,從而導(dǎo)致數(shù)據(jù)缺乏完整性??紤]到FMCW雷達在實際測量的過程中每一幀的時間極為短暫并且人體目標的運動速度比較均勻,因此,可以采用數(shù)據(jù)重構(gòu)的方式進行線性插值,即以丟失時刻的前一未丟失時刻的值代替丟失時刻的值。
由于人體在執(zhí)行動作的過程中,人體的運動幅度比較大,從而導(dǎo)致了角度-時間數(shù)據(jù)集效果不佳。所以在本文主要采用DTM數(shù)據(jù)集和VTM數(shù)據(jù)集。DTM數(shù)據(jù)集與VTM數(shù)據(jù)集存在很大的差異,為了使深度學(xué)習(xí)模型更快收斂,對數(shù)據(jù)集采取歸一化處理
本文提出一種多維參數(shù)域自適應(yīng)網(wǎng)絡(luò)(Distance-Velocity-Environment-Independent-Net, DV-EINet),對DTM和VTM數(shù)據(jù)進行融合并提取出與環(huán)境無關(guān)的特征,從而對環(huán)境噪聲進行消除。該網(wǎng)絡(luò)由4個部分組成:特征提取器、特征融合器、活動識別器和域鑒別器,如圖1。
2.3.1 模型輸入
本文模型的輸入使用的是不同環(huán)境下采集的人體姿勢數(shù)據(jù)。將數(shù)據(jù)分為源域數(shù)據(jù)和目標域數(shù)據(jù)兩部分,其中源域數(shù)據(jù)是有姿勢標簽的姿勢數(shù)據(jù),而目標域數(shù)據(jù)是無姿勢標簽的姿勢數(shù)據(jù),并且每一個數(shù)據(jù)均有其相應(yīng)的環(huán)境標簽,具體的實驗數(shù)據(jù)配置可見本文3.1節(jié)的描述。模型的輸出為目標域數(shù)據(jù)的預(yù)測姿勢標簽。
2.3.2 特征提取器
本文使用卷積神經(jīng)網(wǎng)絡(luò)提取每個分支網(wǎng)絡(luò)的特征,由于DTM和VTM描述的是目標的距離和速度的變化信息,相對于正常光學(xué)圖像有效信息占比較少,使用兩個2D卷積層和1個池化層對DTM和VTM進行特征提取。假設(shè)各個分支網(wǎng)絡(luò)的輸出分別為ZDTM和ZVTM。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的參數(shù)集為λDTM和λVTM,輸入數(shù)據(jù)集為XDTM和XVTM,則提取的特征可以表示為
2.3.3 特征融合器
為了更好地利用多維度特征之間的各種相互關(guān)系,可以借助張量的表示方法,通過創(chuàng)建高階張量來捕捉各個特征所包含的信息,但高階張量構(gòu)建將帶來更大的計算成本。因此,本文采用低秩多模態(tài)融合網(wǎng)絡(luò)(Low-rank Multimodal Fusion network,LMF)[18],如圖2所示,該網(wǎng)絡(luò)通過張量分解提出低階的張量融合網(wǎng)絡(luò),減少計算成本。
2.3.4 活動識別器
活動識別器由兩個全連接層組成,使用softmax層獲取特征提取器的概率。對于已標記的數(shù)據(jù),可以使用交叉熵函數(shù)Ly來計算預(yù)測結(jié)果與事實之間的損失
2.3.5 域鑒別器
在本文中主要考慮不同環(huán)境下人體姿勢的識別,由于在不同的環(huán)境下采集到的數(shù)據(jù)具有一定差異性,且這些差異性都與特定的環(huán)境因素有關(guān),以至于特征提取器所提取的特征也包含了與特定環(huán)境相關(guān)的特征,因此需要對特征進一步消除環(huán)境干擾。
本實驗使用的FMCW雷達是德州儀器(Texas Instruments, TI)公司的IWR1642BOOST毫米波雷達開發(fā)板。實驗使用了4個接收天線以及2個發(fā)射天線,F(xiàn)MCW雷達的參數(shù)設(shè)置為數(shù)據(jù)幀長為50幀,每幀調(diào)頻脈沖數(shù)為128,每個脈沖的采樣點數(shù)為64,工作頻率范圍在77~78 GHz,帶寬約為1.50 GHz。為了體現(xiàn)環(huán)境的復(fù)雜性,實驗數(shù)據(jù)在4種不同的環(huán)境下進行采集,包括了走廊、會議室、實驗室及空曠的房間。本實驗一共邀請了4名實驗者(2男2女)在4種環(huán)境下實施站立、坐下、行走以及揮拳這4種姿勢,每一種姿勢在每一個環(huán)境下都采集了100個樣本。實驗共收集了8組人——環(huán)境相對應(yīng)的姿勢數(shù)據(jù)集,對應(yīng)于8個不同的域。將這8組姿勢數(shù)據(jù)集中的4組劃分為源域數(shù)據(jù)(包含2個實驗者在2個環(huán)境下采集的有姿勢標簽的數(shù)據(jù)),4組劃分為目標域數(shù)據(jù)(包含2個實驗者在2個環(huán)境下采集的無姿勢標簽的數(shù)據(jù)),并規(guī)定源域和目標域數(shù)據(jù)的環(huán)境是不同的,最終共得到800個源域數(shù)據(jù)樣本和800個目標域數(shù)據(jù)樣本。
本文的實驗平臺框架如圖3所示,主要由FMCW毫米波雷達、PC端、邊緣計算平臺所構(gòu)成。FMCW毫米波雷達用于姿勢數(shù)據(jù)的采集;PC端對采集到的數(shù)據(jù)使用算法進行處理并生成DTM和VTM數(shù)據(jù),生成的數(shù)據(jù)通過局域網(wǎng)實時傳送給邊緣計算平臺;邊緣計算平臺使用深度學(xué)習(xí)網(wǎng)絡(luò)模型進行姿勢識別。本文使用Jetson Nano作為邊緣計算平臺,該邊緣計算平臺上搭載的是預(yù)先離線訓(xùn)練好的深度學(xué)習(xí)網(wǎng)絡(luò)模型,本文后續(xù)的實驗均是基于該實驗平臺所實現(xiàn)的。
為了驗證DBSCAN聚類、Hampel濾波和線性插值對數(shù)據(jù)的處理效果,在有無關(guān)人員走動的實際環(huán)境下進行數(shù)據(jù)的采集工作。比如實驗者在執(zhí)行向雷達靠近的行走動作時,實驗者后面有無關(guān)的人員走過。在聚類實驗中,DBSCAN的實驗效果如圖4。
其中,紫色是干擾的行走人員軌跡,綠色是實驗所需的行走數(shù)據(jù),黑色是其他靜態(tài)物體信息。從圖4可以看出即使在有人員干擾的情況下,使用DBSCAN聚類算法可以保留所需的人體姿勢數(shù)據(jù)并消除分散的噪聲點。聚類主要去除的無關(guān)靜態(tài)和動態(tài)物體干擾,實驗數(shù)據(jù)處理過程中有可能產(chǎn)生的數(shù)據(jù)丟失和數(shù)據(jù)異常仍然存在,本文使用Hampel濾波去除距離-時間和速度-時間圖中殘留的干擾噪聲,處理結(jié)果如圖5所示。
從圖5可以看出Hampel濾波有效去除了信號的跳躍噪聲點,從而獲得更加平滑的數(shù)據(jù),而線性插值對數(shù)據(jù)進行了重構(gòu),使得距離-時間和速度-時間圖數(shù)據(jù)更加完整。
在經(jīng)過數(shù)據(jù)處理后,最終得到的人體姿勢數(shù)據(jù)DTM和VTM圖以及對應(yīng)數(shù)據(jù)在Jetson Nano邊緣計算平臺上的識別結(jié)果如圖6所示。
為了驗證多維參數(shù)數(shù)據(jù)集相比于單參數(shù)數(shù)據(jù)集的優(yōu)勢,設(shè)計一個單參數(shù)DV-EI-Net網(wǎng)絡(luò),即將多維參數(shù)DV-EI-Net網(wǎng)絡(luò)的輸入改為單輸入,刪除特征融合器,輸入經(jīng)過特征提取器后直接進入活動識別器和域鑒別器。單參數(shù)DV-EI-Net網(wǎng)絡(luò)的具體配置為:特征提取器包含2層卷積層,將卷積核大小設(shè)置為5×5,每個卷積層后都有一個激活函數(shù)及最大池化層,且池化層大小為2×2;活動識別器和域鑒別器都包含2層全連接層,最后都是使用Softmax層獲取活動和域的概率向量。表1給出了單參數(shù)網(wǎng)絡(luò)分別在DTM和VTM數(shù)據(jù)集上進行單獨訓(xùn)練后的識別精度。在總體情況下,對于在VTM數(shù)據(jù)集上的精度要比DTM數(shù)據(jù)集高3.5%~4.5%,這說明速度信息相比于距離信息而言,對于人體姿勢的表征能力要更好。
將DTM和VTM數(shù)據(jù)集加載到多維參數(shù)DV-EI-Net網(wǎng)絡(luò)。其中多維參數(shù)網(wǎng)絡(luò)DV-EI-Net的網(wǎng)絡(luò)配置與單參數(shù)網(wǎng)絡(luò)一樣,但該網(wǎng)絡(luò)的輸入是多維參數(shù)數(shù)據(jù)集DTM和VTM。在測試數(shù)據(jù)集上對多維參數(shù)DVEI-Net網(wǎng)絡(luò)進行測試,得到表2所示的姿勢識別混淆矩陣。為了驗證多維參數(shù)的融合方法對網(wǎng)絡(luò)性能的提升,本文使用簡單串聯(lián)特征融合方法FADD=[ZDTM,ZVTM]T與LMF融合方法進行比較,通過表3和表1可知,基于多維數(shù)據(jù)融合的方法明顯比單參數(shù)網(wǎng)絡(luò)的精度來的高,這說明充分融合多維數(shù)據(jù)能夠帶來更多的潛在信息。而基于LMF的融合方法比串聯(lián)特征融合方法精度要高4%左右,這表明基于LMF特征融合方法挖掘到了更多的多維參數(shù)特征之間的相互關(guān)系。從表3還可知,在有域鑒別器的情況下,基于串聯(lián)融合方式的精度提升了2.5%,而基于LMF融合方式的精度可達91.5%,相比于無域鑒別器的情況提升了5%,這說明域鑒別器的存在可以有效消除復(fù)雜環(huán)境的干擾,從而獲得了與環(huán)境無關(guān)的特征,進一步提升了系統(tǒng)精度。
表1 DV-EI-Net單參數(shù)網(wǎng)絡(luò)目標域分類精度(%)
表2 姿勢分類混淆矩陣(%)
表3 DV-EI-Net多參數(shù)網(wǎng)絡(luò)目標域分類精度(%)
為了驗證本文完整的DV-EI-Net多參數(shù)網(wǎng)絡(luò)的性能,表4給出了本文方法與其他方法準確率的比較。其中,對比算法CNN[21]和視覺幾何群網(wǎng)絡(luò)(Visual Geometry Group network 16, VGG16)[22]為單參數(shù)網(wǎng)絡(luò),距離多普勒角度-時間網(wǎng)絡(luò)(Range Doppler Angle-Time, RDA-T)[10]為多參數(shù)網(wǎng)絡(luò)。具體來說,RDA-T利用簡化版VGG16網(wǎng)絡(luò)和特征串聯(lián)的方式對手勢進行分類;CNN網(wǎng)絡(luò)利用多普勒譜圖做輸入,通過10層的卷積神經(jīng)網(wǎng)絡(luò)對手勢進行分類;VGG16是在圖像分類上效果顯著的網(wǎng)絡(luò)結(jié)構(gòu)。同時,本文在上述3個算法中進一步增加了域鑒別器結(jié)構(gòu),參與對比實驗。為了比較公平,上述算法的輸入均采用相同的DTM, VTM數(shù)據(jù)集,其中單參數(shù)網(wǎng)絡(luò)只使用對人體姿勢表征能力更好的VTM數(shù)據(jù)集。通過表4可知,無論是單參數(shù)網(wǎng)絡(luò)還是多參數(shù)網(wǎng)絡(luò),相比于源域精度,在無標簽的目標域下精度都有著一定程度的下降,且下降精度最大達到7.5%。加入域鑒別器后,下降精度減小為最多4%,這說明了域鑒別器具有通用性和有效性,不僅適用于本文所提出的網(wǎng)絡(luò)結(jié)構(gòu),也可應(yīng)用于其他姿勢識別算法。從總體上看,本文所提出的方法在有姿勢標簽的源域數(shù)據(jù)下精度可達94.0%,并且在目標域精度也可以達到91.5%,相比于RDA-T[10]多參數(shù)網(wǎng)絡(luò)提高3.0%,對比其他單參數(shù)網(wǎng)絡(luò)算法則具有更加顯著的優(yōu)勢。
表4 本文方法與其他方法平均精度的比較(%)
本文提出一種基于FMCW雷達信號的人體姿勢識別方法,本方法利用FMCW雷達信號的多維信息,并關(guān)注復(fù)雜環(huán)境背景的處理。通過對FMCW雷達信號的有效算法分析,如3維FFT變換、DBSCAN聚類算法等,獲得準確的目標距離、速度及角度參數(shù),并進一步通過Hampel濾波和線性插值方法構(gòu)造出VTM和DTM數(shù)據(jù)集。然后搭建了基于LMF融合網(wǎng)絡(luò)和域自適應(yīng)網(wǎng)絡(luò)對多維參數(shù)數(shù)據(jù)集進行有效融合并提取與環(huán)境無關(guān)的特征。通過最終實驗表明,本文方法對于復(fù)雜的目標域環(huán)境下的人體姿勢的識別精度可達91.5%。