張嫻靜,褚含冰,劉 鑫
(1.鄭州工業(yè)應(yīng)用技術(shù)學(xué)院 信息工程學(xué)院,河南 鄭州 451150;2.中南大學(xué) 商學(xué)院,湖南 長(zhǎng)沙 410083)
隨著云計(jì)算、邊緣計(jì)算、物聯(lián)網(wǎng)設(shè)備和下一代網(wǎng)絡(luò)的成熟發(fā)展,情感計(jì)算或認(rèn)知計(jì)算也逐步成熟,自動(dòng)情感識(shí)別的重要性顯著增加[1]。物聯(lián)網(wǎng)和邊緣計(jì)算在移動(dòng)性、低傳輸成本、高速性和普及性等方面給許多應(yīng)用帶來(lái)了巨大的進(jìn)步,然而這卻導(dǎo)致數(shù)據(jù)處理量呈指數(shù)級(jí)增長(zhǎng)[2,3],大數(shù)據(jù)的出現(xiàn)雖然可以解決提煉適當(dāng)數(shù)據(jù)的問(wèn)題,但對(duì)于任意系統(tǒng)數(shù)據(jù)識(shí)別處理的準(zhǔn)確性和用戶隱私保護(hù)仍是一個(gè)問(wèn)題[4]。
現(xiàn)有的自動(dòng)情感識(shí)別系統(tǒng)通?;趀NTERFACE’05數(shù)據(jù)庫(kù)、IEMOCAP數(shù)據(jù)庫(kù)、EMOTIW數(shù)據(jù)庫(kù)、RML數(shù)據(jù)庫(kù)和BAUM-1S數(shù)據(jù)庫(kù)實(shí)現(xiàn)[5]。文獻(xiàn)[6]提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和特征選擇過(guò)程的多模態(tài)表達(dá)式識(shí)別系統(tǒng)。在IEMOCAP數(shù)據(jù)庫(kù)中,作者發(fā)現(xiàn)根據(jù)不同的參數(shù),準(zhǔn)確度在70.46%到73.78%之間相當(dāng)?shù)?。文獻(xiàn)[7]提出了一種結(jié)合多方向回歸(MDR)和深度神經(jīng)網(wǎng)絡(luò)的雙模式情緒分類系統(tǒng),應(yīng)用于語(yǔ)音光譜儀和面部圖像,以提取雙模特征,并使用eNTERFACE’05數(shù)據(jù)庫(kù)測(cè)試其精度。文獻(xiàn)[8]使用了語(yǔ)音的預(yù)訓(xùn)練2D CNN模型和視覺(jué)圖像的預(yù)訓(xùn)練3D CNN模型識(shí)別情感,在eNTERFACE’05數(shù)據(jù)庫(kù)中實(shí)現(xiàn)了88.74%的準(zhǔn)確率,而EML數(shù)據(jù)庫(kù)實(shí)現(xiàn)了83.9%的準(zhǔn)確率。文獻(xiàn)[9]應(yīng)用不同的融合策略融合雙峰輸入信號(hào)進(jìn)行情感識(shí)別,使用eNTERFACE數(shù)據(jù)庫(kù)報(bào)告了71%的最大準(zhǔn)確度。上述方法均未使用邊緣云框架,并且沒(méi)有積極考慮用戶隱私。
因此針對(duì)物聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)量激增且自動(dòng)人臉表情識(shí)別精確率較低的情況,提出了一種邊緣云框架下結(jié)合雙模特征的高效安全人臉表情識(shí)別方法。主要?jiǎng)?chuàng)新點(diǎn)總結(jié)如下:
(1)物聯(lián)網(wǎng)設(shè)備通過(guò)多秘密共享技術(shù)從用戶獲取面部圖像和語(yǔ)音信號(hào),然后將其分發(fā)到不同的邊緣云,保證了用戶的隱私;
(2)利用邊緣云將預(yù)處理后的信號(hào)傳輸?shù)胶诵脑埔蕴崛≌Z(yǔ)音特征和圖像特征,同時(shí)結(jié)合語(yǔ)譜圖和局部二值模式的方法提取語(yǔ)音特征,以及采用差值中心對(duì)稱局部二值模式獲得人臉圖像特征,保證了識(shí)別準(zhǔn)確性;
(3)基于棧式稀疏去噪自編碼器將語(yǔ)音和圖像特征進(jìn)行融合,使用秘密共享方案將情感信號(hào)分布到不同的邊緣,以實(shí)現(xiàn)人臉表情的快速準(zhǔn)確識(shí)別。
本文提出了一種邊緣云框架上結(jié)合雙模特征的高效安全人臉表情識(shí)別方法,其邊緣云框架如圖1所示。在該系統(tǒng)中,物聯(lián)網(wǎng)通過(guò)多秘密共享技術(shù)從用戶獲取人臉表情信號(hào),然后將其分發(fā)到不同的邊緣云,保證了用戶的隱私。
圖1 邊緣云框架
所提系統(tǒng)中使用的邊緣計(jì)算系統(tǒng)結(jié)構(gòu)如圖2所示,其組成為:小型基站、邊緣緩存和移動(dòng)邊緣計(jì)算(mobile edge computing,MEC)服務(wù)器。
圖2 邊緣緩存單元的結(jié)構(gòu)
物聯(lián)網(wǎng)設(shè)備收集來(lái)自用戶的圖像信號(hào)和語(yǔ)音信號(hào),通過(guò)藍(lán)牙或局域網(wǎng)將其發(fā)送到邊緣緩存單元。小型基站為物聯(lián)網(wǎng)設(shè)備和邊緣緩存單元之間的通信提供能量[10]。MEC服務(wù)器使用秘密共享技術(shù)將信號(hào)的不同部分共享給不同的云服務(wù)器單元,然后將數(shù)據(jù)發(fā)送到主服務(wù)器合并,并執(zhí)行后續(xù)處理以獲得關(guān)于人臉表情的決策。內(nèi)容提供商(content provider,CP)以一種高效的方式使用云服務(wù)器、MEC服務(wù)器和小蜂窩基站,以保證低延遲和數(shù)據(jù)的無(wú)縫傳輸。
所提方法采用基于超遞增序列的多秘密共享技術(shù),即序列中的每個(gè)元素都大于該元素前面所有元素的總和,則該序列稱為超遞增序列[11]。
多秘密共享技術(shù)分兩步實(shí)施,共享分布和秘密重組。
(1)共享發(fā)布
共享分布的步驟如下:
步驟1 定義一個(gè)q×1維的秘密矩陣S,其中q為機(jī)密數(shù)量,且每個(gè)Si有l(wèi)-1個(gè)二進(jìn)制位,則將S定義為一個(gè)新的q×(l-1)維矩陣SB如下
(1)
其中,l為劃分參與者的不相交級(jí)別數(shù)(服務(wù)器單元)。
步驟2 隨機(jī)生成一個(gè)q×(l-1)維的矩陣RB如下
(2)
步驟3 通過(guò)在SB和RB之間執(zhí)行位異或,獲得一個(gè)新的矩陣SB′為
(3)
步驟4 生成一個(gè)維度(l-1)×1的列矩陣,其中矩陣項(xiàng)XB按遞增順序排列,并從SB′和XB獲取公共矩陣V為
(4)
步驟6 根據(jù)Shamir分布將xi的份額分配給i級(jí)參與者pi(1≤i≤l-1),在l級(jí),根據(jù)Shamir分布分配相當(dāng)于RBi的十進(jìn)制共享(1≤i≤q)[12]。
(2)秘密重組
重建秘密矩陣元素Sr的步驟如下:
步驟1 至少有t個(gè)參與者對(duì)水平份額xi執(zhí)行Shamir重建,其中t是Shamir重建的多項(xiàng)式階;
步驟2 創(chuàng)建了一個(gè)維數(shù)為q×(l-1)的空矩陣SB″。檢驗(yàn)v′r,i-1,i≥xi是否成立,如果成立則將輸出位分配給‘1’,否則,將其分配給‘0’。將v′r,i,i+1≥xi=v′r,i-1,i-xi發(fā)送到下一個(gè)級(jí)別,然后將輸出位加到矩陣SB″中;
步驟3 在l級(jí),應(yīng)用Shamir重建將結(jié)果轉(zhuǎn)換為l-1位序列,該序列可表示為RBr= [er,l-1,er,l-2,…,er,1],在RBr和SB″r間執(zhí)行異或操作,從而產(chǎn)生SBr;
步驟4 將SBr的二進(jìn)制表示轉(zhuǎn)化為十進(jìn)制表示,獲得秘密Sr。
對(duì)于公共實(shí)體V、P、l和私人對(duì)參與者i:xi,入侵者不能使用公共實(shí)體V和P來(lái)獲得SBi,矩陣RB和XB只有在所有級(jí)別的參與者都參與共享秘密后才可用,只要提供者可信,通信就安全。
人臉表情識(shí)別需要提取語(yǔ)音特征和圖像特征,其中利用語(yǔ)譜圖和LBP的方法從語(yǔ)音信息中提取特征,采用改進(jìn)的中心對(duì)稱局部二值模式獲得人臉圖像信息。并基于棧式稀疏去噪自編碼器將語(yǔ)音特征和圖像特征進(jìn)行融合,以實(shí)現(xiàn)人臉表情的識(shí)別。
語(yǔ)音特征提取步驟如圖3所示:首先通過(guò)加窗分幀,提取語(yǔ)譜圖,并將其歸一化為灰度圖;然后采用Gabor小波對(duì)灰度圖進(jìn)行處理得到Gabor圖譜;最后計(jì)算Gabor圖譜的局部二值模式(local binary pattern,LBP),并級(jí)聯(lián)獲取語(yǔ)音特征。
圖3 語(yǔ)音特征提取流程
(1)語(yǔ)譜圖圖譜
語(yǔ)譜圖的靜音段直接納入LBP特征的運(yùn)算會(huì)造成偏差。因此需對(duì)語(yǔ)譜圖做預(yù)處理[13]。預(yù)處理分3步進(jìn)行:
1)對(duì)語(yǔ)音進(jìn)行分幀、加窗及離散傅里葉變換處理,即
(5)
式中:s(n)是語(yǔ)音信號(hào);X是s(n)的傅里葉系數(shù);N是窗長(zhǎng);ω(n)是漢明窗函數(shù)。
2)對(duì)語(yǔ)譜圖進(jìn)行歸一化,即
(6)
式中:L(a,b)為語(yǔ)譜圖;Lmax(a,b)、Lmin(a,b)分別為語(yǔ)譜圖灰度級(jí)中的最大值和最小值。
3)采用Gabor小波對(duì)灰度圖進(jìn)行處理,由于其可凸顯相鄰灰度級(jí)間的變化。Gabor小波的核函數(shù)定義如下[14]
(7)
通過(guò)將生成的Gabor小波與灰度圖像進(jìn)行卷積運(yùn)算,可得到30張Gabor圖譜。
(2)LBP特征
(8)
式中:T為L(zhǎng)BP編碼后的最大灰度值。
由于LBP圖譜中只有少部分的灰度級(jí)占主要作用,因此定義了如下的一致模式
(9)
式中:U為數(shù)值0/1變換次數(shù)。
采用一致模式LBP獲取Gabor圖譜的紋理特征,把Gabor圖譜對(duì)應(yīng)的LBP直方圖進(jìn)行級(jí)聯(lián),獲得特征Q={q1,q2,…,q30}。
LBP 直方圖描述圖像區(qū)域紋理時(shí),直方圖維數(shù)和復(fù)雜度會(huì)隨著鄰域取樣點(diǎn)個(gè)數(shù)增加而增加。為此,文獻(xiàn)[15]提出了中心對(duì)稱局部二值模式(center-symmetric local binary pattern,CS-LBP),該編碼方式的直方圖維數(shù)只有2N/2,與LBP算法相比,維數(shù)顯著降低。
考慮到CS-LBP算子沒(méi)有考慮中心像素點(diǎn)的灰度值,提出了差值中心對(duì)稱局部二值模式(D-value center-symmetric local binary pattern,DCS-LBP)來(lái)編碼圖像,即
(10)
式中:N為鄰域像素點(diǎn)個(gè)數(shù)(N=9);T為閾值;R為圓形區(qū)域半徑(R=1);xi=pi-pc,xi+(N/2)=pc-pi+(N/2);‖表示或運(yùn)算;pc為中心像素點(diǎn)灰度值[16]。
自編碼器是無(wú)監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),包含輸入層、隱藏層和輸出層。傳統(tǒng)自編碼器在不加任何約束的情況下,其特征表達(dá)能力較弱,提出去噪自編碼器(denoising auto-encoder,DAE)。
(11)
式中:λ是權(quán)重約束項(xiàng)。利用梯度下降法最小化該損失函數(shù),以獲得DAE的最優(yōu)參數(shù)θ。
自編碼器不僅需要實(shí)現(xiàn)輸出與輸入基本一致,還需要其隱藏層具備一定程度的稀疏性,因此對(duì)輸入數(shù)據(jù)做相應(yīng)的壓縮降低維度處理。使用稀疏自編碼器(sparse auto-encoder,SAE),其代價(jià)函數(shù)為
(12)
為保證自編碼器具備稀疏性和魯棒性,將SAE與DAE組合以形成稀疏去噪自編碼器(sparse denoising auto-encoder,SDA)。但SDA是淺層神經(jīng)網(wǎng)絡(luò),難以挖掘數(shù)據(jù)更深層次的特征,需要利用多個(gè)SDA堆疊形成棧式稀疏去噪自編碼器(stack sparse denoising auto-encoder,SSDA)。SSDA在微調(diào)階段的損失函數(shù)為
(13)
其中,l是SDA堆疊的個(gè)數(shù)。所提方法中,SDA的堆疊個(gè)數(shù)為2,將語(yǔ)音特征與圖像特征融合。
實(shí)驗(yàn)中使用RML和eNTERFACE這兩個(gè)公開(kāi)的具備圖像和音頻的人臉表情數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)CK+被用于僅使用圖像的情感識(shí)別。
RML數(shù)據(jù)庫(kù)包含720個(gè)視頻文件,來(lái)自8個(gè)受試者,其中嵌入了6種基本情緒(高興、悲傷、厭惡、生氣、恐懼和驚訝),音頻采樣頻率為22.05 kHz,16位分辨率。實(shí)施人體檢查,以確定受試者對(duì)每一種情緒類別的行為是否正確。共有8名參與者,每個(gè)參與者的每段視頻長(zhǎng)度在3 s-6 s。
eNTERFACE’05數(shù)據(jù)庫(kù)包含了43名受試者的1290個(gè)視頻樣本和6種基本情緒,音頻采樣頻率為48 kHz,16位分辨率。圖4為eNTERFACE’05數(shù)據(jù)庫(kù)中的各種情緒類別的人臉表情樣本。
圖4 eNTERFACE’05數(shù)據(jù)庫(kù)中的情緒類別的人臉表情樣本
CK+數(shù)據(jù)庫(kù)包含來(lái)自123名受試者的593個(gè)視頻樣本,錄音前沒(méi)有對(duì)受試者進(jìn)行預(yù)訓(xùn)練。數(shù)據(jù)庫(kù)中包含6種基本情緒,沒(méi)有中性情緒,幀大小為640×490或640×480,幀速率因樣本而異,在每秒10幀-60幀。
圖像幀在5°~35°范圍內(nèi)旋轉(zhuǎn)增強(qiáng),步長(zhǎng)為10°。在不同信噪比(signal-to-noise ratio,SNR)下,利用高斯白噪聲對(duì)人臉圖像進(jìn)行污染,其中,SNR=30 dB、10 dB和0 dB。
所提方法是基于邊緣云框架進(jìn)行,在邊緣高速緩存單元之后將語(yǔ)音和圖像數(shù)據(jù)發(fā)送到所提系統(tǒng),其帶寬消耗如圖5所示。從圖中可看出,隨著時(shí)間的延長(zhǎng),對(duì)邊緣云框架的計(jì)算效率不會(huì)有很大的影響,并且因預(yù)處理是在邊緣計(jì)算端完成的,因此帶寬消耗很低。
圖5 邊緣云框架上數(shù)據(jù)處理的帶寬消耗
此外,針對(duì)網(wǎng)絡(luò)中常見(jiàn)的網(wǎng)絡(luò)威脅,所提方法考慮了在云存儲(chǔ)、云計(jì)算、云傳輸?shù)确矫鎸?duì)于網(wǎng)絡(luò)攻擊的抵抗能力,并模擬標(biāo)識(shí)攻擊后對(duì)表情進(jìn)行了分析實(shí)驗(yàn)。如圖6所示,為所識(shí)別表情受到標(biāo)識(shí)攻擊的恢復(fù)情況。
圖6 受到攻擊后的表情恢復(fù)效果
由圖6可知,當(dāng)云框架下所需要識(shí)別的表情在受到標(biāo)識(shí)攻擊時(shí),所提算法能夠在缺失部分圖像信息的情況下對(duì)圖像進(jìn)行恢復(fù)并正確識(shí)別。由此可見(jiàn),所提方法具有較強(qiáng)的網(wǎng)絡(luò)攻擊抵御能力。
將所提方法分別在RML、eNTERFACE和CK+這3個(gè)數(shù)據(jù)庫(kù)進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果見(jiàn)表1~表3。
表3 所提的人臉表情識(shí)別方法在CK+的混淆矩陣
表1所示為在eNTERFACE’05構(gòu)建的系統(tǒng)的混淆矩陣。灰框矩陣屬于增強(qiáng)的人臉圖像,而白框矩陣不屬于增強(qiáng)的,系統(tǒng)增強(qiáng)即增加信噪比,系統(tǒng)經(jīng)增強(qiáng)(SNR=30 dB),精度達(dá)到87.63%,未經(jīng)增強(qiáng)(SNR=10 dB),精度達(dá)到79.53%,其中悲傷情緒的準(zhǔn)確率最高,其次是憤怒情緒。因此,可發(fā)現(xiàn)增強(qiáng)顯著地提高了系統(tǒng)性能。
表1 所提的人臉表情識(shí)別方法在eNTERFACE的混淆矩陣
表2所示為使用RML數(shù)據(jù)庫(kù)的系統(tǒng)的混淆矩陣。增強(qiáng)后(SNR=30 dB),系統(tǒng)精度達(dá)到82.3%,未經(jīng)增強(qiáng)(SNR=10 dB)時(shí)達(dá)到70.96%。對(duì)比表1和表2,可發(fā)現(xiàn)RML數(shù)據(jù)庫(kù)的準(zhǔn)確性低于eNTERFACE’05數(shù)據(jù)庫(kù),這是由于RML中的受試者沒(méi)有受過(guò)良好的訓(xùn)練,每個(gè)情感類都與其它情感類有明顯的混淆。
表2 所提的人臉表情識(shí)別方法在RML的混淆矩陣
在使用CK+數(shù)據(jù)庫(kù)的實(shí)驗(yàn)中,所提方法作了去除語(yǔ)音信號(hào)的處理,系統(tǒng)得到的混淆矩陣見(jiàn)表3。其增強(qiáng)后(SNR=30 dB),準(zhǔn)確率為97.1%,無(wú)增強(qiáng)(SNR=10 dB)準(zhǔn)確率為82.15%??謶智榫w在增強(qiáng)時(shí)的準(zhǔn)確率為100%。
將所提方法與其它相關(guān)方法的性能在RML、eNTERFACE’05和CK+數(shù)據(jù)庫(kù)中進(jìn)行比較分析,結(jié)果見(jiàn)表4。從表中可以看出,所提出的系統(tǒng)對(duì)所有數(shù)據(jù)庫(kù)的精度都比其它系統(tǒng)高。
表4 不同數(shù)據(jù)庫(kù)中使用不同方法的準(zhǔn)確度百分比
從表4可看出,在eNTERFACE’05和RML數(shù)據(jù)庫(kù)中,文獻(xiàn)[5,6]的識(shí)別系統(tǒng)準(zhǔn)確率較低,由于其僅使用了表情單模態(tài),文獻(xiàn)[7]的識(shí)別系統(tǒng)結(jié)合語(yǔ)音和圖像雙模特征,但其使用的是卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行特征融合,辨識(shí)效果不理想。而所提方法結(jié)合語(yǔ)音和圖像雙模特征,并采用SSDA模型,通過(guò)稀疏數(shù)據(jù)中可能存在的冗余信息和噪聲,更好地提取數(shù)據(jù)中的特征信息,取得了不錯(cuò)的識(shí)別效果。
由于CK+數(shù)據(jù)庫(kù)僅使用圖像的表情識(shí)別,不受其它因素的噪音等因素的干擾,其準(zhǔn)確率會(huì)有所提高。文獻(xiàn)[6]的系統(tǒng)沒(méi)有使用相應(yīng)的圖像特征提取算法,文獻(xiàn)[7,8]中的系統(tǒng)使用了自編碼模型與學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),但缺乏稀疏性。而所提方法在SSDA模型的基礎(chǔ)上采用CS-LBP 算法進(jìn)行圖像特征提取,其辨識(shí)人臉表情的準(zhǔn)確率更高。
針對(duì)物聯(lián)網(wǎng)環(huán)境下用戶的隱私安全以及人臉表情識(shí)別準(zhǔn)確度的問(wèn)題,提出了邊緣云框架下結(jié)合雙模特征的高效安全人臉表情識(shí)別方法。語(yǔ)音和圖像樣本通過(guò)一個(gè)多秘密共享方案分發(fā)到不同的邊緣云,保護(hù)了用戶的隱私。邊緣云中將預(yù)處理后的信號(hào)傳輸?shù)胶诵脑?,并利用語(yǔ)譜圖和局部二值模式的方法以提取語(yǔ)音特征,以及采用差值中心對(duì)稱局部二值模式提取圖像特征,解決了物聯(lián)網(wǎng)環(huán)境下數(shù)據(jù)量劇增且自動(dòng)人臉表情識(shí)別精確率較低的情況?;跅J较∈枞ピ胱跃幋a器將語(yǔ)音和圖像特征的融合,以實(shí)現(xiàn)人臉表情的識(shí)別,并在RML和eNTERFACE’05數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn)論證。結(jié)果表明所提方法對(duì)兩個(gè)數(shù)據(jù)庫(kù)的識(shí)別率分別為83.9%和88.74%,明顯高于其它方法的精確度,且抵御網(wǎng)絡(luò)攻擊的能力較強(qiáng)。
由于所提方法僅針對(duì)人臉表情識(shí)別,接下來(lái)將針對(duì)該系統(tǒng)在其它視聽(tīng)數(shù)據(jù)庫(kù)和跨數(shù)據(jù)庫(kù)中的性能做進(jìn)一步的研究,以及嘗試用其它代替雙模特征的深度融合方法。