王兆偉,彭鈺琳,尼瑪頓珠,梁澤森
(1.西藏大學(xué)信息科學(xué)技術(shù)學(xué)院,西藏 拉薩 850000;2.鄭州科技學(xué)院信息工程學(xué)院,河南 鄭州 450000)
如今人臉識(shí)別已經(jīng)漸漸融入了我們?nèi)粘I钪械母鱾€(gè)方面,例如移動(dòng)支付、安防門禁、打卡考勤、手機(jī)解鎖等。在深度學(xué)習(xí)領(lǐng)域的發(fā)展和數(shù)據(jù)集朝向大規(guī)模標(biāo)注方向發(fā)展的促進(jìn)下,人臉識(shí)別的安全性、準(zhǔn)確性、高效性得到進(jìn)一步發(fā)展。在深度學(xué)習(xí)人臉識(shí)別中,數(shù)據(jù)集扮演了重要的角色,深度神經(jīng)網(wǎng)絡(luò)需要通過成規(guī)模的數(shù)據(jù)集的訓(xùn)練學(xué)習(xí)才能夠獲得安全準(zhǔn)確的判斷(識(shí)別)能力。然而,現(xiàn)有的數(shù)據(jù)集普遍規(guī)模較小、也存在不可避免的偏見,例如:常用的規(guī)模較大的數(shù)據(jù)集VGG-Face、CASIA-WebFace等由于它們采用互聯(lián)網(wǎng)收集的方式也導(dǎo)致了這些常用的數(shù)據(jù)集中歐美面孔占比較多。我國是一個(gè)統(tǒng)一的多民族國家,各民族因不同的血緣、生活地域和飲食習(xí)慣等因素,面容長相略有差距,形成了各自的面部特征[1]。例如藏族:從面容來看,他們一般為高鼻骨、大鼻孔,長期在高原生活也導(dǎo)致他們皮膚較為粗糙,面部多為醬紅色,即為典型的高原紅現(xiàn)象。常用的數(shù)據(jù)集往往只考慮人種而忽略了人種中的不同民族,例如VGG-Face、CASIA-WebFace等均只涉及到亞洲人種,而忽略了亞種人種中的不同民族,這可能導(dǎo)致如果直接使用這些數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),不能夠取得效果較好的深度網(wǎng)絡(luò)結(jié)構(gòu),所得到的識(shí)別模型在我國使用時(shí)會(huì)出現(xiàn)一定偏差。因此,本文旨在通過利用LFW以及自采數(shù)據(jù)集進(jìn)一步探索數(shù)據(jù)集的偏見是否會(huì)對(duì)人臉識(shí)別產(chǎn)生影響。
高質(zhì)量的數(shù)據(jù)庫是相關(guān)研究的基礎(chǔ)和前提[2],為了進(jìn)一步探索數(shù)據(jù)集的偏見是否會(huì)對(duì)人臉識(shí)別產(chǎn)生影響,開展相關(guān)研究,我們確定了使用經(jīng)典人臉識(shí)別測試數(shù)據(jù)集LFW作為對(duì)照組,并通過建立我們的藏漢數(shù)據(jù)集進(jìn)行測試對(duì)照。
為了建立一定規(guī)模的數(shù)據(jù)集來進(jìn)行測試,我們?cè)诶_市主要以西藏大學(xué)為主開展了數(shù)據(jù)采集工作,采集了短期居住在西藏的漢族人員和長期居住在西藏的藏族本土通報(bào)人員的人臉樣本信息(以20歲左右的青年為主)。為了增加測評(píng)的可信度以及數(shù)據(jù)集的規(guī)模,考慮到時(shí)間對(duì)面容的影響,我們分階段對(duì)數(shù)據(jù)集的原始人員在不同時(shí)期拍攝了多姿態(tài)(正面、側(cè)面、仰面等多角度)的圖片,拍攝環(huán)境以人為控制環(huán)境為主(白色或者綠色背景、LED燈帶輕微補(bǔ)光),部分人員在自然環(huán)境中拍攝(宿舍中沒有背景,白天在自然光線拍攝,晚上在打開白熾燈環(huán)境中拍攝),截至目前為止,數(shù)據(jù)集共有漢族138人,藏族117人,共255人,3000多張數(shù)據(jù)(RGB圖和Depth圖)。其中,每個(gè)人員都被編訂了唯一的編號(hào)[3]。
在測評(píng)中,使用VGG-Face、兩個(gè)數(shù)據(jù)集作為訓(xùn)練集,同LFW一樣,這兩個(gè)數(shù)據(jù)集也是通過互聯(lián)網(wǎng)收集而成。其中CAISA-WebFace是從IMBb網(wǎng)站上搜集來的,包含了10K個(gè)人的500K張圖片,噪聲相對(duì)較少,適合作為訓(xùn)練數(shù)據(jù)。VGG-Face是從搜索引擎得到的,包含了2622個(gè)人的2百萬張圖片,噪聲也比較小,相對(duì)來說能訓(xùn)練出比較好的結(jié)果。LFW是通過運(yùn)用爬蟲技術(shù)在互聯(lián)網(wǎng)上進(jìn)行人臉圖像的搜集和爬取了13000 多張人臉圖像,圖像中絕大部分為彩色圖像,但也存在少許黑白人臉圖片,是目前人臉識(shí)別的常用測試集。圖1是測評(píng)所涉及到的不同數(shù)據(jù)集的已經(jīng)對(duì)齊的圖像。
圖1 來自不同數(shù)據(jù)集的已經(jīng)對(duì)齊的圖像。即使在對(duì)齊后,由于拍攝時(shí)間跨度、性別、文化、背景、姿勢的不同設(shè)置,這些數(shù)據(jù)集中的域差異仍然存在
數(shù)據(jù)和算法是模式識(shí)別的基礎(chǔ)和前提。為了更好地進(jìn)行測評(píng),在本項(xiàng)目的研究中選擇了經(jīng)典的Sphereface(CVPR 2017)、CosFace(CVPR2018)、VGGFace(British Machine Vision Conference, 2015)算法進(jìn)行實(shí)驗(yàn)[4]。綜合各方面的因素,本文的研究選擇使用了官方提供的已經(jīng)訓(xùn)練完成的模型,具體情況如表1所示。
我們的測評(píng)流程分為數(shù)據(jù)預(yù)處理-提取特征-計(jì)算繪圖-分析,具體流程如圖2所示。
圖2 數(shù)據(jù)集測評(píng)差異測試流程
實(shí)驗(yàn)step1:數(shù)據(jù)預(yù)處理——精確地進(jìn)行人臉檢測、人臉對(duì)齊和圖像裁剪,為后續(xù)實(shí)驗(yàn)提供可靠的并符合模型需求的人像數(shù)據(jù);工作流程——輸入人臉圖像數(shù)據(jù),程序準(zhǔn)確無誤地檢測出圖像中的人臉位置,對(duì)于原始圖像中人臉可能出現(xiàn)的姿態(tài)、位置上的差異問題,進(jìn)行對(duì)對(duì)齊處理,并裁剪,最終輸出符合模型需求的人像數(shù)據(jù)[5]。
實(shí)驗(yàn)step2:圖像預(yù)處理——將歐美、漢族、藏族三組測試集分別送入MTCNN中,利用MTCNN對(duì)測試集實(shí)施人臉檢測、人臉對(duì)齊和圖像裁剪。鑒于三者對(duì)圖像尺寸要求的不同,其中SphereFace、VGGFace要求112X96像素,VGGFace要求112X112像素,讓三個(gè)測試集各生成兩組(112X96像素、112X112像素)。
實(shí)驗(yàn)step3:提取特征——嚴(yán)格控制變量(分別將三個(gè)測試集一一的送入三個(gè)測評(píng)模型對(duì)圖像特征進(jìn)行提取。其中,sphereface是在Caffe環(huán)境下使用Matlab進(jìn)行的、Cosface是在Tensorflow環(huán)境下使用Python進(jìn)行的、VGGFace是在Caffe環(huán)境下使用Python進(jìn)行的。
實(shí)驗(yàn)step4:計(jì)算、繪圖——利用Python的Sklearn庫、Matplotlib庫進(jìn)行以下操作:計(jì)算相余弦似度-繪制ROC曲線-繪制DET曲線-計(jì)算AUC。
本文章采用ROC曲線來直觀體現(xiàn)數(shù)據(jù)集的偏見是否會(huì)對(duì)人臉識(shí)別產(chǎn)生影響。其中,ROC曲線的橫軸FPR負(fù)正類率,代表了分類器預(yù)測的正類中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例??v軸TPR真正類率,代表了分類器預(yù)測的正類中實(shí)際正實(shí)例占所有正實(shí)例的比例。根據(jù)ROC曲線的橫縱坐標(biāo)軸的含義我們可以知道,如果數(shù)據(jù)集在模型上測評(píng)效果好(預(yù)測的正類中實(shí)際正實(shí)例占所有正實(shí)例的比例盡可能高,預(yù)測的正類中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例盡可能低),那么它的ROC曲線就越靠近左上角[6]。本文在研究中測評(píng)了3個(gè)數(shù)據(jù)集,由圖3可以看出,3個(gè)數(shù)據(jù)集差異性較小,它們的ROC曲線較為集中。因此,我們引入了DET曲線,它由繪制出錯(cuò)誤拒絕率與錯(cuò)誤接受率測構(gòu)成,根據(jù)DET曲線定義,我們可以知道,如果數(shù)據(jù)集在模型上測評(píng)效果好,那么它的DET曲線越靠近左下角。
圖3 實(shí)驗(yàn)測評(píng)結(jié)果ROC-DET圖:第一排為ROC曲線,第二排為DET曲線
結(jié)合上文的敘述及圖表我們可觀察出:
(1)三類已訓(xùn)練好的算法下,均具有大大小小不同差異。由表2可知,測評(píng)中,3個(gè)測試集在3個(gè)算法中的AUC值均在0.9以上,具有較高準(zhǔn)確性。其中,‘lfw’>=‘漢族’>‘藏族’。
表2 試驗(yàn)中各分類器測評(píng)AUC值
(2)從ROC曲線和RET曲線來看,測評(píng)中‘lfw’人臉數(shù)據(jù)ROC曲線均最靠近左上角,RET曲線均最靠近左下角,測評(píng)效果最佳,‘漢族’次之,‘藏族’最差。
(3)從上述圖標(biāo)可見,‘lfw’的AUC值及曲線變化十分平緩,‘漢族’的AUC值及曲線變化幅度較大,‘藏族’的AUC值及曲線變化幅度最大。我們認(rèn)為,由于訓(xùn)練集采用互聯(lián)網(wǎng)爬取方式來進(jìn)行收集數(shù)據(jù),所收集的亞洲人種面容數(shù)據(jù)絕大多數(shù)為名人、明星等面容,而這些數(shù)據(jù)中絕大多數(shù)面容接近中國漢族,進(jìn)而導(dǎo)致‘漢族’變化幅度小于‘藏族’變化幅度,也證實(shí)了數(shù)據(jù)集的偏見會(huì)導(dǎo)致同人種的不同民族之間還是存在一些差異。
(4)從上述可知,三類已訓(xùn)練好的算法在人臉識(shí)別測試中,對(duì)歐美面孔最友好,中國漢族藏族次之。鑒于訓(xùn)練數(shù)據(jù)集中的偏見(絕大多數(shù)是歐美面孔,含有少量亞洲人種面孔),我們認(rèn)為,數(shù)據(jù)集的偏見,會(huì)降低一些亞洲人種和其中的一些民族的識(shí)別率和用戶體驗(yàn)。
針對(duì)分析結(jié)果,經(jīng)多重驗(yàn)證,排除可能存在的誤差,我們可知,人臉識(shí)別數(shù)據(jù)集由于收集條件的不同和收集者的主觀性,會(huì)導(dǎo)致一定的偏見現(xiàn)象,這些現(xiàn)象會(huì)導(dǎo)致利用這些數(shù)據(jù)集所訓(xùn)練出來的模型會(huì)對(duì)一些人種中的民族地區(qū)人臉識(shí)別不太友好(人臉識(shí)別率明顯低于算法公開測評(píng)數(shù)據(jù),相對(duì)而言,會(huì)降低民族地區(qū)人臉識(shí)別的識(shí)別率和用戶體驗(yàn))[7]。從數(shù)據(jù)集角度出發(fā),我們建議,在建立數(shù)據(jù)集時(shí),應(yīng)收集大量多樣的且具有更多相關(guān)標(biāo)簽(例如:民族、性別等)的訓(xùn)練數(shù)據(jù),提高對(duì)不同人種以及不同人種中不同民族面容數(shù)據(jù)的重視程度,進(jìn)而有效降低人臉識(shí)別數(shù)據(jù)集的偏見現(xiàn)象、提高人臉識(shí)別率。
本文通過LFW、自采數(shù)據(jù)集在經(jīng)典人臉識(shí)別算法SphereFace、CosFace、VGGFace進(jìn)行了識(shí)別測評(píng),研究了人臉識(shí)別數(shù)據(jù)集的偏見,通過這些研究,不但能夠促進(jìn)人臉識(shí)別數(shù)據(jù)集的健康、發(fā)展有效地提高人臉識(shí)別率,還能進(jìn)一步擴(kuò)展目前人臉檢測和人臉識(shí)別領(lǐng)域和提升民族地區(qū)人臉識(shí)別系統(tǒng)的人臉匹配速度,具有一定地現(xiàn)實(shí)意義。
由于時(shí)間、能力、知識(shí)儲(chǔ)備的限制,本文僅簡單地對(duì)基礎(chǔ)問題進(jìn)行了研究,仍然存在一些不足需要進(jìn)一步改進(jìn),今后我們從以下幾個(gè)方面進(jìn)行改進(jìn):①進(jìn)一步擴(kuò)大數(shù)據(jù)集規(guī)模,增加不同年齡、性別及群體的數(shù)據(jù)比重,提升結(jié)論可信度。②利用自創(chuàng)數(shù)據(jù)集訓(xùn)練模型,與利用傳統(tǒng)數(shù)據(jù)集訓(xùn)練的模型得到的結(jié)論進(jìn)行比較,進(jìn)一步探索數(shù)據(jù)集的偏見現(xiàn)象。③隨著人臉識(shí)別技術(shù)正在朝向多模態(tài)方向發(fā)展,在未來一段時(shí)間,開展彩色圖和深度圖結(jié)合的測評(píng)差異的研究。