• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      注意力機(jī)制的唇動序列數(shù)字驗(yàn)證碼識別方法

      2021-04-11 14:56:48廣東工業(yè)大學(xué)自動化學(xué)院馮省城
      電子世界 2021年6期
      關(guān)鍵詞:唇語注意力維度

      廣東工業(yè)大學(xué)自動化學(xué)院 馮省城

      當(dāng)前的人臉識別算法發(fā)展迅速,已經(jīng)能夠以極高準(zhǔn)確率進(jìn)行人臉驗(yàn)證。但是使用照片也可以有效地通過人臉驗(yàn)證,所以還需要進(jìn)行人臉活體檢測進(jìn)行驗(yàn)證是否為真人。我們可以讓人說出所提供的數(shù)字驗(yàn)證碼,通過唇動序列識別出所說的數(shù)字驗(yàn)證碼,然后進(jìn)行正確性的驗(yàn)證,進(jìn)而進(jìn)行活體檢測?;贑NN+LSTM+CTC的傳統(tǒng)方法對于數(shù)據(jù)量小的數(shù)據(jù)集會出現(xiàn)難以收斂,并且準(zhǔn)確率不高。本文使用注意力機(jī)制對不同位的數(shù)字進(jìn)行分別的分類,這樣就把多分類簡化為一個10分類問題。實(shí)驗(yàn)表明,本文提出的基于CNN+GRU+ATTENTION的方法,對于小數(shù)據(jù)量的數(shù)據(jù)集能夠更好的收斂,并且有更高的準(zhǔn)確率。

      唇語識別技術(shù)能通過唇動視頻序列來理解人說話內(nèi)容的一種技術(shù)。當(dāng)處于噪聲環(huán)境之下時,語音識別的準(zhǔn)確率會有很大的下降,唇動序列能夠幫助我們理解人的說話內(nèi)容。所以唇語識別技術(shù)結(jié)合基于聲學(xué)模型的語音識別技術(shù),能夠解決噪聲的問題。同時對于人臉活體檢測的問題,我們也能夠通過人臉識別技術(shù)和唇語識別技術(shù)相結(jié)合來解決。人臉識別技術(shù)用于識別進(jìn)行視頻中人的身份認(rèn)證,唇語識別技術(shù)用于進(jìn)行視頻中人的真實(shí)性驗(yàn)證,所以一個高效并且高精度的唇語識別算法是至關(guān)重要的。

      最先進(jìn)的單個詞匯唇語識別方法由一個3D卷積層,接著是一個18層殘差網(wǎng)絡(luò)(ResNet),一個雙向門控復(fù)發(fā)單元(BGRU)網(wǎng)絡(luò)和一個softmax層。它在LRW和LRW1000數(shù)據(jù)集實(shí)現(xiàn)了最好的性能。而我們的數(shù)字驗(yàn)證碼唇語識別是無法使用這種方法進(jìn)行識別的,需要使用基于句子級別的唇語識別,但是句子級別的唇語識別模型因?yàn)樾枰獜?qiáng)大的前后語意,需要較為龐大模型參數(shù),對于數(shù)字驗(yàn)證碼識別唇語識別的應(yīng)用場景,我們需要一個模型更加小的方法。其中基于CNN+LSTM+CTC的方法是一種可行方法,但是基于數(shù)字驗(yàn)證碼是固定的特性,本文設(shè)計(jì)出一種基于注意力機(jī)制的唇動序列數(shù)字驗(yàn)證碼識別方法,有更好的精度和效率。

      1 注意力機(jī)制模塊

      注意力機(jī)制是一種模仿人類視覺機(jī)制的方法,在人類根據(jù)所看到的圖像里,快速掃描全局圖像,然后會根據(jù)自己的重點(diǎn)選擇性關(guān)注對自己有用的信息,忽略其他無用的信息。也就是說注意力機(jī)制就是對某一區(qū)域給與更大的關(guān)注,從而獲得關(guān)鍵點(diǎn)更多有用的信息,抑制其他區(qū)域無用的信息。從人類進(jìn)化角度來說,這使得人類極大的提高了視覺處理上的高效性和準(zhǔn)確性。注意力機(jī)制已經(jīng)成功的運(yùn)用在許多領(lǐng)域,如自然語言處理,計(jì)算機(jī)視覺等。那么在網(wǎng)絡(luò)中,注意力機(jī)制本質(zhì)上關(guān)注的是什么呢。注意力機(jī)制我們分為通道注意力機(jī)制和空間注意力機(jī)制。通道注意力機(jī)制是通過對卷積的特征維度通道進(jìn)行一個權(quán)重的計(jì)算,因?yàn)樘卣骶S度通道代表的是各個特征的信息,所以通道注意力機(jī)制是篩選出對于結(jié)果有用的特征通道,忽略其他無用的特征通道??臻g注意力機(jī)制顧名思義就是關(guān)注空間中重要的信息,忽略空間中無用的信息。兩種注意力機(jī)制沒有本質(zhì)的區(qū)別,只是關(guān)注的維度不同而已。這里我們根據(jù)我們的唇動序列提出一個注意力機(jī)制網(wǎng)絡(luò),用于關(guān)注唇動序列中哪些序列屬于有用信息,哪些序列屬于無用信息。如圖1所示,輸入為經(jīng)過卷積提取的圖像序列特征,維度為N×C,通過兩個全連接層FC提取出權(quán)重信息,維度為N×1,然后把這個權(quán)重信息和輸入相乘,從而調(diào)整N這個維度的注意重點(diǎn)。因?yàn)镹這個維度是唇動序列維度,也就是通過注意力機(jī)制提取出相對有用的唇動序列信息。

      圖1 注意力模塊結(jié)構(gòu)圖

      2 基于注意力機(jī)制的唇動序列數(shù)字驗(yàn)證碼識別方法

      在基于CNN+LSTM+CTC的傳統(tǒng)方法中,我們使用CNN卷積網(wǎng)絡(luò)對每一幀嘴唇圖像進(jìn)行空間特征的提取,然后使用LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)提取唇動序列之間的時間信息特征,最后用CTC-Loss對每一幀回歸到每一個數(shù)字標(biāo)簽,從而實(shí)現(xiàn)唇動序列數(shù)字驗(yàn)證碼的識別。本文在此方法的基礎(chǔ)上提出了基于注意力機(jī)制的唇動序列數(shù)字驗(yàn)證碼識別方法。首先,我們?nèi)匀皇褂靡粯拥目臻g和時間的特征提取網(wǎng)絡(luò)進(jìn)行唇動序列的空間時間特征的提取,然后我們使用多個注意力機(jī)制模塊,對提取出來的特征進(jìn)行不同幀間的權(quán)重改變,使得不同位數(shù)的驗(yàn)證碼注意力集中在其對應(yīng)的圖像幀上,同時使用損失函數(shù)回歸每一個數(shù)字驗(yàn)證碼位,從而實(shí)現(xiàn)唇動序列數(shù)字驗(yàn)證碼識別。

      網(wǎng)絡(luò)基本框架如圖2所示,我們使用resnet18作為圖像特征的提取,因?yàn)樽齑教卣飨鄬唵?,所以我們使用層?shù)相對較淺的特征提取網(wǎng)絡(luò)就能夠滿足性能要求。使用GRU循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行時序特征的提取,GRU相對于LSTM,更加容易收斂,不容易過擬合。我們假設(shè)我們的驗(yàn)證碼位數(shù)是4位,所以使用了四個注意力模塊,讓不同位置的驗(yàn)證碼關(guān)注不同的視頻幀,從而實(shí)現(xiàn)4個位驗(yàn)證碼的分類。同時我們使用arcloss損失函數(shù)替代一般的交叉熵?fù)p失函數(shù),使得不同類的特征間距更加的大,最終獲得四位數(shù)字驗(yàn)證碼結(jié)果。

      圖2 網(wǎng)絡(luò)框架

      通常訓(xùn)練的模型往往會過度擬合數(shù)據(jù)集場景,目標(biāo)詞總是在其中心位置。在這種有偏差的環(huán)境下訓(xùn)練的模型可以記住這些偏差,并對輸入的微小變化變得敏感。例如,簡單地從輸入序列中刪除一個隨機(jī)幀會導(dǎo)致性能顯著下降。所以為了避免這種數(shù)據(jù)集的偏差,我們提出了一種方法,即對每個輸入訓(xùn)練序列在目標(biāo)詞邊界之前和之后的一個隨機(jī)點(diǎn)進(jìn)行隨機(jī)裁剪。雖然這種變化不會直接改善現(xiàn)有的基準(zhǔn),但我們認(rèn)為它產(chǎn)生了更健壯的模型。

      3 實(shí)驗(yàn)結(jié)果與分析

      本文是基于數(shù)字驗(yàn)證碼來做唇語識別的實(shí)驗(yàn),并且在實(shí)際應(yīng)用中是可以通過手機(jī)攝像頭獲得清晰的唇動序列,所以綜合考慮下,使用OuluVs2數(shù)據(jù)集作為本文的實(shí)驗(yàn)數(shù)據(jù)集。OuluVs2數(shù)據(jù)集具有多個視角的唇動序列,并且也有關(guān)于數(shù)字驗(yàn)證碼的相關(guān)唇動序列樣本,所以我們使用該數(shù)據(jù)集的正面視角中的數(shù)字驗(yàn)證碼部分作為實(shí)驗(yàn)數(shù)據(jù)。該數(shù)據(jù)集是在實(shí)驗(yàn)室環(huán)境下采集,樣本中總共有52個人,每個人說出30個不同的數(shù)字驗(yàn)證碼,總共有1560個樣本,通過隨機(jī)分配成1400個訓(xùn)練集,160個作為測試集。

      我們使用相同的數(shù)據(jù)集對不同的算法進(jìn)行性能測試,一種是基于CNN+LSTM+CTC的傳統(tǒng)方法,一種是我們提出的基于CNN+GRU+Attention的方法。使用的評測指標(biāo)為精確度,其中對于一個樣本所有數(shù)字驗(yàn)證碼的位數(shù)都對就認(rèn)為是正確的,有一個數(shù)字識別錯誤了就認(rèn)為是錯誤的。

      表1 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)結(jié)果如表1所示,在同樣的實(shí)驗(yàn)設(shè)置下,本文方法在精確度上比傳統(tǒng)方法提高了5個百分點(diǎn)的精度??梢钥闯?,我們的方法具有一定的優(yōu)越性。

      猜你喜歡
      唇語注意力維度
      讓注意力“飛”回來
      淺論詩中“史”識的四個維度
      中華詩詞(2019年7期)2019-11-25 01:43:00
      碰撞:“唇語”應(yīng)對媒體vs志愿者自責(zé)哭泣
      唇語
      文學(xué)港(2019年5期)2019-05-24 14:19:42
      親情助力,90后“唇語女博士”名震清華
      搜狗推出“唇語識別”技術(shù)
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      光的維度
      燈與照明(2016年4期)2016-06-05 09:01:45
      “五個維度”解有機(jī)化學(xué)推斷題
      大兴区| 凤台县| 乃东县| 泾源县| 鸡泽县| 屯门区| 灵石县| 齐齐哈尔市| 康定县| 涟水县| 莆田市| 阿荣旗| 和龙市| 祁东县| 突泉县| 水城县| 安远县| 万盛区| 新化县| 吉安县| 额济纳旗| 锡林郭勒盟| 阿克陶县| 什邡市| 白城市| 若羌县| 兰考县| 曲沃县| 红河县| 山东省| 黄骅市| 湖北省| 思茅市| 汪清县| 重庆市| 阿拉善盟| 县级市| 白河县| 兴安盟| 额尔古纳市| 越西县|