• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    多層次融合與注意力機制的人群計數(shù)算法

    2023-01-17 09:00:40孫艷歌郭華平
    吉林大學學報(信息科學版) 2022年6期
    關(guān)鍵詞:尺度計數(shù)注意力

    李 萌, 孫艷歌, 郭華平, 吳 飛

    (信陽師范學院 計算機與信息技術(shù)學院, 河南 信陽 464000)

    0 引 言

    中國是世界上人口數(shù)量眾多的國家, 其過高的人口密度對維護城市安全、 預(yù)防緊急公共事件都帶來很大困難。2020年一場突如其來的疫情改變了人們正常的生產(chǎn)生活秩序, 人群的過度聚集引發(fā)了很多起集中性的感染案例。例如, 在工業(yè)園區(qū)入口、 高校餐廳、 商場等人員密集場所, 由于人員的過度聚集, 造成了大量的集中性感染, 給疫情防控帶來了嚴峻的挑戰(zhàn)。目前, 在疫情防控常態(tài)化、 規(guī)范化下, 嚴格控制各公共場所中的人員數(shù)量是一種有效切斷疫情傳播鏈的方法。而通過在人群易聚集的公共場所布置攝像設(shè)備, 應(yīng)用人群計數(shù)的方法, 可高效快捷地統(tǒng)計出實時人群信息, 相關(guān)人員可及時地對人群密集的場所施行引流、 分流、 限制出入等措施, 可有效控制疫情集中性擴散的風險。因此, 如何從圖像或視頻中及時準確地估計人群數(shù)目與密度是非常值得研究的課題。

    透視效應(yīng)是人群計數(shù)問題中不可忽視的關(guān)鍵問題, 由于不同人群距離監(jiān)控設(shè)備之間的遠近不同, 在一張人群圖像中會存在多個尺度的人群, 對人群計數(shù)的精度產(chǎn)生干擾。為解決透視效應(yīng)引起的人群尺度變化問題, 人們利用多列卷積(MCNN: Multi-Column Convolutional Neural Network)或在不同卷積層上使用不同尺度的卷積核應(yīng)對, 或采用擴張卷積替換不同的卷積核, 但上述方法仍存在許多不足, 不能完善地解決尺度變化問題。多列卷積會使網(wǎng)絡(luò)變得更加復雜, 計算復雜度的急劇增加將導致模型難以收斂或梯度爆炸等問題。Li等[1]提出在MCNN中由不同列卷積得到的特征幾乎相同, 其對解決尺度變化問題的貢獻很小?;谏鲜鲇懻? 為更好地學習到不同尺度上的特征, 筆者采用一種編解碼網(wǎng)絡(luò)在不同層級的卷積上提取不同尺度的特征, 以應(yīng)對透視效應(yīng)帶來的尺度變化問題。通過對編解碼網(wǎng)絡(luò)遷移預(yù)訓練后的VGG16(Visual Geometry Group Network)[2]參數(shù), 降低網(wǎng)絡(luò)的復雜度。

    由于人群場景的復雜性, 樹木、 車輛等復雜背景會導致人群圖像存在大量遮擋, 只應(yīng)用人群密度圖對抗背景的干擾并不完善, 難以達到對人群區(qū)域的特征增強效果。大多工作只考慮了高層卷積對高級語義信息的提取, 而低層卷積對遮擋邊緣細節(jié)的提取常常被忽略。受多層次注意力模塊[3]的啟發(fā), 在不同的卷積層次上融合提取到的尺度注意力, 以對抗復雜背景的干擾。

    人群圖像經(jīng)過多次池化后, 其空間分辨率急劇下降, 丟失了大量的空間信息, 影響人群密度圖的生成。因此, 筆者在網(wǎng)絡(luò)的末端使用轉(zhuǎn)置卷積的方法對空間信息進行補充, 并提高了圖像分辨率?;谏鲜? 筆者提出了一種多層次融合與注意力機制的人群計數(shù)算法(MLFAM: Multi-Level Fusion and Attention Mechanism Based Crowd Counting Algorithm), 其貢獻主要包括3個方面: 1) 引入編解碼網(wǎng)絡(luò)對人群圖像的高層語義信息和低層邊緣特征進行提取并生成尺度注意力, 由于不同層級的卷積包含不同的語義信息與尺度特征, 高低層特征的融合可有效解決由透視效應(yīng)引發(fā)的尺度變化問題; 2) 提出多層次融合模塊在多個卷積層次上融合尺度注意力以對抗人群圖像中存在的嚴重遮擋與尺度變化問題; 3) 在解碼層和網(wǎng)絡(luò)的末端使用反池化與轉(zhuǎn)置卷積恢復由編碼層多層池化引起的分辨率下降、 空間信息與全局信息丟失等問題, 以生成更高質(zhì)量的人群密度圖。應(yīng)用遷移學習的思想, 在編解碼層中遷移了預(yù)訓練后的VGG16參數(shù), 有效地降低了計算復雜度與網(wǎng)絡(luò)復雜度。

    1 相關(guān)工作

    影響人群計數(shù)的主要因素是人群尺度變化、 復雜背景干擾等。為解決上述問題帶來的計數(shù)精度下降, 目前人們采用如下方法進行研究。

    1.1 傳統(tǒng)方法

    傳統(tǒng)方法分為基于回歸和基于檢測兩大類?;跈z測方法的主要思想是先檢測到每個行人, 再對行人數(shù)量進行相加, 得到總?cè)藬?shù)。Dollar等[4]使用類似于滑動窗口的方式從圖像中提取特征, 再通過分類器對行人進行識別, 最后將人數(shù)相加得到總?cè)藬?shù)。該方法在面對稀疏的人群場景時可以得到較好的結(jié)果, 但真實人群圖往往十分擁擠, 且行人間存在著嚴重的互相遮擋, 無法提取到完整的行人特征。因此, Felzenszealb等[5]設(shè)計與訓練了一個只利用人體部分特征判斷的分類器, 但該分類器在面對高密度的人群場景時, 仍存在較為嚴重的誤差。為解決上述方法在應(yīng)對高密度人群場景時的缺陷, Chen等[6]提出了一種自適應(yīng)的回歸預(yù)測方法, 通過從人群場景中提取的特征學習圖像特征到人群數(shù)量之間的映射關(guān)系。

    綜上, 傳統(tǒng)方法主要依賴人工提取的特征對行人進行識別, 但該類方法不能很好反應(yīng)人群圖像的真實情況, 且容易受到多尺度、 背景復雜等問題的干擾, 對人群計數(shù)的精度產(chǎn)生影響, 在實際應(yīng)用中的預(yù)測效果較差。

    1.2 基于深度學習方法

    近年來, 隨著深度學習在計算機視覺任務(wù)[7-10]中的不斷發(fā)展, 應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)對人群圖像進行特征提取與人數(shù)預(yù)測是目前最為有效的方法。卷積神經(jīng)網(wǎng)絡(luò)通過提取的深度特征生成包含有人群空間與數(shù)量信息的人群密度圖, 再對密度圖逐像素求和得到總?cè)藬?shù)。針對人群圖像中的尺度變化問題, Zhang等[11]提出的多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)使用多尺寸的卷積核提取不同感受野的特征。類似地, Sam等[12]提出了一種密度分類網(wǎng)絡(luò)(Switch-CNN: Switching Convolutional Neural Network), 使用密度分類器自適應(yīng)地輸出密度等級。Amirgholipour等[13]提出了一種基于金字塔密度感知注意力的網(wǎng)絡(luò)(PDANet: Pyramid Density-Aware Attention based Network), 通過金字塔規(guī)模特征和兩個分支解碼模塊在提取不同尺度特征的同時抑制背景噪聲。Sindagi等[14]提出了一種多層次的自下而上和自上而下的融合網(wǎng)絡(luò)(MBTTBF: Multi-level Bottom-Top and Top-Bottom Feature Fusion), 通過一種雙向的特征融合方式, 將低層特征融合到高層, 也將高層特征融合到低層, 從而提升了網(wǎng)絡(luò)對尺度信息的表達能力。

    針對復雜背景造成的人群遮擋問題, 主要的解決方案為利用視覺注意力機制, 使網(wǎng)絡(luò)有意識地聚焦人群圖像中更有用的信息, 以提高計數(shù)精度。Liu等[15]提出了一種可形變卷積神經(jīng)網(wǎng)絡(luò)(ADCrowdNet: An Attention-Injective Deformable Convolutional Network), 通過一階段網(wǎng)絡(luò)AMG(Attention Map Generator)為二階段網(wǎng)絡(luò)DME(Density Map Estimator)提供人群區(qū)域候選與擁擠度等先驗信息的方式, 提升了網(wǎng)絡(luò)對復雜背景的過濾能力以及在不同人群分布下的性能。Ilyas等[16]提出了一種基于CNN(Convolutional Neural Network)的密集特征提取網(wǎng)絡(luò), 利用密集特征提取模塊(DFEMs: Dense Feature Extraction Modules)和通道注意模塊(CAM: Channel Attention Module)將底層提取的特征通過密集連接傳播到上層, 并加入通道注意力以獲得全局信息, 提升了網(wǎng)絡(luò)在密集場景下的計數(shù)精度。

    2 多層次融合與注意力機制的人群計數(shù)算法

    在應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)模型解決人群計數(shù)問題時, 多數(shù)方法都是直接將人群圖映射為密度圖, 從而忽略了人群圖像背景產(chǎn)生的干擾。近年來提出的一些方法應(yīng)用注意力機制解決背景干擾的問題, 但往往只考慮了由高層特征生成的注意力, 忽視了低層的細節(jié)特征, 其在面對如樹葉、 建筑物、 車輛等復雜背景的干擾時并不能很好的對人群密度圖進行預(yù)測。而傳統(tǒng)方法在應(yīng)對由透視效應(yīng)引起的人群尺度變化問題時, 無法進行有效的識別與判斷, 影響了人群密度圖的精度。因此, 筆者提出了一種多層次融合與注意力機制的人群計數(shù)算法(MLFAM), 其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

    圖1 MFAN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 The diagram of MFAN network structure

    該網(wǎng)絡(luò)結(jié)構(gòu)包含尺度注意力提取與多層次融合兩個子網(wǎng)絡(luò), 用于在多層級卷積上融合不同尺度的注意力, 以實現(xiàn)對密度圖更好地預(yù)測,

    2.1 尺度注意力提取網(wǎng)絡(luò)

    表1 多尺度注意力提取網(wǎng)絡(luò)參數(shù)配置

    2.2 多層次融合網(wǎng)絡(luò)

    多層次融合網(wǎng)絡(luò)由兩個階段構(gòu)成, 分別為融合特征提取和人群密度圖的生成。第1階段采用預(yù)訓練的VGG16網(wǎng)絡(luò)中前13層卷積作為主干, 并在每個卷積塊之前增加一個特征融合操作, 即

    (1)

    2.3 損失函數(shù)

    筆者采用歐幾里得距離衡量真實密度圖與預(yù)測密度圖之間的差值, 其定義如下

    (2)

    其中θ表示一組在網(wǎng)絡(luò)訓練時的參數(shù),N表示訓練的樣本數(shù)量。Fd(xi,θ)表示在參數(shù)為θ的網(wǎng)絡(luò)中輸入xi圖像后輸出的預(yù)測密度圖,yt表示與輸入圖像xi對應(yīng)的真實密度圖。

    3 實 驗

    在2塊RTX 2080Ti GPU上進行實驗。網(wǎng)絡(luò)整體基于Pytorch架構(gòu), 使用初始學習率為1×10-5的Adam優(yōu)化器對網(wǎng)絡(luò)參數(shù)優(yōu)化, 并在除輸出層外的每個卷積層應(yīng)用批正則化和Relu, 以提高網(wǎng)絡(luò)的訓練速度并有效地避免梯度消失和爆炸等情況。

    3.1 真值的生成

    現(xiàn)有的數(shù)據(jù)集大都提供原始圖像中人群的空間位置坐標與總?cè)藬?shù)。首先, 對原始圖像的真值圖進行裁剪, 得到4幅用于監(jiān)督尺度注意力提取網(wǎng)絡(luò)的真值圖集。其次, 使用自適應(yīng)的高斯核函數(shù)生成人群密度圖的真值, 自適應(yīng)高斯核函數(shù)定義如下

    (3)

    3.2 評價標準

    使用兩個在人群計數(shù)方法中常用的指標, 即平均絕對誤差(MAE: Mean Absolute Error,EMAE)與均方誤差(MSE: Mean Squared Error,EMSE)。其中MAE可以表示預(yù)測的準確性, MSE表示預(yù)測的魯棒性。具體定義如下

    (4)

    (5)

    其中N表示測試圖像的總數(shù)量,Fdi表示對第i個圖像的預(yù)測人數(shù),Di表示第i個圖像的真實人數(shù)。

    3.3 在ShangHaitech數(shù)據(jù)集上的實驗

    ShangHaitech數(shù)據(jù)集是一個多樣且擁擠的數(shù)據(jù)集, 該數(shù)據(jù)集包括了Part A和Part B兩個部分。其中Part A是從互聯(lián)網(wǎng)上搜集的高密度人群照片, 共有482張圖片, 每張圖片的平均人數(shù)達到了501人, 人數(shù)最多的一張圖片中有3 139人。Part B是通過在上海街頭布置的攝像設(shè)備抓拍得到的, 相對于Part A, 其人群密度較為稀疏, 圖片的平均人數(shù)為124人, 最多的一幅圖片中有578人。在Part A和Part B中分別設(shè)置300張圖片和400張圖片進行訓練, 182張圖片和316張圖片進行測試。

    表2給出了使用MAE和MSE評價指標與最先進方法進行比較的結(jié)果。從表2可以看出, 在PartB數(shù)據(jù)集的測試中筆者方法明顯優(yōu)于其他方法, MAE提高了17%; MSE提高了25%, 有效證明了該方法的優(yōu)越性。同時, 在Part A數(shù)據(jù)集上, MAE提高了1.6%, 可以說明本模型具有良好的準確性。但在MAE方面稍低于CAT-CNN(Crowd Attention Convolutional Neural Network)模型, 這表明筆者方法在預(yù)測的魯棒性上存在一定的問題。

    表2 在ShangHaitech數(shù)據(jù)集上使用不同方法的性能比較

    圖2給出了訓練后的模型對人群密度圖進行預(yù)測的結(jié)果, 并與其真值進行了對比, 第1列為原始圖像, 第2列為MFAN得到預(yù)測人群密度圖, 第3列為人群密度圖的真值??梢钥闯? 本模型生成了人群分布較為準確的密度圖, 有效地解決了復雜背景造成的遮擋問題。

    圖2 在ShangHaitech數(shù)據(jù)集上的實驗對比Fig.2 Experimental comparison on the ShangHaitech dataset

    3.4 在UCF_CC_50數(shù)據(jù)集上的實驗

    UCF_CC_50數(shù)據(jù)集包含了50張具有不同視角和分辨率的圖像, 每張圖像的平均人數(shù)達到了1 280人, 最多的一幅圖像中更是達到了4 543人, 整個數(shù)據(jù)集共標記了63 075人。由于該數(shù)據(jù)集中可供選擇的圖像太少, 不便于進行訓練集和測試集的劃分, 因此采用五折交叉驗證的方法對數(shù)據(jù)集進行最大限度地利用。5次實驗結(jié)果如表3所示。

    表3 在UCF_CC_50數(shù)據(jù)集上使用不同方法的性能比較

    將五折交叉驗證得到結(jié)果與目前最先進的方法在MAE和MSE方面進行比較, 其結(jié)果如表3所示??梢钥闯? 相較于最先進的方法, 筆者方法的MAE提高了7%, 但在MSE方面稍差于PCC Net(Perspective Crowd Counting via Spatial Convolutional Network)。該結(jié)果有效地說明了本模型具有較高的準確性, 但在魯棒性方面還存在一定的問題。

    圖3給出了訓練后的模型對人群密度進行預(yù)測的結(jié)果, 并與其真值進行了比較。第1列為原始圖像, 第2列為MFAN得到預(yù)測人群密度圖, 第3列為人群密度圖的真值。可以看出, 本模型可以較好的解決由透視效應(yīng)引發(fā)的人群尺度變化問題, 可對擁擠的人群進行較好地預(yù)測并生成準確的人群密度圖。

    圖3 在UCF_CC_50數(shù)據(jù)集上的實驗對比Fig.3 Experimental comparison on the UCF_CC_50 dataset

    3.5 消融實驗

    為證明MFAN結(jié)構(gòu)的有效性, 在ShanghaiTech Part A數(shù)據(jù)集上進行了消融實驗, 結(jié)果如表4所示。主網(wǎng)絡(luò)即多層次融合網(wǎng)絡(luò)去除掉注意力模塊的其余部分, 其結(jié)果已優(yōu)于大部分的經(jīng)典人計數(shù)網(wǎng)絡(luò), 證明了骨干網(wǎng)絡(luò)具有較為優(yōu)秀的特征提取能力。在加入尺度注意力后, MFAN的計數(shù)精度得到顯著提升, 驗證了筆者所提方法的合理性。

    表4 在ShangHaitech數(shù)據(jù)集上的消融實驗

    4 結(jié) 語

    筆者提出了一種多層次融合與注意力機制的編解碼人群計數(shù)網(wǎng)絡(luò), 采用編解碼網(wǎng)絡(luò)進行尺度注意力提取, 并在多層次融合網(wǎng)絡(luò)中對提取到的尺度注意力進行融合, 在對抗復雜背景的同時, 有效地抑制了由透視效應(yīng)帶來的尺度變化問題, 進而生成高質(zhì)量的人群密度圖。經(jīng)過實驗分析, 證明了MFAN具有較好的魯棒性與準確性。在未來的工作中, 將在其他人群計數(shù)數(shù)據(jù)集上進行實驗, 以充分說明MFAN在不同環(huán)境下的性能, 并考慮利用圖片與現(xiàn)實世界間空間關(guān)系的先驗知識, 以進一步改善尺度注意力的提取。

    猜你喜歡
    尺度計數(shù)注意力
    讓注意力“飛”回來
    古人計數(shù)
    遞歸計數(shù)的六種方式
    財產(chǎn)的五大尺度和五重應(yīng)對
    古代的計數(shù)方法
    這樣“計數(shù)”不惱人
    “揚眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    A Beautiful Way Of Looking At Things
    宇宙的尺度
    太空探索(2016年5期)2016-07-12 15:17:55
    9
    理塘县| 无极县| 大理市| 隆昌县| 郎溪县| 呼和浩特市| 金华市| 苏州市| 琼中| 桂林市| 涪陵区| 泽州县| 德安县| 蕉岭县| 庄浪县| 徐州市| 泽普县| 枣强县| 赣榆县| 诏安县| 塘沽区| 彰武县| 抚州市| 罗田县| 龙海市| 乌拉特前旗| 新化县| 峨眉山市| 山东| 井陉县| 龙江县| 依兰县| 东至县| 阿合奇县| 元氏县| 河南省| 武乡县| 朝阳市| 工布江达县| 西林县| 连城县|