• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于深度學習的物流快遞驛站異常行為識別方法

    2020-09-15 01:53:16陳松樂孫知信CHENSongleSUNZhixin
    物流科技 2020年9期
    關鍵詞:驛站分支卷積

    陳松樂,孫知信 CHEN Songle, SUN Zhixin

    (1. 南京郵電大學 江蘇省郵政大數(shù)據(jù)技術與應用工程研究中心,江蘇 南京 210003;2. 南京郵電大學 國家郵政局郵政行業(yè)技術研發(fā)中心(物聯(lián)網(wǎng)技術),江蘇 南京 210003)

    (1. Engineering Research Center of Post Big Data Technology and Application of Jiangsu Province, Nanjing University of Posts and Telecommunications, Nanjing 210003, China; 2. Research and Development Center of Post Industry Technology of the State Posts Bureau (Internet of Things Technology), Nanjing University of Posts and Telecommunications, Nanjing 210003, China)

    0 引 言

    近年來,在電子商務的強力推動下,我國物流快遞行業(yè)呈現(xiàn)出高速發(fā)展的態(tài)勢,在推動流通方式轉(zhuǎn)型、促進消費升級中發(fā)揮著越來越重要的作用[1]。在物流快遞的末端服務中,快遞網(wǎng)點、自助快遞柜和快遞驛站是較為常見的服務方式[2]。物流快遞驛站不僅為用戶提供了代收、保管、到付、派件等收件服務,而且提供了驗視、稱重、包裝計費等寄件服務。在功能上,物流快遞驛站相比于主要提供代收功能的自助快遞柜具有明顯的優(yōu)勢,而相比于快遞網(wǎng)點,物流快遞驛站更加接近消費者,且能夠為不同品牌的物流快遞公司提供服務。由于上述特點和優(yōu)勢,物流快遞驛站在人口密集的社區(qū)、校園越來越普及[3]。據(jù)統(tǒng)計,目前圓通旗下的媽媽驛站和阿里集團的菜鳥驛站已超過了5.6 萬個站點。

    物流快遞驛站往往采用自助管理方式,需要取件人自己到取件區(qū)域找到包裹,工作人員只在出口通道對其包裹進行掃碼。而在取件區(qū)域,為了減少人力成本,一般并不設置監(jiān)管人員,因此貨架上的包裹實際上處于一種無監(jiān)管的狀態(tài)。一些素質(zhì)不高的取件人不僅會隨意擺放他人的包裹,而且還可能會施加拋、擲、踩、踢等暴力動作,甚至會私自打開他人的包裹。這不僅造成了包裹在貨架上的錯放亂放,甚至會導致包裹的破損和丟失,不可避免地對物流快遞驛站自身以及驛站運營品牌造成非常負面的影響。

    事實上,物流快遞過程中的安全問題已經(jīng)引起了人們越來越多的重視[4]。物流快遞場所一般都安裝了攝像機系統(tǒng),其具有覆蓋范圍大、對環(huán)境和用戶透明、以及非侵入的優(yōu)點。針對物流快遞過程中的操作規(guī)范性問題,尚淑玲[5]提出了一種基于機器視覺的物流暴力分解方法,其利用小波包分析提取采集的物流分揀圖像特征,從而為物流暴力分揀識別提供相似性判斷依據(jù)。然而,該方法僅僅針對分揀操作人員,且只是對單張圖片進行判斷。劉穩(wěn)[6]提出了一種基于高斯混合模型和馬爾科夫鏈的目標檢測和跟蹤方法,然而其并不能實現(xiàn)對異常動作的分類。近年來,由于深度學習能夠有效解決傳統(tǒng)手工提取特征表達能力不足以及淺層機器學習方法泛化能力不足等問題,研究者提出了一些基于深度學習的人體行為識別方法[7],如RGB 和光流雙路卷積網(wǎng)絡[8]、三維卷積神經(jīng)網(wǎng)絡[9]、自動編碼器網(wǎng)絡[10]等。這些方法主要面向固定視角下的動作識別,也就是訓練過程和實際應用的視頻數(shù)據(jù)都是來自于相同的攝像機。然而不同物流快遞驛站場所的攝像機位置不可能是完全相同的,從而導致這些方法的實際應用效果會受到很大的影響。

    針對上述問題,本文提出了一種基于深度學習的物流快遞驛站異常行為識別方法。該方法采用卷積神經(jīng)網(wǎng)絡提取視頻每一幀的圖像特征,通過遞歸神經(jīng)網(wǎng)絡對幀與幀之間的時序關系進行建模,并采用多路分支網(wǎng)絡架構以適應不同物流快遞驛站的攝像機視角變化。在實際物流快遞驛站場景下的實驗結果驗證了本文方法的有效性。

    1 基于深度學習的物流快遞驛站異常行為識別

    1.1 方法總覽?;谏疃葘W習的物流快遞驛站異常行為識別方法的網(wǎng)絡結構如圖1 所示,其由多個分支網(wǎng)絡構成,每個分支網(wǎng)絡對應訓練場景中的特定攝像機視角,分別由卷積網(wǎng)絡、遞歸網(wǎng)絡、融合網(wǎng)絡和分類網(wǎng)絡構成。其中卷積網(wǎng)絡用來提取視頻中每一幀圖片的特征,遞歸網(wǎng)絡用來對幀與幀之間的時序關系進行建模。卷積網(wǎng)絡和遞歸網(wǎng)絡學習該視角相關的區(qū)分性特征,而融合網(wǎng)絡則對來自其他分支的特征數(shù)據(jù)進行融合,以利用不同分支提取特征的互補性,分類網(wǎng)絡最終輸出每一視頻幀屬于各個動作的概率。由于實際應用時物流快遞驛站的攝像機視角和訓練場景并不相同,因此單獨訓練一個視角分類網(wǎng)絡,用于給出輸入視頻屬于各個分支的概率。在應用階段,物流快遞驛站的每路視頻輸入到各個分支網(wǎng)絡,并使用視角分類網(wǎng)絡獲得的分支概率作為權重來集成各個分支上獲得的動作分類結果。

    圖1 基于深度學習的物流快遞驛站異常行為識別網(wǎng)絡結構

    1.2 基于卷積網(wǎng)絡的視頻幀圖像特征提取。物流快遞驛站攝像機拍攝的視頻流每一幀對應一張圖像,由于圖像是一種非結構化數(shù)據(jù),需要從圖像中提取其特征描述。當前,卷積神經(jīng)網(wǎng)絡已經(jīng)成為實現(xiàn)圖像特征提取的主要手段,其通常由卷積層、池化層、全連接層構成。卷積神經(jīng)網(wǎng)絡的輸入,即RGB 圖像,通常采用3 通道的矩陣來表示,其輸出為固定長度的特征向量。對于i路分支網(wǎng)絡t時刻輸入的圖像xt,i,卷積神經(jīng)網(wǎng)絡特征提取用函數(shù)形式定義為:

    其中:vt,i為提取的特征表示,θv,i為卷積神經(jīng)網(wǎng)絡fv,i的可調(diào)參數(shù)。AlexNet[11]、VGG[12]、ResNet[13]是已經(jīng)獲得成功的卷積神經(jīng)網(wǎng)絡架構。由于ResNet 在眾多的實驗數(shù)據(jù)集上都取得了比AlexNet 和VGG 更好的性能,因此本文采用ResNet 網(wǎng)絡來實現(xiàn)視頻流每一幀圖像特征的提取。

    在神經(jīng)網(wǎng)絡設計中,淺層網(wǎng)絡由于表達能力有限,往往無法獲得滿意的效果,因此人們通常通過加深網(wǎng)絡來提升訓練效果。然而過深的神經(jīng)網(wǎng)絡又很容易過擬合,導致模型收斂于局部最優(yōu)解。針對該問題,ResNet 引入了殘差網(wǎng)絡結構,通過分解來降低擬合函數(shù)的復雜度,而損失函數(shù)又是擬合函數(shù)的函數(shù),所以降低擬合函數(shù)的復雜度也就等同于降低損失函數(shù)的復雜度。ResNet 殘差網(wǎng)絡結構如圖2 所示。

    相比于重復地堆疊網(wǎng)絡,ResNet 在輸出和輸入之間引入了短路連接,從而可以有效地解決網(wǎng)絡層數(shù)過深出現(xiàn)的梯度消失問題。本文采用在ImageNet 11K 圖像集上預訓練的152層ResNet 網(wǎng)絡[14]提取視頻幀的圖像特征,輸入圖像的大小為224×224,輸出為ResNet152 網(wǎng)絡的flatten0_output 層,其維度為2 048 維,即vt,i∈R2048。

    圖2 ResNet 殘差網(wǎng)絡基本結構

    1.3 基于遞歸網(wǎng)絡的視頻幀與幀時序關系建模。從視頻幀中提取圖像特征的ResNet 卷積神經(jīng)網(wǎng)絡是前饋神經(jīng)網(wǎng)絡,整個網(wǎng)絡沒有反饋,因此也沒有時序上的記憶功能。實際上,物流快遞驛站攝像機拍攝的視頻流數(shù)據(jù)是時序數(shù)據(jù),視頻幀與幀之間并非獨立的,其內(nèi)部存在特定的邏輯關系。遞歸神經(jīng)網(wǎng)絡帶有環(huán)結構,可以記住序列前面的信息,因此具有一定的記憶功能,本文采用遞歸神經(jīng)網(wǎng)絡對視頻幀與幀之間的時序關系進行建模,其函數(shù)形式定義為:

    其中:vt,i為ResNet 卷積網(wǎng)絡對視頻幀提取的圖片特征,ht-1,i為遞歸神經(jīng)網(wǎng)絡fr,i的上一個時間步t-1 的輸出,θr,i為fr,i的可調(diào)參數(shù)。當前時間步t的輸出為ht,i,其融合了當前圖片以及前后關聯(lián)幀的信息,即當前視頻幀的上下文特征。普通的遞歸神經(jīng)網(wǎng)絡無法較好地解決長時依賴問題,即網(wǎng)絡無法學習到距離較遠的關聯(lián)信息。針對該問題,長短時記憶單元網(wǎng)絡(Long-Short-Term Memory, LSTM)[15]將傳統(tǒng)遞歸神經(jīng)網(wǎng)絡的隱含層替換為長短時結構單元,從而能夠有效地捕獲時序數(shù)據(jù)之間的動態(tài)依賴與長時依賴。此外,LSTM 能夠方便地擴展為多層結構和雙向結構以進一步提高模型的性能[16]。因此,本文采用LSTM 作為遞歸神經(jīng)網(wǎng)絡來對視頻幀之間的時序關系進行建模。LSTM 包含遺忘門(Forget Gate)、輸入門(Input Gate)、輸出門(Output Gate) 和一個記憶單元(Cel)l,其網(wǎng)絡結構如圖3 所示。

    其中:it、ft和ot分別為輸入門、輸出門和遺忘門的輸出,~ct為輸入調(diào)和模塊的輸出。輸入調(diào)和模塊和輸入門的輸入相同,但是其使用tanh激活函數(shù)。在圖3 中,σ 為sigmoid激活函數(shù),φ 為tanh激活函數(shù)。在實現(xiàn)中使用了2 層LSTM,每層各包含1 024 個單元。

    1.4 基于融合網(wǎng)絡的分支特征融合。與特定視角相對應的分支通過ResNet 網(wǎng)絡和LSTM 網(wǎng)絡獲得了當前視頻幀的上下文特征。通過訓練,這些分支上下文特征從不同的視角提取了用于對動作進行分類的區(qū)分性描述。然而不同分支之間的上下文特征之間存在著很大的相關性和互補性,可以進一步對其進行融合以提高行為識別的性能。對于每一個分支,本文采用的融合網(wǎng)絡定義為:

    其中:ht,i表示分支i在時刻t經(jīng)過ResNet 網(wǎng)絡和LSTM 網(wǎng)絡獲得的上下文特征,pool表示池化層函數(shù),分支i在時刻t經(jīng)過融合函數(shù)fm,i處理后獲得的融合特征表示為bt,i,θm,i為fm,i的可調(diào)參數(shù)。以分支1 為例,融合網(wǎng)絡結構如圖4 所示,其任務是從其他的分支中提取與分支1 相互補的特征。本文采用池化層來提取分支2 到分支n的上下文彷射不變特征并有效降低特征的維度。池化層可以選擇均勻池化或者最大化池化,通過實驗發(fā)現(xiàn)最大化池化相比于均勻池化能夠取得更好的性能,因此用最大化池化。在將池化層的輸出與分支1 的上下文特征進行合并后,采用1 層全連接層對合并的特征進行非線性變換。全連接層的輸出為2 048 維,采用relu激活函數(shù),最終得到2 048 維的分支1 融合特征bt,1。

    圖3 LSTM 網(wǎng)絡結構

    圖4 以分支1 為例的融合網(wǎng)絡結構

    1.5 動作分類網(wǎng)絡。分支融合網(wǎng)絡的輸出bt,i融合了分支i的上下文特征以及其他分支的互補特征,將作為分支動作分類網(wǎng)絡的輸入。動作分類網(wǎng)絡首先使用全連接線性變換層將其映射到等同于動作類別數(shù)的維度,最后采用SoftMax 進行歸一化,最終給出當前t時刻攝像機采集的視頻幀xt,i屬于每個動作類別的概率p(yc,i),即:

    其中:θc,i為分類網(wǎng)絡函數(shù)fc,i的可調(diào)參數(shù)。

    1.6 視角分類網(wǎng)絡與預測集成。在訓練階段,將各個視角的視頻數(shù)據(jù)和各個分支一一對應,從而完成分支網(wǎng)絡模型參數(shù)的更新。然而當實際應用到不同的物流快遞驛站時,并不能預先確定各路視頻和分支網(wǎng)絡的對應關系,并且各路視頻和分支網(wǎng)絡對應的視角也很難完全一致。為了提高訓練模型的泛化能力,本文采用視角分類網(wǎng)絡對輸入的視頻進行分類,從而得到輸入的視頻數(shù)據(jù)屬于各個分支網(wǎng)絡的概率。視角分類網(wǎng)絡結構如圖5 所示。

    對于視角分類網(wǎng)絡,采用1.2 節(jié)描述的ResNet152 卷積網(wǎng)絡提取視頻幀圖像特征,使用1.3 節(jié)描述的LSTM 遞歸網(wǎng)絡獲得融合時序信息的上下文特征,然后使用全連接層對提取的上下文特征進行非線性變換,全連接層的輸出為2 048 維,采用relu激活函數(shù),最后通過SoftMax 層得到輸入的視頻幀屬于各個分支對應視角的概率p(yi)。視角分類網(wǎng)絡可以定義為:

    其中:xt為各個視角的視頻幀圖像,θb為視角分類網(wǎng)絡fb的可調(diào)參數(shù)。實際應用時,對于物流快遞驛站監(jiān)控區(qū)域的每一路攝像機視頻數(shù)據(jù),將其輸入到訓練的每個分支模型中,得到每個分支模型i預測的動作分類結果p(yc,i),然后根據(jù)視角分類網(wǎng)絡預測的結果對分支預測的動作分類結果進行集成,最終的動作分類結果為:

    圖5 視角分類網(wǎng)絡結構

    1.7 模型訓練

    每個分支網(wǎng)絡對應的網(wǎng)絡參數(shù)是非共享的,其損失函數(shù)為交叉熵損失,即:

    其中:S為樣本數(shù),K為動作類別數(shù),當k為樣本s的實際類別時,ys,k=1,否則ys,k=0,ps,k為模型對樣本s預測為k類的概率。對于每個分支網(wǎng)絡,首先使用該分支對應視角的樣本單獨訓練出融合網(wǎng)絡之外的網(wǎng)絡參數(shù),在每個分支網(wǎng)絡訓練收斂后,再逐步訓練融合網(wǎng)絡的參數(shù)以及微調(diào)其他網(wǎng)絡模塊的參數(shù)。

    視角預測網(wǎng)絡的網(wǎng)絡參數(shù)對于所有的分支是共享的,同樣采用交叉熵損失函數(shù),即:

    其中S為所有視角的樣本數(shù),n為分支數(shù),當i為樣本s的實際分支對應的視角時,ys,i=1,否則ys,i=0,ps,i為視角預測網(wǎng)絡模型對樣本s預測為第i個分支對應的視角的概率。在預測出每一幀對應的動作后,使用前后各7 幀的預測結果進行平滑處理。

    2 實驗結果與分析

    為了對本文提出的方法進行驗證,在實際物流快遞驛站采集了取件過程中的異常動作。在訓練時,由于每一個分支網(wǎng)絡需要和特定的視角相對應,因此在物流快遞驛站共使用5 個攝像機來采集視頻數(shù)據(jù)。對于同一個動作,4 個互相正交的攝像機的數(shù)據(jù)作為訓練數(shù)據(jù),余下的1 個攝像機采集的數(shù)據(jù)作為測試數(shù)據(jù)。本次實驗共設計了踩、踢、拖、扔、拋5 類異常動作,如圖6 所示。每類動作采集了500 個樣本,共有20 個人參與了本次樣本采集,其中16 個人的執(zhí)行動作被作為訓練樣本,其余4 個人的執(zhí)行動作被作為測試樣本。此外,還從日??爝f驛站的視頻中截取了4 000 個正常的取件動作。正常動作和踩、踢、拖、扔、拋5 類異常動作的樣本總數(shù)為6 500 個,每個動作的持續(xù)時間為2~5 秒,對每個動作的視頻向下采樣,幀率為30 幀/秒。

    圖6 5 類異常行為動作示例

    本文以TensorFlow 為深度學習框架,在GPU Tesla P100 平臺上采用SGD 梯度下降算法對這些數(shù)據(jù)進行了訓練,設置學習率在開始的1 000 個循環(huán)中為0.001,然后逐漸減少到最小值0.0001。圖7 給出了其中一個分支網(wǎng)絡在訓練過程中的損失值變化過程。隨著迭代次數(shù)的增加,損失值逐漸變小,在迭代次數(shù)約為10K 的時候模型達到了收斂。

    本文通過多分支網(wǎng)絡架構來解決訓練模型應用到不同物流快遞驛站攝像機視角變化問題,為了驗證本文方法的有效性,采用圖5 所示的視角分類網(wǎng)絡結構實現(xiàn)了動作分類網(wǎng)絡作為對比,簡寫為ResNet+LSTM。此外,由于iDT[17]作為手工提取的特征在眾多的數(shù)據(jù)集上都取得了很好的識別性能,因此也將本文提出的方法與iDT 方法進行對比。表1 給出了這3 種方法對于異常行為的分類準確率,圖8 為其對應的柱狀圖顯示。

    從表1 圖8 可以看出,“扔”和“拋”這兩類異常行為的識別率要低于其他3 種類別的異常行為,可能的原因是“扔”和“拋”這兩個動作更容易受到貨架的干擾。總體上,iDT 在這3 種方法中性能較差,取得的平均準確率只有60.6%,盡管iDT 在固定視角情況下取得了較好的分類性能,然后當將其訓練的模型應用到新視角時,其手工提取的特征的泛化能力較差。ResNet+LSTM 方法獲得了73.8%的平均分類準確率,分類的性能要優(yōu)于iDT 方法,主要原因在于ImageNet 上預訓練的卷積網(wǎng)絡ResNet 提取的特征具有更好的表達能力。本文提出的方法獲得了最好的性能,其分類平均準確率達到了82.9%,這主要是因為在ResNet+LSTM 方法的基礎上,本文采用的分支網(wǎng)絡架構能夠根據(jù)新視角屬于每個分支的概率提取其區(qū)分性特征并有效對其融合,從而使訓練的模型能夠更好地適應不同的物流快遞驛站場景。

    3 總 結

    本文提出了一種基于深度學習的物流快遞驛站異常行為識別方法,其采用卷積神經(jīng)網(wǎng)絡ResNet152 和遞歸神經(jīng)網(wǎng)絡LSTM 提取視頻幀的上下文特征,并采用多路分支網(wǎng)絡架構以使得訓練的模型能夠適應不同物流快遞驛站的攝像機視角變化,實驗結果驗證了本文方法相比于基于手工特征的傳統(tǒng)方法以及基于單網(wǎng)絡結構的深度學習方法具有更好的性能。本文提出的網(wǎng)絡結構的輸入為連續(xù)的視頻并依次判斷每一幀屬于異常行為的概率,因此可以方便地將其應用到實際場景中。在今后的研究中,擬通過增加深度圖像以及光流信息來進一步提高識別的準確率。

    表1 三種方法對于異常行為分類性能對比

    圖7 分支網(wǎng)絡訓練過程中損失值變化過程

    圖8 三種方法對于異常行為分類性能對比

    猜你喜歡
    驛站分支卷積
    休閑驛站
    中老年保健(2022年3期)2022-08-24 02:58:00
    休閑驛站
    中老年保健(2022年5期)2022-08-24 02:36:30
    休閑驛站
    中老年保健(2022年4期)2022-08-22 03:01:04
    休閑驛站
    中老年保健(2022年6期)2022-08-19 01:41:14
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    巧分支與枝
    學生天地(2019年28期)2019-08-25 08:50:54
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標跟蹤算法
    一類擬齊次多項式中心的極限環(huán)分支
    一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
    電視技術(2014年19期)2014-03-11 15:38:20
    彰化市| 万年县| 青川县| 鄂尔多斯市| 神池县| 亚东县| 乌兰浩特市| 平顺县| 长治县| 西青区| 青海省| 蕉岭县| 唐山市| 施秉县| 宜兰县| 莆田市| 英德市| 科技| 临沭县| 清河县| 四川省| 湖南省| 皮山县| 洪雅县| 永济市| 勐海县| 榆社县| 长寿区| 常德市| 琼结县| 遂宁市| 宁安市| 贞丰县| 册亨县| 育儿| 广南县| 潼关县| 惠安县| 石城县| 防城港市| 凤翔县|