張 菁,陳慶奎
(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200093)
隨著城市人口的增多,在狹小空間的場景下,人群密度高,很容易造成擁擠,從而引發(fā)安全隱患。為維護(hù)公共安全,需要實時獲取人群的擁擠程度,根據(jù)不同的擁擠等級實施不同的調(diào)度策略合理分配資源[1],實現(xiàn)公共場所下人群的流量控制,因此,空間內(nèi)人群擁擠度的分析極為重要。傳統(tǒng)人群擁擠度的監(jiān)控主要靠人力監(jiān)控,但很難同時且長時間監(jiān)控多個場景,并且人力監(jiān)控主觀性較強(qiáng),不同的人給出的擁擠等級的標(biāo)準(zhǔn)都不盡相同。然而,通過深度學(xué)習(xí)來自動獲取人群擁擠率可以節(jié)約人力物力,提高工作效率和準(zhǔn)確率。
但是人群擁擠度的估計面臨著許多挑戰(zhàn),如背景雜亂、嚴(yán)重遮擋、密度不均勻、場景內(nèi)和場景間的尺度以及視角變化等。近年來,隨著深度學(xué)習(xí)和大規(guī)模人群數(shù)據(jù)集的發(fā)展,多數(shù)量化當(dāng)前場景人群的方法都取得了顯著的成果。但是多數(shù)模型只適用于室外、視角廣闊、人群密度均勻的場景,而在如直升電梯、樓道、隧道、車廂等狹小空間內(nèi),視角局限、人群遮擋嚴(yán)重、圖像尺度不一致增加了對人群密度分析的難度。
本文針對狹小空間場景下的人群進(jìn)行分析,提出一種基于注意力機(jī)制的人群量化方法。該方法將擁擠率作為網(wǎng)絡(luò)真實值,通過對其進(jìn)行回歸得到估計的擁擠率,并在ResNet提取特征的基礎(chǔ)上進(jìn)行微調(diào),以適應(yīng)本文數(shù)據(jù)集的訓(xùn)練,在此基礎(chǔ)上引入注意力機(jī)制,構(gòu)建一個新的注意力注入網(wǎng)絡(luò)及數(shù)據(jù)集NS-DATASET。
人群被視為一個連續(xù)密度函數(shù)[2],其對任意圖像區(qū)域的積分得到該區(qū)域內(nèi)行人的數(shù)量。近年來,主流的量化人群的方法主要是通過標(biāo)記的人頭點來生成密度圖,將密度圖作為網(wǎng)絡(luò)的真實值,對卷積神經(jīng)網(wǎng)絡(luò)回歸的密度圖進(jìn)行積分得到具體人數(shù)。為解決人群多視角、多尺度分布不均勻的問題,文獻(xiàn)[3]提出多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)來提取多種圖像多尺度特征;文獻(xiàn)[4]提出單列卷積神經(jīng)網(wǎng)絡(luò)CSRNet使用了空洞卷積,在擴(kuò)大感受野的同時,不損失圖像分辨率,以克服多列卷積訓(xùn)練的弊端;文獻(xiàn)[5]提出利用單列深層網(wǎng)絡(luò)saCNN,通過跳過連接將兩層的兩個特征映射組合在一起,完成圖像多尺度的提取。這些方法都旨在生成更精準(zhǔn)的密度圖,通過對密度圖積分來計算具體人數(shù),從而分析空間內(nèi)擁擠程度。
但是在狹小空間內(nèi)視角受到的局限,人與人、人與物品的遮擋十分嚴(yán)重,利用目標(biāo)檢測[6]很難精準(zhǔn)地識別出每個人,并且人的尺度不一,人頭點的密度不均勻,對于基于密度圖[3-5]的方法,本文的實驗結(jié)果表明,回歸的密度圖在密度小、空間狹窄的環(huán)境下,沒有展現(xiàn)出很好的效果,因此只能用于視野廣闊、密度均勻和高度擁擠的場景。
目前多數(shù)方法利用卷積神經(jīng)網(wǎng)絡(luò)將人群劃分為不同的擁擠等級,通過不同的等級分類實現(xiàn)對人群密度的監(jiān)控。文獻(xiàn)[7-9]通過分析圖像的紋理特征來提取人群密度特征,然后采用SVM進(jìn)行分類,將人群密度分為若干個等級。文獻(xiàn)[10-11]通過比較目前流行的深度學(xué)習(xí)網(wǎng)絡(luò)框架,選取了GoogLeNet[12]作為主干網(wǎng)絡(luò),對人群密度進(jìn)行分類。針對人群密度不均勻的情況,文獻(xiàn)[13]依據(jù)像素稠密度將圖像中的人群分割成若干團(tuán)塊,每塊分為高低密度兩類。上述方法都能得到有效的密度等級分類,但是分化的類別單一,并不能很好地起到量化人群的作用。
為了能更好地量化人群,本文設(shè)計了一個能直接反映當(dāng)前場景擁擠率的模型——設(shè)置網(wǎng)絡(luò)的真實值為擁擠率(當(dāng)前實際人數(shù)除以空間最大容納數(shù))。這相比于回歸密度圖的方法,能將數(shù)據(jù)歸一化,減小數(shù)據(jù)間的差異,并且更注重人群整體密度情況而不是聚焦到單個人數(shù)上面,提高了人群量化的準(zhǔn)確性。而和直接將人群分為若干個等級相比,本文的模型相當(dāng)于將擁擠率分為0~100,共101個等級,量化的更加細(xì)致,更能反映當(dāng)前人群密度的真實情況。本文選擇采用微調(diào)過的ResNet50[14]作為網(wǎng)絡(luò)主干,因為ResNet有著強(qiáng)大的表征能力,使得目標(biāo)檢測和圖像識別的許多計算機(jī)視覺應(yīng)用都得到了性能提升。
但由于網(wǎng)絡(luò)的真實值是擁擠率,只是一個數(shù)值,模型在訓(xùn)練前并沒有區(qū)分背景與目標(biāo),只能依賴于大量的數(shù)據(jù)不斷學(xué)習(xí)來調(diào)整權(quán)重,導(dǎo)致了模型訓(xùn)練過程收斂速度慢,且難以收斂,給訓(xùn)練增加了難度。因此,本文引入了注意力機(jī)制來增強(qiáng)卷積,為網(wǎng)絡(luò)擁擠率的回歸提供先驗知識。
注意力機(jī)制多被用于理解上下文語義。近年來,基于注意力機(jī)制的圖像分割也獲得了成功,如文獻(xiàn)[15]設(shè)計的注意力機(jī)制利用全卷積網(wǎng)絡(luò)(FCN)作為中間層來合并多尺度的特征,文獻(xiàn)[16]提出上下文編碼模塊,結(jié)合擴(kuò)張卷積和多尺度策略提出了語義分割框架EncNet,用于捕獲圖像場景的上下文語義,選擇性地突出與類別相關(guān)的特征圖。 但是,現(xiàn)有很多成熟的方法訓(xùn)練時往往需要大量的標(biāo)記圖像。對于圖像分割而言,要得到大量的完整標(biāo)記過的圖像非常困難。因此,不少基于弱監(jiān)督定位的CNN被提出,如文獻(xiàn)[17]設(shè)計了類激活映射,能在各種各樣的圖像識別任務(wù)中,使網(wǎng)絡(luò)直到最后一層都保留其顯著的定位能力,通過類激活映射權(quán)重,反映不同區(qū)域的相對重要性,完成圖像區(qū)域的劃分。文獻(xiàn)[18]利用多列空洞卷積完成了弱監(jiān)督、半監(jiān)督的學(xué)習(xí),大大減輕了圖像分割定位的訓(xùn)練難度。
本文的注意力模塊旨在通過二分類的網(wǎng)絡(luò)生成注意力圖,將輸入圖像分為了背景區(qū)域和人群區(qū)域,能為主干網(wǎng)絡(luò)預(yù)示出人群的區(qū)域,更好地學(xué)習(xí)人群的特征。為了解決標(biāo)記人群區(qū)域輪廓困難的問題,本文參照文獻(xiàn)[17-18]中的目標(biāo)定位方法,通過弱監(jiān)督學(xué)習(xí),自動獲取人群區(qū)域的位置。將注意特征圖連接到卷積特征圖,能使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練關(guān)注人群聚集區(qū)域,更好地適應(yīng)高噪聲場景。
本文在ResNet50[14]網(wǎng)絡(luò)提取特征的基礎(chǔ)上,添加了注意力機(jī)制模塊,設(shè)計一個新的注意力注入的網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)前端的注意力模塊將輸入圖像分為人群和背景,生成更關(guān)注人群目標(biāo)的注意力圖(圖1中注意力圖圈出來的部分即為注意力模型得到的網(wǎng)絡(luò)需要聚焦的區(qū)域,為更直觀地定位本文的注意力關(guān)注區(qū)域,將輸入圖片作為背景,實際訓(xùn)練中的背景區(qū)域像素點注意力得分為零),然后將注意力圖和原始圖像進(jìn)行點相乘,采用的方式是圖像處理中的pixel-wise操作[19],即兩張圖片對應(yīng)像素點相乘。將處理好的特征圖作為ResNet的輸入,并將損失函數(shù)Loss直接作為網(wǎng)絡(luò)的目標(biāo)函數(shù),對特征圖進(jìn)行回歸,直接輸出該特征圖的人群擁擠率Crowd。
圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Overall network structure
注意力機(jī)制被廣泛應(yīng)用于計算機(jī)視覺領(lǐng)域,其基本原理是利用輸入圖像的相關(guān)信息而不是所有可用信息來計算神經(jīng)網(wǎng)絡(luò),獲取長程交互性,能夠在納入相對位置信息的同時維持平移等效性,從而極大地減少網(wǎng)絡(luò)的計算量。本文設(shè)計的注意力模塊作為網(wǎng)絡(luò)的前端,通過生成注意力圖來提取精確的像素點定位細(xì)節(jié),為主干網(wǎng)絡(luò)預(yù)示出人群的區(qū)域以及人群的擁擠等級,將注意特征圖連接到卷積特征圖,能使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加關(guān)注人群聚集區(qū)域,以減輕輸入圖像中各種噪聲的影響。
生成注意力圖的工作流程如圖2所示,網(wǎng)絡(luò)結(jié)構(gòu)采用的是微調(diào)過的GoogLeNet[12],該網(wǎng)絡(luò)在圖像分類和目標(biāo)定位上都展現(xiàn)出了很好的性能。將GoogLeNet的Inception4e后面的層移除,保持圖像分辨率為14像素×14像素,為使最后的注意力圖和原始輸入圖片能夠融合,保留圖片像素點的位置信息,每個卷積層后面都利用padding對特征圖進(jìn)行填充,在卷積降低圖像分辨率的同時,保持尺度不變。在卷積輸出前,參照文獻(xiàn)[17]的方法,使用全局平均池化(GAP)和Softmax層,將輸出的每個類別的權(quán)重映射回卷積特征圖,從而生成注意力圖。
圖2 Attention模塊流程Fig.2 Procedure of Attention module
本文將注意力模塊設(shè)計為一個二分類的網(wǎng)絡(luò),并將圖片內(nèi)容分為背景和人群。如圖2所示,Fb和Fc是最后一層卷積輸出的兩個通道的特征圖,Fb(x,y)、Fc(x,y)分別表示背景和人群在坐標(biāo)(x,y)上像素點的激活值,通過全局平均池化后(圖2中的GAP),得到長度為2的向量,每個長度對應(yīng)一個類別權(quán)重Wb、Wc,那么Softmax層的輸入Sc、Sb如式(1)所示,Softmax層的輸出Pc、Pb可根據(jù)式(2)得到,最后將每個像素點坐標(biāo)的得分Pc,b(x,y)與特征圖Fc,b(x,y)根據(jù)式(3)進(jìn)行線性加權(quán)融合后,再利用向上采樣(UpSample),得到與原始圖片尺寸相同的注意力圖。
(1)
(2)
(3)
ResNet是一個由微軟開發(fā)的深度卷積網(wǎng)絡(luò),它主要通過殘差連接來工作,ResNet[14]接受域大于輸入圖像,使訓(xùn)練數(shù)百層甚至數(shù)千層成為可能,且在這種情況下仍能展現(xiàn)出優(yōu)越的性能。本文參照VGG網(wǎng)絡(luò)[20]的結(jié)構(gòu),將一個5×5卷積層分解成2個串聯(lián)的3×3卷積層,并將原始的ResNet50的7×7卷積層替換為3個串聯(lián)的3×3卷積層,在保持接受域的大小不變的同時,減少了網(wǎng)絡(luò)參數(shù),并且引入更多的非線性:一個大卷積核只有一次激活的過程,而更多串聯(lián)的小卷積核對應(yīng)著更多次激活的過程,從而增加了網(wǎng)絡(luò)的表達(dá)能力,可以去擬合更高維的分布。本文還去掉了最后的Softmax層,選用全連接層作為網(wǎng)絡(luò)最后一層,將1 000維的向量改為101維,用于表示數(shù)值在0~100的人群擁擠率,將分類問題轉(zhuǎn)化為回歸問題。原始的ResNet50網(wǎng)絡(luò)和微調(diào)的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,每層卷積步長設(shè)計為2。
表1 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)的損失函數(shù)L(θ)如式(4)所示:
(4)
其中,N為訓(xùn)練圖片張數(shù),Xi表示輸入的圖片,θ是模型訓(xùn)練得到的參數(shù),則模型預(yù)測出的圖片中的擁擠率可以表示為Fc(Xi,θ),Crowdi表示總網(wǎng)絡(luò)真實值,即數(shù)據(jù)標(biāo)記的擁擠率。參照歐氏距離[21]損失函數(shù),并將其作為目標(biāo)函數(shù),用于連續(xù)值訓(xùn)練樣本的擬合。
本文實驗分為2個部分,前半部分以生成注意力圖為目的,采用的是弱監(jiān)督學(xué)習(xí)方式,即給出的一張圖像里面包含哪些類別,而不需要完整標(biāo)記出目標(biāo)位置、輪廓等信息。后半部分目標(biāo)則是通過網(wǎng)絡(luò)模型的訓(xùn)練,回歸密度圖人群的擁擠率。輸入是經(jīng)過注意力圖處理過的原圖,真實值是人工計算給出的人群擁擠率,計算方法將在3.2節(jié)中給出,網(wǎng)絡(luò)學(xué)習(xí)率采用的是Adam[22],并設(shè)初始步長為1e-7,batch_size設(shè)為4。Adam是通過計算梯度的一階距和二階距估計而為不同的參數(shù)設(shè)計獨立的自適應(yīng)學(xué)習(xí)率,以便模型收斂后自動調(diào)節(jié)步長,比傳統(tǒng)的隨機(jī)梯度下降法更具高效性。
網(wǎng)絡(luò)整體代碼采用的是Tensorflow的框架。本文對NS數(shù)據(jù)集的3個場景分別進(jìn)行訓(xùn)練,利用數(shù)據(jù)集的80%作為訓(xùn)練集,剩下的20%作為測試集。采用的GPU為2個NVDIA GeForce GTX TITAN X。
為驗證注意力模塊是否同理論上一樣能加快訓(xùn)練收斂速度以及增加精確度,本文將在3.4.1節(jié)中對有無注意力模塊進(jìn)行對比實驗。并且在本文的數(shù)據(jù)集上,實驗了已有的開源方法(3.4.2節(jié)),證明了本文模型在狹小空間的場景中較其他方法各方面的性能都有提升,為防止本文模型在NS-DATASET(Narrow Space)上產(chǎn)生數(shù)據(jù)依賴,參考文獻(xiàn)[4]中的6個公共數(shù)據(jù)集,在3.4.3節(jié)中展示了模型在公共數(shù)據(jù)集上的結(jié)果。
本文構(gòu)建一個新的數(shù)據(jù)集NS-DATASET,該數(shù)據(jù)集中共計17 800張圖片,它們都是在狹小空間內(nèi),視角受到局限如圖3所示,圖3(a)為斜上方視角,如樓道、天橋隧道,圖3(b)為正上方視角,如車廂的下車門通道,圖3(c)為正前方視角,如前后車廂。
圖3 NS-DATASET圖片不同視角展示Fig.3 NS-DATASET pictures displayed from different perspectives
本文數(shù)據(jù)集是全新的,需要分別對每個場景進(jìn)行訓(xùn)練,將人工標(biāo)記的擁擠率作為模型真實值,如表2所示。擁擠率計算如下:設(shè)該場景最大容納人數(shù)為N,當(dāng)前人數(shù)為ni,則第i張圖片的擁擠率Crowdi表示為:
(5)
表2 網(wǎng)絡(luò)模型真實值Table 2 Real vaule of network model
參照文獻(xiàn)[3-5]的方法,通過MAE、MSE評價模型最終的量化人群的準(zhǔn)確率。計算公式如式(6)、式(7)所示:
(6)
(7)
其中,Ci表示模型預(yù)測結(jié)果,Crowdi表示人數(shù)真實值,N表示統(tǒng)計的圖片張數(shù)。MAE強(qiáng)調(diào)所有測試集圖片的預(yù)測擁擠率的平均誤差,能更好地反映預(yù)測值誤差的實際情況,而MSE為估計值和真實值差的平方的期望值,可以評價數(shù)據(jù)的變化程度,MSE越小,表示數(shù)據(jù)精確度越高。
表3為抽取的實驗結(jié)果,分別從NS數(shù)據(jù)集的3個場景中隨機(jī)選取一張圖片。從表3可以看出,本文的注意力模型能準(zhǔn)確地關(guān)注人群區(qū)域(注意力圖中的色圈區(qū)域),并且模型估計的人群擁擠率大體上和本文給出的真實值一致,能正確地反映當(dāng)前實時的人群擁擠度。
表3 實驗結(jié)果對比Table 3 Comparison of experimental results %
NS數(shù)據(jù)集上模型的測試結(jié)果如表4所示,將數(shù)據(jù)集20%模型未見過的圖片作為測試集,由MAE、MSE這兩項指標(biāo)可以看出,大體上3個場景預(yù)測的人群擁擠率誤差都在正常范圍內(nèi),訓(xùn)練圖片最多的場景3效果最佳。
表4 NS數(shù)據(jù)集模型上性能評價
3.4.1 有無注意力機(jī)制實驗對比分析
由圖1網(wǎng)絡(luò)整體結(jié)構(gòu)所示,網(wǎng)絡(luò)前端是利用attention模塊將輸入圖像分為人群和背景,生成更關(guān)注人群目標(biāo)的注意力圖,然后將結(jié)合了注意力圖和原始圖像的特征圖作為主干網(wǎng)絡(luò)的輸入。去掉注意力機(jī)制,直接將輸入圖片作為ResNet網(wǎng)絡(luò)的輸入,同樣能得到一個預(yù)測的人群擁擠度。本節(jié)主要對去掉注意力模塊后的網(wǎng)絡(luò)進(jìn)行實驗,并與原模型結(jié)果進(jìn)行對比來驗證網(wǎng)絡(luò)添加了注意力機(jī)制后,是否同理論上一樣去除背景噪聲,聚焦人群區(qū)域,得到更為精準(zhǔn)的人群擁擠率。
圖4灰色曲線是添加了注意力模塊訓(xùn)練的損失值迭代曲線,黑色是去除注意力后,只通過Resnet50網(wǎng)絡(luò)訓(xùn)練得到的迭代曲線,由圖4可知,注入了注意力機(jī)制的網(wǎng)絡(luò),從84輪開始就逐步收斂,而代表未添加attention的黑色曲線,到170輪loss值才逐漸平穩(wěn),并且后期loss曲線相比灰色下降的很慢,一直處于振蕩的狀態(tài)。2種方法的性能指標(biāo)如表5所示,可以看到MAE降低了40%,MSE降低了34%,其中MAE、MSE為3個場景的平均值。
圖4 兩種方法loss迭代曲線對比Fig.4 Comparison of loss iteration curves of two methods
表5 注意力模塊性能對比
綜上可以得出,注入了注意力機(jī)制的網(wǎng)絡(luò)能區(qū)分背景和人群,為網(wǎng)絡(luò)擁擠率的回歸提供先驗知識,得到更為精確的預(yù)測結(jié)果。
3.4.2 NS-DATASET結(jié)果對比與分析
本文選取了文獻(xiàn)[4]的CSRNet、文獻(xiàn)[3]的MCNN以及文獻(xiàn)[11]改進(jìn)的GoogLeNet方法作為本文的對比方法。數(shù)據(jù)集采用的是NS-ATASET,其中3個場景如圖3所示,本文設(shè)計的空間容納總?cè)藬?shù)分別為20人、30人和8人。MCNN和CSRNet方法產(chǎn)生的是具體人數(shù),而文獻(xiàn)[11]的方法產(chǎn)生的是5個擁擠等級。為統(tǒng)一評價指標(biāo),將CSRNet、MCNN的結(jié)果分別除以3個場景的總?cè)藬?shù)作為新的結(jié)果,文獻(xiàn)[11]的方法則通過設(shè)置新的真實值重新訓(xùn)練得到擁擠率結(jié)果,最終的模型結(jié)果評價指標(biāo)如圖5所示。
圖5 不同方法在NS數(shù)據(jù)集上MAE值對比Fig.5 Comparison of MAE values by differentmethods on NS datasets
在NS數(shù)據(jù)集的3個場景上實驗了MCNN、 CSRNet、 GoogLeNet 3種方法,并與本文的方法結(jié)果進(jìn)行對比。由圖5可知,本文方法比以上3種方法的MAE分別降低了21.7%、5.23%、30.3%,說明了本文模型在對噪聲大、多尺度、人群區(qū)域閉塞、分布不均勻的圖片處理上相比于其他量化人群方法更有效。
3.4.3 公共數(shù)據(jù)集上實驗對比分析
為研究本文模型在各個公共數(shù)據(jù)集上預(yù)測的人群擁擠度的質(zhì)量,本文參照文獻(xiàn)[11]中的公共數(shù)據(jù)集進(jìn)行實驗,4個數(shù)據(jù)集包含的圖片樣本數(shù)和圖片包含的人數(shù)如表6所示。
表6 公共數(shù)據(jù)集組成結(jié)構(gòu)Table 6 Composition structure of public dataset
選取4個數(shù)據(jù)集的80%作為訓(xùn)練集,20%作為測試集,并標(biāo)記了每張圖片樣本的擁擠率作為網(wǎng)絡(luò)真實值。參照文獻(xiàn)[3-4]中的MCNN和CSRNet方法在這些數(shù)據(jù)集上的已有的結(jié)果,將其預(yù)測的人數(shù)誤差換算為擁擠率誤差來作為本文模型結(jié)果的對比。已知其他方法的預(yù)測的人數(shù)為n,樣本圖片中真實人數(shù)為Count,標(biāo)記的擁擠率真實值為Gt,則需要的擁擠率Crowd可以表示為:
(8)
在得到每張圖片預(yù)測的擁擠率后,再利用式(6)計算得到MAE對預(yù)測結(jié)果進(jìn)行評價,本文的實驗結(jié)果如圖6所示。
圖6 不同方法在公共數(shù)據(jù)集上MAE值對比Fig.6 Comparison of MAE values by differentmethods on public datasets
從圖6可以看出,在各個公共數(shù)據(jù)集上,本文模型比MCNN都有更好的效果,但在ShanghaiTech PartA、UCF_CC_50平均人數(shù)超過500人的情況下,模型效果略微弱于適用于人群高度密集場景的CRSNet方法。但在平均人數(shù)較少的場景下,ShanghaiTech PartB、The UCSD方法都比CRSNet有著更好的效果。這說明本文方法在其他場景下同樣能準(zhǔn)確地預(yù)測出人群的擁擠程度,并且更加適合狹小的空間內(nèi)的場景。
本文提出一種注入注意力機(jī)制的網(wǎng)絡(luò)用于分析狹小空間內(nèi)的人群擁擠度。通過引入注意力模型并結(jié)合上下文完成圖像特征的提取,獲得精準(zhǔn)的像素級密集特征,去除不相關(guān)背景,完成對場景的感知。實驗結(jié)果表明,該方法在NS數(shù)據(jù)集下能預(yù)測給出圖片的人群擁擠率,并且加入注意力模型后,提高了網(wǎng)絡(luò)的收斂速度。此外,在數(shù)據(jù)的標(biāo)記上采用弱監(jiān)督學(xué)習(xí),大幅降低了標(biāo)記難度和工作量。為提高本文模型的場景泛化能力,同時擴(kuò)大數(shù)據(jù)集并增加學(xué)習(xí)樣本,下一步將研究如何提高網(wǎng)絡(luò)的泛化能力與驗證注意力模塊的可遷移性。