邱 陽,李 盛,金 亮,張咪咪,王 杰
(1.武漢理工大學(xué)信息工程學(xué)院,湖北 武漢 430070;2.武漢理工大學(xué)光纖傳感技術(shù)與網(wǎng)絡(luò)國家工程研究中心,湖北 武漢 430070;3.小米科技有限責(zé)任公司,湖北 武漢 430070)
監(jiān)測跟蹤橋梁結(jié)構(gòu)的演變趨勢對于確保橋梁安全運(yùn)營十分重要[1]?;跇蛑番F(xiàn)場傳感器網(wǎng)絡(luò)搭建而成的結(jié)構(gòu)健康監(jiān)測[2]系統(tǒng),可以跟蹤橋梁的受力、變形和振動(dòng)等結(jié)構(gòu)響應(yīng),是反饋橋梁結(jié)構(gòu)運(yùn)營狀態(tài)的有效自動(dòng)化監(jiān)測手段。對于大型斜拉橋健康監(jiān)測系統(tǒng),振動(dòng)監(jiān)測是診斷和評(píng)價(jià)結(jié)構(gòu)服役狀態(tài)的重要方式。目前,實(shí)際工程中對結(jié)構(gòu)振動(dòng)的長期實(shí)時(shí)監(jiān)測主要依靠加速度傳感器[3]。跟蹤加速度監(jiān)測值及其趨勢,并判別其是否在安全閾值范圍內(nèi)的方式,可用于評(píng)估和預(yù)測結(jié)構(gòu)的安全性。然而,現(xiàn)場傳感器長期運(yùn)作帶來的不穩(wěn)定性,采集傳輸鏈路不暢通引入的噪聲干擾,監(jiān)控機(jī)房的供電或網(wǎng)絡(luò)中斷等影響,都會(huì)對振動(dòng)監(jiān)測結(jié)果引入異常干擾,且這種干擾的發(fā)生具有隨機(jī)性和非均衡性。因此,為了準(zhǔn)確地評(píng)價(jià)橋梁結(jié)構(gòu)的振動(dòng)狀態(tài),必須識(shí)別并剔除上述多種模式異常數(shù)據(jù)帶來的影響[4]。
結(jié)構(gòu)健康監(jiān)測中關(guān)于傳感信號(hào)異常診斷的研究方面,文獻(xiàn)[5]指出了傳感器校驗(yàn)對結(jié)構(gòu)健康狀況評(píng)估準(zhǔn)確性和可靠性的重要意義,并綜述了可減少測量值與真實(shí)值間偏差的傳感器校驗(yàn)方法。在傳感器較少情況下的異常數(shù)據(jù)診斷研究中,文獻(xiàn)[6]指出基于統(tǒng)計(jì)過程控制技術(shù)可有效識(shí)別橋梁GPS載波相位監(jiān)測中的微小持續(xù)性偏移。文獻(xiàn)[7]提出基于主成分分析和超球面一類支持向量機(jī)的方法用于準(zhǔn)確識(shí)別橋梁伸縮縫信息。針對規(guī)模較大的傳感器網(wǎng)絡(luò)故障診斷研究中,Huang[8]構(gòu)建了一種基于動(dòng)態(tài)或自回歸特性多變量的統(tǒng)計(jì)模型,并在一個(gè)基準(zhǔn)有限元結(jié)構(gòu)上檢驗(yàn)了該方法相較于傳統(tǒng)主成分分析方法的優(yōu)越性。Hernandez[9]針對桁架橋模型,探討了三種基于統(tǒng)計(jì)監(jiān)測模型的傳感器故障和異常識(shí)別方法的適用性。以上圍繞傳感器故障診斷開展的研究中,考慮的異常數(shù)據(jù)類別數(shù)量和規(guī)模與實(shí)際工程相比還較為有限,均未考慮不同模式異常數(shù)據(jù)樣本間的非均衡性影響。隨著計(jì)算機(jī)硬件性能的提升,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)開始被用于處理結(jié)構(gòu)健康監(jiān)測中的分類問題,如文獻(xiàn)[10]綜述性回顧了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)在結(jié)構(gòu)損傷識(shí)別領(lǐng)域中的發(fā)展。其中,已有基于計(jì)算機(jī)視覺通過深度學(xué)習(xí)來識(shí)別異常數(shù)據(jù)的相關(guān)研究報(bào)道[11-12]。但這種將時(shí)間序列信號(hào)轉(zhuǎn)化為圖像的特征抽取方法極其消耗計(jì)算資源。Li[13]利用縮尺橋梁模型模擬含有異常影響的時(shí)間序列信號(hào),并通過建立深度學(xué)習(xí)模型實(shí)現(xiàn)了3種異常狀態(tài)與基準(zhǔn)態(tài)的高準(zhǔn)確率分類。盡管上述相關(guān)研究通過數(shù)值模擬或針對樣本量較少的監(jiān)測數(shù)據(jù),驗(yàn)證了人工智能方法識(shí)別健康監(jiān)測系統(tǒng)傳感信號(hào)異常性的可行性,但面對實(shí)際工程傳感器網(wǎng)絡(luò)的復(fù)雜信號(hào)模式時(shí),樣本的分類標(biāo)簽注解依舊缺乏自動(dòng)化手段,難以為研究提供具有一定規(guī)模的樣本庫支持。因此,目前各種針對異常監(jiān)測數(shù)據(jù)的診斷識(shí)別方法,還缺少對實(shí)際監(jiān)測系統(tǒng)長期監(jiān)測數(shù)據(jù)集的檢驗(yàn)。
針對以上現(xiàn)狀,本文以某座實(shí)際大跨度斜拉橋結(jié)構(gòu)健康監(jiān)測系統(tǒng)中38個(gè)振動(dòng)傳感器長達(dá)1個(gè)月的監(jiān)測數(shù)據(jù)作為對象,開展面向具有多種模式的異常數(shù)據(jù)的識(shí)別與分類方法研究。對實(shí)際數(shù)據(jù)集中存在的不同模式樣本間數(shù)據(jù)量的非均衡性,以及相同模式樣本間個(gè)性化差異的現(xiàn)象,提出了基于統(tǒng)計(jì)特征混合與隨機(jī)森林(RF)重要性排序識(shí)別異常數(shù)據(jù)的方法。面向?qū)嶋H工程監(jiān)測數(shù)據(jù)集,檢驗(yàn)用于識(shí)別不同模式異常數(shù)據(jù)方法的執(zhí)行效果。分析討論采用多種特征混合輸入編排方式時(shí)幾種典型機(jī)器學(xué)習(xí)分類算法對異常數(shù)據(jù)識(shí)別方法的適應(yīng)性。
圖1為基于監(jiān)督學(xué)習(xí)訓(xùn)練的異常數(shù)據(jù)識(shí)別與分類方法流程。監(jiān)督學(xué)習(xí)分類訓(xùn)練前,依次開展樣本數(shù)據(jù)增強(qiáng)[14]、統(tǒng)計(jì)特征計(jì)算、特征重要性排序與排序特征混合。
圖1 異常數(shù)據(jù)識(shí)別方法流程
對原始樣本開展數(shù)據(jù)增強(qiáng)是提升監(jiān)督學(xué)習(xí)訓(xùn)練效果的有效方式[15]。目前,數(shù)據(jù)增強(qiáng)的方法主要面向二維圖像信號(hào)處理[16]。針對一維信號(hào),增強(qiáng)手段主要是通過對原樣本序列進(jìn)一步切割來增加樣本容量[17]。此外,也有將一維信號(hào)轉(zhuǎn)換為圖片格式后開展數(shù)據(jù)增強(qiáng)的相關(guān)研究[18]。與上述手段不同,提出通過對原始數(shù)據(jù)集進(jìn)行前向差分求導(dǎo)來實(shí)現(xiàn)樣本數(shù)據(jù)量的增強(qiáng)。將結(jié)構(gòu)健康監(jiān)測系統(tǒng)采集到的原始振動(dòng)監(jiān)測數(shù)據(jù)集記為X={s1,s2,…,sn},其中,si代表第i條原始數(shù)據(jù)樣本。對X進(jìn)行一階求導(dǎo)并將求導(dǎo)后的數(shù)據(jù)集記為,其中定義為si經(jīng)過前向差分后的結(jié)果。該處理方式通過翻倍增加原樣本量來實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。
為進(jìn)一步加強(qiáng)監(jiān)督學(xué)習(xí)訓(xùn)練對有效特征的提取能力,采用統(tǒng)計(jì)的策略降低X和Xτ中冗余信息對于訓(xùn)練效率的影響。圖1所示的統(tǒng)計(jì)特征分別為最大值(Max)、最小值(Min)、平均數(shù)(Mean)、中位數(shù)(Median)、標(biāo)準(zhǔn)差(Std)、極差(Range)、有效值(Value)、眾數(shù)(Mode)、峰度(Kurtosis)和偏度(Skewness),將si和的統(tǒng)計(jì)特征集分別定義為stai=。其中,sim和分別表示樣本si和的第m種統(tǒng)計(jì)特征量。
為衡量樣本中各種統(tǒng)計(jì)量與原始樣本間的相關(guān)性強(qiáng)弱,對stai和中的m種統(tǒng)計(jì)特征分別按照式(1)計(jì)算基于RF的特征重要性指數(shù)(PIM)[19],并依據(jù)PIM值大小對統(tǒng)計(jì)特征重要性開展排序,具體流程如下:
①構(gòu)造M棵決策樹;
②當(dāng)前決策樹ktree=1時(shí),得到對應(yīng)袋外數(shù)據(jù)[20]OOBk;
③計(jì)算當(dāng)前決策樹對OOBk的預(yù)測誤差errOOBk;
④將OOBk中第i種統(tǒng)計(jì)特征的隨機(jī)擾動(dòng)記為,計(jì)算當(dāng)前決策樹對的預(yù)測誤差;
⑤對于每一顆決策樹,ktree=2,…M,重復(fù)步驟②到④;
⑥根據(jù)式(1)計(jì)算統(tǒng)計(jì)特征的重要性。
式中:M為構(gòu)造的決策樹數(shù)量,和errOOBk分別表示對第i種統(tǒng)計(jì)參量添加擾動(dòng)后的袋外數(shù)據(jù)和未添加擾動(dòng)的袋外數(shù)據(jù)在第ktree棵決策樹情況下的預(yù)測誤差。
依據(jù)統(tǒng)計(jì)特征PIM值大小,首先將stai和內(nèi)的m種統(tǒng)計(jì)特征由大到小進(jìn)行重排列。在此基礎(chǔ)上分別從stai和中挑選出不同數(shù)量的統(tǒng)計(jì)特征進(jìn)行組合,形成排序后stai和的子集staisub和,,其中,sik和分別代表stai和中PIM排名第k位的統(tǒng)計(jì)特征。然后,將staisub和進(jìn)行組合,得到用于分類器訓(xùn)練的輸入樣本表達(dá)yn,定義。其中,n為k取不同值時(shí)特征混合方式的編號(hào)。
檢驗(yàn)識(shí)別方法的數(shù)據(jù)集源自某實(shí)際大跨度斜拉橋一個(gè)月內(nèi)38個(gè)加速度傳感器數(shù)據(jù)[21]。如圖2所示,38個(gè)傳感器分別安裝在橋梁的不同位置,包含了X,Y和Z三個(gè)關(guān)注方向。數(shù)據(jù)采樣頻率為20 Hz,每個(gè)傳感器的每一條樣本采樣時(shí)長1 h,樣本維度為1×72 000。上述數(shù)據(jù)集已按7種不同模式進(jìn)行數(shù)據(jù)樣本的標(biāo)簽化[11],由表1知,每一類模式的樣本容量具有非均衡性。
圖2 加速度傳感器現(xiàn)場布置
表1 樣本分類及大小
此外,圖3隨機(jī)選擇了各類模式中2條樣本,并繪制了加速度時(shí)域波形。其中,橫軸表示采樣時(shí)長,縱軸為加速度響應(yīng)幅值??梢悦黠@發(fā)現(xiàn),對于相同的模式,樣本的原始波形之間存在不同程度的差異。
圖3 7類模式樣本的原始數(shù)據(jù)特征
為了避免如表1所示樣本分布不均衡對監(jiān)督學(xué)習(xí)分類訓(xùn)練預(yù)測準(zhǔn)確率的影響,以樣本數(shù)量最少的模式4為基準(zhǔn),其他每類模式均隨機(jī)抽樣選出527條樣本。均衡化處理后的樣本集X={s1,s2,…,sn}按照前向差分求導(dǎo)策略實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),得到Xτ=。其中,從圖3中可知Missing模式的數(shù)據(jù)存在局部或整體時(shí)段出現(xiàn)空值的現(xiàn)象。針對該現(xiàn)象,一階求導(dǎo)處理前利用0替換整體時(shí)段內(nèi)的空值,利用整體樣本的均值替換局部時(shí)段內(nèi)的空值。盡管前向差分在增強(qiáng)非空樣本集時(shí)才具有實(shí)際物理意義,但經(jīng)過該方式的統(tǒng)一處理后,38個(gè)傳感器可用于訓(xùn)練的總樣本量均實(shí)現(xiàn)了翻倍,累計(jì)樣本達(dá)到了7 378條。按照圖1所示的識(shí)別流程,分別計(jì)算si和的最大值、最小值、平均數(shù)、中位數(shù)、標(biāo)準(zhǔn)差、極差、有效值、眾數(shù)、峰度和偏度。
為了保證特征重要性排序具有可靠性和穩(wěn)定性,通過反復(fù)試算將RF的最大決策樹參數(shù)設(shè)置為10 000,按照式(1)計(jì)算10類統(tǒng)計(jì)指標(biāo)的PIM值。圖4給出了統(tǒng)計(jì)特征重要性排序結(jié)果。
圖4 統(tǒng)計(jì)特征PIM排序
根據(jù)PIM值大小,將原始樣本和前向差分后樣本的統(tǒng)計(jì)特征從高到低進(jìn)行排列,得到,。從圖4可知,對原始樣本和前向差分后的樣本,求得的統(tǒng)計(jì)特征中重要性靠前的6個(gè)統(tǒng)計(jì)特征均相同,都包含極差、方差、最小值、峰度、有效值和最大值。
采用經(jīng)過統(tǒng)計(jì)特征重要性排序后的6個(gè)統(tǒng)計(jì)特征替代表達(dá)stai和,并將其作為監(jiān)督學(xué)習(xí)訓(xùn)練的最終樣本輸入。訓(xùn)練中,首先將均衡化處理后的X和Xτ分別按照機(jī)器學(xué)習(xí)中常用的劃分比例[22-23]7∶3劃分為訓(xùn)練集和測試集。此時(shí),訓(xùn)練集包含2 582條樣本,測試集包含1 107條樣本。其次如表2,比較多種樣本表達(dá)作為輸入時(shí)的分類學(xué)習(xí)效果,并將原始樣本的時(shí)間序列和采用切割方式增強(qiáng)數(shù)據(jù)后的時(shí)間序列作為比較基準(zhǔn)。其中,每種標(biāo)記代表一類樣本輸入方式。
表2 樣本輸入特征混合方式
評(píng)價(jià)本文提出識(shí)別正常數(shù)據(jù)和6類異常數(shù)據(jù)的方法時(shí),依次使用K鄰近法(KNN)、支持向量機(jī)(SVM)、決策樹(DT)、和RF作為有監(jiān)督學(xué)習(xí)的分類器。為使每種分類器達(dá)到最佳分類效果,利用網(wǎng)格搜索法[24]對分類器超參數(shù)進(jìn)行尋優(yōu)。實(shí)驗(yàn)中,監(jiān)督學(xué)習(xí)基于Python下的scikit-learns[25]開展,硬件環(huán)境基于Intel Core i7-9750H CPU,8G RAM和NVIDIA GeForce GTX 1050顯卡的配置開展。
圖5為RF、SVM、KNN和DT四種分類器對應(yīng)于表2在不同特征混合作為輸入情況下,在測試集上的平均識(shí)別準(zhǔn)確率結(jié)果。由該圖可知,原始樣本未經(jīng)數(shù)據(jù)增強(qiáng)與特征提取時(shí),識(shí)別效果僅能達(dá)到11%~15%的準(zhǔn)確率。嘗試常規(guī)方法對原始樣本切割2~10份開展數(shù)據(jù)增強(qiáng)后,識(shí)別準(zhǔn)確率有顯著的提升,可以達(dá)到77%~85%。而基于提出的數(shù)據(jù)處理策略,樣本增強(qiáng)的規(guī)模僅相當(dāng)于常規(guī)方法中對原始樣本切割2次,但在這種較小規(guī)模的數(shù)據(jù)增強(qiáng)代價(jià)下各種分類器下的識(shí)別準(zhǔn)確率得到了進(jìn)一步的提升,最佳效果可達(dá)到97.10%。其次,在不同特征混合方式下,4種監(jiān)督學(xué)習(xí)分類器的總體平均分類準(zhǔn)確率變化趨勢基本相同。在特征組合相同的情況下,RF和DT相比SVM和KNN表現(xiàn)要更好,平均分類準(zhǔn)確率要高出約6%。其中,y2作為輸入時(shí),RF和DT識(shí)別正常數(shù)據(jù)和異常數(shù)據(jù)的平均準(zhǔn)確率均達(dá)到了96.11%,但圖6中的混淆矩陣表明,這兩種分類器對于Normal的識(shí)別僅能達(dá)到88.69%和89.88%的準(zhǔn)確率,且該模式易被混淆為Outlier和Minor。
從圖5知,y6作為特征輸入時(shí),4種分類器的平均分類準(zhǔn)確率均優(yōu)于其他輸入表達(dá),且RF的識(shí)別效果最佳,達(dá)到了97.10%。為進(jìn)一步揭示y6作為輸入時(shí)4種分類器對正常數(shù)據(jù)和6類異常數(shù)據(jù)的識(shí)別效果,圖7給出了4種分類器在測試集上的混淆矩陣,可以發(fā)現(xiàn)SVM和KNN分類器對于正常數(shù)據(jù)和6類異常數(shù)據(jù)的識(shí)別準(zhǔn)確率均衡度欠佳,而RF和DT的分類識(shí)別效果更加穩(wěn)健,且RF的總體效果更好,對每一類模式的識(shí)別準(zhǔn)確率均超過了95%。其中,對于Drift、Square和Missing類型的識(shí)別率已接近100%。此時(shí),y6相比y2作為樣本輸入時(shí),Normal的識(shí)別準(zhǔn)確率已由圖6(d)中的88.69%提升到圖7(d)中的96.84%。
圖5 4種分類器在不同特征混合下的分類準(zhǔn)確率
圖6 不同分類器在y2輸入方式下測試集混淆矩陣
圖7 不同分類器在y6輸入方式下測試集混淆矩陣
本文面向某座大跨度斜拉橋?qū)崪y振動(dòng)監(jiān)測數(shù)據(jù),針對正常和6類異常監(jiān)測數(shù)據(jù)的樣本非均衡性及同標(biāo)簽樣本間的局部細(xì)節(jié)差異性,提出了基于前向差分求導(dǎo)開展樣本數(shù)據(jù)增強(qiáng),基于隨機(jī)森林重要性排序選取參與表征原始樣本統(tǒng)計(jì)特征,以及混合不同數(shù)量統(tǒng)計(jì)特征進(jìn)行異常數(shù)據(jù)識(shí)別的方法。采用不同機(jī)器學(xué)習(xí)分類器的監(jiān)督學(xué)習(xí)效果顯示,提出的方法可以高準(zhǔn)確率地識(shí)別正常數(shù)據(jù)和6類異常數(shù)據(jù),且混合部分重要性排序后統(tǒng)計(jì)特征來表征原始樣本訓(xùn)練輸入的方式即可達(dá)到理想的識(shí)別效果。此外,針對具有樣本不平衡特點(diǎn)的工程數(shù)據(jù)開展監(jiān)督學(xué)習(xí)訓(xùn)練時(shí),提出的方法可為增強(qiáng)一維時(shí)序特征數(shù)據(jù)樣本量,減少同類樣本間差異性對監(jiān)督學(xué)習(xí)訓(xùn)練的影響等提供借鑒思路。