VOELKERChristoph郭建強(qiáng)
(1.西南交通大學(xué) 無(wú)損檢測(cè)研究中心,成都 610031;2.德國(guó)聯(lián)邦材料研究院(BAM),柏林 12205)
鋼筋混凝土的銹蝕是土木工程結(jié)構(gòu)損傷的主要原因之一,常發(fā)生在需要除冰的公路及海洋環(huán)境的建筑中。這種損傷會(huì)對(duì)混凝土結(jié)構(gòu)的完整性造成影響,并使其受力發(fā)生變化,導(dǎo)致建筑物存在很高的風(fēng)險(xiǎn)[1]。目前,有多種無(wú)損檢測(cè)(NDT)的方法可以檢測(cè)銹蝕程度,如探地雷達(dá)(GPR)可以根據(jù)接收到的電磁波的波形、振幅強(qiáng)度等特征,推斷地下介質(zhì)的空間位置、結(jié)構(gòu)、形態(tài)等;半電池電位法(HP)利用參考電極測(cè)量鋼筋電位,測(cè)量值變化越急劇,銹蝕程度越嚴(yán)重[2]。然而,各種單一的檢測(cè)方法和傳感器通常不能獲取足夠的銹蝕特征信息,以至于很難判斷鋼筋的銹蝕狀況。為此,筆者基于多種檢測(cè)方法獲得鋼筋銹蝕的特征信息,通過(guò)其相關(guān)性,采用機(jī)器學(xué)習(xí)的方法來(lái)研究鋼筋銹蝕的損壞程度。
筆者采用探地雷達(dá)(GPR)測(cè)量鋼筋反射的脈沖能量,并使用半電池電位法(HP)測(cè)量試件的銹蝕電位[2],通過(guò)溫納法(WR)[3]和微波濕度法(MW)[4]分別測(cè)量銹蝕鋼筋的電阻率和銹蝕濕度。數(shù)據(jù)采集于鋼筋混凝土銹蝕試驗(yàn),在各種環(huán)境因素都受控的條件下模擬加速混凝土構(gòu)件的生命周期過(guò)程。對(duì)比了基本的邏輯回歸、更高級(jí)的決策樹(shù)和Boosting 3種機(jī)器學(xué)習(xí)算法在數(shù)據(jù)融合及決策過(guò)程中的性能差異。
訓(xùn)練數(shù)據(jù)需要體現(xiàn)場(chǎng)景中所有的情況,并包含一個(gè)明確的標(biāo)準(zhǔn)值對(duì)樣本進(jìn)行分類(lèi)。為此,在場(chǎng)景濕度和鹽度都可控的大型鋼筋混凝土試件上進(jìn)行數(shù)據(jù)的采集,混凝土澆筑前樣品腐蝕棒外觀如圖1所示(紅框?yàn)殇P蝕棒;綠框?yàn)槁入x子遷移傳感器;藍(lán)框?yàn)閰⒖茧姌O)。
圖1 混凝土澆筑前樣品腐蝕棒外觀
試驗(yàn)涵蓋了混凝土構(gòu)件生命周期中的3個(gè)階段:未損壞階段(混凝土剛澆鑄好后的試件)、使用階段(試件含氯化物但未銹蝕)和缺陷階段(試件含有氯化物且被銹蝕)。試驗(yàn)樣本被分為兩組,用來(lái)分析混凝土密度對(duì)銹蝕的影響。其中,一組在混凝土密度較低的試件頂部測(cè)量,另一組在密度較高的試件底部測(cè)量。
氯離子滲透到混凝土一定深度需要數(shù)年的時(shí)間[5]。為了加速這一過(guò)程,采用人工電離極化銹蝕的方法。陽(yáng)極電位超過(guò)臨界銹蝕條件會(huì)引發(fā)鋼筋的銹蝕,并持續(xù)監(jiān)測(cè)鹽銹蝕的位置以防止隨機(jī)銹蝕的發(fā)生,氯化物的注入及檢測(cè)裝置結(jié)構(gòu)示意如圖2所示,圖中:①為鋼筋;②為腐蝕棒;③為參比電極MnO2;④為脫鈍傳感器;⑤為氯化鈉溶液;⑥為對(duì)電極(MMO);⑦為混凝土。通過(guò)對(duì)電極與工作電極組成極化回路,采用分流電阻器,使電流在銹蝕鋼筋與鋼筋籠之間流動(dòng),從而獲得鋼筋銹蝕樣本。
圖2 氯化物的注入及檢測(cè)裝置結(jié)構(gòu)示意
探地雷達(dá)(GPR)檢測(cè)使用美國(guó)GSSI公司的SIR20裝置, 該裝置具有頻率為2 GHz的天線,兩個(gè)垂直偏振,采用橫向測(cè)量間距為5 mm,線間距為2 cm的自動(dòng)掃描系統(tǒng)收集數(shù)據(jù)。采用半電池電位法(HP)、溫納法(WR)和微波濕度法(MW)沿著測(cè)量網(wǎng)格手動(dòng)收集信號(hào),間隔為10 cm。使用Proceq公司的Canin+銹蝕分析系統(tǒng)收集分析HP法測(cè)量電位數(shù)據(jù),其參考電極是硫酸銅棒;使用Proceq公司的Resipod探針收集得到WR法的測(cè)量值;使用HF-Sensors的ID10探針測(cè)量得到微波濕度的測(cè)量值。由此收集得到多傳感器的監(jiān)測(cè)數(shù)據(jù)集。
數(shù)據(jù)集是在18個(gè)不同的日期分別采集得到的。采集過(guò)程中,在具有不同濕度、鹽含量、混凝土質(zhì)量和腐蝕活性的試樣上使用上述4種不同的NDT方法,提取了7個(gè)樣本特征。特征即傳感器信號(hào)參數(shù),其會(huì)受到相應(yīng)缺陷的顯著影響。表1列出了所有NDT方法得到的相應(yīng)特征參數(shù)。
表1 從NDT信號(hào)中提取的特征參數(shù)
特征1和特征2提取于GPR的表面波。混凝土介電常數(shù)隨著混凝土含水量的增加而增大,表面波的傳播速度和主頻率都會(huì)隨之降低?;炷恋碾妼?dǎo)率也隨著溶解的氯離子的增多而增大,從而使表面波的振幅降低,所以通過(guò)表面波能量和表面波主頻率可以監(jiān)測(cè)介電常數(shù)和電導(dǎo)率。特征3,4,5,6來(lái)自直接的參數(shù)測(cè)量方法,其測(cè)量信號(hào)是標(biāo)量,因此不需要進(jìn)行進(jìn)一步的特征提取。特征7是通過(guò)測(cè)量鋼筋反射振幅的衰減得到的,不同腐蝕程度的測(cè)量點(diǎn)得到的振幅衰減程度不同。特征1,2,5,6用于描述環(huán)境條件,特征3,4,7用于表征腐蝕情況。為了確保特征的可比性,對(duì)所有特征進(jìn)行歸一化,表2列出了計(jì)算特征的歸一化因子F及其減數(shù)S,其中f為原始參數(shù)。
將機(jī)器學(xué)習(xí)的方法和相關(guān)理論應(yīng)用于數(shù)據(jù)融合技術(shù),可大幅度提升算法的性能[6]?;跊Q策樹(shù)及Boosting方法,分別設(shè)計(jì)了數(shù)據(jù)融合方法以提高算法性能;并將其結(jié)果與基礎(chǔ)的邏輯回歸算法進(jìn)行對(duì)比和分析,探討各方法在上述多元數(shù)據(jù)集中的適用性。
多傳感器數(shù)據(jù)融合是利用機(jī)器學(xué)習(xí)的算法,將多源信息在一定準(zhǔn)則下進(jìn)行分析、優(yōu)化和整合,以達(dá)到提升信息質(zhì)量的目的[6],從而更好地進(jìn)行決策。在無(wú)損檢測(cè)領(lǐng)域里,信息質(zhì)量通常指魯棒性、可靠性和準(zhǔn)確性等[7]。基于數(shù)據(jù)的多傳感器融合在特征級(jí)上進(jìn)行,多傳感器特征級(jí)融合的一般過(guò)程如圖3所示,其描述了4種傳感器獲取信息并融合的過(guò)程。從原始數(shù)據(jù)中提取特征是將原始數(shù)據(jù)映射到一個(gè)更高維的空間,即特征空間。完好區(qū)域和缺陷區(qū)域之間的分類(lèi)在特征空間中進(jìn)行。
圖3 多傳感器特征級(jí)融合的一般過(guò)程
機(jī)器學(xué)習(xí)算法是通過(guò)已有的特征與標(biāo)簽之間的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)完好像素和缺陷像素決策邊界的學(xué)習(xí)。
二維特征空間示意如圖4所示,紅色和藍(lán)色的區(qū)域分別代表缺陷和完好在特征空間中的頻數(shù)分布情況,坐標(biāo)軸上紅色和藍(lán)色的線分別代表兩個(gè)類(lèi)在該坐標(biāo)軸的概率分布情況??梢?jiàn)特征c、d的相關(guān)性高于特征a、b的。兩個(gè)類(lèi)的概率分布的重疊面積決定著數(shù)據(jù)的信息質(zhì)量,重疊面積越小,分類(lèi)函數(shù)就越容易得到,信息質(zhì)量也越高。由概率分布來(lái)看,特征a、b組成的特征空間的信息質(zhì)量高于特征c、d組成的特征空間的。通過(guò)數(shù)據(jù)融合在特征空間內(nèi)增加一個(gè)子空間(圖4中紅色直線)可以提升信息質(zhì)量,并且相關(guān)性越高的特征,信息質(zhì)量提升越大。同理,在更高維的特征空間,信息質(zhì)量可以得到更大幅度的提升。所以,數(shù)據(jù)融合方法能提升分類(lèi)效果。
圖4 二維特征空間示意
表2 特征的歸一化因子及其減數(shù)
邏輯回歸算法是1967年提出來(lái)的一種二元分類(lèi)器[8],其決策邊界由簡(jiǎn)單的線性回歸函數(shù)描述。當(dāng)執(zhí)行判別函數(shù)時(shí)邏輯回歸不易出現(xiàn)異常值,所以邏輯回歸常被用在真實(shí)測(cè)量值的自動(dòng)分類(lèi)任務(wù)中。
標(biāo)準(zhǔn)的邏輯函數(shù)也就是Sigmoid函數(shù),可以將輸入值t(t∈R)映射到0~1之間。邏輯函數(shù)σ(t)被定義為
(1)
t=β0+β1x
(2)
式中:t為變量x的線性函數(shù);β0和β1為回歸參數(shù),在訓(xùn)練過(guò)程中,通過(guò)優(yōu)化β提升模型的分類(lèi)性能。
故式(1)可進(jìn)一步表示為
(3)
式中:p(x)為因變量x的概率值,被映射在[0,1]以?xún)?nèi)。
在二分類(lèi)情況下,1/2作為概率值的分界,將輸入變量有效地分為兩類(lèi)。 因此邏輯回歸算法避免了無(wú)限誤差,從而減小了異常值的影響。
決策樹(shù)算法[9]是基于分層樹(shù)結(jié)構(gòu),將特征值與閾值進(jìn)行比較,從根節(jié)點(diǎn)開(kāi)始,對(duì)數(shù)據(jù)的某一特征進(jìn)行測(cè)試,根據(jù)測(cè)試結(jié)果,將實(shí)例分配到其子結(jié)點(diǎn),使每一個(gè)子結(jié)點(diǎn)對(duì)應(yīng)著該特征的一個(gè)取值。如此遞歸,完成對(duì)實(shí)例的測(cè)試和分配,直至達(dá)到葉結(jié)點(diǎn),完成特征的分類(lèi)。決策樹(shù)的基本特點(diǎn)是可以根據(jù)特征的重要程度,安排其在決策樹(shù)中的位置,從而更好地完成分類(lèi)。設(shè)p和n分別表示二分類(lèi)變量的缺陷樣本和完好樣本和,那么特征A所得到的信息增益G(A)為
(4)
式中:I(p,n)為信息熵。
(5)
試驗(yàn)中,分類(lèi)數(shù)目v為2。信息增益越大,代表通過(guò)該特征的重要程度越高,也就是該特征所能獲得的信息分類(lèi)效果越好。
再利用最大化信息增益的方式對(duì)變量進(jìn)行二分類(lèi)處理,由此來(lái)降低統(tǒng)計(jì)偏差。所以,要求式(4)中的第二項(xiàng)所表示的信息熵?fù)p失最小,如式(6)所示。
(6)
對(duì)于一個(gè)連續(xù)變化的特征A,通過(guò)最大化信息增益不斷調(diào)節(jié)特征值的分割點(diǎn),從而達(dá)到最佳的分類(lèi)效果。
集成學(xué)習(xí)是將幾個(gè)不同模型的輸出結(jié)合起來(lái),實(shí)現(xiàn)更準(zhǔn)確的分類(lèi),其中Boosting與已建立的加性模型的統(tǒng)計(jì)技術(shù)密切相關(guān),更適用于研究中的多傳感器數(shù)據(jù)[10]。
Boosting是一種機(jī)器學(xué)習(xí)集成方法,主要用于減少算法的方差和偏差,并將弱學(xué)習(xí)算法轉(zhuǎn)化為強(qiáng)學(xué)習(xí)算法,從而提升算法性能。Boosting通過(guò)結(jié)合多個(gè)分類(lèi)器,根據(jù)所有分類(lèi)器的輸出結(jié)果投票得出最終的結(jié)果。在計(jì)算過(guò)程中,每個(gè)新模型都受到以前構(gòu)建模型性能的影響,并根據(jù)模型的置信度來(lái)決定權(quán)重。為了進(jìn)行比較,采用的基本弱學(xué)習(xí)算法為邏輯回歸,并使用能對(duì)弱學(xué)習(xí)算法的錯(cuò)誤進(jìn)行適應(yīng)性調(diào)整的AdaBoost模型。
AdaBoost的輸入是一組由m個(gè)樣本{(x1,y1),…,(xm,ym)}構(gòu)成的訓(xùn)練集及一個(gè)弱學(xué)習(xí)算法(WeakLearn)。訓(xùn)練集對(duì)應(yīng)的標(biāo)簽值為yi∈Y={1,…,k}(i=1,…,m),整數(shù)T為迭代次數(shù)。初始權(quán)值D1(i)=1/m,迭代運(yùn)算次數(shù)t=1,2,…,T,步驟如下所述。
(1) 調(diào)用 WeakLearn算法, 并代入權(quán)值分布Dt。
(2) 返回假設(shè)值ht:X→Y。
(3) 計(jì)算分類(lèi)誤差ht:εt=∑i:ht(xi)≠yiDt(i)。如果εt>1/2, 令T=t-1,終止循環(huán)。
(5) 更新訓(xùn)練數(shù)據(jù)權(quán)值分布Dt。
(7)
式中:Zt為一個(gè)歸一化常數(shù);ht的權(quán)重為ln(1/βt),所以ht的權(quán)值越大,誤差越小。
這個(gè)過(guò)程迭代T次,最后結(jié)合WeakLearn的預(yù)測(cè)值h1,…,hT,得到最終結(jié)果hfin(x)[11]為
(8)
由此實(shí)現(xiàn)Boosting,像Boosting這樣的集成學(xué)習(xí)法,可以結(jié)合成百上千個(gè)弱算法為一個(gè)分類(lèi)效果良好的強(qiáng)算法,但卻很難直觀地表示各個(gè)特征的利用程度。
分類(lèi)方法的性能通常用真正率(TPR)、假正率(FPR)和誤差來(lái)衡量。研究中分別表示為
(9)
(10)
誤差=(1-TPR)×實(shí)際為“缺陷”的樣本數(shù)+
FPR×實(shí)際為“完好”的樣本數(shù)
(11)
數(shù)據(jù)集被分為訓(xùn)練集和測(cè)試集。訓(xùn)練集用來(lái)訓(xùn)練分類(lèi)器,測(cè)試集用于測(cè)試分類(lèi)器性能,模型的性能可以用偏差方差權(quán)衡的方法來(lái)衡量。訓(xùn)練誤差,即偏差,是分類(lèi)方法的綜合評(píng)估標(biāo)準(zhǔn)。測(cè)試誤差,也就是方差,用于評(píng)估分類(lèi)方法的普適性。通常偏差隨著模型復(fù)雜性的增加而減小,而方差會(huì)隨之增加。優(yōu)選的模型應(yīng)該是方差和偏差之和最小的模型。
訓(xùn)練集或測(cè)試集中如果存在異常值,性能就很容易被錯(cuò)誤地評(píng)估。采用交叉驗(yàn)證法來(lái)提高評(píng)估結(jié)果的可靠性,這種方法使用不同的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)組合,并以平均值作為最終結(jié)果。研究使用的K-fold交叉驗(yàn)證法,從18個(gè)獨(dú)立測(cè)量日期構(gòu)成的集合中去掉前兩個(gè)相對(duì)不可靠的集合,將剩余的16個(gè)集合兩兩分為一組,組成8個(gè)獨(dú)立子集(fold),并依次用其中一個(gè)子集作為測(cè)試集,剩下7個(gè)子集用作訓(xùn)練集。
使用軟件MATLAB中的fitglm函數(shù)進(jìn)行邏輯回歸訓(xùn)練,使用fitctree函數(shù)進(jìn)行決策樹(shù)訓(xùn)練,使用Adaboost函數(shù)進(jìn)行Boosting訓(xùn)練。對(duì)于決策樹(shù)來(lái)說(shuō),最優(yōu)分裂數(shù)和最優(yōu)分裂指標(biāo)均由偏置方差分解來(lái)確定。分裂數(shù)目在1~60 之間進(jìn)行選擇,通過(guò)試驗(yàn)證明最優(yōu)分裂數(shù)為5。在熵、Gini指數(shù)、Deviance等測(cè)量指標(biāo)中選用了Deviance為最優(yōu)分裂指標(biāo)。對(duì)于Boosting來(lái)說(shuō)最優(yōu)分裂數(shù)目為6,最優(yōu)學(xué)習(xí)器數(shù)(number of learner)是20。邏輯回歸的最佳結(jié)果由200個(gè)缺陷樣本和50 000個(gè)完好樣本點(diǎn)組成不均衡的數(shù)據(jù)集訓(xùn)練得到。決策樹(shù)和Boosting方法在2 000個(gè)缺陷樣本和50 000個(gè)完好樣本組成的較均衡的數(shù)據(jù)集中進(jìn)行試驗(yàn),得到了最佳的訓(xùn)練結(jié)果。測(cè)試是使用不均衡數(shù)據(jù)進(jìn)行的,以確??杀刃?。
表3總結(jié)了線性邏輯回歸算法、最優(yōu)決策樹(shù)算法及Boosting方法的結(jié)果。
表3 不同分類(lèi)方法的結(jié)果比較
通過(guò)比較誤差,也就是最少錯(cuò)誤分類(lèi)樣本數(shù)目,可知最好的結(jié)果由經(jīng)過(guò)K折交叉驗(yàn)證的Boosting算法得到,其次是邏輯回歸算法。由TPR和FPR的顯示可知,Boosting的靈敏度明顯高于其他兩個(gè)算法的,雖然決策樹(shù)算法的靈敏度高于邏輯回歸算法的,但誤報(bào)率也高。綜上可見(jiàn),Boosting方法得到了最優(yōu)性能的分類(lèi)器。
分類(lèi)器的另一個(gè)特征是其對(duì)可用特征集的利用程度。盡管特征的參考值不一樣,但對(duì)研究的數(shù)據(jù)來(lái)說(shuō),可通過(guò)充分地利用特征空間的全維性來(lái)進(jìn)一步提升算法性能。邏輯回歸算法、決策樹(shù)算法中每個(gè)特征對(duì)分類(lèi)器的貢獻(xiàn)是可區(qū)分的。邏輯回歸和常規(guī)的回歸分析一樣,回歸系數(shù)β可作為描述每個(gè)特征重要程度的權(quán)值。特征的β值越接近于0,對(duì)分類(lèi)的貢獻(xiàn)就越小。決策樹(shù)算法中預(yù)測(cè)重要度(PI)是估計(jì)分類(lèi)器性能的重要參數(shù)。PI值根據(jù)一個(gè)特征的可變性和某個(gè)節(jié)點(diǎn)上類(lèi)別的聯(lián)合概率或到達(dá)某個(gè)節(jié)點(diǎn)的概率,來(lái)量化樹(shù)形結(jié)構(gòu)上因分裂引起的風(fēng)險(xiǎn)的變化。如果PI值為0,則該特征在決策過(guò)程中幾乎不起作用;PI值越高,該特征對(duì)決策的影響也就越大。
為了評(píng)估邏輯回歸和決策樹(shù)受不同特征的影響情況,表4列出了邏輯回歸平均回歸系數(shù)和決策樹(shù)的PI值。可見(jiàn)邏輯回歸算法利用了所有的特征,因?yàn)樗械亩挤橇恪I值在特征2和特征6上是0,在特征7上接近于0,表明其對(duì)決策樹(shù)性能提升影響小。兩種方法顯示最重要的特征都是通過(guò)半電池電位映射(HP)檢測(cè)方法得到的,即特征3和特征4。
表4 以回歸系數(shù)β、PI值表示的特征的重要性
基于鋼筋混凝土銹蝕數(shù)據(jù)及邏輯回歸算法設(shè)計(jì)了決策樹(shù)和Boosting模型,并將其結(jié)果與基本的邏輯回歸進(jìn)行比較。分析表明,對(duì)于小型的異構(gòu)數(shù)據(jù)集來(lái)說(shuō),利用邏輯回歸訓(xùn)練出的簡(jiǎn)單穩(wěn)健的模型相比于決策樹(shù)訓(xùn)練出的具有復(fù)雜決策邊界的模型具有更好的適用性。Boosting可以使預(yù)測(cè)結(jié)果具有更高的靈敏度和更小的誤報(bào)率,同時(shí)改善對(duì)鋼筋混凝土的銹蝕分析。這項(xiàng)工作顯示了機(jī)器學(xué)習(xí)算法在多傳感器無(wú)損檢測(cè)數(shù)據(jù)融合應(yīng)用中的潛力,由于對(duì)數(shù)據(jù)融合的可驗(yàn)證性和普適性的要求較高,其開(kāi)發(fā)需要大量的試驗(yàn)驗(yàn)證。如果將理論轉(zhuǎn)化為產(chǎn)品,機(jī)器學(xué)習(xí)算法將有助于推動(dòng)NDT系統(tǒng)的自動(dòng)化。
致謝感謝德國(guó)聯(lián)邦材料研究所(BAM)提供的鋼筋混凝土無(wú)損檢測(cè)試驗(yàn)平臺(tái)及自然科學(xué)基金項(xiàng)目的資助。