吳賢國, 王 雷, 鄧婷婷, 胡 毅, 袁福銀, 李鐵軍
(1. 華中科技大學(xué) 土木工程與力學(xué)學(xué)院, 湖北 武漢 430074; 2. 中交第二航務(wù)工程局有限公司, 湖北 武漢 430040; 3. 中交路橋建設(shè)有限公司, 北京 100027; 4. 中國交通建設(shè)股份有限公司, 北京 100088)
混凝土的碳化是混凝土所受到的一種化學(xué)腐蝕。水泥性質(zhì)、混凝土強度、及混凝土組成成分與混凝土的碳化都有密切關(guān)系。近年來,提高混凝土結(jié)構(gòu)耐久性一直是一個備受關(guān)注的問題,而混凝土早期碳化作為影響混凝土耐久性的因素之一,屢次成為研究人員爭論的焦點,混凝土快速碳化的原因、混凝土早期碳化的嚴重后果、如何減輕混凝土碳化等問題正困擾著諸多研究學(xué)者們。
因此,國內(nèi)外學(xué)者圍繞混凝土碳化分析開展了相關(guān)研究。部分學(xué)者從微觀方面揭示出混凝土早期碳化的實質(zhì),對混凝土早期碳化現(xiàn)象有了初步認識,胡曉鵬等[1]對摻合料混凝土早期碳化進行微觀分析,利用測試pH值探究碳化深度規(guī)律并驗證了酚酞試劑測試的適用性;胡曉鵬等[2]通過混凝土早期碳化性能的試驗研究,發(fā)現(xiàn)了混凝土早期碳化的特點。一些學(xué)者通過在暴露條件下建立混凝土早期碳化試驗,建立了不同的影響系數(shù)的表達式,胡曉鵬等[3]通過粉煤灰混凝土早期碳化規(guī)律研究,建立了粉煤灰混凝土早期碳化深度的計算模型;張成中等[4]通過探究摻合料對混凝土早期碳化深度的影響,建立了摻合料碳化速度影響系數(shù)的表達式;朱紅英等[5]通過挖掘粉煤灰不同摻量對混凝土碳化的影響,混凝土的碳化深度D與碳化齡期T之間的關(guān)系可用冪函數(shù)D=αTβ(α為碳化性能影響系數(shù);β為碳化速率影響系數(shù))進行相關(guān)性較好的表達。還有部分學(xué)者會根據(jù)特定的實驗?zāi)P?,探究不同影響因素對碳化深度的影響,汪彥斌和藺鵬臻[6]制作了一組混凝土箱梁模型在不同工況下進行一系列碳化試驗,分析了箱梁結(jié)構(gòu)的碳化深度在碳化時間和濃度的變化下所造成的影響,同時在理論層次上為接下來荷載作用下的箱梁碳化研究奠定了基礎(chǔ)。然而,以上研究都是基于已有的實驗數(shù)據(jù)對早期碳化特點進行挖掘,缺乏對早期碳化性質(zhì)進行預(yù)測。
本文將以松原至通榆段高速公路項目為例,針對研究區(qū)季節(jié)性凍土特點,基于隨機森林算法回歸預(yù)測模型,選取水泥強度、水膠比、粉煤灰用量、細集料用量、粗集料用量、平均粒徑等九個影響因素,從而建立早期碳化深度的隨機森林預(yù)測模型,同時與BP(Back Propagation)人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型及小波神經(jīng)網(wǎng)絡(luò)分析模型結(jié)果進行對比,驗證隨機森林模型的可靠性和適用性,為混凝土早期碳化預(yù)測提供一種新思路。
在2001年Breiman[7]提出來隨機森林(Random Forests,RF)的概念。這種算法是由Bagging(套袋)算法以及CART(Classification And Regression Tree)算法相融合而成的一種新型算法。若干個樣本是利用自助抽樣法(Bootstrap)從最初原始樣本集中隨機抽取的,并對這些樣本分別構(gòu)建決策樹,繼而形成組合分類器,假設(shè)這個隨機森林的組合分類器為{h1(x),h2(x),...,hk(x)},h(x)為單個分類器對于輸入向量X所產(chǎn)生的輸出結(jié)果。對于通過自助法(Bootstrap)隨機抽取的訓(xùn)練集向量X,Y,Y是訓(xùn)練集中的對應(yīng)分類結(jié)果,定義間隔函數(shù)(Margin Function)如下:
(1)
式中:k為分類器訓(xùn)練次數(shù);I()為指示函數(shù),其作用是衡量平均正確分類數(shù)大于平均錯誤分類數(shù)的程度;?vk為取間隔函數(shù)值的平均值。間隔函數(shù)越小,模型分類的置信水平越低[8]。泛化誤差是用來反映模型好壞程度的指標,可以表現(xiàn)除訓(xùn)練集以外的數(shù)據(jù)對模型的預(yù)測水平,隨機森林泛化誤差PE*為:
PE*=EX,Y(mg(X,Y)<0)
(2)
式中:EX,Y為X,Y空間上求得的概率。
隨機森林預(yù)測模型的特征如下:
(1)當k趨向于無窮大時,即此時隨機森林處于很大的規(guī)模,便滿足大樹定律規(guī)律,則隨機森林泛化誤差PE*如式(3)所示:
PE*=EX,Y(Pθ(h(X,θ)=Y))-
(3)
式中:θ為單棵決策樹服從獨立同分布的隨機變量;Pθ為隨機變量輸出值的發(fā)生概率;X為自變量。這表明了即使隨機森林的泛化誤差非常大,這個模型也不會產(chǎn)生過擬合的情況,因為泛化誤差一定存在一個極限值。
(2)假設(shè)對所有的θ,E(Y)=EXh(X,θ)則有:
(4)
采用Bagging 思想,從原始樣本中在抽取的若干個訓(xùn)練樣本的過程中采用了Bagging思想,且整個過程是滿足隨機性并是有放回抽取的,以避免隨機森林決策樹中出現(xiàn)局部最優(yōu)解問題[9]。同時每個訓(xùn)練樣本數(shù)等于原始樣本數(shù),其中回歸決策子樹T由每個訓(xùn)練樣本分別建立,最后預(yù)測結(jié)果由各棵樹的綜合平均值表示。在Booststrap抽樣時,未被抽取數(shù)據(jù)的概率為:
(5)
當N→∞時,
(6)
即表明每次有36.8%的數(shù)據(jù)未被抽取,這些數(shù)據(jù)稱為袋外數(shù)據(jù)(Out-of-Bag,OOB) ,OOB誤差通過OOB估計(Out-of-Bag Estimation)獲得[10]。從原有的特征中選取m個特征進行最優(yōu)分割點篩選,重復(fù)上述步驟生成決策樹,最終的回歸結(jié)果由各個決策樹的輸出結(jié)果求平均得到。Bagging 思想可以在保證隨機性的條件下建立大量回歸決策子樹的同時,保證了各個子樹之間的相對獨立性[11]。
OOB殘差均方是一種評估隨機森林特征重要性的方法,這種方法的評估依據(jù)是隨機置換殘差均方減少量。采用OOB殘差均方進行重要性評估的大致步驟如下:
(1)每一棵回歸決策樹由對應(yīng)的樣本集建立,在預(yù)測的時候采用OOB測試集,就可以得到OOB殘差均方。
(2)在b個OOB 樣本的基礎(chǔ)上,通過隨機置換的方式,變量Xi形成一個新的OOB集合,這個新的OOB由已經(jīng)形成的隨機森林進行模擬測試,便可得到OOB的殘差均方MSEij,生成矩陣A如下:
(7)
式中:p為影響因素變量個數(shù);b為樣本個數(shù)。
(3)變量Xi的scorei(重要性得分)可表示為:
scorei= ∑( errOOB2-errOOB1)/ntree
(8)
式中:errOOB1為隨機森林中每一棵決策樹的袋外數(shù)據(jù)誤差;errOOB2為隨機地對袋外數(shù)據(jù)OOB所有樣本的特征Xi加入噪聲干擾后每一棵決策樹的袋外數(shù)據(jù)誤差;ntree為決策樹數(shù)目。
只有利用合適的評價指標才能準確驗證模型的正確性,在隨機森林模型中擬合優(yōu)度R2以及均方根誤差RMSE便可以作為較為合適的兩個評價指標。擬合優(yōu)度R2用于檢驗回歸模型對樣本數(shù)據(jù)的擬合程度,范圍在0~1之間,取值越大,擬合程度越高;均方根誤差RMSE用于表現(xiàn)樣本的離散程度,是估計量預(yù)測值與實際觀測值之間相差絕對值的總和,統(tǒng)計數(shù)據(jù)越完美,那么均方根誤差RMSE的值越接近0,但均方根誤差RMSE大小同時還受預(yù)測數(shù)值的大小影響。兩個評價指標的表達式如下:
(9)
(10)
(11)
Pearson相關(guān)系數(shù)的主要作用是分析兩個連續(xù)變量之間的相關(guān)關(guān)系。其取值范圍是[-1,1]。樣本相關(guān)系數(shù)r的絕對值表示兩個連續(xù)變量間相關(guān)關(guān)系的強弱,絕對值越接近1,則兩個連續(xù)變量相關(guān)程度越高,關(guān)系越密切。由于r是樣本統(tǒng)計量,則抽樣波動性會直接影響r的取值大小,所以兩個變量之間線性關(guān)系是否顯著可以由r進行統(tǒng)計分析進而判斷。為了更加形象地表現(xiàn)出不同影響因素與混凝土碳化深度的相關(guān)性,可以采用相關(guān)性矩陣圖來表示。
隨機森林回歸模型對于影響因素重要性的排序以及影響因素對評價指標的預(yù)測有重要意義,模型的實現(xiàn)主要包括如下幾個步驟,如圖1所示。
圖1 隨機森林回歸流程
(1)構(gòu)建指標體系。通過查閱大量相關(guān)文獻以及工程實踐材料,確定主要影響因素,從而構(gòu)建指標體系。
(2)收集指標數(shù)據(jù)。在確定主要研究影響因素時,根據(jù)工程項目檢測實驗收集相關(guān)數(shù)據(jù)。
(3)建立原始訓(xùn)練集。根據(jù)工程項目檢測實驗收集的相關(guān)數(shù)據(jù),建立原始訓(xùn)練集。
(1)確定樣本分集及模型參數(shù)
若樣本數(shù)據(jù)比較小,為了使結(jié)果更加可靠,可將原始樣本劃分成訓(xùn)練集和測試集。具體步驟如下:
1)將原始數(shù)據(jù)隨機分為K組,利用其中一組數(shù)據(jù)子集中的數(shù)據(jù)分別做一次測試集用來測試模型;
2)將余下的K-1組子集作為訓(xùn)練集用來訓(xùn)練模型,那么總共可以得到K個模型;
3)用得到的K個模型預(yù)測精度的平均值作為這個模型預(yù)測精度的最終估計值,最優(yōu)的訓(xùn)練模型為其中預(yù)測精度最高的模型。
(2)交叉驗證
在隨機森林模型的建模流程中,主要參數(shù)有兩個,分別為:隨機森林樹的棵數(shù)ntree、模型中所挑選的變量數(shù)mtry。設(shè)數(shù)據(jù)集中的變量有P個,默認情況下隨機森林分類模型中mtry=P,ntree=500;隨機森林回歸模型中mtry=P/3,ntree=500。
(1)因素重要性計算
由于隨機森林具有能夠計算單個特征變量重要性的特點[13],對于已經(jīng)生成的隨機森林,若用袋外數(shù)據(jù)測試其性能,假設(shè)袋外數(shù)據(jù)總數(shù)為M,用這M個袋外數(shù)據(jù)作為輸入,帶進之前已經(jīng)生成的隨機森林分類器,分類器會給出M個相應(yīng)的數(shù)據(jù)分類,因為這M條數(shù)據(jù)的類型是已知的,則用正確的分類與隨機森林分類器的結(jié)果進行比較,統(tǒng)計隨機森林分類器分類錯誤的數(shù)目,設(shè)為N,則袋外數(shù)據(jù)誤差大小為:
(12)
隨機森林中每一棵樹的袋外數(shù)據(jù)誤差記為errOOB1,將噪聲干擾隨機加入到袋外數(shù)據(jù)OOB的所有樣本當中,重復(fù)計算其袋外數(shù)據(jù)誤差,記為errOOB2。根據(jù)式(8)對不同影響因素進行重要性評分,并將這些重要性評分進行可視化繪圖,使不同影響因素的重要程度更加清晰明確。
(2)因素相關(guān)性計算
為了進一步驗證隨機森林模型在此試驗的準確度,可以利用Pearson函數(shù)模型分析不同影響因素與早期碳化深度的相關(guān)度,相關(guān)度程度由Pearson相關(guān)系數(shù)r大小表示,其值可根據(jù)式(11)求得。
(3)結(jié)果對比分析
將重要性的計算結(jié)果與相關(guān)性的計算結(jié)果進行對比分析,可進一步確認隨機森林預(yù)測模型的準確性。
(1)隨機森林預(yù)測結(jié)果
R語言軟件[14]是一種自由軟件編程語言與操作環(huán)境,是一種數(shù)學(xué)計算的環(huán)境,是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng),具備高效的數(shù)據(jù)處理和存儲功能。本文利用R語言軟件,在調(diào)用隨機森林算法程序包的基礎(chǔ)上,編寫與數(shù)據(jù)處理相關(guān)的R語言代碼,就可以實現(xiàn)碳化深度隨機森林預(yù)測模型的計算。
(2)其他預(yù)測模型
為了進行對比分析,本文選擇準確程度相對較高的BP人工神經(jīng)網(wǎng)絡(luò)以及小波神經(jīng)網(wǎng)絡(luò)進行建模并預(yù)測分析。
(3)預(yù)測結(jié)果對比分析
選用均方誤差MSE、擬合優(yōu)度R2等參數(shù)來判斷模型的預(yù)測精度,計算公式參考式(9)(10),將三種預(yù)測模型誤差進行對比分析。
松原至通榆段高速公路項目是《國家公路網(wǎng)規(guī)劃》中綏芬河至滿洲里高速公路鐵力至科右中旗聯(lián)絡(luò)線的組成部分,也是《吉林省省級公路網(wǎng)規(guī)劃》 “五主、一并、一環(huán)、七聯(lián)絡(luò)”中“聯(lián)三”線的組成部分,在國家級和區(qū)域級公路網(wǎng)中均有重要意義。松通高速以松原市的前郭縣為起點,途中經(jīng)過乾安縣后進入白城市境內(nèi),再經(jīng)通榆縣,最后以吉林省白城市通榆縣與內(nèi)蒙古自治區(qū)科右中旗交界處(吉、蒙省界)為終點。本文所獲取影響因素相關(guān)數(shù)據(jù)樣本來自松通項目的多個標段。
(1)建立指標體系
基于大量工程實踐和文獻可知[15~19],混凝土的早期碳化性質(zhì)與原材料組成成分以及組成成分的比例有關(guān),因此本文將主要從材料層面選擇影響混凝土早期碳化的影響因素,具體因素包括:水泥強度、水泥用量、粉煤灰用量、細集料用量、粗集料用量、混凝土強度、硅灰用量、水膠比、平均粒徑等。評價碳化性評價指標確定為碳化深度。
(2)建立原始訓(xùn)練集樣本數(shù)據(jù)
以松通項目土建工程混凝土碳化深度作為混凝土碳化性的輸出變量。選取檢測的36組數(shù)據(jù)作為原始訓(xùn)練集,部分數(shù)據(jù)如表1所示。
表1 工程實測樣本數(shù)據(jù)
(1)樣本分集
先將上述選取的監(jiān)測樣本隨機分為 5等份,任選其中4份作為樣本訓(xùn)練集,其作用是確定隨機森林參數(shù)和構(gòu)建隨機森林模型,另外1份作為樣本測試集用于模型預(yù)測好壞性能的評估,同時強調(diào)后文中所出現(xiàn)的原始訓(xùn)練集以及原始測試集即為此處所提及的訓(xùn)練集和測試集。
(2)交叉驗證
默認情況下mtry=P(分類模型)或mtry=P/3(回歸模型);ntree=500。Breiman的研究指出:當隨機森林的參數(shù)取默認值時,模型往往也能取得比較理想的效果。因此本文將取mtry=P/3,ntree=500建立回歸模型,以此保證準確度。
(3)重要性計算
通過隨機森林回歸模型分析各個影響因素對早期碳化深度的重要性程度,同時將重要性程度大小按照降序方式進行排列,節(jié)點純度(InNodePurity)的變化幅度越大,說明該影響因素越重要,表2為重要性排序表。由重要性排序及得分可知,平均粒徑、水膠比、水泥用量、混凝土強度、細集料用量等變量重要性度量值相對較大。
表2 重要性排序
(4)相關(guān)性計算
利用Pearson函數(shù)可以分析各個影響因素之間以及影響因素與早期碳化深度之間的相關(guān)性,可以作為對隨機森林回歸模型預(yù)測結(jié)果的一種驗證手段,計算結(jié)果的相關(guān)性圖如圖2所示。在相關(guān)性圖中,藍色代表影響因素與碳化深度呈正相關(guān),而紅色則呈負相關(guān),圓形半徑越大代表影響因素與碳化深度的相關(guān)性越強,半徑越小則相關(guān)性越弱,由這幾點可以看出,平均粒徑、水膠比、水泥用量、混凝土強度、細骨料用量與碳化深度的相關(guān)性明顯高于其他影響因素,且與重要性排序圖大體一致,進一步說明這些影響因素是對碳化深度性能有較大影響。
由于數(shù)據(jù)來源項目實際工程,表明這些因素是本項目混凝土早期碳化主要影響因素,工作中要加強這些因素的管控。
圖2 因素相關(guān)性
(5)模型訓(xùn)練及預(yù)測
通過隨機森林回歸模型對訓(xùn)練樣本進行擬合,對測試樣本的預(yù)測結(jié)果如圖3所示。
圖3 訓(xùn)練集擬合結(jié)果
從圖3可以看出,早期碳化程度擬合值和實際值比較接近,模擬效果較好。同時對測試集進行預(yù)測檢驗,如圖4所示,可以看出測試集預(yù)測結(jié)果的預(yù)測值曲線與實際值曲線兩者非常貼近。
圖4 測試集預(yù)測結(jié)果
為了進一步檢驗基于隨機森林模型(RF)預(yù)測早期碳化的優(yōu)越性,便選擇BP人工神經(jīng)網(wǎng)絡(luò)和小波神經(jīng)網(wǎng)絡(luò)進行對比分析,選用式(8)均方根誤差和式(9)確定性系數(shù)兩個系數(shù)來衡量不同預(yù)測模型的預(yù)測精度,通過比較這三個預(yù)測模型所得到的兩個系數(shù)來確定精確程度,得到誤差結(jié)果對比結(jié)果,如表3所示。
表3 誤差比較
從預(yù)測結(jié)果對比表可以得出:隨機森林預(yù)測模型、BP人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型、小波神經(jīng)網(wǎng)絡(luò)分析的均方根誤差分別為0.00057,0.016,0.0138,確定性系數(shù)分別為0.694,0.734,0.5433,可以看出在確定性系數(shù)十分相近的前提下,由隨機森林模型得出的均方根誤差遠遠小于由人工神經(jīng)模型以及小波神經(jīng)網(wǎng)絡(luò)模型得出的均方根誤差,說明隨機森林模型預(yù)測結(jié)果最為貼近實際值,精度更高,效果更好。
(1)利用隨機森林回歸模型預(yù)測混凝土的早期碳化程度,通過此預(yù)測模型得到所選影響因素對于早期碳化深度的重要性程度,并且得出了效果比較好的預(yù)測結(jié)果。這證明所提出的隨機森林預(yù)測模型為實現(xiàn)碳化深度預(yù)測提供了一種有效的工具。
(2)本文以松通項目為研究案例,根據(jù)混凝土的早期碳化程度與原材料性質(zhì)選擇了9個相關(guān)的影響因素,并利用Pearson函數(shù)得到了在這些影響因素相關(guān)性程度,其中平均粒徑、水膠比、水泥用量、混凝土強度、細集料用料量等變量重要性度量值相對比較大,與碳化深度的相關(guān)性明顯高于其他影響因素,由于數(shù)據(jù)來源實際工程項目,表明要加強這些因素的管控。
(3)本試驗將隨機森林模型的誤差與人工神經(jīng)網(wǎng)絡(luò)模型以及小波神經(jīng)網(wǎng)絡(luò)分析的誤差計算結(jié)果進行對比分析。結(jié)果表明,與BP人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型以及小波神經(jīng)網(wǎng)絡(luò)預(yù)測模型相比,隨機森林預(yù)測回歸模型所得到的預(yù)測結(jié)果更為準確和穩(wěn)定,從而進一步說明了隨機森林預(yù)測模型在對混凝土早期碳化程度的研究中具有更大的優(yōu)勢。