徐虎博,史東輝
(安徽建筑大學(xué)電子與信息工程學(xué)院,安徽 合肥 230601)
1144024636@qq.com;donghui_shi@163.com
近年來,隨著我國經(jīng)濟(jì)的迅速發(fā)展,建筑業(yè)發(fā)展規(guī)模不斷擴(kuò)大,但與此同時(shí)建筑安全事故發(fā)生率逐步提升。雖然我國歷來非常重視安全生產(chǎn)問題,并且政府有關(guān)部門為了應(yīng)對(duì)建筑安全事故發(fā)生率不斷上升的問題,研究并采取了不少的對(duì)策和措施[1-2],但是建筑安全事故仍然層出不窮。建筑安全事故頻發(fā),不僅會(huì)影響建筑從業(yè)人員的心理健康狀況,還會(huì)影響我國國民經(jīng)濟(jì)的穩(wěn)定增長。因此,建筑安全事故預(yù)測對(duì)提前預(yù)防事故的發(fā)生具有重要的意義。
通常,對(duì)建筑安全事故的研究大多集中在事故分析和預(yù)警管理分析方面,利用模型對(duì)建筑安全事故發(fā)生次數(shù)進(jìn)行預(yù)測的研究較少,而使用ARIMA與LSTM模型對(duì)建筑安全事故預(yù)測的研究基本沒有。所以,本文將建筑安全事故發(fā)生次數(shù)作為研究對(duì)象,使用ARIMA和LSTM模型對(duì)其進(jìn)行預(yù)測分析。
國內(nèi)外使用ARIMA模型進(jìn)行事故預(yù)測的案例不斷增多。2012 年,甘旭升等[3]構(gòu)建ARIMA模型預(yù)測美國空軍飛行事故的萬時(shí)率,平均相對(duì)誤差在7%以內(nèi)。2015 年,鄭向陽等[4]為了減少生產(chǎn)作業(yè)中由不確定性因素導(dǎo)致錯(cuò)誤決策引發(fā)的風(fēng)險(xiǎn),通過ARIMA模型對(duì)安全生產(chǎn)事故發(fā)生次數(shù)進(jìn)行預(yù)測,研究表明其模型用于預(yù)測企業(yè)安全生產(chǎn)事故發(fā)生的情況與企業(yè)的實(shí)際情況基本吻合。2015 年,KARIMLOU等[5]構(gòu)建ARIMA模型用于預(yù)測伊朗受保工人的工傷事故數(shù)量,該數(shù)據(jù)擬合模型的預(yù)測結(jié)果平均絕對(duì)百分比誤差(MAPE)為20.942。2019 年,LI[6]研究民航領(lǐng)域不同飛行階段發(fā)生飛行事故和人員傷亡的變化趨勢(shì),根據(jù)ARIMA(1,0,1)模型對(duì)全球民航飛行事故和傷亡人數(shù)進(jìn)行預(yù)測,預(yù)測未來飛行事故可能發(fā)生的變化,為航空安全研究提供數(shù)據(jù)參考。
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,近幾年使用LSTM進(jìn)行預(yù)測的研究案例顯著增多。2019 年,張志豪等[7]使用LSTM神經(jīng)網(wǎng)絡(luò)對(duì)影響交通安全水平的指標(biāo)進(jìn)行預(yù)測,準(zhǔn)確地反映交通事故安全發(fā)生率。2020 年,RADAIDEH等[8]以冷卻劑損失事故為分析特征,采用核電廠設(shè)計(jì)基準(zhǔn)事故的時(shí)間序列數(shù)據(jù)進(jìn)行建模和預(yù)測。LSTM模型在預(yù)測測試和基本情況場景預(yù)測方面表現(xiàn)出優(yōu)異的性能,預(yù)測準(zhǔn)確率高達(dá)99%。2020 年,MOHANTY等[9]使用LSTM模型預(yù)測一個(gè)區(qū)域內(nèi)的社區(qū)交通擁堵情況,并且開發(fā)了一個(gè)更好解釋輸入對(duì)其輸出貢獻(xiàn)的模型框架。2021 年,ESSIEN等[10]將雙向LSTM模型用于多步交通流預(yù)測,該模型在英國大曼徹斯特的城市道路網(wǎng)上進(jìn)行了評(píng)估,結(jié)果證明了該方法在提高預(yù)測精度方面的有效性。2022 年,曾航等[11]提出一種改進(jìn)的LSTM模型進(jìn)行航空安全預(yù)測,實(shí)驗(yàn)結(jié)果表明該模型預(yù)測誤差較現(xiàn)有方法降低了28%以上,同時(shí)具有較好的泛化能力和魯棒性。
綜上,使用ARIMA和LSTM模型均能對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)測,但是單個(gè)模型的預(yù)測較難看出其優(yōu)勢(shì)和劣勢(shì),所以為了能夠選擇對(duì)時(shí)間序列數(shù)據(jù)擬合更好的模型,近幾年開始對(duì)兩個(gè)模型進(jìn)行對(duì)比研究。2020 年,景楠等[12]對(duì)新型冠狀病毒肺炎引起的網(wǎng)絡(luò)輿情進(jìn)行分析,使用ARIMA和LSTM模型對(duì)其網(wǎng)絡(luò)關(guān)注度趨勢(shì)進(jìn)行預(yù)測,兩個(gè)模型都能較好地模擬疫情網(wǎng)絡(luò)輿情關(guān)注度的變化趨勢(shì)。2020 年,WANG等[13]使用ARIMA和LSTM模型預(yù)測使用共享汽車頻次高、中、低三類用戶的短期需求,發(fā)現(xiàn)LSTM模型對(duì)每種類型的用戶具有更高的需求預(yù)測精度,但是ARIMA模型的整體預(yù)測精度更高。2021 年,王淑平等[14]使用ARIMA和LSTM模型對(duì)醫(yī)院月出院人次進(jìn)行預(yù)測,結(jié)果表明ARIMA模型的預(yù)測效果要好于LSTM模型。2021 年,徐映梅等[15]使用ARIMA和LSTM模型對(duì)2019 年中國的生產(chǎn)總值GDP進(jìn)行預(yù)測,得出在樣本量相對(duì)較少的情況下,并且針對(duì)簡單時(shí)間序列的數(shù)據(jù)時(shí),使用ARIMA模型進(jìn)行預(yù)測更具優(yōu)勢(shì)的結(jié)論。2021 年,MAHADIK等[16]研究對(duì)特定公司數(shù)據(jù)集進(jìn)行擬合時(shí)哪種模型更適合,并且在預(yù)測股票未來趨勢(shì)上ARIMA模型具有更高的精度。2021 年,MEJRI等[17]將ARIMA和LSTM模型用于家用洗滌劑工業(yè)生產(chǎn)的需求預(yù)測,研究表明LSTM模型具有更好的整體性且具有更高的預(yù)測精度。2021 年,WAN等[18]使用ARIMA和LSTM模型對(duì)玉米期貨的日收盤價(jià)進(jìn)行預(yù)測,研究發(fā)現(xiàn)LSTM模型的預(yù)測能力更好。
可以看出,ARIMA和LSTM模型對(duì)不同數(shù)據(jù)集的預(yù)測效果各不相同,所以為了能夠找到對(duì)建筑安全事故預(yù)測更加準(zhǔn)確的模型,本文采用對(duì)比研究的方法,通過對(duì)比實(shí)驗(yàn)選取能夠更加準(zhǔn)確地預(yù)測建筑安全事故發(fā)生的規(guī)律。這對(duì)建筑行業(yè)風(fēng)險(xiǎn)管理具有重要意義,并且能為建筑安全事故預(yù)防提供參考。
時(shí)間序列主要包括自回歸模型(AR)、移動(dòng)平均模型(MA)和自回歸移動(dòng)平均模型(ARMA)的平穩(wěn)時(shí)間序列模型,以及差分自回歸移動(dòng)平均模型(ARIMA)的非平穩(wěn)的時(shí)間序列模型。
時(shí)間序列模型在進(jìn)行時(shí)間序列分析時(shí)起關(guān)鍵作用,可以表示出時(shí)間序列的特性。每個(gè)時(shí)間的數(shù)值表示某一現(xiàn)象在該時(shí)間的觀測值,其中相鄰點(diǎn)的時(shí)間間隔可以不同。假設(shè)有時(shí)間序列,則有公式(1):
其中,ti表示時(shí)間,xi表示觀測值,(ti,xi)表示在時(shí)間ti的觀測值為xi。
ARIMA模型,對(duì)非平穩(wěn)時(shí)間序列進(jìn)行d階差分處理時(shí),首先使其變?yōu)槠椒€(wěn)數(shù)列,然后將其數(shù)據(jù)輸入ARMA模型進(jìn)行擬合,簡記為ARIMA(p,d,q),見公式(2):
ARIMA的建模步驟如圖1所示。首先判斷時(shí)間序列數(shù)據(jù)是否為平穩(wěn)數(shù)據(jù),如果不是平穩(wěn)數(shù)據(jù),就需要對(duì)數(shù)據(jù)進(jìn)行差分運(yùn)算,使其變?yōu)槠椒€(wěn)數(shù)據(jù)。其次在判斷是否為平穩(wěn)數(shù)據(jù)之后,需要進(jìn)行白噪聲檢測,白噪聲檢測是為了使數(shù)據(jù)符合模型擬合要求。最后對(duì)通過白噪聲檢測的數(shù)據(jù)選擇合適的ARIMA模型進(jìn)行擬合。
圖1 ARIMA建模步驟Fig.1 ARIMA modeling steps
LSTM神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的擴(kuò)展,解決了長期依賴的問題。一個(gè)LSTM單元的基本結(jié)構(gòu)由遺忘門、輸入門和輸出門組成,門實(shí)現(xiàn)遺忘或記憶的功能,其單元基本結(jié)構(gòu)如圖2所示。
圖2 LSTM單元基本結(jié)構(gòu)Fig.2 Basic structure of LSTM unit
遺忘門中將當(dāng)前時(shí)刻的輸入和上一時(shí)刻的輸出作為sigmoid函數(shù)的輸入,用來控制上一單元狀態(tài)被遺忘的程度。輸入門和tanh函數(shù)結(jié)合組成,用來控制新輸入信息的量。輸出層決定輸出的信息,主要利用tanh函數(shù)處理當(dāng)前細(xì)胞狀態(tài),接著結(jié)合sigmoid函數(shù)得到的權(quán)值來過濾部分細(xì)胞狀態(tài)信息,并獲得下一時(shí)刻的輸出。
公式(3)—公式(8)中,ft為遺忘門的輸出;it為輸入門的輸出;Ot為輸出門的輸出;為當(dāng)前輸入的記憶;C(t-1)為上一時(shí)刻的細(xì)胞狀態(tài);Ct為當(dāng)前時(shí)刻的細(xì)胞狀態(tài);h(t-1)為當(dāng)前時(shí)刻的輸出;Wf、Wi、Wo、Wc分別為遺忘門、輸入門、輸出門和輸入門中間變量與當(dāng)前時(shí)刻輸入Xt和上一時(shí)刻輸出h(t-1)作乘法運(yùn)算的權(quán)重;bf、bi、bo、bc為偏置向量;σ為sigmoid函數(shù)。
LSTM建模過程分三步。一是對(duì)將進(jìn)入輸入層的樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化,將滿足LSTM輸入要求的數(shù)據(jù)輸入隱含層。二是將隱含層輸出的多個(gè)結(jié)果在輸出層通過映射輸出模型期望的結(jié)果,接著進(jìn)行模型訓(xùn)練,在設(shè)定迭代周期內(nèi)進(jìn)行安全事故數(shù)據(jù)訓(xùn)練,以更好地預(yù)測安全事故發(fā)生量的變化趨勢(shì)。三是利用訓(xùn)練好的模型預(yù)測和分析測試集數(shù)據(jù),通過計(jì)算誤差函數(shù)值評(píng)估模型的擬合效果。
研究使用2012—2018 年《全國建筑安全事故快報(bào)》中的建筑安全事故發(fā)生的時(shí)間序列數(shù)據(jù),其中使用2012—2017 年的死亡一人以上的安全事故案例作為訓(xùn)練模型,然后使用2018 年的數(shù)據(jù)進(jìn)行驗(yàn)證,其中對(duì)建筑安全事故時(shí)序數(shù)據(jù)使用ARIMA和LSTM模型進(jìn)行擬合,并對(duì)擬合完成的模型通過RMSE和MAE進(jìn)行比較,分析兩種模型的優(yōu)勢(shì)和劣勢(shì)后,選擇最適合預(yù)測的模型。
本研究是對(duì)建筑安全事故發(fā)生次數(shù)進(jìn)行預(yù)測,統(tǒng)計(jì)每年、每月建筑安全事故(死亡1 人以上的事故)發(fā)生次數(shù)作為時(shí)序數(shù)據(jù),得到2012—2018 年建筑安全事故發(fā)生次數(shù)的時(shí)序變化折線圖(圖3)。通過圖3可以看出,建筑安全事故發(fā)生次數(shù)總體呈現(xiàn)增長趨勢(shì)。
圖3 時(shí)序數(shù)據(jù)折線圖Fig.3 Line chart of time series data
由于模型要求時(shí)序數(shù)據(jù)為穩(wěn)定數(shù)據(jù),因此要先判斷時(shí)序數(shù)據(jù)是否穩(wěn)定,通過單位根檢驗(yàn)(ADF檢驗(yàn))進(jìn)行判斷。該方法通過查看是否存在單位根,判斷序列是否平穩(wěn),即檢驗(yàn)的假設(shè)為存在單位根,查看顯著性檢驗(yàn)統(tǒng)計(jì)量是否小于三個(gè)置信度(10%,5%,1%)。
對(duì)原始時(shí)序數(shù)據(jù)進(jìn)行ADF檢驗(yàn),通過表1得出ADF檢驗(yàn)的p值為0.980842,顯著水平一般為0.05,因此p值大于顯著水平,說明并不能拒絕原假設(shè)。由于Test Statistic Value的值大于三種置信水平下的值,因此數(shù)據(jù)是不穩(wěn)定的。
表1 時(shí)序數(shù)據(jù)平穩(wěn)化過程ADF檢驗(yàn)結(jié)果Tab.1 ADF test results of time series data stabilization process
由于原始時(shí)序數(shù)據(jù)為非平穩(wěn)數(shù)據(jù),因此需要通過處理并再次判斷數(shù)據(jù)是否已經(jīng)平穩(wěn)化。原始時(shí)序數(shù)據(jù)的數(shù)值都大于0,所以先對(duì)其進(jìn)行對(duì)數(shù)變換。通過表1發(fā)現(xiàn),對(duì)數(shù)變換后的時(shí)序數(shù)據(jù)進(jìn)行ADF檢驗(yàn)可知p值為0.988261,仍然大于顯著水平且在任何置信水平下,Test Statistic Value的值表明不能拒絕原假設(shè),因此對(duì)數(shù)變換后的時(shí)序數(shù)據(jù)也是非平穩(wěn)數(shù)據(jù)。
經(jīng)過對(duì)數(shù)變換后仍為非平穩(wěn)數(shù)據(jù),接著對(duì)時(shí)序數(shù)據(jù)進(jìn)行差分運(yùn)算處理,該方法主要是對(duì)等周期間隔的數(shù)據(jù)進(jìn)行線性求減。對(duì)時(shí)序數(shù)據(jù)進(jìn)行一階和二階差分處理,通過對(duì)表2中的數(shù)據(jù)進(jìn)行對(duì)比,可以得出兩種差分處理后的時(shí)序數(shù)據(jù)均是平穩(wěn)數(shù)據(jù)??梢钥闯?,ADF檢驗(yàn)的p值明顯低于顯著水平,并且在三種置信水平下都拒絕原假設(shè),即序列不具有單位根。又因?yàn)榫岛蜆?biāo)準(zhǔn)差的數(shù)值相差不大,所以選取一階差分后的時(shí)序數(shù)據(jù),將差分次數(shù)定為1。
表2 時(shí)序數(shù)據(jù)差分化過程ADF檢驗(yàn)結(jié)果Tab.2 ADF test results of differential differentiation process of time series data
經(jīng)過一階差分后的數(shù)據(jù)為平穩(wěn)序列。對(duì)序列進(jìn)行白噪聲檢驗(yàn),得到統(tǒng)計(jì)量和p值兩個(gè)數(shù)值,分別為10.2648925和0.00135586,可以得出p值明顯小于顯著水平,因此一階差分后的時(shí)序序列為平穩(wěn)非白噪聲序列。
通過圖4確定模型參數(shù),經(jīng)過分析選定范圍內(nèi)的p、q參數(shù),然后對(duì)選取的各個(gè)參數(shù)進(jìn)行評(píng)估,根據(jù)評(píng)估結(jié)果選擇效果最好的一個(gè)參數(shù)模型。評(píng)估的標(biāo)準(zhǔn)按照赤池信息準(zhǔn)則(AIC)及貝葉斯信息準(zhǔn)則(BIC)。表3為截取效果較好的部分參數(shù)的結(jié)果,并確定使用參數(shù)(1,1,0)進(jìn)行模型擬合。
圖4 自相關(guān)圖和偏自相關(guān)圖Fig.4 Autocorrelation diagram and partial autocorrelation diagram
表3 選取參數(shù)結(jié)果表Tab.3 Selected parameter result table
在模型訓(xùn)練之前,為了使數(shù)據(jù)更好地?cái)M合模型,需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。其功能是使用數(shù)據(jù)的最大值和最小值對(duì)當(dāng)前值進(jìn)行縮放,使數(shù)據(jù)的值在0—1,歸一化公式見公式(9):
公式(9)中,xi為未處理的數(shù)據(jù),min(x)為整體最小數(shù)據(jù),max(x)為整體最大數(shù)據(jù)。對(duì)歸一化后的數(shù)據(jù)進(jìn)行劃分,將2012—2017 年的建筑安全事故發(fā)生次數(shù)作為LSTM的訓(xùn)練集,2018 年的數(shù)據(jù)作為測試集。
構(gòu)建LSTM模型,采用單向編碼方式,隱藏層數(shù)設(shè)置為2,隱藏層神經(jīng)元的數(shù)量設(shè)置為64 個(gè),全鏈接層數(shù)設(shè)置為1。同時(shí),設(shè)置輸入數(shù)據(jù)批次大小為10,每次選取12 個(gè)數(shù)據(jù)進(jìn)行訓(xùn)練,時(shí)間長度為12 個(gè)月,訓(xùn)練次數(shù)為2,000 次。使用Adam優(yōu)化器對(duì)模型進(jìn)行調(diào)優(yōu),并使用Pytorch搭建模型結(jié)構(gòu)。
為了評(píng)價(jià)模型的預(yù)測效果,選取RMSE和MAE作為模型評(píng)價(jià)指標(biāo)。RMSE用于衡量預(yù)測值與實(shí)際值之間的偏差,誤差越小,則表明精度越高。MAE是預(yù)測值與實(shí)際值之間絕對(duì)誤差的平均值,能直觀地反映預(yù)測值誤差的實(shí)際情況,其值越接近于0,則表示預(yù)測越準(zhǔn)確。計(jì)算見公式(10)和公式(11):
為了更好地分析和對(duì)比ARIMA和LSTM模型預(yù)測建筑安全事故次數(shù)的效果,加入Holt-Winter(霍爾特-溫特)模型,并用相同的數(shù)據(jù)進(jìn)行預(yù)測,該模型適用于任何呈現(xiàn)某種趨勢(shì)具有季節(jié)性的數(shù)據(jù)集。三種模型對(duì)2018 年安全事故次數(shù)預(yù)測結(jié)果如圖5所示。
圖5 3 種模型的預(yù)測結(jié)果Fig.5 Prediction results of three models
ARIMA、LSTM、Holt-Winter三種模型的預(yù)測曲線、預(yù)測結(jié)果如圖5和表4所示,在預(yù)測準(zhǔn)確率上,ARIMA模型的預(yù)測效果明顯優(yōu)于其他兩種模型,能夠很好地?cái)M合建筑安全事故發(fā)生次數(shù)曲線;而LSTM模型的預(yù)測結(jié)果的變化趨勢(shì)和原始數(shù)據(jù)的振動(dòng)情況雖然基本吻合,但是預(yù)測值與實(shí)際值在部分月份有較大差距,并且誤差值是ARIMA的兩倍。對(duì)于Holt-Winters模型,雖然建筑安全事故發(fā)生次數(shù)在一定時(shí)間段內(nèi)呈現(xiàn)相似的周期性,但是預(yù)測結(jié)果表明建筑事故發(fā)生次數(shù)并不是呈現(xiàn)某種趨勢(shì)的季節(jié)性數(shù)據(jù)。
表4 三種模型的預(yù)測誤差及時(shí)長Tab.4 Prediction error and time length of three models
本文為了驗(yàn)證ARIMA和LSTM兩種模型在建筑安全事故發(fā)生次數(shù)預(yù)測的效果,通過對(duì)比研究,得出兩種模型在擬合預(yù)測上均有良好的表現(xiàn),都能對(duì)安全事故發(fā)生次數(shù)進(jìn)行較好的預(yù)測,但在準(zhǔn)確度上,ARIMA模型比LSTM模型要高,在數(shù)據(jù)處理方面,ARIMA模型所需的步驟比LSTM模型多。盡管ARIMA模型在訓(xùn)練之前需要對(duì)數(shù)據(jù)進(jìn)行多步處理,但是高準(zhǔn)確率對(duì)建筑安全事故能進(jìn)行有效預(yù)警,能夠在事故高發(fā)期提前做出應(yīng)對(duì)措施,對(duì)建筑工人的人身安全起到更好的保障。