基于ARIMA和LSTM模型的建筑安全事故預(yù)測

2023-03-09 07:05:10徐虎博史東輝

軟件工程 2023年3期

徐虎博，史東輝

(安徽建筑大學(xué)電子與信息工程學(xué)院，安徽合肥 230601)

1144024636@qq.com;donghui_shi@163.com

1 引言(Introduction)

近年來，隨著我國經(jīng)濟(jì)的迅速發(fā)展，建筑業(yè)發(fā)展規(guī)模不斷擴(kuò)大，但與此同時(shí)建筑安全事故發(fā)生率逐步提升。雖然我國歷來非常重視安全生產(chǎn)問題，并且政府有關(guān)部門為了應(yīng)對(duì)建筑安全事故發(fā)生率不斷上升的問題，研究并采取了不少的對(duì)策和措施[1-2]，但是建筑安全事故仍然層出不窮。建筑安全事故頻發(fā)，不僅會(huì)影響建筑從業(yè)人員的心理健康狀況，還會(huì)影響我國國民經(jīng)濟(jì)的穩(wěn)定增長。因此，建筑安全事故預(yù)測對(duì)提前預(yù)防事故的發(fā)生具有重要的意義。

通常，對(duì)建筑安全事故的研究大多集中在事故分析和預(yù)警管理分析方面，利用模型對(duì)建筑安全事故發(fā)生次數(shù)進(jìn)行預(yù)測的研究較少，而使用ARIMA與LSTM模型對(duì)建筑安全事故預(yù)測的研究基本沒有。所以，本文將建筑安全事故發(fā)生次數(shù)作為研究對(duì)象，使用ARIMA和LSTM模型對(duì)其進(jìn)行預(yù)測分析。

2 研究現(xiàn)狀(Research status)

國內(nèi)外使用ARIMA模型進(jìn)行事故預(yù)測的案例不斷增多。2012 年，甘旭升等[3]構(gòu)建ARIMA模型預(yù)測美國空軍飛行事故的萬時(shí)率，平均相對(duì)誤差在7%以內(nèi)。2015 年，鄭向陽等[4]為了減少生產(chǎn)作業(yè)中由不確定性因素導(dǎo)致錯(cuò)誤決策引發(fā)的風(fēng)險(xiǎn)，通過ARIMA模型對(duì)安全生產(chǎn)事故發(fā)生次數(shù)進(jìn)行預(yù)測，研究表明其模型用于預(yù)測企業(yè)安全生產(chǎn)事故發(fā)生的情況與企業(yè)的實(shí)際情況基本吻合。2015 年，KARIMLOU等[5]構(gòu)建ARIMA模型用于預(yù)測伊朗受保工人的工傷事故數(shù)量，該數(shù)據(jù)擬合模型的預(yù)測結(jié)果平均絕對(duì)百分比誤差(MAPE)為20.942。2019 年，LI[6]研究民航領(lǐng)域不同飛行階段發(fā)生飛行事故和人員傷亡的變化趨勢(shì)，根據(jù)ARIMA(1，0，1)模型對(duì)全球民航飛行事故和傷亡人數(shù)進(jìn)行預(yù)測，預(yù)測未來飛行事故可能發(fā)生的變化，為航空安全研究提供數(shù)據(jù)參考。

隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展，近幾年使用LSTM進(jìn)行預(yù)測的研究案例顯著增多。2019 年，張志豪等[7]使用LSTM神經(jīng)網(wǎng)絡(luò)對(duì)影響交通安全水平的指標(biāo)進(jìn)行預(yù)測，準(zhǔn)確地反映交通事故安全發(fā)生率。2020 年，RADAIDEH等[8]以冷卻劑損失事故為分析特征，采用核電廠設(shè)計(jì)基準(zhǔn)事故的時(shí)間序列數(shù)據(jù)進(jìn)行建模和預(yù)測。LSTM模型在預(yù)測測試和基本情況場景預(yù)測方面表現(xiàn)出優(yōu)異的性能，預(yù)測準(zhǔn)確率高達(dá)99%。2020 年，MOHANTY等[9]使用LSTM模型預(yù)測一個(gè)區(qū)域內(nèi)的社區(qū)交通擁堵情況，并且開發(fā)了一個(gè)更好解釋輸入對(duì)其輸出貢獻(xiàn)的模型框架。2021 年，ESSIEN等[10]將雙向LSTM模型用于多步交通流預(yù)測，該模型在英國大曼徹斯特的城市道路網(wǎng)上進(jìn)行了評(píng)估，結(jié)果證明了該方法在提高預(yù)測精度方面的有效性。2022 年，曾航等[11]提出一種改進(jìn)的LSTM模型進(jìn)行航空安全預(yù)測，實(shí)驗(yàn)結(jié)果表明該模型預(yù)測誤差較現(xiàn)有方法降低了28%以上，同時(shí)具有較好的泛化能力和魯棒性。

綜上，使用ARIMA和LSTM模型均能對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行預(yù)測，但是單個(gè)模型的預(yù)測較難看出其優(yōu)勢(shì)和劣勢(shì)，所以為了能夠選擇對(duì)時(shí)間序列數(shù)據(jù)擬合更好的模型，近幾年開始對(duì)兩個(gè)模型進(jìn)行對(duì)比研究。2020 年，景楠等[12]對(duì)新型冠狀病毒肺炎引起的網(wǎng)絡(luò)輿情進(jìn)行分析，使用ARIMA和LSTM模型對(duì)其網(wǎng)絡(luò)關(guān)注度趨勢(shì)進(jìn)行預(yù)測，兩個(gè)模型都能較好地模擬疫情網(wǎng)絡(luò)輿情關(guān)注度的變化趨勢(shì)。2020 年，WANG等[13]使用ARIMA和LSTM模型預(yù)測使用共享汽車頻次高、中、低三類用戶的短期需求，發(fā)現(xiàn)LSTM模型對(duì)每種類型的用戶具有更高的需求預(yù)測精度，但是ARIMA模型的整體預(yù)測精度更高。2021 年，王淑平等[14]使用ARIMA和LSTM模型對(duì)醫(yī)院月出院人次進(jìn)行預(yù)測，結(jié)果表明ARIMA模型的預(yù)測效果要好于LSTM模型。2021 年，徐映梅等[15]使用ARIMA和LSTM模型對(duì)2019 年中國的生產(chǎn)總值GDP進(jìn)行預(yù)測，得出在樣本量相對(duì)較少的情況下，并且針對(duì)簡單時(shí)間序列的數(shù)據(jù)時(shí)，使用ARIMA模型進(jìn)行預(yù)測更具優(yōu)勢(shì)的結(jié)論。2021 年，MAHADIK等[16]研究對(duì)特定公司數(shù)據(jù)集進(jìn)行擬合時(shí)哪種模型更適合，并且在預(yù)測股票未來趨勢(shì)上ARIMA模型具有更高的精度。2021 年，MEJRI等[17]將ARIMA和LSTM模型用于家用洗滌劑工業(yè)生產(chǎn)的需求預(yù)測，研究表明LSTM模型具有更好的整體性且具有更高的預(yù)測精度。2021 年，WAN等[18]使用ARIMA和LSTM模型對(duì)玉米期貨的日收盤價(jià)進(jìn)行預(yù)測，研究發(fā)現(xiàn)LSTM模型的預(yù)測能力更好。

可以看出，ARIMA和LSTM模型對(duì)不同數(shù)據(jù)集的預(yù)測效果各不相同，所以為了能夠找到對(duì)建筑安全事故預(yù)測更加準(zhǔn)確的模型，本文采用對(duì)比研究的方法，通過對(duì)比實(shí)驗(yàn)選取能夠更加準(zhǔn)確地預(yù)測建筑安全事故發(fā)生的規(guī)律。這對(duì)建筑行業(yè)風(fēng)險(xiǎn)管理具有重要意義，并且能為建筑安全事故預(yù)防提供參考。

3 建筑安全事故預(yù)測模型(Prediction model of construction safety accidents)

3.1 時(shí)間序列

時(shí)間序列主要包括自回歸模型(AR)、移動(dòng)平均模型(MA)和自回歸移動(dòng)平均模型(ARMA)的平穩(wěn)時(shí)間序列模型，以及差分自回歸移動(dòng)平均模型(ARIMA)的非平穩(wěn)的時(shí)間序列模型。

時(shí)間序列模型在進(jìn)行時(shí)間序列分析時(shí)起關(guān)鍵作用，可以表示出時(shí)間序列的特性。每個(gè)時(shí)間的數(shù)值表示某一現(xiàn)象在該時(shí)間的觀測值，其中相鄰點(diǎn)的時(shí)間間隔可以不同。假設(shè)有時(shí)間序列，則有公式(1)：

其中，ti表示時(shí)間，xi表示觀測值，(ti,xi)表示在時(shí)間ti的觀測值為xi。

3.2 ARIMA

ARIMA模型，對(duì)非平穩(wěn)時(shí)間序列進(jìn)行d階差分處理時(shí)，首先使其變?yōu)槠椒€(wěn)數(shù)列，然后將其數(shù)據(jù)輸入ARMA模型進(jìn)行擬合，簡記為ARIMA(p,d,q)，見公式(2)：

ARIMA的建模步驟如圖1所示。首先判斷時(shí)間序列數(shù)據(jù)是否為平穩(wěn)數(shù)據(jù)，如果不是平穩(wěn)數(shù)據(jù)，就需要對(duì)數(shù)據(jù)進(jìn)行差分運(yùn)算，使其變?yōu)槠椒€(wěn)數(shù)據(jù)。其次在判斷是否為平穩(wěn)數(shù)據(jù)之后，需要進(jìn)行白噪聲檢測，白噪聲檢測是為了使數(shù)據(jù)符合模型擬合要求。最后對(duì)通過白噪聲檢測的數(shù)據(jù)選擇合適的ARIMA模型進(jìn)行擬合。

圖1 ARIMA建模步驟Fig.1 ARIMA modeling steps

3.3 LSTM

LSTM神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)的擴(kuò)展，解決了長期依賴的問題。一個(gè)LSTM單元的基本結(jié)構(gòu)由遺忘門、輸入門和輸出門組成，門實(shí)現(xiàn)遺忘或記憶的功能，其單元基本結(jié)構(gòu)如圖2所示。

圖2 LSTM單元基本結(jié)構(gòu)Fig.2 Basic structure of LSTM unit

遺忘門中將當(dāng)前時(shí)刻的輸入和上一時(shí)刻的輸出作為sigmoid函數(shù)的輸入，用來控制上一單元狀態(tài)被遺忘的程度。輸入門和tanh函數(shù)結(jié)合組成，用來控制新輸入信息的量。輸出層決定輸出的信息，主要利用tanh函數(shù)處理當(dāng)前細(xì)胞狀態(tài)，接著結(jié)合sigmoid函數(shù)得到的權(quán)值來過濾部分細(xì)胞狀態(tài)信息，并獲得下一時(shí)刻的輸出。

公式(3)—公式(8)中，ft為遺忘門的輸出；it為輸入門的輸出；Ot為輸出門的輸出；為當(dāng)前輸入的記憶；C(t-1)為上一時(shí)刻的細(xì)胞狀態(tài)；Ct為當(dāng)前時(shí)刻的細(xì)胞狀態(tài)；h(t-1)為當(dāng)前時(shí)刻的輸出；Wf、Wi、Wo、Wc分別為遺忘門、輸入門、輸出門和輸入門中間變量與當(dāng)前時(shí)刻輸入Xt和上一時(shí)刻輸出h(t-1)作乘法運(yùn)算的權(quán)重；bf、bi、bo、bc為偏置向量；σ為sigmoid函數(shù)。

LSTM建模過程分三步。一是對(duì)將進(jìn)入輸入層的樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)歸一化，將滿足LSTM輸入要求的數(shù)據(jù)輸入隱含層。二是將隱含層輸出的多個(gè)結(jié)果在輸出層通過映射輸出模型期望的結(jié)果，接著進(jìn)行模型訓(xùn)練，在設(shè)定迭代周期內(nèi)進(jìn)行安全事故數(shù)據(jù)訓(xùn)練，以更好地預(yù)測安全事故發(fā)生量的變化趨勢(shì)。三是利用訓(xùn)練好的模型預(yù)測和分析測試集數(shù)據(jù)，通過計(jì)算誤差函數(shù)值評(píng)估模型的擬合效果。

4 算法分析(Algorithm analysis)

4.1 數(shù)據(jù)來源與分析

研究使用2012—2018 年《全國建筑安全事故快報(bào)》中的建筑安全事故發(fā)生的時(shí)間序列數(shù)據(jù)，其中使用2012—2017 年的死亡一人以上的安全事故案例作為訓(xùn)練模型，然后使用2018 年的數(shù)據(jù)進(jìn)行驗(yàn)證，其中對(duì)建筑安全事故時(shí)序數(shù)據(jù)使用ARIMA和LSTM模型進(jìn)行擬合，并對(duì)擬合完成的模型通過RMSE和MAE進(jìn)行比較，分析兩種模型的優(yōu)勢(shì)和劣勢(shì)后，選擇最適合預(yù)測的模型。

4.2 基于ARIMA模型的數(shù)據(jù)預(yù)測

本研究是對(duì)建筑安全事故發(fā)生次數(shù)進(jìn)行預(yù)測，統(tǒng)計(jì)每年、每月建筑安全事故(死亡1 人以上的事故)發(fā)生次數(shù)作為時(shí)序數(shù)據(jù)，得到2012—2018 年建筑安全事故發(fā)生次數(shù)的時(shí)序變化折線圖(圖3)。通過圖3可以看出，建筑安全事故發(fā)生次數(shù)總體呈現(xiàn)增長趨勢(shì)。

圖3 時(shí)序數(shù)據(jù)折線圖Fig.3 Line chart of time series data

由于模型要求時(shí)序數(shù)據(jù)為穩(wěn)定數(shù)據(jù)，因此要先判斷時(shí)序數(shù)據(jù)是否穩(wěn)定，通過單位根檢驗(yàn)(ADF檢驗(yàn))進(jìn)行判斷。該方法通過查看是否存在單位根，判斷序列是否平穩(wěn)，即檢驗(yàn)的假設(shè)為存在單位根，查看顯著性檢驗(yàn)統(tǒng)計(jì)量是否小于三個(gè)置信度(10%，5%，1%)。

對(duì)原始時(shí)序數(shù)據(jù)進(jìn)行ADF檢驗(yàn)，通過表1得出ADF檢驗(yàn)的p值為0.980842，顯著水平一般為0.05，因此p值大于顯著水平，說明并不能拒絕原假設(shè)。由于Test Statistic Value的值大于三種置信水平下的值，因此數(shù)據(jù)是不穩(wěn)定的。

表1 時(shí)序數(shù)據(jù)平穩(wěn)化過程ADF檢驗(yàn)結(jié)果Tab.1 ADF test results of time series data stabilization process

由于原始時(shí)序數(shù)據(jù)為非平穩(wěn)數(shù)據(jù)，因此需要通過處理并再次判斷數(shù)據(jù)是否已經(jīng)平穩(wěn)化。原始時(shí)序數(shù)據(jù)的數(shù)值都大于0，所以先對(duì)其進(jìn)行對(duì)數(shù)變換。通過表1發(fā)現(xiàn)，對(duì)數(shù)變換后的時(shí)序數(shù)據(jù)進(jìn)行ADF檢驗(yàn)可知p值為0.988261，仍然大于顯著水平且在任何置信水平下，Test Statistic Value的值表明不能拒絕原假設(shè)，因此對(duì)數(shù)變換后的時(shí)序數(shù)據(jù)也是非平穩(wěn)數(shù)據(jù)。

經(jīng)過對(duì)數(shù)變換后仍為非平穩(wěn)數(shù)據(jù)，接著對(duì)時(shí)序數(shù)據(jù)進(jìn)行差分運(yùn)算處理，該方法主要是對(duì)等周期間隔的數(shù)據(jù)進(jìn)行線性求減。對(duì)時(shí)序數(shù)據(jù)進(jìn)行一階和二階差分處理，通過對(duì)表2中的數(shù)據(jù)進(jìn)行對(duì)比，可以得出兩種差分處理后的時(shí)序數(shù)據(jù)均是平穩(wěn)數(shù)據(jù)?？梢钥闯?，ADF檢驗(yàn)的p值明顯低于顯著水平，并且在三種置信水平下都拒絕原假設(shè)，即序列不具有單位根。又因?yàn)榫岛蜆?biāo)準(zhǔn)差的數(shù)值相差不大，所以選取一階差分后的時(shí)序數(shù)據(jù)，將差分次數(shù)定為1。

表2 時(shí)序數(shù)據(jù)差分化過程ADF檢驗(yàn)結(jié)果Tab.2 ADF test results of differential differentiation process of time series data

經(jīng)過一階差分后的數(shù)據(jù)為平穩(wěn)序列。對(duì)序列進(jìn)行白噪聲檢驗(yàn)，得到統(tǒng)計(jì)量和p值兩個(gè)數(shù)值，分別為10.2648925和0.00135586，可以得出p值明顯小于顯著水平，因此一階差分后的時(shí)序序列為平穩(wěn)非白噪聲序列。

通過圖4確定模型參數(shù)，經(jīng)過分析選定范圍內(nèi)的p、q參數(shù)，然后對(duì)選取的各個(gè)參數(shù)進(jìn)行評(píng)估，根據(jù)評(píng)估結(jié)果選擇效果最好的一個(gè)參數(shù)模型。評(píng)估的標(biāo)準(zhǔn)按照赤池信息準(zhǔn)則(AIC)及貝葉斯信息準(zhǔn)則(BIC)。表3為截取效果較好的部分參數(shù)的結(jié)果，并確定使用參數(shù)(1，1，0)進(jìn)行模型擬合。

圖4 自相關(guān)圖和偏自相關(guān)圖Fig.4 Autocorrelation diagram and partial autocorrelation diagram

表3 選取參數(shù)結(jié)果表Tab.3 Selected parameter result table

4.3 基于LSTM模型的數(shù)據(jù)預(yù)測

在模型訓(xùn)練之前，為了使數(shù)據(jù)更好地?cái)M合模型，需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理。其功能是使用數(shù)據(jù)的最大值和最小值對(duì)當(dāng)前值進(jìn)行縮放，使數(shù)據(jù)的值在0—1，歸一化公式見公式(9)：

公式(9)中，xi為未處理的數(shù)據(jù)，min(x)為整體最小數(shù)據(jù)，max(x)為整體最大數(shù)據(jù)。對(duì)歸一化后的數(shù)據(jù)進(jìn)行劃分，將2012—2017 年的建筑安全事故發(fā)生次數(shù)作為LSTM的訓(xùn)練集，2018 年的數(shù)據(jù)作為測試集。

構(gòu)建LSTM模型，采用單向編碼方式，隱藏層數(shù)設(shè)置為2，隱藏層神經(jīng)元的數(shù)量設(shè)置為64 個(gè)，全鏈接層數(shù)設(shè)置為1。同時(shí)，設(shè)置輸入數(shù)據(jù)批次大小為10，每次選取12 個(gè)數(shù)據(jù)進(jìn)行訓(xùn)練，時(shí)間長度為12 個(gè)月，訓(xùn)練次數(shù)為2，000 次。使用Adam優(yōu)化器對(duì)模型進(jìn)行調(diào)優(yōu)，并使用Pytorch搭建模型結(jié)構(gòu)。

4.4 評(píng)價(jià)指標(biāo)

為了評(píng)價(jià)模型的預(yù)測效果，選取RMSE和MAE作為模型評(píng)價(jià)指標(biāo)。RMSE用于衡量預(yù)測值與實(shí)際值之間的偏差，誤差越小，則表明精度越高。MAE是預(yù)測值與實(shí)際值之間絕對(duì)誤差的平均值，能直觀地反映預(yù)測值誤差的實(shí)際情況，其值越接近于0，則表示預(yù)測越準(zhǔn)確。計(jì)算見公式(10)和公式(11)：

4.5 結(jié)果分析

為了更好地分析和對(duì)比ARIMA和LSTM模型預(yù)測建筑安全事故次數(shù)的效果，加入Holt-Winter(霍爾特-溫特)模型，并用相同的數(shù)據(jù)進(jìn)行預(yù)測，該模型適用于任何呈現(xiàn)某種趨勢(shì)具有季節(jié)性的數(shù)據(jù)集。三種模型對(duì)2018 年安全事故次數(shù)預(yù)測結(jié)果如圖5所示。

圖5 3 種模型的預(yù)測結(jié)果Fig.5 Prediction results of three models

ARIMA、LSTM、Holt-Winter三種模型的預(yù)測曲線、預(yù)測結(jié)果如圖5和表4所示，在預(yù)測準(zhǔn)確率上，ARIMA模型的預(yù)測效果明顯優(yōu)于其他兩種模型，能夠很好地?cái)M合建筑安全事故發(fā)生次數(shù)曲線；而LSTM模型的預(yù)測結(jié)果的變化趨勢(shì)和原始數(shù)據(jù)的振動(dòng)情況雖然基本吻合，但是預(yù)測值與實(shí)際值在部分月份有較大差距，并且誤差值是ARIMA的兩倍。對(duì)于Holt-Winters模型，雖然建筑安全事故發(fā)生次數(shù)在一定時(shí)間段內(nèi)呈現(xiàn)相似的周期性，但是預(yù)測結(jié)果表明建筑事故發(fā)生次數(shù)并不是呈現(xiàn)某種趨勢(shì)的季節(jié)性數(shù)據(jù)。

表4 三種模型的預(yù)測誤差及時(shí)長Tab.4 Prediction error and time length of three models

5 結(jié)論(Conclusion)

本文為了驗(yàn)證ARIMA和LSTM兩種模型在建筑安全事故發(fā)生次數(shù)預(yù)測的效果，通過對(duì)比研究，得出兩種模型在擬合預(yù)測上均有良好的表現(xiàn)，都能對(duì)安全事故發(fā)生次數(shù)進(jìn)行較好的預(yù)測，但在準(zhǔn)確度上，ARIMA模型比LSTM模型要高，在數(shù)據(jù)處理方面，ARIMA模型所需的步驟比LSTM模型多。盡管ARIMA模型在訓(xùn)練之前需要對(duì)數(shù)據(jù)進(jìn)行多步處理，但是高準(zhǔn)確率對(duì)建筑安全事故能進(jìn)行有效預(yù)警，能夠在事故高發(fā)期提前做出應(yīng)對(duì)措施，對(duì)建筑工人的人身安全起到更好的保障。