房 妮, 俱國鵬, 惠姣姣, 雷 霽
(1.寶雞文理學(xué)院陜西省災(zāi)害監(jiān)測(cè)與機(jī)理模擬重點(diǎn)實(shí)驗(yàn)室,陜西 寶雞 721016;2.寶雞文理學(xué)院數(shù)學(xué)與信息科學(xué)學(xué)院,陜西 寶雞 721016)
近年來,我國經(jīng)濟(jì)高速發(fā)展,城市化進(jìn)程加快,但同時(shí),城市生活垃圾產(chǎn)生量也迅速增長.國家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,2019年我國城市生活垃圾清運(yùn)量已達(dá)24 206.2萬t,約為1999年城市生活垃圾清運(yùn)量的2.11倍[1-2].大量生活垃圾的產(chǎn)生不僅造成了“垃圾圍城”和環(huán)境污染,也給城市衛(wèi)生管理工作帶來了嚴(yán)峻的挑戰(zhàn).精確的城市垃圾產(chǎn)生量預(yù)測(cè)是研究城市垃圾管理和資源化利用方案的前提.近些年,我國學(xué)者將數(shù)理統(tǒng)計(jì)模型引入垃圾產(chǎn)生量預(yù)測(cè)中,開展了一系列理論與實(shí)踐研究:有學(xué)者采用灰色理論GM(1,1)模型對(duì)建筑垃圾[3]和餐廚垃圾[4]進(jìn)行了預(yù)測(cè),但灰色模型只適用于限制條件少、通用性強(qiáng)的情況,不能模擬未來社會(huì)經(jīng)濟(jì)、人口和政策突變情況下生活垃圾的產(chǎn)生情況,計(jì)算也相對(duì)復(fù)雜[5];也有學(xué)者運(yùn)用ARIMA(p,d,q)模型預(yù)測(cè)了垃圾產(chǎn)量發(fā)展趨勢(shì)[6],但ARIMA(p,d,q)模型只考慮了時(shí)間因素對(duì)垃圾產(chǎn)生量的影響,不能反映垃圾產(chǎn)生量的諸多影響因素之間的內(nèi)在聯(lián)系;還有較多學(xué)者采用多元線性回歸法進(jìn)行垃圾產(chǎn)量預(yù)測(cè)[7-10],但常由于影響因素之間的多重共線性問題而導(dǎo)致模型精度不高或由于對(duì)影響因素的定量化分析不夠精確而影響了預(yù)測(cè)結(jié)果的準(zhǔn)確性.
基于以上原因,本研究提出采用一種處理具有多重共線性數(shù)據(jù)的高級(jí)算法——Lasso回歸來進(jìn)行城市生活垃圾產(chǎn)生量的預(yù)測(cè).通過在回歸模型中增加懲罰項(xiàng),Lasso回歸可將過小的回歸系數(shù)壓縮到0進(jìn)而剔除,以此實(shí)現(xiàn)自變量的自動(dòng)篩選,從而在保證模型穩(wěn)定性的同時(shí)實(shí)現(xiàn)模型的精簡(jiǎn).另外,在應(yīng)用研究中可直接使用R 語言軟件進(jìn)行Lasso回歸建模,大大減少了計(jì)算量,提升了計(jì)算速度.目前,經(jīng)濟(jì)學(xué)、醫(yī)學(xué)等領(lǐng)域已有不少研究者成功采用Lasso 方法進(jìn)行預(yù)測(cè)[11-13],但在國內(nèi)外城市垃圾產(chǎn)生量預(yù)測(cè)中,未見其應(yīng)用.本研究以寶雞市生活垃圾產(chǎn)生量為研究對(duì)象,分析Lasso 回歸對(duì)于城市生活垃圾產(chǎn)生量預(yù)測(cè)的可行性,探索預(yù)測(cè)的新方法.考慮到垃圾產(chǎn)生量的影響因素中,社會(huì)經(jīng)濟(jì)、消費(fèi)及基礎(chǔ)設(shè)施建設(shè)等因素均符合時(shí)間序列模型的要求,因而進(jìn)一步采用時(shí)間序列ARIMA模型對(duì)城市生活垃圾產(chǎn)生量的主要影響因素分別進(jìn)行預(yù)測(cè),在得到各影響因素的預(yù)測(cè)值后再利用Lasso模型對(duì)寶雞市城市生活垃圾產(chǎn)生量進(jìn)行預(yù)測(cè).
由于生活垃圾產(chǎn)生量難以統(tǒng)計(jì),故以生活垃圾清運(yùn)量代替生活垃圾產(chǎn)生量作為因變量(Y),在城市生活垃圾產(chǎn)生量的四大類影響因素——人口、經(jīng)濟(jì)發(fā)展水平、居民生活水平及基礎(chǔ)設(shè)施建設(shè)水平中,選取統(tǒng)計(jì)數(shù)據(jù)連續(xù)、詳實(shí)的8個(gè)常見因素作為自變量(X1~8)進(jìn)行寶雞市生活垃圾產(chǎn)量的預(yù)測(cè)建模.所用數(shù)據(jù)來源于《寶雞市統(tǒng)計(jì)年鑒》(2009—2019).變量的具體解釋見表1.
表1 2009—2019年寶雞市生活垃圾產(chǎn)生量及影響因素統(tǒng)計(jì)Tab.1 The basic data of MSW production and its influencing factors in Baoji from 2009 to 2019
首先,利用條件指數(shù)法(κ值)和方差膨脹因子(VIF)對(duì)數(shù)據(jù)進(jìn)行影響因素共線性判斷;其次,利用Lasso回歸模型篩選出主要影響因素,構(gòu)建生活垃圾產(chǎn)量預(yù)測(cè)模型,并進(jìn)行精度檢驗(yàn),然后引入ARIMA(p,d,q)模型,對(duì)各主要因素2020—2025年的數(shù)據(jù)進(jìn)行預(yù)測(cè);最后,應(yīng)用Lasso回歸模型,對(duì)寶雞市2020—2025年生活垃圾產(chǎn)量進(jìn)行預(yù)測(cè).
1.2.1 影響因子共線性判斷 在多元回歸中,較多的自變量之間容易出現(xiàn)多重共線性問題.多重共線性是指線性回歸模型中的自變量之間由于存在精確相關(guān)關(guān)系或高度相關(guān)關(guān)系,而使模型估計(jì)失真或者難以估計(jì)準(zhǔn)確[14].用來進(jìn)行共線性診斷的方法有特征值法、條件指數(shù)法(κ值)、方差比例法、方差膨脹因子法(VIF)以及逐步回歸法等.本文利用κ值和VIF 值進(jìn)行多重共線性檢驗(yàn),明確各影響因素的相關(guān)性.一般認(rèn)為,當(dāng)VIF>10或κ>100 時(shí),存在嚴(yán)重的多重共線性[15].
1.2.2 Lasso回歸模型
1)方法原理.Lasso回歸是一種壓縮估計(jì),通過構(gòu)造一個(gè)懲罰函數(shù)得到較為精煉的模型,壓縮一些回歸系數(shù),具有子集收縮的優(yōu)點(diǎn),是一種處理具有多重共線性數(shù)據(jù)的有偏估計(jì)[16].
式中:α為截距項(xiàng);βj為第j個(gè)變量對(duì)應(yīng)的系數(shù).
在Lasso回歸中,通常采用Cp值最小原則來篩選自變量.Cp統(tǒng)計(jì)量是選擇最優(yōu)子集的一種方法,Cp值越小表示所選子集個(gè)數(shù)最優(yōu),具體定義為:
式中:p為參與回歸的自變量個(gè)數(shù);n表示樣本的數(shù)量;SSEp表示p對(duì)因變量進(jìn)行回歸后的殘差平方和;δ2表示所有自變量對(duì)因變量進(jìn)行回歸時(shí),方差均值的預(yù)測(cè)[16].
通過Cp值最小原則,將回歸系數(shù)非常接近于0 的變量剔除,即可獲得最優(yōu)子集,同時(shí)得到最佳的回歸方程.
2)模型性能評(píng)估.采用平均絕對(duì)百分比誤差(MAPE)、均方根誤差(RMSE)和決定系數(shù)(R2)3個(gè)指標(biāo)對(duì)Lasso模型的預(yù)測(cè)效果進(jìn)行評(píng)估.計(jì)算公式為:
式中:Yi表示生活垃圾產(chǎn)生量的原始值;Y?i表示生活垃圾產(chǎn)生量擬合值;n=11;ESS 表示回歸平方和;TSS 表示總離差平方和.RMSE 和MAPE 越接近于0,預(yù)測(cè)精度越高;決定系數(shù)(R2)又稱擬合優(yōu)度,其值越接近于1,說明擬和程度越好.
1.2.3 ARIMA(p,d,q)模型
1)ARIMA(p,d,q)模型(自回歸差分滑動(dòng)平均模型).該模型是一種常用的時(shí)間序列預(yù)測(cè)分析方法,可認(rèn)為是AR(p)(自回歸)模型與MA(q)(滑動(dòng)平均)模型的差分組合[17].ARIMA(p,d,q)的模型表達(dá)式如下:
式中:B為延遲算子;Bnxt=xt-n;Φ(B)表示自回歸延遲算子;Θ(B)表示移動(dòng)平均延遲算子;p為自回歸階數(shù);d為差分次數(shù);q為移動(dòng)平均階數(shù);xt表示當(dāng)前t時(shí)刻的值,且xt由過去的p個(gè)歷史值xt-1,xt-2,…,xt-p加權(quán)組成,?1,?2,…,?p表示其權(quán)重;εt,εt-1,εt-2,…,εt-q表示高斯白噪聲,θ1,θ2,…,θq表示其權(quán)重[18].研究中各影響因素的ARIMA(p,d,q)模型預(yù)測(cè)過程如圖1所示.
圖1 ARIMA(p,d,q)模型預(yù)測(cè)流程圖Fig.1 The prediction flow chart of ARIMA(p,d,q)model
2)ARIMA(p,d,q)的建模步驟如下:
數(shù)據(jù)平穩(wěn)性檢驗(yàn):根據(jù)時(shí)間序列的自相關(guān)系數(shù)圖來判斷時(shí)間序列是否平穩(wěn).如果序列被驗(yàn)證為不平穩(wěn),則需要通過差分變換或者對(duì)數(shù)差分變換使其滿足平穩(wěn)性條件;如果d階差分后序列滿足平穩(wěn)條件,則可確定d.
模型定階:根據(jù)自相關(guān)圖(ACF)和偏自相關(guān)圖(PACF)來確定自相關(guān)階數(shù)p和移動(dòng)平均階數(shù)q,確定模型ARIMA(p,d,q).
參數(shù)估計(jì)與診斷:對(duì)ARIMA(p,d,q)模型進(jìn)行參數(shù)估計(jì),并判斷其殘差序列是否為白噪聲序列,若殘差序列為白噪聲序列,則通過檢驗(yàn)[18];若擬合的模型無法通過檢驗(yàn),則重新確定參數(shù)p和q,重新選擇模型進(jìn)行擬合.
最后,利用ARIMA(p,d,q)模型進(jìn)行預(yù)測(cè).
1.2.4 統(tǒng)計(jì)學(xué)方法 研究中Lasso 模型以及ARIMA(p,d,q)模型的構(gòu)建、數(shù)據(jù)分析均使用R 語言中的lars 包實(shí)現(xiàn).
利用κ值和VIF值對(duì)各自變量進(jìn)行多重共線性檢驗(yàn),結(jié)果如表2.
表2 多重共線性判斷Tab.2 Multi-collinearity judgment
表2顯示,κ值遠(yuǎn)大于100,各變量的VIF值均超過10.無論κ值還是VIF值都說明8個(gè)自變量之間存在明顯的多重共線性.因此,若利用普通線性回歸模型分析8個(gè)自變量和因變量之間的關(guān)系,并采用最小二乘法求解線性回歸系數(shù),則各系數(shù)必然會(huì)出現(xiàn)較大偏差,且無法得到各系數(shù)的無偏估計(jì).因此,采用Lasso回歸將冗余預(yù)測(cè)變量的回歸系數(shù)壓縮到0,進(jìn)而獲得更簡(jiǎn)潔的模型,同時(shí)可處理共線性問題,防止過度擬合,提高預(yù)測(cè)精度[14].
根據(jù)Cp值最小的原則,使用Lasso回歸模型,從8個(gè)影響因素中篩選了6個(gè)具有非0系數(shù)的影響因素,分別為:人均生產(chǎn)總值(X2)、社會(huì)消費(fèi)品零售總額(X3)、常住人口數(shù)(X5)、道路清掃面積(X6)、機(jī)械清掃面積(X7)和市容環(huán)衛(wèi)專用車輛(X8),所對(duì)應(yīng)的非0系數(shù)分別為0.000 4、0.023 2、-6.458 8、0.033 4、-0.094 3、0.471 7,故得到生活垃圾年產(chǎn)生量的Lasso預(yù)測(cè)模型為:
式中所有變量解釋同表1.
經(jīng)計(jì)算,模型(7)的RMSE 為0.014 9,MAPE 為0.798 2%,均接近于0;擬合優(yōu)度R2為0.998,接近于1.這些指標(biāo)都證明了模型(7)可達(dá)到高精準(zhǔn)度的預(yù)測(cè)效果,可以用來預(yù)測(cè)未來幾年生活垃圾的產(chǎn)生量.另外,將Lasso回歸模型得到的生活垃圾產(chǎn)生量預(yù)測(cè)值與實(shí)際值進(jìn)行對(duì)比,預(yù)測(cè)值與實(shí)際值貼合程度較高,整體趨勢(shì)基本相同,再次證明了模型的有效性(圖2).
圖2 生活垃圾產(chǎn)生量Lasso回歸預(yù)測(cè)值與實(shí)際值對(duì)比Fig.2 Comparison of Lasso regression predicted value and actual value of MSW production
對(duì)Lasso回歸篩選出的6個(gè)影響因素均采用圖2所示的ARIMA(p,d,q)進(jìn)行預(yù)測(cè),選定的模型參數(shù)和殘差序列的檢驗(yàn)結(jié)果如表3,得到的6個(gè)影響因素的預(yù)測(cè)數(shù)據(jù)如表4.通過檢驗(yàn),p值均小于0.05,即殘差序列均為白噪聲序列,由此說明研究中關(guān)于6個(gè)影響因素建立的ARIMA(p,d,q)模型是合理的.因此,可以在這6個(gè)影響因素(自變量)預(yù)測(cè)數(shù)據(jù)的基礎(chǔ)上繼續(xù)進(jìn)行Lasso回歸,從而進(jìn)行生活垃圾產(chǎn)生量(因變量)的預(yù)測(cè).
表3 影響因素的ARIMA(p,d,q)預(yù)測(cè)模型Tab.3 ARIMA(p,d,q)prediction model of influence factors
表4 寶雞城市生活垃圾產(chǎn)生量影響因素預(yù)測(cè)Tab.4 Prediction of influencing factors of MSW production in Baoji
結(jié)合表4 各影響因素的預(yù)測(cè)數(shù)據(jù),根據(jù)回歸模型(7),得到寶雞2020—2025 年的城市生活垃圾年產(chǎn)生量和人均垃圾日產(chǎn)生量預(yù)測(cè)值(表5).
表5 2020—2025年寶雞城市垃圾產(chǎn)生量預(yù)測(cè)值Tab.5 Prediction value of MSW production in Baoji from 2020 to 2025
對(duì)比我國西北地區(qū)兩個(gè)省會(huì)城市西安和西寧,寶雞城市生活垃圾年產(chǎn)生量和人均日產(chǎn)生量均較低,但其生活垃圾產(chǎn)生量年增長率卻較高.西寧2020—2035 年的城市垃圾平均年增長率僅為3.71%[7],西安2020 年城市垃圾產(chǎn)生量增長率為6%[9],而寶雞2020—2025年城市垃圾平均年增長率高達(dá)15%.由此可見,“十四五”期間寶雞市將面臨嚴(yán)峻的由生活垃圾產(chǎn)量持續(xù)增加所帶來的城市衛(wèi)生管理壓力.寶雞市應(yīng)全面推進(jìn)生活垃圾源頭分類,同時(shí)應(yīng)確保垃圾收集、收運(yùn)、處理、處置的其他環(huán)節(jié)全程分類,不斷提升資源化利用水平,盡早探索“無廢城市”的建設(shè)之路.
1)通過Lasso回歸對(duì)自變量間存在多重共線性進(jìn)行處理,將自變量地區(qū)生產(chǎn)總值和城市居民人均可支配收入剔除在模型外,對(duì)城市生活垃圾產(chǎn)生量建立了Lasso回歸模型.通過檢驗(yàn)該模型擬合度R2為0.998,模型的RMSE 為0.014 9,MAPE 為0.798 2%,說明Lasso 回歸預(yù)測(cè)精度高,在城市生活垃圾產(chǎn)生量預(yù)測(cè)方面具有推廣價(jià)值.
2)通過時(shí)間序列ARIMA(p,d,q)模型,對(duì)人均生產(chǎn)總值、社會(huì)消費(fèi)品零售總額、常住人口數(shù)、道路清掃面積、機(jī)械清掃面積和市容環(huán)衛(wèi)專用車輛6個(gè)自變量進(jìn)行了預(yù)測(cè).在此基礎(chǔ)上,通過Lasso回歸模型預(yù)測(cè)了寶雞市生活垃圾產(chǎn)生量.預(yù)測(cè)得出,2020—2025年寶雞城市生活垃圾產(chǎn)生量將分別達(dá)到25.76×104、38.44×104、35.89×104、41.59×104、48.39×104、52.71×104t,生活垃圾產(chǎn)生量平均年增長率為15%,增速過快.因此,寶雞市應(yīng)盡快完善生活垃圾投放、收集、運(yùn)輸和處理的全程分類系統(tǒng),不斷提升監(jiān)管能力,強(qiáng)化分類處理與資源化利用水平,通過資源的最大化利用實(shí)現(xiàn)垃圾減量.