基于隨機森林回歸算法的用水總量影響因素解析
——以廣東省為例

2021-03-09 10:15:28汪麗娜

華南師范大學學報(自然科學版) 2021年1期

李寧, 汪麗娜

(華南師范大學地理科學學院，廣州 510631)

水資源短缺是世界各地面臨的風險,雖然許多地區(qū)采取了應(yīng)對措施，但由于影響用水總量的因素較為復雜，且因地而異,導致效果參差不齊[1]. 例如，在上海市閔行區(qū)實行用水定額管理、淘汰落后產(chǎn)能的措施成功使得萬元工業(yè)增加值用水量下降了56%[2]. 但在保定市徐水區(qū)實行相同策略時，僅使得萬元工業(yè)增加值用水量下降了35%[3]. 學者們采用不同的方法分析用水總量的影響因素，如：利用聚類線性回歸模型對太湖流域區(qū)域用水量的影響因素進行評價研究，結(jié)果表明區(qū)域經(jīng)濟發(fā)展的用水剛性需求是太湖流域區(qū)域用水量的主要驅(qū)動因素[4]；運用對數(shù)平均迪氏指數(shù)法(LMDI)將中國用水量變化的影響因素分解為人口效應(yīng)、區(qū)域人口分布效應(yīng)、區(qū)域經(jīng)濟發(fā)達效應(yīng)、區(qū)域產(chǎn)業(yè)結(jié)構(gòu)效應(yīng)和區(qū)域技術(shù)進步效應(yīng)，發(fā)現(xiàn)技術(shù)進步和產(chǎn)業(yè)結(jié)構(gòu)調(diào)整是抑制用水量上升的影響因素[5]；運用灰色關(guān)聯(lián)分析法，對影響太原市用水量的因子進行排序，結(jié)果表明水的重復利用率是影響太原市用水量的主要因子[6]；運用結(jié)構(gòu)分解分析的方法研究了我國1999—2002年和2002—2007年期間用水量變動的影響因素，結(jié)果顯示:(1)在結(jié)構(gòu)層面，人均 GDP的增長是導致用水量增加的主要因素;(2)在最終需求層面，最終需求總量變化是用水量變動的主要因素[7].

上述研究方法大多數(shù)為純數(shù)學模型，存在計算繁瑣、對缺失值與異常值較為敏感以及易過擬合與欠擬合的問題. 隨機森林回歸算法是2001年開發(fā)的一種自然的非線性建模工具[8]，可以解釋多個自變量對因變量的作用，具有訓練速度快、模型泛化能力強和實現(xiàn)較為簡單的特點[9]，目前已被廣泛應(yīng)用于醫(yī)學、生物學、管理學和經(jīng)濟學等眾多領(lǐng)域[10-14]. 基于此，本文主要通過構(gòu)建包含人口、水資源、技術(shù)和經(jīng)濟4項因素以及常住總?cè)丝?、人口密度、水資源總量、降雨量、萬元GDP用水量、萬元工業(yè)增加值用水量、第一產(chǎn)業(yè)生產(chǎn)總值、第二產(chǎn)業(yè)生產(chǎn)總值和第三產(chǎn)業(yè)生產(chǎn)總值9個元素的指標層次結(jié)構(gòu)，利用熵值法和隨機森林回歸算法，解析2018年廣東省21個地級市用水總量的影響因素，為水資源的可持續(xù)利用提供參考.

1 材料與方法

1.1 研究區(qū)域及數(shù)據(jù)來源

以廣東省21個地級市為研究區(qū)域. 廣東省屬熱帶和亞熱帶季風氣候區(qū)，地處低緯度，氣候溫暖濕潤，降水量比較豐富. 全省2018年的平均水資源總量為1 895.1 億m3，其中，地表水資源量為1 885.2 億m3，地下水資源量為460.6 億m3，年平均降雨量為1 843.1 mm，用水總量為420.95 m3[15]. 由廣東省2018年各地級市用水總量的空間分布圖(圖1)可知:廣東省的用水總量具有時空分布不均的特征，以廣州市為中心的珠三角地區(qū)以及粵西地區(qū)的茂名市和湛江市的用水總量較多，而粵西地區(qū)的云浮市、陽江市以及粵東地區(qū)的汕頭市、潮州市、汕尾市的用水總量相對較少. 本文所用數(shù)據(jù)來源于2018年的《廣東省水資源公報》和《廣東省統(tǒng)計年鑒》.

圖1 廣東省2018年各地級市用水總量的空間分布圖

1.2 指標選取

用水總量受多種因素的影響和制約，本文結(jié)合廣東省的用水特點及相關(guān)文獻[4-7]，遵循科學性、可量化性原則，選取9個元素和4項因素(表1)，構(gòu)建影響用水總量的指標層次結(jié)構(gòu).

1.3 研究方法

1.3.1 隨機森林回歸算法的基本原理及變量的重要性評價隨機森林回歸算法是通過集成學習的思想將多棵樹集成的一種算法，其基本單元是決策樹，每棵決策樹都依賴于一個隨機向量，且所有向量獨立分布[8]. 隨機森林回歸算法的建立可通過調(diào)用R語言中的“randomForests”程序包[16]來實現(xiàn). 設(shè)原始數(shù)據(jù)集的樣本數(shù)為N,自變量個數(shù)為m. 通過自助法(Bootstrap)重采樣技術(shù)在原始數(shù)據(jù)集中有放回地抽取ntree個樣本，從而構(gòu)建ntree棵決策樹，并在每棵樹的每個節(jié)點上隨機抽取mtry(mtry≤m)個預選變量. 每棵樹最大限度生長，不做任何剪枝,然后將所生成的ntree棵決策樹組成隨機森林. 每次Bootstrap重采樣未被抽取的數(shù)據(jù)稱為袋外數(shù)據(jù)(Out-of-Bag，OOB)，作為評價隨機森林回歸算法的測試數(shù)據(jù)集[17].

表1 用水總量影響因素Table 1 The factors for total water consumption

在建立隨機森林回歸算法的過程中，有2個重要的自定義參數(shù)：mtry和ntree. 一般地，mtry的值在變量個數(shù)的三分之一附近選取[18].ntree的值越大，算法表現(xiàn)越好. 隨著ntree值的增大，袋外數(shù)據(jù)誤差在顯著降低后基本保持穩(wěn)定. 為節(jié)省時間，取達到穩(wěn)定時的ntree值即可[19].

隨機森林回歸算法可以對變量的重要性進行評價，其基本思想與過程是：(1)對于每一個變量，計算每棵樹對應(yīng)的袋外數(shù)據(jù)誤差，記為ErrOOB1. 每個樣本未被抽取的概率為(1-1/N)N,當N足夠大時，(1-1/N)N將收斂于1/e≈0.368，即有將近37%的樣本不會被抽取[11]. (2)對袋外數(shù)據(jù)的變量加入噪聲干擾，即隨機地進行序列改變，再次計算袋外數(shù)據(jù)誤差，記為ErrOOB2. 則可通過分析袋外數(shù)據(jù)序列改變時袋外數(shù)據(jù)誤差的增加情況來估計某一變量的重要程度.設(shè)變量重要性為M，則M=∑(ErrOOB2-ErrOOB1)/ntree. 這個數(shù)值能夠說明變量的重要性是因為加入隨機噪聲后，袋外數(shù)據(jù)的準確率大幅度下降(即ErrOOB2上升)，表明這項變量對于樣本的預測結(jié)果有很大影響，即重要程度比較高[20].

1.3.2 熵值法原理及計算步驟熵來源于物理學中的熱力學概念，主要反映系統(tǒng)的混亂程度，現(xiàn)應(yīng)用于統(tǒng)計學的各個領(lǐng)域[21]. 在信息論中，熵是一種不確定性的度量，而信息是對有序性的度量，二者絕對值相等，符號相反. 在由t個方案、s個評價指標所構(gòu)成的指標數(shù)據(jù)矩陣X={xij}t×s中，數(shù)據(jù)評價指標的值差異越大，信息熵越小，則該指標提供的信息量越大，從而權(quán)重越大；反之，數(shù)據(jù)指標的值差異越小，信息熵越大，則該指標提供的信息量越小，從而權(quán)重越小[22]. 用熵值法確定指標權(quán)重，不易出現(xiàn)主觀賦權(quán)法無法避免的隨機性、臆斷性問題，更具科學性和說服力.

熵值法計算步驟如下：

(1)指標的無量綱化. 本文選擇極值法作為評價用水總量影響因素指標無量綱處理的方法，使指標數(shù)值全部轉(zhuǎn)化在0～1的區(qū)間內(nèi).

正向指標運算公式為：

(1)

負向指標運算公式為：

(2)

其中，xij為第i個樣本、第j項指標的原始數(shù)值，Sj為xij的最大值，sj為xij的最小值，x′ij為無量綱處理后的數(shù)值.

(2)平移. 為使熵值法運算有意義，將無量綱化的數(shù)據(jù)全部平移一個最小單位值，以滿足運算要求:

Zij=x′ij+A,

(3)

其中，Zij是平移后的數(shù)值，A為平移幅度.

(3)計算在第j項指標下，第i個城市的指標值占所有城市指標值之和的比重:

(4)

其中，t為樣本城市個數(shù)，s為指標個數(shù).

(4)計算第j項指標熵值:

(5)

其中，k=1/lnt,ej≥0.

(5)計算第j項指標的差異系數(shù):

gj=1-ej.

(6)

(6)對差異系數(shù)歸一化，計算第j項指標的權(quán)重:

(7)

(7)計算第i城市用水總量的影響因素綜合得分:

(8)

(8)為了更直觀地觀察各城市用水總量影響因素的相對水平，本研究對各城市綜合得分進行一定程度的區(qū)間控制，將廣東省21個地級市的用水總量影響因素得分(F′i)按照中位數(shù)原則調(diào)整到1～10之間[23]:

(9)

2 結(jié)果分析

2.1 元素重要性分析

采用隨機森林回歸算法，對廣東省21個地級市影響用水總量的9個元素(常住總?cè)丝凇⑷丝诿芏?、水資源總量、降雨量、萬元GDP用水量、萬元工業(yè)增加值用水量、第一產(chǎn)業(yè)生產(chǎn)總值、第二產(chǎn)業(yè)生產(chǎn)總值、第三產(chǎn)業(yè)生產(chǎn)總值)進行重要性排序. 本文的元素層共9個元素，可得：m/3=3，mtry分別取2、3、4進行試算，得到最優(yōu)試算參數(shù)(mtry=3). 然后，根據(jù)mtry的值確定ntree的值，由廣東省用水總量影響元素的決策樹數(shù)量與誤差關(guān)系(圖2)可知:當ntree=500時，誤差趨于穩(wěn)定且達到最小.

圖2 廣東省用水總量影響元素的決策樹數(shù)量與誤差關(guān)系

使用隨機森林回歸算法可以得到2018年影響廣東省用水總量的元素相對重要性(圖3)，可知：(1)常住總?cè)丝趯V東省用水總量影響最大，相對重要性占比為21.61%. 廣東省具有人口總量大、增量高的特點:自2006年以來，廣東省常住人口數(shù)連續(xù)13年位列全國第一;2018年達11 346萬人，比2017年增加177萬人，是全國唯一一個常住人口增量突破百萬大關(guān)的省份[24]. 而人口規(guī)模對用水量的上升具有明顯的推動作用[25]. (2)對廣東省用水總量影響較大的元素為第三產(chǎn)業(yè)生產(chǎn)產(chǎn)值，說明服務(wù)業(yè)的發(fā)展對廣東省用水總量影響程度較高. 廣東省是我國重要的服務(wù)業(yè)基地. 2018年，全省第三產(chǎn)業(yè)產(chǎn)值為55 689 萬元，位列全國第一，且在全省GDP占比達55.12%[24]. 第三產(chǎn)業(yè)對區(qū)域經(jīng)濟發(fā)展具有強大的輻射帶動作用的同時，亦需消耗大量的水. (3)降雨量對廣東省用水總量影響最小，相對重要性占比僅為1.85%. 有研究[26]表明部分地區(qū)的用水總量很大程度上與氣候的濕潤度有關(guān)，具體表現(xiàn)為氣候越濕潤，用水總量越少. 這與本文所得結(jié)果不一致，表明用水總量的關(guān)鍵驅(qū)動因素是因地而異的.

圖3 廣東省用水總量影響元素的相對重要性

2.2 因素重要性分析

為了從宏觀上更好地把握廣東省用水總量的驅(qū)動因素，本文對4項因素進行重要性排序. 由于4項因素并沒有直接的數(shù)據(jù)，所以先對4項因素進行量化，將得到的具體數(shù)值作為隨機森林回歸算法的輸入. 根據(jù)熵值法計算步驟，對2018年廣東省21個地級市9個用水總量影響元素的數(shù)據(jù)進行標準化處理，從而得到其熵值及在4項因素中所占的權(quán)重(表2)，并進一步量化出廣東省21個地級市用水總量影響因素的得分情況(圖4).

表2 各元素熵值及權(quán)重Table 2 The entropy value and weight of each element

圖4 廣東省21個地級市用水總量的影響因素得分

將廣東省21個地級市用水總量的4項影響因素(人口因素、水資源因素、技術(shù)因素、經(jīng)濟因素)的綜合得分輸入到隨機森林回歸算法中，得到因素相對重要性的排序結(jié)果(圖5). 本文共有4項影響因素，則m/3≈1,mtry分別取1和2進行試算，得到最優(yōu)模型參數(shù)(mtry=1). 由于此次輸入數(shù)據(jù)量較小，ntree取默認值(即ntree=500).

圖5 廣東省用水總量影響因素的相對重要性

由廣東省用水總量影響因素的相對重要性(圖5)可知：(1)經(jīng)濟發(fā)展水平對廣東省用水總量的影響最大. 廣東省是改革開放的前沿陣地，長期以來的經(jīng)濟發(fā)展穩(wěn)中有升，多項經(jīng)濟指標位居全國前列[24]：2018年，廣東省的地區(qū)生產(chǎn)總值為9.73萬億元(排名全國第一)，人均地區(qū)生產(chǎn)總值為86 412元(排名全國第六)[24]. 一方面，對于產(chǎn)業(yè)而言，經(jīng)濟發(fā)展離不開生產(chǎn)要素的投入，而水資源是重要要素之一[5]；另一方面，對于家庭而言，高人均地區(qū)生產(chǎn)總值帶來用水電器的普及，從而消耗大量水[27]. (2)人口因素在廣東省用水總量影響因素相對重要性中排名第二，僅次于經(jīng)濟因素. 人口規(guī)模越大，需要消耗的生活用水量越大，亦需消耗更多生產(chǎn)及消費的產(chǎn)品，即需要消耗更多的水資源. (3)排在第三位的是水資源因素. 廣東省河流眾多，以珠江流域、韓江流域和粵東沿海、粵西沿海諸河為主，集水面積占全省面積的99.8%[28];氣候類型為熱帶亞熱帶氣候，降水充沛. 而水資源越豐富的地區(qū)，用水所受限制越小，用水總量越高[25]. (4)技術(shù)因素對廣東省用水總量的影響最小. 一個地區(qū)的技術(shù)水平越高，用水總量越少[7]. 尤其對于工業(yè)等用水總量較多且技術(shù)水平具有較大提升空間的用水領(lǐng)域，采用更加優(yōu)良高效的技術(shù)會在一定程度上減少用水總量. 而經(jīng)濟水平高的地區(qū)會在技術(shù)方面投入更多的節(jié)水設(shè)備，從而有助于用水總量的減少. 例如:廣東省的珠三角地區(qū)是全國科技創(chuàng)新與技術(shù)研發(fā)基地，也是全國經(jīng)濟發(fā)展的重要引擎. 深圳市作為珠三角地區(qū)經(jīng)濟發(fā)展的龍頭，2018年每萬元GDP的用水量僅為9 m3，但同時期梅州市這一指標是其21倍[29]，說明經(jīng)濟對技術(shù)具有顯著的正反饋作用，而技術(shù)水平的提高會使得用水總量減少. 就目前而言，技術(shù)因素對廣東省用水總量的影響程度較低，具有較大的發(fā)展?jié)摿?，提高技術(shù)水平可作為未來廣東省降低用水總量的重要途徑之一.

3 結(jié)論

本文通過構(gòu)建熵值法和隨機森林回歸算法相結(jié)合的綜合評價體系來分析廣東省用水總量的影響因素，對2018年廣東省21個地級市用水總量進行實證分析. 主要結(jié)論如下：

(1)從元素層角度分析，常住總?cè)丝凇⒌谌a(chǎn)業(yè)生產(chǎn)總值和第一產(chǎn)業(yè)生產(chǎn)總值是廣東省用水總量的主要影響元素，而降雨量對廣東省各地級市用水總量影響最小.

(2)從因素層角度分析，4項因素對廣東省用水總量的影響由大到小依次為：經(jīng)濟因素、人口因素、水資源因素和技術(shù)因素.

(3)綜合元素層和因素層的分析，在人口、水資源、技術(shù)、經(jīng)濟因素中，影響廣東省用水總量最大的元素分別為常住總?cè)丝凇?水資源總量、萬元工業(yè)增加值用水量和第三產(chǎn)業(yè)生產(chǎn)總值.

對區(qū)域用水總量進行合理規(guī)劃，可為水資源的可持續(xù)利用提供參考. 本研究選擇用水總量影響因素時主要參考了其他文獻的指標選取方式，如何更全面、客觀、因地制宜地選取評價指標，是后續(xù)研究需要進一步考慮的因素.

基于隨機森林回歸算法的用水總量影響因素解析——以廣東省為例