某流域年均含沙量的非線性回歸分析

2022-09-08 12:00:22于世龍楊奉廣

吉林水利 2022年8期

于世龍，楊奉廣

（四川大學水利水電學院，四川成都 610002）

0 引言

我國河流眾多，自然資源尤其豐富，但隨著人類活動范圍的不斷擴大，很多流域下墊面條件被改變，水土流失現(xiàn)象十分嚴峻，給國家的可持續(xù)性發(fā)展以及生態(tài)環(huán)境帶來較大的危害。黃河作為世界上含沙量最多的河流，多年平均年輸沙量達16億噸之多[1-3]，黃河下游大量的泥沙淤積。如何定性定量的分析含沙量對于泥沙治理、河道通航和防洪具有重大意義，有關泥沙輸移機理的研究，國內(nèi)外許多學者都取得了較大的進展，陳浩[4]針對產(chǎn)沙因素降雨特征和地貌特征進行了對產(chǎn)沙影響的定性分析；張醒[5]通過來沙系數(shù)公式推求水系間泥沙；于東生等[6]根據(jù)ADCP資料，建立BP神經(jīng)網(wǎng)絡模型對長江口的泥沙含量進行了研究；彭清娥等[7]針對采伐面積、采伐量、降雨量、和年均徑流量，采用神經(jīng)網(wǎng)絡的方法建立了流域年均含沙量模型；楊佳璐等[8]在神經(jīng)網(wǎng)絡的基礎上，引入人工蜂群的算法，建立了含沙量預測模型。

但是目前已存所建立的模型，還存在著相對誤差比較大、不夠準確等問題，為了減小得出模型的相對誤差，本文采取非線性回歸的方法對流域年均含沙量進行預測，從而得出了一個更為精確的模型，以期該模型以后可以為定量開展河流年均含沙量預測研究提供參考。

1 材料與方法

本文數(shù)據(jù)選自文獻[7]，里面有某流域1961—1978年期間有關年均含沙量的18組數(shù)據(jù)。本文首先采用多元線性回歸方法，對數(shù)據(jù)進行擬合，建立回歸模型，并進行回歸模型評估及顯著性分析，發(fā)現(xiàn)多元線性回歸得出的模型偏差較大。因此只能考慮非線性回歸方程進行擬合，考慮了10種可線性化回歸的曲線回歸方程，最終確定可化為線性回歸的曲線回歸模型比較符合年均含沙量模型，而且精度較高。以下就是具體方法：

本文選取了文獻[7]中某一小流域的采伐面積（A）、采伐量（V）、降雨量（i）、流域年均流量（Q）、粒徑（d）這五個主要因素對流域年均含沙量（θ）進行建模預測，因為這些變量都是量綱的，為使結(jié)果更為直觀，對其進行量綱歸一化處理，然后5個變量就變?yōu)?1個變量了，分別令

即考慮11個自變量Xi對因變量Y進行建模預測即可。

1.1 多元回歸

建立經(jīng)驗關系通常有兩種方法，即加法線性回歸、乘法線性回歸，公式如下：

式中，Y是因變量，Xi是自變量；θ為流域年均含沙量（kg/m3）；A為流域采伐面積（m2）；V為流域采伐量（m3）；i為降雨量（mm）；Q為流域年均流量（m3/s）。注意，方程（2）通過對方程兩邊做對數(shù)變換，可以很容易地轉(zhuǎn)化為一個加法函數(shù)。對于任何已知的Xi值，式(1)或式(2)可以寫成：

1.2 回歸模型評估

必須要通過評估得出的的多元回歸模型，才能確定回歸分析的結(jié)果。公式（1），（2），（3）是多元回歸的其中三種形式。

擬合優(yōu)度是與回歸公式和每個觀測數(shù)據(jù)之間的接近程度相關的指標，其通常能總結(jié)出觀測值與通過多元回歸方程獲得的模型的預測值之間的差異。在回歸分析中，模型識別涉及到控制變量的選擇和函數(shù)形式，這些控制變量與流域年均含沙量密切相關。擬合優(yōu)度的一個指標與殘差有關，定義為ej=yj-yj，yj和yj是第j個因變量的觀測值和預測值?；谧钚《朔ǎㄟ^最小化殘差平方和得到回歸系數(shù)的估計為：

決定系數(shù)R2為：

其中SSE成為殘差平方和；SST稱為總離差平方和；yadv代表因變量yi的平均值。

R2的值代表了考慮的回歸模型所解釋的Y的可變性[9]。換句話說，R2更大的模型表明對數(shù)據(jù)集的擬合良好程度較高。但是，當給模型增加自變量時，復決定系數(shù)也隨之逐步增大，因為殘差自由度等于樣本個數(shù)與參數(shù)個數(shù)之差。自由度小意味著估計和預測的可靠性低。這表明當一個回歸方程設計的自變量很多時，回歸模型的擬合從表面上看是良好的，而區(qū)間預測和區(qū)間估計的精確度卻變得很低，以至失去實際意義。這里回歸模型的擬合良好摻雜了一些虛假成分，為了克服樣本決定系數(shù)的這一缺點，我們設法對R2進行適當?shù)男拚?，使得只有加入有意義的變量時，經(jīng)過修正的樣本決定系數(shù)才會增加，這就是所謂的自由度調(diào)整復決定系數(shù)。

設為調(diào)整的復決定系數(shù)，n為樣本量，p為自變量的個數(shù)，則

式中，k為使用的控制變量個數(shù)。如果額外的控制變量不能十分有效地改進對數(shù)據(jù)變化的解釋，則用k變量的改進的系數(shù)比用k-1改進的系數(shù)小。因此，通過比較值，可以選擇一個簡化的預測模型，其只考慮了最為重要的幾個控制變量。

在進行回歸參數(shù)的估計前，我們用多元線性回歸方程去擬合隨機變量y與變量x1，x2，…，xp的關系，只是根據(jù)一些定性分析所做的一種假設。因此，在求出線性回歸方程后，還需對回歸方程進行顯著性檢驗[10]。通常用的是兩種統(tǒng)計檢驗方法，一種是回歸方程顯著性檢驗的F檢驗；另一種是回歸系數(shù)顯著性的t檢驗。

（1）F檢驗

通常用于檢驗回歸方程的顯著性，以下是F檢驗的常用步驟：

a提出假設。

bF統(tǒng)計量計算。

對H0的統(tǒng)計量檢驗稱為F檢驗，表達式如下：

其中SSE成為殘差平方和，SSE=SST-SSR，根據(jù)以上表達式，F(xiàn)統(tǒng)計值明顯滿足F分布，除此之外F統(tǒng)計值越大，多元線性回歸模型越精確。

（2）t檢驗

在多元線性回歸中，回歸方程顯著并不意味著每個自變量對y的影響都顯著，我們總想從回歸方程中剔除那些次要的，可有可無的變量，重新建立更為簡單的回歸方程，所以需要對每個自變量進行顯著性檢驗。

t檢驗，通常用于檢驗每個自變量對于因變量是否有顯著性影響。t檢驗要對每個βi（i=1，2，…，k）進行單獨檢驗。t檢驗的常規(guī)步驟跟F檢驗很近似。

a提出假設。

bt統(tǒng)計量計算。對H0的統(tǒng)計量檢驗稱為t檢驗，表達式如下：

其中，sβ^i為估計值的標準差，ti代表第i個自變量的t統(tǒng)計值。

c統(tǒng)計決策。

（3）預測多元回歸等式

按照上述原理，對這一組數(shù)據(jù)進行多元線性回歸擬合，并進行回歸模型評估及顯著性，很小，而且p值遠大于0.05，可知這些數(shù)據(jù)的多元線性回歸模型偏差較大，可知這些數(shù)據(jù)之間不成線性關系。然后，又選取的10種可線性化的曲線（雙曲函數(shù)、線性函數(shù)、對數(shù)函數(shù)、逆函數(shù)、二次曲線、三次曲線等）回歸模型進行擬合，經(jīng)檢驗檢驗這些數(shù)據(jù)的雙曲函數(shù)模型擬合度較高，因此選用雙曲函數(shù)模型：

因此，該模型轉(zhuǎn)換成多元線性回歸模型了，這時，只需要確定a，即能進行多元線性回歸分析了。

選取a的準則：假定一個a，用11個變量xi對y′進行回歸分析，求出決定系數(shù)R2，繪制出a與R2關系圖，尋找出R2的最大值，所對應的a值，即為最終所選。

首先a的取值范圍較大，尋找R2較大的區(qū)間，通過關系圖得出一個較小的范圍，如下圖所示。

圖1 a與R2的關系圖

圖2 縮小范圍后a與R2的關系圖

由左圖可知，a值范圍應該在0-1之間，按照同樣的原理，找出隨著a取值變化，R2值最大的附近區(qū)域，得出右圖關系圖。

由上圖可知，a值取0.38附近，決定系數(shù)較高，但是此時的數(shù)據(jù)當中y′有一個極大的異常值，實際中按照此a值，進行回歸分析將會造成回歸分析的F檢驗、t檢驗完全失效，且相對誤差極大。通過在其附近取值，進行回歸模型評估、顯著性分析及相對誤差分析，最終確定a為0.3，此時得出的模型較為準確。

2 結(jié)果與討論

2.1 回歸分析

在一個實際問題的回歸模型中，自由度調(diào)整復決定系數(shù)越大，所對應的回歸方程越好。從擬合有度的角度追求最優(yōu)，則所有回歸子集中最大者對應的回歸方程就是最優(yōu)方程。

接下來對數(shù)據(jù)做所有子集（除了全模型）回歸分析，由上文可知，一共有11個自變量，所以一共有2^11-2集的模型回歸結(jié)果，并以調(diào)整的復決定系數(shù)作為標準選出最優(yōu)子集，對于所選的自變量而言，回歸分析的調(diào)整的復決定系數(shù)最大的模型即為最佳的包含對應自變量的模型，根據(jù)函數(shù)編程，先展示一個最佳的單解釋變量模型，然后展示一個最佳的含有兩個解釋變量的模型，依次類推，直至展示一個最佳的包含10個解釋變量的模型，對每個模型進行回歸分析，結(jié)果如表1。

表1回歸模型的評估結(jié)果

由表1可知以X3，X5，X6，X7，X8，X9，X11作為自變量的模型為最佳的含有7個解釋變量的模型，使用初始的年均含沙量的自變量，年均含沙量自變量的預測值方程為：

由以上結(jié)果可知以X1，X2，X5，X6，X7，X8，X9，X11作為自變量的模型為最佳的含有8個解釋變量的模型，使用初始的年均含沙量的自變量，年均含沙量自變量的預測值方程為：

由以上結(jié)果可知以X1，X2，X3，X5，X6，X7，X8，X9，X11作為自變量的模型為最佳的含有9個解釋變量的模型，使用初始的年均含沙量的自變量，年均含沙量自變量的預測值方程為：

由以上結(jié)果可知以X1，X2，X3，X4，X5，X6，X7，X8，X9，X11作為自變量的模型為最佳的含有10個解釋變量的模型，使用初始的年均含沙量的自變量，相應等式寫成：

對11個自變量xi以及因變量y′進行回歸分析，使用初始的年均含沙量的自變量，年均流量的預測公式為：

實際回歸分析過程中發(fā)現(xiàn)，最大誤差都出現(xiàn)在第12組數(shù)據(jù)中，因而可以去掉12組，再進行回歸分析，可以得出更為精確的預測值，分析如下。

對新的數(shù)據(jù)進行同樣的分析，結(jié)果如表2。

表2去掉12組后回歸模型的評估結(jié)果

由表2可知以X1，X5，X6，X7，X8，X9，X10，X11作為自變量的模型為最佳的含有8個解釋變量的模型，使用初始的年均含沙量的自變量，年均含沙量自變量的預測值方程為：

其中復決定系數(shù)為0.9703，調(diào)整的復決定系數(shù)為0.9406，且P值為2.531×10-5遠小于0.05，模型總體較為顯著，而且各個系數(shù)都通過了顯著性檢驗。而且在所有的模型中，它的誤差也相對較小，由此，其模型為最理想的模型。

由以上結(jié)果可知以X1，X3，X5，X6，X7，X8，X9，X10，X11作為自變量的模型為最佳的含有9個解釋變量的模型，使用初始的年均含沙量的自變量，年均含沙量自變量的預測值方程為：

由以上結(jié)果可知以X1，X2，X3，X5，X6，X7，X8，X9，X10，X11作為自變量的模型為最佳的含有10個解釋變量的模型，使用初始的年均含沙量的自變量，相應等式寫成：

回歸分析的一些關鍵性參數(shù)列在了表1和表2中，這些總體回歸模型的決定系數(shù)R2絕大多數(shù)都在0.87以上，表明實測值和預測值只存在輕微差別，證實了提出的回歸等式的有效性。

2.2 顯著性分析

顯著性檢驗用于根據(jù)預定的顯著性水平α確定拒絕零假設的輸出值閾值。如果P值和Pi值小于默認值0.05，則因變量和各個自變量之間的多重線性相關性具有統(tǒng)計顯著性。本文顯著性水平取0.064。

對于所有的預測方程，顯著性檢驗結(jié)果列在了表1和表2中，表中大多數(shù)P值的數(shù)量級均小于10-5，而式9，10，20的數(shù)量級為10-3。以式20為例，在假設H0正確的前提下，較大的P值表明各自變量從總體上對因變量的影響尤為顯著的可能性越小，但是其值仍然小于顯著性水平，表明所有的自變量從整體上仍對因變量具有統(tǒng)計顯著性所以所有方程的自變量從整體上對因變量具有統(tǒng)計顯著性。

然而每個多元回歸等式的Pi值并不相等，大多數(shù)的Pi值都大于顯著性水平α，以式8為例，在假設H0正確的前提下，較大的Pi值表明，從所提供的數(shù)據(jù)庫中發(fā)現(xiàn)自變量xi與因變量之間線性關系的概率大于大多數(shù)因變量和其他回歸系數(shù)測試中的任何自變量之間的線性關系的概率。但是很多自變量的顯著檢驗不能通過表明其對因變量的影響并不顯著，這種情況需要將該變量舍去，重新進行多元回歸分析，在看結(jié)果。

圖3 各個模型的比較圖

圖4 去掉12組后的各個模型比較圖

通過表一表二可以看出式17的效果比較好，它的P值為0.00002531遠小于顯著性水平α，表明各個自變量從總體上對因變量的影響顯著。而且t檢驗的最大的Pi值為0.0635，小于預定的顯著性水平α，其他的Pi分別為0.000761、0.000126、5.29×10-7、0.054055、0.023671、0.034193、0.005903，均是小于顯著性水平，表明各個自變量對因變量的影響都顯著。該模型完美通過顯著性檢驗，而且決定系數(shù)R2為0.9703、調(diào)整的決定系數(shù)為Ra2為0.9406，系數(shù)已經(jīng)非常高了，而且在所有等式里面也是基本上最高的了，所以式17為最佳的預測模型。

2.3 對比分析

為了更為直觀的看看各個模型的擬合效果，以實測值為橫坐標，預測值為縱坐標繪圖，分別繪制原有數(shù)據(jù)的各個模型比較圖以及去掉12組的各個模型比較圖。

比較分析兩組圖，可以得出以下幾點：

（1）去掉12組的各個模型擬合較高，較為理想。

（2）當年均流量2.3<θ<5時，數(shù)據(jù)較為集中，且都貼近坐標軸45度線，表明這個區(qū)域的數(shù)據(jù)擬合度尤為高。

（3）對比兩組圖可以發(fā)現(xiàn)，等式17-20的擬合情況相對較好，然后可以再結(jié)合一些指標，選出最優(yōu)的擬合模型，作為本次研究的結(jié)果。

3 結(jié)論

本文通過引入復雜非線性回歸方法對流域年均含沙量進行預測，得出以下結(jié)論：

（1）流域年均含沙量的復雜非線性回歸模型是流域產(chǎn)沙預測的一種非常有效的方法。

（2）該方法相對于目前現(xiàn)存的一些方法具有相對誤差更小的優(yōu)點，能為日后定量開展河流含沙量預測研究提供參考價值。