周繼華, 來利明, 鄭元潤,*
1 中國科學院植物研究所, 北京 100093 2 中國科學院大學, 北京 100049
一種模型模擬結(jié)果的統(tǒng)計檢驗方法
周繼華1,2, 來利明1, 鄭元潤1,*
1 中國科學院植物研究所, 北京 100093 2 中國科學院大學, 北京 100049
模擬結(jié)果的準確性是衡量生態(tài)學模型是否成功的關鍵,但采用統(tǒng)計學方法判別模型模擬結(jié)果與觀察值相符程度的報道較少。根據(jù)兩個直線回歸方程能否合并為一個方程的統(tǒng)計學檢驗方法,提出了通過檢驗觀察值與模擬值直線回歸方程和1∶1直線方程截距與斜率是否相同,進而在統(tǒng)計顯著水平上判斷生態(tài)學模型模擬值與觀察值一致性的統(tǒng)計學檢驗方法。數(shù)據(jù)檢驗表明,此方法可以較好解決判斷生態(tài)學模型模擬結(jié)果準確性的問題。
生態(tài)學模型; 模擬精度; 統(tǒng)計學檢驗
采用數(shù)學模型模擬自然及社會中發(fā)生的各種過程是學科發(fā)展成熟的重要標志,只有對這些過程有較為清晰的認識時才能采用模型進行模擬。隨著研究的不斷深入,在包括生態(tài)學在內(nèi)的自然與社會科學中開展了大量經(jīng)典的模型研究工作[1-2]。但關于模型模擬結(jié)果與觀察值相符程度的檢驗,也即模型的驗證一直是一個非常薄弱的環(huán)節(jié)[3]。模型能否在統(tǒng)計顯著水平上準確模擬所研究的自然現(xiàn)象一直是一個難題[4-5]。目前的生態(tài)學文獻中對模擬值與觀察值相符程度進行統(tǒng)計檢驗的研究較少。一般的方法是作出模擬值與觀察值的散點圖顯示模擬結(jié)果的優(yōu)劣,并對觀察值與模擬值進行回歸分析[1, 3-4];有些通過分析模擬值在1∶1直線兩側(cè)的分布情況,判斷模型模擬結(jié)果的準確性[3, 6],再進一步則是比較觀察值與模擬值差值絕對值的大小,絕對值越小,模擬值與觀察值相符越好,模型的模擬結(jié)果越好[6]。近年來一些研究采用均方根誤差、絕對誤差等統(tǒng)計量判斷模型模擬結(jié)果的優(yōu)劣[7]。但上述方法的共同缺點是不能從統(tǒng)計學上解釋模擬值與觀察值的相符程度,也即不能在統(tǒng)計意義上說明模型模擬結(jié)果的準確性,這無疑會增加使用模型進行預測與管理的不確定性,甚至會導致產(chǎn)生錯誤的結(jié)論。因此,在統(tǒng)計意義上判別模擬結(jié)果是否與觀察值相符是一個亟待解決的問題。本文基于統(tǒng)計學檢驗兩種回歸直線是否來自同一總體,能否合并的原理提出了檢驗模型模擬結(jié)果與觀察值是否在統(tǒng)計學上一致的方法,為生態(tài)學乃至所有模型的檢驗提供了一種簡單易行的方法。
統(tǒng)計學上,可以檢驗兩種直線是否來自同一總體,即,通過檢驗直線回歸方程(1)、(2)之間的斜率b1,b2和截距a1,a2是否存在顯著差異,判斷它們是否來自一個總體[8]。
(1)
(2)
檢驗回歸系數(shù)b1和b2有無顯著性差異的方法為[8]:
假設,H0:β1-β2= 0
備擇假設,β1-β2≠ 0
檢驗統(tǒng)計量:
式中,b1,b2分別為兩條回歸直線的截距,n1,n2分別為用于建立直線回歸方程(1)和(2)的觀察數(shù)據(jù)的樣本含量。SX1X1與SX2X2分別為回歸直線方程(1)、(2)中X的校正平方和,以直線回歸方程(1)為例,X的校正平方和SXX可以表示為:
式中,MSe1與MSe2分別為回歸直線方程(1)、(2)的剩余均方,以直線回歸方程(1)為例,MSe1可以表示為:
式中,SX1Y1為直線回歸方程(1)中觀察值XY的校正交叉乘積和,可以表示為:
SY1Y1為回歸直線方程(1)中關于Y的總校正平方和,可以表示為:
通過上述計算,可以求得tb,以n1-2+n2-2為自由度查t的雙側(cè)分布表,如果計算所得tb值小于查得t值,則接受零假設,認為b1=b2,否則認為b1與b2不同。
檢驗回歸系數(shù)a1和a2有無顯著性差異的方法為[8]:
假設,H0:α1-α2= 0
備擇假設,α1-α2≠ 0
通過上述計算,可以求得ta,以n1-2+n2-2為自由度查t的雙側(cè)分布表,如果計算所得tb值小于查得t值,則接受零假設,認為a1=a2,否則認為a1與a2不同。
為說明此方法的具體使用過程,以虛擬的植被凈第一性生產(chǎn)力觀察值與模擬值為例說明此方法的具體計算過程,分別采用兩個模型的模擬值與觀察值進行分析(表1)。盡管表1與圖1有些重復,但為了便于理解此方法,二者均保留在文中。
查t分布表得t10, 0.05(雙側(cè))=2.228。對于回歸直線2,t值均大于2.228,模型2的模擬值在統(tǒng)計意義上與觀察值顯著不同,而對于回歸直線1,t值均小于2.228,模型1的模擬值在統(tǒng)計意義上與觀察值不存在顯著區(qū)別(表2)。也即模型1可以準確模擬觀察值,而模型2模擬效果較差。
表 1 植被凈第一性生產(chǎn)力觀察值與模擬值(t hm-2 a-1)
表2 模擬值與觀察值回歸直線與1∶1 直線的統(tǒng)計學參數(shù)
圖1 回歸直線與1∶1直線的關系Fig.1 Relation between 1∶1 line and regression lines
在一些生態(tài)學模型中,僅比較模擬值與觀察值隨時間的變化,通過變化趨勢是否一致,確定模型模擬結(jié)果的準確性,有時在某一時間點,觀察值與模擬值差別較大[1, 3]。有的模型比較不同模型模擬值在觀察值1∶1直線兩側(cè)的分布,但當多個模型的模擬值分布趨勢一致時,難以判斷模型的模擬能力[4]。有的模型比較觀察值與模擬值回歸直線和觀察值1∶1直線的接近程度,但仍屬于定性比較[6]。比較不同模型模擬結(jié)果的均方根誤差、絕對誤差也可定量比較不同模型的模擬能力[7]。由于本文主要為方法介紹,采用的兩組虛擬模擬數(shù)據(jù)差別較大,因而,通過上述方法也可以判斷模型1的模擬效果要好于模型2,但不能說明模擬值與觀察值的相符程度是否達到統(tǒng)計顯著水平,也即模擬結(jié)果是否在統(tǒng)計水平上可信。
其次,由圖1可見,回歸直線1與2的相關系數(shù)均達到統(tǒng)計顯著水平,有時錯誤地認為兩個模型的模擬值均與觀察值相符較好,但采用上述方法[6]也可發(fā)現(xiàn)回歸直線2偏離了1∶1直線,而回歸直線1與1∶1直線較為接近。通過本文提出的檢驗方法可以簡單而有效地檢驗模型對觀察值的模擬是否達到了統(tǒng)計顯著水平,能夠更加客觀地評估模型的優(yōu)劣,建議在生態(tài)學模型驗證時采用這一方法。但由于生態(tài)過程太過復雜,目前的研究深度仍很有限,許多生態(tài)學模型的模擬結(jié)果仍與觀察值有較大差異,采用本文的方法評估模型模擬結(jié)果的準確性可能會得出許多模型不能真實模擬自然過程的結(jié)果,有待于對生態(tài)過程更為深入的理解,進而開發(fā)模擬能力更強的模型。
[1] Burns T P, Rose K A, Brenkert K A. Quantifying direct and indirect effects of perturbations using model ecosystems. Ecological Modelling, 2014 (published on line). DOI: 10.1016/j.ecolmodel.2013.12.017.
[2] Black K, Davis P, Lynch P, Jones M, McGettigan M, Osborne B. Long-term trends in solar irradiance in Ireland and their potential effects on gross primary productivity. Agricultural and Forest Meteorology, 2006, 141(2/4): 118-132.
[3] Bullied W J, Flerchinger G N, Bullock P R, Van Acker R C. Process-based modeling of temperature and water profiles in the seedling recruitment zone: Part I. Model validation. Agricultural and Forest Meteorology, 2014, 188: 89-103.
[4] Tayfur G, Zucco G, Brocca L, Moramarco T. Coupling soil moisture and precipitation observations for predicting hourly runoff at small catchment scale. Journal of Hydrology, 2014, 510: 363-371.
[5] Snell R S, Huth A, Nabel J E M S, Bocedi G, Travis J M J, Gravel D, Bugmann H, Gutiérrez A G, Hickler T, Higgins S I, Reineking B, Scherstjanoi M, Zurbriggen N, Lischke H. Using dynamic vegetation models to simulate plant range shifts. Ecography, 2014, 37: 1-14.
[6] Qiu G Y, Yano T, Momii K. An improved methodology to measure evaporation from bare soil based on comparison of surface temperature with a dry soil surface. Journal of Hydrology, 1998, 210: 93-105.
[7] Zhu L H, Zhao X C, Lai L M, Wang J J, Jiang L H, Ding J Z, Liu N X, Yu Y J, Li J S, Xiao N W, Zheng Y R, Rimmington G M. Soil TPH concentration estimation using vegetation indices in an oil polluted area of eastern China. PLoS ONE, 2013, 8(1): e54028.
[8] 杜榮騫. 生物統(tǒng)計學. 北京: 高等教育出版社, 海德堡: 施普林格出版社, 1999.
A statistical method for validation of ecological models
ZHOU Jihua1,2, LAI Liming1, ZHENG Yuanrun1,*
1InstituteofBotany,ChineseAcademyofSciences,Beijing100093,China2UniversityofChineseAcademyofSciences,Beijing100049,China
Statistical validation has rarely been conducted to examine the consistency between observed data and the output of ecological models, although such validation is critical for determining the goodness-of-fit of such models. Based on the statistical principle of whether two regression models can be combined, a statistical method is proposed for validating ecological models. In the method, a linear regression is fit to observed (x-axis) and modeled (y-axis) data, then tested for significant differences in slope and intercept from the liney=x. A case study shows that the method could be used to validate ecological models.
ecological model; model validation; statistical test
國家自然科學基金項目(91225302)
2014-02-26; < class="emphasis_bold">網(wǎng)絡出版日期:
日期:2014-12-04
10.5846/stxb201402260333
*通訊作者Corresponding author.E-mail: zhengyr@ibcas.ac.cn
周繼華, 來利明, 鄭元潤.一種模型模擬結(jié)果的統(tǒng)計檢驗方法.生態(tài)學報,2015,35(19):6435-6438.
Zhou J H, Lai L M, Zheng Y R.A statistical method for validation of ecological models.Acta Ecologica Sinica,2015,35(19):6435-6438.