季 冕,程 龍
(安徽省環(huán)境監(jiān)測(cè)中心站,安徽 合肥 230071)
臭氧(O3)是大氣中常見(jiàn)的微量氣體,主要分布在10 km至50 km的平流大氣層中.高濃度的臭氧會(huì)刺激人體組織黏膜,對(duì)人體造成傷害.隨著工業(yè)化發(fā)展進(jìn)程的加快,臭氧污染已經(jīng)成為一個(gè)嚴(yán)峻的社會(huì)問(wèn)題,甚至在某些城市取代PM2.5成為空氣污染的“罪魁禍?zhǔn)住盵1].近地大氣中臭氧的濃度變化有很顯著的季節(jié)規(guī)律,很大程度上也有人為因素的影響,這使每日臭氧濃度變化具有很大的不確定性.
空氣質(zhì)量模型的研究發(fā)展經(jīng)歷了3個(gè)階段[2],第一代的箱式模型、高斯煙團(tuán)等,第二代考慮復(fù)雜擴(kuò)散過(guò)程的歐拉網(wǎng)格模型,到多區(qū)域多尺度的綜合空氣質(zhì)量模型.目前,對(duì)臭氧等污染物的濃度預(yù)報(bào)的第三代模型,主要有兩種[3]:一種是以大氣動(dòng)力學(xué)為基礎(chǔ),建立關(guān)于大氣污染物濃度稀釋擴(kuò)散的數(shù)值模型,通過(guò)計(jì)算來(lái)模擬和預(yù)測(cè)大氣污染物的動(dòng)態(tài)分布,亦即數(shù)值預(yù)報(bào);另一種是基于統(tǒng)計(jì)學(xué)方法,建立污染物濃度與氣象參數(shù)間的統(tǒng)計(jì)預(yù)報(bào)模型,用來(lái)預(yù)測(cè)大氣污染濃度,亦即統(tǒng)計(jì)預(yù)報(bào).
目前,主流的空氣預(yù)報(bào)模式主要有:美國(guó)環(huán)境技術(shù)公司(ENVIRON)提出的CAMx[4]、美國(guó)國(guó)家環(huán)境保護(hù)局(USEPA)[3]開(kāi)發(fā)的第三代空氣質(zhì)量預(yù)報(bào)和評(píng)估系統(tǒng)(Models-3)中的CMAQ(community multiscale air quality model)、中科院大氣物理研究所開(kāi)發(fā)的嵌套網(wǎng)格空氣質(zhì)量預(yù)報(bào)模式NAQP(nested air quality prediction)[5]、基于美國(guó)環(huán)境預(yù)測(cè)中心(NCEP)和美國(guó)國(guó)家大氣研究中心(NCAR)等科研機(jī)構(gòu)開(kāi)發(fā)的WRF(weather research forecast)的WRFC模式[3]等.
使用某種單一的模式獨(dú)立進(jìn)行氣象數(shù)據(jù)預(yù)測(cè),通常會(huì)帶來(lái)很大的不確定性,預(yù)測(cè)偏差和方差往往比較大[6].因?yàn)槊糠N方法有其特殊的適應(yīng)性,為方便結(jié)合各模式的優(yōu)點(diǎn),很多方法將這些模式組合起來(lái),構(gòu)成一個(gè)新的預(yù)測(cè)模式,即集合預(yù)報(bào)模式.大氣科學(xué)界比較著名的最優(yōu)化集合預(yù)測(cè)方法(operational consensus forecasts, 簡(jiǎn)稱OCF)是Woodcock和Engel提出的一種自動(dòng)化的集合預(yù)測(cè)系統(tǒng)[7].通常選取一定時(shí)間作為預(yù)測(cè)的滑動(dòng)窗口,對(duì)于一些基礎(chǔ)模式的預(yù)測(cè)數(shù)據(jù)進(jìn)行整合升級(jí).
筆者以多個(gè)氣象模式預(yù)測(cè)數(shù)據(jù)和真實(shí)觀測(cè)數(shù)據(jù)為樣本,利用已有預(yù)報(bào)模型的某種線性組合或凸組合來(lái)構(gòu)成一種全新的臭氧預(yù)報(bào)模型,并對(duì)其性能進(jìn)行量化評(píng)測(cè).總體來(lái)講,主要工作如下:首先實(shí)現(xiàn)基于Boosting的集合預(yù)測(cè)方法嶺回歸(ridge regression,簡(jiǎn)稱RR)算法,針對(duì)算法中參數(shù)的特點(diǎn)進(jìn)行分析,并給出參數(shù)的調(diào)整方案.其次進(jìn)行算法性能的測(cè)試和評(píng)價(jià).根據(jù)我國(guó)站點(diǎn)觀測(cè)值和模式預(yù)報(bào)值,對(duì)OCF算法和RR算法分別給出相應(yīng)的集合預(yù)報(bào)值,并通過(guò)均方根誤差(RMSE)和時(shí)間序列進(jìn)行性能評(píng)估.
原始數(shù)據(jù)來(lái)自中國(guó)環(huán)境監(jiān)測(cè)總站的環(huán)境空氣質(zhì)量數(shù)值預(yù)報(bào)模式系統(tǒng),原始數(shù)據(jù)集包含2015年9月1日至2017年2月19日的各個(gè)模式的預(yù)報(bào)結(jié)果和相應(yīng)的觀測(cè)值資料.
機(jī)器學(xué)習(xí)方法是人工智能領(lǐng)域研究的重要內(nèi)容,集成機(jī)器學(xué)習(xí)的相關(guān)算法往往可以根據(jù)有限的觀測(cè)數(shù)據(jù),繞過(guò)難以通過(guò)數(shù)值方法直接得出的公式描述,得到所需的結(jié)果數(shù)據(jù)[8-9].筆者介紹的機(jī)器學(xué)習(xí)集合預(yù)測(cè)方法,可以很好地集成這些模式的優(yōu)勢(shì)所在,從而給出一個(gè)更加有效的預(yù)測(cè)結(jié)果.基于PAC可學(xué)習(xí)性原理中的Boosting算法[10-11],該文給出了一個(gè)較好的思路.
機(jī)器學(xué)習(xí)旨在實(shí)現(xiàn)自動(dòng)決策或預(yù)測(cè).通常,需要基于初步估計(jì)步驟做出良好決策.然而,并不是所有算法都依賴于估計(jì)統(tǒng)計(jì)參數(shù),筆者應(yīng)用的序列集成技術(shù)即不采用估計(jì)的算法.
2.1.1 符號(hào)定義
2.1.2 序列集成技術(shù)
集成學(xué)習(xí)方法中,組合中每個(gè)模式獲得的權(quán)重與模式過(guò)去預(yù)測(cè)值與觀測(cè)值的差距有關(guān)系,也就是說(shuō)理論上預(yù)測(cè)效果越好的模式將獲得更高的權(quán)重.序列集成技術(shù)類似一個(gè)黑盒子,根據(jù)PAC可學(xué)習(xí)性理論,集成后的預(yù)測(cè)結(jié)果會(huì)優(yōu)于單個(gè)預(yù)測(cè)模式(基學(xué)習(xí)器).單個(gè)的預(yù)測(cè)模式可以來(lái)自統(tǒng)計(jì)建模、數(shù)值模式或者決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等復(fù)雜的方法.所以,該方法實(shí)際是工作在元模型級(jí)別的.
(1)
RR算法即嶺回歸算法[8],通常設(shè)置1個(gè)參數(shù)λ≥0,并初始化向量u1=(0,…,0),對(duì)于t≥2有
(2)
RR算法流程如下:
fort=1,2,…,T:
輸出:uT=(uT[1],…,uT[N])
RR算法實(shí)現(xiàn)的關(guān)鍵是通過(guò)迭代來(lái)不斷更新模型權(quán)重,算法的核心代碼如圖1所示.在確定參數(shù)λ的值時(shí),通??梢猿跏蓟粋€(gè)遍歷范圍,然后以一定的步長(zhǎng)進(jìn)行遍歷,找到給定精確度下最優(yōu)的參數(shù)取值范圍.
算法核心模塊的輸入可以是4個(gè)模式矩陣和1個(gè)觀測(cè)矩陣,其格式可以為s×t(站點(diǎn)數(shù)、日期數(shù))、罰分因子λ.算法輸出為計(jì)算出的集成模式數(shù)值,其規(guī)模也為s×t,或者進(jìn)一步根據(jù)實(shí)際觀測(cè)矩陣(向量)給出該集成模式的均方根誤差值(RMSE).
算法流程如下:
輸入:P1、P2、P3、P4:4個(gè)模式矩陣,OB:觀測(cè)矩陣,s:矩陣站點(diǎn)數(shù),t:日期數(shù),u:可初始化為0,保存加權(quán)向量,R:保存計(jì)算結(jié)果,A:保存每一步的中間變量Ai,AP:保存每一步Ai的廣義逆矩陣,λ:罰分因子
fori=1,…,t:
v=u[i];#保存當(dāng)天加權(quán)向量
forj=1,…,s
p=[P1[j,i];P2[j,i];P3[j,i];P4[j,i]]; #保存模型在特定t和s下的預(yù)測(cè)值
R[j,i]=v*p;
Re=R[j,i]-OB[j,i];
e_sum=e_sum+Re*p;
pd=p*p的逆;
pd_sum=pd_sum+pd;
end for
A[i+1]=A[i]+pd_sum; #用每天累加后的pd_sum更新A[i+1]
AP[i+1]=A[i+1]的廣義逆矩陣;
u[i+1]=u[i]-(AP[i+1]*e_sum)的逆陣;
end for
OBA=t-30至t的OB值;
RA=t-30至t計(jì)算出的RR值;
輸出:該參數(shù)λ下的RR矩陣R和其RMSE值res.
外層可以通過(guò)一個(gè)腳本方法,通過(guò)步長(zhǎng)和區(qū)間的設(shè)置,尋找到合適的罰分因子λ.如果最后輸出的是RMSE值,可以將每次算出的RMSE值存儲(chǔ)到1個(gè)數(shù)組中,然后求得其中最小的RMSE罰分因子的λ值.RR算法的性能具有理論上的保證,算法性能的評(píng)測(cè)標(biāo)準(zhǔn)在下一部分詳細(xì)說(shuō)明.
均方根誤差(root mean square error,簡(jiǎn)稱RMSE)亦稱為標(biāo)準(zhǔn)誤差,其定義為:觀測(cè)值與真實(shí)值差值的平方除以觀測(cè)次數(shù)的平方根.它對(duì)一組測(cè)量中特大值和特小值比較敏感,故常用來(lái)反映精度.其表達(dá)式如下
(3)
其中:n為觀測(cè)次數(shù),xi為第i次的模式值,yi為第i次的真實(shí)值.RMSE值越小,說(shuō)明模式的精度越高,與真實(shí)值貼近的越好.
(4)
其中:t0是評(píng)估開(kāi)始時(shí)的第1個(gè)時(shí)間,T是評(píng)估結(jié)束的時(shí)間.
針對(duì)某個(gè)觀測(cè)數(shù)據(jù)集和模式預(yù)測(cè)集,有以下幾個(gè)度量標(biāo)準(zhǔn):Bp,B,BX,BM[12].其中,Bp是所能獲得的最小點(diǎn)誤差,B是權(quán)重向量取值范圍為RN時(shí)的誤差,BX是權(quán)重向量取值為凸空間時(shí)的誤差,BM是表現(xiàn)最好的模型M的誤差.以上4種度量標(biāo)準(zhǔn)之間在樣本不是太少的情況下,恒存在關(guān)系Bp≤B≤BX≤BM.
進(jìn)行算法性能評(píng)測(cè)時(shí),因?yàn)镽R算法既可以應(yīng)用在多個(gè)站點(diǎn),也可以應(yīng)用在單個(gè)站點(diǎn).所以,分別對(duì)多站點(diǎn)的集合預(yù)測(cè)和單站點(diǎn)的集合預(yù)測(cè)進(jìn)行了比對(duì)分析.最后,針對(duì)OCF算法、RR算法的預(yù)報(bào)性能,選取了幾個(gè)站點(diǎn)進(jìn)行時(shí)間序列的分析比對(duì).
3.2.1 程序運(yùn)行環(huán)境與整體架構(gòu)
程序主要分為數(shù)據(jù)清洗模塊和算法應(yīng)用兩大部分,所用的編程工具是Python 2.7和MATLAB 2016b,其中數(shù)據(jù)處理時(shí)還需要以下Python庫(kù)pandas-0.19.2、numpy-1.12.0+mkl、nltk-3.2.2、scipy-0.18.1、XlsxWriter-0.9.5.Python的pandas庫(kù)中包含的數(shù)據(jù)框格式(DataFrame)非常適于進(jìn)行二維的數(shù)據(jù)處理.程序數(shù)據(jù)的處理流程如圖1所示.
圖1 程序數(shù)據(jù)處理流程圖
3.2.2 多站點(diǎn)集合評(píng)測(cè)分析
多站點(diǎn)集合評(píng)測(cè)分析即是將多個(gè)站點(diǎn)的數(shù)據(jù)放到同一個(gè)數(shù)據(jù)集中,然后對(duì)這個(gè)數(shù)據(jù)集進(jìn)行計(jì)算和處理.理想情況下,多個(gè)站點(diǎn)的選取最好是在同一區(qū)域中,這樣可以對(duì)某個(gè)地區(qū)進(jìn)行集合預(yù)測(cè),理論上如果監(jiān)測(cè)站點(diǎn)比較多,其他相鄰地區(qū)可以通過(guò)插值的方法得到預(yù)測(cè)值,對(duì)區(qū)域的預(yù)測(cè)會(huì)更有針對(duì)性.
數(shù)據(jù)清洗采用兩種力度:一種不除去重復(fù)模式值,一種除去重復(fù)模式值.以s代表參與計(jì)算的站點(diǎn)數(shù),T代表日期數(shù),BOCF和BRR分別代表OCF算法和RR算法對(duì)該數(shù)據(jù)集給出預(yù)測(cè)的預(yù)測(cè)矩陣的RMSE值.實(shí)驗(yàn)中OCF算法的窗口期為7 d,計(jì)算OCF算法和RR算法RMSE值的評(píng)測(cè)時(shí)段均為第8天至第T天(第1天權(quán)重都為0,無(wú)法給出預(yù)測(cè)值).對(duì)此,進(jìn)行了如下幾組測(cè)試.
(1) 數(shù)據(jù)初始規(guī)模s=30,T=90;不去重清洗后規(guī)模為s=11,T=89.此時(shí)得到表1中所列數(shù)據(jù).
去重后數(shù)據(jù)規(guī)模為s=7,T=89.此時(shí)得到表2中所列數(shù)據(jù).
(2) 數(shù)據(jù)初始規(guī)模s=90,T=90;不去重清洗后規(guī)模為s=40,T=89.此時(shí)得到表3中所列數(shù)據(jù).
表3 s=90,T=90數(shù)據(jù)RMSE值計(jì)算(不去重)
去重后數(shù)據(jù)規(guī)模為s=22,T=89.此時(shí)得到表4中所列數(shù)據(jù).
表4 s=90,T=90數(shù)據(jù)RMSE值計(jì)算(去重)
(3) 數(shù)據(jù)初始規(guī)模s=120,T=120;不去重清洗后規(guī)模為s=50,T=119.此時(shí)得到表5中所列數(shù)據(jù).
表5 s=120,T=120數(shù)據(jù)RMSE值計(jì)算(不去重)
去重后數(shù)據(jù)規(guī)模為s=22,T=119.此時(shí)得到表6中所列數(shù)據(jù).
表6 s=120,T=120數(shù)據(jù)RMSE值計(jì)算(去重)
通過(guò)以上實(shí)驗(yàn)結(jié)果分析可以得到:對(duì)于較長(zhǎng)時(shí)間維度(90 d以上),無(wú)論數(shù)據(jù)集是否去重,RR算法性能比OCF算法性能都要好很多,相比最優(yōu)模式值BM,其優(yōu)勢(shì)也很明顯,甚至比最優(yōu)常數(shù)線性組合B的性能還要好.實(shí)際上,如果在較短時(shí)間維度上(如30 d),RR算法的表現(xiàn)或許會(huì)比OCF算法差.根據(jù)集成學(xué)習(xí)的理論,這種情況往往是由訓(xùn)練數(shù)據(jù)過(guò)少所導(dǎo)致.
3.2.3 單站點(diǎn)效果評(píng)測(cè)分析
RR算法和OCF算法都可以應(yīng)用于單站點(diǎn).對(duì)于某些站點(diǎn),將其作為一個(gè)集合得到的結(jié)果更優(yōu)還是單個(gè)站點(diǎn)獨(dú)立應(yīng)用該模式得到的方法更優(yōu)呢?為了探討這個(gè)問(wèn)題,進(jìn)行如下測(cè)試實(shí)驗(yàn).
隨機(jī)選取10個(gè)站點(diǎn)的2015年9月1日起連續(xù)120 d的數(shù)據(jù),進(jìn)行清洗后,數(shù)據(jù)規(guī)模為s=10,T=119.評(píng)測(cè)RMSE值的時(shí)段均為第16天至第T天(對(duì)于RR算法,第1天權(quán)重都為0,無(wú)法給出預(yù)測(cè)值;而OCF算法需要相應(yīng)的窗口期).
(1) 將多個(gè)站點(diǎn)作為1個(gè)集合應(yīng)用RR算法和OCF算法(窗口期W分別取7和15),可以得到表7中所列數(shù)據(jù).
表7 多站點(diǎn)集合應(yīng)用RR算法和OCF算法的RMSE值
(2) 對(duì)這些站點(diǎn)分別應(yīng)用RR算法和OCF算法,則可以得到表8中所列數(shù)據(jù).
表8 單站點(diǎn)分別應(yīng)用RR算法和OCF算法的RMSE值
經(jīng)過(guò)分析可以發(fā)現(xiàn):
(1) OCF算法(窗口期為7 d)的性能比OCF算法(窗口期為15 d)的好.
(2) 從整體上看,RR算法性能比OCF算法要好.多站點(diǎn)集合應(yīng)用時(shí)RR算法比OCF算法性能優(yōu)勢(shì)明顯,單站點(diǎn)應(yīng)用時(shí),除第9號(hào)單站外,其他單站RR算法的應(yīng)用效果相比OCF算法均有較大優(yōu)勢(shì).
(3) RR算法可以在單站點(diǎn)上使用,多站點(diǎn)集合應(yīng)用時(shí)計(jì)算出的RMSE值處于最優(yōu)單站和最差單站之間(最差單站RMSE值比集合應(yīng)用時(shí)要差).就所選樣本而言,大多數(shù)站點(diǎn)單獨(dú)應(yīng)用RR算法時(shí),性能都較好.
(4) 對(duì)于RR算法中參數(shù)λ的取值,其必然遠(yuǎn)離0,然而對(duì)于不同的站點(diǎn)、輸入數(shù)據(jù)或不同的評(píng)測(cè)時(shí)長(zhǎng),λ值通常不相同.所以,應(yīng)該根據(jù)實(shí)際情況確定該值的大小.
3.2.4 時(shí)間序列比對(duì)分析
為了對(duì)OCF算法和RR算法的性能有一個(gè)更加直觀的表示,選取了幾個(gè)站點(diǎn),對(duì)模式數(shù)據(jù)和觀測(cè)數(shù)據(jù)進(jìn)行時(shí)間序列的效果比對(duì)和分析,結(jié)果如下.
(1) 隨機(jī)抽取站點(diǎn)A,從2015年9月1日起,90 d時(shí)間維度內(nèi)(實(shí)際清洗后為89 d)針對(duì)OCF算法、RR算法、實(shí)際觀測(cè)值進(jìn)行時(shí)間序列比對(duì)分析,結(jié)果如圖2所示.
圖2 站點(diǎn)A 90 d預(yù)測(cè)值與觀測(cè)值對(duì)照?qǐng)D
(2) 隨機(jī)抽取站點(diǎn)B,從2015年9月1日起,90 d時(shí)間維度內(nèi)(實(shí)際清洗后為89 d)針對(duì)OCF算法、RR算法、實(shí)際觀測(cè)值進(jìn)行時(shí)間序列比對(duì)分析,結(jié)果如圖3所示.
圖3 站點(diǎn)B 90 d預(yù)測(cè)值與觀測(cè)值對(duì)照?qǐng)D
(3) 隨機(jī)抽取站點(diǎn)C,從2015年9月1日起,120 d時(shí)間維度內(nèi)(實(shí)際清洗后為119 d)針對(duì)OCF算法、RR算法、實(shí)際觀測(cè)值進(jìn)行時(shí)間序列比對(duì)分析,結(jié)果如圖4所示.
圖4 站點(diǎn)C 120 d預(yù)測(cè)值與觀測(cè)值對(duì)照?qǐng)D
(4) 隨機(jī)抽取站點(diǎn)D,從2015年9月1日起,120 d時(shí)間維度內(nèi)(實(shí)際清洗后為119 d)針對(duì)OCF算法、RR算法、實(shí)際觀測(cè)值進(jìn)行時(shí)間序列比對(duì)分析,結(jié)果如圖5所示.
圖5 站點(diǎn)D 120 d預(yù)測(cè)值與觀測(cè)值對(duì)照?qǐng)D
(5) 隨機(jī)抽取站點(diǎn)E,在2016年1月1日至2016年12月31日(實(shí)際清洗后為351 d)針對(duì)OCF算法、RR算法、實(shí)際觀測(cè)值進(jìn)行時(shí)間序列比對(duì)分析,結(jié)果如圖6所示.
圖6 站點(diǎn)E 2016年預(yù)測(cè)值與觀測(cè)值對(duì)照?qǐng)D
(6) 隨機(jī)抽取站點(diǎn)E,對(duì)2016年1月1日至2016年12月31日(實(shí)際清洗后為351 d)針對(duì)RR算法、4個(gè)模式值、觀測(cè)值進(jìn)行時(shí)間序列比對(duì)分析,結(jié)果如圖7所示.
圖7 站點(diǎn)E 2016年RR算法值、模式值與觀測(cè)值對(duì)照?qǐng)D
通過(guò)以上時(shí)間序列的比對(duì),可以看出,RR算法比OCF算法更加貼近于真實(shí)值,對(duì)于臭氧濃度趨勢(shì)的變化適應(yīng)性更強(qiáng).同時(shí),也印證了RR算法的RMSE值為何相比OCF小很多.然而,RR算法預(yù)測(cè)的精確度依賴于4個(gè)子模式,即對(duì)于某種極端值,若子模式都沒(méi)有給出合適范圍內(nèi)的取值,則RR算法也很難直接給出這種極端值的合理預(yù)測(cè).
在氣象上,通常認(rèn)為某個(gè)時(shí)次(某天)的誤差是由一個(gè)較為穩(wěn)定的系統(tǒng)偏差和一個(gè)確定性的擾動(dòng)誤差組成.OCF算法的偏差校正其實(shí)是對(duì)系統(tǒng)偏差的校正,系統(tǒng)偏差可以通過(guò)計(jì)算一段時(shí)間的誤差平均獲得,為了得到一個(gè)魯棒性較好的平均誤差(不易受到極端值的影響),OCF算法往往選用分位數(shù)來(lái)獲得系統(tǒng)偏差.但是,實(shí)際應(yīng)用中,OCF算法并不能很好地滿足假設(shè)條件,因此,只能從某種程度上減少極值帶來(lái)的影響.
RR算法在算法性能上,相比OCF算法和傳統(tǒng)模式(在這里作為集成模式的子模式)都有很大的提升(見(jiàn)圖8所示),而且其算法僅需要一個(gè)參數(shù),避免了很多復(fù)雜的參數(shù)條件問(wèn)題.盡管該參數(shù)在指定過(guò)程中可能存在一定的不確定性,但是通過(guò)遍歷等方式并不難找到.而且RR算法的性能可以有理論上的保證,因此可以應(yīng)用的范圍也比較廣.
RR算法通??梢园哑渌A(yù)測(cè)模式集成起來(lái),提高整體性能.其優(yōu)勢(shì)可以歸結(jié)為:對(duì)于回歸問(wèn)題,不需要構(gòu)造擬合精度和預(yù)測(cè)能力都很好的回歸算法,只要基預(yù)測(cè)器比隨機(jī)猜測(cè)略好即可;它具有很好的通用性和魯棒性,通常可以應(yīng)用于任何基礎(chǔ)回歸算法,神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、支持向量機(jī)、線性回歸、數(shù)值模式等方法都可以作為基學(xué)習(xí)器進(jìn)行集成,而且理論上可以保證集成效果比單個(gè)學(xué)習(xí)器更好,不容易出現(xiàn)過(guò)擬合問(wèn)題.當(dāng)然,參與集成的個(gè)體數(shù)并不是越多越好,更多的個(gè)體需要更大的計(jì)算和存儲(chǔ)開(kāi)銷,個(gè)體間的差異更難以獲得.
圖8 數(shù)據(jù)集RMSE對(duì)比圖(不去重清洗/去重清洗)
論文實(shí)現(xiàn)了基于Boosting的集合預(yù)測(cè)方法嶺回歸Ridge Regression (RR)算法,針對(duì)算法中參數(shù)的特點(diǎn)進(jìn)行了分析,并給出了調(diào)整參數(shù)的方案.進(jìn)行了算法性能的測(cè)試和評(píng)價(jià).根據(jù)我國(guó)站點(diǎn)觀測(cè)值和模式預(yù)報(bào)值,對(duì)OCF算法和RR算法分別給出相應(yīng)的集合預(yù)報(bào)值,并通過(guò)均方根誤差(RMSE)和時(shí)間序列進(jìn)行性能評(píng)估.發(fā)現(xiàn)通常情況下,與已有的預(yù)報(bào)模式相比,RR算法具有更高的準(zhǔn)確度和更好的穩(wěn)定性.
基于機(jī)器學(xué)習(xí)技術(shù)的Ridge Regression算法是一個(gè)元模式級(jí)別的算法,它可以將多種模式集成在一起,起到“博采眾長(zhǎng)”的作用,它的集成性能和目標(biāo)預(yù)測(cè)的空氣污染物沒(méi)有相關(guān)性,即也可以進(jìn)行其他氣象指標(biāo)的預(yù)測(cè)應(yīng)用.同時(shí),它的預(yù)測(cè)準(zhǔn)確性與這些基學(xué)習(xí)器緊密相關(guān).現(xiàn)階段,傳統(tǒng)氣象預(yù)報(bào)模式大都基于數(shù)值模式和物理過(guò)程的模擬,如果能夠通過(guò)深度學(xué)習(xí)等機(jī)器學(xué)習(xí)技術(shù),探討出一個(gè)更強(qiáng)的分類器,無(wú)疑將會(huì)對(duì)集合預(yù)測(cè)的精度帶來(lái)很大提升.
進(jìn)一步的研究如果能夠從算法層面更好地解決權(quán)重更新和參數(shù)選取問(wèn)題,將對(duì)更大規(guī)模的數(shù)據(jù)設(shè)計(jì)高效的并行算法,為臭氧等大氣污染物的預(yù)測(cè)帶來(lái)新的機(jī)遇與挑戰(zhàn).當(dāng)預(yù)測(cè)精度達(dá)到一定程度后,可以用來(lái)反推污染源位置等信息,跟蹤生產(chǎn)方式帶來(lái)的影響等,這將為各種空氣污染物的治理提供解決思路.