蔣澤坤 陳炫輪
◆摘? 要:在全球?qū)Νh(huán)境問題越發(fā)重視的大背景下,采用有序樣本聚類將北京市2013年12月到2021年6月的91份空氣質(zhì)量指數(shù)(AQI)劃分為七個(gè)等級(jí),并采用集對(duì)分析構(gòu)造集對(duì)權(quán)重配合馬爾科夫鏈對(duì)未來的空氣質(zhì)量指數(shù)進(jìn)行區(qū)間預(yù)測(cè),比精準(zhǔn)性的數(shù)值預(yù)測(cè)更具有可信度,可以為相關(guān)部門制定計(jì)劃提供依據(jù)。
◆關(guān)鍵詞:有序聚類;馬爾科夫鏈;集對(duì)分析;空氣質(zhì)量指數(shù)(AQI)
一、文獻(xiàn)綜述
空氣質(zhì)量作為與人類健康息息相關(guān)的自然因素,對(duì)其進(jìn)行研究具有十分重要的意義。目前對(duì)于空氣質(zhì)量的研究主要集中在兩個(gè)主要方面:探究空氣污染成因和污染物質(zhì)濃度的準(zhǔn)確性數(shù)值預(yù)測(cè)。
探究空氣污染成因。Tofful Luca采集城郊地區(qū)獨(dú)立住戶室內(nèi)外的PM2.5濃度,探討了室內(nèi)外污染源對(duì)生活環(huán)境中顆粒物化學(xué)組成的影響。
污染物質(zhì)濃度的準(zhǔn)確性數(shù)值預(yù)測(cè)。Chae Sangwon將插值應(yīng)用于空氣質(zhì)量和天氣數(shù)據(jù),然后使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)預(yù)測(cè)PM濃度。并據(jù)此提出了一個(gè)實(shí)時(shí)預(yù)測(cè)模型,可以預(yù)測(cè)空氣中的顆粒物(PM)的濃度。
二、研究方法和數(shù)據(jù)來源
2.1有序樣本聚類
有序樣本聚類有別于常見的聚類分析方法,通常的聚類方法是依據(jù)樣本特征的相似度或者距離,按照一定的分類標(biāo)準(zhǔn)將樣本劃分到若干個(gè)類別中。有序樣本聚類獨(dú)有的特點(diǎn)是在樣品順序不被打亂的前提下進(jìn)行分類,適用于對(duì)不能打亂順序的客觀現(xiàn)象進(jìn)行聚類分析。
2.2集對(duì)分析
集對(duì)是聯(lián)系數(shù)學(xué)中的一個(gè)基本概念,指兩個(gè)有一定關(guān)聯(lián)的集合做組成的一個(gè)新的系統(tǒng)。
2.3馬爾科夫鏈
馬爾科夫鏈的基本特性就是無后效性,其直觀解釋就是現(xiàn)象未來得狀態(tài)只依賴于現(xiàn)在,而與過去的狀態(tài)無關(guān)。自然界中的現(xiàn)象總是呈現(xiàn)為隨機(jī)過程,而馬爾科夫鏈就被廣泛的運(yùn)用到隨機(jī)過程的建模當(dāng)中,如天氣預(yù)報(bào)、運(yùn)籌決策、安全科學(xué)、統(tǒng)計(jì)物理及計(jì)算機(jī)科學(xué)等領(lǐng)域中。
2.4數(shù)據(jù)來源
本文所使用的數(shù)據(jù)均來自于杭州真氣科技公司的真氣網(wǎng),真氣網(wǎng)是一個(gè)空氣質(zhì)量情況監(jiān)測(cè)平臺(tái),具體數(shù)據(jù)為北京市2013年12月份到2021年6月份的月度空氣質(zhì)量指數(shù)(AQI)。
三、實(shí)證分析
3.1 有序樣本聚類的實(shí)現(xiàn)
本文進(jìn)將北京市2013年12月到2021年6月這91個(gè)月的空氣質(zhì)量指數(shù)按從大到小的順序進(jìn)行排列,借助R軟件繪出了有序聚類的損失函數(shù)L[b(n,k)]與分類數(shù)k的關(guān)系圖像,可知當(dāng)把這91份空氣質(zhì)量指數(shù)按從小到大順序排列分為6類時(shí),其損失函數(shù)值最小。分類結(jié)果如表1所示。
3.2 馬爾科夫性檢驗(yàn)
無后效性是馬爾科夫鏈最基本的特性,同樣也是隨機(jī)過程進(jìn)行馬爾科夫建模的前提條件,只有滿足無后效性這一特性,才能使用馬爾科夫鏈的相關(guān)理論。根據(jù)計(jì)算卡方統(tǒng)計(jì)量[χ][2]=45.794,當(dāng)給定顯著性水平[α]=0.05時(shí),查找卡方分布表可得[χ][a2][](m-1)[2][]=[χ][0.05][2](25)=37.652<[χ2]=45.794所以北京市空氣質(zhì)量指數(shù)序列滿足無后效性。
3.3 空氣質(zhì)量預(yù)測(cè)
對(duì)空氣質(zhì)量這種自然界中存在著很大的不確定性的隨機(jī)過程,精準(zhǔn)性的數(shù)值預(yù)測(cè)往往缺乏一定的可信度和說服力,如果根據(jù)狀態(tài)空間劃分現(xiàn)象,進(jìn)而對(duì)預(yù)測(cè)期目標(biāo)現(xiàn)象所處的狀態(tài)空間進(jìn)行預(yù)測(cè),則往往更加可靠且對(duì)各種決策的制定具有很重要的參考價(jià)值。
對(duì)北京市這91個(gè)月份的空氣質(zhì)量指數(shù),按照時(shí)間順序以及不同的滯時(shí)步長(zhǎng)統(tǒng)計(jì)其狀態(tài)轉(zhuǎn)移情況,即可得到相應(yīng)滯時(shí)步長(zhǎng)的狀態(tài)轉(zhuǎn)移頻數(shù)矩陣和對(duì)應(yīng)的狀態(tài)頻率轉(zhuǎn)移矩陣。要預(yù)測(cè)2021年7月份的空氣質(zhì)量所處的狀態(tài)區(qū)間,本文選取最大滯時(shí)為5的5個(gè)時(shí)點(diǎn),即2021年2月到2021年6月這5個(gè)月份進(jìn)行加權(quán)的馬爾科夫鏈預(yù)測(cè),表2即加權(quán)馬爾科夫鏈的預(yù)測(cè)過程。
根據(jù)表2中集對(duì)加權(quán)的結(jié)果各個(gè)狀態(tài)的概率值中的最大值對(duì)應(yīng)狀態(tài)4,根據(jù)表1可以得知2021年7月的空氣質(zhì)量指數(shù)的取值范圍為113≤x<137。根據(jù)國家對(duì)空氣質(zhì)量指數(shù)的級(jí)別劃分,此范圍處于輕度污染狀態(tài)。
四、結(jié)論
空氣質(zhì)量情況作為自然界的隨機(jī)過程具有很強(qiáng)的隨機(jī)性,所以目標(biāo)現(xiàn)象的準(zhǔn)確性數(shù)值預(yù)測(cè)相對(duì)于狀態(tài)空間范圍的預(yù)測(cè)往往缺乏一定的可信度,而狀態(tài)空間范圍的預(yù)測(cè)結(jié)果在提高可信度的同時(shí)也能為研究者和相關(guān)單位、人員的決策提供可靠理論依據(jù)。本文所采用的基于有序聚類的加權(quán)馬爾科夫鏈,根據(jù)有序聚類的損失函數(shù)來判斷,最為合理的分類數(shù)并以此作為加權(quán)馬爾科夫鏈的狀態(tài)空間劃分標(biāo)準(zhǔn),提高了狀態(tài)劃分的科學(xué)性。
參考文獻(xiàn)
[1]伍艷清.2017~2020年高明區(qū)春節(jié)及元宵期間空氣質(zhì)量分析研究[J].廣東化工,2021,48(12):146-147.
作者簡(jiǎn)介
蔣澤坤(1997-),男,安徽亳州人,碩士研究生,主要研究方向大數(shù)據(jù)分析。