任鵬舉 江帥 王磊
文章采用大數(shù)據(jù)分析,對(duì)2018年春節(jié)期間全國370個(gè)城市的環(huán)境空氣質(zhì)量數(shù)據(jù)進(jìn)行收集、處理與分析。因應(yīng)用于傳統(tǒng)環(huán)境分析的方法已無法完成對(duì)數(shù)據(jù)的分析,因此文章構(gòu)建了無監(jiān)督聚類、主成分分析(PCA)降維,核主成分分析(KPCA)降維等算法對(duì)數(shù)據(jù)進(jìn)行分析,最后運(yùn)用核化線性降維算法以及K均值聚類,劃分出五類城市進(jìn)行分析,減少了影響因素的缺失現(xiàn)象。
1.全國PM2.5數(shù)據(jù)概括
目前隨著經(jīng)濟(jì)的發(fā)展,中國的環(huán)境污染問題也日趨嚴(yán)重,各省市出現(xiàn)空氣嚴(yán)重污染的現(xiàn)象,空氣污染已經(jīng)成為了一個(gè)特別嚴(yán)重的問題。其中PM2.5是中國大部分城市的主要空氣污染物,PM2.5粒徑較小,表面積較大,易附帶有毒物質(zhì),可隨著人的呼吸進(jìn)入人體內(nèi),導(dǎo)致各種疾病,對(duì)人體危害較大。
2.地區(qū)性差異影響因素分析
2.1全國空氣質(zhì)量數(shù)據(jù)的統(tǒng)計(jì)分析
本文針對(duì)已獲取的空氣質(zhì)量數(shù)據(jù)進(jìn)行處理,對(duì)環(huán)境污染物的來源進(jìn)行解析,選取了全國370個(gè)城市的PM2.5、PM10、SO2、NO2、CO以及O3為數(shù)據(jù)特征,并希望通過探究不同特征之間的相關(guān)性強(qiáng)弱,從而更好地尋找出數(shù)據(jù)之間潛藏的有價(jià)值的信息。
2.1.1采用協(xié)同過濾的方法進(jìn)行相關(guān)性分析
協(xié)同過濾是在信息過濾和信息推薦中大受歡迎的技術(shù),與傳統(tǒng)的基于內(nèi)容過濾直接分析內(nèi)容不同,分析數(shù)據(jù)之間的相似性,在數(shù)據(jù)的群組中找到指定的相似的數(shù)據(jù),可以形成系統(tǒng)中不同數(shù)據(jù)組的相似性預(yù)測(cè)。本文采用協(xié)同過濾的方式得出了全國所有城市PM2.5與SO2、NO2、CO、PM10和O3之間的相關(guān)性。
2.1.2區(qū)域分析概述
2018年春節(jié)期間,就全國整體情況而言,PM2.5與NO2、CO相關(guān)性最為明顯。這兩者都與汽車尾氣排放,工業(yè)生產(chǎn)有關(guān)。但考慮到春節(jié)期間的情況,工業(yè)生產(chǎn)不會(huì)對(duì)數(shù)值造成太大的影響,可以推斷出在此期間造成PM2.5污染的主體是汽車尾氣排放。
2.1.3分析總結(jié)
通過對(duì)具體城市數(shù)據(jù)分析發(fā)現(xiàn)單純的依靠行政區(qū)域與地理因素對(duì)全國進(jìn)行劃分處理并不可取,所得出的數(shù)據(jù)僅表示這一區(qū)域的整體情況,對(duì)于該區(qū)域的所有城市并不具有代表性。因此這里只采用分析總結(jié)方式對(duì)全國數(shù)據(jù)進(jìn)行處理分析。
2.2聚類分析
使用K均值聚類法進(jìn)行分析時(shí),隨機(jī)確定了K個(gè)中心點(diǎn),選取全國所有城市的SO2、PM2.5、PM10、CO、NO2和O3六項(xiàng)空氣質(zhì)量數(shù)據(jù)為特征,分配給最臨近的中心點(diǎn),待分配完成之后,聚類中心就會(huì)移到分配給該聚類的所有節(jié)點(diǎn)的平均位置處,然后整個(gè)分配過程重新開始。
2.3主成分分析
主成分分析是最常用的一種降維方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質(zhì)。核心在于PCA認(rèn)為數(shù)據(jù)集中的主成分,從而將多個(gè)原特征在此維度進(jìn)行線性組合。PCA通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無關(guān)的表示,可用于提取數(shù)據(jù)的主要特征分量。
2.4核化線性降維
核化線性降維是基于核技巧對(duì)線性降維方法進(jìn)行“核化”。它可以有效處理高維輸入、改變各種核函數(shù)方法的性能、針對(duì)不同的應(yīng)用選擇不同的核函數(shù)和算法。
3.結(jié)束語
應(yīng)用相關(guān)性分析發(fā)現(xiàn)PM2.5與區(qū)域經(jīng)濟(jì)增長(zhǎng)所依賴的生產(chǎn)方法,城市居民的生活方式和自然環(huán)境有較大關(guān)系。
采用大數(shù)據(jù)分析,對(duì)2018年春節(jié)期間全國370個(gè)城市的環(huán)境空氣質(zhì)量數(shù)據(jù)進(jìn)行分析。通過構(gòu)建聚類、主成分分析、核化線性降維等算法應(yīng)用于空氣質(zhì)量數(shù)據(jù),得到了較好的分析結(jié)果。為環(huán)境的大數(shù)據(jù)分析提供了概念的指引。為環(huán)境科學(xué)研究工作人員提供了一種技術(shù)手段。
應(yīng)用聚類分析將全國370個(gè)城市劃分為長(zhǎng)江三角洲,珠江三角洲,中部城市,北方城市為代表的五種類型城市。并發(fā)現(xiàn)長(zhǎng)江三角洲與珠江三角洲地區(qū)的PM2.5與NO2、SO2的相關(guān)性出現(xiàn)較為特殊現(xiàn)象,這有待進(jìn)一步的研究。