胡書明 張明麗
摘要:如今隨著現(xiàn)代工業(yè)的不斷發(fā)展,人類的生產(chǎn)生活活動每天都在產(chǎn)生大量廢氣,嚴(yán)重影響了這里生活環(huán)境中的空氣質(zhì)量。在浩繁空氣污染物中,PM2.5是對人體健康危害非常大的一種污染物?,F(xiàn)有的測量PM2.5測量手段有著無法實(shí)時(shí)測量、精確度不高、適用性不廣等缺點(diǎn),所以可以利用機(jī)器學(xué)習(xí)的方法通過空氣中其他物質(zhì)的濃度來對PM2.5的濃度等級進(jìn)行預(yù)測。該項(xiàng)目通過對北京市數(shù)年來的空氣成分?jǐn)?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從而實(shí)現(xiàn)對于PM2.5等級的預(yù)測。在項(xiàng)目中,主要使用了三種算法,分別是決策樹,支持矢量機(jī)( SVM)和K臨鄰算法(KNN),并且對比這三種算法的優(yōu)劣性。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)能夠有效地預(yù)測空氣質(zhì)量,對人們的日常生活具有重要意義。
關(guān)鍵詞:決策樹;支持矢量機(jī);K臨鄰;PM2.5
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)27-0209-02
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
1 引言
隨著現(xiàn)代工業(yè)的不斷發(fā)展,人類的生產(chǎn)生活活動每天都會產(chǎn)生大量的廢氣,這些氣體排放到空氣當(dāng)中,嚴(yán)重影響了這里生活環(huán)境中的空氣質(zhì)量。人們的環(huán)保意識和可持續(xù)發(fā)展意識正在不停加強(qiáng),對PM2.5等空氣中的有害成分也越來越重視。
1.1空氣質(zhì)量概述
顆粒物質(zhì)(PM)是大氣中所有顆粒物質(zhì)的總稱,其中空氣動力學(xué)直徑≤2.5μm(PM2.5)的類型是影響人類健康的最重要的因素。與由一種或兩種物質(zhì)組成的大多數(shù)污染物不同,PM包括多種粒徑的物質(zhì),為了簡化PM水平的評估并促進(jìn)PM污染控制政策的實(shí)施,通常將空氣PM水平按照每立方米空氣中的總顆粒質(zhì)量分類,其中幾個(gè)顆粒尺寸范圍由最大顆粒的空氣動力學(xué)定義。
1.2對于空氣質(zhì)量的預(yù)測
在如今,PM2.5的測量主要有3種方法:重量法、微量振蕩天平法和B射線法。在這三種方法中,重量法測量PM2.5最為精確,但是無法做到實(shí)時(shí)監(jiān)測,另外兩種方法只適用于部分情況的測量,并且成本高昂。這里希望能夠做到對PM2.5在空氣中濃度的實(shí)時(shí)精確獲取,以現(xiàn)有的測量方法并不能直接做到,但是這里可以利用機(jī)器學(xué)習(xí)的方法,通過空氣中的其他成分來對PM2.5的濃度進(jìn)行預(yù)測。
1.3項(xiàng)目目標(biāo)以及意義
該項(xiàng)目的目的是通過對于空氣中其他影響空氣質(zhì)量的成分,來對于空氣中PM2.5的濃度等級進(jìn)行預(yù)測。本次項(xiàng)目中,這里選取了北京市從2013年12月至2018年12月之間的每日空氣質(zhì)量報(bào)告.通過對于空氣中其他成分的數(shù)據(jù)挖掘,來對于第二天的PM2.5等級進(jìn)行預(yù)測。
2 實(shí)現(xiàn)過程
2.1 數(shù)據(jù)集
數(shù)據(jù)集來源為中國空氣質(zhì)量在線監(jiān)測分析平臺,網(wǎng)址為https://www.aqistudy.cn/historydata。參考巫升平‘31的數(shù)據(jù)集組成,這里選取了7個(gè)屬性。下面列出了數(shù)據(jù)集的格式,每個(gè)屬性值及其單位。
2.2 系統(tǒng)結(jié)構(gòu)
該空氣PM2.5等級預(yù)測系統(tǒng)的結(jié)構(gòu)如下:
3 預(yù)測結(jié)果
這里使用了3種預(yù)測算法:1)決策樹;2)樸素葉斯;3)KNN。分類精度最低的是88.09%,分類精度最高的是90.87%。對于該大氣模型而言,效果已經(jīng)算是良好。
3.1 決策樹
決策樹(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,直觀運(yùn)用概率分析的一種圖解法[5]。在機(jī)器學(xué)習(xí)中,決策樹是一個(gè)預(yù)測模型,他代表的是對象屬性與對象值之間的一種映射關(guān)系。Entropy定義為系統(tǒng)的凌亂程度,使用算法ID3,C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學(xué)理論中熵的概念。
決策樹的學(xué)習(xí)過程如下:
3.2 SVM
SVM是新興發(fā)展的一種以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)的機(jī)器學(xué)習(xí)方法,能有效地避免經(jīng)典機(jī)器學(xué)習(xí)方法中的(包括神經(jīng)網(wǎng)絡(luò))的過學(xué)習(xí)、維數(shù)災(zāi)難、局部極小等傳統(tǒng)分類存在的問題,在小樣本條件下仍具有很好的泛化能力,因此受到極大的關(guān)注。
SVM的學(xué)習(xí)過程如下:
3.3 KNN
K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個(gè)理論上比較成熟的方法,也是最簡單的機(jī)器學(xué)習(xí)算法之一。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適。
訓(xùn)練過程的查準(zhǔn)率( Precision),查全率(reCall),以及fl測度值如下:
3.4 結(jié)果對比
對于KNN來說,準(zhǔn)確率高,對異常值和噪聲有比較高的容忍度。和樸素貝葉斯之類的算法比,對數(shù)據(jù)沒有假定,準(zhǔn)確度高,對異常點(diǎn)不敏感。可以用于非線性分類,計(jì)算量大,對于存儲器的需求也大。對于SVM,最終決策函數(shù)只由少數(shù)的支持矢量所確定,計(jì)算的復(fù)雜性取決于支持矢量的數(shù)目,而不是樣本空間的維數(shù),這在某種意義上避免了“維數(shù)災(zāi)難”。在高維空間有效,在維度數(shù)量大于樣本數(shù)量的情況下仍然有效。Decisiontrees易于理解,乃至比線性回歸更直觀;模型可以通過樹的形式進(jìn)行可視化展示,與人類做決策思考的思維習(xí)慣契合??梢灾苯犹幚矸菙?shù)值型數(shù)據(jù)。
4 結(jié)束語
這里已經(jīng)完成了這個(gè)項(xiàng)目的以下步驟:對數(shù)據(jù)進(jìn)行了預(yù)處理,然后對數(shù)據(jù)進(jìn)行了分析。理解特征之間的關(guān)系,基于特征之間的依賴關(guān)系選取特征,然后進(jìn)行數(shù)據(jù)分析。采用多種的算法,采用對于本軟件最有效的三種算法(這里就是DecisionTree,KNN,SVM)。此中Accuracy是根據(jù)測試集樣本正確率計(jì)算的。
通過分析可以得出結(jié)論,可以利用機(jī)器學(xué)習(xí)算法進(jìn)行空氣質(zhì)量預(yù)測分析,從而預(yù)測下一天的空氣質(zhì)量。該空氣質(zhì)量軟件預(yù)測系統(tǒng)是有效的,有助于滿足預(yù)測的要求。使用該空氣質(zhì)量預(yù)測系統(tǒng)可以有效地預(yù)測空氣質(zhì)量,對人們的日常生活具有重要意義。
參考文獻(xiàn):
[1]施曉娟,張會然,閻錫新.大氣懸浮顆粒物所致氣道黏液高分泌的研究進(jìn)展[Jl-廣東醫(yī)學(xué),2017,38(S1):279-281.
[2]巫升平.成都市空氣污染物季節(jié)性變化規(guī)律[J].科技風(fēng),2017(23):140-141.
[3]杜飛燕.PM2.5暴露對大鼠清除肺炎克雷白桿菌的影響及其機(jī)制[D].石家莊:河北醫(yī)科大學(xué),2012.
[4]莫洪武,萬榮澤,分類算法在煤礦勘探數(shù)據(jù)分析系統(tǒng)中的比較[J]-煤炭技術(shù),2013,32(12):135-136.
[5]楊偉光.面向大數(shù)據(jù)分析的決策樹算法研究[J].電子技術(shù)與軟件工程,2018(23):175.
[6]楊鐵建.基于支持向量機(jī)的數(shù)據(jù)挖掘技術(shù)研究[D].西安:西安電子科技大學(xué),2005.
[7]周明飛,熊偉,劉還珠.KNN方法在貴州晴雨預(yù)報(bào)中的試驗(yàn)[J].貴州氣象,2010,34(6):3-5.
[8]趙宇.基于支持向量機(jī)的多用戶檢測算法、功率控制算法和波達(dá)方向估計(jì)算法[D].合肥:中國科學(xué)技術(shù)大學(xué),2006.
【通聯(lián)編輯:聞翔軍】
作者簡介:胡書明(1996-),男,河南商水人,碩士研究生,助教,研究方向?yàn)檐浖こ獭?/p>