隋欣
(長春汽車工業(yè)高等??茖W(xué)校,吉林 長春130000)
隨著工業(yè)的發(fā)展,我國空氣質(zhì)量的下降對生態(tài)環(huán)境和人類生活造成影響,人們開始通過儀器實施檢測空氣質(zhì)量。電化學(xué)傳感器是把測量對象氣體在電極處氧化或還原而測電流,得出對象氣體濃度的探測器[1-2]。本題給出兩種監(jiān)控儀器對兩塵四氣進行數(shù)據(jù)監(jiān)測,一種是國家檢測站點,另一種是某公司自主研發(fā)的空氣質(zhì)量檢測儀,它與國控點檢測儀器在同一檢測時間內(nèi)檢測的數(shù)據(jù)存在差異,本題要通過自建點與國控點數(shù)據(jù)的探索性數(shù)據(jù)分析,解決兩組數(shù)據(jù)存在的差異,分析造成差異產(chǎn)生的因素,從而建立模型,利用國控點數(shù)據(jù)對自建點數(shù)據(jù)進行校準[3]。
數(shù)據(jù)觀察:在對問題進行探索性數(shù)據(jù)分析前,通過觀察數(shù)據(jù)發(fā)現(xiàn)國控點數(shù)據(jù)是按小時進行檢測,而自建點按照(對應(yīng)于國控時間每五分鐘內(nèi)監(jiān)測),二者的樣本量存在明顯差異,但是時間范圍都是18 年11 月到19 年6 月之間。
數(shù)據(jù)的預(yù)處理:由于這兩組數(shù)據(jù)樣本差異很大,我們需要把兩組數(shù)據(jù)進行對應(yīng)的處理。將公司研發(fā)的檢測儀自建點數(shù)據(jù)求取以每小時為單位的平均值來代替自建點數(shù)據(jù),使自建點數(shù)據(jù)與國控點時段對應(yīng)。經(jīng)過處理后發(fā)現(xiàn)兩組數(shù)據(jù)均有不同時段的缺失,我們對國控點與自建點數(shù)據(jù)進行插值和剔除處理,例如在國控點18 年11 月15 日9 時-13 時數(shù)據(jù)缺失,所以我們把自建點對應(yīng)這一時段的數(shù)據(jù)剔除處理。而對于個別離散點我們是通過線性差值進行缺失點的添加,從而得出新的自建點與國控點對應(yīng)數(shù)據(jù)表。
探索性分析:針對問題一對自建點和國家檢測站點的數(shù)據(jù)進行探索性分析,我們按照月份進行探索分析,例如以國控點十一月探索分析結(jié)果中以PM2.5 為例,分析的工具是用直方圖、莖葉圖、制表、匯總統(tǒng)計量、箱圖來探索PM2.5 的集中變化趨勢。對調(diào)查和觀察得來的原始數(shù)據(jù)處理得到所有的匯總統(tǒng)計量,從中得出均值和中位數(shù)用于考察在總體中的集中趨勢。從正態(tài)性檢驗值sig 小于0.05 并且正態(tài)檢驗Q-Q 圖觀察得出六個指標變化趨勢都不符合正態(tài)分布,所以我們不考慮偏度和峰度。由PM2.5 莖葉圖可以直觀看出PM2.5 月平均數(shù)據(jù)以2.0-3.0,6.0-7.0 之間最多,其次1.0-2.0,3.0-4.0,8.0-10.0 之間最多。再從箱形圖得出異常值,例如PM2.5 異常值為380,379,異常值對總體集中趨勢影響較大,不能真實地反映數(shù)據(jù)的總體特征,我們把這些異常值從數(shù)據(jù)中剔除。
2.2.1 按月份對比分析
我們進行了PM2.5,PM10,CO,NO2,SO2,O3共6 個指標的對比度分析,觀察風速,壓強,降水,溫度,濕度五個因素的影響,第一步,我們對自建點和國家監(jiān)測點以每月為標準進行對比,對每月平均標準數(shù)據(jù)保留一位小數(shù),做出6 個指標月份和五個因素比較,以分析PM2.5 與PM10 的變化趨勢為例,通過對比我們發(fā)現(xiàn)PM2.5,PM10 在11 月至次年2 月變化差距較大,3 月到6月數(shù)據(jù)變化小,通過觀察五個因素月份的變化趨勢發(fā)現(xiàn)其中溫度影響關(guān)系顯著,8 個月中11 月-2 月溫度低,2 月-6 月溫度高,綜合上述11 月到2 月低溫對檢測儀影響較大,3-6 月溫度逐漸升高對檢測儀的影響較小,可見溫度影響自建點檢測儀測量數(shù)據(jù)。
2.2.2 按時段對比分析
我們以對六種指標按小時為變量分析各月份的變化趨勢,進一步說明第一步的驗證,以PM10 數(shù)據(jù)2-3 月時段分析,我們將PM10 和NO2濃度按兩個小時為一個時段分析,并討論自建點檢測指標是否與一天早晚因素變化情況有關(guān)。
由第一次分析12 月到次年3 月份溫度變化趨勢,從12 月、2 月、3 月可以明顯看出,12 月份自建點與國控點對比差距較大,3 月份兩者的差距逐漸接近,再次說明溫度對自建點檢測檢測儀有明顯的影響。假設(shè)白天的時間為8 時-20 時,其余時間為夜晚,通過分析得出自建點白天PM10 濃度與國控點數(shù)據(jù)相比較差距較小,而夜晚時自建點數(shù)據(jù)明顯偏離國控點,說明受早晚溫差的影響,并且可能由于自建點附近的社會生活的影響,如工廠制造,人群流動(夜晚人群流動較少)等因素對自建點數(shù)據(jù)造成差異。
NO2各時段濃度變化趨勢,我們分析了12 月-1 月的變化趨勢,不難看出12 月份自建點濃度與國控點差距較大,1 月份差距較小,從各月份的變化趨勢中能了解到12 月份到1 月份風速,壓強,濕度,溫度這四個因素變化趨勢不明顯,而12 月平均降水量為204.7mm/m2,1 月平均降水量111.9mm/m2,并從所有NO2濃度數(shù)據(jù)中得出NO2濃度變化不受早晚時間影響,這說明因為降水量減小對自建點檢測儀檢測的數(shù)據(jù)接近國控點,降水量對自建點檢測儀檢測NO2數(shù)據(jù)會產(chǎn)生影響。
綜上所述,從兩個角度的對比發(fā)現(xiàn)國控點數(shù)據(jù)與自建點數(shù)據(jù)存在差異的原因主要受季節(jié)溫度和早晚溫差的影響,通過資料查詢也存在濕度和降水對檢測指標產(chǎn)生影響,我們通過建立多元回歸模型分析這些因素。
使用國控點數(shù)據(jù),建立合理的數(shù)學(xué)模型對自建點數(shù)據(jù)校準,首先利用預(yù)處理的國控點和自建點數(shù)據(jù)進行分析,我們通過做x,y 散點圖直觀可以看出數(shù)據(jù)分布狀況,以PM2.5 在2-6月的散點圖呈線性趨勢,因此我們選擇多元線性回歸模型。
2.3.1 模型的建立
建立校準數(shù)據(jù)的多元線性回歸模型,以自建點數(shù)據(jù)減去國控點數(shù)據(jù)為因變量,以溫度、濕度、風速,壓強、降水量五個因素為自變量,又根據(jù)第二問分析結(jié)果,季度對數(shù)據(jù)影響較大,故我們考慮以月份劃分進行模型建立。
設(shè)n 個相互獨立的實驗觀測數(shù)據(jù)為
下面以PM2.5 為指標,將數(shù)據(jù)帶入數(shù)學(xué)模型進行求解。
2.3.2 模型的求解
我們利用SPSS 軟件進行逐步線性回歸,得到結(jié)果如表1 所示:
表1 模型匯總
從表1 中我們可以看到模型五的R 方值最接近1,說明第五個模型擬合優(yōu)度好,且與五個因素都有關(guān),得到PM2.5 回歸方程3-6 月份的回歸系數(shù)。
得到PM2.5 的多元線性回歸模型為:
11 月-2 月:W* 0.399S 0.359P 2.559F 0.209T 373.592
3 月 -6 月:W* 0.42S 0.046J 0.518P 5.202F 0.139T 551.567
利用同樣方法得到其他指標的多元線性回歸方程。對回歸方程分析:PM2.5 回歸方程受五個因素的影響,PM10 回歸方程3-6 月受溫度影響較小CO 回歸方程3-6 月受降水量影響不顯著,1-2 月份受溫度和降水量的影響較小,11-2 月受降水和壓強影響較小。NO2回歸方程11-12 月受溫度影響較小,SO2回歸方程3-6 月份受壓強影響較??;O3回歸方程11 月-2 月受濕度影響較小。
表2 系數(shù)
2.3.3 模型檢驗
將結(jié)果進行擬合優(yōu)度檢驗及F 檢驗。例如在PM2.5 指標在3 月-6 月中回歸函數(shù)進行檢驗,我們看到R20.52 擬合度較好,F(xiàn) 檢驗中sig 值0.023<0.05,線性程度顯著。
溫度是影響數(shù)據(jù)的主要因素,而其他因素是否影響需要進一步分析。我們把預(yù)處理的兩組數(shù)據(jù)按月份分析,得出某指標的月份散點圖,得出該數(shù)據(jù)呈線性趨勢,確定為線性回歸模型,做出合理的模型假設(shè),建立多元線性回歸模型,應(yīng)用數(shù)學(xué)軟件SPSS 將各個影響因素逐步回歸,運算出回歸系數(shù),并檢驗?zāi)P偷臄M合優(yōu)度和線性趨勢取得較好的效果。