胡玄子, 陳小雪, 錢葉亮, 姜正龍, 趙彤洲
(武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430073)
在海量信息處理過(guò)程中,經(jīng)常會(huì)遇到數(shù)據(jù)集不完整的情況,通常稱之為缺失數(shù)據(jù).缺失數(shù)據(jù)產(chǎn)生的原因很多,例如受客觀條件限制導(dǎo)致的信息無(wú)法獲取,信息因人為疏忽被遺漏,信息屬性值不存在等因素.針對(duì)這些缺失數(shù)據(jù),前人做過(guò)很多有益的工作,處理方法大致分成三類:刪除、填充、丟棄.刪除數(shù)據(jù)就是將存在確實(shí)數(shù)據(jù)的一組數(shù)據(jù)完全刪除,從而得到的數(shù)據(jù)是沒(méi)有確實(shí)數(shù)據(jù)的完整的數(shù)據(jù)集合.在數(shù)據(jù)分析中,這種方法與丟棄數(shù)據(jù)的方法都比較簡(jiǎn)單,是以犧牲某些記錄屬性為代價(jià)的.但在多維數(shù)據(jù)處理中,數(shù)據(jù)的不同屬性之間很可能存在某種關(guān)系,而完全不考慮存在缺失數(shù)據(jù)的那些屬性,就很可能影響對(duì)數(shù)據(jù)集合的方差及數(shù)據(jù)分布的準(zhǔn)確判斷.因此,針對(duì)缺失數(shù)據(jù)填充方法的研究成為人們關(guān)注的熱點(diǎn)問(wèn)題.缺失數(shù)據(jù)的填充方法大致分為兩類:基于統(tǒng)計(jì)的方法和基于數(shù)據(jù)挖掘的方法.
統(tǒng)計(jì)方法主要通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析,得出數(shù)據(jù)集的一些統(tǒng)計(jì)信息,然后利用這些信息填充缺失數(shù)據(jù).根據(jù)對(duì)數(shù)據(jù)集的了解程度,統(tǒng)計(jì)填充方法可以分為參數(shù)方法、非參方法以及半?yún)⒎椒ǎ畛S玫膮?shù)方法就是線性回歸、EM算法.?dāng)?shù)據(jù)挖掘算法主要有貝葉斯方法、神經(jīng)網(wǎng)絡(luò)方法、粗糙集規(guī)則方法等等[1].根據(jù)數(shù)據(jù)特點(diǎn),本文有選擇性地對(duì)如下四種方法進(jìn)行了研究.
其中ωn+1(x)=(x-x0)(x-x1)…(x-xn),
(xi-xi-1)(xi-xi+1)…(xi-xn).
在數(shù)據(jù)填充時(shí),可以利用已知數(shù)據(jù)求出拉格朗日插值多項(xiàng)式,然后將待求節(jié)點(diǎn)帶入該多項(xiàng)式,就可以求出目標(biāo)值.
所謂回歸就是在已知數(shù)據(jù)基礎(chǔ)上,構(gòu)建回歸模型,找出回歸模型中的參數(shù),用以模擬和預(yù)測(cè)未知數(shù)據(jù)的過(guò)程.常用的線性回歸方法,是以誤差平方和最小為基本思想,尋找回歸參數(shù)的過(guò)程[2].本文僅討論一元線性回歸分析.
當(dāng)求出回歸模型的參數(shù)后,將缺失點(diǎn)數(shù)據(jù)x帶入回歸模型,即可求出填充數(shù)據(jù)y.
灰色預(yù)測(cè)是通過(guò)少量的、不完全的信息建立數(shù)學(xué)模型,進(jìn)而找到模型參數(shù)的過(guò)程.它具有運(yùn)算方便,建模精度高的特點(diǎn),在各種預(yù)測(cè)領(lǐng)域都有著廣泛的應(yīng)用,是處理小樣本預(yù)測(cè)問(wèn)題的有效工具.定義[3]如下,設(shè)給定觀測(cè)數(shù)據(jù)列
x(0)={x(0)(1),x(0)(2),…,x(0)(N)}.
經(jīng)一次累加得到
x(1)={x(1)(1),x(1)(2),…,x(1)(N)}.
特別地,當(dāng)t=t0時(shí),x(1)=x(1)(t0).對(duì)等間隔取樣的離散值則為
采用最小二乘法來(lái)確定a、μ.當(dāng)模型系數(shù)確定后,采用同樣的方法,將缺失點(diǎn)帶入方程,求得缺失數(shù)據(jù)的估計(jì)值.
BP網(wǎng)絡(luò)是由已知的輸入矢量和輸出矢量,訓(xùn)練出一個(gè)網(wǎng)絡(luò)用來(lái)逼近某個(gè)函數(shù),具有較強(qiáng)的泛化性.主要思想是使網(wǎng)絡(luò)上的節(jié)點(diǎn)真實(shí)值與模擬值的誤差平方和最小,即用網(wǎng)絡(luò)的實(shí)際輸出A1,A2,…,Aq, 與目標(biāo)矢量T1,T2,…,Tq之間的誤差修改其權(quán)值,使實(shí)際輸出值與期望值盡可能接近從而能得到一個(gè)訓(xùn)練好的網(wǎng)絡(luò)[4-6].在此采用兩層BP網(wǎng)絡(luò)結(jié)構(gòu).
自2012年入冬以來(lái),各地出現(xiàn)的霧霾天氣不斷成為人們關(guān)心的話題,也成為各大媒體關(guān)注的焦點(diǎn),武漢市已經(jīng)實(shí)現(xiàn)PM2.5的24小時(shí)監(jiān)測(cè).本實(shí)驗(yàn)采集了2013年3月13日至4月29日(晚上8點(diǎn))的武漢市PM2.5值(表1).由于各種原因,導(dǎo)致有部分?jǐn)?shù)據(jù)缺失.為了得到相對(duì)完整的、可靠的數(shù)據(jù)集,我們采用上述4種方法進(jìn)行了數(shù)據(jù)填充的工作,力圖尋找一種適用于該類數(shù)據(jù)填充的方法.在估計(jì)未知數(shù)據(jù)時(shí),為檢測(cè)算法的有效性,我們將部分已知數(shù)據(jù)剔除后,進(jìn)行準(zhǔn)確性對(duì)比,并同時(shí)估計(jì)未知數(shù)據(jù).
表1采集到的部分PM2.5原始數(shù)據(jù)μg/m3
日期PM2.5日期PM2.5日期PM2.53/131073/301334/15773/14663/311324/16883/15754/11514/171203/26844/3964/20693/16604/4684/22303/17944/5544/23613/201534/6684/241033/21984/8734/251103/221834/9314/26833/241454/10534/27593/25674/11574/28523/27884/12414/29393/28804/13643/29944/1474
其中,有8天數(shù)據(jù)缺失.用上述四種方法分別進(jìn)行了數(shù)據(jù)填充.為檢驗(yàn)算法的有效性,首先將部分已知數(shù)據(jù)剔除,然后分別用四種方法計(jì)算剔除數(shù)據(jù)的估計(jì)值,并與真實(shí)值對(duì)比,結(jié)果見(jiàn)表2、表3.
表2 各種算法對(duì)剔除數(shù)據(jù)的估計(jì)值和真實(shí)值的對(duì)比 μg/m3
表3 各種算法的殘差 μg/m3
為定性檢驗(yàn)上述算法的準(zhǔn)確性,我們對(duì)各種算法的后驗(yàn)差比值進(jìn)行計(jì)算并比較.后驗(yàn)差比值的計(jì)算方法為
F=s2/s1.
即,s1是x(0)的方差,s2是殘差的方差.由此定義可知,后驗(yàn)差比值反映了殘差相對(duì)于標(biāo)準(zhǔn)偏差偏離的程度,后驗(yàn)差比值越小,表明估計(jì)值偏離真實(shí)值的程度越小,就越接近真實(shí)值.通過(guò)上述方法計(jì)算各種算法的后驗(yàn)差比值,見(jiàn)表4.從表4中可見(jiàn),拉格朗日插值法的后驗(yàn)差比值最?。虼四M效果最好.按照此方法,對(duì)缺失數(shù)據(jù)進(jìn)行估計(jì),可得估計(jì)值見(jiàn)表5.
表4 各種算法后驗(yàn)差比值
表5 缺失數(shù)據(jù)的估計(jì)值 μg/m3
盡管填充數(shù)據(jù)的算法有很多種,但是,并不是每種算法都能適用于所有數(shù)據(jù).針對(duì)空氣質(zhì)量參數(shù)之一的PM2.5的缺失數(shù)據(jù)填充,我們進(jìn)行了一些探索性嘗試,認(rèn)為拉格朗日插值法能比較準(zhǔn)確填充缺失數(shù)據(jù),進(jìn)而可以實(shí)現(xiàn)部分?jǐn)?shù)據(jù)的預(yù)測(cè).考慮到研究的科學(xué)性,這種算法不一定是最好的,隨著研究的深入,我們認(rèn)為還有更好的方法值得探索.
另外,從數(shù)據(jù)預(yù)測(cè)的趨勢(shì)可見(jiàn),武漢市PM2.5數(shù)值在3-4月份呈現(xiàn)下降的趨勢(shì).
[參考文獻(xiàn)]
[1] 劉星毅,曾春華. 缺失數(shù)據(jù)的處理和挑戰(zhàn)[J].欽州學(xué)院學(xué)報(bào),2008,23(06):25-29.
[2] 蔣金山,何春雄,潘少華. 最優(yōu)化計(jì)算方法[M]. 廣州:華南理工大學(xué)出版社,2008.
[3] 張光澄. 非線性最優(yōu)化計(jì)算方法[M]. 北京:高等教育出版社,2005.
[4] 倪 勤. 最優(yōu)化方法與程序設(shè)計(jì)[M]. 北京:科學(xué)出版社,2009.
[5] 楊淑瑩. 模式識(shí)別與智能計(jì)算:Matlab技術(shù)實(shí)現(xiàn)[M].北京: 電子工業(yè)出版社,2008.
[6] S Theodoridis. 模式識(shí)別[M]. 第4版.北京:電子工業(yè)出版社,2010.
[7] 張德豐. MATLAB神經(jīng)網(wǎng)絡(luò)應(yīng)用設(shè)計(jì) [M].第二版. 北京:機(jī)械工業(yè)出版社,2012.
[8] 周建興. MATLAB從入門到精通[M]. 第二版. 北京:人民郵電出版社,2012.