段青玲 肖曉琰 劉怡然 張 璐
(1.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083; 2.北京市農(nóng)業(yè)物聯(lián)網(wǎng)工程技術(shù)研究中心, 北京 100097)
基于SW-SVR的畜禽養(yǎng)殖物聯(lián)網(wǎng)異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法
段青玲1,2肖曉琰1劉怡然1張 璐1
(1.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083; 2.北京市農(nóng)業(yè)物聯(lián)網(wǎng)工程技術(shù)研究中心, 北京 100097)
畜禽養(yǎng)殖物聯(lián)網(wǎng)由于工作環(huán)境惡劣、網(wǎng)絡(luò)傳輸故障等因素容易產(chǎn)生異常感知數(shù)據(jù),為保證數(shù)據(jù)質(zhì)量,根據(jù)畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流周期性、時(shí)序性等特點(diǎn),提出了一種基于滑動(dòng)窗口與支持向量回歸(Sliding window and support vector machines for regression,SW-SVR)的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法。首先根據(jù)畜禽物聯(lián)網(wǎng)數(shù)據(jù)流特征周期以及采樣頻率確定滑動(dòng)窗口尺寸;然后通過SVR模型預(yù)測(cè)畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流中某一時(shí)刻傳感器測(cè)量值;最后計(jì)算預(yù)測(cè)區(qū)間,根據(jù)實(shí)際測(cè)量值是否落入該區(qū)間判斷是否異常并對(duì)異常數(shù)據(jù)進(jìn)行置換處理。采用畜禽養(yǎng)殖物聯(lián)網(wǎng)環(huán)境數(shù)據(jù)進(jìn)行試驗(yàn),結(jié)果表明:所提滑動(dòng)窗口計(jì)算方法得到的窗口尺寸預(yù)測(cè)的MAPE為0.188 4,畜禽養(yǎng)殖物聯(lián)網(wǎng)異常數(shù)據(jù)檢測(cè)率達(dá)98%,能夠有效檢測(cè)和處理畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流中的異常數(shù)據(jù)。
異常數(shù)據(jù)檢測(cè); 畜禽養(yǎng)殖物聯(lián)網(wǎng); 滑動(dòng)窗口; 支持向量回歸
當(dāng)前物聯(lián)網(wǎng)已經(jīng)成為畜禽養(yǎng)殖生產(chǎn)獲取數(shù)據(jù)的重要手段之一。在畜禽養(yǎng)殖物聯(lián)網(wǎng)中,傳感器按照時(shí)間序列連續(xù)不斷地采集溫濕度、光照、有害氣體濃度等畜禽生長環(huán)境數(shù)據(jù),并以數(shù)據(jù)流的形式傳輸至數(shù)據(jù)處理系統(tǒng),具有顯著周期性、實(shí)時(shí)性、無窮性等特征[1-3]。畜禽物聯(lián)網(wǎng)的工作環(huán)境通常較惡劣,由于傳感器設(shè)備的暫時(shí)性故障、數(shù)據(jù)傳輸錯(cuò)誤等原因產(chǎn)生異常數(shù)據(jù)[4-6],使得數(shù)據(jù)質(zhì)量急劇下降,無法保證設(shè)備的自動(dòng)控制和數(shù)據(jù)的有效分析。
異常值的概念由Edgeworth首次定義,是指“顯然嚴(yán)重偏離樣本集合中其他觀測(cè)值的觀測(cè)值”[7]。異常數(shù)據(jù)檢測(cè)是指從數(shù)據(jù)集中找出明顯區(qū)別于其他數(shù)據(jù)的數(shù)據(jù)[8]。根據(jù)異常檢測(cè)的數(shù)據(jù)來源,異常數(shù)據(jù)檢測(cè)技術(shù)可分為離線檢測(cè)和在線檢測(cè)。離線異常數(shù)據(jù)檢測(cè)主要采用最近鄰、聚類、神經(jīng)網(wǎng)絡(luò)分類器、支持向量機(jī)分類器等機(jī)器學(xué)習(xí)[9-13]和統(tǒng)計(jì)方法[14-16]對(duì)靜態(tài)樣本數(shù)據(jù)進(jìn)行異常檢測(cè),離線異常數(shù)據(jù)檢測(cè)的對(duì)象是收集的靜態(tài)數(shù)據(jù),不適用于畜禽物聯(lián)網(wǎng)中實(shí)時(shí)數(shù)據(jù)流異常檢測(cè)。在線異常數(shù)據(jù)實(shí)時(shí)檢測(cè)主要基于預(yù)測(cè)對(duì)實(shí)時(shí)數(shù)據(jù)流進(jìn)行異常檢測(cè),何歡[17]采用遞歸神經(jīng)網(wǎng)絡(luò)檢測(cè)概念漂移方法進(jìn)行異常數(shù)據(jù)檢測(cè),著重于檢測(cè)數(shù)據(jù)中的隱藏狀態(tài)變化;HILL等[18]利用BP神經(jīng)網(wǎng)絡(luò)模型計(jì)算預(yù)測(cè)值及置信區(qū)間,與實(shí)際測(cè)量值比較進(jìn)行異常分類。苑進(jìn)等[19]通過自回歸高斯模型計(jì)算大棚內(nèi)溫濕度預(yù)測(cè)誤差帶進(jìn)行異常分類,但高斯過程回歸模型受初值和協(xié)方差函數(shù)影響較大。SVR算法以其訓(xùn)練樣本小、泛化能力強(qiáng)的特點(diǎn)在數(shù)據(jù)預(yù)測(cè)領(lǐng)域廣受關(guān)注[20],并成功應(yīng)用在時(shí)間序列預(yù)測(cè)研究中[21-24],目前在異常檢測(cè)領(lǐng)域也有所研究[25-29],但應(yīng)用較少?;陬A(yù)測(cè)的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法,一般選取固定滑動(dòng)窗口確定預(yù)測(cè)模型的輸入項(xiàng),是預(yù)測(cè)準(zhǔn)確性和運(yùn)行效率的重要影響因子,而滑動(dòng)窗口尺寸選擇因素復(fù)雜,物聯(lián)網(wǎng)中數(shù)據(jù)采集頻率、特征周期各不相同,如畜禽物聯(lián)網(wǎng)中氨氣、溫度采集時(shí)間間隔分別為3 min和5 min,目前的研究中多是人為確定滑動(dòng)窗口尺寸,預(yù)測(cè)結(jié)果具有隨機(jī)性。本文提出基于SW-SVR的畜禽養(yǎng)殖物聯(lián)網(wǎng)異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法,選擇窗口尺寸并根據(jù)滑動(dòng)窗口內(nèi)歷史數(shù)據(jù)預(yù)測(cè)傳感器測(cè)量值,計(jì)算預(yù)測(cè)區(qū)間,并與實(shí)際值對(duì)比進(jìn)行異常數(shù)據(jù)分類與替換處理,以期滿足畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流異常檢測(cè)對(duì)準(zhǔn)確度和運(yùn)算效率的要求。
根據(jù)畜禽物聯(lián)網(wǎng)中數(shù)據(jù)流周期性、實(shí)時(shí)性、無窮性的特點(diǎn)構(gòu)建基于SW-SVR的畜禽養(yǎng)殖物聯(lián)網(wǎng)異常數(shù)據(jù)檢測(cè)方法,以有效保證數(shù)據(jù)的實(shí)時(shí)性和準(zhǔn)確率,為設(shè)備的自動(dòng)控制和有效的數(shù)據(jù)分析提供數(shù)據(jù)支持。
1.1 總體流程
圖1 基于SW-SVR模型的異常數(shù)據(jù)檢測(cè)方法Fig.1 Anomaly data detection method based on SW-SVR
畜禽養(yǎng)殖物聯(lián)網(wǎng)異常數(shù)據(jù)實(shí)時(shí)檢測(cè)處理流程包括以下步驟:
(1)基于采樣頻率和數(shù)據(jù)周期確定滑動(dòng)窗口q。
(2)根據(jù)滑動(dòng)窗口尺寸q,選擇窗口內(nèi)歷史數(shù)據(jù)(即t時(shí)刻其所在時(shí)間序列之前q個(gè)測(cè)量值)組成滑動(dòng)窗口數(shù)據(jù)集。
(3)采用SVR算法進(jìn)行預(yù)測(cè),即計(jì)算數(shù)據(jù)流中t時(shí)刻的預(yù)測(cè)值。
(4)計(jì)算t時(shí)刻預(yù)測(cè)區(qū)間PI,與實(shí)際測(cè)量值對(duì)比判斷是否異常,并對(duì)異常數(shù)據(jù)進(jìn)行置換處理,剔除異常數(shù)據(jù)。
(5)更新滑動(dòng)窗口,重復(fù)步驟(2)~(4)。
1.2 滑動(dòng)窗口構(gòu)建
畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流與靜態(tài)數(shù)據(jù)不同,具有實(shí)時(shí)性、無窮性等特點(diǎn),不可能用所有的數(shù)據(jù)集作為數(shù)據(jù)源,因此需要?jiǎng)?chuàng)建滑動(dòng)窗口,以窗口內(nèi)的歷史數(shù)據(jù)作為預(yù)測(cè)模型的輸入值。假設(shè)窗口尺寸為q,則保存最近一段時(shí)間的q個(gè)數(shù)據(jù),也稱之為滑動(dòng)窗口數(shù)據(jù)集。
滑動(dòng)窗口尺寸的選擇會(huì)影響預(yù)測(cè)模型的準(zhǔn)確性與時(shí)間效率,窗口尺寸越大,說明基于越多的歷史數(shù)據(jù)來預(yù)測(cè)當(dāng)前值,準(zhǔn)確度越高,但同時(shí)耗費(fèi)時(shí)間越長;因此選擇滑動(dòng)窗口需要均衡以上2個(gè)因素,選擇合適的窗口尺寸。
根據(jù)畜禽物聯(lián)網(wǎng)數(shù)據(jù)流中采集數(shù)據(jù)的特征周期以及數(shù)據(jù)采集的時(shí)間間隔,提出了滑動(dòng)窗口尺寸q的計(jì)算方法,公式為
q=ceil(Q)
(1)
其中
式中T——畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流規(guī)律分布的特征周期
Δt——畜禽物聯(lián)網(wǎng)傳感器采集數(shù)據(jù)時(shí)間間隔
ceil(Q)——上取整數(shù)函數(shù),取不小于Q的最小整數(shù)
特征周期指對(duì)畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流進(jìn)行分布規(guī)律分析得到的周期,如環(huán)境檢測(cè)數(shù)據(jù)特征周期為1 d;滑動(dòng)窗口尺寸對(duì)預(yù)測(cè)準(zhǔn)確性影響較大,與運(yùn)行效率成反比;基于一個(gè)特征周期的樣本預(yù)測(cè)效果最好,但樣本量過大,耗時(shí)嚴(yán)重;窗口最小取1時(shí),運(yùn)行時(shí)間最短,但準(zhǔn)確率較低。式(1)中一個(gè)特征周期的樣本數(shù)量T/Δt同時(shí)控制滑動(dòng)窗口選擇函數(shù)上升幅度和衰減速度,滿足預(yù)測(cè)準(zhǔn)確度和運(yùn)行效率需求。
1.3 基于SVR的單步預(yù)測(cè)
采用SVR算法對(duì)畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流中的測(cè)量值進(jìn)行預(yù)測(cè)[30-31]?;赟VR的單步預(yù)測(cè)模型取t時(shí)刻之前長度為q滑動(dòng)窗口內(nèi)歷史數(shù)據(jù)作為輸入數(shù)據(jù)源,利用SVR模型對(duì)t時(shí)刻物聯(lián)網(wǎng)傳感器的測(cè)量值進(jìn)行預(yù)估計(jì)算,輸出第t個(gè)序列值。因此,SVR模型輸入結(jié)點(diǎn)的個(gè)數(shù)為q,輸出結(jié)點(diǎn)個(gè)數(shù)為1。公式為
(2)
式中M(Dt)——SVR模型R——經(jīng)驗(yàn)風(fēng)險(xiǎn),可以用不同損失函數(shù)來描述,本試驗(yàn)中采用e不敏感函數(shù)
SVR模型中的主要參數(shù)包括復(fù)雜度參數(shù)C、學(xué)習(xí)算法以及核函數(shù)[19],設(shè)置復(fù)雜度參數(shù)C為1.0;核函數(shù)用于將原始數(shù)據(jù)映射到高維空間中進(jìn)行非線性回歸,一定程度上受數(shù)據(jù)集的影響,其中應(yīng)用最廣的為徑向基核函數(shù)[30],本文選取徑向基函數(shù)和多項(xiàng)式函數(shù)作為回歸預(yù)測(cè)的核函數(shù)進(jìn)行對(duì)比。
1.4 異常數(shù)據(jù)識(shí)別與處理
在對(duì)滑動(dòng)窗口內(nèi)的歷史數(shù)據(jù)進(jìn)行單步預(yù)測(cè)后,需要利用模型殘差確定概率為p(也稱置信水平)的預(yù)測(cè)區(qū)間(Prediction interval,PI)。假定新近的測(cè)量值落入預(yù)測(cè)區(qū)間的概率為p=100(1-α),且模型殘差符合均值為零的高斯分布,則預(yù)測(cè)區(qū)間表示為
(3)
式中Pt——t時(shí)刻的預(yù)測(cè)區(qū)間tα/2,n-1——p百分位數(shù)自由度為n-1的符合學(xué)生t分布概率分布函數(shù)
S——n個(gè)樣本的標(biāo)準(zhǔn)偏差
采用該預(yù)測(cè)區(qū)間的優(yōu)勢(shì)在于區(qū)間寬度受經(jīng)驗(yàn)?zāi)P驼`差影響,不受人為干預(yù),保證了預(yù)測(cè)模型的客觀性。
計(jì)算得到預(yù)測(cè)區(qū)間后,將t時(shí)刻畜禽物聯(lián)網(wǎng)的實(shí)際測(cè)量值與預(yù)測(cè)區(qū)間進(jìn)行比較,若t時(shí)刻的實(shí)際測(cè)量值落入對(duì)應(yīng)的預(yù)測(cè)區(qū)間內(nèi),判定該實(shí)際測(cè)量值正常,否則判斷該時(shí)刻實(shí)際測(cè)量值為異常數(shù)據(jù)。
針對(duì)判斷為異常數(shù)據(jù)的實(shí)際測(cè)量值,需要將該測(cè)量值標(biāo)識(shí)為異常數(shù)據(jù),并且用SVR模型回歸計(jì)算的預(yù)測(cè)值代替被識(shí)別為異常數(shù)據(jù)的實(shí)際測(cè)量值,作為計(jì)算下一時(shí)刻預(yù)測(cè)值的輸入數(shù)據(jù),更新滑動(dòng)窗口。
式中Dt——預(yù)測(cè)t時(shí)刻測(cè)量值的數(shù)據(jù)源Dt+1——更新滑動(dòng)窗口后預(yù)測(cè)t+1時(shí)刻測(cè)量值的數(shù)據(jù)源
基于滑動(dòng)窗口的SVR算法以歷史數(shù)據(jù)建立模型計(jì)算得到預(yù)測(cè)值,直接替代異常數(shù)據(jù)在算法實(shí)現(xiàn)方面更為簡練,并且作為下一時(shí)刻預(yù)測(cè)模型的輸入值預(yù)測(cè)準(zhǔn)確度更高。
試驗(yàn)采用科爾諾公司的MOT300-NH3型氨氣檢測(cè)儀根據(jù)電化學(xué)原理采集氨氣數(shù)據(jù),并且配合信號(hào)發(fā)射器和接收器進(jìn)行遠(yuǎn)距離無線傳輸。以2016年4月8日00時(shí)00分至11日23時(shí)53分在天津惠康種豬養(yǎng)殖場(chǎng)采集的氨氣數(shù)據(jù)作為樣本集,氨氣傳感器節(jié)點(diǎn)每隔3 min采集一次數(shù)據(jù),持續(xù)96 h,共采集到1 920個(gè)數(shù)據(jù),其中包括噪聲數(shù)據(jù)60個(gè)。
在確定滑動(dòng)窗口尺寸和單步預(yù)測(cè)畜禽物聯(lián)網(wǎng)傳感器測(cè)量值階段,采用模型評(píng)估參數(shù)平均絕對(duì)誤差(MAE)、均方誤差(MSE)、平均絕對(duì)百分比誤差(MAPE)對(duì)基于徑向基核函數(shù)的SVR模型(SVR-RBF)、基于多項(xiàng)式核函數(shù)的SVR模型(SVR-Poly)以及BP神經(jīng)網(wǎng)絡(luò)(BP neural network,BPNN)模型的預(yù)測(cè)效果進(jìn)行分析,公式為
(4)
(5)
(6)
在畜禽物聯(lián)網(wǎng)異常數(shù)據(jù)分類處理階段,通過計(jì)算評(píng)估參數(shù)檢測(cè)率(True positive rate,TPR)、誤檢率(Flase positive rate,F(xiàn)PR)對(duì)SVR模型以及BP神經(jīng)網(wǎng)絡(luò)模型在不同置信水平下的異常數(shù)據(jù)檢測(cè)效果評(píng)估,公式為
(7)
(8)
式中Tpr——檢測(cè)率,%Fpr——誤檢率,%Tp——判斷為異常實(shí)際上是異常值的個(gè)數(shù)Fp——判斷為異常實(shí)際是正常值的個(gè)數(shù)Fn——判斷為正常實(shí)際上是異常值的個(gè)數(shù)Tn——判斷為正常實(shí)際上也是正常值的個(gè)數(shù)
2.1 滑動(dòng)窗口選擇
對(duì)連續(xù)一個(gè)月的氨氣數(shù)據(jù)進(jìn)行分析,氨氣濃度具有明顯周期性分布規(guī)律,且以天為周期,則單步預(yù)測(cè)時(shí)取特征周期T為1 440 min;β一般取值為0.5、1、2[2],本試驗(yàn)中取0.5;樣本采集時(shí)間間隔為3 min。
根據(jù)試驗(yàn)采集數(shù)據(jù)的特征周期、采集間隔等參數(shù),按照式(1)計(jì)算得到窗口尺寸為24。滑動(dòng)窗口的尺寸取值一般在10~30之間[18],本文分別采用滑動(dòng)窗口尺寸為10、15、20、25、30、35、40進(jìn)行試驗(yàn);采用基于徑向基核函數(shù)的SVR模型分別在不同的窗口尺寸下對(duì)畜禽養(yǎng)殖物聯(lián)網(wǎng)中氨氣樣本數(shù)據(jù)預(yù)測(cè),模型評(píng)估結(jié)果如圖2所示。
圖2 不同窗口尺寸模型評(píng)估結(jié)果Fig.2 Model evaluation results in different window sizes
由圖2中不同窗口尺寸下SVR模型預(yù)測(cè)效果來看,隨著窗口尺寸增大,MAE、MSE、MAPE逐漸減??;平均運(yùn)行時(shí)間呈遞增趨勢(shì);MAE、MSE、MAPE分別低于0.4、0.35、0.2時(shí),窗口尺寸q為25時(shí),平均運(yùn)行時(shí)間最低,為2.5 ms,為最佳窗口尺寸,與根據(jù)滑動(dòng)窗口算法計(jì)算得到的窗口尺寸為24時(shí)的誤差以及運(yùn)行時(shí)間相差甚微,可視為結(jié)果基本一致,本文提出的滑動(dòng)窗口選擇算法能夠滿足畜禽養(yǎng)殖物聯(lián)網(wǎng)單步預(yù)測(cè)的準(zhǔn)確性與時(shí)間效率要求。
2.2 基于SVR的單步預(yù)測(cè)結(jié)果分析
SVR模型中滯后步長由滑動(dòng)窗口尺寸確定,核函數(shù)分別選取徑向基核函數(shù)和多項(xiàng)式核函數(shù);BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型[17]中學(xué)習(xí)率為0.01,動(dòng)量因子為0.1,隱藏層個(gè)數(shù)為1,每個(gè)隱藏層節(jié)點(diǎn)數(shù)設(shè)為50。
試驗(yàn)中分別采用基于徑向基核函數(shù)的SVR模型、基于多項(xiàng)式核函數(shù)的SVR模型、BP神經(jīng)網(wǎng)絡(luò)模型對(duì)畜禽物聯(lián)網(wǎng)中氨氣樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),采用MAE、MSE、MAPE、平均運(yùn)行時(shí)間參數(shù)對(duì)3種預(yù)測(cè)模型進(jìn)行效果評(píng)估,結(jié)果如表1所示。
表1 不同預(yù)測(cè)模型評(píng)估結(jié)果Tab.1 Model evaluation results with different prediction models
表1中針對(duì)種豬場(chǎng)氨氣濃度單步預(yù)測(cè)評(píng)估結(jié)果可以看出,SVR模型中多項(xiàng)式核函數(shù)的MAE、MSE、MAPE都比較高,平均用時(shí)過長,明顯不適用于試驗(yàn)樣本數(shù)據(jù)集的預(yù)測(cè);與BP神經(jīng)網(wǎng)絡(luò)模型相比較,基于徑向基核函數(shù)的SVR模型的MAE、MSE、MAPE相對(duì)較低,耗時(shí)較少,預(yù)測(cè)效果更好。
SVR模型中多項(xiàng)式核函數(shù)平均運(yùn)行時(shí)間明顯較長,預(yù)測(cè)均方誤差較高,在后續(xù)試驗(yàn)中主要分析SVR-RBF模型和BP神經(jīng)網(wǎng)絡(luò)模型對(duì)畜禽物聯(lián)網(wǎng)中氨氣樣本數(shù)據(jù)的預(yù)測(cè)效果以及擬合度,其部分結(jié)果如圖3所示。
圖3中針對(duì)種豬場(chǎng)內(nèi)氨氣的單步預(yù)測(cè)結(jié)果中,基于BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果波動(dòng)較大,明顯受異常數(shù)據(jù)影響,容易出現(xiàn)過擬合效果;基于徑向基核函數(shù)的SVR算法的單步預(yù)測(cè)結(jié)果相對(duì)平穩(wěn),受異常數(shù)據(jù)的影響較小,單步預(yù)測(cè)效果更好。
2.3 異常檢測(cè)結(jié)果分析
采用基于徑向基核函數(shù)的SVR模型和BP神經(jīng)網(wǎng)絡(luò)模型對(duì)畜禽物聯(lián)網(wǎng)中的氨氣數(shù)據(jù)進(jìn)行預(yù)測(cè),并設(shè)置置信水平,計(jì)算其置信區(qū)間,置信水平p為95%和99%時(shí)2種模型的部分預(yù)測(cè)結(jié)果如圖4所示。
圖3 2種預(yù)測(cè)模型單步預(yù)測(cè)氨氣結(jié)果Fig.3 One-step-ahead prediction results for NH3 based on SVR-RBF model and BP neural network model
圖4 置信水平分別為95%、99%時(shí)2種模型預(yù)測(cè)氨氣結(jié)果Fig.4 Predicted results for NH3 based on SVR-RBF model and BP neural network model in different confidence levels of 95% and 99%
分別采用基于徑向基核函數(shù)的SVR模型和BP神經(jīng)網(wǎng)絡(luò)模型對(duì)種豬場(chǎng)內(nèi)氨氣樣本數(shù)據(jù)進(jìn)行異常檢測(cè),采用TPR、FPR參數(shù)對(duì)2種預(yù)測(cè)模型進(jìn)行效果評(píng)估,結(jié)果如表2所示。
表2 不同預(yù)測(cè)區(qū)間下檢測(cè)率和誤檢率Tab.2 TPR and FPR with different PIs %
由圖4中針對(duì)畜禽養(yǎng)殖中氨氣數(shù)據(jù)預(yù)測(cè)結(jié)果以及表2中異常數(shù)據(jù)檢測(cè)效果可以看出,置信水平由95%增長到99%,檢測(cè)率和誤檢率都有所下降,為防止出現(xiàn)過擬合現(xiàn)象,取置信水平為95%較為合理;基于SVR模型的數(shù)據(jù)檢測(cè)率達(dá)98.33%,同時(shí)誤檢率低于BP神經(jīng)網(wǎng)絡(luò),檢測(cè)效果較好。
依據(jù)滑動(dòng)窗口計(jì)算方法,采用置信水平為95%,核函數(shù)為徑向基核函數(shù)的SVR模型對(duì)溫度、粉塵、硫化氫等其他畜禽養(yǎng)殖環(huán)境因子進(jìn)行異常檢測(cè)試驗(yàn),其中溫度、粉塵采集間隔為5 min,硫化氫采集間隔為3 min,窗口尺寸分別選取15、15、24,異常檢測(cè)率和誤檢率均在98%和3%左右,能夠滿足畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)準(zhǔn)確度的要求。
綜上所述,基于SW-SVR模型的異常數(shù)據(jù)檢測(cè)方法針對(duì)畜禽養(yǎng)殖物聯(lián)網(wǎng)中不同環(huán)境因子的數(shù)據(jù)特征周期和采集頻率不同的情況,獲取最為適合的窗口尺寸,并且訓(xùn)練所需樣本較少,預(yù)測(cè)擬合效果較好,適用于畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流中的實(shí)時(shí)異常數(shù)據(jù)檢測(cè)。
(1)提出了一種基于SW-SVR的異常數(shù)據(jù)檢測(cè)方法,利用滑動(dòng)窗口內(nèi)的歷史數(shù)據(jù)預(yù)測(cè)當(dāng)前時(shí)刻數(shù)據(jù),并計(jì)算預(yù)測(cè)區(qū)間,與實(shí)際測(cè)量值進(jìn)行比對(duì)從而檢測(cè)異常數(shù)據(jù),實(shí)現(xiàn)在線檢測(cè)畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)流中的異常數(shù)據(jù),有效地保證了物聯(lián)網(wǎng)傳感器中的數(shù)據(jù)質(zhì)量;通過對(duì)SVR算法中兩種核函數(shù)進(jìn)行比較,確定最為適合的核函數(shù),達(dá)到較理想的預(yù)測(cè)效果;通過與BP神經(jīng)網(wǎng)絡(luò)算法比較,預(yù)測(cè)效果較好,達(dá)98.33%,且耗時(shí)較短。
(2)提出了滑動(dòng)窗口選擇方法,依據(jù)畜禽物聯(lián)網(wǎng)采集數(shù)據(jù)的特征周期以及采集數(shù)據(jù)頻率,計(jì)算滑動(dòng)窗口尺寸,符合預(yù)測(cè)準(zhǔn)確性以及時(shí)間效率的要求。
1 熊本海,楊振剛,楊亮,等.中國畜牧業(yè)物聯(lián)網(wǎng)技術(shù)應(yīng)用研究進(jìn)展[J].農(nóng)業(yè)工程學(xué)報(bào),2015,31(增刊1):237-246. XIONG Benhai, YANG Zhengang, YANG Liang, et al. Review on application of Internet of Things technology in animal husbandry in China [J]. Transactions of the CSAE,2015,31(Supp.1): 237-246. (in Chinese)
2 熊迎軍,沈明霞,陸明洲,等.溫室無線傳感器網(wǎng)絡(luò)系統(tǒng)實(shí)時(shí)數(shù)據(jù)融合算法[J].農(nóng)業(yè)工程學(xué)報(bào),2012,28(23):160-166. XIONG Yingjun, SHEN Mingxia, LU Mingzhou, et al. Algorithm of real time data fusion for greenhouse WSN system[J]. Transactions of the CSAE, 2012, 28(23): 160-166. (in Chinese)
3 魏芳芳,段青玲,肖曉琰,等.基于支持向量機(jī)的中文農(nóng)業(yè)文本分類技術(shù)研究[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(增刊):174-179.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=2015S029&journal_id=jcsam.DOI:10.6041/j.issn.1000-1298.2015.S0.029. WEI Fangfang, DUAN Qingling, XIAO Xiaoyan, et al. Classification technique of chinese agricultural text information based on SVM[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2015,46(Supp.):174-179. (in Chinese)
4 CHEN N, DUAN Q, WANG J, et al. Development of early-warning model for intensive pig breeding[M].Computer and Computing Technologies in Agriculture VIII, Berlin: Springer International Publishing, 2014.
5 BRANCH J W, GIANNELLA C, SZYMANSKI B, et al. In-network outlier detection in wireless sensor networks[J]. Knowledge and Information Systems, 2013, 34(1): 23-55.
6 ZHANG Y, MERATNIA N, HAVINGA P J M. Distributed online outlier detection in wireless sensor networks using ellipsoidal support vector machine[J]. Ad Hoc Networks, 2013, 11(3):1062-1074.
7 ANSCOMBE F J, GUTTMAN I. Rejection of outliers[J].Technometrics,1960,2(2):123-146.
8 FREEMAN J. Outliers in statistical data(3rd edition)[J]. Journal of the Operational Research Society, 1995, 46(8):1034-1035.
9 TANG J, CHEN Z, FU W C, et al. A robust outlier detection scheme for large data sets[C]∥Pacific-Asia Conference on Knowledge Discovery & Data Mining, 2002:6-8.
10 孟靜,吳錫生.一種基于聚類和快速計(jì)算的異常數(shù)據(jù)挖掘算法[J].計(jì)算機(jī)工程,2013,39(8): 60-63,68. MENG Jing,WU Xisheng. An outlier data mining algorithm based on clustering and rapid calculation[J]. Computer Engineering, 2013, 39(8):60-63, 68. (in Chinese)
11 費(fèi)歡,李光輝.基于K-means聚類的WSN異常數(shù)據(jù)檢測(cè)算法[J].計(jì)算機(jī)工程, 2015, 41(7): 124-128. FEI Huan, LI Guanghui. Abnormal data detection algorithm for WSN based on K-means clustering[J]. Computer Engineering, 2015,41(7):124-128. (in Chinese)
12 HUANG X, ZHAI G, SUI L, et al. Study on the detection of abnormal sounding data based on LS-SVM[J]. Acta Oceanol, 2010, 29(6):115-120.
13 NI Z, WANG F, HU X. Hypercube KNN-based adaptive anomaly detection for wireless sensor networks[C]∥Wireless communication and sensor network: Proceedings of the International Conference on Wireless Communication and Sensor Network(WCSN),2015: 649-657.
14 ZHANG R, ZHOU M, GONG X, et al. Detecting anomaly in data streams by fractal model[J]. World Wide Web, 2015, 18(5):1419-1441.
15 PAN D, LIU D, ZHOU J, et al. Anomaly detection for satellite power subsystem with associated rules based on kernel principal component analysis[J]. Microelectronics Reliability, 2015, 55(9):2082-2086.
16 O’REILLY C, GLUHAK A, IMRAN M A, et al. Anomaly detection in wireless sensor networks in a non-stationary environment[J]. IEEE Communications Surveys & Tutorials, 2014,6(3):1613-1432.
17 何歡.基于概念漂移的異常檢測(cè)技術(shù)研究[D].成都:電子科技大學(xué),2015.
18 HILL D J, MINSKER B S. Anomaly detection in streaming environmental sensor data: a data-driven modeling approach[J]. Environmental Modelling & Software, 2010,25(9):1014-1022.
19 苑進(jìn),胡敏,WANG Kesheng,等.基于高斯過程建模的物聯(lián)網(wǎng)數(shù)據(jù)不確定性度量與預(yù)測(cè)[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(5):265-272.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20150538&journal_id=jcsam. DOI:10.6041/j.issn.1000-1298.2015.05.038. YUAN Jin, HU Min, WANG Kesheng, et al. Uncertainty measurement and prediction of iot data based on Gaussian process modeling[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2015,46(5):265-272. (in Chinese)
20 NELLO C, JOHN S T. Support vector machines[M].Cambridge: Cambridge University Press, 2000.
21 WANG X, PARDALOS P M. A survey of support vector machines with uncertainties[J]. Annals of Data Science, 2014, 1(3):293-309.
22 SUJAY R N, DEKA P C. Support vector machine applications in the field of hydrology: a review[J]. Applied Soft Computing, 2014, 19(6):372-386.
23 YUKIMASA K, HIROSHI M. Sliding window-based support vector regression for predicting micrometeorological data[J]. Expert Systems with Applications 2016,59: 217-225.
24 曾紹華,魏延,唐遠(yuǎn)炎.剔除支持向量回歸中異常數(shù)據(jù)算法[J].重慶大學(xué)學(xué)報(bào):自然科學(xué)版,2012,35(12):120-132. ZENG Shaohua, WEI Yan, TANG Yuanyan. Algorithm of removing outliers in SVR[J]. Journal of Chongqing University:Natural Science Edition, 2012,35(12):120-132. (in Chinese)
25 李丹玲,陳平雁,周鳳麒. 基于線性ν-支持向量回歸機(jī)的異常數(shù)據(jù)檢測(cè)[J].數(shù)理統(tǒng)計(jì)與管理,2011,30(1):59-63. LI Danling, CHEN Pingyan, ZHOU Fengqi.Outlier detection based on linear ν-SVRM[J]. Journal of Applied Statistics and Management,2011,30(1):59-63.(in Chinese)
26 汪旭穎. 基于支持向量回歸機(jī)的油田異常井預(yù)警模型研究[D].大慶:東北石油大學(xué),2015.
27 SONG S X, ZHANG A Q, WANG J M, et al. SCREEN: stream data cleaning under speed constraints[C]∥Proceedings of the 2015 ACM SIGMOD Conference, 2015:827-841.
28 CAO L, YANG D, WANG Q, et al. Scalable distance-based outlier detection over high-volume data streams[C]∥2014 IEEE 30th International Conference on Data Engineering (ICDE), 2014:76-87.
29 劉京,常慶瑞,劉淼,等.基于SVR算法的蘋果葉片葉綠素含量高光譜反演[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,47(8):260-265,272.http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20160834&journal_id=jcsam. DOI:10.6041/j.issn.1000-1298.2016.08.034. LIU Jing, CHANG Qingrui, LIU Miao, et al. Chlorophyll content inversion with hyperspectral technology for apple leaves based on support vector regression algorithm[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2016,47(8):260-265,272. (in Chinese)
30 孫德山.支持向量機(jī)分類與回歸方法研究[D].長沙:中南大學(xué), 2004.
31 郭虎升,王文劍.動(dòng)態(tài)粒度支持向量回歸機(jī)[J].軟件學(xué)報(bào),2013,24(11):2535-2547. GUO Husheng, WANG Wenjian. Dynamical granular support vector regression machine[J]. Journal of Software,2013,24(11): 2535-2547. (in Chinese)
Anomaly Data Real-time Detection Method of Livestock Breeding Internet of Things Based on SW-SVR
DUAN Qingling1,2XIAO Xiaoyan1LIU Yiran1ZHANG Lu1
(1.CollegeofInformationandElectricalEngineering,ChinaAgriculturalUniversity,Beijing100083,China2.BeijingEngineeringResearchCenterofAgriculturalInternetofThings,Beijing100097,China)
Due to bad work environment and network transmission failure, it is easy to generate abnormal sensory data in livestock breeding Internet of things system. In order to ensure the quality of sensory data, according to the characteristics of sensory data flow such as periodicity, temporality, infinity, etc., a method was proposed based on sliding window and support vector machines regression (SW-SVR) for livestock breeding Internet of things abnormal sensory data detection in real time. Firstly, the sliding window size was decided according to the characteristic period and sampling frequency of data flow from livestock breeding Internet of things system, and the history data within sliding window was selected as the input value of prediction model. Then, the sensor estimated measurement value at certain moment in livestock breeding Internet of things system was predicted by using SVR model. Finally, the prediction interval (PI) was calculated, and the abnormal sensory data was identified if the sensor actual measurement data fell out of the PI. The abnormal data would be replaced by the predictive data. The abnormal sensory data detection method was tested by data flow from real livestock breeding Internet of things system. Experiment results showed that the mean absolute percent error value of prediction with window size calculated by the sliding window method was 0.188 4. The correct detection rate of abnormal data based on SVR model with radial basis function kernel (RBF kernel) achieved 98%, which had higher accuracy compared with BP neural network (BPNN) method. Abnormal data can be effectively detected and treated in livestock breeding Internet of things system.
anomaly data detection; livestock breeding internet of things; sliding window; support vector machines for regression
10.6041/j.issn.1000-1298.2017.08.017
2016-12-14
2017-01-16
國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)項(xiàng)目(2013AA102306)和山東省自主創(chuàng)新項(xiàng)目(2014XGA13054)
段青玲(1967—),女,教授,博士,主要從事智能信息處理研究,E-mail: dqling@cau.edu.cn
TP274+.2; TP393.03
A
1000-1298(2017)08-0159-07