• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      試析可信評估下農(nóng)業(yè)物聯(lián)網(wǎng)異常數(shù)據(jù)檢測及補(bǔ)值

      2023-09-16 02:36:00王飛鴻
      中國科技縱橫 2023年13期
      關(guān)鍵詞:馬氏聯(lián)網(wǎng)距離

      王飛鴻

      (國立政治大學(xué),中國臺北 11656)

      0 引言

      目前,我國正在大力推進(jìn)智能農(nóng)業(yè)的發(fā)展,將物聯(lián)網(wǎng)技術(shù)應(yīng)用于農(nóng)業(yè)生產(chǎn)的各個領(lǐng)域,將其優(yōu)勢發(fā)揮到極致,例如,通過遠(yuǎn)程實時監(jiān)測和管理農(nóng)產(chǎn)品的環(huán)境因子,可以大大提高我國農(nóng)業(yè)的現(xiàn)代化水平。但在數(shù)據(jù)傳送過程中,可能出現(xiàn)數(shù)據(jù)不正?;騺G失的狀況,或在傳送時出現(xiàn)一系列的數(shù)據(jù)空白,必須對該缺失值進(jìn)行數(shù)據(jù)補(bǔ)充。對缺失值的預(yù)測不但能保證數(shù)據(jù)的可靠性和完整性,而且還能為后續(xù)的數(shù)據(jù)處理及分析提供全面的數(shù)據(jù)基礎(chǔ)。

      1 農(nóng)業(yè)物聯(lián)網(wǎng)異常數(shù)據(jù)檢測

      1.1 農(nóng)業(yè)物聯(lián)網(wǎng)結(jié)構(gòu)

      針對當(dāng)前的物聯(lián)網(wǎng)系統(tǒng)框架,結(jié)合當(dāng)前的農(nóng)業(yè)工業(yè)系統(tǒng),將其分為5 個層級。自下而上劃分為感知層、接入層、網(wǎng)絡(luò)層、數(shù)據(jù)層和應(yīng)用層,農(nóng)業(yè)物聯(lián)網(wǎng)架構(gòu)如圖1 所示[1]。

      圖1 農(nóng)業(yè)物聯(lián)網(wǎng)架構(gòu)

      1.2 數(shù)據(jù)異常檢測

      數(shù)據(jù)的異常檢測,可以分為異常點檢測、新穎點檢測、偏差檢測、離群點檢測以及隔離點檢測。數(shù)據(jù)丟失、不正常數(shù)據(jù)等均屬于異常情況[2]。所謂“數(shù)據(jù)丟失”就是在獲取的時候,因為某些因素而失去了信息。在實際中,因為一些特殊因素,會出現(xiàn)遺漏信息的現(xiàn)象,造成數(shù)據(jù)丟失的因素很多,主要有以下幾種。在農(nóng)業(yè)領(lǐng)域中,數(shù)據(jù)的傳遞會造成信息的滯后,從而導(dǎo)致信息不能及時地進(jìn)行更新。數(shù)據(jù)的遺漏有一定的主觀原因,比如因為注冊的人不小心,忽略了數(shù)據(jù)的錄入,也有一些客觀原因,比如裝置發(fā)生了問題,比如終端的電源不足,又比如被其他的無線電信號所影響,導(dǎo)致了數(shù)據(jù)的遺失和差錯,從而忽略了信息。一些特性不能被使用,或被主觀地視為無用。

      2 可信評估下農(nóng)業(yè)物聯(lián)網(wǎng)異常數(shù)據(jù)檢測方法

      2.1 數(shù)據(jù)異常檢測方法

      在進(jìn)行異常檢測時,目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)集與其他數(shù)據(jù)或異常數(shù)據(jù)有何區(qū)別。通常,數(shù)據(jù)異常檢測算法按照檢測方法分為4 種:基于統(tǒng)計的異常檢測算法、基于聚類的異常檢測算法、基于密度的異常檢測算法、基于距離的異常檢測算法。

      利用統(tǒng)計技術(shù)對異常數(shù)據(jù)進(jìn)行檢測,首先建立一個隨機(jī)的概率分布模型,它可以是正態(tài)分布或者是泊松分布,然后計算集上的每一個符合模型數(shù)據(jù)的概率,在列出了這些概率后,將部分概率較低的數(shù)據(jù)判定為異常數(shù)據(jù)。利用聚類技術(shù)對離群點進(jìn)行識別,聚類是把具有相似性的數(shù)據(jù)分成不同的類別,經(jīng)過聚類運(yùn)算,當(dāng)有異常數(shù)據(jù)時,會發(fā)現(xiàn)有一個或多個集群的樣本數(shù)據(jù)非常稀少,并且與其他集群的平均偏差也有很大的差別[3]?;诰嚯x的異常探測技術(shù),首先需確定數(shù)據(jù)間的距離,然后計算出數(shù)據(jù)的間距,如果距離接近,就是普通的數(shù)據(jù),當(dāng)距離超過一定的范圍時,就會被稱為“離群點”。距離異常檢測雖然簡單,但與其他方法相比,其耗時更長。利用密度對異常數(shù)據(jù)進(jìn)行探測,是以距離為基礎(chǔ),通過將各點間的間距與數(shù)量相結(jié)合,得到的數(shù)據(jù)密度?;诿芏鹊漠惓z測方法可以很好地識別局部異常,但由于這種方法是基于距離的異常檢測,其計算復(fù)雜度較高。

      2.2 缺失數(shù)據(jù)的處理方法

      缺少了數(shù)據(jù),就會造成有價值數(shù)據(jù)的損失,無法保證分析的完整性和可靠性,從而影響到后續(xù)的數(shù)據(jù)信息分析。其次可能會導(dǎo)致計算過程出現(xiàn)混亂,計算結(jié)果錯誤。因此,有必要對丟失的數(shù)據(jù)進(jìn)行相應(yīng)的處理,關(guān)于缺失值的處理方法有以下幾種。直接刪除,將丟失的數(shù)據(jù)中的相應(yīng)屬性剔除,從而獲得沒有遺漏的信息。不做處理,只保存有數(shù)據(jù)遺漏的信息表格,不采取其他操作。預(yù)測值插補(bǔ)能夠利用自身和其它傳感器節(jié)點的數(shù)據(jù),對該缺失的數(shù)據(jù)進(jìn)行預(yù)測,從而完成補(bǔ)值[4]。

      3 可信評估下農(nóng)業(yè)物聯(lián)網(wǎng)數(shù)據(jù)補(bǔ)值的相關(guān)方法

      3.1 均值插補(bǔ)法

      均值插補(bǔ)是用一組數(shù)據(jù)中最常發(fā)生的數(shù)據(jù)來填補(bǔ)遺漏數(shù)據(jù)。有學(xué)者提出用平均相似性來對其進(jìn)行間接信任,用平均相似性對其進(jìn)行計算,其信任度是用平均法直接計算的,當(dāng)專家的信任度與平均值相近時,其可信程度就會增加。這種方法在填補(bǔ)缺失值時,由于不能確定標(biāo)準(zhǔn)偏差的大小,如果標(biāo)準(zhǔn)偏差很大,會造成很大的偏差。

      3.2 隨機(jī)插補(bǔ)法

      從現(xiàn)有數(shù)據(jù)中隨機(jī)選取同一性質(zhì)的數(shù)據(jù),進(jìn)行遺漏數(shù)據(jù)的填補(bǔ)。有學(xué)者將LIN 算法與MR 方法相結(jié)合,提出了基于同一屬性的LIN 算法,并將LIN 算法與MR 方法相結(jié)合,LIN 算法是通過與該缺失值的鄰接時間相對應(yīng)的值,來預(yù)測目前的缺失值。由于時間上的差異較大,這種方法的計算結(jié)果也會有很大的偏差,而且該方法需要依賴于時間和空間上的數(shù)據(jù),因而對時間和數(shù)據(jù)的依賴程度很高。

      3.3 回歸插補(bǔ)法

      通過采用多元線性回歸,建立了丟失數(shù)據(jù)與其他數(shù)據(jù)的聯(lián)系,并通過迭代逐步減小目標(biāo)與實際值的偏差,實現(xiàn)了對缺失數(shù)據(jù)的補(bǔ)充。MR 算法是一種基于多變量線性回歸的方法,該算法利用鄰近接觸點的數(shù)據(jù),采用多元線性回歸法對目前的缺失值進(jìn)行預(yù)測。KMRA 方法將空間和時間屬性結(jié)合起來,采用時間屬性和空間屬性的KNN 方法對其進(jìn)行評估,然后將兩個屬性的預(yù)測值統(tǒng)一起來。在采用多元線性回歸方法進(jìn)行空間屬性計算時,由于要確定節(jié)點的數(shù)量和位置,會導(dǎo)致計算工作量偏大。

      4 可信評估下農(nóng)業(yè)物聯(lián)網(wǎng)異常數(shù)據(jù)檢測及補(bǔ)值應(yīng)用

      4.1 農(nóng)業(yè)物聯(lián)網(wǎng)異常數(shù)據(jù)檢測系統(tǒng)

      馬田系統(tǒng)在農(nóng)業(yè)物聯(lián)網(wǎng)中的應(yīng)用,利用馬氏距離對正常和非正常樣本進(jìn)行馬氏抽樣,然后利用正交表和信噪比對特征參數(shù)進(jìn)行篩選,實現(xiàn)了對數(shù)據(jù)的降維,并利用f 極大值法求出了閾值[5]。提出了一種基于農(nóng)業(yè)物聯(lián)網(wǎng)的異常數(shù)據(jù)分類標(biāo)準(zhǔn),并建立了一個農(nóng)業(yè)異常數(shù)據(jù)檢測系統(tǒng),為有異常情況的數(shù)據(jù)進(jìn)行相應(yīng)的補(bǔ)強(qiáng)。馬田系統(tǒng)包括了馬氏距離法和田口法。馬氏距離不僅是一種測量距離的方法,也是一種用來描述數(shù)據(jù)之間的協(xié)方差距離的方法。這是考慮到了各屬性間的相互關(guān)系,而不涉及數(shù)據(jù)的計量單元。馬氏距離是用來區(qū)別正常和異常的,在馬氏空間中使用田口法的正交表和信噪比,從而得到最優(yōu)的特征值,減少后續(xù)計算的復(fù)雜性。在馬氏空間中,對異常和常規(guī)數(shù)據(jù)分別進(jìn)行閾值分割,在出現(xiàn)新的樣本數(shù)據(jù)時,可以根據(jù)已有的門限,對其進(jìn)行分類和預(yù)測。在馬田系統(tǒng)中,對異常數(shù)據(jù)進(jìn)行了分割,在不信任的情況下,對不可信的異常進(jìn)行了補(bǔ)足[6]。

      4.2 馬氏空間的驗證與優(yōu)化

      因為馬氏空間是用普通的樣本來構(gòu)造的,因此馬氏空間的有效性還有待驗證,如果馬氏空間可以分辨出正常和不正常的數(shù)據(jù),就說明這個馬氏空間是有效的,否則就必須重建。在進(jìn)行馬氏空間驗證時,首先要對異常數(shù)據(jù)的馬氏距離進(jìn)行平均,然后將其與馬氏距離平均值進(jìn)行對比,若馬氏間距高于正常值,則表示馬氏空間的建立是可行的。在對馬氏距離進(jìn)行計算時,使用的采樣平均值和標(biāo)準(zhǔn)偏差都是通過正常的采樣獲得的。馬氏空間對異常數(shù)據(jù)進(jìn)行了規(guī)范化處理,并采用馬氏空間的施密特正交化方法構(gòu)造了異常數(shù)據(jù)。若馬氏空間比異常值馬氏空間小得多,則表明馬氏空間是有效的,否則要重建馬氏空間,重新選取樣本數(shù)據(jù)。

      選取的所有初始變數(shù),并非全部都參與了異常檢測,因此在建立馬氏空間后,需要對馬氏空間進(jìn)行優(yōu)化,這樣既可以減少數(shù)據(jù)維度,又可以減少后續(xù)運(yùn)算的復(fù)雜性。信噪比既可以對篩選后的特征變量進(jìn)行可靠度、魯棒性評估,也可以對篩選出的特征變量進(jìn)行功能評估。在評估異常數(shù)據(jù)時,對于不熟悉的數(shù)據(jù),與一般數(shù)據(jù)的偏差愈大,愈有利于數(shù)據(jù)的識別。信息增益值愈大,表示此特性變項在馬氏數(shù)據(jù)分類及判別上的作用愈大,故應(yīng)依據(jù)資訊增益值,選取具有較高貢獻(xiàn)的特征量,建立馬氏空間,從而實現(xiàn)數(shù)據(jù)降維。

      4.3 馬氏空間的應(yīng)用

      在利用馬田系統(tǒng)進(jìn)行數(shù)據(jù)分析之前,首先要對原始數(shù)據(jù)進(jìn)行處理,然后再利用該系統(tǒng)的特征矢量。在采集到的農(nóng)業(yè)數(shù)據(jù)中,將各傳感器節(jié)點所獲得的數(shù)據(jù)視為多維系統(tǒng),因此,可以將從農(nóng)業(yè)物聯(lián)網(wǎng)獲取的數(shù)據(jù)視為一組多維的數(shù)據(jù)。利用馬氏系統(tǒng)的時序數(shù)據(jù),選取土壤溫度、土壤濕度、風(fēng)速、空氣濕度、空氣濕度、光照強(qiáng)度、氣壓等七個參數(shù),對農(nóng)業(yè)數(shù)據(jù)進(jìn)行統(tǒng)計分析。這個樣本的特征是指在正常條件下,農(nóng)業(yè)作物的生長需要的外界條件。程序采用python 編程,采用施密特正交表對7 個特征變量進(jìn)行了歸一化,得出馬氏距離為1 左右。

      在作物生長的條件中,環(huán)境因素對作物的生長有很大的影響。正常情況下,莊稼都可以正常地生長,但是如果出現(xiàn)了異常,很有可能會導(dǎo)致莊稼的死亡。在此基礎(chǔ)上,采用人工方法對非正常狀態(tài)進(jìn)行仿真,從而對農(nóng)業(yè)生產(chǎn)造成一定的影響。為了讓數(shù)據(jù)恢復(fù)到真實的狀態(tài),可以通過仿真數(shù)據(jù)采集、終端節(jié)點斷電、攻擊節(jié)點、發(fā)送數(shù)據(jù)超時等方式。選擇50 個異常的數(shù)據(jù),異常樣本的馬氏間距為7.366,即異常樣本的馬氏距離比正常樣本的馬氏間距要大得多,可見用普通樣本建立馬氏空間的方法是可行的。然而,如果馬氏距離和正常馬氏距離之間的差距很小,就必須重新選取正常的數(shù)據(jù),以建立馬氏空間[7]。

      4.4 補(bǔ)值方法

      對于丟失的數(shù)據(jù),采用 ARIMA 算法進(jìn)行時間屬性的補(bǔ)漏,并根據(jù)以往的歷史數(shù)據(jù)進(jìn)行補(bǔ)漏;另外,給出了基于 MLRTA 的信任屬性補(bǔ)足方法,并通過信任節(jié)點的數(shù)據(jù)來彌補(bǔ)目前的缺損。最后,將時間的補(bǔ)充性與信任的補(bǔ)充性相結(jié)合,利用權(quán)重的分布來實現(xiàn)。與LIN、 KMRA 進(jìn)行了比較,結(jié)果表明,ARIMA-MLRTA 方法的錯誤率較低,精度較高。

      5 結(jié)語

      在農(nóng)業(yè)物聯(lián)網(wǎng)中,經(jīng)常會發(fā)生一些數(shù)據(jù)不正常的現(xiàn)象,在進(jìn)行無線通信時,終端節(jié)點可能會因為網(wǎng)絡(luò)本身的特性,或是網(wǎng)絡(luò)的部署環(huán)境,產(chǎn)生這種現(xiàn)象。在農(nóng)業(yè)物聯(lián)網(wǎng)領(lǐng)域,存在著因電池電量限制、無線干擾等突發(fā)事件而造成的數(shù)據(jù)異常、丟失等問題。因此,如何對監(jiān)測樣本進(jìn)行異常數(shù)據(jù)檢測,并對異常數(shù)據(jù)以及丟失數(shù)據(jù)進(jìn)行補(bǔ)值是非常必要的。

      猜你喜歡
      馬氏聯(lián)網(wǎng)距離
      “身聯(lián)網(wǎng)”等五則
      一類時間變換的強(qiáng)馬氏過程
      有環(huán)的可逆馬氏鏈的統(tǒng)計確認(rèn)
      關(guān)于樹指標(biāo)非齊次馬氏鏈的廣義熵遍歷定理
      算距離
      搶占物聯(lián)網(wǎng)
      通信世界(2018年27期)2018-10-16 09:02:56
      一致可數(shù)可加馬氏鏈不變測度的存在性
      每次失敗都會距離成功更近一步
      山東青年(2016年3期)2016-02-28 14:25:55
      愛的距離
      母子健康(2015年1期)2015-02-28 11:21:33
      可再生能源與物聯(lián)網(wǎng)
      風(fēng)能(2015年10期)2015-02-27 10:15:34
      邯郸市| 东乡族自治县| 民丰县| 临颍县| 诸城市| 林州市| 凤翔县| 台中县| 阿巴嘎旗| 吉林省| 江山市| 都昌县| 万安县| 满城县| 寿阳县| 尚志市| 乌兰浩特市| 禄丰县| 泽库县| 凤山市| 天津市| 银川市| 师宗县| 宁陵县| 五大连池市| 漠河县| 锦州市| 雅江县| 日照市| 大庆市| 米林县| 新宁县| 涟水县| 且末县| 微山县| 盘山县| 阳泉市| 台北县| 航空| 韶山市| 宿州市|