• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      土壤屬性數(shù)據(jù)pH缺失的插補(bǔ)方法①

      2021-01-22 05:43:56張逸飛
      關(guān)鍵詞:屬性數(shù)據(jù)補(bǔ)法神經(jīng)網(wǎng)絡(luò)

      張逸飛,曹 佳

      1(北京林業(yè)大學(xué) 信息學(xué)院,北京 100083)

      2(國(guó)家林業(yè)草原林業(yè)智能信息處理工程技術(shù)研究中心,北京 100083)

      1 引言

      土壤是農(nóng)業(yè)生產(chǎn)和人類(lèi)活動(dòng)中最重要的物質(zhì)基礎(chǔ),土壤屬性數(shù)據(jù)是分析土壤理化性質(zhì)和指導(dǎo)農(nóng)作物種植的重要參考[1].土壤pH 是土壤屬性數(shù)據(jù)中的重要部分,土壤酸堿化會(huì)影響土壤性質(zhì)及微量元素的有效性,直接或間接改變土壤肥力,對(duì)植物生長(zhǎng)發(fā)育造成影響[2].然而由于各種原因,在土壤普查的過(guò)程中存在土壤pH 缺失的情況.本文將基于數(shù)據(jù)分析的方法,研究土壤數(shù)據(jù)集的pH 缺失值的填充方法.

      對(duì)于土壤屬性數(shù)據(jù)缺失的處理,國(guó)際應(yīng)用系統(tǒng)分析協(xié)會(huì)(IIASA)的和諧世界土壤數(shù)據(jù)庫(kù)(HWSD)中采用擁有相同土壤類(lèi)型的最適合的鄰居單元的土壤屬性數(shù)據(jù)來(lái)替代缺失值[3].韓光中等人運(yùn)用了傳統(tǒng)的土壤屬性推繹模型,通過(guò)逐步回歸方法對(duì)土壤屬性建立土壤傳遞函數(shù),插補(bǔ)了容重、速效養(yǎng)分、CEC 和氧化鐵的缺失值[4].沈漢靈運(yùn)用灰色關(guān)聯(lián)系數(shù)法,挖掘土壤屬性之間的關(guān)聯(lián)關(guān)系,構(gòu)建經(jīng)驗(yàn)公式來(lái)插補(bǔ)土壤鹽基飽和度[5].Gargiulo 等人使用基于條件分布模型的多元回歸方法,歸納土壤屬性數(shù)據(jù)之間的經(jīng)驗(yàn)公式,預(yù)測(cè)土壤屬性數(shù)據(jù)的缺失值.該方法考慮變量之間的相關(guān)性問(wèn)題,在預(yù)測(cè)土壤質(zhì)地、容重等屬性時(shí)表現(xiàn)很好,但不能很好插補(bǔ)pH 數(shù)據(jù)[6].專(zhuān)門(mén)針對(duì)土壤屬性數(shù)據(jù)pH 缺失值插補(bǔ)的具體研究較少.

      數(shù)據(jù)缺失問(wèn)題是一個(gè)常見(jiàn)的計(jì)算問(wèn)題,常用的缺失數(shù)據(jù)處理方法是插補(bǔ)法,即采用一個(gè)替代值填補(bǔ)樣本中的缺失數(shù)據(jù),使填補(bǔ)后的數(shù)據(jù)與已有數(shù)據(jù)集的分布一致.多元回歸插補(bǔ)法運(yùn)用數(shù)據(jù)自變量與因變量之間的關(guān)系進(jìn)行插補(bǔ),線性插補(bǔ)法比均值填補(bǔ)法在環(huán)境數(shù)據(jù)集上填補(bǔ)缺失值有更優(yōu)的表現(xiàn)[7].Schafer 在的EM(Expectation Maximization)算法的基礎(chǔ)上,研究了多重插補(bǔ)法的應(yīng)用[8].隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,運(yùn)用機(jī)器學(xué)習(xí)方法處理缺失數(shù)據(jù)近幾年引起了研究者們的廣泛關(guān)注.Jerez 等運(yùn)用乳腺癌的真實(shí)數(shù)據(jù),比較了機(jī)器學(xué)習(xí)插補(bǔ)法和統(tǒng)計(jì)學(xué)插補(bǔ)法,認(rèn)為機(jī)器學(xué)習(xí)插補(bǔ)法在處理高維數(shù)據(jù)時(shí)有顯著的優(yōu)勢(shì)[9].KNN 及其改進(jìn)算法運(yùn)用本身的K個(gè)具有完整值的最近鄰居實(shí)現(xiàn)對(duì)缺失數(shù)據(jù)的插補(bǔ),由于操作簡(jiǎn)單被廣泛運(yùn)用[10].徐凱等將隨機(jī)森林回歸預(yù)測(cè)算法運(yùn)用在地震插值中,結(jié)果表明隨機(jī)森林插補(bǔ)方法能夠很好補(bǔ)全缺失信息,而且數(shù)據(jù)差異性較小[11].吳郁等比較了Logistic 回歸、Probit 回歸、樸素貝葉斯和隨機(jī)森林方法在船舶交通事故數(shù)據(jù)集上的應(yīng)用,并證明了隨機(jī)森林方法插補(bǔ)缺失值的精度更優(yōu)[12].朱夢(mèng)成等將SVM 算法應(yīng)用于處理醫(yī)療數(shù)據(jù)和社會(huì)調(diào)查數(shù)據(jù)中,處理分類(lèi)數(shù)據(jù)和連續(xù)型數(shù)據(jù)的缺失值[13].謝曉凱等運(yùn)用BP 神經(jīng)網(wǎng)絡(luò)建立空間結(jié)構(gòu)中測(cè)點(diǎn)應(yīng)力間、溫度與應(yīng)力間的相關(guān)關(guān)系模型,并對(duì)其進(jìn)行了適用性分析[14].

      本文針對(duì)土壤屬性數(shù)據(jù)pH 的缺失問(wèn)題,將對(duì)比多元回歸、KNN、隨機(jī)森林、SVM 和神經(jīng)網(wǎng)絡(luò)5 個(gè)插補(bǔ)方法,從而選取插補(bǔ)正確率最高的方法.

      2 研究方法

      由于土壤屬性數(shù)據(jù)中全是數(shù)值型連續(xù)變量,以下介紹多元回歸、K 最近鄰、隨機(jī)森林、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)共五種方法插補(bǔ)數(shù)值型連續(xù)變量的原理,以及缺失值插補(bǔ)方法的評(píng)價(jià)方法.

      2.1 多元回歸插補(bǔ)法

      多元回歸插補(bǔ)法(Multiple Regression,MR)考慮到變量之間的線性相關(guān)性,運(yùn)用回歸模型預(yù)測(cè)缺失值.插補(bǔ)缺失數(shù)據(jù)時(shí),引入隨機(jī)殘差項(xiàng)與插補(bǔ)值相加,作為最終插補(bǔ)結(jié)果,使多元回歸插補(bǔ)法插補(bǔ)的缺失數(shù)據(jù)不會(huì)扭曲樣本的分布.

      2.2 K 最近鄰插補(bǔ)法

      K 最近鄰插補(bǔ)法(K-Nearest Neighbor,KNN)運(yùn)用數(shù)據(jù)集中每條樣本的完整屬性,計(jì)算缺失數(shù)據(jù)樣本與完整數(shù)據(jù)樣本之間的距離.在所有完整數(shù)據(jù)樣本中,選擇與目標(biāo)缺失數(shù)據(jù)樣本最小的K個(gè)數(shù)據(jù)樣本作為目標(biāo)缺失樣本的最近鄰.最后利用這K個(gè)數(shù)據(jù)樣本的缺失屬性的平均值來(lái)插補(bǔ)目標(biāo)缺失樣本中的缺失值.

      2.3 隨機(jī)森林插補(bǔ)法

      隨機(jī)森林的思想是通過(guò)Bootstrap 抽樣技術(shù),有放回的在原始訓(xùn)練集上獲得N個(gè)子訓(xùn)練集,然后在這N個(gè)子訓(xùn)練集的基礎(chǔ)上分別構(gòu)建回歸樹(shù),組合得到隨機(jī)森林模型.當(dāng)輸出是連續(xù)型變量時(shí),其基礎(chǔ)是CART 回歸樹(shù)算法.CART 算法使用Gini 指數(shù)來(lái)度量隨機(jī)變量的不確定度的大小,以此選擇劃分屬性.

      2.4 支持向量機(jī)插補(bǔ)法

      采用SVM 回歸模型插補(bǔ)連續(xù)型數(shù)據(jù).SVM 回歸模型的優(yōu)化問(wèn)題是構(gòu)造精度高、復(fù)雜性低的模擬函數(shù)來(lái)擬合真實(shí)樣本數(shù)據(jù).模型引入損失函數(shù)來(lái)量化模型的預(yù)測(cè)值和樣本的真實(shí)值的差距,懲罰參數(shù)判斷預(yù)測(cè)模型擬合的好壞.

      2.5 神經(jīng)網(wǎng)絡(luò)插補(bǔ)法

      神經(jīng)網(wǎng)絡(luò)(neural networks)在系統(tǒng)建模與非線性映射方面具有很強(qiáng)的適用性,因此可以認(rèn)為是缺失數(shù)據(jù)插補(bǔ)的有效手段.在眾多的神經(jīng)網(wǎng)絡(luò)當(dāng)中,反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)由于其較高的穩(wěn)定性和精度被廣泛運(yùn)用.BP 神經(jīng)網(wǎng)絡(luò)通過(guò)誤差反饋傳播算法,建立輸入與相應(yīng)輸出之間的映射關(guān)系,從而建立缺失數(shù)據(jù)的預(yù)測(cè)模型

      2.6 缺失數(shù)據(jù)插補(bǔ)方法的評(píng)價(jià)方法

      在進(jìn)行插補(bǔ)方法的評(píng)價(jià)時(shí),為了避免計(jì)算出的插補(bǔ)數(shù)據(jù)沒(méi)有參照,選取土壤完整屬性數(shù)據(jù)樣本中的數(shù)據(jù),按照一定缺失比例使屬性數(shù)據(jù)pH 缺失,生成對(duì)應(yīng)的缺失屬性數(shù)據(jù)樣本.其中,生成的缺失屬性數(shù)據(jù)樣本數(shù)量為N,yi表示第i條屬性數(shù)據(jù)pH 的真實(shí)值,y?i表示其插補(bǔ)值.

      (1)擬合優(yōu)度

      采用決定系數(shù)R2(coefficient of determination)用于判斷真實(shí)值和插補(bǔ)值的擬合優(yōu)度,其取值范圍是[0,1].其值越接近于1 代表變量之間有更好的擬合.決定系數(shù)的計(jì)算公式如下:

      其中,SSR(Regression Sum of Squares)稱(chēng)為回歸平方和,SST(Total Sum of Squares)稱(chēng)為總平方和.對(duì)于簡(jiǎn)單線性回歸而言,決定系數(shù)為樣本相關(guān)系數(shù)的平方[15],即有:

      其中,σy和分別是pH 真實(shí)值和插補(bǔ)值的標(biāo)準(zhǔn)差.

      (2)插補(bǔ)誤差

      本文采用平均絕對(duì)誤差(Mean Absolute Error,MAE)與均方根誤差(Root Mean Square Error,RMSE)來(lái)反映了真實(shí)值與插補(bǔ)值之間的誤差,它們的值越小,代表插補(bǔ)值與真實(shí)值越接近,插補(bǔ)方法對(duì)數(shù)據(jù)集的插補(bǔ)效果越好.

      3 結(jié)果與分析

      3.1 數(shù)據(jù)說(shuō)明

      在一條土壤屬性數(shù)據(jù)樣本中,如果一條樣本中包含所有監(jiān)測(cè)的土壤屬性,稱(chēng)為完整屬性數(shù)據(jù)樣本,否則稱(chēng)為缺失屬性數(shù)據(jù)樣本.本文數(shù)據(jù)來(lái)自于中國(guó)科學(xué)院南京土壤研究所“中國(guó)主要農(nóng)田生態(tài)系統(tǒng)土壤養(yǎng)分?jǐn)?shù)據(jù)庫(kù)(1990-2006)”[16].本文采用該數(shù)據(jù)庫(kù)中砂粒含量、粉粒含量、容重平均值、容重標(biāo)準(zhǔn)差、有機(jī)質(zhì)、全氮、全磷、全鉀和pH 共9 個(gè)屬性為分析對(duì)象,選取458 條土壤數(shù)據(jù)樣本,其中完整屬性數(shù)據(jù)樣本148 條,僅缺失pH 屬性數(shù)據(jù)樣本310 條.

      本文采用交叉驗(yàn)證法對(duì)土壤數(shù)據(jù)缺失數(shù)據(jù)的插補(bǔ)結(jié)果進(jìn)行評(píng)估.在148 條土壤的完整屬性數(shù)據(jù)樣本中,通過(guò)隨機(jī)剔除屬性數(shù)據(jù)pH 的方法,以不同的比例分別構(gòu)造訓(xùn)練集和驗(yàn)證集.例如,在完整屬性數(shù)據(jù)樣本中隨機(jī)剔除10%的屬性數(shù)據(jù)pH 產(chǎn)生缺失屬性數(shù)據(jù)樣本作為驗(yàn)證集,其余完整屬性數(shù)據(jù)樣本為訓(xùn)練集;以此再以20%,30%,40%,50%,60%和70%的比例分別構(gòu)造6 對(duì)訓(xùn)練集和驗(yàn)證集.插補(bǔ)方法運(yùn)用各訓(xùn)練集來(lái)建立對(duì)應(yīng)的缺失數(shù)據(jù)的插補(bǔ)模型,驗(yàn)證集用來(lái)調(diào)節(jié)各方法的參數(shù),選擇具有最小泛化誤差的模型作為最終模型.我們將310 條pH 有缺失的數(shù)據(jù)構(gòu)成測(cè)試集,用來(lái)最終評(píng)估模型對(duì)缺失數(shù)據(jù)的插補(bǔ)效果.

      3.2 各方法的最佳參數(shù)的設(shè)置

      采用不同的插補(bǔ)方法,在訓(xùn)練集樣本分別建立不同的缺失值插補(bǔ)模型,運(yùn)用對(duì)應(yīng)的驗(yàn)證集對(duì)方法的參數(shù)進(jìn)行最優(yōu)化調(diào)參.本文分別選取各方法的部分主要參數(shù)進(jìn)行調(diào)節(jié),采用網(wǎng)格搜索算法選出各方法的最優(yōu)參數(shù).經(jīng)過(guò)調(diào)研,在KNN 方法中,調(diào)節(jié)待插補(bǔ)樣本的最近鄰居數(shù)量K值[17];在隨機(jī)森林方法中,調(diào)節(jié)控制生成一棵決策樹(shù)所隨機(jī)選取的屬性特征數(shù)量和最終生成的決策樹(shù)數(shù)[18];在SVM 方法中,采用RBF 核函數(shù),調(diào)節(jié)核參數(shù)和誤差懲罰因子[19];在BP 神經(jīng)網(wǎng)絡(luò)方法中,調(diào)節(jié)網(wǎng)絡(luò)的隱含層節(jié)點(diǎn)數(shù)量、學(xué)習(xí)速率、優(yōu)化算法、最大訓(xùn)練次數(shù)、dropout 比例、期望誤差和各層神經(jīng)元的激活函數(shù)[20].通過(guò)在上述驗(yàn)證集上訓(xùn)練進(jìn)行調(diào)參,得到不同方法在中國(guó)主要農(nóng)田生態(tài)系統(tǒng)土壤養(yǎng)分?jǐn)?shù)據(jù)庫(kù)上建立插補(bǔ)模型插補(bǔ)土壤屬性數(shù)據(jù)pH 時(shí)的最佳參數(shù)如表1.

      3.3 插補(bǔ)方法對(duì)比

      針對(duì)中國(guó)主要農(nóng)田生態(tài)系統(tǒng)土壤養(yǎng)分?jǐn)?shù)據(jù)庫(kù)中屬性屬性pH 缺失的問(wèn)題,在對(duì)應(yīng)缺失率的驗(yàn)證集上,5 個(gè)具有最優(yōu)化參數(shù)的方法構(gòu)造的模型所得的插補(bǔ)結(jié)果的平均絕對(duì)誤差MAE、均方根誤差RMSE和決定系數(shù)R2如圖1所示.

      表1 不同插補(bǔ)方法的最優(yōu)參數(shù)選擇

      圖1 不同插補(bǔ)方法的實(shí)驗(yàn)結(jié)果對(duì)比

      由圖1可知,隨著缺失率的增加,KNN、隨機(jī)森林和支持向量機(jī)的插補(bǔ)效果均呈下降趨勢(shì).其中,KNN和隨機(jī)森林的插補(bǔ)效果波動(dòng)性較小.在缺失率10%~20%時(shí),KNN 方法表現(xiàn)更好,在缺失率40%時(shí),隨機(jī)森林方法表現(xiàn)更好,其他情況下兩方法的評(píng)價(jià)指標(biāo)均較為接近.SVM 方法插補(bǔ)效果受缺失率影響較大,隨著缺失率的增加,該方法的插補(bǔ)效果越來(lái)越差.多元回歸方法插補(bǔ)缺失數(shù)據(jù)在缺失為40%時(shí)插補(bǔ)效果最優(yōu).該方法插補(bǔ)缺失值的表現(xiàn)隨著缺失率的增加,先增加后下降,此結(jié)論與文獻(xiàn)[7]一致.神經(jīng)網(wǎng)絡(luò)插補(bǔ)效果的波動(dòng)性較大,在缺失率為20%時(shí)插補(bǔ)效果較好.

      由評(píng)價(jià)指標(biāo)可知,在任何缺失率下,多元回歸、SVM和神經(jīng)網(wǎng)絡(luò)插補(bǔ)屬性數(shù)據(jù)pH 時(shí),插補(bǔ)能力均較弱.KNN和隨機(jī)森林方法的MAE和RMSE值都是最小,R2值都更接近于1,因此二者的插補(bǔ)效果都是最好的.為了進(jìn)一步對(duì)比KNN 和隨機(jī)森林方法,我們對(duì)中國(guó)主要農(nóng)田生態(tài)系統(tǒng)土壤養(yǎng)分?jǐn)?shù)據(jù)庫(kù)中310 條pH 有缺失的測(cè)試集進(jìn)行插補(bǔ)操作,并且將插補(bǔ)后的數(shù)據(jù)特征與148 條完整數(shù)據(jù)樣本進(jìn)行對(duì)比,結(jié)果如表2所示.從表可見(jiàn),KNN 所得插補(bǔ)后的均值、最大值和最小值更接近完整數(shù)據(jù)樣本更接近完整數(shù)據(jù)樣本,因此KNN 可以更靈活地插補(bǔ)pH 數(shù)據(jù)的最值.

      表2 測(cè)試集和完整數(shù)據(jù)樣本的pH 數(shù)據(jù)特征

      4 結(jié)束語(yǔ)

      針對(duì)土壤屬性數(shù)據(jù)pH 缺失這個(gè)在土壤調(diào)查研究中的常見(jiàn)問(wèn)題,本文從真實(shí)值和插補(bǔ)值的擬合優(yōu)度和插補(bǔ)誤差兩個(gè)方面比較了5 種缺失數(shù)據(jù)插補(bǔ)方法在不同pH 缺失率情況下插補(bǔ)效果.實(shí)驗(yàn)結(jié)果表明,多元回歸、支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)方法不適合用于插補(bǔ)pH數(shù)據(jù).KNN 算法和隨機(jī)森林方法所受數(shù)據(jù)集和缺失率的影響較小,建立的模型表現(xiàn)穩(wěn)定,兩者均適合用于土壤屬性數(shù)據(jù)pH 值的插補(bǔ).

      猜你喜歡
      屬性數(shù)據(jù)補(bǔ)法神經(jīng)網(wǎng)絡(luò)
      基于絡(luò)病理論探討絡(luò)虛通補(bǔ)法在氣虛血瘀型椎動(dòng)脈型頸椎病中的應(yīng)用
      基于少數(shù)類(lèi)過(guò)采樣的傾向得分匹配插補(bǔ)法
      神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于GIS的房產(chǎn)測(cè)繪管理信息系統(tǒng)架構(gòu)研究
      科技資訊(2019年18期)2019-09-17 11:03:28
      無(wú)源多傳感器綜合數(shù)據(jù)關(guān)聯(lián)算法研究
      屬性數(shù)據(jù)分析教學(xué)改革初探
      響應(yīng)傾向得分匹配插補(bǔ)法
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      泌阳县| 广汉市| 岑溪市| 南靖县| 浙江省| 武隆县| 盐山县| 阿拉善左旗| 南开区| 富民县| 凤山市| 衡东县| 玛曲县| 江安县| 开封市| 曲阳县| 克什克腾旗| 长海县| 玉龙| 全州县| 陈巴尔虎旗| 平邑县| 日喀则市| 射阳县| 缙云县| 竹山县| 阳西县| 富源县| 河曲县| 东至县| 辽中县| 定结县| 应城市| 天等县| 桐梓县| 南昌县| 崇仁县| 正镶白旗| 凌海市| 和政县| 祥云县|