• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CatBoost 算法的藍莓生態(tài)適宜性評估模型*

      2023-05-12 02:26:30昌文峰
      計算機與數(shù)字工程 2023年1期
      關(guān)鍵詞:麻江縣藍莓特征

      昌文峰 王 霄 楊 靖 覃 濤

      (貴州大學(xué)電氣工程學(xué)院 貴陽 550025)

      1 引言

      藍莓又名越桔、越橘、藍漿果,是杜鵑花科、越橘屬植物,營養(yǎng)價值極高,因此也被譽為“水果皇后”。藍莓在消費市場深受大眾的喜歡[1~3],藍莓產(chǎn)業(yè)帶來的經(jīng)濟效益使得越來越多的國家和地區(qū)開始大規(guī)模種植藍莓,而藍莓的生態(tài)適宜性也直接關(guān)乎藍莓果實的品質(zhì)和產(chǎn)量[4~7]。因此,對藍莓的生態(tài)適宜性進行評估,合理地選取藍莓種植區(qū)域,對提升藍莓果實品質(zhì)及產(chǎn)量、提高藍莓產(chǎn)業(yè)經(jīng)濟效益具有重要意義。

      近年來,國內(nèi)外對藍莓生態(tài)適宜性的研究也越來越多。曹春根等[8]利用數(shù)理統(tǒng)計方法,在浙江省西南部地區(qū)調(diào)查種植在不同地點、不同海拔、不同土壤類別中的藍莓樹體生長量和果實性狀產(chǎn)量等,分析了藍莓在其山地種植的適宜性。董麗等[9]利用已提取數(shù)據(jù)組定量化擬合土壤pH變化對不同品種藍莓樹體生長的影響差異。秦公偉等[10]利用判斷矩陣法、線性加權(quán)求和法和層次聚類分析法對陜西省藍莓生長的潛在適生區(qū)進行了劃分研究。茍體忠等[11]采用地累積指數(shù)法和內(nèi)梅羅污染指數(shù)法等方法對貴州省麻江縣藍莓種植基地土壤重金屬元素富集程度和潛在生態(tài)風(fēng)險進行了評價。莫建國等[12]采用相關(guān)分析法分析了不同生育期氣象條件對藍莓品質(zhì)形成的影響。Vera 等[13]確定了在智利南部的一個農(nóng)場建立和管理高叢藍莓作物的農(nóng)場領(lǐng)土單位,制定了一個農(nóng)場級別的特征,并根據(jù)其接受能力對地區(qū)和地點進行了藍莓生態(tài)適宜性分類。眾多的藍莓生態(tài)適宜性的研究都是傳統(tǒng)數(shù)理統(tǒng)計方法和決策方法,該類方法具有主觀性過強的缺陷,降低生態(tài)適宜性的評價結(jié)果,進而影響到藍莓產(chǎn)業(yè)的發(fā)展和果農(nóng)的增收。

      隨著人工智能的發(fā)展,機器學(xué)習(xí)技術(shù)越來越多地應(yīng)用于社會各個領(lǐng)域[14]。麻江縣作為貴州省藍莓種植面積最廣的區(qū)縣,采用機器學(xué)習(xí)算法對藍莓生態(tài)適宜性進行科學(xué)性和精細化的評價區(qū)劃,可為麻江縣藍莓產(chǎn)業(yè)發(fā)展規(guī)劃制定提供理論依據(jù)。本研究以適合在貴州黔東南州區(qū)域種植的兔眼藍莓為研究對象,確定藍莓生態(tài)適宜性指標(biāo),通過機器學(xué)習(xí)算法對麻江縣藍莓生態(tài)適宜性進行模型構(gòu)建及主要影響因素分析,并采用ArcMAP 10.8 軟件對麻江縣藍莓生態(tài)適宜性地圖進行繪制。通過實驗發(fā)現(xiàn),CatBoost 算法在藍莓生態(tài)適宜性評估效果比傳統(tǒng)機器學(xué)習(xí)模型效果更優(yōu),能為藍莓園區(qū)選址規(guī)劃和藍莓種植提供更客觀合理的科學(xué)依據(jù),進而減少藍莓災(zāi)害、提高藍莓生產(chǎn)率、增加果農(nóng)經(jīng)濟收入。

      2 方法和資料

      2.1 基本資料和數(shù)據(jù)來源

      貴州省麻江縣DEM(數(shù)字高程模型,Digital El?evation Model)數(shù)據(jù)來自地理空間數(shù)據(jù)云的ASTER GDEM 數(shù)據(jù),DEM 數(shù)據(jù)包括坡度、坡向、高程和ND?VI(歸一化植被指數(shù),Normalized Difference Vegeta?tion Index)。氣象數(shù)據(jù)來源于貴州省氣象局2015年-2019 年逐月平均氣溫、降水量、≥10℃積溫(3月-9 月)等,土壤類型數(shù)據(jù)來源于中國土壤數(shù)據(jù)庫(Soil Science Database),包括土壤pH 和土壤有機碳含量等。數(shù)據(jù)基本來源見表1,研究區(qū)麻江縣概況見圖1。

      表1 數(shù)據(jù)來源情況

      圖1 麻江縣概況圖

      2.2 理論方法

      CatBoost(CB)是一種基于梯度提升決策樹(Gradient Boost Decision Tree,GBDT)改進的新型算法框架,該算法以對稱決策樹為基學(xué)習(xí)器,具有參數(shù)較少、支持類別變量和高準(zhǔn)確性等特點,能夠高效合理地處理類別型特征;此外,CB 著重解決梯度偏差和預(yù)測偏移問題,對減少過擬合發(fā)生有良好效果,能有效提升算法準(zhǔn)確性和泛化能力[15~17]。在傳統(tǒng)GBDT 算法中,處理類別型特征常用方式是利用類別特征標(biāo)簽平均值進行替代,并且將標(biāo)簽平均值作為節(jié)點分裂標(biāo)準(zhǔn)[18~19],用公式表示為

      這種方法雖然簡單易實現(xiàn),但存在一個明顯的缺點:特征往往比標(biāo)簽包含更豐富的信息,若用直接用標(biāo)簽平均值來代替特征,當(dāng)訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)和分布不一致時會出現(xiàn)條件偏移問題。

      CB算法加入先驗項和權(quán)重系數(shù),減少噪聲和低頻率類別型數(shù)據(jù)對于數(shù)據(jù)分布的影響,用公式表示為

      式中:p是添加的先驗項;a是權(quán)重系數(shù),通常大于0。

      由于藍莓生態(tài)適宜性評價數(shù)據(jù)集中的特征多為類別特征,因此選用CB 算法能夠更大程度地學(xué)習(xí)到更多的信息,進而提升模型性能,圖2 為CB 算法流程圖。

      圖2 CB算法流程圖

      3 適宜性模型實驗分析

      3.1 特征數(shù)據(jù)預(yù)處理

      通過收集麻江縣龍崩上等19 個藍莓種植基地數(shù)據(jù)信息,獲取藍莓適宜性特征數(shù)據(jù)共796 例,其中藍莓適宜性良好408 例,藍莓適宜性非良好388例。藍莓生態(tài)適宜性特征10個,分別為坡度、坡向、高程、年降雨量、月均溫、≥10 ℃積溫、土壤pH、土壤有機碳含量、光照強度和歸一化植被覆蓋指數(shù)。

      由于藍莓適宜性特征數(shù)據(jù)采集來源較多,因此藍莓適宜性特征集往往會存在特征數(shù)據(jù)重復(fù)、特征數(shù)據(jù)缺失、特征數(shù)據(jù)異常以及各特征數(shù)據(jù)之間量綱不統(tǒng)一等問題。這些問題會在一定程度上降低適宜性評估模型的預(yù)測精度,甚至?xí)?dǎo)致模型預(yù)測失敗,因此需要對特征數(shù)據(jù)集進行預(yù)處理工作,主要包括:1)刪除重復(fù)特征數(shù)據(jù);2)補充缺失特征數(shù)據(jù),類別特征采用眾數(shù)補充,連續(xù)特征采用平均值補充;3)對特征數(shù)據(jù)進行分桶,根據(jù)數(shù)據(jù)分布按分位點對連續(xù)特征進行分桶并標(biāo)簽編碼(label encode),類別特征直接進行標(biāo)簽編碼[20]。具體編碼方式如表2所示。

      表2 適宜性特征編碼情況

      3.2 實驗環(huán)境與參數(shù)配置

      本文研究實驗環(huán)境為jupyter notebook,package主要包括python3.8、numpy、pandas、scikit-learn、im?blearn 等。采用LR、SVM、RF 和CB 算法構(gòu)建四種不同的麻江縣藍莓生態(tài)適宜性評估模型。針對不同模型需對其參數(shù)優(yōu)化使模型表現(xiàn)出更佳性能。

      對LR、SVM 和RF 評估模型采用貝葉斯超參數(shù)優(yōu)化方法獲取最佳參數(shù)組合[21],不同模型超參數(shù)優(yōu)化結(jié)果如圖3、4、5所示。

      圖3 LR模型超參數(shù)優(yōu)化

      圖4 SVM模型超參數(shù)優(yōu)化

      圖5 RF模型超參數(shù)優(yōu)化

      對于CB模型,由于參數(shù)過多,考慮到時間消耗和計算能力,很難利用貝葉斯優(yōu)化其超參數(shù)。本文采用階梯式的網(wǎng)格搜索對CB 模型進行調(diào)參,即一部分參數(shù)調(diào)整至模型最佳后,基于此模型調(diào)整另外一部分參數(shù),每部分參數(shù)采用網(wǎng)格搜索的方式依次進行。根據(jù)問題的特性,部分超參數(shù)需要進行特定的 限 制,主 要 對iterations、learning_rate、depth、l2_leaf_reg四個參數(shù)進行調(diào)參,具體步驟如下。

      1)初始化一些基本變量,設(shè)定loss_function=Logloss、eval_metric=AUC、task_type=CPU;

      2)確定learning_rate 和iterations 的數(shù)量,先設(shè)定learning_rate=0.1,early_stop=500;采用早停的方式確定iteration數(shù)量;

      3)確定樹的生長深度,設(shè)定depth 參數(shù)的取值區(qū)間在[4,10],步長為1;

      4)確定正則化強度,設(shè)定l2_leaf_reg 參數(shù)的取值區(qū)間在[0,10],步長為1;

      5)降低學(xué)習(xí)率,最后降低學(xué)習(xí)率的同時增加數(shù)的數(shù)量,learning_rate 參數(shù)取值為[0.01,0.1],步長0.01。

      通過超參數(shù)尋優(yōu),最終確定CB 模型的超參數(shù)組 合 為[loss_function:Logloss,eval_metric:AUC,task_type:CPU,learning_rate:0.03,iterations:10,depth:10,l2_leaf_reg:8]。

      3.3 實驗分析

      在模型評估過程中,分類問題往往需要使用不同的指標(biāo)進行評估,從而完成模型訓(xùn)練的迭代過程。本研究提出精確率(P)、召回率(R)、綜合評價指標(biāo)(F1)[22]和AUC 作為評價指標(biāo),計算公式如下:

      AUC(Area Under Curve)為ROC 曲線的線下面積大小,ROC 全稱是“受試者工作特征”(Receiver Operating Characteristic Curve)曲線。將模型的預(yù)測結(jié)果進行排序,按照順序?qū)颖咀鳛檎M行預(yù)測,每次計算真正率(True Positive Rate,TPR)、假正率(False Positive Rate,F(xiàn)PR),分別作為橫、縱坐標(biāo)軸,公式定義:

      本文選取AUC 作為模型最重要的評估指標(biāo),進行對比分析。一般介于0.5~1,AUC值越大,說明模型泛化能力越好,預(yù)測表現(xiàn)越好。

      本文選取貴州省黔東南州19 個藍莓種植基地的796 例藍莓生態(tài)適宜性數(shù)據(jù)作為數(shù)據(jù)集,將數(shù)據(jù)集前70%作為訓(xùn)練集,后30%的數(shù)據(jù)作為測試集。采用LR、SVM、RF 和CB 四種算法搭建麻江縣藍莓適宜性評估模型并進行實驗對比,為避免實驗結(jié)果偶然性,提高實驗結(jié)果可靠度,本文對不同模型進行多次實驗,模型評估指標(biāo)綜合對比如圖6、圖7所示。

      圖6 ROC曲線對比圖

      圖7 不同模型在各評估指標(biāo)上的標(biāo)準(zhǔn)差

      通過實驗分析得,基于CB 算法的藍莓生態(tài)適宜性評估模型在AUC指標(biāo)上得分最高,值為0.897,LR、SVM 和RF 的AUC 得分分別為0.855、0.864 和0.875。進而分析可知CB 模型具有最佳的表現(xiàn)性能,比LR、SVM 和RF 模型高4.9%、3.8%、2.5%,并且在召回率、精確率和綜合評價指標(biāo)方面都有著優(yōu)秀表現(xiàn)。

      3.4 適宜性地圖繪制

      在本文所選的機器學(xué)習(xí)中,除SVM 外,評估結(jié)果具有自然概率意義,概率值為0 表示不適宜藍莓生長,概率值為1則表示適宜藍莓生長,從0~1表示藍莓生態(tài)適宜性等級遞增。因此,通過模型輸出的結(jié)果可直接劃分每個單位的生態(tài)適宜性等級。SVM模型原理上無法直接給出預(yù)測結(jié)果的概率,但本文通過5 折交叉驗證進行模型的預(yù)測,同樣可以滿足結(jié)果具有自然概率意義的要求。

      將麻江縣藍莓生態(tài)適宜性劃分為5 個等級:[0~0.20) 不適宜區(qū)、[0.2~0.40) 較不適宜區(qū)、[0.40~0.60) 基本適宜區(qū)、[0.60~0.80) 較適宜區(qū)、[0.80~1]最適宜區(qū)[10]?;诓煌u估模型繪制麻江縣藍莓生態(tài)適宜性評價地圖如圖8所示。

      圖8 麻江縣藍莓生態(tài)適宜性評價地圖

      目前麻江縣多數(shù)藍莓種植點分布縣東南區(qū)域,市場表明該區(qū)域藍莓品質(zhì)產(chǎn)量較好。由圖8 麻江縣藍莓生態(tài)適宜性評價地圖分析可見,區(qū)劃最適宜區(qū)和較適宜區(qū)主要分布在縣東南部的宣威鎮(zhèn)和龍山鎮(zhèn),與實際種植區(qū)域情況基本相吻合。由此可見,采用CB 模型構(gòu)建的藍莓生態(tài)適宜性評估模型結(jié)果較好,區(qū)劃結(jié)果也具有可靠性。

      由于模型原理差異性,SVM模型無法給出藍莓生態(tài)適宜性特征的重要性分析。除SVM 模型外,從各模型特征重要性得分可知,高程和≥10 ℃積溫兩個特征在不同模型獲得很高的分值,說明這兩個特征對藍莓生態(tài)適宜性影響程度更高,是影響藍莓生長的重要因素。各模型特征重要性如圖9所示。

      圖9 不同評估模型特征重要性

      4 結(jié)語

      本文通過多平臺收集藍莓生態(tài)適宜性特征數(shù)據(jù),構(gòu)建了麻江縣藍莓生態(tài)適宜性特征數(shù)據(jù)集。根據(jù)數(shù)據(jù)集特點,利用CB 算法構(gòu)建藍莓生態(tài)適宜性評估模型,與其他傳統(tǒng)機器學(xué)習(xí)算法模型進行對比分析,依據(jù)各模型評估結(jié)果繪制麻江縣藍莓生態(tài)適宜性評價地圖。實驗結(jié)果表明,CB 算法對特征數(shù)據(jù)信息挖掘更充分,模型評估效果明顯優(yōu)于傳統(tǒng)機器學(xué)習(xí)算法。但模型效果仍有進步空間,且單一模型效果不具備較強的魯棒性。因此,我們后續(xù)的研究方向旨在收集更豐富的藍莓適宜性特征數(shù)據(jù),提高數(shù)據(jù)集質(zhì)量以及融合多模型進行藍莓生態(tài)適宜性評估,進一步提升評估結(jié)果準(zhǔn)確性。

      猜你喜歡
      麻江縣藍莓特征
      麻江縣關(guān)工委開展青少年關(guān)愛幫扶活動
      下一代英才(2023年3期)2023-04-18 01:05:50
      藍莓建園技術(shù)
      河北果樹(2021年4期)2021-12-02 01:15:08
      藍莓姑娘
      如何表達“特征”
      不忠誠的四個特征
      抓住特征巧觀察
      西海岸的藍莓名片
      商周刊(2017年5期)2017-08-22 03:35:22
      甜甜的藍莓果
      麻江縣渠道防滲改造的具體措施
      晴隆縣關(guān)工委來麻江縣考察學(xué)習(xí)“五好”關(guān)工委創(chuàng)建工作
      晚晴(2014年9期)2014-09-19 14:05:19
      酒泉市| 安仁县| 洪江市| 个旧市| 鄂托克前旗| 仁布县| 洛川县| 江门市| 大新县| 绥阳县| 衡水市| 亚东县| 高台县| 利津县| 崇左市| 天津市| 松阳县| 姜堰市| 安义县| 禹城市| 垣曲县| 阳江市| 石嘴山市| 公主岭市| 冷水江市| 安陆市| 化州市| 原平市| 娄烦县| 小金县| 博湖县| 武功县| 邵武市| 通州市| 松原市| 白朗县| 临沂市| 灵丘县| 广饶县| 酒泉市| 鲁山县|