• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      粗糙集和決策樹方法在土壤評價中的應(yīng)用研究

      2009-05-13 01:50:40陳桂芬
      吉林農(nóng)業(yè)·下半月 2009年12期
      關(guān)鍵詞:約簡粗糙集決策樹

      馬 麗 陳桂芬

      【摘要】 應(yīng)用粗糙集與決策樹相結(jié)合的數(shù)據(jù)挖掘方法評價吉林省某地的土壤地力等級。研究數(shù)據(jù)共有161條記錄,16個屬性,使用粗糙集對土壤屬性進行約簡,去除了5個土壤冗余屬性,得到屬性約簡集;使用決策樹方法對土壤數(shù)據(jù)建立決策樹模型,得到了土壤評價的決策樹模型,并提取了分類規(guī)則。實驗表明:將粗糙理論與決策樹相結(jié)合的數(shù)據(jù)挖掘方法能去除冗余屬性,同時保留了原始數(shù)據(jù)的內(nèi)部特點,相對于單一使用決策樹方法,決策樹規(guī)模減小,規(guī)則集較精簡,提高了分類的效率。

      【關(guān)鍵詞】 粗糙集 決策樹 數(shù)據(jù)挖掘 土壤評價 地力等級

      【Abstract】 In this paper, rough set and decision tree combination were used to evaluate the productivity grade of soil in somewhere of Jilin province. The research data had a total of 161 records and 16 attributes. The paper used rough set to reduce the soil attributes, removed 5 redundant attributes and obtained the attributes reduction set, then decision tree method was used to construct the decision tree model, after that classifying rules were withdrawn. The experiment indicates that the data mining methods that unify the rough set theory and the decision tree can remove redundant attributes and retain the internal features of the original data. Compared with the single—use decision tree method, the decision tree scale is smaller,the rule set is more streamlined and the mining efficiency is improved.

      【Keywords】 rough setdecision treedata miningsoil evaluationproductivity grade

      引言

      土壤評價的影響因素較為復(fù)雜,傳統(tǒng)的土壤評價方法需要領(lǐng)域?qū)<业膮⑴c,有一定的主觀性,而且較少考慮土壤各屬性間的依賴關(guān)系,較難表達土壤性質(zhì)和環(huán)境變量間的非線性關(guān)系。從數(shù)據(jù)挖掘的角度來看,土壤評價實質(zhì)上屬于分類預(yù)測問題。決策樹方法是一種較好的分類方法,適宜處理非線性數(shù)據(jù)和描述數(shù)據(jù),建立的樹型結(jié)構(gòu)直觀,具有生成速度快,能得到簡單易懂的分類規(guī)則等優(yōu)點。決策樹在土壤等級評定方面也有了一些應(yīng)用,但決策樹方法不考慮土壤屬性之間的潛在關(guān)系,當(dāng)數(shù)據(jù)集中的屬性過多時,用決策樹分類易出現(xiàn)結(jié)構(gòu)性差,難以發(fā)現(xiàn)一些本來可以找到的、有用的規(guī)則信息等情況。粗糙集理論在處理大數(shù)據(jù)量,消除冗余信息等方面具有一定的優(yōu)勢,因此廣泛應(yīng)用于數(shù)據(jù)預(yù)處理、屬性約簡等方面。鑒于粗糙集和決策樹具有很強的優(yōu)勢互補性,本文采用粗糙集與決策樹相結(jié)合的方法評價土壤地力等級,即采用粗糙集方法對土地屬性進行約減,得到低維訓(xùn)練數(shù)據(jù),使用決策樹方法構(gòu)建決策樹,產(chǎn)生分類規(guī)則集,形成評價地力等級的新方法。

      1.數(shù)據(jù)挖掘方法設(shè)計

      1.1粗糙集理論

      粗糙集(Rough Set,RS)理論是新的處理模糊和不確定性知識的數(shù)學(xué)工具,其特點是不需要預(yù)先給定某些特征和屬性的數(shù)量描述,而是直接從給定問題的描述出發(fā),找出該問題的內(nèi)在規(guī)律,其基本思想更接近現(xiàn)實情況。

      粗糙集的基本思想是:稱S=(U,A,{Va},a)為知識表示系統(tǒng),其中,U為非空有限集,稱為論域;A為非空有限集,稱屬性集合;Va為屬性a∈A的值域;a:U→Va為一單映射。如果A由條件屬性集合C和結(jié)論屬性集合D組成,C,D滿足C∪D=A,C∩D=Φ,則稱S為決策系統(tǒng)。在一個決策系統(tǒng)中,各個條件屬性之間往往存在著某些程度上的依賴或關(guān)聯(lián),約簡可以理解為在不丟失信息的前提下,以最簡單地描述表示決策系統(tǒng)的結(jié)論屬性對條件屬性的集合的依賴和關(guān)聯(lián)。

      可以利用C相對于D的任一約簡來代替C,而不會對決策有任何影響,這就是粗糙集屬性約簡的原理。

      1.2 決策樹方法

      決策樹主要應(yīng)用于對事物進行分類、預(yù)測以及數(shù)據(jù)的預(yù)處理等。構(gòu)造決策樹通常包括兩個步驟:利用訓(xùn)練集生成決策樹,再對決策樹進行剪枝。決策樹的生成是從一個根節(jié)點開始,從上到下的遞歸過程,通過不斷的將樣本分割成子集來構(gòu)造決策樹。

      得到了完全生長的初始決策樹后,為了除去噪聲數(shù)據(jù)和孤立點引起的分枝異常,需要對決策樹進行剪枝。決策樹的剪枝通常是用葉結(jié)點代替一個或多個子樹,然后選擇出現(xiàn)概率最高的類作為該結(jié)點的類別。

      1.3基于粗糙集的決策樹模型

      基于粗糙集和決策樹結(jié)合的數(shù)據(jù)挖掘算法過程描述如下:不斷地從條件屬性C中取出相對于決策屬性D較為重要的屬性,使得決策屬性D對其依賴度等于D對C的依賴度,得到屬性約簡集。然后,利用信息增益作為啟發(fā)信息,選擇能夠最好地將樣本分類的屬性,創(chuàng)建一個分枝,并據(jù)此劃分訓(xùn)練集,直到不存在可以再分割的屬性,之后使用測試集對構(gòu)建的決策樹模型進行驗證修正。

      2.實驗及結(jié)果分析

      本文引用粗糙集理論和決策樹方法,研究新的土壤評價方法,目的是對吉林省某地土壤等級進行分類預(yù)測,確定土壤的地力等級。該地地力等級劃分為1,2,3,4,5,6共6個等級。研究數(shù)據(jù)包含15個條件屬性和一個決策屬性,共161條記錄。粗糙集屬性約簡算法要求數(shù)據(jù)為離散數(shù)據(jù),根據(jù)土壤數(shù)據(jù)特點,采用Equal Frequency Binning算法對數(shù)據(jù)進行離散化處理。將土壤數(shù)據(jù)的圖上面積(m2) 、平差面積(mu)、 有機質(zhì)、全氮、速效磷、速效鉀、緩效鉀、有效鋅、有效硼、有效銅、有效鐵、有效錳、有效鉬、PH值、代換量15個屬性作為條件屬性輸入粗糙集算法,形成條件屬性集C,將地力等級作為決策屬性D。使用粗糙集約簡算法約簡屬性集C,得到約簡屬性集。得到的約簡屬性為有機質(zhì)、全氮、速效磷、緩效鉀、有效硼、有效銅、有效鐵、有效錳、PH、代換量,共10個條件屬性,共去除5個冗余屬性。

      利用粗糙集方法對條件屬性進行約簡之后,調(diào)入決策樹程序,進行決策分類。在161條記錄中,能正確分類的數(shù)據(jù)為137條,24條數(shù)據(jù)未正確分類,其中地力等級為1的數(shù)據(jù)共25條,全部正確分類,地力等級為2的數(shù)據(jù)18條,16條數(shù)據(jù)正確分類,地力等級為3的數(shù)據(jù)13條,10條數(shù)據(jù)正確分類,地力等級為4的數(shù)據(jù)63條,53條數(shù)據(jù)正確分類,地力等級為5的數(shù)據(jù)34條,29條數(shù)據(jù)正確分類,地力等級為6的數(shù)據(jù)8條,4條數(shù)據(jù)正確分類。

      根據(jù)生成的決策樹,可以提取出決策規(guī)則。提取出的部分決策規(guī)則如下:

      if有機質(zhì) <= 2.964 and PH <= 6.5 and有效錳 <= 26.314 then 地力等級=3;

      if有機質(zhì) <= 2.964 and PH <= 6.5 and有效錳> 26.314 then 地力等級=4;

      if有機質(zhì) <= 2.964 and PH >6.5 and全氮 <= 0.1406 then 地力等級=3;

      if有機質(zhì) <= 2.964 and PH >6.5 and全氮> 0.1406 then 地力等級=2;

      if有機質(zhì) >2.964 and緩效鉀 <= 713.31 then 地力等級=2;

      if有機質(zhì) >2.964 and緩效鉀 > 713.31 then 地力等級=1;

      使用44條記錄數(shù)據(jù)對得到的決策模型驗證,正確率為85.3 %,模型預(yù)測結(jié)果較好。地力等級較低時,預(yù)測準(zhǔn)確率較高,對于高地力等級的預(yù)測,還需進一步修正數(shù)據(jù)集和模型。

      3.結(jié)語

      數(shù)據(jù)挖掘中決策樹方法適用于分類預(yù)測,在地力等級評價中已有應(yīng)用。但是這種方法還有冗余屬性存在,構(gòu)造的樹的規(guī)模較大,提取的規(guī)則較多。

      本文提出了一種基于粗糙集和決策樹結(jié)合的評價土壤等級的方法。先使用粗糙集進行屬性約簡,之后使用決策樹進行土壤分類,得到評價規(guī)則進行地力等級評定,最后使用土壤數(shù)據(jù)進行算法驗證。結(jié)果表明相對于單一使用決策樹方法,使用粗糙集進行屬性約簡之后進行決策評價的方法,可以去除冗余屬性,生產(chǎn)的決策樹規(guī)模較小,提取的規(guī)則較少,分類精度較高,速度更快,提高了挖掘的效率。

      從實驗效果來看,模型評價的結(jié)果與實際情況基本符合,并且該模型可解釋性較好,易于從中提取評價規(guī)則。運用決策樹模型能夠揭示該地區(qū)耕地質(zhì)量狀況,有利于提高對該區(qū)耕地的利用效益。該方法是土壤評價的有效方法。

      【參考文獻】

      [1]黃健, 李會民, 張惠琳, 馬兵, 孫宇新, 張國恩, 朱健菲. 基于GIS的吉林省縣級耕地地力評價與評價指標(biāo)體系的研究——以九臺市為例[J]. 土壤通報, 2007,(03):422—426.

      [2]薛正平,鄧 華,楊星衛(wèi),等.基于決策樹和圖層疊置的精準(zhǔn)農(nóng)業(yè)產(chǎn)量圖分析方法[J].農(nóng)業(yè)工程學(xué)報,2006,22(8):140—144.

      [3]PAWLAK Z, GRZYMALA—BUSSE J, SLOWINSKI R. Rough sets[M]. Communications of the ACM, 1995, 38(11):88—95)

      [4]王玉珍.基于數(shù)據(jù)挖掘的決策樹方法分析[J].電腦開發(fā)與應(yīng)用,2007(05):64—66.

      [5]田苗苗.數(shù)據(jù)挖掘之決策樹方法概述[J].長春大學(xué)學(xué)報,2004 (06):48—51.

      [6]范潔,楊岳湘,溫璞.C4.5算法在在線學(xué)習(xí)行為評估系統(tǒng)中的應(yīng)用[J].計算機工程與設(shè)計,2006,27(6):946—948.

      [7]ALEX BERSON, SETPHEN SMITH. Data Warehousing,DataMining & OLAP[M]. New York: Mcraw—HillBookCo.,1999:272—320.

      馬麗(1980—),女,吉林長春人,助教。研究方向:計算機農(nóng)業(yè)應(yīng)用。

      陳桂芬(1956—),女,博士生導(dǎo)師,教授。研究方向:專家系統(tǒng),精準(zhǔn)農(nóng)業(yè)。

      猜你喜歡
      約簡粗糙集決策樹
      基于Pawlak粗糙集模型的集合運算關(guān)系
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      基于二進制鏈表的粗糙集屬性約簡
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      實值多變量維數(shù)約簡:綜述
      基于模糊貼近度的屬性約簡
      多粒化粗糙集性質(zhì)的幾個充分條件
      基于決策樹的出租車乘客出行目的識別
      雙論域粗糙集在故障診斷中的應(yīng)用
      兩個域上的覆蓋變精度粗糙集模型
      新源县| 怀仁县| 衢州市| 上栗县| 彭水| 神池县| 聊城市| 霍城县| 云龙县| 宜君县| 寿阳县| 喀什市| 朔州市| 邢台县| 张北县| 盐城市| 克东县| 靖宇县| 洪洞县| 绿春县| 习水县| 灌阳县| 类乌齐县| 秦安县| 哈密市| 纳雍县| 仙桃市| 霍林郭勒市| 寿阳县| 荆州市| 徐闻县| 武汉市| 蓬莱市| 隆尧县| 湛江市| 临沂市| 潜山县| 阿勒泰市| 临湘市| 广昌县| 民勤县|