• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的茶葉價格鑒定

      2016-08-04 08:21:32周綺鳳丁健超
      關(guān)鍵詞:隨機森林鑒定數(shù)據(jù)挖掘

      劉 臻,周綺鳳,丁健超

      (廈門大學(xué)航空航天學(xué)院,福建廈門361005)

      ?

      基于數(shù)據(jù)挖掘的茶葉價格鑒定

      劉臻,周綺鳳*,丁健超

      (廈門大學(xué)航空航天學(xué)院,福建廈門361005)

      摘要:針對茶葉價格鑒定中傳統(tǒng)感官評審方法遇到的問題與挑戰(zhàn),利用數(shù)據(jù)挖掘技術(shù),研究茶葉價格自動評定模型與方法.在已有研究的基礎(chǔ)上,對茶葉價格鑒定中的多個屬性進行重要性分析、關(guān)聯(lián)分析等,并建立一個基于隨機森林的茶葉價格評定模型.該模型基于已有歷史數(shù)據(jù)的分析和學(xué)習(xí),對新茶葉的價格鑒定可以給出較為客觀的評定,從而降低人工評定的代價和人為生理因素的影響.在實際收集的鐵觀音茶葉數(shù)據(jù)集上的實驗結(jié)果表明,所提出的方法與模型具有客觀、準(zhǔn)確的評價結(jié)果,可以作為茶葉價格評定的輔助評價模型.

      關(guān)鍵詞:數(shù)據(jù)挖掘;茶葉價格;鑒定;隨機森林

      茶是我國的傳統(tǒng)飲料,居世界三大飲料(茶葉、可可、咖啡)之冠.中國茶文化具有悠久的歷史,茶葉品質(zhì)鑒定是其中的一個重要內(nèi)容,感官評審和理化檢測是最常用的2種評定方法.其中,感官評審主要依靠品茶師的經(jīng)驗,通過對茶葉的觀察和品嘗,在幾秒鐘內(nèi),對茶葉的外觀和內(nèi)質(zhì)做出評定.但是,這種依賴于專業(yè)品茶師的主觀評定方法經(jīng)常會受到環(huán)境條件以及品茶師個人的生理條件和工作經(jīng)驗等因素的影響.對同一個茶樣,不同的品茶師可能得到不同結(jié)果,即使是同一個品茶師,在不同的環(huán)境和生理條件下,也會得出不同的評價結(jié)果.此外,評茶過程中所使用的標(biāo)準(zhǔn)樣的制作會受到各種條件的限制,很難保持一致,這也影響到評茶的結(jié)果[1].

      隨著計算機技術(shù)逐步應(yīng)用到食品檢測等問題中,茶葉生產(chǎn)企業(yè)逐步積累了大量檢測數(shù)據(jù).如何從眾多的數(shù)據(jù)中自動挖掘出有用的知識,成為理論和應(yīng)用研究的一個共同研究熱點.目前數(shù)據(jù)挖掘技術(shù)正在許多領(lǐng)域得到廣泛應(yīng)用[2-4],部分研究者嘗試將數(shù)據(jù)挖掘方法應(yīng)用到茶葉鑒定中.張超等[5]對數(shù)據(jù)挖掘在茶葉鑒定中的應(yīng)用做了簡單概述.章文軍等[6]利用自組織映射神經(jīng)網(wǎng)絡(luò)對國內(nèi)的茶葉品種進行分類.唐和平等[7]利用人工神經(jīng)網(wǎng)絡(luò)(ANN)進行茶葉品質(zhì)的分析.潘玉成[8]將神經(jīng)網(wǎng)絡(luò)應(yīng)用于茶葉評審中,參照鐵觀音標(biāo)準(zhǔn)樣的5級和茶葉的外形及內(nèi)質(zhì)共40條評語(屬性值),并隨機從市場銷售的茶樣中抽取了10個樣本,建立了一個3層神經(jīng)網(wǎng)絡(luò)模型,其評級結(jié)果與感官評審結(jié)果基本一致.

      上述研究是采用數(shù)據(jù)挖掘技術(shù)在茶葉價格鑒定中的初步嘗試性工作,這些研究所用的方法單一且實驗數(shù)據(jù)較少,實驗結(jié)果缺乏統(tǒng)計意義.此外,Dutta等[9]結(jié)合主成分分析、模糊C均值聚類、神經(jīng)網(wǎng)絡(luò)等方法對茶葉數(shù)據(jù)進行預(yù)處理,并采用氧化錫電子鼻方法對茶葉質(zhì)量進行預(yù)測.Hung等[10]提出一種基于指數(shù)距離函數(shù)的模糊聚類方法,并將該方法應(yīng)用于臺灣地區(qū)茶葉的4個屬性多種類型的評估中.迄今為止,基于數(shù)據(jù)挖掘方法的茶葉價格鑒定研究還較少.由于茶葉種類繁多、價格差異較大,針對大量的茶葉鑒定資料、茶葉種植數(shù)據(jù),如何運用數(shù)據(jù)挖掘技術(shù)進行更為深入的分析和研究,建立自動、客觀的茶葉價格評價體系和模型,具有實際意義和應(yīng)用價值.

      1茶葉價格鑒定概述

      茶葉價格鑒定是茶葉鑒別的主要內(nèi)容之一,也是影響茶葉銷售和茶葉生產(chǎn)企業(yè)效益的重要因素.從評價方法上來說,目前茶葉鑒定主要采用理化檢測和感官評審2種方法.

      理化檢測使用儀器儀表、分析化驗等物理和化學(xué)方法鑒定茶葉所含的各種成分.由于理化檢測對檢驗環(huán)境的要求比較高,而且檢驗時間比較長,一般的茶葉銷售企業(yè)和地方檢測機構(gòu)都難以配置.茶葉產(chǎn)品的感官審評主要根據(jù)國家標(biāo)準(zhǔn)中對各類茶葉品質(zhì)特征的描述和要求,以及實物標(biāo)準(zhǔn)樣和貿(mào)易樣等,對擬檢茶葉產(chǎn)品進行評審.與理化檢測相比,評茶師評定的方法較為簡單,但如上所述,這種方法太依賴個人的主觀情況,因此,評價結(jié)果也缺乏準(zhǔn)確性.

      圖1 茶葉感官評審過程Fig.1Tea sensor-based evaluation process

      茶葉評審內(nèi)容通常包括外觀和內(nèi)質(zhì)兩個方面.其中外觀評審主要通過對茶葉外觀的大小、松緊、色澤、嫩度、平滑程度等的觀察,來判斷茶葉產(chǎn)品是否符合其茶類的品質(zhì)要求并判定其在該茶類中所處的級別.內(nèi)質(zhì)評審則主要依據(jù)品嘗茶葉的香氣類型、滋味鮮爽度、濃度,觀察茶湯顏色與明亮程度,以及茶底的顏色和勻整度等特征來判斷.茶葉感官評審過程如圖1所示,這些過程通常由經(jīng)驗豐富的品茶師及相關(guān)輔助人員共同完成.

      2基于數(shù)據(jù)挖掘的茶葉價格鑒定模型

      茶葉感官評審?fù)ㄟ^多年的品質(zhì)鑒定已積累了大量的審評數(shù)據(jù),如何利用這些數(shù)據(jù)構(gòu)建一種客觀、準(zhǔn)確、便捷,能適應(yīng)生產(chǎn)、加工、檢驗各環(huán)節(jié)使用的評定方法,克服鑒定師的主觀鑒定缺陷,是茶葉加工企業(yè)亟待解決的一個問題.數(shù)據(jù)挖掘作為一種決策支持過程,能自動地對大量數(shù)據(jù)進行分析,挖掘隱含在海量數(shù)據(jù)中的潛在知識,從而幫助決策者做出正確的決策.本文中通過對茶葉數(shù)據(jù)的整理和分析,利用數(shù)據(jù)挖掘的回歸、分類、特征選擇等算法建立一個高效準(zhǔn)確的茶葉價格鑒定模型,該模型如圖2所示,主要包括數(shù)據(jù)預(yù)處理、重要屬性分析和預(yù)測模型幾個模塊.

      圖2 基于數(shù)據(jù)挖掘的茶葉價格鑒定系統(tǒng)Fig.2Evaluation system of tea price based on data mining

      2.1數(shù)據(jù)預(yù)處理

      由于茶葉品種眾多,品質(zhì)差異較大,且在收集過程中存在誤差等問題,在進行茶葉價格自動鑒定之前需要對眾多的茶葉數(shù)據(jù)進行分類和過濾,對不同系列的茶葉產(chǎn)品需要分別進行價格評審[11-12].

      2.2重要屬性分析

      本模型采用基于隨機森林(random forests, RF)的變量重要性排序,找到影響茶葉價格的重要屬性,從而為最終的定價提供參考[13-15].

      基于RF的變量重要性[16]: RF的性質(zhì)之一是在學(xué)習(xí)過程中可以很自然地提供變量重要性(即特征排序),其過程如下:

      2) 從Dn中有放回的隨機抽取n1個樣本,得到訓(xùn)練集Xi,每個決策樹在訓(xùn)練過程中沒有采用的樣本稱為OOB(out of bag)樣本.

      5) 第i個特征的重要性得分根據(jù)下面式子計算:

      6) 對這些得分按從大到小進行排序得到{sd1,sd2, …,sdn},那么{d1,d2,…,dn}就是所求的特征排序.

      2.3預(yù)測模型

      回歸分析:傳統(tǒng)的感官評審采用對各個特征分別打分,再通過浮動參考價格,進行人工微調(diào),累計得到最終的價格.利用回歸分析,可以確定茶葉品質(zhì)特征(屬性)與最終定價之間的定量關(guān)系,并得到一個自動評分模型.

      分類預(yù)測:茶葉的價格是決定茶葉等級的最主要因素.本研究根據(jù)茶葉價格對數(shù)據(jù)進行分類處理,建立基于RF的分類預(yù)測模型,該模型可以根據(jù)茶葉的品質(zhì)特征自動預(yù)測茶葉所屬的等級.

      基于RF的茶葉分類預(yù)測模型:

      1) 設(shè)N為訓(xùn)練樣本個數(shù),M為變量重要性分析后選取的評估特征數(shù)目.

      2) 輸入特征數(shù)目mtry,用于確定決策樹上一個節(jié)點的決策結(jié)果,其中mtry應(yīng)遠(yuǎn)小于M.

      3) 從N個訓(xùn)練樣本中采用bootstrap方法采樣,形成一個訓(xùn)練集,并用未抽到的樣本(OOB樣本)作預(yù)測,評估其誤差.

      4) 對于每一個節(jié)點,隨機選擇mtry個特征,根據(jù)這mtry個特征,計算最佳的分裂方式.

      5) 每棵樹都不用剪枝(pruning),任其生長,最終生成ntree棵樹.

      6) 采用多數(shù)投票法對新樣本進行分類.

      3實驗及分析

      以實際收集到的福建省某企業(yè)鐵觀音茶葉數(shù)據(jù)為例,對所提出模型進行驗證.該數(shù)據(jù)集包括1 604個樣本,外觀特征:條形、色澤;內(nèi)質(zhì)特征:香氣、湯色、滋味、葉底、質(zhì)量、總分,樣本點的分布如圖3所示.

      圖3 鐵觀音茶葉數(shù)據(jù)分布圖Fig.3Distribution of Tieguanyin tea data

      根據(jù)樣本點的分布及茶葉定價體系,把數(shù)據(jù)分為4個等級,如表1所示.

      表1 樣本等級Tab.1 Sample grades

      3.1異常值檢測

      采用凝聚層次聚類(agglomerative hierarchical clustering )對樣本數(shù)據(jù)進行聚類.實驗中采用單鏈法(single linkage method)計算鄰近度矩陣,聚類評價指標(biāo)采用KL(Krzanowski-Lai)指標(biāo),記為PKL計算每個類緊密度的平均值,KL值越大越好.

      (1)

      其中,

      R(i)=

      (2)

      是緊密度.這里R(i)的緊密度定義是Pearson相關(guān)系數(shù)的平方和,這個系數(shù)用來衡量兩個數(shù)據(jù)集合的線性相關(guān)關(guān)系.

      利用上述方法,剔除茶葉數(shù)據(jù)中的異常值,部分異常值如圖4所示.

      3.2回歸分析

      利用回歸分析可以自動地確定茶葉屬性和最終定價之間的依賴關(guān)系.圖5所示為各個特征和定價的散點圖.

      在實際應(yīng)用中,關(guān)注的一個問題是總分與茶葉的定價之間是否有顯著的相關(guān)性,即傳統(tǒng)的打分法得到的總分是否可以客觀地反應(yīng)茶葉的定價.利用回歸分析,對原始數(shù)據(jù)與定價做了相關(guān)分析,結(jié)果如表2所示.

      由散點圖和相關(guān)分析的結(jié)果可以看出,總分與定價之間具有較大的相關(guān)性.在此基礎(chǔ)上,進一步通過回歸分析建立回歸模型.由實驗數(shù)據(jù)得到的線性擬合結(jié)果如圖6(a)所示,該模型誤差較大;由實驗數(shù)據(jù)得到的二次擬合結(jié)果如圖6(b)所示,該模型與數(shù)據(jù)分布擬合效果較好,其曲線為:y=213.488-5.381 2x+0.051 2x2.

      圖4 異常值檢測Fig.4Outlier detection

      圖5 鐵觀音茶葉數(shù)據(jù)屬性與定價散點圖Fig.5Scatterplot between attributes and price

      相關(guān)系數(shù)r條形色澤香氣湯色滋味葉底質(zhì)量總分0.360.300.450.250.450.30-0.0830.50

      圖6 總分與定價之間的擬合結(jié)果Fig.6Results of regression analysis between total score and price

      3.3分類預(yù)測及變量重要性分析

      采用RF對預(yù)處理后的數(shù)據(jù)進行建模,用十折交叉驗證的方法檢驗數(shù)據(jù)的預(yù)測準(zhǔn)確率,其中選擇決策樹的個數(shù)為ntree=1 500, 葉節(jié)點上隨機分裂屬性個數(shù)為mtry=3.根據(jù)茶葉的外形和內(nèi)質(zhì)6個特征,我們得到變量重要性從大到小的排序,依次為:香氣、滋味、葉底、條形、色澤、湯色,該結(jié)果與回歸分析結(jié)果相一致.同時利用各特征建立的分類預(yù)測模型(RF)及和常用的ANN方法的性能比較如表3所示.

      由表3可知,基于RF的茶葉價格預(yù)測模型能夠給出較為準(zhǔn)確的預(yù)測結(jié)果.與傳統(tǒng)的ANN方法相比,RF在準(zhǔn)確率和穩(wěn)定性方面都有更好的表現(xiàn),這也體現(xiàn)出RF作為一種組合分類器方法的優(yōu)勢.此外,由表3可知,在所有的屬性中,內(nèi)質(zhì)的4個特征,即:香氣、湯色、滋味、葉底對定價預(yù)測準(zhǔn)確率的提高效果最明顯,這也是茶葉消費者最注重的特征,符合茶葉市場的定價規(guī)律.因此,本文提出的基于數(shù)據(jù)挖掘方法的茶葉價格鑒定系統(tǒng)具有較好的預(yù)測準(zhǔn)確率和實用價值.

      表3 基于RF的分類模型預(yù)測結(jié)果Tab.3 The predicting results of classification model based on RF

      注:表中數(shù)據(jù)為平均值±標(biāo)準(zhǔn)差.

      4結(jié)論

      基于數(shù)據(jù)挖掘的茶葉價格自動鑒定是填補目前人工鑒定方法中存在的不足的一種有效途徑.本文中利用茶葉的屬性數(shù)據(jù),提出一種基于數(shù)據(jù)挖掘的茶葉價格自動鑒定系統(tǒng),并通過回歸分析、特征選擇、分類預(yù)測等數(shù)據(jù)挖掘方法,建立了一個茶葉價格鑒定模型.該模型基于已有歷史數(shù)據(jù)的分析和學(xué)習(xí),對新茶價格的評估可以給出較為客觀的評定,從而降低人工鑒定的代價和人為生理因素的影響.由于茶葉價格的最終確定還需要考慮茶葉的生產(chǎn)時間、天氣、產(chǎn)地等因素,未來的研究將在外觀和內(nèi)質(zhì)的基礎(chǔ)上考慮上述因素,提出更全面的評價模型.

      參考文獻:

      [1]霍紅.模糊數(shù)學(xué)在食品感官評價質(zhì)量控制方法中的應(yīng)用[J].食品科學(xué),2004,25(6):185-188.

      [2]李濤,唐良,李磊,等.數(shù)據(jù)挖掘的應(yīng)用與實踐:大數(shù)據(jù)時代的案例分析[M].廈門:廈門大學(xué)出版社,2013:10.

      [3]ZHOU Q,ZHOU H,ZHU Y,et al.Data-driven solutions for building environmental impact assessment[C]∥ IEEE International Conference on Semantic Computing(ICSC).Anaheim:IEEE,2015:316-319.

      [4]李濤,曾春秋,周武柏,等.大數(shù)據(jù)時代的數(shù)據(jù)挖掘:從應(yīng)用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),2015,1(4):2015041.

      [5]張超,張婭玲,楊如艷.數(shù)據(jù)挖掘在茶葉鑒定中的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2012,40(2):1219-1220.

      [6]章文軍,許祿.自組織特征映射神經(jīng)網(wǎng)絡(luò)——用于茶葉分類[J].計算機與應(yīng)用化學(xué),2000,17(1):85-87.

      [7]唐和平,黎星輝.神經(jīng)網(wǎng)絡(luò)技術(shù)及其在茶葉中的應(yīng)用[J].茶葉通訊,1999,3:29-31.

      [8]潘玉成.人工神經(jīng)網(wǎng)絡(luò)及其在茶葉審評中的應(yīng)用[J].茶葉科學(xué)技術(shù),2007(3):34-37.

      [9]DUTTA R,HINES E L,GARDNER J W,et al.Tea quality prediction using a tin oxide-based electronic nose:an artificial intelligence approach[J].Sensors and Actuators B:Chemical,2003,94(2):228-237.

      [10]HUNG W L,YANG M S.Fuzzy clustering on LR-type fuzzy numbers with an application in Taiwanese tea evaluation[J].Fuzzy Sets and Systems,2005,150(3):561-577.

      [11]ZHENG L,LI T.Semi-supervised hierarchical clustering[C]∥11th International Conference on Data Mining(ICDM).Vancouver:IEEE,2011:982-991.

      [12]TAN P N,STEINBACH M,KUMAR V.Introduction to data mining[J].Silicates Industriels,2006,50(4):209-210.

      [13]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.

      [14]BREIMAN L.Bagging predictors[J].Machine Learning,1996,24(2):123-140.

      [15]HO T K.The random subspace method for constructing decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832-844.

      [16]周綺鳳,洪文財,楊帆,等.基于隨機森林相似度矩陣差異性的特征選擇[J].華中科技大學(xué)學(xué)報(自然科學(xué)版),2010,38(4):58-61.

      doi:10.6043/j.issn.0438-0479.201507001

      收稿日期:2015-07-01錄用日期:2016-04-27

      基金項目:國家自然科學(xué)基金(61503313);江蘇省社會安全圖像與視頻理解重點實驗室創(chuàng)新基金(30920140122007)

      *通信作者:zhouqf@xmu.edu.cn

      中圖分類號:TP 18

      文獻標(biāo)志碼:A

      文章編號:0438-0479(2016)04-0586-06

      Data Mining Based Solutions for Tea Price Evaluation

      LIU Zhen,ZHOU Qifeng*,DING Jianchao

      (School of Aerospace Engineering,Xiamen University,Xiamen 361005,China)

      Abstract:Traditional tea price evaluation mainly depends on the experience of tea experts and evaluating results are usually unstable and imprecise.To solve this problem and obtain some more objective evaluation results,we propose a data-driven tea price evaluation framework.This framework incorporates the outlier detection,feature-importance analysis,regression,and classification forecast models.Experimental evaluation on the real Tieguanyin tea data demonstrates the effectiveness of our proposed framework.

      Key words:data mining;tea price;evaluation;random forest

      引文格式:劉臻,周綺鳳,丁健超.基于數(shù)據(jù)挖掘的茶葉價格鑒定[J].廈門大學(xué)學(xué)報(自然科學(xué)版),2016,55(4):586-591.

      Citation:LIU Z,ZHOU Q F,DING J C.Data mining based solutions for tea price evaluation[J].Journal of Xiamen University(Natural Science),2016,55(4):586-591.(in Chinese)

      猜你喜歡
      隨機森林鑒定數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
      基于二次隨機森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
      淺議檢察機關(guān)司法會計鑒定的主要職責(zé)
      青銅器鑒定與修復(fù)初探
      資治文摘(2016年7期)2016-11-23 00:23:20
      八種氟喹諾酮類藥物人工抗原的合成及鑒定
      基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
      高職院校教學(xué)檔案的鑒定與利用
      池州市| 武乡县| 林口县| 锦州市| 长子县| 高雄县| 垫江县| 云和县| 宜兰市| 湘潭市| 蒲江县| 即墨市| 始兴县| 崇礼县| 永城市| 电白县| 井研县| 太和县| 庆阳市| 上思县| 涟水县| 潜江市| 三门峡市| 濮阳市| 襄城县| 谷城县| 新源县| 明光市| 磴口县| 左贡县| 普安县| 麻江县| 贺兰县| 政和县| 沈阳市| 上高县| 阜南县| 淮阳县| 高邮市| 城步| 永善县|