• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      食品安全風險評估中數(shù)據(jù)挖掘方法的分析與擇取

      2014-12-31 00:00:00楊劼
      計算機光盤軟件與應用 2014年16期

      摘 要:文章對數(shù)據(jù)挖掘技術的概念、特點、功能、技術等進行概述介紹和簡單分析,根據(jù)食品安全風險評估工作的客觀條件和現(xiàn)實情況,提出適宜采取的數(shù)據(jù)挖掘方法。

      關鍵詞:數(shù)據(jù)挖掘方法;關聯(lián)規(guī)則

      中圖分類號:TP311

      1 數(shù)據(jù)挖掘概述

      隨著信息技術的迅速發(fā)展,大爆炸式的數(shù)據(jù)容量膨脹,關系數(shù)據(jù)庫系統(tǒng)里的信息處理方法卻無法發(fā)現(xiàn)數(shù)據(jù)間隱藏的規(guī)則和聯(lián)系,缺乏挖掘數(shù)據(jù)背后潛在知識的方法。數(shù)據(jù)挖掘技術應運而生。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中,發(fā)現(xiàn)提取隱藏在數(shù)據(jù)中、有價值的知識的過程。它是一門跨學科的技術,基于統(tǒng)計學、數(shù)據(jù)庫、模式識別、可視化技術、機器學習、人工智能等,高度自動化地分析數(shù)據(jù)。數(shù)據(jù)挖掘能預測數(shù)據(jù)未來的走向,幫助決策者有效管理資源,并對決策提供數(shù)據(jù)支持。

      2 數(shù)據(jù)挖掘方法分析

      2.1 數(shù)據(jù)挖掘的功能

      數(shù)據(jù)挖掘用于發(fā)現(xiàn)數(shù)據(jù)庫中隱藏著的規(guī)則、模式、知識。它的任務決定了它的功能。一般來說,數(shù)據(jù)挖掘技術具有兩大基本功能:描述和預測。描述是對現(xiàn)有數(shù)據(jù)進行分析,刻畫這些數(shù)據(jù)的普遍規(guī)律,發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系;預測也是通過對現(xiàn)有數(shù)據(jù)進行分析,預測數(shù)據(jù)未來的出現(xiàn)和發(fā)展趨勢。

      2.2 數(shù)據(jù)挖掘的特點

      數(shù)據(jù)挖掘技術是一種“發(fā)現(xiàn)”的過程。通過數(shù)據(jù)挖掘技術與傳統(tǒng)信息處理技術的對比,可以發(fā)現(xiàn)數(shù)據(jù)挖掘具有以下特點:

      2.2.1 基于海量數(shù)據(jù)

      數(shù)據(jù)是根本。某次數(shù)據(jù)挖掘必須建立在一個具有代表性的海量數(shù)據(jù)基礎上。需要處理的數(shù)據(jù)源往往是從一個或多個數(shù)據(jù)庫里,經過數(shù)據(jù)預處理過程抽取而成的。

      2.2.2 離散性

      相比起數(shù)理統(tǒng)計學中含有大量對連續(xù)變量的分析模型,數(shù)據(jù)挖掘更適合對離散化的數(shù)據(jù)進行分析。在數(shù)據(jù)預處理的過程中,往往需要把連續(xù)的數(shù)據(jù)離散化,以供數(shù)據(jù)挖掘工具使用。

      2.2.3 實用性

      數(shù)據(jù)挖掘的作用在于分類和預測,用于“發(fā)現(xiàn)”知識。能稱為“知識”的數(shù)據(jù)挖掘據(jù)結果,必須是有趣的、實用的、有價值的。

      2.2.4 復雜性

      數(shù)據(jù)挖掘在“學習”和“發(fā)現(xiàn)”的過程中,關注模型的復雜性和需要的計算量。數(shù)據(jù)挖掘技術能用于對數(shù)據(jù)之間復雜的關系進行建模分析,適合解決復雜的問題。

      2.2.5 動態(tài)性

      數(shù)據(jù)挖掘出的規(guī)則是反映當前數(shù)據(jù)的潛在關系。隨著數(shù)據(jù)庫的不斷變化、數(shù)據(jù)關系也有可能因此而改變。所以,數(shù)據(jù)挖掘結果具有動態(tài)性。

      2.2.6 相對性

      數(shù)據(jù)挖掘模型的建立,是依據(jù)當前的數(shù)據(jù)。不同的數(shù)據(jù),可能產生不同的數(shù)據(jù)模型;相同的數(shù)據(jù)模型,不同的數(shù)據(jù),得到不同的挖掘結果。因此,挖掘結果僅僅是在當前設定的條件約束下,針對當前特定數(shù)據(jù)、有相對性的結果。

      2.3 數(shù)據(jù)挖掘的常用技術

      數(shù)據(jù)挖掘技術從創(chuàng)建以來,滲透到各種學科領域。繼承不同學科領域特點的挖掘技術,因此也具有了不同的優(yōu)缺點??晒┻x擇的范圍較大的同時,也容易應用錯誤。了解常用的數(shù)據(jù)挖掘技術、掌握它們的特點,并根據(jù)實際的挖掘任務,選取適合的挖掘技術,有助于得到期待的結果。數(shù)據(jù)挖掘的常用技術主要有決策樹、人工神經網絡、關聯(lián)規(guī)則、聚類分析、模糊集和粗糙集等,其基本概念和優(yōu)缺點如下:

      2.3.1 決策樹

      決策樹的分類預測結構是一個樹型結構,根節(jié)點是數(shù)據(jù)集合,每個分支結點是一類分支問題。通過一個單一屬性的判別,將數(shù)據(jù)空間分成若干塊,每個葉節(jié)點都是帶有分類的分割。

      決策樹的特點:(1)決策樹的構造易于理解和創(chuàng)建;(2)處理速度以及準確度高于其他方法;(3)分類的屬性清晰明示。這些特點幫助決策樹成為數(shù)據(jù)挖掘中分類和預測的主要技術。

      缺點:(1)對連續(xù)數(shù)據(jù)預測困難;(2)處理時間順序數(shù)據(jù)時需要更多預處理;(3)“貪心”搜索僅是局部最優(yōu)選擇,而非整體最優(yōu);(4)無法處理缺項漏項。

      2.3.2 人工神經網絡

      人工神經網絡也是一門交叉學科,是人工模仿人腦,具有某種功能的網絡抽象模型。它將大量處理器單元互連組成一個網絡,具備分布式結構和并行處理的特點。因此,其具有良好的自組織性、自適應性、自學習性和容錯性,具有識別、學習、記憶和聯(lián)想的功能。人工神經網絡目前廣泛應用于預測、模式識別、聚類分析、優(yōu)化計算等領域。

      人工神經網絡的特點:(1)良好的容錯性和非線性關系;(2)能使用并行結構處理;(3)因自身特性具有變化性,處于不斷變化的過程;(4)變結構使得系統(tǒng)具有多樣的演化。

      缺點:(1)數(shù)據(jù)準備量巨大,周期長;(2)訓練學習方法復雜、分析過程難理解、結果難解釋;(3)最優(yōu)的學習規(guī)則設計難度大,對設計者相關知識和開發(fā)經驗的要求較高。

      2.3.3 關聯(lián)規(guī)則

      關聯(lián)規(guī)則的研究是數(shù)據(jù)挖掘的重要研究方向之一。關聯(lián)規(guī)則用于發(fā)現(xiàn)數(shù)據(jù)之間未知的相互依賴的關系。通過設置最小支持度、最小置信度,并使用提升度作為指標,來發(fā)現(xiàn)數(shù)據(jù)之間有趣的關聯(lián)規(guī)則。支持度、置信度和提升度分別反映關聯(lián)規(guī)則的實用性、準確性和相關性。

      關聯(lián)規(guī)則的優(yōu)點:(1)挖掘結果清晰明示,易于理解;(2)允許間接數(shù)據(jù)挖掘;(3)對數(shù)據(jù)規(guī)范要求不高;(4)計算的消耗量可以近似估算出來。

      缺點:(1)需要準確設置最小支持度和最小置信度,否則會造成有價值的關聯(lián)規(guī)則埋沒于大量無用的關聯(lián)規(guī)則里,或者錯失有價值的關聯(lián)規(guī)則這兩種極端的挖掘結果;(2)計算的消耗量根據(jù)問題的復雜程度增長很大。

      2.3.4 聚類分析

      分類是已知對象的特征而后聚成集合,而聚類則是在已聚合的集合里找到特征。聚類分析可以用來觀察分析數(shù)據(jù)特征、研究數(shù)據(jù)分布情況,也可以分析數(shù)據(jù)屬性之間的相互關系。

      聚類分析的優(yōu)點:(1)描述數(shù)據(jù)清晰,即:每個集合的數(shù)據(jù)相似,但集合之間的差異性很大;(2)應用方便快捷,便于管理統(tǒng)計。

      缺點:(1)要求各個集合數(shù)據(jù)的量綱一致,即取值的口徑一致,否則被描述的特征差異性有可能被夸大或縮??;(2)量綱不一致時需進行額外轉換。

      2.3.5 統(tǒng)計學習

      與傳統(tǒng)統(tǒng)計學研究的樣本數(shù)趨于無窮大相比,數(shù)據(jù)挖掘統(tǒng)計學習是一種基于小樣本,研究經驗數(shù)據(jù)的機器學習規(guī)律。從傳統(tǒng)統(tǒng)計學移植過來的貝葉斯分類、Logistic回歸分析和方差分析技術等,成為數(shù)據(jù)挖掘應用中的工具。通過觀測和研究現(xiàn)有數(shù)據(jù),得出一定的規(guī)律,并利用這些規(guī)律分析客觀現(xiàn)象,預測未來的數(shù)據(jù)。

      2.3.6 模糊集和粗糙集

      模糊集使用隸屬關系的函數(shù)來描述對象屬于集合程度的連續(xù)過渡,即元素從屬于集合漸變到不屬于集合的過程。其特點是沒有明晰的邊界。

      粗糙集描述不確定性和不完整性,能有效分析各種不完備數(shù)據(jù),找出數(shù)據(jù)當中隱含的知識,揭示潛在規(guī)律。

      3 食品安全風險評估中數(shù)據(jù)挖掘方法的擇取

      3.1 食品安全風險評估工作現(xiàn)狀

      目前,我國食品安全風險監(jiān)測的機制,都是基于食品安全風險監(jiān)測的檢測結果。通過檢測結果,掌握某區(qū)域某類食品安全狀況,從側面反映食品安全監(jiān)管工作的水平,客觀評估、發(fā)布食品安全情況信息。沒有檢測結果,一切都是空談。

      事實上,由于食品種類和數(shù)目巨大,人力物力的不足,食品安全風險監(jiān)測只能采取抽檢的形式。食品安全涉及到食品原材料的種植、生產、加工、流通、銷售的全環(huán)節(jié),影響因素多,涉及面廣;食品安全風險監(jiān)測樣品的檢測結果又與食品類別、生產時間地點以及檢測項目相關;食品自身,特別是原料和制成品,之間也存在著關聯(lián)。傳統(tǒng)的數(shù)理統(tǒng)計分析方法只能分析已有數(shù)據(jù),無法發(fā)現(xiàn)數(shù)據(jù)之間的潛在聯(lián)系,對檢測結果的利用率低,存在數(shù)據(jù)浪費的情況。對于得出檢測結果的食品,可以使用數(shù)理統(tǒng)計分析;對于未抽檢或者尚未得到檢測結果的食品,數(shù)理統(tǒng)計則無能為力。

      可見,數(shù)據(jù)挖掘的預測功能對于食品安全風險評估工作的推進作用是巨大的。

      3.2 數(shù)據(jù)挖掘方法的比較與擇取

      食品安全風險監(jiān)測的抽檢模式無法改變、采取隨機抽取樣品的方式、根據(jù)公眾飲食習慣和關注度對不同類別的食品執(zhí)行不一樣的檢測力度和頻度、樣品檢測項目的不盡相同,這些客觀因素決定了食品安全檢測數(shù)據(jù)通常是離散、比較稀疏的。對比上述數(shù)據(jù)挖掘常用技術的優(yōu)缺點,可以看到:

      (1)決策樹,用于分類與預測。根據(jù)已知知識構造一棵決策樹,用于預測樣品的風險值。但由于決策樹無法處理缺項漏項,且只能處理檢測結果已知的情況,無法預測未檢測或未得出檢測結果的情況,因此不適用。

      (2)人工神經網絡的優(yōu)勢在于并行結果處理問題,具有良好容錯性,全局性優(yōu)勢明顯;自組織、自學習能力適合預測。但由于其算法的復雜性、設計要求高、難度大,不適用于食品安全風險評估。

      (3)聚類分析常用于分析和識別,預測功能較弱,也不適用。

      (4)統(tǒng)計學習同樣因為只能處理檢測結果已知的情況,無法預測未檢測或未得出檢測結果的情況,因此不適用。

      (5)關聯(lián)規(guī)則能夠發(fā)現(xiàn)大量數(shù)據(jù)之間的相關聯(lián)系,可以利用知識庫里關聯(lián)規(guī)則,不管樣品是否已知檢測結果,都能預測樣品的風險值。關聯(lián)規(guī)則挖掘在使用時過程比較清晰,結果易于理解,且關聯(lián)規(guī)則Apriori算法屬于廣度優(yōu)先策略,適用于食品安全檢測數(shù)據(jù)離散、稀疏的特點。

      綜上所述,關聯(lián)規(guī)則挖掘是最適合在食品安全風險評估工作中使用的數(shù)據(jù)挖掘技術。

      4 結束語

      目前,數(shù)據(jù)挖掘技術在市場營銷、個人信用風險評估、電信業(yè)務辦理等方面應用較多,但在食品安全風險評估方面的應用較少。關聯(lián)規(guī)則挖掘的能夠發(fā)現(xiàn)數(shù)據(jù)之間的相關聯(lián)系,適用于食品安全風檢測結果的分析和利用。關聯(lián)規(guī)則挖掘技術能找出一些有趣的規(guī)則,能為食品安全監(jiān)管提供依據(jù),提高風險評估工作的效率。

      參考文獻:

      [1]Han Jiawei,Michelin Kamber.數(shù)據(jù)挖掘概念核技術(第2版)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2007.

      [2]紀希禹.數(shù)據(jù)挖掘技術應用實例[M].北京:機械工業(yè)出版社,2009.

      [3]陳文偉,黃金才,趙新昱.數(shù)據(jù)挖掘技術[M].北京:北京工業(yè)大學出版社,2002.

      [4]陳曉紅.數(shù)據(jù)挖掘的過程?技術及其工具[J].武漢科技學院學報,2006.

      [5]http://datamininglab.com/[OL].

      作者簡介:楊劼(1981-),男,廣西南寧人,廣西大學2008級計算機與電子信息學院工程碩士,主要從事數(shù)據(jù)挖掘研究、數(shù)據(jù)庫應用。

      作者單位:廣西大學 計算機與電子信息學院,南寧 530001

      汉中市| 新营市| 古田县| 茶陵县| 定安县| 永清县| 邢台县| 吉林省| 连城县| 商河县| 岑溪市| 镇坪县| 平阳县| 郸城县| 古蔺县| 甘洛县| 湾仔区| 磐石市| 天祝| 平定县| 盐山县| 时尚| 灵武市| 碌曲县| 广南县| 宜宾市| 深圳市| 宜丰县| 泰来县| 永济市| 湘西| 延川县| 景德镇市| 通州市| 易门县| 高密市| 靖州| 新绛县| 慈溪市| 六盘水市| 莆田市|