邊春娜 趙春青 鄧云嵐
摘 要:本文結(jié)合食品安全檢測(cè)數(shù)據(jù)的特點(diǎn),將數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則方法應(yīng)用到食品安全檢測(cè)數(shù)據(jù)中來,挖掘出其中的隱含規(guī)則,為食品安全監(jiān)督提供政策支持,提高監(jiān)督的效率。
關(guān)鍵詞:食品安全; 數(shù)據(jù)挖掘; 關(guān)聯(lián)規(guī)則
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-3315(2014)12-188-001
數(shù)據(jù)挖掘是數(shù)據(jù)分析的新技術(shù),它可從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中人們事先不知道的但又是潛在有用的信息或知識(shí)。數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則能夠發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間的相關(guān)聯(lián)系,適用于食品安全檢測(cè)數(shù)據(jù)的分析。
本文分析了食品安全檢測(cè)數(shù)據(jù)的特點(diǎn),并通過具體實(shí)例,得到了對(duì)食品安全監(jiān)管進(jìn)行決策支持的規(guī)則,這為將關(guān)聯(lián)規(guī)則技術(shù)引入食品安全監(jiān)管輔助系統(tǒng)打下了基礎(chǔ)。
1.食品安全檢測(cè)數(shù)據(jù)特點(diǎn)分析
食品安全檢測(cè)中,對(duì)抽取的樣品進(jìn)行檢驗(yàn)得到的信息經(jīng)整理后存放在一個(gè)事務(wù)數(shù)據(jù)庫里,這些數(shù)據(jù)的特點(diǎn)如下:
1.1存放這些檢測(cè)數(shù)據(jù)的數(shù)據(jù)庫中通常包含:食品的名稱、種類、產(chǎn)地、抽檢樣品號(hào)、檢測(cè)時(shí)間、檢測(cè)項(xiàng)目、檢測(cè)結(jié)果及單位、檢測(cè)點(diǎn)、檢測(cè)負(fù)責(zé)人等等。
1.2同類樣品所檢測(cè)項(xiàng)目分布不均。每個(gè)樣品通常檢測(cè)多個(gè)項(xiàng)目,不同項(xiàng)目施檢頻率不同。對(duì)于關(guān)注程度高、風(fēng)險(xiǎn)較大的項(xiàng)目,施檢頻率高;而對(duì)于關(guān)注程度低、風(fēng)險(xiǎn)較小的項(xiàng)目,施檢頻率低。
1.3檢測(cè)的項(xiàng)目通常分為2種:第1種是病原微生物、禁用物質(zhì)類危害物,其主要特點(diǎn)就是該類危害物一旦有檢出,即被視為陽性,這類項(xiàng)目的檢測(cè)結(jié)果只有“檢出”和“未檢出”2種;第2種是限量類危害物,主要是指有著最大殘留限量規(guī)定的危害物,其類別涉及到農(nóng)藥殘留、獸藥殘留、食品添加劑、有害元素、工業(yè)污染物等,這類項(xiàng)目的檢測(cè)結(jié)果為數(shù)值型數(shù)據(jù)。
2.關(guān)聯(lián)規(guī)則挖掘介紹
存放食品安全檢測(cè)信息的事務(wù)數(shù)據(jù)庫中,每個(gè)記錄代表1個(gè)事務(wù)。每個(gè)事務(wù)包含1個(gè)唯一的事務(wù)標(biāo)識(shí)號(hào)(如抽檢樣品號(hào))和1個(gè)組成事務(wù)的項(xiàng)的列表(如檢驗(yàn)的時(shí)間、檢驗(yàn)的項(xiàng)目、食品的類別、產(chǎn)地等等)。我們把項(xiàng)的集合稱為項(xiàng)集(itemset),包含k個(gè)項(xiàng)的項(xiàng)集稱為項(xiàng)集,如集合{類別代碼,檢測(cè)日期,項(xiàng)目一,項(xiàng)目二}是一個(gè)項(xiàng)集。
設(shè)I={i1,i2,…,im}是項(xiàng)的集合。設(shè)要挖掘的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,使得T?哿I。設(shè)A是一個(gè)項(xiàng)集,當(dāng)且僅當(dāng)A?哿T時(shí),事務(wù)T包含A。關(guān)聯(lián)規(guī)則是形如A?圯B(sup,conf)的蘊(yùn)涵式,其中A?奐I,B?奐I,并且A∩B=?準(zhǔn)。把sup稱為支持度,是D中同時(shí)包含A和B的事務(wù)的百分比,也就是sup port(A?圯B)=P(A∪B)Conf idence(A?圯B)=P(B|A)。
同時(shí)滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則X?圯Y解釋為Y滿足X中條件的數(shù)據(jù)庫元組多半也滿足Y中條件T。
項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),簡稱為項(xiàng)集的頻率、支持計(jì)數(shù)或計(jì)數(shù)。如果項(xiàng)集的出現(xiàn)頻率大于或等于最小支持計(jì)數(shù)(即min_與D中事務(wù)總數(shù)的乘積),則項(xiàng)集滿足最小支持計(jì)度min_sup,這時(shí)稱它為頻繁項(xiàng)集。
關(guān)聯(lián)規(guī)則的挖掘是一個(gè)2步的過程:(1)找出所有頻繁項(xiàng)集:需滿足最小支持度。(2)由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則:需滿足置信度。
3.設(shè)計(jì)
一個(gè)完整的挖掘過程包括數(shù)據(jù)的預(yù)處理和關(guān)聯(lián)規(guī)則挖掘。
3.1預(yù)處理。將食品的種類、產(chǎn)地、檢測(cè)時(shí)間、檢測(cè)項(xiàng)目及結(jié)果提取出來之后,得到的數(shù)據(jù)不適于直接進(jìn)行分析,先要進(jìn)行預(yù)處理。
針對(duì)不規(guī)范的限量類項(xiàng)目檢測(cè)結(jié)果,首先將其中非數(shù)值的數(shù)據(jù)進(jìn)行清洗,刪除檢測(cè)結(jié)果空缺的記錄,將檢測(cè)結(jié)果為“未檢出”或“ND”轉(zhuǎn)換為“0”,形如“<30”和“>500”的紀(jì)錄替換為某一確定值,在這里為了簡化直接用“<”和“>”之后的數(shù)值來替換。
另外由于關(guān)聯(lián)規(guī)則分析的數(shù)據(jù)為離散型,所以需將限量類項(xiàng)目的數(shù)值型檢測(cè)結(jié)果離散化。根據(jù)一般危害物風(fēng)險(xiǎn)分析中等級(jí)劃分方法,把檢測(cè)結(jié)果劃分為低等風(fēng)險(xiǎn)、中等風(fēng)險(xiǎn)和高等風(fēng)險(xiǎn)3個(gè)等級(jí)。
3.2關(guān)聯(lián)規(guī)則挖掘。根據(jù)食品檢測(cè)項(xiàng)目數(shù)據(jù)分布不均的特點(diǎn),選擇廣度優(yōu)先算法Apriori。它基于這樣的思想:頻繁項(xiàng)集的所有非空子集都必須也是頻繁的。Apriori使用1種稱作逐層搜索的迭代方法,k-項(xiàng)集用于探索(k+1)-項(xiàng)集。首先,找出頻繁1-項(xiàng)集的集合,該集合記作L1。L1用于找頻繁2-項(xiàng)集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k-項(xiàng)集。找每個(gè)Lk需要一次數(shù)據(jù)庫掃描。
找出頻繁項(xiàng)集之后,使用最小置信度min_conf約束對(duì)每個(gè)頻繁項(xiàng)集進(jìn)行檢驗(yàn)。符合該約束的規(guī)則即為所求,進(jìn)行輸出。
4.應(yīng)用實(shí)例
本實(shí)例中所涉及到的數(shù)據(jù)取自某檢疫局提供的食品安全檢測(cè)數(shù)據(jù)庫。
在數(shù)據(jù)預(yù)處理的離散化部分,根據(jù)數(shù)據(jù)分布情況,選取衛(wèi)生標(biāo)準(zhǔn)值1/2、衛(wèi)生標(biāo)準(zhǔn)值為分界點(diǎn),將其離散化為低等風(fēng)險(xiǎn)、中等風(fēng)險(xiǎn)和高等風(fēng)險(xiǎn)。在關(guān)聯(lián)規(guī)則挖掘部分,設(shè)置最小支持度為10%,最小置信度為90%,進(jìn)行挖掘。
挖掘產(chǎn)生的規(guī)則中,取幾條具代表性的進(jìn)行分析:
(1)時(shí)間=第四季度∧食品類別=果酒&葡萄酒?圯總二氧化硫=低等風(fēng)險(xiǎn)。
(2)出口國代碼=826∧食品類別=谷類蒸餾酒?圯甲醇=低等風(fēng)險(xiǎn)。
(3)出口國代碼=554∧食品類別=乳制品沙門氏菌=未檢出?圯金黃色葡萄球菌=未檢出。
上面的例子可以看出,由于食品中危害物殘留量受多方面因素影響,可能與食品種類、時(shí)間、產(chǎn)地、當(dāng)?shù)丶庸ぶ圃爝^程甚至其他危害物等諸多因素都有關(guān),所以在實(shí)際的應(yīng)用中,需結(jié)合專業(yè)知識(shí)來分析挖掘所產(chǎn)生的規(guī)則。
5.結(jié)語
關(guān)聯(lián)規(guī)則挖掘方法在對(duì)食品安全檢測(cè)數(shù)據(jù)中多因素的分析上,有著數(shù)理統(tǒng)計(jì)方法不可比擬的優(yōu)勢(shì)。將關(guān)聯(lián)規(guī)則挖掘引入食品安全監(jiān)測(cè)數(shù)據(jù)分析,可以更有效的從已有檢測(cè)數(shù)據(jù)中發(fā)掘有用信息,對(duì)食品安全監(jiān)管制定決策有一定的輔助作用。
基金項(xiàng)目:保定市科學(xué)技術(shù)協(xié)會(huì)科研課題《保定市食品質(zhì)量安全體系的研究》(KX2013A17)
參考文獻(xiàn):
[1]黃志權(quán).食品衛(wèi)生監(jiān)測(cè)在食品安全監(jiān)管中的作用[J]中國公共衛(wèi)生管理,2005年21期
[2]章杰鑫,張烈平.基于時(shí)序關(guān)聯(lián)規(guī)則的商品需求預(yù)測(cè)[J]計(jì)算機(jī)工程,2009年22期