王雅潔等
摘要 食品安全綜合評價與預(yù)警是食品安全的重難點(diǎn)。該研究著重介紹了大數(shù)據(jù)挖掘在食品安全風(fēng)險(xiǎn)預(yù)警領(lǐng)域的應(yīng)用。首先對大數(shù)據(jù)的基本概念及3種典型的大數(shù)據(jù)挖掘技術(shù)(貝葉斯網(wǎng)絡(luò)、決策樹以及人工神經(jīng)網(wǎng)絡(luò))概念進(jìn)行分析,并探討這3種大數(shù)據(jù)挖掘方式在食品安全行業(yè)的應(yīng)用現(xiàn)狀。之后比較3種大數(shù)據(jù)挖掘方式,提出將其中一種大數(shù)據(jù)挖掘方式BP神經(jīng)網(wǎng)絡(luò)運(yùn)用于食品安全風(fēng)險(xiǎn)預(yù)警的構(gòu)想。
關(guān)鍵詞:食品安全;大數(shù)據(jù)挖掘;風(fēng)險(xiǎn)預(yù)警;貝葉斯網(wǎng)絡(luò);決策樹;BP神經(jīng)網(wǎng)絡(luò)
中圖分類號:S126;TP39 文獻(xiàn)標(biāo)識碼 A 文章編號 0517-6611(2015)08-332-03
近年來,信息產(chǎn)業(yè)界的新興服務(wù)飛速發(fā)展,各行業(yè)的數(shù)據(jù)種類和規(guī)模呈現(xiàn)指數(shù)級增長,我國大數(shù)據(jù)的時代已正式開啟。大數(shù)據(jù)概念的興起為人們提供了一種新的看待世界的方法,為了讓存于數(shù)據(jù)倉庫中的大量數(shù)據(jù)變得有價值,對大數(shù)據(jù)的挖掘成為普遍關(guān)注的話題。與此同時,食品安全事件在我國頻頻發(fā)生,如“瘦肉精”中毒事件、“蘇丹紅”事件、劣質(zhì)奶粉事件、“三聚氰胺”事件以及有毒大米事件等,嚴(yán)重威脅群眾的身體健康,引起極大的負(fù)面社會效應(yīng)。因此食品安全綜合評價與預(yù)警越來越成為食品安全的重點(diǎn)。尋找有效的預(yù)警方式能夠極大程度地提高食品安全水平,大數(shù)據(jù)挖掘技術(shù)正是這樣一種有效的預(yù)警方式。筆者對大數(shù)據(jù)的基本概念進(jìn)行剖析,并分析大數(shù)據(jù)挖掘中3種典型的挖掘方式及其在食品安全領(lǐng)域的應(yīng)用,對比分析3種大數(shù)據(jù)挖掘方式應(yīng)用于食品安全風(fēng)險(xiǎn)預(yù)警領(lǐng)域的適應(yīng)度,在此基礎(chǔ)上,選取其中較優(yōu)的大數(shù)據(jù)挖掘方式,探討將其應(yīng)用于食品風(fēng)險(xiǎn)預(yù)警領(lǐng)域的初步設(shè)想。
1 大數(shù)據(jù)概述
大數(shù)據(jù)是一個比較抽象的概念,僅從字面上來看,表示數(shù)據(jù)規(guī)模龐大,數(shù)據(jù)多元化等。對于大數(shù)據(jù)的定義,目前沒有一個比較統(tǒng)一的、公認(rèn)的定義?!按髷?shù)據(jù)”這個術(shù)語最初始的引用可追溯到apache org的開源項(xiàng)目Nutch。那時候,大數(shù)據(jù)曾被定義為“更新網(wǎng)絡(luò)搜索所需要進(jìn)行批量處理或分析的大量數(shù)據(jù)”[1]。維基百科認(rèn)為大數(shù)據(jù)是任何大量復(fù)雜的,難以用傳統(tǒng)的數(shù)據(jù)處理方式處理的數(shù)據(jù)集[2]。Grobelink則定義大數(shù)據(jù)應(yīng)具有以下3個特點(diǎn)(3V):Volume(規(guī)模性)、Veocity(高速型)和Variety(多樣性)[3],這也是目前比較廣泛且具有代表性的定義。此外,在“3V”的基礎(chǔ)上,某些大型企業(yè)提出了“4V”定義,即在已有3V 的基礎(chǔ)上再添加一個新的特性。目前,關(guān)于第四個“V”的定義還未統(tǒng)一,IDC 認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價值性(Value)[4],而IBM認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(Veracity)[5]。
2 3種大數(shù)據(jù)挖掘方式原理概況及在食品安全行業(yè)的應(yīng)用現(xiàn)狀
幾年來,隨著計(jì)算機(jī)硬件穩(wěn)定的發(fā)展,大量功能強(qiáng)大數(shù)據(jù)收集設(shè)備和存儲介質(zhì)被廣泛供應(yīng)在市場上,與此同時大力促進(jìn)了數(shù)據(jù)庫的發(fā)展,使得大量信息和數(shù)據(jù)存儲與數(shù)據(jù)庫中[6]。在大數(shù)據(jù)庫中大量的數(shù)據(jù)成了“數(shù)據(jù)墳?zāi)埂保绾巫屵@些海量的數(shù)據(jù)“蘇醒”過來,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)變成為有價值的知識“金塊”,人們需要尋求有效的解決方式。大數(shù)據(jù)挖掘技術(shù)正是這樣一種解決數(shù)據(jù)和知識之間的鴻溝,將數(shù)據(jù)轉(zhuǎn)變成知識的有效方式。大數(shù)據(jù)挖掘是將潛在隱含的信息從數(shù)據(jù)中提取,通過開發(fā)計(jì)算機(jī)程序在數(shù)據(jù)庫中進(jìn)行自動挖掘,以發(fā)現(xiàn)規(guī)律或模式的一種有效手段[6]。大數(shù)據(jù)挖掘,即“從大數(shù)據(jù)中挖掘知識”[7]。如果能從對海量數(shù)據(jù)的挖掘中發(fā)現(xiàn)明顯的模式,這些模式可被人們總結(jié)、理解和設(shè)計(jì),并可用來對未來大規(guī)模的數(shù)據(jù)做出準(zhǔn)確的預(yù)測。大數(shù)據(jù)挖掘方式基于傳統(tǒng)的數(shù)據(jù)挖掘,而數(shù)據(jù)挖掘技術(shù)由眾多學(xué)科領(lǐng)域技術(shù)的集成,比較常見的包括機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、模式識別、高性能計(jì)算等。常見的機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘技術(shù)有貝葉斯網(wǎng)絡(luò)(Bayesian Network)、決策樹(Decision Tree)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neuron Network)等。
2.1 貝葉斯網(wǎng)絡(luò) 貝葉斯網(wǎng)絡(luò)是由Pearl在1988年提出的。貝葉斯網(wǎng)絡(luò)是一種不確定的表示模式,實(shí)質(zhì)上是一個賦值的復(fù)雜因果關(guān)系網(wǎng)絡(luò),表現(xiàn)為一種有向無環(huán)圖(directed acyclic graph,DGA)[8]。每個網(wǎng)絡(luò)中的結(jié)點(diǎn)代表一個變量,即為一個事件。變量之間的弧表示事件發(fā)生的直接因果關(guān)系?;〉囊?guī)則使得貝葉斯網(wǎng)絡(luò)能夠很好地表示那些不確定的內(nèi)在概率。貝葉斯網(wǎng)絡(luò)反映整個數(shù)據(jù)域中數(shù)據(jù)間的概率關(guān)系,可被用來發(fā)現(xiàn)令人信服的概率依賴關(guān)系。貝葉斯網(wǎng)絡(luò)是一個十分簡潔,易于理解的模型?;诶斫庑袨?、結(jié)果及它們之間因果關(guān)系的條件下,合理的解釋可能出現(xiàn)的結(jié)果,從而進(jìn)行預(yù)測和決策[10]。貝葉斯網(wǎng)絡(luò)能有效處理不完整數(shù)據(jù),能和其他技術(shù)相結(jié)合進(jìn)行因果分析。同時貝葉斯網(wǎng)絡(luò)能夠使先驗(yàn)知識和數(shù)據(jù)有機(jī)結(jié)合,且有效地避免數(shù)據(jù)的過度擬合。
貝葉斯網(wǎng)絡(luò)在食品行業(yè)中的運(yùn)用,比較有代表性的是用于食品產(chǎn)品設(shè)計(jì)[11]。例如,在食品貝葉斯網(wǎng)絡(luò)建模中,如果知道人們普遍喜歡甜的食品,在樣本中也存在既甜又受歡迎的食品,那么貝葉斯網(wǎng)絡(luò)推理出這個食品的顏色將會影響其受歡迎程度。而傳統(tǒng)基于規(guī)則的專家推薦系統(tǒng)由于系統(tǒng)是模塊劃的,其中的一些規(guī)則與其他規(guī)則或數(shù)據(jù)源的內(nèi)容無關(guān),則不能處理類似此類情況的問題,而貝葉斯網(wǎng)絡(luò)中的條件概率則解決了這一問題。此外,貝葉斯網(wǎng)絡(luò)模型是風(fēng)險(xiǎn)評價概率統(tǒng)計(jì)模型的代表,曾被應(yīng)用于食品供應(yīng)鏈的風(fēng)險(xiǎn)概率估計(jì)[12]。通過裁剪食品供應(yīng)鏈中物流、信息流和資金流等風(fēng)險(xiǎn)因素,分析初始風(fēng)險(xiǎn)事件,建立貝葉斯網(wǎng)絡(luò)模型進(jìn)行風(fēng)險(xiǎn)評價。由于食品供應(yīng)鏈對于不同的初始事件響應(yīng)不同,事件發(fā)展過程及結(jié)果也是不同的。通過獲取貝葉斯網(wǎng)絡(luò)中每個節(jié)點(diǎn)關(guān)系的條件概率值,計(jì)算聯(lián)合概率,即可得到食品的風(fēng)險(xiǎn)值。
2.2 決策樹 決策樹是機(jī)器學(xué)習(xí)中應(yīng)用相對廣泛的歸納推理算法之一,通過逼近離散值函數(shù)的方法,以優(yōu)先選擇較小的“樹”為原則,將學(xué)習(xí)到的函數(shù)表示為一棵決策樹。決策樹能夠很好地學(xué)習(xí)噪聲數(shù)據(jù),從中學(xué)習(xí)規(guī)律,析取表達(dá)式[13]。在決策樹中,每個節(jié)點(diǎn)都代表一個特定的實(shí)例,這些實(shí)例被決策樹從根節(jié)點(diǎn)依次排列到葉子結(jié)點(diǎn)上。決策樹通過判定來分類實(shí)例,實(shí)例所屬的分類最終被表現(xiàn)在葉子節(jié)點(diǎn)上。實(shí)例的分類方式是從決策樹的根節(jié)點(diǎn)開始。依次選擇某個實(shí)例的屬性值,然后根據(jù)該屬性對應(yīng)的樹枝繼續(xù)向下至另一個節(jié)點(diǎn)(實(shí)例)。接著以新實(shí)例為決策樹的根循環(huán)以上步驟,最終可得到實(shí)例的分類。通過從根到葉子節(jié)點(diǎn)的路徑選擇來生成規(guī)則集合,該集合可以高度地概括和歸納樣本數(shù)據(jù)規(guī)則,并且精準(zhǔn)地判別樣本的個體屬性,同時也可以應(yīng)用于預(yù)測或判別新的樣本屬性。
決策樹分析法通過樹狀的邏輯思維方式解決復(fù)雜決策問題,是以風(fēng)險(xiǎn)分析為依據(jù)的決策方法。決策樹在食品行業(yè)的運(yùn)用有基于農(nóng)產(chǎn)品的食品安全評估研究[14],其針對影響農(nóng)產(chǎn)品質(zhì)量安全的數(shù)據(jù)特點(diǎn),結(jié)合降維方式進(jìn)行數(shù)據(jù)預(yù)處理,找出影響質(zhì)量安全的主要特征值,并構(gòu)建基于組合優(yōu)化決策樹的農(nóng)產(chǎn)品質(zhì)量安全判別模型,選取如地下水重金屬含量、土壤pH、種植規(guī)模性等不同的農(nóng)產(chǎn)品影響因素作為決策樹的屬性。將數(shù)據(jù)樣本分成訓(xùn)練集和測試集,通過訓(xùn)練,得到規(guī)則集合。將測試集中的數(shù)據(jù)樣本輸入決策樹模型,計(jì)算準(zhǔn)確率,從而得到?jīng)Q策樹方法是否能對農(nóng)產(chǎn)品質(zhì)量安全風(fēng)險(xiǎn)進(jìn)行評估的結(jié)論。決策樹還被運(yùn)用于具體檢測指標(biāo)來評價油炸性方便面的品質(zhì)等[15]。
2.3 人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)來源于生物學(xué),通過模擬生物學(xué)中相互連接神經(jīng)元組成的復(fù)雜網(wǎng)絡(luò)進(jìn)行建模,是一種學(xué)習(xí)精度較高的數(shù)據(jù)挖掘方式。由于神經(jīng)網(wǎng)絡(luò)能夠很好地學(xué)習(xí)數(shù)據(jù)中的錯誤,通過訓(xùn)練精準(zhǔn)的發(fā)現(xiàn)數(shù)據(jù)中的隱含規(guī)律,目前已被成功應(yīng)用到很多領(lǐng)域。目前,人工神經(jīng)網(wǎng)絡(luò)模型有近10種,常見人工神經(jīng)網(wǎng)絡(luò)為反向傳播(BP)神經(jīng)網(wǎng)絡(luò)[13],神經(jīng)元被分布在不同的層級之中,每一個層級含有一個或多個神經(jīng)元。每一個神經(jīng)元里有一定量的輸入值(可能為上一層神經(jīng)元的輸出)及輸出值(可能將會作為下一層神經(jīng)元的輸入)。每一層級中的每一個神經(jīng)元,都會跟上一層級及下一層級中的每個神經(jīng)元進(jìn)行交互,通過正向傳播、權(quán)值調(diào)整和反向傳播,極大程度地學(xué)習(xí)所給的數(shù)據(jù)集,從而訓(xùn)練好模型。神經(jīng)網(wǎng)絡(luò)擁有健壯性很強(qiáng)的學(xué)習(xí)能力,其為向量值、離散值或?qū)崝?shù)值的逼近提供了一種很好的方式。
BP神經(jīng)網(wǎng)絡(luò)具有高度非線性函數(shù)映射功能,且其擁有分布式的信息存儲能力及大規(guī)模的并行處理能力,其良好的自適應(yīng)性、較強(qiáng)的抗干擾能力使得其擁有較強(qiáng)的學(xué)習(xí)能力。BP神經(jīng)網(wǎng)絡(luò)是人工智能中對不確定性問題處理具有高度解決能力的方法,其曾與主成分分析結(jié)合被用于近紅外光譜蘋果品種鑒別方法研究[16],該研究首先使用主成分分析對蘋果進(jìn)行聚類并獲取蘋果的進(jìn)紅外指紋圖譜,即對于蘋果品種敏感的特征波段,用特征波段圖譜作為神經(jīng)網(wǎng)絡(luò)的輸入,品種作為輸出,建立模型,進(jìn)行訓(xùn)練,之后對未知的樣品進(jìn)行預(yù)測。這樣的品種識別準(zhǔn)確率達(dá)到了100%。此外,BP神經(jīng)網(wǎng)絡(luò)還被用于冬小麥耗水預(yù)測[17]、大米直鏈淀粉含量預(yù)測等[18]。
3 3種大數(shù)據(jù)挖掘方式應(yīng)用于食品安全風(fēng)險(xiǎn)預(yù)警領(lǐng)域的適應(yīng)度對比研究
貝葉斯網(wǎng)絡(luò)、決策樹、BP神經(jīng)網(wǎng)絡(luò)都是數(shù)據(jù)挖掘中最有效的分類方式。通過建模訓(xùn)練,模型從中學(xué)習(xí)分類規(guī)則,當(dāng)存在新的未知種類數(shù)據(jù)時,根據(jù)學(xué)習(xí)經(jīng)驗(yàn),模型具有辨識能力,人們稱這樣的能力為預(yù)測。其中,貝葉斯的實(shí)現(xiàn)方式是通過依次計(jì)算出數(shù)據(jù)屬于某一類的概率值,其中概率最大的類即為對象的所屬分類。在貝葉斯分類中,所有的屬性都會參與計(jì)算及分類。決策樹是一棵二叉樹或多叉樹,針對離散型變量,通過判定的方式,自上而下遞歸構(gòu)造,樹的各個葉節(jié)點(diǎn)都代表一個分類。而BP神經(jīng)網(wǎng)絡(luò)是基于感知器的分類器,通過訓(xùn)練模式的迭代和學(xué)習(xí)算法,產(chǎn)生線性或非線性的可分別判別函數(shù)。只需給定神經(jīng)網(wǎng)絡(luò)大量的輸入和目標(biāo)輸出對,BP神經(jīng)網(wǎng)絡(luò)通過正向傳播、權(quán)值調(diào)整及反向傳播,進(jìn)行訓(xùn)練。神經(jīng)網(wǎng)絡(luò)把所學(xué)到的知識規(guī)律記憶在網(wǎng)絡(luò)的權(quán)值中,從而找出數(shù)據(jù)隱含規(guī)則。BP人工神經(jīng)網(wǎng)絡(luò)的權(quán)值不是通過計(jì)算,而是通過網(wǎng)絡(luò)自身的訓(xùn)練來完成的。
從準(zhǔn)確度來看,數(shù)據(jù)量越大,訓(xùn)練集則越多,分類器也就越精準(zhǔn)。貝葉斯網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度較高,而決策樹的精準(zhǔn)性很大程度取決于數(shù)據(jù)的完整程度,某些字段上的缺值會影響其準(zhǔn)確性。缺值越多,則決策樹越不精準(zhǔn),且決策樹存在過擬合現(xiàn)象的幾率較高。針對食品安全檢測數(shù)據(jù)來說,檢測指標(biāo)較多,且很多檢測結(jié)果值為“不判定”或“未檢出”,導(dǎo)致缺值過多,會對決策樹的學(xué)習(xí)造成較大的影響。
從訓(xùn)練速度來看,在大數(shù)據(jù)環(huán)境下,針對某種食品的檢測指標(biāo)繁多,即屬性繁多。由于貝葉斯網(wǎng)絡(luò)依賴于概率計(jì)算,屬性組合的計(jì)算復(fù)雜程度會增加,使得預(yù)測難度加大,需要的時間也會更長。決策樹由于進(jìn)行深度優(yōu)先搜索,算法受內(nèi)存大小限制,難于處理大訓(xùn)練集,所以隨著數(shù)據(jù)量增長,決策樹的處理速度也會減慢很多。而基于感知器的神經(jīng)網(wǎng)絡(luò),由于本身對處理不確定問題具有高度的解決能力,大量神經(jīng)元的圍觀活動構(gòu)成了神經(jīng)網(wǎng)絡(luò)的總體宏觀效應(yīng),并且有很好的自適應(yīng)性,隨著數(shù)據(jù)量的增大,模型會越來越精準(zhǔn)。不同于貝葉斯網(wǎng)絡(luò)和決策樹,神經(jīng)網(wǎng)絡(luò)是通過自我權(quán)值調(diào)整進(jìn)行規(guī)則學(xué)習(xí),因此從訓(xùn)練速度上,也會優(yōu)于前2種算法。
從健壯性來看,由于食品檢測數(shù)據(jù)常常出現(xiàn)空缺值(e.g.如不判定),或是噪聲(e.g.如檢測不準(zhǔn)確),而對于有噪聲或空缺值時,由于貝葉斯網(wǎng)絡(luò)是通過概率計(jì)算來實(shí)現(xiàn),無法準(zhǔn)確地定義噪聲或空缺值概率,會對模型訓(xùn)練造成一定的影響。決策樹由于自身容錯性較差,數(shù)據(jù)依賴性過強(qiáng),數(shù)據(jù)噪聲或不完整性都會對構(gòu)建決策樹模型造成影響。而神經(jīng)網(wǎng)絡(luò)本身具有較高的容錯性,若一部分?jǐn)?shù)據(jù)不完整,則神經(jīng)網(wǎng)絡(luò)可以從另一部分?jǐn)?shù)據(jù)中學(xué)習(xí)隱含規(guī)律,通過自身權(quán)值調(diào)整,進(jìn)行規(guī)律學(xué)習(xí),從而構(gòu)造健壯的模型。
綜上所述,BP神經(jīng)網(wǎng)絡(luò)以其準(zhǔn)確率性高,訓(xùn)練速度快,健壯性強(qiáng)優(yōu)于其他2種數(shù)據(jù)挖掘方式,且其以并行處理、自學(xué)習(xí)自適應(yīng)強(qiáng),實(shí)時性、容錯性強(qiáng)等見長。且BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的靈活度,新的訓(xùn)練數(shù)據(jù)集可以簡便的被用于模型訓(xùn)練當(dāng)中,從而提高模型的準(zhǔn)確性,很適合應(yīng)用于食品安全風(fēng)險(xiǎn)預(yù)警領(lǐng)域。因此,該研究探討將BP神經(jīng)網(wǎng)絡(luò)運(yùn)用到食品安全預(yù)警領(lǐng)域的具體設(shè)想。
4 BP神經(jīng)網(wǎng)絡(luò)在食品風(fēng)險(xiǎn)預(yù)警領(lǐng)域的可能性運(yùn)用設(shè)想
BP神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)中的一種,是人工智能的重要工具,其通過大量樣本訓(xùn)練得到模型隱含規(guī)律。
在食品檢測中,人們往往得到簡單的“合格”或“不合格”的判定結(jié)果。這樣的檢測結(jié)果雖一目了然,但是對于食品安全風(fēng)險(xiǎn)的控制并無幫助。如果能基于食品各檢測指標(biāo)的具體檢測值,對該食品的風(fēng)險(xiǎn)程度進(jìn)行一個分級評價,有助于為有關(guān)風(fēng)險(xiǎn)評價部門提供決策支持。
傳統(tǒng)的風(fēng)險(xiǎn)評級方式有專家打分[19]、風(fēng)險(xiǎn)矩陣[20]等。這些的方式雖然較準(zhǔn)確,但由于專家打分基于人為評價,風(fēng)險(xiǎn)矩陣計(jì)算復(fù)雜度高,耗費(fèi)較高的人力、物力,都不適用于食品安全大數(shù)據(jù)的風(fēng)險(xiǎn)預(yù)警。于是可根據(jù)BP神經(jīng)網(wǎng)絡(luò)潛在的規(guī)律,讓其學(xué)習(xí)專家打分方式的風(fēng)險(xiǎn)分級。當(dāng)存在新的檢測數(shù)據(jù)時,其可根據(jù)學(xué)習(xí)到的規(guī)律進(jìn)行評價。筆者認(rèn)為,在大數(shù)據(jù)環(huán)境下,BP神經(jīng)網(wǎng)絡(luò)十分適用于基于某類食品的食品安全風(fēng)險(xiǎn)預(yù)警。
首先通過篩選影響某類食品檢測結(jié)果的不同維度,如化學(xué)污染、農(nóng)藥殘留、獸藥殘留、重金屬情況、致病菌等,采用專家打分法,由專家結(jié)合以上不同維度檢測項(xiàng)目的檢測結(jié)果進(jìn)行一個風(fēng)險(xiǎn)評級。對不同歷史數(shù)據(jù)樣本期望得到的評級不同。之后將以上維度的的檢測值作為神經(jīng)網(wǎng)絡(luò)的輸入神經(jīng)元,神經(jīng)元的數(shù)量由選取的維度決定,并將通過專家打分得到的評級作為目標(biāo)輸出神經(jīng)元,進(jìn)行訓(xùn)練。通過將大量的輸入、目標(biāo)輸出樣本送入神經(jīng)網(wǎng)絡(luò),讓其通過正向傳播、反向傳播和權(quán)值調(diào)整進(jìn)行潛在的規(guī)則學(xué)習(xí)。這樣當(dāng)有未知數(shù)據(jù)時,通過將其輸入神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)即可模擬專家進(jìn)行評級。由于神經(jīng)網(wǎng)絡(luò)具有較高的靈活性,新的數(shù)據(jù)及評級又可以作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集。這樣,隨著數(shù)據(jù)量的增大,神經(jīng)網(wǎng)絡(luò)模型將越來越精確,以至于減少人為因素導(dǎo)致的錯誤及人力成本。
5 結(jié)語
該研究首先對大數(shù)據(jù)的基本概念進(jìn)行剖析,并分析大數(shù)據(jù)挖掘中機(jī)器學(xué)習(xí)領(lǐng)域3種典型的挖掘方式,探討其在食品安全風(fēng)險(xiǎn)預(yù)警領(lǐng)域的運(yùn)用。之后對比分析3種大數(shù)據(jù)挖掘方式應(yīng)用于食品安全風(fēng)險(xiǎn)預(yù)警領(lǐng)域的適應(yīng)度,最后提出將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于食品風(fēng)險(xiǎn)預(yù)警領(lǐng)域的方式,并給出了BP神經(jīng)網(wǎng)絡(luò)優(yōu)于其他2種數(shù)據(jù)挖掘技術(shù)的解釋。
參考文獻(xiàn)
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(1):146-169.
[2] Big data[EB/OL].[2012-10-02] http://en.wikipedia.org/wiki/Big_dat.
[3] GROBELINK M.Big data computing:Creating revolutionary breakthroughs in commerce,science and society[R].2012.
[4] BARWICK H.The ‘four Vs of Big Data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data/.
[5] IBM.What is big data? [EB/OL].[2012-10-02].http://www-01.ibm.com/software/data/bigdata/.
[6] WITTEN IAN H,EIBE FRANK.Data Mining:Practical machine learning tools and techniques[M].Morgan Kaufmann,2005.
[7] 韓家煒,坎伯.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社 2001:100-103.
[8] PEARL JUDEA.Probabilistic reasoning in intelligent systems:networks of plausible inference[M].San Mateo,Calif:Morgan Kaufmann Pub,1988.
[9] 林士敏,田鳳占.貝葉斯網(wǎng)絡(luò)的建造及其在數(shù)據(jù)采掘中的應(yīng)用[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2001,41(1):49-52.
[10] 冀俊忠,劉椿年,沙志強(qiáng).貝葉斯網(wǎng)模型的學(xué)習(xí),推理和應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(5):24-27.
[11] CORNEY D.Designing food with bayesian belief networks[C]//ACDM 2000 fourth international conference on adaptive computing in design and manufacture.Springer London,2000:83-94.
[12] 張麗,滕飛,王鵬.基于貝葉斯網(wǎng)絡(luò)的食品供應(yīng)鏈風(fēng)險(xiǎn)評價研究[J].食品研究與開發(fā),2014(18):53.
[13] MITCHELL TOM M.Machine learning[M].WCB,1997.
[14] 趙靜嫻.基于決策樹的食品安全評估研究[J].安徽農(nóng)業(yè)科學(xué),2012,39(3):20259.
[15] 歐陽一非,薛丹,高海燕,等.基于決策樹方法的油炸型方便面品質(zhì)評價研究[J].食品科學(xué),2009(5):27-31.
[16] 何勇,李曉麗,邵詠妮.基于主成分分析和神經(jīng)網(wǎng)絡(luò)的近紅外光譜蘋果品種鑒別方法研究[J].光譜學(xué)與光譜分析,2006,26(5):850-853.
[17] 陳博,歐陽竹.基于 BP 神經(jīng)網(wǎng)絡(luò)的冬小麥耗水預(yù)測[J].農(nóng)業(yè)工程學(xué)報(bào),2010,26(4):81-86.
[18] 劉建學(xué),吳守一.基于近紅外光譜的神經(jīng)網(wǎng)絡(luò)預(yù)測大米直鏈淀粉含量[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2001,32(2):55-57.
[19] 郝書池,姜燕寧.基于改進(jìn)型主成分分析法的食品供應(yīng)商評價模型研究[J].物流技術(shù),2010,29(8):62-64.
[20] 劉清珺,陳婷,張經(jīng)華,等.基于風(fēng)險(xiǎn)矩陣的食品安全風(fēng)險(xiǎn)監(jiān)測模型[J].食品科學(xué),2010(5):86-90.