李夏冰+凌文婧
隨著互聯(lián)網(wǎng)以及其他產(chǎn)業(yè)數(shù)據(jù)量爆炸式的增長(zhǎng),大數(shù)據(jù)、云計(jì)算等概念越來(lái)越多地被人們提及。2012年,聯(lián)合國(guó)發(fā)布了大數(shù)據(jù)政務(wù)白皮書,指出大數(shù)據(jù)對(duì)于聯(lián)合國(guó)和各國(guó)政府來(lái)說(shuō)是一個(gè)歷史性的機(jī)遇。公認(rèn)的大數(shù)據(jù)四個(gè)特征為:數(shù)據(jù)量大(Volume)、類型繁多(Variety)、價(jià)值密度低(Value)、速度快時(shí)效高(Velocity)。這與食品安全監(jiān)測(cè)所獲取的數(shù)據(jù)特征相符合。其中數(shù)據(jù)量大對(duì)應(yīng)的是每天成千上萬(wàn)種食品在生產(chǎn)、加工、銷售、檢疫時(shí)產(chǎn)生的海量數(shù)據(jù);類型繁多對(duì)應(yīng)的是食品監(jiān)測(cè)數(shù)據(jù)類型的多樣化,如:分光光度值、氣相及液相色譜值、甲基紅試驗(yàn)染色值、熒光光度值等等;而在這些海量的數(shù)據(jù)中,尋找潛藏的食品安全隱患和發(fā)展趨勢(shì)猶如大海撈針;食品作為快速消耗品,由于較短的保質(zhì)期限制,在生產(chǎn)出來(lái)之后迅速被消費(fèi)和消耗,因此食品安全監(jiān)測(cè)數(shù)據(jù)的時(shí)效性非常重要。因此,海量的食品安全預(yù)警數(shù)據(jù)適合使用大數(shù)據(jù)的思維方式、處理手段進(jìn)行分析和處理。使用大數(shù)據(jù)進(jìn)行食品安全預(yù)警將成為食品安全監(jiān)測(cè)手段發(fā)展的新趨勢(shì)。
大數(shù)據(jù)時(shí)代食品安全數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的顆粒度、維度、活性、規(guī)模、關(guān)聯(lián)度成為衡量數(shù)據(jù)價(jià)值最重要的性質(zhì)。
數(shù)據(jù)的顆粒度反映的是數(shù)據(jù)的精細(xì)化程度,對(duì)于單個(gè)食品而言,單一的檢測(cè)指標(biāo)往往難以反映該食品質(zhì)量的全貌,2008發(fā)生的三聚氰胺事件,暴露了我國(guó)食品檢測(cè)手段及方式的漏洞,增加食品監(jiān)測(cè)數(shù)據(jù)的顆粒度,有助于為食品安全提供更加全方位的信息。
數(shù)據(jù)的維度指的是數(shù)據(jù)來(lái)源的豐富性。信息時(shí)代,食品安全數(shù)據(jù)不僅限于企業(yè)和監(jiān)管部門,計(jì)算機(jī)網(wǎng)絡(luò)信息、媒體報(bào)道、輿情資訊等等渠道,同樣能為食品安全監(jiān)測(cè)和預(yù)警提供重要的數(shù)據(jù)來(lái)源。這些渠道為食品質(zhì)量提供了最及時(shí)、最客觀的逆向反饋,許多食品質(zhì)量問(wèn)題在食品的加工銷售和運(yùn)輸途中往往難以發(fā)覺(jué),在消費(fèi)者手中才得到了及時(shí)的揭露。近期暴露的食品安全問(wèn)題有不少是由于消費(fèi)者舉報(bào),獲得媒體報(bào)道后才引起相關(guān)部門的調(diào)查和重視的,因此,網(wǎng)絡(luò)、媒體及大眾言論為食品生產(chǎn)企業(yè)和監(jiān)管部門掌握第一手材料提供了可能,應(yīng)當(dāng)作為食品監(jiān)測(cè)數(shù)據(jù)的來(lái)源之一。
數(shù)據(jù)的活性指的是數(shù)據(jù)被更新的頻次,從食品安全監(jiān)測(cè)數(shù)據(jù)上看,數(shù)據(jù)的活性較大,表現(xiàn)在數(shù)據(jù)獲取頻繁:如一周一檢、一天一檢、不少生鮮食品甚至一小時(shí)一檢,這些頻繁獲取的數(shù)據(jù)在很大程度上增強(qiáng)了數(shù)據(jù)的活性、使得數(shù)據(jù)實(shí)時(shí)、可信、可靠。
數(shù)據(jù)的規(guī)模指的是數(shù)據(jù)量的大小,我們就液態(tài)牛奶從原奶到上市期間的檢驗(yàn)數(shù)據(jù)為例,來(lái)估測(cè)其數(shù)據(jù)量大?。涸踢\(yùn)輸?shù)焦S后需進(jìn)行質(zhì)量檢驗(yàn),檢驗(yàn)指標(biāo)共計(jì)117項(xiàng),包括感官、滋味、氣味、理化特性、微生物含量等多個(gè)方面;牛奶在儲(chǔ)存之后需進(jìn)行原奶檢驗(yàn),檢驗(yàn)指標(biāo)包括上述各類,附加對(duì)容器、倉(cāng)儲(chǔ)條件的檢驗(yàn);在牛奶經(jīng)過(guò)巴氏消毒后,需進(jìn)行儲(chǔ)存檢驗(yàn),儲(chǔ)存檢驗(yàn)參照巴氏殺菌乳國(guó)家標(biāo)準(zhǔn),共有10項(xiàng)必檢,包括理化標(biāo)準(zhǔn)、微生物指標(biāo)、感官指標(biāo)、儲(chǔ)藏方式等;儲(chǔ)存檢驗(yàn)后,進(jìn)行保溫試驗(yàn),必檢的項(xiàng)目包括64項(xiàng),外加風(fēng)險(xiǎn)監(jiān)測(cè)項(xiàng)目44項(xiàng)。整個(gè)牛奶生產(chǎn)過(guò)程需要進(jìn)過(guò)4個(gè)部分累計(jì)達(dá)到899項(xiàng)指標(biāo)的檢驗(yàn)。這些檢驗(yàn)過(guò)程受到農(nóng)業(yè)主管部門和質(zhì)量監(jiān)督部門的監(jiān)管。在流通過(guò)程中,需進(jìn)過(guò)工商部門、出入境檢驗(yàn)檢疫部門的抽檢,合格后方能在超市上架或通過(guò)海關(guān)流通,期間需進(jìn)過(guò)工商部門、出入境檢驗(yàn)檢疫部門、媒體大眾等相關(guān)單位的監(jiān)管和監(jiān)督。工商部門檢驗(yàn)的項(xiàng)目共計(jì)12項(xiàng),出入境檢驗(yàn)檢疫部門需檢驗(yàn)的項(xiàng)目共計(jì)60項(xiàng)。筆者粗略估計(jì)了一下,單盒液態(tài)純牛奶從生產(chǎn)源頭到消費(fèi)者手中,共需經(jīng)歷檢驗(yàn)最少六次抽查,總體971項(xiàng)指標(biāo),還不包括對(duì)奶牛和飼料的檢驗(yàn)指標(biāo)。我國(guó)2012年全年共計(jì)生產(chǎn)牛奶3744萬(wàn)噸,按照每1ml牛奶的重量是1.0288,每盒牛奶250ml,每個(gè)檢測(cè)指標(biāo)的儲(chǔ)存占4個(gè)字節(jié)。計(jì)算,一年僅因牛奶檢測(cè)而產(chǎn)生的數(shù)量量達(dá)到5.653×1014≈514T。這些數(shù)據(jù)生產(chǎn)出來(lái)后大多數(shù)被丟棄。
數(shù)據(jù)的關(guān)聯(lián)度指的是數(shù)據(jù)之間的相關(guān)程度,如上文所述,食品安全數(shù)據(jù)指標(biāo)各不相似、表現(xiàn)了食品安全指標(biāo)的方方面面,然而這些數(shù)據(jù)之間關(guān)聯(lián)性很差,如:食品添加劑的數(shù)據(jù)檢測(cè)值和食品中農(nóng)藥殘留值在理論上無(wú)相關(guān)性,然而基于各類食品的不同特征,挖掘食品安全指標(biāo)中的潛在規(guī)則能為食品安全預(yù)警提供數(shù)據(jù)參考和經(jīng)驗(yàn)借鑒。上文已介紹了不少文獻(xiàn)使用數(shù)據(jù)挖掘領(lǐng)域中關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)價(jià)值的方法,在此不再贅述。
大數(shù)據(jù)時(shí)代食品安全數(shù)據(jù)的獲取方式
按照傳統(tǒng)方式可在食品生產(chǎn)、流通過(guò)程中收集到大量的、可靠的食品安全數(shù)據(jù),按照上文的介紹,這些數(shù)據(jù)量已經(jīng)非常龐大。以下介紹幾種食品安全預(yù)警數(shù)據(jù)的其他獲取方式:
媒體大眾渠道的食品安全數(shù)據(jù)獲取方式。食品消費(fèi)的終點(diǎn)是消費(fèi)者手中,對(duì)于食品的安全質(zhì)量,消費(fèi)者最具有發(fā)言權(quán),傳統(tǒng)的食品安全數(shù)據(jù)僅僅來(lái)源于食品生產(chǎn)部門和監(jiān)督管理部門,來(lái)源單一、片面。利用大數(shù)據(jù)對(duì)于數(shù)據(jù)的收集、處理方法,可以方便快捷地收集到網(wǎng)絡(luò)媒體、微博、論壇中關(guān)于食品安全的消費(fèi)者反饋。并通過(guò)對(duì)自然語(yǔ)言的分析判別正面負(fù)面信息,對(duì)食品安全預(yù)警具有非常重要的指導(dǎo)性意義。另外,通過(guò)對(duì)食品安全言論相關(guān)信息分析,可精確判別食品質(zhì)量問(wèn)題發(fā)生的區(qū)域、時(shí)間、受害群體,對(duì)食品安全問(wèn)題做出實(shí)時(shí)、精確、精準(zhǔn)的預(yù)報(bào)。
基于食品安全追溯系統(tǒng)的數(shù)據(jù)獲取方式。食品安全追溯系統(tǒng)的建立旨在實(shí)現(xiàn)視頻“從田間到餐桌”的一條龍式質(zhì)量監(jiān)管,以期在食品的生產(chǎn)和銷售過(guò)程進(jìn)行無(wú)疏漏跟蹤,確保食品的質(zhì)量?,F(xiàn)在國(guó)內(nèi)外許多企業(yè)、政府部門正在大力加強(qiáng)和促進(jìn)該系統(tǒng)的建立建設(shè),可預(yù)見(jiàn)食品安全追溯系統(tǒng)在未來(lái)將被迅速建立、并具有長(zhǎng)足的發(fā)展。在食品安全追溯的過(guò)程中,眾多數(shù)據(jù)被實(shí)時(shí)監(jiān)控并記錄了下來(lái),其中不僅僅包括食品加工、原材料的數(shù)據(jù),還可包括如:食品容器、食品儲(chǔ)存環(huán)境、食品來(lái)源地等許許多多的附加信息,這些信息對(duì)于消費(fèi)者購(gòu)買流食品提供了非常全面的信息。對(duì)于食品安全預(yù)警而言,這些實(shí)時(shí)連貫性的數(shù)據(jù)可以更方便地進(jìn)行時(shí)間維度上的趨勢(shì)擬合和預(yù)警分析。
大數(shù)據(jù)時(shí)代食品安全數(shù)據(jù)的處理方式。
使用大數(shù)據(jù)思路和分析方法對(duì)食品安全進(jìn)行檢測(cè)和預(yù)警,首先要充分使用數(shù)據(jù)科學(xué)的處理方法,由于不同的數(shù)據(jù)和來(lái)源渠道,非結(jié)構(gòu)化數(shù)據(jù)代替結(jié)構(gòu)化數(shù)據(jù)成為分析和處理的主要對(duì)象,常見(jiàn)的數(shù)據(jù)有以下幾類:表格、點(diǎn)集、時(shí)間序列、圖像、視頻、網(wǎng)頁(yè)以及其他的網(wǎng)絡(luò)數(shù)據(jù)。每一種非結(jié)構(gòu)化數(shù)據(jù)都應(yīng)當(dāng)對(duì)應(yīng)相應(yīng)的處理方式,如,點(diǎn)集可使用概率分布方法進(jìn)行擬合;時(shí)間序列數(shù)據(jù)可采用隨機(jī)過(guò)程(如隱式馬氏過(guò)程)方法進(jìn)行處理;圖像可通過(guò)隨機(jī)場(chǎng)(如吉布斯隨機(jī)場(chǎng))進(jìn)行分析;網(wǎng)絡(luò)數(shù)據(jù)可通過(guò)圖模型、貝葉斯模型來(lái)處理。
進(jìn)行初步處理后的數(shù)據(jù),可通過(guò)以下方式判別其價(jià)值,如:相關(guān)性(若所得數(shù)據(jù)與其他數(shù)據(jù)具有弱相關(guān)性,則可考慮丟棄)、排序(對(duì)數(shù)據(jù)的重要性進(jìn)行排序,如食品中重金屬含量的重要性要遠(yuǎn)高于蛋白質(zhì)含量,可考慮增加其權(quán)重或在數(shù)據(jù)建模中優(yōu)先考慮)、分類和聚類(使用分類和聚類方法能快速尋找到數(shù)據(jù)之間的相互關(guān)聯(lián),找到其相似性。對(duì)相似特點(diǎn)的數(shù)據(jù)進(jìn)行統(tǒng)一處理,減少后續(xù)處理的數(shù)據(jù)量)。
在上述數(shù)據(jù)處理的基礎(chǔ)上,可考慮對(duì)數(shù)據(jù)價(jià)值的進(jìn)一步提取和分析,如:建立度量空間,討論數(shù)據(jù)之間范式距離的遠(yuǎn)近以及關(guān)聯(lián)性的大小;建立網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),討論數(shù)據(jù)之間的空間關(guān)聯(lián)性及分布情況;建立函數(shù)結(jié)構(gòu),討論數(shù)據(jù)之間的統(tǒng)計(jì)學(xué)規(guī)律(如相關(guān)性、回歸系數(shù)、主成分分析)等。
另外,處理食品安全大數(shù)據(jù),需要引進(jìn)大數(shù)據(jù)管理系統(tǒng)和技術(shù)流程。廣泛使用的大數(shù)據(jù)管理系統(tǒng)有Hadoop/ Hive系統(tǒng),常用的底層支持框架有Core/ Avro等,常用的數(shù)據(jù)存儲(chǔ)系統(tǒng)有Hbase/ MapReduce等分布式、非關(guān)系型數(shù)據(jù)庫(kù),常用的文件系統(tǒng)有HDFS等。值得一提的是,當(dāng)今大數(shù)據(jù)技術(shù)有大量的開(kāi)源軟件,開(kāi)源算法,大大豐富和方便了人們?cè)谄渲线M(jìn)行編程和應(yīng)用,為使用大數(shù)據(jù)思維和方法處理食品安全數(shù)據(jù)提供了技術(shù)支持。