史運(yùn)濤,劉召*,李書欽,劉偉川,董哲
北方工業(yè)大學(xué)(北京 100144)
對(duì)于每年食品抽檢產(chǎn)生的幾千萬(wàn)條數(shù)據(jù),監(jiān)管機(jī)構(gòu)主要采取傳統(tǒng)的人工處理方式,缺乏有效的數(shù)據(jù)處理手段。由于食品抽檢數(shù)據(jù)的復(fù)雜性和無(wú)序性,如何有效地利用數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)估成為食品安全風(fēng)險(xiǎn)領(lǐng)域研究的重要方向。
國(guó)內(nèi)外學(xué)者對(duì)于食品安全風(fēng)險(xiǎn)的研究主要集中在3個(gè)方面。一是食品安全風(fēng)險(xiǎn)評(píng)估指標(biāo)體系,如:沈進(jìn)昌等[1]建立的進(jìn)出口食品風(fēng)險(xiǎn)評(píng)價(jià)體系;劉巍等[2]建立的食品安全評(píng)價(jià)指標(biāo)體系。二是食品安全的靜態(tài)風(fēng)險(xiǎn)評(píng)估,如熊志昂等[3]運(yùn)用AHP方法建立風(fēng)險(xiǎn)評(píng)估模型。三是利用機(jī)器學(xué)習(xí)方法對(duì)食品安全風(fēng)險(xiǎn)進(jìn)行評(píng)估分析,如:王星云等[4]通過BP神經(jīng)網(wǎng)絡(luò)算法,對(duì)食品進(jìn)行分類預(yù)判;樓皓等[5]提出基于差分自動(dòng)回歸移動(dòng)平均和支持向量機(jī)(ARIMA-SVM)的食品安全風(fēng)險(xiǎn)預(yù)測(cè)組合模型;Geng等[6]通過基于分層聚類-徑向基函數(shù)(AHC-RBF)神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)食品安全風(fēng)險(xiǎn)的預(yù)測(cè)與控制。
現(xiàn)有研究大多是對(duì)食品風(fēng)險(xiǎn)進(jìn)行定性的風(fēng)險(xiǎn)描述,忽略了地域和檢測(cè)項(xiàng)目等因素對(duì)食品風(fēng)險(xiǎn)的影響。另外,也有部分研究將機(jī)器學(xué)習(xí)方法應(yīng)用到食品安全的風(fēng)險(xiǎn)評(píng)估中,但是只能分析食品結(jié)構(gòu)化數(shù)據(jù),并且只對(duì)食品的合格與否進(jìn)行分類,使得分類結(jié)果較為單一,模型誤差較高。
因此,從食品安全風(fēng)險(xiǎn)的復(fù)雜性角度進(jìn)行分析,將知識(shí)圖譜應(yīng)用到食品安全風(fēng)險(xiǎn)評(píng)估模型中,創(chuàng)新性地將地域和毒害物特征作為食品的外部連接實(shí)體,并綜合分析三者之間風(fēng)險(xiǎn)特征及風(fēng)險(xiǎn)關(guān)系,構(gòu)建食品安全知識(shí)圖譜,不僅可以拓展食品檢測(cè)數(shù)據(jù)信息,利用節(jié)點(diǎn)間關(guān)系挖掘更多潛在信息,還可以直觀地反映出食品中的耦合風(fēng)險(xiǎn)要素。但是對(duì)于知識(shí)圖譜這種數(shù)據(jù)形式,傳統(tǒng)的機(jī)器學(xué)習(xí)方法無(wú)法適用。為此,提出一種基于知識(shí)圖譜注意力網(wǎng)絡(luò)的食品安全風(fēng)險(xiǎn)評(píng)估模型,實(shí)現(xiàn)對(duì)食品抽檢數(shù)據(jù)風(fēng)險(xiǎn)等級(jí)預(yù)測(cè),并根據(jù)風(fēng)險(xiǎn)等級(jí)制定對(duì)應(yīng)的風(fēng)險(xiǎn)措施,從而提升食品安全監(jiān)管水平。
食品安全風(fēng)險(xiǎn)因素的選取是構(gòu)建指標(biāo)體系的核心。根據(jù)文獻(xiàn)[7]可知,食品品類、指標(biāo)、產(chǎn)地對(duì)食品安全存在不同程度的風(fēng)險(xiǎn)。并結(jié)合文獻(xiàn)[8]對(duì)食品安全整體狀態(tài)測(cè)評(píng)體系的制定原則,根據(jù)食品抽檢數(shù)據(jù)特點(diǎn),最終選取食品類別、地域因素、檢測(cè)毒害物作為影響食品安全風(fēng)險(xiǎn)的關(guān)鍵因素,并構(gòu)建食品綜合風(fēng)險(xiǎn)指標(biāo)體系。如圖1所示。
圖1 食品安全綜合風(fēng)險(xiǎn)指標(biāo)體系
根據(jù)文獻(xiàn)[9]可知,針對(duì)不同類別的食品,風(fēng)險(xiǎn)大小也有所不同。需求量越大的食品,越應(yīng)該引起重視。選取生活中常見的糧食及其制品、肉及肉制品、乳與乳制品、果蔬及其制品、水產(chǎn)及其制品5大類食品,并通過分析食品的規(guī)格型號(hào)、生產(chǎn)時(shí)間、生產(chǎn)企業(yè)類型、生產(chǎn)省份、銷售省份、檢測(cè)項(xiàng)目等屬性作為影響食品類別風(fēng)險(xiǎn)的主要因素。
根據(jù)近幾年全國(guó)食品抽檢信息可知[10],各地由于食品監(jiān)管水平的差異,導(dǎo)致地域因素對(duì)食品風(fēng)險(xiǎn)的影響比重較大。因此將食品的生產(chǎn)省份和銷售省份作為重要指標(biāo),并通過分析地域風(fēng)險(xiǎn)的發(fā)生概率和不合格率,衡量地域?qū)︼L(fēng)險(xiǎn)的影響程度。
食品在生產(chǎn)、運(yùn)輸及銷售過程,難免會(huì)造成二次污染[11],所以檢測(cè)毒害物指標(biāo)是評(píng)價(jià)食品風(fēng)險(xiǎn)關(guān)鍵的核心要素。此次選取微生物指標(biāo)、真菌毒素指標(biāo)、污染物指標(biāo)、添加劑指標(biāo)、農(nóng)殘獸殘指標(biāo)作為食品風(fēng)險(xiǎn)的評(píng)價(jià)指標(biāo),把毒害物風(fēng)險(xiǎn)不合格率、毒害物風(fēng)險(xiǎn)發(fā)生概率、毒害物嚴(yán)重等級(jí)和毒力危害作為衡量檢測(cè)毒害物風(fēng)險(xiǎn)指標(biāo)的決定性因素。
知識(shí)圖譜是一種特殊的圖數(shù)據(jù),由多類型的實(shí)體和多類型的邊表示,每個(gè)實(shí)體都有若干個(gè)特征屬性,邊表示的是實(shí)體之間的連接關(guān)系[12]。知識(shí)圖譜由GKGs=(X,E)表示,其中:X表示實(shí)體,E表示關(guān)系,實(shí)體集合由X={v1,v2,v3, …,vN}表示,N代表實(shí)體的個(gè)數(shù);關(guān)系類型集合由E={r1,r2,r3, …,rm}表示,m為關(guān)系的個(gè)數(shù);知識(shí)圖譜實(shí)體類型集合為τ={τ1,τ2, …,τn},n表示實(shí)體類型的個(gè)數(shù)。
基于構(gòu)建的食品安全風(fēng)險(xiǎn)指標(biāo)體系,將二級(jí)指標(biāo)食品類別、地域和檢測(cè)毒害物作為知識(shí)圖譜的實(shí)體類別,三級(jí)指標(biāo)作為知識(shí)圖譜的實(shí)體,并建立“食品-地域-毒害物”三者之間的關(guān)聯(lián)關(guān)系,如地域與食品之間的生產(chǎn)關(guān)系,地域與地域之間的運(yùn)銷關(guān)系,毒害物與食品之間的檢測(cè)關(guān)系。食品知識(shí)圖譜的實(shí)體類型集合為τ={食品類別(τ1),地域(τ2),檢測(cè)毒害物(τ3)},實(shí)體集合為X={糧食及其制品(v1),肉及其制品(v2),…,北京(vi),上海(vj),…,微生物指標(biāo)(vm),農(nóng)殘獸殘指標(biāo)(vn)},關(guān)系類型集合E={生產(chǎn)(r1),運(yùn)銷(r2),檢測(cè)(r3)}。具體的食品安全風(fēng)險(xiǎn)知識(shí)圖譜如圖2所示。
圖2 食品安全風(fēng)險(xiǎn)知識(shí)圖譜
基于構(gòu)建的食品安全風(fēng)險(xiǎn)知識(shí)圖譜,通過引入圖注意力機(jī)制建立基于知識(shí)圖譜注意力網(wǎng)絡(luò)的食品安全風(fēng)險(xiǎn)評(píng)估模型。
模型主要分為3層,包括實(shí)體級(jí)注意力網(wǎng)絡(luò)層、關(guān)系級(jí)注意力網(wǎng)絡(luò)層和實(shí)體分類網(wǎng)絡(luò)層。
3.1.1 模型相關(guān)定義
模型的輸入為實(shí)體特征矩陣和關(guān)系路徑矩陣,其相關(guān)定義如下。
定義2:2個(gè)不同類型或相同類型實(shí)體之間關(guān)系組成的路徑為關(guān)系路徑[13],關(guān)系路徑矩陣為?={?1, ?2,?3, …?m},m表示關(guān)系路徑的個(gè)數(shù)。
3.1.2 實(shí)體級(jí)注意力網(wǎng)絡(luò)層
對(duì)于食品安全知識(shí)圖譜,具有多實(shí)體類型和多關(guān)系的類型特點(diǎn),不同的實(shí)體類型具有不同維度的實(shí)體特征。需要把不同類型的實(shí)體特征映射到統(tǒng)一維度的特征空間中,設(shè)置一個(gè)可學(xué)習(xí)的特征轉(zhuǎn)換矩陣Wτi∈F′×F i,可將實(shí)體i的原始特征映射到更高維的特征向量空間中,完成在任意實(shí)體類型下的特征向量運(yùn)算,按式(1)計(jì)算。
通過實(shí)體級(jí)注意力網(wǎng)絡(luò)層來學(xué)習(xí)在關(guān)系路徑?m下,實(shí)體i與相連所有鄰居實(shí)體j之間的權(quán)重[14],即注意力系數(shù),按式(2)計(jì)算。
經(jīng)式(2)可以得到實(shí)體i與所有鄰居實(shí)體j之間注意力系數(shù),通過將注意力系數(shù)與鄰居實(shí)體進(jìn)行線性組合,可得到在關(guān)系路徑?m下,實(shí)體i經(jīng)過實(shí)體級(jí)注意力網(wǎng)絡(luò)層特征聚合后新的向量Zi?m。為使模型訓(xùn)練更穩(wěn)定,將實(shí)體級(jí)注意力機(jī)制頭設(shè)置為K=8[15],并將實(shí)體特征向量平均化,按式(3)計(jì)算。
3.1.3 關(guān)系級(jí)注意力網(wǎng)絡(luò)層
在食品安全知識(shí)圖譜中每一個(gè)關(guān)系路徑對(duì)應(yīng)一條語(yǔ)義信息。為學(xué)到更有價(jià)值的實(shí)體特征向量,需要將不同關(guān)系路徑下的語(yǔ)義信息進(jìn)行融合。為此,設(shè)計(jì)一個(gè)關(guān)系級(jí)注意力網(wǎng)絡(luò)層,并將實(shí)體注意力網(wǎng)絡(luò)層的輸出作為關(guān)系級(jí)注意力網(wǎng)絡(luò)層的輸入,用于學(xué)習(xí)每一條關(guān)系路徑的注意力系數(shù),按式(4)計(jì)算。
同樣將關(guān)系級(jí)注意力機(jī)制頭設(shè)置為K=8,并進(jìn)行平均化,得到實(shí)體i通過關(guān)系級(jí)注意力網(wǎng)絡(luò)層后新的特征向量表示,按式(5)計(jì)算。
3.1.4 實(shí)體分類網(wǎng)絡(luò)層
通過softmax函數(shù)進(jìn)行歸一化處理之后,可得到實(shí)體i所處風(fēng)險(xiǎn)等級(jí)的概率,按式(7)計(jì)算。
模型訓(xùn)練采用半監(jiān)督學(xué)習(xí)模式,使用交叉熵?fù)p失函數(shù)來評(píng)估優(yōu)化模型,按式(8)計(jì)算。
式中:fx為實(shí)體i特征向量中的一個(gè)特征值;
式中:YL為帶標(biāo)簽值的實(shí)體向量集合;為標(biāo)簽實(shí)體在fx下的真實(shí)值;為標(biāo)簽實(shí)體在fx下的概率值。模型整體結(jié)構(gòu)如圖3所示。
圖3 模型整體結(jié)構(gòu)圖
試驗(yàn)數(shù)據(jù)來源于國(guó)家市場(chǎng)監(jiān)督管理總局公布的259 012批次食品抽檢數(shù)據(jù),包括糧食及其制品、肉及肉制品、乳與乳制品、果蔬及其制品、水產(chǎn)及其制品5大類食品,同時(shí)包括生產(chǎn)企業(yè)、生產(chǎn)日期、抽樣地點(diǎn)、檢驗(yàn)項(xiàng)目、檢驗(yàn)結(jié)果等屬性信息。食品中檢測(cè)毒害物指標(biāo)主要為微生物指標(biāo)、真菌毒素指標(biāo)、污染物指標(biāo)、添加劑指標(biāo)、農(nóng)殘獸殘指標(biāo),其中:微生物指標(biāo)包括菌落總數(shù)、大腸桿菌等;真菌毒素指標(biāo)包括黃曲霉毒素、赭曲霉毒素A等;污染物指標(biāo)包括鎘、鉛、N-二甲基亞硝胺等;添加劑指標(biāo)包括鋁的殘留量、甜蜜素等;農(nóng)殘獸殘指標(biāo)包括克倫特羅、毒死蜱、氧氟沙星等。
食品抽檢數(shù)據(jù)本身結(jié)構(gòu)很大程度上會(huì)影響模型的準(zhǔn)確度,恰當(dāng)?shù)臄?shù)據(jù)預(yù)處理可以使預(yù)測(cè)結(jié)果更加準(zhǔn)確[16]。對(duì)于抽檢數(shù)據(jù)而言,根據(jù)食品安全綜合風(fēng)險(xiǎn)指標(biāo)體系,選取“生產(chǎn)省份、生產(chǎn)日期、規(guī)則型號(hào)、生產(chǎn)企業(yè)類型、銷售省份、檢測(cè)毒害物”6個(gè)屬性作為影響食品風(fēng)險(xiǎn)的強(qiáng)關(guān)聯(lián)因素。
根據(jù)第2節(jié)構(gòu)建知識(shí)圖譜的方法,將食品抽檢數(shù)據(jù)構(gòu)建成“食品-地域-毒害物”三者相互關(guān)聯(lián)的知識(shí)圖譜數(shù)據(jù)集。其中實(shí)體特征矩陣維數(shù)為4 202×29,關(guān)系路徑矩陣維數(shù)為4 202×4 202,具體知識(shí)圖譜數(shù)據(jù)集如表1所示。
表1 食品知識(shí)圖譜數(shù)據(jù)集
選取數(shù)據(jù)的70%作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集,10%作為驗(yàn)證集。利用Adam[17]對(duì)模型進(jìn)行訓(xùn)練優(yōu)化,設(shè)置學(xué)習(xí)率為0.005,權(quán)值衰減為0.001,迭代次數(shù)為400次,注意力機(jī)制頭數(shù)量為8。由圖4可知,在迭代次數(shù)Epoch為388時(shí),準(zhǔn)確度為91.8%,損失值為0.41,模型整體達(dá)到最優(yōu)狀態(tài)。為驗(yàn)證模型的準(zhǔn)確性,將迭代參數(shù)設(shè)置為388次,連續(xù)重復(fù)運(yùn)行5次,從表2可以得出模型的平均誤差為0.343,說明該模型運(yùn)行結(jié)果穩(wěn)定可靠。
表2 模型5次運(yùn)行結(jié)果分析
圖4 模型訓(xùn)練迭代過程
選取1 423批次食品抽檢樣品數(shù)據(jù)作為評(píng)估對(duì)象,將處理好的數(shù)據(jù)放入模型中可得到食品的風(fēng)險(xiǎn)等級(jí),如表3所示。
表3 食品風(fēng)險(xiǎn)評(píng)估預(yù)測(cè)
根據(jù)預(yù)測(cè)結(jié)果可知,食品監(jiān)管部門可以通過食品的屬性特征,利用模型可以提前預(yù)測(cè)出食品的風(fēng)險(xiǎn)等級(jí),并根據(jù)風(fēng)險(xiǎn)等級(jí)做出相應(yīng)的處理措施。對(duì)于預(yù)測(cè)結(jié)果為“較高風(fēng)險(xiǎn)”的食品,可直接將該類食品列為不合格類別;對(duì)于預(yù)測(cè)結(jié)果為“高風(fēng)險(xiǎn)”“中風(fēng)險(xiǎn)”的食品,則需要重點(diǎn)檢測(cè),并加強(qiáng)對(duì)與該樣品相似特征的食品檢測(cè)工作,避免漏檢、錯(cuò)檢情況的發(fā)生;對(duì)于預(yù)測(cè)結(jié)果為“低風(fēng)險(xiǎn)”的食品,可以降低檢測(cè)力度;對(duì)于預(yù)測(cè)結(jié)果為“極低風(fēng)險(xiǎn)”的食品,基于模型準(zhǔn)確度為91.8%的情況,可以選擇免檢,直接作為合格食品類別。
通過分析影響食品安全的主要風(fēng)險(xiǎn)因素,構(gòu)建食品安全綜合風(fēng)險(xiǎn)指標(biāo)體系,根據(jù)指標(biāo)體系分析出“食品-地域-毒害物”三者的風(fēng)險(xiǎn)特征和關(guān)聯(lián)關(guān)系,構(gòu)建食品安全風(fēng)險(xiǎn)知識(shí)圖譜,并提出一種基于知識(shí)圖譜注意力網(wǎng)絡(luò)的食品安全風(fēng)險(xiǎn)評(píng)估模型,模型訓(xùn)練之后的準(zhǔn)確率可達(dá)91.8%。預(yù)測(cè)結(jié)果表明,該模型可在監(jiān)督部門進(jìn)行抽檢工作之前,在提前獲得抽檢食品基本信息的情況下,準(zhǔn)確預(yù)測(cè)出各類食品的風(fēng)險(xiǎn)等級(jí),對(duì)食品安全保障工作具有重要的指導(dǎo)意義,不僅可以提高食品抽檢工作的效率,節(jié)約人力和成本,還可以提升食品安全監(jiān)管水平和風(fēng)險(xiǎn)預(yù)測(cè)預(yù)警的準(zhǔn)確率。