于家斌,范依云,王小藝,3, *,趙峙堯,金學(xué)波,白玉廷,王 立,陳慧敏
(1.北京工商大學(xué)人工智能學(xué)院,北京 100048;2.北京工商大學(xué) 中國(guó)輕工業(yè)工業(yè)互聯(lián)網(wǎng)與大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100048;3.北京服裝學(xué)院文理學(xué)院,北京 100029)
糧油食品安全問(wèn)題不僅影響著公眾健康,還關(guān)系到社會(huì)穩(wěn)定和經(jīng)濟(jì)發(fā)展等問(wèn)題。近些年來(lái),糧油食品安全事件屢見(jiàn)不鮮,如“鎘大米”[1]、“地溝油”[2]等,這些事件嚴(yán)重危害了公眾健康,影響了社會(huì)穩(wěn)定。我國(guó)在2015年新修訂實(shí)施了《中華人民共和國(guó)食品安全法》,其中第二章食品安全風(fēng)險(xiǎn)監(jiān)測(cè)與評(píng)價(jià)的第十七條規(guī)定了國(guó)家應(yīng)構(gòu)建食品安全風(fēng)險(xiǎn)評(píng)價(jià)體系[3]。而食用油是糧油食品的重要組成部分,是人們?nèi)粘o嬍车闹匾画h(huán)。因此,對(duì)食用油中各類污染物進(jìn)行風(fēng)險(xiǎn)評(píng)價(jià)具有重要意義。
目前,國(guó)內(nèi)外風(fēng)險(xiǎn)評(píng)價(jià)方法主要分為定性評(píng)價(jià)、定量評(píng)價(jià)以及定性-定量結(jié)合評(píng)價(jià)3 種。定性評(píng)價(jià)是依據(jù)專家經(jīng)驗(yàn)、調(diào)查問(wèn)卷等方式對(duì)風(fēng)險(xiǎn)進(jìn)行分析判斷得出結(jié)果,代表性的方法包括德?tīng)柗品?、決策樹(shù)、危害分析臨界控制點(diǎn)法[4-6]等,主要應(yīng)用于食品監(jiān)管、參與者對(duì)食品風(fēng)險(xiǎn)態(tài)度以及參與者食品安全意識(shí)分析等,定性評(píng)價(jià)過(guò)于依賴評(píng)估者的主觀判斷,無(wú)法基于大量高維的檢測(cè)數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評(píng)價(jià)。定量評(píng)價(jià)方法主要包括兩類,一類是通過(guò)檢測(cè)方法獲取風(fēng)險(xiǎn)因子數(shù)據(jù)直接描述風(fēng)險(xiǎn)水平,如氣相色譜法、光學(xué)傳感器法等[7]。另一類是通過(guò)數(shù)據(jù)驅(qū)動(dòng)算法挖掘大量檢測(cè)數(shù)據(jù)中的風(fēng)險(xiǎn)規(guī)律,從而得到風(fēng)險(xiǎn)程度量化值,如熵權(quán)系數(shù)法、蒙特卡洛仿真法、支持向量機(jī)法、人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等[8-11],但這類定量評(píng)價(jià)過(guò)于依賴數(shù)據(jù),數(shù)據(jù)中存在噪聲會(huì)影響評(píng)價(jià)結(jié)果。定性-定量結(jié)合方法中具有代表性的方法有層次分析法,其主要是通過(guò)建立層次結(jié)構(gòu)模型并結(jié)合專家意見(jiàn)構(gòu)建風(fēng)險(xiǎn)判斷矩陣[12],此外還有如云模型[13]、模糊綜合評(píng)價(jià)法[14]等方法依據(jù)隸屬度理論將定量風(fēng)險(xiǎn)值以及區(qū)間轉(zhuǎn)化為定性語(yǔ)言集,定性-定量結(jié)合評(píng)價(jià)法常用于屬性約簡(jiǎn)[15]、風(fēng)險(xiǎn)分級(jí)[16]。綜上,現(xiàn)有風(fēng)險(xiǎn)評(píng)價(jià)方法在實(shí)際應(yīng)用時(shí)仍存在一定局限性,如食用油檢測(cè)數(shù)據(jù)具有高維性、非線性、離散性的特征,導(dǎo)致傳統(tǒng)數(shù)據(jù)驅(qū)動(dòng)方法評(píng)價(jià)效率和精度不高;其次,對(duì)于數(shù)據(jù)中的噪聲,現(xiàn)有方法并沒(méi)有針對(duì)性的處理,一般只是對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單地清洗;另外,在利用數(shù)據(jù)驅(qū)動(dòng)算法建模時(shí),需設(shè)置多個(gè)參數(shù),例如高亞男等[17]在采用LightGBM模型預(yù)測(cè)風(fēng)險(xiǎn)值時(shí),需調(diào)整葉子節(jié)點(diǎn)個(gè)數(shù)、最大深度和學(xué)習(xí)率等參數(shù),現(xiàn)有方法一般是利用人工試湊法來(lái)進(jìn)行參數(shù)調(diào)優(yōu),這樣憑借經(jīng)驗(yàn)進(jìn)行參數(shù)的試錯(cuò),是主觀且繁瑣的。
鑒于現(xiàn)有風(fēng)險(xiǎn)評(píng)價(jià)方法存在的問(wèn)題,國(guó)內(nèi)外專家學(xué)者進(jìn)行了大量研究。針對(duì)數(shù)據(jù)中的噪聲問(wèn)題,有學(xué)者利用基于小波理論的小波閾值法進(jìn)行了濾波處理研究,例如Chen Jian等[18]利用小波軟閾值法對(duì)電力系統(tǒng)中低頻振蕩信號(hào)產(chǎn)生的噪聲進(jìn)行濾波處理并取得良好效果。在針對(duì)食用油檢測(cè)數(shù)據(jù)這類以高維性、非線性、離散性為基礎(chǔ)的數(shù)據(jù)進(jìn)行評(píng)價(jià)模型構(gòu)建時(shí),灰色關(guān)聯(lián)分析(grey relational analysis,GRA)能夠從大量復(fù)雜和非線性數(shù)據(jù)中分析不同指標(biāo)之間的灰色關(guān)聯(lián)系數(shù)從而制定指標(biāo)的權(quán)重,如Han Yongming等[19]通過(guò)對(duì)乳制品9 類指標(biāo)的GRA確定了指標(biāo)權(quán)重。極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)作為一種單隱層前饋神經(jīng)網(wǎng)絡(luò),其隨機(jī)產(chǎn)生輸入層權(quán)值和隱層偏置的特性[20],使其對(duì)數(shù)據(jù)中的噪聲有一定抑制能力,并且相比于傳統(tǒng)基于梯度下降的數(shù)據(jù)驅(qū)動(dòng)評(píng)價(jià)算法具有更好的泛化能力和更快的速度,例如Zaher等[21]采用ELM預(yù)測(cè)泡沫混凝土的抗壓強(qiáng)度,效果優(yōu)于支持向量機(jī)回歸等傳統(tǒng)數(shù)據(jù)驅(qū)動(dòng)模型。針對(duì)模型參數(shù)設(shè)置主觀性強(qiáng)的問(wèn)題,貝葉斯優(yōu)化算法常用于超參數(shù)調(diào)整,是解決模型擬合問(wèn)題的理想選擇,例如Acerbi等[22]提出一種混合貝葉斯優(yōu)化算法并進(jìn)行了模型擬合實(shí)驗(yàn),結(jié)果表明該算法要優(yōu)于其他常見(jiàn)的優(yōu)化算法。
綜上,針對(duì)食用油檢測(cè)數(shù)據(jù)的特點(diǎn)以及傳統(tǒng)風(fēng)險(xiǎn)評(píng)價(jià)方法中存在的問(wèn)題,本實(shí)驗(yàn)首先在風(fēng)險(xiǎn)評(píng)價(jià)模型前端加入基于小波閾值法的數(shù)據(jù)濾波模塊;接著結(jié)合GRA和ELM的優(yōu)勢(shì),對(duì)濾波后數(shù)據(jù)進(jìn)行GRA得到每種風(fēng)險(xiǎn)指標(biāo)權(quán)重并融合為多指標(biāo)綜合風(fēng)險(xiǎn)值作為風(fēng)險(xiǎn)值標(biāo)簽,利用ELM網(wǎng)絡(luò)訓(xùn)練并輸出綜合風(fēng)險(xiǎn)值;在上述過(guò)程中利用實(shí)用貝葉斯優(yōu)化(practical Bayesian optimization,PBO)算法分別優(yōu)化濾波模塊和ELM網(wǎng)絡(luò)參數(shù);最后對(duì)綜合風(fēng)險(xiǎn)值進(jìn)行模糊綜合分析得到風(fēng)險(xiǎn)等級(jí)劃分結(jié)果。
本實(shí)驗(yàn)收集整理了國(guó)內(nèi)某食用油主要產(chǎn)出省2017—2019年共11 345 行、150 組花生油檢測(cè)數(shù)據(jù),數(shù)據(jù)主要呈現(xiàn)以下特點(diǎn)[23]:1)高維性:每個(gè)食用油樣品的抽檢信息由不同屬性組成,如抽樣編號(hào)、產(chǎn)地信息、產(chǎn)品信息、生產(chǎn)日期、檢驗(yàn)項(xiàng)目、檢驗(yàn)結(jié)果、關(guān)鍵限值等。這些屬性相互獨(dú)立,并且很多屬性如抽樣編號(hào)等對(duì)于風(fēng)險(xiǎn)程度的判斷是冗余的,需要濾除掉。2)離散性:一個(gè)食用油樣品大約有幾十種檢測(cè)指標(biāo),一個(gè)指標(biāo)維度與另一個(gè)指標(biāo)維度不同,而各項(xiàng)指標(biāo)的國(guó)家標(biāo)準(zhǔn)也不同。這意味著這些指標(biāo)具有不同的離散域,檢測(cè)結(jié)果在離散域中也是無(wú)序的。因此,需要從這些指標(biāo)中篩選出影響風(fēng)險(xiǎn)程度的關(guān)鍵指標(biāo)。3)非線性:每個(gè)檢查信息包括數(shù)值信息和描述信息。數(shù)值信息包含大量空值,描述信息也包含了一些離散值。在完整的檢驗(yàn)信息中,不同屬性之間的信息分布是不對(duì)稱和不平衡的,增加了風(fēng)險(xiǎn)分析難度。因此,需要進(jìn)行指標(biāo)篩選以及數(shù)據(jù)預(yù)處理工作。
首先進(jìn)行指標(biāo)篩選,食用油檢測(cè)指標(biāo)種類繁多,包括酸值超標(biāo)檢測(cè)、過(guò)氧化值檢測(cè)、溶劑殘留量檢測(cè)、金屬污染檢測(cè)、化學(xué)污染檢測(cè)和生物毒素檢測(cè)等。但并不是上述所有的檢測(cè)項(xiàng)都能作為食用油的風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo),需要從其中篩選出對(duì)食用油風(fēng)險(xiǎn)程度影響較大的指標(biāo)。本實(shí)驗(yàn)分析各項(xiàng)指標(biāo)的檢出情況,參考文獻(xiàn)[24],選取酸值、過(guò)氧化值、砷含量、鉛含量、黃曲霉毒素B1含量和苯并[a]芘含量這6 項(xiàng)指標(biāo)作為關(guān)鍵的風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)。食用油的酸值和過(guò)氧化值是食用油的基礎(chǔ)類風(fēng)險(xiǎn)指標(biāo),砷、鉛是食用油中常見(jiàn)的重金屬類污染物,黃曲霉毒素B1則是食用油中常見(jiàn)的真菌毒素類污染物,苯并[a]芘是食用油中主要的化學(xué)類污染物,這6 項(xiàng)指標(biāo)能夠代表相應(yīng)類別的污染物,同時(shí)相對(duì)于其他風(fēng)險(xiǎn)指標(biāo)更容易被檢出,因此通過(guò)這6 項(xiàng)指標(biāo)能夠基本判斷食用油的風(fēng)險(xiǎn)程度。
其次進(jìn)行數(shù)據(jù)預(yù)處理,步驟如下:1)刪除無(wú)用信息。每個(gè)樣本都有許多描述性字符,有必要簡(jiǎn)化這些信息以強(qiáng)調(diào)影響風(fēng)險(xiǎn)程度的特性,剔除與食品安全關(guān)系不大的食品感官類指標(biāo),如口感、顏色、形狀等。2)刪除多余符號(hào)。例如某個(gè)食用油樣品總砷的檢測(cè)結(jié)果為“<0.01 mg/kg”,總砷的限值不高于0.25 mg/kg,該樣品總砷的檢測(cè)結(jié)果并未超過(guò)限值,則去掉結(jié)果中的“<”符號(hào),將檢驗(yàn)值記錄為“0.01 mg/kg”。3)使用極小值替代未檢出指標(biāo)數(shù)據(jù)。本實(shí)驗(yàn)對(duì)未檢出指標(biāo)數(shù)據(jù)的處理參考文獻(xiàn)[15],具體方法為針對(duì)檢測(cè)結(jié)果為未檢出的指標(biāo)數(shù)據(jù),利用極小的數(shù)字“0.001”代替“未檢出”,而不是用“0”代替。這是為了保證得到的輸入矩陣能夠被評(píng)價(jià)模型識(shí)別并且是正定的。至此指標(biāo)的篩選以及數(shù)據(jù)預(yù)處理工作完成。
由于篇幅限值,僅列舉了部分原始檢測(cè)數(shù)據(jù),如表1所示,對(duì)其進(jìn)行預(yù)處理之后的數(shù)據(jù)如表2所示。
表1 食用油部分原始檢測(cè)數(shù)據(jù)Table 1 Selected raw chemical data of edible oil samples
表2 預(yù)處理后的食用油數(shù)據(jù)Table 2 Preprocessed chemical data of edible oil samples
如圖1所示,本實(shí)驗(yàn)提出的風(fēng)險(xiǎn)評(píng)價(jià)模型主要分為基于小波閾值法的數(shù)據(jù)濾波模塊和基于GRA-ELM的評(píng)價(jià)模塊,PBO算法則負(fù)責(zé)優(yōu)化濾波模塊和ELM網(wǎng)絡(luò)中的重要參數(shù),ELM網(wǎng)絡(luò)輸出的綜合風(fēng)險(xiǎn)值通過(guò)模糊綜合分析得到食用油樣品所屬風(fēng)險(xiǎn)等級(jí)。
圖1 風(fēng)險(xiǎn)評(píng)價(jià)模型整體算法流程圖Fig.1 Overall algorithm flow chart of risk assessment models
1.2.1 基于小波閾值的濾波模塊
食用油檢測(cè)數(shù)據(jù)可能會(huì)含有噪聲,這些噪聲會(huì)影響最終評(píng)價(jià)結(jié)果。Huber[25]對(duì)模型魯棒性進(jìn)行了3 個(gè)層面的解釋:1)模型具有較高的精度或有效性;2)對(duì)于模型假設(shè)出現(xiàn)的較小偏差(如噪聲),只能對(duì)模型產(chǎn)生較小的影響;3)對(duì)于模型假設(shè)出現(xiàn)的較大偏差(如突變點(diǎn)),不會(huì)對(duì)模型性能產(chǎn)生較大的影響。實(shí)際進(jìn)行風(fēng)險(xiǎn)因子含量檢測(cè)時(shí),傳感器可能會(huì)產(chǎn)生散粒噪聲、熱噪聲、低頻噪聲等,其中散粒噪聲和熱噪聲影響較大,這兩種噪聲都是白噪聲。因此,為了充分驗(yàn)證模型的魯棒性并盡可能模擬實(shí)際情況會(huì)產(chǎn)生的噪聲干擾,本研究對(duì)原始食用油檢測(cè)數(shù)據(jù)的噪聲方差進(jìn)行了修改,如式(1)所示。
將上述得到的數(shù)據(jù)輸入到濾波模塊進(jìn)行濾波處理,濾波模塊主體是小波閾值法,小波閾值法主要原理為設(shè)置一個(gè)臨界閾值,經(jīng)小波變換后,所得小于閾值的小波系數(shù)主要是由噪聲引起,這部分系數(shù)需要被濾除掉,反之大于閾值的系數(shù)則是由信號(hào)引起,該部分系數(shù)需要被保留,最后通過(guò)小波重構(gòu)得到濾波處理后的信號(hào)。本研究小波閾值法去噪分為3 個(gè)步驟:1)使用離散化小波變換將信號(hào)轉(zhuǎn)變到小波域;2)對(duì)各尺度上的小波系數(shù)做閾值量化處理;3)小波重構(gòu)得到濾波后信號(hào)。
具體地,小波閾值去噪過(guò)程首先需進(jìn)行離散小波變換(discrete wavelet transform,DWT)過(guò)程,DWT實(shí)際上是一個(gè)分解過(guò)程,分解則需選取小波分解層數(shù)和母小波函數(shù)類型,這個(gè)過(guò)程由貝葉斯優(yōu)化算法自適應(yīng)選取。在分解完成后會(huì)得到對(duì)應(yīng)層數(shù)的高頻和低頻分量,這時(shí)需要選擇合適的閾值σ進(jìn)行噪聲的平滑處理,經(jīng)小波變換轉(zhuǎn)到小波域之后,白噪聲仍然呈現(xiàn)出較強(qiáng)的隨機(jī)性,因此小波域中更容易區(qū)分噪聲與信號(hào),小波變換后各個(gè)分量中原始數(shù)據(jù)的有效信號(hào)對(duì)應(yīng)較大的系數(shù),而此時(shí)原始數(shù)據(jù)中的噪聲對(duì)應(yīng)較小的系數(shù)。假設(shè)在小波域中噪聲的方差為σ,依據(jù)高斯分布特性,99.9%的噪聲系數(shù)都在[-υ,υ]范圍內(nèi),接著設(shè)定合適的閾值,通過(guò)比較信號(hào)絕對(duì)值和閾值的大小,將小于閾值的點(diǎn)重置為零,大于或等于閾值的點(diǎn)重置為該點(diǎn)信號(hào)與閾值的差,即實(shí)現(xiàn)了噪聲的平滑處理,上述過(guò)程如式(2)所示。
式中:Di,t表示第i層分解結(jié)果的高頻子序列索引為t的數(shù)據(jù);λi是間接調(diào)節(jié)閾值的比例系數(shù),其取值范圍為λi∈(0,1),i=1,...,N;σ為噪聲估計(jì)方差;median表示被平滑序列的中位數(shù);Di為分解后索引為i的高頻子序列;0.674 5為高斯噪聲標(biāo)準(zhǔn)方差調(diào)整系數(shù);T為被去噪序列長(zhǎng)度;γ為根據(jù)估計(jì)的噪聲方差所計(jì)算的每個(gè)子序列噪聲的估計(jì)閾值;而最終的閾值υ是通過(guò)比例系數(shù)λ的值調(diào)整估計(jì)閾值γ得到的;由于各個(gè)子序列中的噪聲含量不同,因此在平滑處理每個(gè)分量時(shí)對(duì)應(yīng)的λ均不同,而每個(gè)λ則是通過(guò)PBO算法自適應(yīng)選取的,這樣可以對(duì)不同數(shù)據(jù)中的噪聲進(jìn)行平滑處理。具體PBO算法會(huì)在1.2.3節(jié)詳細(xì)介紹。優(yōu)化最后對(duì)每層高頻分量濾波處理后,通過(guò)小波重構(gòu)得到估計(jì)真值,如式(3)所示。
1.2.2 基于GRA-ELM的風(fēng)險(xiǎn)評(píng)價(jià)模塊
1.2.2.1 灰色關(guān)聯(lián)分析
GRA是一種多因素分析方法,它通過(guò)比較統(tǒng)計(jì)集合之間的幾何關(guān)系來(lái)劃分復(fù)雜系統(tǒng)中多因素之間的關(guān)系[26]。GRA主要包括以下步驟:1)利用GRA對(duì)指標(biāo)進(jìn)行賦權(quán);2)計(jì)算綜合風(fēng)險(xiǎn)值。
首先需要獲取參考向量和比較向量,設(shè)參考向量為x1={x1(1),x1(2),...,x1(n)},n為食用油樣本個(gè)數(shù)。比較向量為xj={xj(1),xj(2),...,xj(n)},j=1,2,...,m,m為風(fēng)險(xiǎn)指標(biāo)個(gè)數(shù)。對(duì)m組指標(biāo)進(jìn)行歸一化處理,消除量綱的影響,如公式(4)所示。
然后計(jì)算關(guān)聯(lián)系數(shù),k時(shí)刻的fj(k)和f1(k)的灰色關(guān)聯(lián)系數(shù)如公式(5)所示。
式中:ξj(k)為灰色關(guān)聯(lián)系數(shù);ρ為調(diào)節(jié)參數(shù),可以使各個(gè)系數(shù)的差異性增強(qiáng),ρ∈(0,1)。序列f1和序列fj間的關(guān)聯(lián)系數(shù)見(jiàn)公式(6)。
為了保證結(jié)果的準(zhǔn)確性,用每個(gè)風(fēng)險(xiǎn)指標(biāo)各充當(dāng)一次參考序列,則可得到所有風(fēng)險(xiǎn)指標(biāo)的相關(guān)系數(shù)矩陣,見(jiàn)公式(7)。
本研究指標(biāo)間關(guān)聯(lián)系數(shù)矩陣計(jì)算結(jié)果如表3所示,例如酸值對(duì)于自身灰色關(guān)聯(lián)系數(shù)為1,與過(guò)氧化值、砷含量、鉛含量、黃曲霉毒素B1含量和苯并[a]芘含量的灰色關(guān)聯(lián)系數(shù)分別為0.688 1、0.820 6、0.770 0、0.966 1和0.722 3。
表3 風(fēng)險(xiǎn)指標(biāo)灰色關(guān)聯(lián)系數(shù)矩陣Table 3 Gray correlation coefficient matrix of risk indicators
根據(jù)表2可得權(quán)重向量,如公式(8)所示。
式中:m為風(fēng)險(xiǎn)指標(biāo)個(gè)數(shù);γij為表3中第i行指標(biāo)與第j列指標(biāo)之間的灰色關(guān)聯(lián)系數(shù)。
則權(quán)重向量W=[0.173 980 203,0.150 610 512,0.172 256 898,0.168 421 495,0.174 607 178,0.160 123 714]。
接下來(lái)需要計(jì)算綜合風(fēng)險(xiǎn)評(píng)價(jià)值,首先需要進(jìn)行無(wú)量綱化處理,具體為用風(fēng)險(xiǎn)因子的實(shí)際檢測(cè)值與指標(biāo)關(guān)鍵限值α的比值表示相對(duì)風(fēng)險(xiǎn)值,如公式(9)所示。
式中:Pij為第j類風(fēng)險(xiǎn)因子的第i條檢測(cè)含量結(jié)果xij經(jīng)無(wú)量綱化處理后得到的相對(duì)風(fēng)險(xiǎn)值,其中i=1,2,...,n,j=1,2,...,m;aj為第j類風(fēng)險(xiǎn)因子的指標(biāo)關(guān)鍵限值。將公式(8)所得權(quán)重向量W與公式(9)中得到的各指標(biāo)相對(duì)風(fēng)險(xiǎn)矩陣相乘,即得到公式(10)。
式中:Y=[y1,y2,...,ym]T為綜合風(fēng)險(xiǎn)評(píng)價(jià)序列;P為相對(duì)風(fēng)險(xiǎn)矩陣;W=[w1,w2,...,wm]T為權(quán)重向量。至此模型的期望輸出標(biāo)簽計(jì)算完成。
1.2.2.2 極限學(xué)習(xí)機(jī)網(wǎng)絡(luò)
由Huang Guangbin等[27]提出的ELM是一種新型神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,ELM的網(wǎng)絡(luò)結(jié)構(gòu)與單隱層前饋神經(jīng)網(wǎng)絡(luò)一樣,分為輸入層、隱含層和輸出層,但ELM的訓(xùn)練階段不再是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中基于梯度的算法(后向傳播),而是隨機(jī)生成輸入層權(quán)值和隱藏層偏置,輸出層權(quán)重則是通過(guò)最小化由訓(xùn)練誤差項(xiàng)和輸出層權(quán)重范數(shù)的正則項(xiàng)構(gòu)成的損失函數(shù),并依據(jù)Moore-Penrose的廣義逆矩陣?yán)碚撚?jì)算求出,得到所有節(jié)點(diǎn)的權(quán)值和偏差后即完成了ELM的訓(xùn)練過(guò)程,測(cè)試數(shù)據(jù)利用求得的輸出層權(quán)重即可計(jì)算出網(wǎng)絡(luò)的預(yù)測(cè)輸出。
由于隨機(jī)生成輸入層權(quán)值和隱藏層偏置,ELM網(wǎng)絡(luò)不需要像傳統(tǒng)神經(jīng)網(wǎng)絡(luò)那樣通過(guò)一次次迭代得到最終的解,因此ELM網(wǎng)絡(luò)的計(jì)算復(fù)雜度低,可調(diào)參數(shù)非常少,一般為隱層節(jié)點(diǎn)數(shù),并且ELM網(wǎng)絡(luò)在保證精度的同時(shí),學(xué)習(xí)速度更快、泛化能力更強(qiáng)。圖2為ELM的結(jié)構(gòu)。
圖2 ELM網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of ELM
假設(shè)有N個(gè)任意樣本(xi,ti),其中Xi=[xi1,xi2,...,xin]T∈Rn,ti=[ti1,ti2,...,tin]T∈Rm,對(duì)于一個(gè)有L個(gè)隱層節(jié)點(diǎn)的單隱層神經(jīng)網(wǎng)絡(luò)可以按公式(11)表示。
式中:g(x)為激活函數(shù);Wi=[wi1,wi,2,...,wi,n]T為輸入權(quán)重;βi為輸出權(quán)重;bi是第i個(gè)隱層節(jié)點(diǎn)偏置;Wi×Xj表示W(wǎng)i和Xj的內(nèi)積。
ELM學(xué)習(xí)的目標(biāo)是使得輸出的誤差損失最小,可按式(12)表示。
式中:oj表示網(wǎng)絡(luò)輸出;tj表示目標(biāo)輸出。
矩陣表示為式(13)。
式中:H是隱層節(jié)點(diǎn)的輸出;β是輸出權(quán)重;T是目標(biāo)輸出。
這等價(jià)于最小化式(15)所示的損失函數(shù)。
在ELM中,輸入權(quán)重Wi和隱層偏置bi隨機(jī)生成后,隱層的輸出矩陣H就被唯一確定,ELM的訓(xùn)練過(guò)程可以轉(zhuǎn)化為求解Hβ=T,輸出權(quán)重β可以被確定,如式(16)所示。
式中:H?是矩陣H的Moore-Penrose廣義逆。在本研究中,原始的食用油安全檢測(cè)數(shù)據(jù)作為ELM的輸入,由公式(8)~(10)所得到的綜合風(fēng)險(xiǎn)評(píng)價(jià)數(shù)據(jù)作為期望輸出,對(duì)ELM進(jìn)行訓(xùn)練,對(duì)ELM隱層節(jié)點(diǎn)數(shù)的參數(shù)優(yōu)化是由PBO算法完成的。
1.2.3 實(shí)用貝葉斯優(yōu)化算法
由1.2.1節(jié)可知,小波閾值法中母小波函數(shù)、小波分解層數(shù)和每層小波高頻分量閾值是濾波模塊中的重要參數(shù),由1.2.2.2節(jié)可知,ELM的隱層節(jié)點(diǎn)數(shù)目也是重要的參數(shù)[28],這些參數(shù)會(huì)對(duì)模型最終的預(yù)測(cè)性能產(chǎn)生極大的影響,由于人工選取效率低且存在主觀性過(guò)強(qiáng)的問(wèn)題,本研究利用PBO算法,對(duì)建模過(guò)程中的參數(shù)進(jìn)行優(yōu)化,該方法將網(wǎng)格自適應(yīng)直接搜索(mesh adaptive direct search,MADS)與通過(guò)局部高斯過(guò)程(Gaussian process,GP)執(zhí)行的BO搜索相結(jié)合,主要分為搜索和輪詢兩個(gè)階段。簡(jiǎn)而言之,PBO是在一系列快速的、局部的BO步驟(MADS的搜索階段)和系統(tǒng)的網(wǎng)格探索(輪詢階段)之間交替進(jìn)行,當(dāng)搜索階段失敗時(shí),意味著GP模型沒(méi)有成功優(yōu)化參數(shù),這時(shí)會(huì)切換到輪詢階段,輪詢階段執(zhí)行的是無(wú)模型優(yōu)化,在這個(gè)階段會(huì)收集優(yōu)化目標(biāo)的信息,以便下次在搜索階段構(gòu)建更好的GP模型,直到達(dá)到優(yōu)化目標(biāo)。
在使用貝葉斯優(yōu)化時(shí),首先需定義目標(biāo)函數(shù),但由于ELM的訓(xùn)練過(guò)程實(shí)際上是一個(gè)黑盒過(guò)程,因此本實(shí)驗(yàn)中使用網(wǎng)絡(luò)的均方根誤差(root mean square error,RMSE)作為PBO算法的目標(biāo)函數(shù),具體如式(17)所示。
PBO算法偽代碼如表4所示。
表4 PBO算法偽代碼Table 4 PBO algorithm pseudocode
1.2.4 模糊綜合分析
由1.2.2節(jié)中評(píng)價(jià)模型所得的綜合風(fēng)險(xiǎn)評(píng)價(jià)值是對(duì)風(fēng)險(xiǎn)的定量評(píng)價(jià),但為了給相關(guān)監(jiān)管部門(mén)提供更直觀的參考依據(jù),定性分析同樣重要[29]。模糊綜合分析來(lái)源于模糊數(shù)學(xué)中的隸屬度理論[30],它能將待評(píng)價(jià)對(duì)象進(jìn)行定性和定量分析間的相互轉(zhuǎn)換,在風(fēng)險(xiǎn)評(píng)價(jià)領(lǐng)域有極大的實(shí)用價(jià)值。對(duì)于本研究,模糊綜合分析主要分為兩步:1)構(gòu)建模糊評(píng)語(yǔ)集;2)構(gòu)建隸屬度函數(shù)。
食品風(fēng)險(xiǎn)因子的關(guān)鍵限值是由國(guó)家制定的用來(lái)判定食品質(zhì)量是否滿足上市要求的統(tǒng)一標(biāo)準(zhǔn),但單一的限量標(biāo)準(zhǔn)無(wú)法對(duì)食品質(zhì)量的潛在風(fēng)險(xiǎn)進(jìn)行評(píng)判,也無(wú)法進(jìn)行多指標(biāo)的綜合評(píng)價(jià),例如,某個(gè)花生油樣品所選取的6 類風(fēng)險(xiǎn)因子均未超標(biāo),這并不能說(shuō)明該樣品完全沒(méi)有風(fēng)險(xiǎn)。因此本研究依據(jù)5標(biāo)度模式[31],以國(guó)家標(biāo)準(zhǔn)為基礎(chǔ)設(shè)定5 個(gè)等級(jí)安全風(fēng)險(xiǎn)評(píng)語(yǔ)集,即低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、警報(bào)風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)和極高風(fēng)險(xiǎn),每個(gè)風(fēng)險(xiǎn)等級(jí)對(duì)應(yīng)的量化值分別為0.25a、0.5a、0.75a、a和2a,其中a代表國(guó)家限量標(biāo)準(zhǔn),同時(shí)也是高風(fēng)險(xiǎn)對(duì)應(yīng)的量化值,對(duì)于前4 個(gè)風(fēng)險(xiǎn)等級(jí),以等距法設(shè)定對(duì)應(yīng)量化值,為突出極高風(fēng)險(xiǎn)的危害性,將其對(duì)應(yīng)量化值設(shè)為2 倍的國(guó)家限量標(biāo)準(zhǔn)。設(shè)立警報(bào)風(fēng)險(xiǎn)是由于模糊綜合分析的對(duì)象是多指標(biāo)的綜合風(fēng)險(xiǎn)評(píng)價(jià)值,當(dāng)達(dá)到警報(bào)風(fēng)險(xiǎn)時(shí)說(shuō)明樣品的多個(gè)風(fēng)險(xiǎn)因子都十分接近國(guó)家限量標(biāo)準(zhǔn),應(yīng)該予以重視。
本實(shí)驗(yàn)所檢測(cè)食用油的6 類風(fēng)險(xiǎn)因子均屬于負(fù)效應(yīng)類指標(biāo),即指標(biāo)檢測(cè)值需小于關(guān)鍵限值,適用于降半梯形隸屬度函數(shù),對(duì)于1.3節(jié)中所得第i條綜合風(fēng)險(xiǎn)值yi,其隸屬度hiq如式(19)~(21)所示。
當(dāng)q=1時(shí),
當(dāng)q=2,3,4時(shí),
當(dāng)q=5時(shí),
式中:Zq表示5標(biāo)度評(píng)價(jià)等級(jí)所對(duì)應(yīng)的量化值除以國(guó)家限量標(biāo)準(zhǔn)后的無(wú)量綱值,即{Z1,Z2,Z3,Z4,Z5}={0.25,0.5,0.75,1,2},分別與模糊評(píng)語(yǔ)級(jí)低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)、警報(bào)風(fēng)險(xiǎn)、高風(fēng)險(xiǎn)和極高風(fēng)險(xiǎn)相對(duì)應(yīng),計(jì)算出第i條綜合風(fēng)險(xiǎn)值yi所對(duì)應(yīng)5 個(gè)風(fēng)險(xiǎn)等級(jí)的隸屬度hiq后,根據(jù)最大隸屬度原則即可判斷出食用油所屬的風(fēng)險(xiǎn)等級(jí)。
實(shí)驗(yàn)所用計(jì)算機(jī)為Windows10 64位操作系統(tǒng),處理器為Intel(R) Core(TM) i5-10400 CPU @ 2.90 GHz,運(yùn)行內(nèi)存為32 GB,顯卡為NVIDIA RTX 2060(80 W),實(shí)驗(yàn)基于Matlab R2015b軟件。為了驗(yàn)證本實(shí)驗(yàn)提出的基于優(yōu)化的GRA-ELM風(fēng)險(xiǎn)評(píng)價(jià)模型的優(yōu)越性和有效性,將經(jīng)修改噪聲方差后的150 個(gè)花生油樣本風(fēng)險(xiǎn)指標(biāo)數(shù)據(jù)作為模型輸入數(shù)據(jù),將由式(8)~(10)得到的綜合風(fēng)險(xiǎn)評(píng)價(jià)值作為模型期望輸出數(shù)據(jù),其中70%作為訓(xùn)練集,30%作為測(cè)試集,首先將ELM網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型(誤差反向傳播(error back propagation,BP)、徑向基函數(shù)(radial basis function,RBF))進(jìn)行對(duì)比以證明ELM網(wǎng)絡(luò)的泛化能力和魯棒性,再分別測(cè)試濾波模塊和PBO算法的有效性。
2.1.1 不同神經(jīng)網(wǎng)絡(luò)性能對(duì)比
為了驗(yàn)證ELM網(wǎng)絡(luò)的泛化能力和魯棒性,將修改噪聲方差后的原始檢測(cè)數(shù)據(jù)輸入RBF和BP網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn),統(tǒng)一去掉濾波模塊,ELM網(wǎng)絡(luò)的輸入層、隱含層和輸出層的節(jié)點(diǎn)數(shù)分別設(shè)為6、20和1,單層BP網(wǎng)絡(luò)學(xué)習(xí)率設(shè)為0.1,動(dòng)量因子為0.9,迭代次數(shù)為500,激勵(lì)函數(shù)為Sigmoid函數(shù),隱含層節(jié)點(diǎn)設(shè)為20。RBF網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)為0.1,迭代次數(shù)為500。評(píng)判指標(biāo)為模型預(yù)測(cè)值與期望值的決定系數(shù)(coefficient of determination,R2)和RMSE,分別如式(22)、(23)所示。
GRA-ELM、GRA-RBF和GRA-BP模型回歸曲線如圖3所示,模型絕對(duì)誤差曲線如圖4所示,GRA-ELM、GRA-RBF和GRA-BP模型性能對(duì)比結(jié)果如表5所示,圖3中期望值曲線是利用式(8)~(10)對(duì)測(cè)試集樣本計(jì)算得到的。
表5 GRA-ELM、GRA-RBF和GRA-BP性能對(duì)比結(jié)果Table 5 Comparative performance of GRA-ELM,GRA-RBF and GRA-BP models
圖3 GRA-ELM、GRA-RBF和GRA-BP泛化情況對(duì)比Fig.3 Comparison of the generalization results of GRA-ELM,GRARBF and GRA-BP models
圖4 GRA-ELM、GRA-RBF和GRA-BP模型絕對(duì)誤差曲線Fig.4 Absolute error curves of GRA-ELM,GRA-RBF and GRA-BP models
從圖3可直觀觀察到,3 種模型都受到了噪聲的干擾,其中BP網(wǎng)絡(luò)受到的干擾最嚴(yán)重,無(wú)法準(zhǔn)確地預(yù)測(cè)風(fēng)險(xiǎn)值。而表5的結(jié)果中RBF網(wǎng)絡(luò)的效果雖略優(yōu)于BP網(wǎng)絡(luò),但從圖3中可以看出,RBF的綜合風(fēng)險(xiǎn)值中由于噪聲的干擾出現(xiàn)了多個(gè)負(fù)值,是明顯的錯(cuò)誤值。相比于BP和RBF網(wǎng)絡(luò),沒(méi)有濾波模塊的ELM網(wǎng)絡(luò)雖在一定程度上會(huì)受到噪聲影響,但其預(yù)測(cè)值依然能與期望值保持較小的差距,由表5可知,ELM的RMSE以及R2分別為0.132 0、0.796 4,而B(niǎo)P、RBF的RMSE以及R2分別為0.193 8、0.373 8和0.172 0、0.576 2,圖4中不同模型絕對(duì)誤差曲線的對(duì)比更進(jìn)一步說(shuō)明ELM網(wǎng)絡(luò)在魯棒性和泛化能力上的優(yōu)勢(shì)。分析其原因,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)如BP和RBF等會(huì)在一次次迭代訓(xùn)練中對(duì)數(shù)據(jù)中存在的噪聲進(jìn)行學(xué)習(xí),得到的模型會(huì)因?yàn)檫^(guò)分學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的噪聲引起過(guò)擬合問(wèn)題,而ELM網(wǎng)絡(luò)的輸入權(quán)值和隱層偏置是隨機(jī)生成的,與訓(xùn)練數(shù)據(jù)無(wú)關(guān),噪聲的影響會(huì)低很多。
2.1.2 濾波模塊和實(shí)用貝葉斯優(yōu)化算法的有效性
為了驗(yàn)證濾波模塊和PBO算法的有效性,對(duì)不加濾波模塊的模型(GRA-ELM)、加上濾波模塊的模型(WT-GRA-ELM)以及再經(jīng)過(guò)PBO后的模型(WT-PBO-GRA-ELM)進(jìn)行對(duì)比實(shí)驗(yàn),以經(jīng)驗(yàn)法確定的參數(shù)與PBO后參數(shù)對(duì)比如表6所示,模型對(duì)比結(jié)果如表7所示,模型回歸曲線如圖5所示,圖5中期望值曲線是利用式(8)~(10)對(duì)測(cè)試集樣本計(jì)算得到的。
表6 PBO前后的參數(shù)對(duì)比Table 6 Comparison of parameters before and after PBO
表7 WT-PBO-GRA-ELM、WT-GRA-ELM和GRA-ELM性能對(duì)比結(jié)果Table 7 Comparative performance of WT-PBO-GRA-ELM,WT-GRA-ELM and GRA-ELM models
圖5 WT-PBO-GRA-ELM、WT-GRA-ELM和GRA-ELM泛化情況對(duì)比Fig.5 Comparison of the generalization results of WT-PBO-GRAELM,WT-GRA-ELM and GRA-ELM models
由表7可知,加上濾波模塊后RMSE達(dá)到了0.094 5,相比無(wú)濾波時(shí)降低了28.41%,R2提升了12.04%,效果明顯。從圖5中也可看出,加上濾波模塊后ELM的擬合度更高,這充分說(shuō)明濾波模塊對(duì)于最終風(fēng)險(xiǎn)評(píng)價(jià)結(jié)果準(zhǔn)確率的重要性。而經(jīng)過(guò)PBO后,總體性能得到進(jìn)一步提升,RMSE和R2分別達(dá)到了0.056 3和0.946 1。由表6可知,經(jīng)過(guò)PBO算法的參數(shù)優(yōu)化,小波分解后每層高頻分量的閾值是不同的,這能夠更精確地濾除數(shù)據(jù)中的噪聲。從圖5可看出,WT-PBO-GRA-ELM模型對(duì)期望值曲線的擬合效果最好,從而說(shuō)明了PBO算法的有效性。
針對(duì)表1中的食用油原始檢測(cè)數(shù)據(jù),采用式(19)~(21)對(duì)本實(shí)驗(yàn)所建立WT-PBO-GRA-ELM評(píng)價(jià)模型輸出的綜合風(fēng)險(xiǎn)值進(jìn)行模糊綜合分析后,得到的風(fēng)險(xiǎn)隸屬度矩陣如表8所示,根據(jù)最大隸屬度原則可以得出各個(gè)樣本的風(fēng)險(xiǎn)等級(jí):樣本1、3、4、5和6為低風(fēng)險(xiǎn),樣本7為中風(fēng)險(xiǎn),樣本2為極高風(fēng)險(xiǎn)。
表8 風(fēng)險(xiǎn)隸屬度矩陣Table 8 Risk membership matrix
以花生油樣本2為例,分別對(duì)GRA-ELM、WT-GRAELM模型輸出的綜合風(fēng)險(xiǎn)值進(jìn)行模糊綜合分析,所得風(fēng)險(xiǎn)隸屬度如圖6所示,GRA-ELM、WT-GRA-ELM模型的風(fēng)險(xiǎn)分級(jí)結(jié)果都為高風(fēng)險(xiǎn)。而表1中樣本2的黃曲霉毒素B1檢測(cè)結(jié)果為20.60 μg/kg,是黃曲霉毒素B1標(biāo)準(zhǔn)限值的2 倍以上,由1.2.4節(jié)中國(guó)家限量標(biāo)準(zhǔn)倍數(shù)對(duì)應(yīng)的風(fēng)險(xiǎn)語(yǔ)言集可知,2 倍標(biāo)準(zhǔn)限值對(duì)應(yīng)的風(fēng)險(xiǎn)語(yǔ)言集為極高風(fēng)險(xiǎn),同時(shí),樣本2其他風(fēng)險(xiǎn)指標(biāo)檢測(cè)結(jié)果也較為接近標(biāo)準(zhǔn)限值,因此樣本2的真實(shí)風(fēng)險(xiǎn)等級(jí)為極高風(fēng)險(xiǎn),只有WT-PBOGRA-ELM模型判定結(jié)果與真實(shí)情況一致,說(shuō)明本實(shí)驗(yàn)所構(gòu)建的風(fēng)險(xiǎn)評(píng)價(jià)模能準(zhǔn)確識(shí)別出食用油風(fēng)險(xiǎn)程度以及優(yōu)先次序,可以為監(jiān)管部門(mén)制定有針對(duì)性的防護(hù)策略,并為確立優(yōu)先監(jiān)管領(lǐng)域和合理分配風(fēng)險(xiǎn)管理措施資源提供科學(xué)依據(jù)。
圖6 GRA-ELM、WT-GRA-ELM和WT-PBO-GRA-ELM隸屬度結(jié)果對(duì)比Fig.6 Comparison of the membership results of GRA-ELM,WT-GRA-ELM and WT-PBO-GRA-ELM models
食用油檢測(cè)數(shù)據(jù)具有高維性、復(fù)雜性、非線性和離散性的特征,同時(shí),在測(cè)定食用油各風(fēng)險(xiǎn)指標(biāo)含量時(shí)可能會(huì)出現(xiàn)噪聲。本研究在分析國(guó)內(nèi)某食用油主要產(chǎn)出省2017—2019年11 345 行花生油安全日常檢測(cè)數(shù)據(jù)及其相關(guān)信息的基礎(chǔ)上,建立了基于優(yōu)化的GRA-ELM風(fēng)險(xiǎn)評(píng)價(jià)模型。首先對(duì)指標(biāo)進(jìn)行篩選,得到6 類風(fēng)險(xiǎn)指標(biāo),再對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,得到150 組樣本的花生油檢測(cè)數(shù)據(jù)。將預(yù)處理后數(shù)據(jù)輸入到小波閾值濾波模塊中,對(duì)濾波后數(shù)據(jù)進(jìn)行GRA,得到指標(biāo)的權(quán)重,并與指標(biāo)相對(duì)風(fēng)險(xiǎn)值結(jié)合得到綜合風(fēng)險(xiǎn)評(píng)價(jià)期望值,接著輸入到ELM網(wǎng)絡(luò)中訓(xùn)練,再利用PBO算法進(jìn)行參數(shù)優(yōu)化。最后對(duì)評(píng)價(jià)模型輸出的綜合風(fēng)險(xiǎn)值進(jìn)行模糊綜合分析,實(shí)現(xiàn)對(duì)花生油樣品風(fēng)險(xiǎn)程度分級(jí)。在不同模型對(duì)比實(shí)驗(yàn)中,首先通過(guò)與BP、RBF網(wǎng)絡(luò)模型的對(duì)比,ELM網(wǎng)絡(luò)的R2和RMSE分別為0.132 0和0.796 4,性能優(yōu)于BP網(wǎng)絡(luò)和RBF網(wǎng)絡(luò),證明ELM網(wǎng)絡(luò)擁有更好的泛化能力和魯棒性;其次通過(guò)對(duì)比有無(wú)濾波模塊以及有無(wú)PBO參數(shù)優(yōu)化情況下的結(jié)果,最終得出加上濾波模塊且進(jìn)行PBO參數(shù)優(yōu)化后的WT-PBOGRA-ELM模型R2和RMSE分別為0.056 3和0.946 1,證明了濾波模塊和PBO算法的有效性;最后通過(guò)對(duì)比模型評(píng)價(jià)花生油樣本2的結(jié)果,得出只有WT-PBO-GRA-ELM模型得到的風(fēng)險(xiǎn)等級(jí)結(jié)果為極高風(fēng)險(xiǎn),與該樣本真實(shí)風(fēng)險(xiǎn)等級(jí)一致,證明了本研究風(fēng)險(xiǎn)評(píng)價(jià)模型的有效性。
未來(lái)本研究還可以在以下幾個(gè)方面更加深入,首先在數(shù)據(jù)方面,可以將地理因素、時(shí)序因素加入模型從而提取出相關(guān)風(fēng)險(xiǎn)規(guī)律。其次在指標(biāo)賦權(quán)方面,可以將專家打分等主觀賦權(quán)與危害物本身的毒理學(xué)特性和基于數(shù)據(jù)的客觀賦權(quán)有機(jī)地結(jié)合在一起形成更加綜合合理的風(fēng)險(xiǎn)因子權(quán)重體系。此外,還可以進(jìn)一步研究對(duì)于整條食用油加工鏈的風(fēng)險(xiǎn)評(píng)價(jià)。