郁 城, 張小軍, 梅光明, 方 益, 何鵬飛*
(1 浙江海洋大學(xué)食品與藥學(xué)學(xué)院 浙江舟山316022 2 浙江省海洋水產(chǎn)研究所 浙江舟山316021 3 浙江省海水增養(yǎng)殖重點(diǎn)實(shí)驗(yàn)室 浙江舟山316021)
對蝦等甲殼類海洋動(dòng)物味道鮮美, 優(yōu)質(zhì)蛋白及微量元素等營養(yǎng)要素豐富,深受消費(fèi)者喜歡,是重要的經(jīng)濟(jì)類水產(chǎn)品。 2020年我國甲殼類海洋捕撈產(chǎn)量達(dá)191.79 萬t,海水養(yǎng)殖產(chǎn)量達(dá)174.38 萬t[1]。高水分及高蛋白使對蝦等甲殼類極易因微生物污染而發(fā)生腐敗變質(zhì); 同時(shí)大量高活性多酚氧化酶也易催化酪氨酸系列生化反應(yīng), 產(chǎn)生類黑素等物質(zhì),造成蝦體變黑[2]。 為減緩腐敗變質(zhì)及黑變的發(fā)生, 漁民常將蝦粉作為保鮮劑添加到甲殼類水產(chǎn)品中。
Na2S2O5是蝦粉中的主要成分, 屬強(qiáng)還原劑,可抑制氧化酶活性和破壞發(fā)色基團(tuán), 阻斷微生物生理生化過程,有效控制水產(chǎn)品的褐變和變質(zhì)。然而,使用Na2S2O5造成的SO2或亞硫酸鹽殘留可能引發(fā)健康風(fēng)險(xiǎn)[3]。《食品安全國家標(biāo)準(zhǔn) 食品添加劑使用標(biāo)準(zhǔn)》(GB 2760—2014) 規(guī)定水產(chǎn)品中Na2S2O5的使用僅限于海水蝦蟹類及其制品,最大使用量為0.1 g/kg(以SO2殘留量計(jì))[4]。 亞硫酸鹽的檢測方法有離子色譜法、蒸餾滴定法、鹽酸副玫瑰苯胺比色法、 重量法等, 這些方法具有操作復(fù)雜、 受蛋白等基質(zhì)干擾大或試劑毒性大等不足[5],快速簡便的新型測定方法近年來受到日益關(guān)注[6]。
電子舌(ET)是基于與味覺感知系統(tǒng)相似的原理, 以交互敏感傳感器陣列為基礎(chǔ)的現(xiàn)代化分析檢測儀器。利用ET 測定溶液總體性質(zhì)差異并結(jié)合主成分分析(PCA)、偏最小二乘法(PLS)、主成分回歸分析(PCR)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等多元數(shù)理統(tǒng)計(jì)方法進(jìn)行分析, 已成功應(yīng)用于食品領(lǐng)域中的綜合品質(zhì)評估以及成分含量測定等方面[7-8]。 多頻大幅脈沖電子舌是在伏安型電子舌基礎(chǔ)上進(jìn)一步改進(jìn)的新型電子舌技術(shù), 不僅具有常規(guī)電子舌的操作簡便、靈敏度高等特點(diǎn),還具有檢測信息更為豐富、全面的優(yōu)點(diǎn)[9]。 多頻脈沖電子舌在Na2S2O5添加量測定中具有良好的應(yīng)用前景。
本文以南美白對蝦(Penaeus vanname)為研究對象,對基于多頻脈沖電子舌測定Na2S2O5添加量的方法進(jìn)行探索。 利用多頻脈沖電子舌測定對蝦提取液性質(zhì)差異,以極值點(diǎn)、拐點(diǎn)以及極值點(diǎn)融合拐點(diǎn)為信號特征數(shù)據(jù)集, 結(jié)合PCA、PLS、ANN以及PCR 等方法進(jìn)行統(tǒng)計(jì)分析,通過分析評估不同方法在定性判別和定量預(yù)測中的性能表現(xiàn),考察多頻脈沖電子舌在Na2S2O5添加量測定中的可應(yīng)用性并確定合適的特征數(shù)據(jù)集及數(shù)理統(tǒng)計(jì)方法。
新鮮南美白對蝦購自舟山老砌菜場, 洗凈去蝦頭取尾部可食部分。焦亞硫酸鈉(Na2S2O5)、乙醇等試劑均為國產(chǎn)分析純級, 國藥集團(tuán)化學(xué)試劑有限公司。
多頻大幅脈沖伏安電子舌, 采購自上海昂申智能科技有限公司。 傳感器陣列由6 根金屬工作電極Pt、Au、Pd、Wu、Ti、Ag(下分別稱之為S1、S2、S3、S4、S5、S6)、 充滿飽和KCl 溶液的參比電極(Ag/AgCl)和輔助電極構(gòu)成。
模擬蝦粉添加過程,添加適量Na2S2O5,制備5個(gè)添加量的對蝦樣本(0.0,0.2,0.8,1.6,3.2 mg/g)。為進(jìn)行電子舌信號采集, 試樣使用20%乙醇水溶液進(jìn)行提取,具體操作如下:不同添加量對蝦樣本分別攪碎、混勻,然后準(zhǔn)確稱取2.00 g 樣品于50 mL 離心管中,每個(gè)添加量做9 個(gè)平行樣。 離心管中加入20 mL 20%乙醇水溶液, 室溫下渦旋提取2 min 后,離心10 min (10 000 r/min),取15 mL 上清液轉(zhuǎn)入20 mL 燒杯中,待上機(jī)測試。
設(shè)置電壓變化范圍為-1.0~1.0 V,步進(jìn)幅度為0.2 V,脈沖頻率為1,10,100 Hz。 為使測量信號穩(wěn)定, 測定前使用0.01 mol/L KCl 溶液對電極預(yù)熱活化,同時(shí)每次測定前均進(jìn)行預(yù)檢。
將6 個(gè)工作電極及其頻率按如下方式進(jìn)行不同的組合:每個(gè)組合至少選擇1 個(gè)電極,每個(gè)電極每次僅選擇1 個(gè)頻率。 以極值點(diǎn)融合頂點(diǎn)為特征值提取每個(gè)電極組合的特征數(shù)據(jù)進(jìn)行主成分分析,計(jì)算無重疊情況下的鑒別指數(shù)DI 值(Discrimination index)[10], 篩選出DI 值最大的工作電極及其頻率組合, 在盡量保證有效信息的前提下減小數(shù)據(jù)量并去除冗余信息。
無重疊情況下DI 值的計(jì)算公式如下:
式中,Si——主成分得分圖中平行樣品組構(gòu)成的多邊形面積,cm2;S總——主成分得分圖中所有樣品構(gòu)成的多邊形面積,cm2。
如圖1 所示, 選擇極值點(diǎn)和拐點(diǎn)為多頻脈沖電子舌的特征信號,構(gòu)建極值點(diǎn)、拐點(diǎn)、極值點(diǎn)融合拐點(diǎn)3 組特征值數(shù)據(jù)集, 并分別進(jìn)行PCA、PCR、PLS、ANN 等后續(xù)處理分析。
圖1 多頻脈沖電子舌特征值示意圖Fig.1 Schematic diagram for feature value from multifrequency pulse electronic tongue
PCA 是通過數(shù)據(jù)變換, 利用少數(shù)線性無關(guān)的綜合變量解釋原多重共線性變量的主要信息,從而實(shí)現(xiàn)數(shù)據(jù)的降維及無監(jiān)督分類[11]。 將上述3 組特征值數(shù)據(jù)集分別進(jìn)行PCA,應(yīng)用R 軟件(3.6.0)通過奇異值分解法求解主成分, 并繪制前兩個(gè)主成分的主成分得分圖, 探索各特征值的分布規(guī)律及對不同含量Na2S2O5對蝦的區(qū)分效果。
特征數(shù)據(jù)集按照Na2S2O5含量分層抽樣,隨機(jī)選取約70%的數(shù)據(jù)作為模型訓(xùn)練集, 其余為模型測試集。 比較評估PLS、PCR、ANN 3 種模型構(gòu)建方法在不同特征數(shù)據(jù)集中的性能表現(xiàn), 選擇合適的特征值及預(yù)測模型。 PLS 和PCR 采用R 軟件(3.6.0)中的pls 包來完成[12],采用交叉驗(yàn)證方法選擇最佳因子數(shù),防止模型過擬合。應(yīng)用單隱藏層的前饋型神經(jīng)網(wǎng)絡(luò)構(gòu)建ANN 模型[13],采用誤差逆向傳播方法調(diào)整神經(jīng)元權(quán)重, 優(yōu)化選擇合適的神經(jīng)元個(gè)數(shù)。 ANN 采用MATLAB 2016a 來完成。 以均方根誤差(RMSE)和相關(guān)系數(shù)R2為指標(biāo)確定模型性能,RMSE 越小,R2越大,說明模型性能越好[14]。
RMSE 和R2計(jì)算公式如下:
對所有可能的電極組合, 以極值點(diǎn)融合拐點(diǎn)為特征值分別進(jìn)行主成分分析并計(jì)算DI 值,按DI 值由大到小進(jìn)行電極組合排序,部分結(jié)果見表1。其中,(S1_1 Hz_S2_100 Hz_S3_10 Hz_S6_100 Hz)為DI 值最大的電極組合,同時(shí)電極數(shù)也更少,因此最優(yōu)電極組合為Pt(1 Hz)、Au(100 Hz)、Pd(10 Hz)和Ag(100 Hz)。
表1 電極組合及其DI 值的部分結(jié)果Table 1 The partial results of electrodes combinations and their DI value
在最優(yōu)電極組合的基礎(chǔ)上,以極值點(diǎn)、拐點(diǎn)、極值點(diǎn)融合拐點(diǎn)3 種方式提取特征值并分別應(yīng)用主成分分析進(jìn)行數(shù)據(jù)降維。 主成分分析便于抓住主要矛盾,揭示變量之間的規(guī)律性,使問題簡化,提高分析效率, 廣泛應(yīng)用于高維數(shù)據(jù)的定性評估和探索性分析中[15-16]。 主成分累計(jì)方差貢獻(xiàn)率達(dá)85%以上表示說明了原始數(shù)據(jù)的主要信息[17]。
極值點(diǎn)特征值第1 主成分(PC1)的方差貢獻(xiàn)率達(dá)93.59%,說明其含有大量的冗余信息,存在明顯的共線性; 拐點(diǎn)特征值前5 個(gè)主成分的貢獻(xiàn)率分別為49.31%,22.70%,6.55%,5.83%和2.49%,累計(jì)達(dá)86.88%;極值點(diǎn)融合拐點(diǎn)特征值前3 個(gè)主成分的貢獻(xiàn)率分別為68.72%,14.74%、3.91%。3 個(gè)特征數(shù)據(jù)集均僅用少數(shù)幾個(gè)主成分即可解釋原有數(shù)據(jù)的主要差異,數(shù)據(jù)降維效果明顯。進(jìn)一步利用第1 主成分 (PC1) 和第2 主成分(PC2)繪制主成分得分圖(圖2),比較3 種特征值對不同Na2S2O5添加量對蝦樣品的區(qū)分效果。極值點(diǎn)為特征值時(shí), 除0.0 mg/g 和0.2 mg/g 兩個(gè)添加量之外的其余添加量組相互之間距離接近甚至重疊,不能達(dá)到有效區(qū)分的要求(圖2a);拐點(diǎn)以及極值點(diǎn)融合拐點(diǎn)的結(jié)果相似, 各添加量的樣品點(diǎn)分布相對集中而且不同添加量之間可實(shí)現(xiàn)完全有效的區(qū)分(圖2b 和2c)。 此外,0.0 mg/g 添加量組在距離上明顯區(qū)別于其余添加量組樣品, 表明添加以及未添加Na2S2O5的對蝦樣品之間存在明顯差異, 而應(yīng)用拐點(diǎn)值以及極值點(diǎn)融合拐點(diǎn)為特征值均可實(shí)現(xiàn)兩者的有效區(qū)分??傮w而言,電子舌信號在不同Na2S2O5添加量之間存在明顯差異,不同特征值的區(qū)分效果為拐點(diǎn)最優(yōu),極值點(diǎn)融合拐點(diǎn)次之,極值點(diǎn)最差。
圖2 主成分分析中前2 個(gè)主成分的得分圖Fig.2 The score plots of the first two principal components from PCA
2.3.1 主成分回歸預(yù)測模型 采用主成分回歸方法對極值點(diǎn)、拐點(diǎn)、極值點(diǎn)融合拐點(diǎn)3 種方式提取的特征值分別建立對蝦中Na2S2O5添加量的定量預(yù)測模型。 依據(jù)留一法交叉驗(yàn)證確定了3 個(gè)特征數(shù)據(jù)集的主成分回歸模型的最佳主成分?jǐn)?shù)分別為11,9 和12, 對應(yīng)模型分別記為PCR1、PCR2、PCR3(表2)。 訓(xùn)練數(shù)據(jù)集中3 個(gè)模型的預(yù)測均方根誤差RMSE(TR)在0.121~0.161 且相關(guān)系數(shù)均在0.980 以上, 表明3 個(gè)模型在訓(xùn)練集樣本均具有良好的預(yù)測性能。 圖3a、3b 和3c 也直觀地顯示了3 個(gè)模型在訓(xùn)練集中對各添加量的預(yù)測值分布集中,預(yù)測值與實(shí)際值的擬合曲線與1∶1 線幾乎重合,模型對訓(xùn)練集數(shù)據(jù)擬合良好。
訓(xùn)練集結(jié)果表明了模型對已知數(shù)據(jù)的預(yù)測性能,對未知數(shù)據(jù)的預(yù)測能力則應(yīng)用測試集進(jìn)一步驗(yàn)證以判斷模型預(yù)測性能優(yōu)劣。 相較于訓(xùn)練集結(jié)果,PCR1 測試集均方根誤差RMSE(TE)增加至0.364,相關(guān)系數(shù)減小至0.902,表明了PCR1 的泛化能力較差。 圖3d 中預(yù)測值和實(shí)際值擬合曲線明顯位于1∶1 線上側(cè), 表明PCR1 在測試集中的預(yù)測結(jié)果總體偏大。 PCR2 測試集均方根誤差RMSE(TE)為0.185,相關(guān)系數(shù)R2(TE)為0.975,同時(shí)圖3e 顯示了PCR2 在測試集的預(yù)測值分布相對集中且與實(shí)際值的擬合曲線與1∶1 線幾乎重合,表明PCR2 具有較好的泛化能力。 表2 以及圖3f中的結(jié)果表明了PCR3 的泛化能力介于PCR1 和PCR2 之間。綜上,對于Na2S2O5添加量的主成分回歸預(yù)測模型,采用拐點(diǎn)提取特征值的結(jié)果最佳,極值點(diǎn)融合拐點(diǎn)次之,極值點(diǎn)最差。
表2 不同特征值定量回歸模型的性能Table 2 The performance of quantitative regression model from different feature value
圖3 PCR 模型預(yù)測值-實(shí)際值相關(guān)圖Fig.3 The correlation diagram of predicted values of PCR model vs measured values
2.3.2 偏最小二乘預(yù)測模型 以極值點(diǎn)、拐點(diǎn)、極值點(diǎn)融合拐點(diǎn)3 種特征值為預(yù)測變量, 分別采用偏最小二乘法建立定量預(yù)測模型并應(yīng)用留一法交叉驗(yàn)證選擇確定最優(yōu)模型因子數(shù)。 3 種特征值分別在因子數(shù)7,5,7 時(shí)得到最優(yōu)偏最小二乘預(yù)測模型, 分別記為PLS1、PLS2、PLS3。 從表2 中可知,PLS1、PLS2、PLS3 的訓(xùn)練集RMSE(TR)在0.133~0.155 范圍,R2(TR)均大于0.98。圖4a、4c 和4e 顯示3 個(gè)偏最小二乘模型訓(xùn)練集預(yù)測值集中分布于1∶1 線兩側(cè), 和實(shí)際值的擬合曲線與1∶1 線基本重疊。 訓(xùn)練集結(jié)果表明了3 個(gè)模型對訓(xùn)練集樣本均擬合良好。 測試集結(jié)果中:PLS1 的RMSE(TE)和R2(TE)分別為0.311 和0.928,預(yù)測值和實(shí)際值擬合曲線明顯偏離1∶1 線(圖4b),表明PLS1 在測試集中的預(yù)測穩(wěn)定性和準(zhǔn)確性均較差,泛化能力一般;PLS2和PLS3 兩個(gè)模型的泛化性能相當(dāng),RMSE(TE)均在0.180 左右且R2(TE)均大于0.97,而預(yù)測值和實(shí)際值相關(guān)圖則顯示了PLS3 的預(yù)測性能略差于PLS2,然而兩者均顯著優(yōu)于PLS1。
圖4 PLS 模型預(yù)測值-實(shí)際值相關(guān)圖Fig.4 The correlation diagram of predicted values of PLS model vs measured values
2.3.3 人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型 采用BP 神經(jīng)網(wǎng)絡(luò)建立以3 種特征值為預(yù)測變量的Na2S2O5添加量預(yù)測模型,3 種特征值的單隱藏層神經(jīng)網(wǎng)絡(luò)預(yù)測模型均在神經(jīng)元個(gè)數(shù)為6 時(shí)最佳, 分別得到最優(yōu)模型ANN1、ANN2 和ANN3。 根據(jù)表2 中訓(xùn)練集RMSE(TR)和R2(TR)以及圖5a、5c、5e 中預(yù)測值與實(shí)際值的關(guān)系可知,3 個(gè)神經(jīng)網(wǎng)絡(luò)模型均很好地解釋了訓(xùn)練集中Na2S2O5添加量與特征值之間的關(guān)系。此外,測試集結(jié)果表明3 個(gè)模型均具有較小的RMSE(TE)和超過0.99 的R2(TE),預(yù)測值均分布于1∶1 線附近(圖5b、5d、5f),說明它們均具有較好的泛化性能,可用于Na2S2O5添加量的實(shí)際預(yù)測。
圖5 ANN 模型預(yù)測值-實(shí)際值相關(guān)圖Fig.5 The correlation diagram of predicted values of ANN model vs measured values
多頻脈沖伏安型電子舌通過施加不同頻率電壓并測定電流信號來采集樣品信息, 單個(gè)電極電流信號圖如圖1 所示。 單個(gè)電極在單次測定中產(chǎn)生的數(shù)據(jù)點(diǎn)多達(dá)52 萬個(gè),6 個(gè)電極產(chǎn)生的數(shù)據(jù)量則可達(dá)312 萬個(gè)。 大量冗余信息及噪音不僅使模型構(gòu)建復(fù)雜化, 而且也大大降低了模型的準(zhǔn)確性和穩(wěn)健性[18-19]。特征選擇是減少冗余和噪音數(shù)據(jù)的關(guān)鍵步驟,而極值點(diǎn)(極大值和極小值)和拐點(diǎn)是伏安型電子舌中提取主要特征信息的常用手段[20-21]。本文以極值點(diǎn)、 拐點(diǎn)以及極值點(diǎn)融合拐點(diǎn)為特征值數(shù)據(jù)集, 單個(gè)電極單個(gè)頻率下的數(shù)據(jù)點(diǎn)分別降至20,20,40 個(gè),結(jié)合優(yōu)化電極組合,大大簡化了數(shù)據(jù)處理分析的工作量。
主成分分析的探索性分析結(jié)果暗示了Na2S2O5可通過構(gòu)建回歸模型實(shí)現(xiàn)定量預(yù)測,本文采用了PCR、PLS、ANN 3 種方法構(gòu)建定量預(yù)測模型并進(jìn)行比較分析。 PCR 和PLS 均是基于數(shù)據(jù)降維的思想建立回歸模型, 在高維復(fù)雜數(shù)據(jù)中有廣泛的應(yīng)用[22-24];兩者之間不同之處在于PCR 中數(shù)據(jù)變換為無監(jiān)督的, 而PLS 的數(shù)據(jù)變換與因變量相關(guān)[25]。相較于PCR 而言,PLS 模型性能更優(yōu)且所需因子數(shù)更少, 說明了部分變量盡管方差較小卻與Na2S2O5添加量密切相關(guān)。類似于主成分分析結(jié)果, 主成分回歸和偏最小二乘回歸對極值點(diǎn)建立的回歸模型表現(xiàn)一般。 ANN 可映射非線性關(guān)系,近年來常被應(yīng)用于構(gòu)建復(fù)雜的回歸模型[26-27]。ANN在3 個(gè)特征集中的表現(xiàn)均優(yōu)于PCR 和PLS, 揭示了特征變量,尤其是極值點(diǎn)特征與Na2S2O5含量間可能存在非線性關(guān)系。綜合而言,對于特征值的選擇, 拐點(diǎn)在定性定量分析中均具有良好表現(xiàn)而且數(shù)據(jù)量為極值點(diǎn)融合拐點(diǎn)的一半; 對于模型構(gòu)建方法,RMSE 和R2結(jié)果顯示了應(yīng)用ANN 構(gòu)建的預(yù)測模型的性能為最佳。 以拐點(diǎn)為特征值構(gòu)建人工神經(jīng)網(wǎng)絡(luò)模型同時(shí)兼顧了數(shù)據(jù)量大小和模型預(yù)測性能。
電子舌通常用于溶液的整體性質(zhì)分析[28],本研究使用20%乙醇溶液進(jìn)行提取。 應(yīng)用多頻大幅脈沖電子舌采集提取液信號, 以拐點(diǎn)為特征值建立的ANN 模型在測試集中得到的RMSE(TE)為0.106,R2(TE)為0.996,可實(shí)現(xiàn)對蝦中Na2S2O5含量的有效定量預(yù)測。食品中Na2S2O5的傳統(tǒng)檢測方法多需經(jīng)過加熱蒸餾釋放SO2后進(jìn)行滴定, 操作繁瑣耗時(shí)[5]。多頻大幅脈沖電子舌測定方法具有操作簡便快捷的特點(diǎn), 在高通量檢測中具有潛在的應(yīng)用前景。本研究為食品中Na2S2O5的檢測方法開發(fā)提供了新的思路。