肖仕杰,王巧華, 2*,李春芳,杜 超,周增坡,梁生超,張淑君*
1. 華中農(nóng)業(yè)大學工學院,湖北 武漢 430070 2. 農(nóng)業(yè)部長江中下游農(nóng)業(yè)裝備重點實驗室,湖北 武漢 430070 3. 華中農(nóng)業(yè)大學動物遺傳育種與繁殖教育部實驗室,湖北 武漢 430070 4. 河北省畜牧業(yè)協(xié)會,河北 石家莊 050000
牛奶富含蛋白質(zhì)和脂肪。 乳蛋白中含多種人體必需的氨基酸。 乳脂能夠提供能量和營養(yǎng)。 牛奶的品質(zhì)決定牛奶的口感[1]和價格[2],直接關(guān)系到乳企的利潤和發(fā)展。 相關(guān)數(shù)據(jù)表明,2014年—2019年,我國每年原料奶產(chǎn)量均在3 000萬噸以上[3]。 隨著生活水平的提高,消費者更加注重牛奶品質(zhì),因此市場上普遍出現(xiàn)“高蛋白”,“高乳脂”等特色牛奶。 此外,研究表明,牛奶中體細胞數(shù)的變化會直接影響乳蛋白和乳脂的含量[4]。 乳企在收購原料奶時會將其作為評價指標。
乳蛋白和乳脂含量,體細胞數(shù)的測定需要分開進行,使用不同的方法和儀器。 傳統(tǒng)的化學分析方法技術(shù)成熟、準確率高,但是耗時長且污染環(huán)境。 若能找到一種方法同時對乳蛋白、乳脂含量和體細胞數(shù)直接進行檢測并快速分級,將大大提高乳企的生產(chǎn)效率,節(jié)約生產(chǎn)成本。 利用中紅外光譜法檢測牛奶操作簡單且快速無損,在國外被用于牛奶成分(如蛋白成分和脂肪酸)[5-7]的含量預測和奶牛營養(yǎng)、健康與生殖狀況監(jiān)控[8]。 在國內(nèi),中紅外光譜在牛奶方面主要用于三聚氰胺和尿素等的摻假研究[9-10]。 牛奶體細胞的無損研究方面,崔傳金等和吳海云等[11-12]利用電參數(shù)和化學計量學方法進行了含量預測和分類研究。 但是,關(guān)于牛奶體細胞的光譜無損檢測鮮有報道。
利用傅里葉變換中紅外光譜針對乳蛋白、乳脂和體細胞對牛奶進行分級研究。 通過對特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的光譜差異進行分析,利用無信息變量消除法(uninformative variable elimination,UVE)、競爭性自適應重加權(quán)算法(competitive adaptive reweighed sampling,CARS)與穩(wěn)定性競爭性自適應重加權(quán)采樣算法(stability competitive adaptive reweighted sampling,SCARS)篩選出能代表4種牛奶品質(zhì)差異的特征變量,并基于樸素貝葉斯(NB)和隨機森林(RF)模型構(gòu)建了牛奶檢測分級模型。
牛奶于2020年1月、3月至10月期間從河北省10個牧場獲得,所有奶牛品種均為中國荷斯坦牛。 牛奶采集利用全自動擠奶設(shè)備,每份牛奶采集40 mL,分裝到河北省奶牛生產(chǎn)性能測定(DHI)中心配置的全新專用取樣瓶里并依次編號,為防止牛奶腐敗變質(zhì),每個采樣瓶里加入專用防腐劑布羅波爾3.2~3.4 μL并使其與牛奶充分混勻,及時放入專用冰箱冷藏保存。
試驗儀器與設(shè)備主要包括乳成分分析儀MilkoScanTM FT+(傅里葉變換中紅外光譜儀,丹麥FOSS公司);體細胞檢測儀FossomaticTM7(丹麥FOSS公司),電熱恒溫水浴鍋。
1.3.1 光譜采集、乳蛋白和乳脂含量及體細胞數(shù)檢測
將牛奶分批放入42 ℃電熱恒溫水浴鍋內(nèi)預熱15~20 min后搖晃均勻,使用MilkoScanTM FT+進行光譜采集以及蛋白質(zhì)和脂肪的含量測定。 FossomaticTM7可視為自動熒光顯微鏡,物鏡位于轉(zhuǎn)盤上方,連續(xù)的牛奶液膜涂布在轉(zhuǎn)盤周邊,暴露在紫外光下,經(jīng)吖啶橙染色的牛奶細胞熒光信號由光電倍增管檢測并饋入放大系統(tǒng),測得的脈沖被計數(shù), 每個脈沖等于1 000個細胞·mL-1。
根據(jù)歐盟標準,脂肪的正常含量范圍為1.5%~9%,蛋白質(zhì)的正常含量范圍為1%~7%,共篩選出5 121份牛奶。 各牧場的樣本分布如表1所示。
1.3.2 分級標準
參考GB19301—2010《食品安全國家標準生乳》和TTDSTIA001—2019《生乳用途分級技術(shù)規(guī)范》對牛奶進行分級,分級標準如表2所示。
1.4.1 光譜預處理方法
牛奶本身作為膠體,當光束穿過時,會產(chǎn)生丁達爾效應,即光的散射,儀器在運行過程中也會產(chǎn)生隨機噪聲,基線漂移等,對中紅外光譜產(chǎn)生影響[8]。 本文采用6種算法對光譜進行預處理,包括標準正態(tài)變量變換(standard normal variable,SNV),多元散射校正(multiplicative scatter correction,MSC),一階導數(shù),二階導數(shù),一階差分和二階差分。
表1 各牧場的樣本分布統(tǒng)計Table 1 Sample distribution statistics of each pasture
表2 分級標準Table 2 Standard of classification
1.4.2 特征變量選擇
牛奶的原始光譜共有1060個波長,波長不同包含的信息不同,對模型的貢獻率大小也不同,部分無信息變量對牛奶分級的中紅外判別分析沒有價值,反而容易降低模型的預測精度。 UVE,CARS和SCARS均以降低無信息變量為出發(fā)點,提取出能夠代表4種牛奶差異的特征變量組合。
1.4.3 模型建立與性能評估
樸素貝葉斯(NB)[13]是一種以概率統(tǒng)計中的貝葉斯定理為理論基礎(chǔ)的學習算法。 已知先驗概率,并計算給定的待分級牛奶屬于特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的條件概率,再計算后驗概率,選擇后驗概率最高的類別作為牛奶的預測類別。
隨機森林(RF)[14]的本質(zhì)是一個多決策樹(隨機方法形成)的分類器。 當測試集中4種牛奶樣本進入分類器時,實際上是由每棵決策樹進行分類,選擇分類結(jié)果最多的類別作為最終結(jié)果。
利用準確率作為模型的評價指標。 訓練集準確率與測試集準確率越高并且兩者越接近,表明模型的精度高,可靠性好。
全部數(shù)據(jù)處理均在MATLAB 2014b中進行。
在中紅外范圍內(nèi)對牛奶樣品的采集區(qū)域為925~4 000 cm-1,由于3 680~4 000 cm-1區(qū)域?qū)δP拓暙I率較低,因此,選擇925~3 680 cm-1的光譜進行分析。 圖1所示為特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的平均光譜,從圖中可以看出,特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的平均光譜吸收曲線緊密重合,每條曲線的變化趨勢相似,表明特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的成分大致相同,但同時它們的光譜吸光度也存在差異,這表明4種牛奶的化學成分含量存在差異,這就為我們建立牛奶品質(zhì)分級模型提供了理論依據(jù)。
圖1 特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的平均光譜
光譜中1 250,1 550和1 650 cm-1峰與蛋白質(zhì)的吸收有關(guān)[15],1 774,2 856和2 928 cm-1峰與脂肪的吸收有關(guān)[10]。 此外,水的吸收峰與牛奶相似,會對牛奶的中紅外吸收造成干擾。 1 597~1 712和3 024~3 680 cm-1區(qū)域由于水的吸收導致很低的信噪比[15-17],建模前先將這些區(qū)域去除。 最終取925~1 597和1 712~3 024 cm-1的敏感波段組合用于后續(xù)模型的建立。
樣本總數(shù)為5 121,其中A級牛奶的樣本數(shù)量為1 342,B級牛奶的樣本數(shù)量為1 155,C級牛奶的樣本數(shù)量為1 292,D級牛奶的樣本數(shù)量為1 332,利用隨機法RS按照7∶3的原則劃分樣本集。 劃分后的訓練集樣本數(shù)量為3 587,其中,A級牛奶的樣本數(shù)量為940,B級牛奶的樣本數(shù)量為809,C級牛奶的樣本數(shù)量為905,D級牛奶的樣本數(shù)量為933;測試集中樣本總數(shù)為1 534,其中,A級牛奶的樣本數(shù)量為402,B級牛奶的樣本數(shù)量為346,C級牛奶的樣本數(shù)量為387,D級牛奶的樣本數(shù)量為399。
基于全光譜和預處理后的光譜數(shù)據(jù),分別建立NB和RF模型,比較不同預處理對模型精度的影響,結(jié)果如表3。 對于NB模型,全光譜模型的訓練集準確率與測試集準確率僅為84.50%和84.22%,與全光譜相比,所有預處理后的光譜數(shù)據(jù)建立的NB模型的訓練集準確率與測試集準確率都有明顯提升。 其中,二階差分處理后的光譜建立的NB模型精度最佳,訓練集準確率與測試集準確率為94.31%和92.11%。 對于RF模型,SNV和MSC的模型準確率低于全光譜模型,其余4種預處理方法建立的RF模型準確率得到提高。 二階差分預處理后的光譜數(shù)據(jù)建立的RF模型精度最佳,訓練集準確率和測試集準確率為99.86%和96.87%。 因此,無論是NB模型還是RF模型,均選擇二階差分預處理作為最佳的預處理方法,并用于后續(xù)的建模分析。
表3 采用不同預處理方法的全光譜預測模型Table 3 Full spectrum prediction model using different pre-processing methods
2.4.1 UVE算法提取特征變量
UVE算法[18]的變量選擇過程如圖2所示,將閾值參數(shù)設(shè)為0.9,主成分數(shù)取20,建立PLS模型選擇變量。 圖中左側(cè)曲線為牛奶的光譜變量矩陣,右側(cè)為添加的與牛奶光譜變量數(shù)相同的隨機噪聲矩陣,兩條水平虛線處的值分別為+95.57和-95.57,代表隨機噪聲的最大閾值,兩線之間為被剔除的無用變量,水平線之外則為建模的牛奶特征變量。
圖2 UVE消除算法篩選特征波長Fig.2 Screening characteristic wavelengths by UVE
2.4.2 CARS與SCARS算法提取特征變量
CARS算法基于“優(yōu)勝劣汰”準則剔除不適應的波長變量。 SCARS算法延續(xù)了CARS的提取過程[19]。 由于兩者的變量選擇過程相似,僅以CARS為例對變量提取的過程進行分析。 如圖3所示,將采樣次數(shù)設(shè)為100,利用5折交叉驗證,重采樣率為0.8。 圖3(a)表明,迭代次數(shù)增加的過程,被選取的特征變量數(shù)量在逐步減少。 此過程又可分為兩個階段,第一個階段特征變量數(shù)呈指數(shù)衰減趨勢,稱為“粗選階段”,第二個階段特征變量數(shù)緩慢減少并趨于穩(wěn)定,為“精選階段”。 圖3(b)為RMSECV的變化趨勢。 當采樣次數(shù)小于48,RMSECV變化不明顯,大于48時,RMSECV緩慢增加,表明特征變量中可能包含了無用信息。 圖3(c)中的豎線處對應迭代48次,可以取得最佳變量組合。
分別以UVE,CARS和SCARS提取的變量組合為自變量,以牛奶級別A, B, C, D (在模型中分別記作0, 1, 2, 3)作為因變量建立NB模型和RF模型,結(jié)果如表4。
對比NB模型可知,全光譜NB模型訓練集準確率與測試集準確率分別為94.31%,92.11%,預測性能較好。 UVE,CARS和SCARS提取特征變量后建立的模型均優(yōu)于全光譜模型,表明UVE,CARS和SCARS算法適用于牛奶的品質(zhì)分級,可以簡化模型,提高模型精度。 SCARS-NB模型的精度優(yōu)于CARS-NB模型和UVE-NB模型,訓練集準確率與測試集準確率為94.45%,93.94%。 CARS,SCARS提取的變量較少,為37,20,僅占全光譜變量的7.2%,3.9%。 UVE提取的變量數(shù)高達229個,占比達到44.6%,變量數(shù)遠大于CARS,SCARS,導致模型運行速度慢,因此在UVE的基礎(chǔ)上利用CARS,SCARS進行二次變量提取。 UVE-CARS和UVE-SCARS提取的變量數(shù)分別為30和37,僅占UVE變量數(shù)的13.1%和20.5%,變量數(shù)大大減少。 從UVE-CARS-NB與UVE-SCARS-NB的預測結(jié)果來看,兩種二次特征變量結(jié)合方法均對UVE-NB進行了優(yōu)化,且UVE-SCARS-NB要優(yōu)于UVE-CARS-NB,訓練集準確率與測試集準確率為94.68%,93.61%。 綜合考慮,選擇SCARS-NB模型作為牛奶品質(zhì)分級的最優(yōu)NB模型。
圖3 (a)采樣變量數(shù); (b)RMSECV; (c)回歸系數(shù)路徑Fig.3 (a) Number of sampling variables; (b) RMSECV; (c) Regression coefficient path
表4 NB模型和RF模型的預測結(jié)果Table 4 Prediction results by NB and RF models
對比RF模型可知,全光譜RF測試集準確率為96.87%,模型的預測性能良好。 UVE,CARS和SCARS提取特征變量后建立的模型精度較全光譜模型均有不同程度的下降,但模型的測試集準確率均大于95.5%,表明基于特征變量的RF模型還是可行的,具有良好的精度。 其中UVE-RF的精度優(yōu)于CARS-RF和SCARS-RF,測試集準確率為96.74%,與全光譜RF接近。 同樣將UVE分別與CARS和SCARS相結(jié)合,進行二次特征變量提取并建立RF模型,但兩種結(jié)合方法的模型精度較UVE-RF模型有所下降,這可能是因為CARS和SCARS在進一步剔除無用信息的同時將部分有用信息也剔除了。 其中,UVE-SCARS-RF的測試集準確率為96.48%,與全光譜RF較接近。
進一步對比全光譜RF,UVE-RF和UVE-SCARS-RF模型的預測性能。 與全光譜RF模型的測試集準確率相比,UVE-RF模型精度下降0.13%,UVE-SCARS-RF模型精度下降0.39%;對測試集的1 534份牛奶判別結(jié)果表明,UVE-RF僅比全光譜RF模型多誤判2個,UVE-SCARS-RF比全光譜RF模型多誤判6個。 但在運行時間上,對測試集的1 534份牛奶判別,全光譜RF模型的運行時間為59.28 s;UVE提取的特征變量數(shù)為全光譜變量的44.55%,運行時間為全光譜RF模型的44.74%;UVE-SCARS提取的特征變量數(shù)為全光譜的9.14%,運行時間僅為全光譜RF模型的10.22%。 綜合考慮,最終選擇UVE-SCARS-RF模型作為牛奶品質(zhì)分級的最優(yōu)RF模型。
對于NB模型,二階差分-SCARS-NB模型取得最優(yōu)效果,訓練集準確率與測試集準確率分別為94.45%和93.94%,測試集中特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的預測準確率分別為97.26%,93.93%,93.02%和91.48%。 對于RF模型,二階差分-UVE-SCARS -RF模型取得了最優(yōu)效果,訓練集準確率和測試集準確率為99.86%,96.48%,測試集中特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶的預測準確率分別為98.26%,97.40%,95.87%和94.49%。 二階差分-UVE-SCARS-RF模型的訓練集準確率與測試集準確率均高于SCARS-NB模型。 綜合考慮精度和效率,最終選擇二階差分-UVE-SCARS-RF模型作為牛奶品質(zhì)分級的最佳模型。
圖4 基于二階差分-UVE-SCARS-RF的分類模型Fig.4 Hierarchical model based on the secondorder difference-UVE-SCARS-RF
針對特優(yōu)優(yōu)質(zhì)奶、高蛋白特色奶、高乳脂特色奶和普通奶建立了無損快速檢測分級模型。 選擇來自10個牧場的5 121份牛奶樣本,保證了模型的通用性和可靠性。 主要結(jié)論如下:
(1)探討了牛奶品質(zhì)分級的最佳預處理算法,結(jié)果表明無論是NB模型還是RF模型,二階差分均為最佳預處理方法,并將其用于后續(xù)的建模分析。
(2)探討了UVE,CARS,SCARS,UVE-CARS和UVE-SCARS 5種特征提取算法對NB模型和RF模型性能的影響。 結(jié)果表明對于NB模型,SCARS為最佳特征提取算法,對于RF模型,最佳的特征提取算法為UVE-SCARS,但RF模型的精度優(yōu)于NB模型。
(3)在實際生產(chǎn)中,效率也十分重要。 在測試集中,二階差分-SCARS-NB模型的運行時間為5.53 s,二階差分-UVE-SCARS-RF模型的運行時間為6.06 s。 綜合考慮精度和效率,最終選擇二階差分-UVE-SCARS-RF模型作為牛奶品質(zhì)分級的最佳模型。