徐子洋, 姜新華*, 白 潔, 張文婧, 李 靖
1. 內(nèi)蒙古農(nóng)業(yè)大學(xué)計(jì)算與信息工程學(xué)院, 內(nèi)蒙古 呼和浩特 010018 2. 內(nèi)蒙古自治區(qū)農(nóng)牧業(yè)大數(shù)據(jù)研究與應(yīng)用重點(diǎn)實(shí)驗(yàn)室, 內(nèi)蒙古 呼和浩特 010018
羊肉因其含有豐富的營(yíng)養(yǎng)物質(zhì), 成為人們重要的飲食組成部分, 羊肉品質(zhì)的管理和監(jiān)測(cè)也受到了人們的高度關(guān)注。 羊肉品質(zhì)會(huì)受到自身成分、 貯藏環(huán)境和微生物的相互作用發(fā)生腐敗變質(zhì)現(xiàn)象, 給羊肉食品的品質(zhì)和安全帶來極大的影響, 使得羊肉新鮮度檢測(cè)成為肉類食品監(jiān)測(cè)和管理的重要內(nèi)容之一[1]。 傳統(tǒng)檢測(cè)方法以感官評(píng)價(jià)和實(shí)驗(yàn)室檢測(cè)為主, 感官評(píng)價(jià)通過視覺、 嗅覺和剪切力度等方法分析樣本的色澤、 氣味和嫩度, 但受主觀影響較大, 且缺乏對(duì)樣本內(nèi)部成分變化的準(zhǔn)確判斷[2]; 實(shí)驗(yàn)室檢測(cè)可以分析樣本內(nèi)部成分, 但操作復(fù)雜, 實(shí)驗(yàn)周期較長(zhǎng), 且需要破壞樣本, 不易實(shí)現(xiàn)快速檢測(cè)[3]。 高光譜成像技術(shù)是一種融合了傳統(tǒng)光譜學(xué)和計(jì)算機(jī)視覺的新型無(wú)損檢測(cè)技術(shù), 被廣泛應(yīng)用到農(nóng)畜產(chǎn)品品質(zhì)檢測(cè)研究中[4-5]。 利用高光譜成像技術(shù)可以采集到肉類食品的內(nèi)外變化信息[6-7], 且不破壞樣本本身的物理結(jié)構(gòu)。 許多學(xué)者研究采用化學(xué)計(jì)量學(xué)方法檢測(cè)冷鮮羊肉中揮發(fā)性鹽基氮(total volatile basic nitrogen, TVB-N)含量, 通過與高光譜成像技術(shù)的結(jié)合以實(shí)現(xiàn)冷鮮羊肉品質(zhì)的無(wú)損檢測(cè)[8-10]。 還有學(xué)者通過檢測(cè)肉類腐敗過程中的微生物繁殖數(shù)量, 利用高光譜成像技術(shù)建立肉類新鮮度評(píng)價(jià)模型[11]。 但是羊肉的腐敗變質(zhì)是一個(gè)復(fù)雜的變化過程, 采用單一指標(biāo)構(gòu)建無(wú)損檢測(cè)模型, 很難反應(yīng)羊肉的新鮮狀態(tài), 限制了模型的性能和泛化能力[12]。
多標(biāo)記學(xué)習(xí)[13]是一類多語(yǔ)義學(xué)習(xí)建模方法, 該類算法用一組特征描述每個(gè)實(shí)體對(duì)象, 具有多個(gè)類別標(biāo)記, 算法學(xué)習(xí)的目標(biāo)是將所屬的類別標(biāo)記賦予待分類對(duì)象, 綜合反映對(duì)象的本質(zhì)屬性。 近年來, 許多學(xué)者提出了大量的多標(biāo)記學(xué)習(xí)算法, 在自然語(yǔ)言處理[14], 生物信息分析[15]以及場(chǎng)景分類[16]等領(lǐng)域取得了豐碩成果。 常見的多標(biāo)記學(xué)習(xí)方法有多標(biāo)記k近鄰法[17], 多標(biāo)記支持向量機(jī)[18], 多標(biāo)記神經(jīng)網(wǎng)絡(luò)[19]等。 多標(biāo)記學(xué)習(xí)算法在高光譜無(wú)損檢測(cè)方面的研究成果較少。 有學(xué)者將多元線性回歸、 典型相關(guān)分析和主成分分析思想結(jié)合起來提出偏最小二乘法, 應(yīng)用于食品新鮮度無(wú)損檢測(cè)的特征提取和分類識(shí)別中[20], 但此類算法在特征提取過程中, 沒有充分考慮標(biāo)記之間的相關(guān)性, 限制了算法的性能。 有學(xué)者研究了典型相關(guān)分析(canonical correlation analysis, CCA)的多標(biāo)記特征提取和分類算法及其核化方法[21], 但在CCA核展開中需要通過引入正則項(xiàng)來解決平凡解的問題, 增加了問題求解的復(fù)雜性。 有學(xué)者研究了基于神經(jīng)網(wǎng)絡(luò)的無(wú)損檢測(cè)算法, 將特征信息和標(biāo)記信息嵌入到潛在的特征空間中, 可獲取標(biāo)記中的相關(guān)性, 但是需要精確選擇模型的深度, 并且不適合小規(guī)模數(shù)據(jù)集。
深度森林[22]是近年來提出的一種在廣度和深度上集成樹模型的學(xué)習(xí)框架, 能夠充分表征數(shù)據(jù)之間的差異性, 同時(shí)算法設(shè)置的超參數(shù)少, 在訓(xùn)練過程中可自動(dòng)調(diào)節(jié)模型的結(jié)構(gòu)與大小, 適合用來解決多標(biāo)記學(xué)習(xí)問題。 為了研究冷鮮羊肉多指標(biāo)新鮮度無(wú)損檢測(cè)方法, 提出一種基于隨機(jī)樹構(gòu)造的多標(biāo)記深度森林算法, 通過特征篩選挖掘冷鮮羊肉多個(gè)指標(biāo)與高光譜成像數(shù)據(jù)之間的相關(guān)性, 利用層增長(zhǎng)控制探索光譜數(shù)據(jù)中的潛在流型結(jié)構(gòu), 實(shí)現(xiàn)自適應(yīng)分類, 增強(qiáng)了光譜特征信息的類內(nèi)緊致性和類間可分性, 提高了新鮮度無(wú)損檢測(cè)模型的適用性和魯棒性。
預(yù)測(cè)聚類樹(predictive clustering tree, PCT)[23]是一種基于決策樹的學(xué)習(xí)方法, 樣本x會(huì)根據(jù)節(jié)點(diǎn)上的規(guī)則落到?jīng)Q策樹的某一葉子結(jié)點(diǎn)上, 葉子結(jié)點(diǎn)預(yù)測(cè)x對(duì)應(yīng)的標(biāo)記的概率值, 按照概率值可確定樣本x屬于哪一個(gè)類別。 考慮到單棵決策樹的性能有限, 可將決策樹集成得到森林應(yīng)用于多標(biāo)記分類問題中, 如基于PCT的隨機(jī)森林(random forest of predictive clustering trees, RF-PCT)[24], RF-PCT通過平均每棵樹的預(yù)測(cè)結(jié)果輸出一個(gè)概率向量, 按照其中概率值大小, 確定樣本屬于某個(gè)類別, 如圖1所示。
圖1 基于PCT的隨機(jī)森林
深度森林用于多標(biāo)記分類問題, 需要考慮如何利用標(biāo)記之間的相關(guān)性以提高分類器的性能。 將RF-PCT作為基分類器嵌入到深度森林中, 可以在逐層特征學(xué)習(xí)中挖掘多個(gè)標(biāo)記之間的相關(guān)關(guān)系。
利用聚類樹構(gòu)造層森林, 每層包含2個(gè)完全隨機(jī)森林和2個(gè)普通隨機(jī)森林, 再用層森林構(gòu)造layer-by-layer多層級(jí)聯(lián)的深度森林模型, 模型結(jié)構(gòu)如圖2所示。 模型第一層隨機(jī)森林的輸入是經(jīng)過預(yù)處理的冷鮮羊肉樣本特征光譜數(shù)據(jù), 輸入數(shù)據(jù)經(jīng)過第一層中各森林的計(jì)算輸出不同的結(jié)果, 將結(jié)果拼接形成候選特征空間Ht, 特征篩選用于充分挖掘多個(gè)新鮮度評(píng)價(jià)指標(biāo)的相關(guān)性, 將上一層的候選特征空間Ht經(jīng)過度量指標(biāo)的判定, 保留相關(guān)性較大的元素, 篩選后的特征空間為Gt。 由于模型訓(xùn)練到第一層時(shí), 還未形成上一層的候選特征空間, 故在第一層Gt=Ht。 為保證原始特征, 每一層篩選后的特征空間Gt都與預(yù)處理后的特征光譜數(shù)據(jù)拼接共同作為下一層的輸入。 層增長(zhǎng)控制通過度量指標(biāo)計(jì)算每一層的分類性能來判斷模型是否充分學(xué)習(xí), 進(jìn)而確定層數(shù)來控制模型的復(fù)雜度。 最后模型的輸出為概率值, 依據(jù)概率值確定所屬類別。
圖2 基于多標(biāo)記深度森林的新鮮度評(píng)價(jià)模型結(jié)構(gòu)
特征篩選根據(jù)不同的度量指標(biāo)計(jì)算每一層隨機(jī)森林輸出的置信度, 通過比較置信度, 重新組成特征輸入到下一層中。 特征篩選的核心是定義置信度計(jì)算方法。
假設(shè)評(píng)價(jià)模型中每一層的輸出為Ht, 該值由若干森林的輸出拼接得到, 通過森林?jǐn)?shù)量對(duì)Ht求平均值得到該層的預(yù)測(cè)概率矩陣P,P的行數(shù)為樣本數(shù), 列數(shù)為標(biāo)記數(shù)。 當(dāng)度量指標(biāo)基于實(shí)例時(shí), 把矩陣P的每一行元素按照從大到小排序; 當(dāng)度量指標(biāo)基于標(biāo)記時(shí), 把矩陣P的每一列元素按照從大到小排序。
Hamming loss用來判斷P上的分類是否正確。 假設(shè)閾值θ=0.5,pij>0.5時(shí)預(yù)測(cè)結(jié)果為1, 該值越大, 證明預(yù)測(cè)為1的概率越大, 故置信度越大;pij≤0.5時(shí)預(yù)測(cè)結(jié)果為0, 該值越小, 證明預(yù)測(cè)為0的概率越大, 故置信度越大。 因此Hamming loss置信度可以定義為
(1)
One-error用來判斷相關(guān)標(biāo)記中預(yù)測(cè)的最大概率, 故One-error置信度可以定義為預(yù)測(cè)最大概率值
αi=maxpij
(2)
Ranking loss用來判斷樣本的所有標(biāo)記的排列順序, 由Ranking loss定義可知, Ranking loss為0時(shí), 模型性能最佳, 故在定義置信度時(shí), 需要列出Ranking loss為0時(shí)的各種組合。 若存在4個(gè)標(biāo)記, 則可能的組合有{0000, 1000, 1100, 1110, 1111}五種, 通過計(jì)算這些組合的概率之和得到Ranking loss置信度。
(3)
Macro-AUC用來判斷標(biāo)記上所有樣本的排列順序, 與Ranking loss類似, Macro-AUC為1 時(shí), 模型性能最佳, 故在定義置信度時(shí), 需要列出Macro-AUC為1 時(shí)的各種組合, 計(jì)算這些組合的概率之和, 得到Macro-AUC置信度。
(4)
通過置信度對(duì)特征進(jìn)行篩選, 表1為特征篩選過程。
表1 特征篩選過程
圖3 特征篩選
根據(jù)森林的輸出Ht和標(biāo)記集Y計(jì)算當(dāng)前層的度量值, 在計(jì)算度量值時(shí)也需要將基于實(shí)例的度量和基于標(biāo)記的度量分開計(jì)算。 每一層的閾值將由該層的度量值和置信度決定, 若當(dāng)前層特征上的度量值小于前一層特征上的度量值, 則將當(dāng)前層特征上的置信度存儲(chǔ)到集合S中, 最后對(duì)S中的置信度求平均值作為當(dāng)前層的閾值。
為了降低模型過擬合的風(fēng)險(xiǎn), 達(dá)到控制模型復(fù)雜度的目的。 提出的評(píng)價(jià)模型采用K折交叉驗(yàn)證將訓(xùn)練數(shù)據(jù)分為K個(gè)組, 對(duì)于每一組數(shù)據(jù), 使用其他所有組的數(shù)據(jù)進(jìn)行訓(xùn)練, 并對(duì)當(dāng)前組數(shù)據(jù)進(jìn)行預(yù)測(cè)。 表2為層增長(zhǎng)控制流程, 假設(shè)模型最大深度為T, 訓(xùn)練集為X, 標(biāo)記集為Y, 度量指標(biāo)為M, 以及包含每層度量值的數(shù)組q, 其中性能最好的值定義為qbest。 當(dāng)評(píng)價(jià)模型通過特征篩選得到第t層的輸出Ht之后, 根據(jù)度量指標(biāo)M計(jì)算該層的度量值q[t], 若q[t]大于qbest, 則更新qbest值; 若q[t]連續(xù)三次小于qbest并且t在T的范圍內(nèi), 則停止層的增長(zhǎng), 同時(shí)保留包括qbest所在的層與前面的所有層, 刪除后面所有層。
表2 層增長(zhǎng)控制流程
試驗(yàn)所用冷鮮羊肉樣本取自內(nèi)蒙古錫林郭勒盟蘇尼特右旗農(nóng)貿(mào)市場(chǎng), 選擇屠宰后經(jīng)過排酸的5只羊酮體里脊部位, 去除脂肪和結(jié)締組織, 均勻分割成6 cm×6 cm×1 cm的肉片, 用保鮮袋分3組密封包裝、 并編號(hào), 無(wú)擠壓放置在溫度為4 ℃的冰箱中, 存放14 d。 每隔24 h取一次樣本, 在室內(nèi)放置25 min, 揮發(fā)掉樣本表面的水分, 用于揮發(fā)性鹽基氮(total volatile basic nitrogen, TVB-N)、 酸堿度(pH值)、 菌落總數(shù)(total aerobic count, TAC)、 大腸菌群近似數(shù)(approximate number of coliforms, ANC)測(cè)定和光譜反射率采集, 試驗(yàn)樣本覆蓋了新鮮、 次新鮮和不新鮮三個(gè)冷鮮羊肉新鮮度等級(jí), 新鮮羊肉表面有光澤, 肉細(xì)而緊密; 不新鮮羊肉表面無(wú)光澤, 肉色深暗, 肉質(zhì)松弛無(wú)彈性; 次新鮮為過渡階段, 無(wú)論表面情況或觸摸手感均處于新鮮與不新鮮之間。
樣品的TVB-N含量依據(jù)GB/5009.228—2016《食品安全國(guó)家標(biāo)準(zhǔn)食品中揮發(fā)性鹽基氮的測(cè)定》中的半微量凱氏定氮法測(cè)定[25]; pH值依據(jù)GB/5009.237—2016《食品安全國(guó)家標(biāo)準(zhǔn)食品pH值的測(cè)定》中的非均值化試樣測(cè)定法測(cè)定[26]; TAC含量依據(jù)GB/4789.2—2022《食品安全國(guó)家標(biāo)準(zhǔn)食品微生物學(xué)檢驗(yàn)菌落總數(shù)測(cè)定》中單位質(zhì)量菌落總數(shù)標(biāo)準(zhǔn)值進(jìn)行檢測(cè)試驗(yàn)[27]。 ANC含量依據(jù)GB/4789.3—2016《食品安全國(guó)家標(biāo)準(zhǔn) 食品微生物學(xué)檢驗(yàn) 大腸菌群計(jì)數(shù)》中單位質(zhì)量大腸菌群數(shù)標(biāo)準(zhǔn)值進(jìn)行檢測(cè)試驗(yàn)[28]。
圖4為冷鮮羊肉樣本在14天內(nèi)四項(xiàng)指標(biāo)的變化趨勢(shì), 由圖可知, 貯藏初期樣本中各指標(biāo)含量較低, 隨時(shí)間增加, 各指標(biāo)含量逐漸增加, 其中TVB-N在第5天、 第10天和第14天增幅較大; pH值在第4天和第10天增幅較大; TAC含量在第5天增幅較大; ANC含量在第4天和第9天增幅較大。 可以初步判斷冷鮮羊肉樣本分別在第4~5天、 第9~14天內(nèi)新鮮度等級(jí)發(fā)生變化。
圖4 各新鮮度指標(biāo)變化趨勢(shì)
根據(jù)國(guó)家食品衛(wèi)生監(jiān)測(cè)標(biāo)準(zhǔn)和以往的研究成果, 當(dāng)TVB-N含量≤15 mg·(100 g)-1時(shí), 為新鮮肉; 當(dāng)15 mg·(100 g)-1
高光譜采集系統(tǒng)包括照明設(shè)備、 機(jī)械掃描平臺(tái)、 高光譜成像儀(Hyperspec VNIR N-series)、 反射參考板和圖像采集軟件, 光譜儀可采集的波長(zhǎng)范圍在400~1 000 nm, 共有750個(gè)光譜通道, 分辨率為2.8 nm。
每次試驗(yàn)時(shí), 提前30 min打開光譜儀預(yù)熱, 將樣本放置在距光譜儀鏡頭約40 cm處, 設(shè)置像元混合次數(shù)為6次, 光譜儀曝光時(shí)間為3 ms, 調(diào)節(jié)光譜像元亮度(DN)值小于8 500。 試驗(yàn)時(shí), 利用調(diào)焦板調(diào)節(jié)光譜儀, 設(shè)置光譜儀掃描方向、 次數(shù)和移動(dòng)速度, 采集黑白校正光譜圖像, 用于獲取樣本校正光譜數(shù)據(jù)。 利用ENVI軟件, 從樣本的每一個(gè)光譜圖像中隨機(jī)選取20個(gè)感興趣點(diǎn)作為特征提取和校正模型建立試驗(yàn)數(shù)據(jù)。 圖5為實(shí)驗(yàn)樣本部分感興趣區(qū)域原始光譜DN值。
圖5 部分感興趣區(qū)域原始光譜反射DN值
黑白校正后的光譜數(shù)據(jù)仍存在部分噪聲且光譜強(qiáng)度有差異, 需要對(duì)其進(jìn)行預(yù)處理, 因此, 采用卷積平滑法(Savitzky-Golay)進(jìn)行平滑濾波, 再采用多元散射校正對(duì)平滑濾波后的光譜數(shù)據(jù)進(jìn)行處理, 消除光譜中的基線平移或偏移現(xiàn)象, 提高光譜信噪比, 用于后期的特征提取和分類識(shí)別。 經(jīng)過平滑濾波和散射校正后的光譜曲線如圖6所示。
圖6 預(yù)處理后光譜反射DN值
試驗(yàn)采用連續(xù)投影算法對(duì)樣本光譜數(shù)據(jù)進(jìn)行特征提取, 假設(shè)數(shù)據(jù)集X中的樣本數(shù)為M, 原始特征數(shù)為J, 選擇的第一個(gè)波段為i(0), 算法在每次迭代中合并新的波段, 直到集合中存在N個(gè)波段, 算法流程如表3。
表3 連續(xù)投影算法
若N和i(0)是未知的, 則對(duì)N定義一個(gè)范圍Nmin≤N≤Nmax, 對(duì)每個(gè)N, 需要考慮初始波段i(0)從1到J的每一種情況, 進(jìn)行步驟2—步驟6計(jì)算, 根據(jù)輸出結(jié)果i(n)建立多元線性回歸分析模型, 以i(n)對(duì)應(yīng)的光譜數(shù)據(jù)作為測(cè)試集, 以TVB-N、 pH、 TAC和ANC含量為標(biāo)記, 計(jì)算均方根誤差(root mean square error, RMSE), 其最小值對(duì)應(yīng)的i(0)和N即為最優(yōu)初始波段和選擇的波段數(shù)。 試驗(yàn)設(shè)置特征波長(zhǎng)個(gè)數(shù)范圍為5~30, 共提取了18個(gè)特征波段, 如圖7所示。
圖7 提取特征波段
采用本文提出的深度森林建立冷鮮羊肉新鮮度評(píng)價(jià)模型, 將280個(gè)光譜樣本按照3∶1的比例劃分為訓(xùn)練集和測(cè)試集, 訓(xùn)練集和測(cè)試集樣本個(gè)數(shù)分別為196個(gè)和84個(gè), 表4為訓(xùn)練集和測(cè)試集的新鮮、 次新鮮和不新鮮樣本數(shù)統(tǒng)計(jì)結(jié)果。
表4 冷鮮羊肉不同新鮮度樣本數(shù)統(tǒng)計(jì)
將理化微生物實(shí)驗(yàn)方法測(cè)得的TVB-N、 pH、 TAC和AVC四項(xiàng)新鮮度評(píng)價(jià)指標(biāo)按照國(guó)家食品衛(wèi)生監(jiān)測(cè)標(biāo)準(zhǔn)和前人研究成果, 分別劃分出新鮮、 次新鮮和不新鮮的區(qū)間, 并組成標(biāo)記, 圖8為建立新鮮度分類模型所用的冷鮮羊肉樣本標(biāo)記。
圖8 某冷鮮羊肉樣本標(biāo)記
其中三種不同的顏色對(duì)應(yīng)三個(gè)新鮮度等級(jí), 綠色表示新鮮區(qū)間, 黃色表示次新鮮區(qū)間, 紅色表示不新鮮區(qū)間。 新鮮度分類模型中的所有標(biāo)記均按照此規(guī)則產(chǎn)生, 若將其視為一個(gè)長(zhǎng)度為12的數(shù)組Z。 當(dāng)樣本新鮮度為新鮮時(shí), 綠色單元格所在的標(biāo)記為屬于該樣本的標(biāo)記, 其數(shù)組為[1, 0, 0, 1, 0,0, 1, 0, 0, 1, 0, 0]; 當(dāng)樣本新鮮度為次新鮮時(shí), 橙色單元格所在的標(biāo)記為屬于該樣本的標(biāo)記, 其數(shù)組為[0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0]; 當(dāng)樣本新鮮度為不新鮮時(shí), 紅色單元格所在的標(biāo)記為屬于該樣本的標(biāo)記, 其數(shù)組為[0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1]。
在新鮮度等級(jí)預(yù)測(cè)過程中, 若四項(xiàng)新鮮度評(píng)價(jià)指標(biāo)含量都處于新鮮區(qū)間, 則表明樣本為新鮮; 若其中一項(xiàng)或多項(xiàng)處于次新鮮區(qū)間, 則表明樣本為次新鮮; 若其中一項(xiàng)或多項(xiàng)處于不新鮮區(qū)間, 則表明樣本為不新鮮。
試驗(yàn)建立的深度森林參數(shù)設(shè)置如下, 將最大層數(shù)設(shè)置為10, 每層的森林?jǐn)?shù)為2, 分別為PCT組成的一個(gè)隨機(jī)森林和一個(gè)極端隨機(jī)森林, 其中每一個(gè)森林設(shè)置5棵樹, 后面的每一層都比前一層多5棵樹, 該方法可以保證模型在每一層都能學(xué)習(xí)到不同的表示。 同理, 森林的最大深度為3, 后面的每一層都比前一層的森林最大深度多3個(gè)單位。 最后設(shè)置5折交叉驗(yàn)證以防止過擬合。
使用hamming loss、 one-error、 ranking loss和macro-AUC四個(gè)度量指標(biāo)對(duì)冷鮮羊肉多指標(biāo)新鮮度分類模型進(jìn)行評(píng)價(jià)。 將本文提出的深度森林評(píng)價(jià)模型與ML-kNN, RF-PCT相比較, 其在測(cè)試集上的各項(xiàng)度量指標(biāo)如表5所示。 “↓”表示該指標(biāo)值越小, 模型性能越好; “↑”表示該指標(biāo)值越大, 模型性能越好。
表5 不同多標(biāo)記分類算法下建立的冷鮮羊肉新鮮度分類模型性能
試驗(yàn)設(shè)置ML-kNN模型參數(shù)k值為10。 RF-PCT模型中, 設(shè)置森林最大深度為3, 樹的總數(shù)為100。 試驗(yàn)分別在以上算法中, 記錄了10次測(cè)試集的度量值和偏差, 并取平均度量值用于模型性能比較。 由表5可知, 本文提出的算法在每個(gè)度量指標(biāo)上均優(yōu)于ML-kNN和RF-PCT, 驗(yàn)證了多指標(biāo)新鮮度評(píng)價(jià)模型在冷鮮羊肉高光譜數(shù)據(jù)集上的有效性。
圖9、 圖10分別為評(píng)價(jià)模型在訓(xùn)練集和測(cè)試集上的分類結(jié)果圖, 其中橫坐標(biāo)表示樣本數(shù), 縱坐標(biāo)表示分類值, 縱坐標(biāo)上的“1”, “2”, “3”分別代表新鮮、 次新鮮和不新鮮三個(gè)新鮮度等級(jí), “o”表示樣本的實(shí)際新鮮度等級(jí), “+”表示模型預(yù)測(cè)結(jié)果。 從圖中可以看出模型取得了較好的分類結(jié)果。 由本文提出的評(píng)價(jià)模型得到的冷鮮羊肉新鮮度分類結(jié)果混淆矩陣如表6所示。
表6 冷鮮羊肉新鮮度分類結(jié)果混淆矩陣
圖9 本文提出的算法在訓(xùn)練集上的分類結(jié)果圖
圖10 本文提出的算法在測(cè)試集上的分類結(jié)果圖
通過分析混淆矩陣可知, 模型在分類過程中產(chǎn)生了一定的誤差, 原本屬于次新鮮等級(jí)的樣本有1個(gè)樣本點(diǎn)被分類為不新鮮等級(jí)。 從冷鮮羊肉新鮮度變化的角度, 冷鮮羊肉的腐敗是一個(gè)漸進(jìn)的過程, 尤其是在新鮮度為次新鮮與不新鮮的區(qū)域, 兩者的新鮮度指標(biāo)值比較接近且樣本基數(shù)相比于新鮮樣本較多, 故導(dǎo)致模型存在誤差。 從高光譜成像儀采集冷鮮羊肉光譜數(shù)據(jù)的角度, 由于環(huán)境等因素也會(huì)導(dǎo)致光譜數(shù)據(jù)上的新鮮度信息存在一定的誤差, 故導(dǎo)致模型分類結(jié)果存在誤差。
以冷鮮羊肉為研究對(duì)象, 采用高光譜成像技術(shù)和實(shí)驗(yàn)室方法, 獲取冷鮮羊肉樣本的TVB-N、 pH、 TAC和ANC新鮮度評(píng)價(jià)指標(biāo)值, 并采集樣本高光譜成像數(shù)據(jù), 選擇感興趣區(qū)域, 采用多元散射校正法和平滑濾波法對(duì)原始光譜圖像進(jìn)行預(yù)處理。 使用連續(xù)投影法提取光譜的特征波段, 利用基于PCT的隨機(jī)樹構(gòu)建深度森林模型, 建立冷鮮羊肉新鮮度的多指標(biāo)無(wú)損檢測(cè)模型, 模型識(shí)別準(zhǔn)確率達(dá)到98.57%。 利用hamming loss、 one-error、 ranking loss和marc-AUC等度量指標(biāo)篩選每層計(jì)算得到的特征信息, 控制模型的復(fù)雜度。 通過實(shí)驗(yàn)與其他多標(biāo)記分類算法ML-kNN、 RF-PCT進(jìn)行比較。 結(jié)果表明, 本文提出的深度森林模型在冷鮮羊肉高光譜數(shù)據(jù)集上分類效果更好, 證明了深度森林用于冷鮮羊肉新鮮度多指標(biāo)分類上的有效性和可適用性。