王華芳,展海軍
(1.三門峽職業(yè)技術(shù)學(xué)院 生化工程系,河南 三門峽 472000;2.河南工業(yè)大學(xué) 化學(xué)化工學(xué)院,河南 鄭州 450001)
小麥新鮮度對于小麥品質(zhì)極其重要,不僅影響小麥的儲存和交易,更影響其后期面制品的質(zhì)量.目前,常見的小麥新鮮度判定技術(shù)主要有愈創(chuàng)木酚法[1]、酸度法[2]、國標(biāo)法[3]、熱分析法[4]等,其原理基本上憑借顏色或者某一個試驗值進(jìn)行人為的判別,判別結(jié)果帶有較大的人為因素,再加上存在判別程序復(fù)雜、時間長、準(zhǔn)確度低等缺點(diǎn),因此,研究小麥判別技術(shù),找到一種快速準(zhǔn)確的方法具有重要意義.
支持向量機(jī)(Support Vector Machine,SVM)是20 世紀(jì)90 年代在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新模式識別方法[5].由于該方法具有深厚的理論基礎(chǔ),在解決小樣本、非線性以及高維模式識別問題上有許多特殊的優(yōu)勢,目前已經(jīng)成為繼神經(jīng)網(wǎng)絡(luò)方法之后模式識別與機(jī)器學(xué)習(xí)領(lǐng)域最為主流的數(shù)據(jù)分類方法.SVM 的一大特點(diǎn)就是利用核函數(shù)將低維線性不可分?jǐn)?shù)據(jù)隱式地映射到高維線性可分空間.在SVM 理論中,采用不同的核函數(shù)將導(dǎo)致不同的SVM 算法,目前常用的核函數(shù)包括徑向基核、線性核、多項式核等.其中徑向基核在實際中使用得最為廣泛,且性能通常優(yōu)于其他核函數(shù)[6],因此作者選擇徑向基函數(shù)來判別小麥新鮮度.
過氧化氫酶活動度與小麥新鮮度之間存在明顯的關(guān)系,小麥越新鮮,其過氧化氫酶活動度越大,因此可以作為小麥新鮮度判別的切入點(diǎn)進(jìn)行研究.鹽酸聯(lián)苯胺法[7]正是利用此方法區(qū)別小麥新鮮度的.作者采用鹽酸聯(lián)苯胺法和國標(biāo)法取得新陳小麥的各項對應(yīng)指標(biāo),以判別正確率為判別依據(jù),利用支持向量機(jī)篩選和判別指標(biāo),從而實現(xiàn)對未知小麥的新陳預(yù)測.
試驗所用小麥分別由河南省、河北省和山東省糧食儲備庫提供.
三水合乙酸鈉:分析純,洛陽市化學(xué)試劑廠;36%冰乙酸:分析純,派尼化學(xué)試劑廠;牛肝過氧化氫酶:生化試劑,Solarbio 公司;鹽酸聯(lián)苯胺:分析純,遠(yuǎn)航試劑廠;30%雙氧水:分析純,洛陽化學(xué)試劑廠;無水乙醇:天津市天力化學(xué)試劑有限公司;酚酞:洛陽市昊華化學(xué)試劑有限公司;氫氧化鉀:天津市芳晶化學(xué)試劑有限公司.
DT-1000B 電子天平:金羊天平儀器廠;K96-B快速混勻器:都江堰市醫(yī)療器械廠;TU1810 紫外可見分光光度計:北京普析通用儀器有限責(zé)任公司;水浴恒溫鍋:上海寶磊儀器有限公司;振蕩器:金壇市華峰儀器有限公司;鉆石牌秒表:上海秒表廠;表面皿:鄭州中天實驗儀器有限公司.
利用鹽酸聯(lián)苯胺法測定不同樣品的吸光度值,記錄樣品在前2 min 的吸光度值.用吸光度值對時間作圖,曲線擬合得到回歸方程,方程的斜率即為該小麥樣品反應(yīng)速率,方程的常數(shù)項則為樣品的初始速率.
參照GB/T 5510—85[8]測定樣品小麥的脂肪酸值.
1.4.1 分類器的選擇
支持向量機(jī)的內(nèi)積函數(shù)以徑向基核函數(shù)應(yīng)用最廣,因此選徑向基核函數(shù)進(jìn)行研究.利用支持向量機(jī)來進(jìn)行小麥新鮮度判別的總體流程見圖1.
圖1 支持向量機(jī)對小麥新鮮度判別的流程
1.4.2 數(shù)據(jù)統(tǒng)計方法
以溶液反應(yīng)0 min 時的吸光度值、每秒的初始速率和反應(yīng)速率,共37 項作為待選判別指標(biāo)進(jìn)行判別研究.引入脂肪酸值,進(jìn)一步研究判別效果.利用SVM 對已獲取的反應(yīng)數(shù)據(jù)進(jìn)行篩選,并檢測SVM 法在小麥新陳度鑒定上的分類性能.
把所有小麥劃分成3 個等級:儲存0 a 小麥其新鮮度為1;儲存1 a 新鮮度為2;其他小麥新鮮度為3.
2.1.1 單個指標(biāo)判別結(jié)果
以小麥每一項指標(biāo)為依據(jù)進(jìn)行測試,同時在給定參數(shù)候選集合上進(jìn)行5 份交叉驗證選擇,分類結(jié)果如表1 所示.
表1 各維特征單獨(dú)用來進(jìn)行小麥新陳度分類的性能(CCR)
由表1 可知,各項指標(biāo)的判別效果差不多,最好的為第14 個特征(10 s 時的反應(yīng)速率)的結(jié)果,其總的分類正確率為0.815 9;其他指標(biāo)的分類正確率均在[0.787 9,0.815 2]區(qū)間.第14 個特征判別效果之所以好,歸因于新麥酶含量高,酶活大,反應(yīng)速率也大.
2.1.2 多個指標(biāo)判別結(jié)果
依次對組合中各個指標(biāo)進(jìn)行篩選判別,試圖找到最優(yōu)特征組合,提高判別效果,結(jié)果見表2.
表2 各個特征組合的分類正確率(CCR)
從表2 可知,所有指標(biāo)的正判率均大于0.82,比單個指標(biāo)的正判率明顯提高,這說明特征組合的確能夠提高分類性能.當(dāng)組合前25 位指標(biāo)時,正判率最高,為0.857 6.但是當(dāng)組合個數(shù)大于25時,正判率有所下降,可能是判別指標(biāo)越多,存在冗余的可能性越大,在有限樣本下,特征的增加很可能會導(dǎo)致學(xué)習(xí)效果的下降.
考慮到樣品數(shù)據(jù)分類不平衡會影響判別結(jié)果,因此通過設(shè)置不同類別的權(quán)重來進(jìn)一步研究判別效果.假定W1、W2 和W3 分別代表0 a、1 a以及其他這3 類小麥類別的權(quán)重.試驗中共設(shè)置兩組權(quán)重(0.4,0.4,0.2)和(0.4,0.5,0.1),判別效果見表3 和表4.
表3 各個特征組合的分類正確率(CCR)(W1=0.4,W2=0.4,W3=0.2)
表4 各個特征組合的分類正確率(CCR)(W1=0.4,W2=0.5,W3=0.1)
從表3 和表4 可以看出,隨著第二類權(quán)重的增加,其分類正確率相應(yīng)增加,而隨著第三類權(quán)重的減少,其分類正確率相應(yīng)減少.由此而見,通過權(quán)重的調(diào)整可以在一定程度上解決數(shù)據(jù)集的不平衡性問題.
把小麥劃分成為兩類:儲存0 a 的小麥其新鮮度定義為0;其他小麥新鮮度為1.與前面試驗類似,考慮到樣本分類不平衡因素,假定W1 和W2分別代表0 a 和其他兩類小麥類別的權(quán)重.通過條件權(quán)重探索判別效果,同時利用SVM 來進(jìn)行5 份交叉驗證.
由表5—表7 可知,隨著新麥權(quán)重從0.5 增長到0.8,新麥正確率逐步增大,各級分類最佳可達(dá)到CCR1=0.955 6,CCR2=0.995 9,CCRall=0.984 1,分類效果較好.
表5 兩類情況下各個特征組合的分類正確率(CCR)(W1=0.5,W2=0.5)
表6 兩類情況下各個特征組合的分類正確率(CCR)(W1=0.6,W2=0.4)
表7 兩類情況下各個特征組合的分類正確率(CCR)(W1=0.8,W2=0.2)
為提高判別效果,引入脂肪酸值.同時選擇37個指標(biāo)中區(qū)分效果較好的第4、第8、第10、第12、第14 個指標(biāo),即10 s 時的反應(yīng)速率、30 s 時的吸光度值和反應(yīng)速率、40 s 時的初始速率和50 s 時的吸光度值再加上脂肪酸值含量,共6 個指標(biāo)為新陳小麥的區(qū)分指標(biāo),利用SVM 進(jìn)行判別,結(jié)果如表8 所示.
表8 兩類情況下各個特征的分類正確率(24 個樣品)
表9 兩類情況下各個特征組合的分類正確率(CCR,24 個樣品)
由表8 和表9 可知,脂肪酸值指標(biāo)總體判別效果較差,但加上這個指標(biāo)后,新陳小麥總體正判率有了顯著增長,提高幅度在0.85%~2.5%之間,進(jìn)一步表明增加判別指標(biāo)有助于新陳小麥的判別.但是當(dāng)特征組合增加到10組時,其判別率呈下降趨勢,可能是因為判別指標(biāo)太多限制了判別效果.
無論是將樣品劃分成三類還是兩類,單獨(dú)依據(jù)某一維特征的判別效果都比較低,當(dāng)把各維特征組合后,判別準(zhǔn)確率都大幅度上升,特別是劃分成陳兩類時,總正判別率可達(dá)到97.65%,效果比較好.引入新特征脂肪酸值后,正判率為99.17%,幾乎可以100%地將新陳小麥判別出來.
[1]王毅,冀圣江,司建中.小麥新陳度鑒別方法探討[J].糧油倉儲科技通訊,2009,25(1):48-49.
[2]何學(xué)超,郭道林,馮永健,等.小麥新陳快速鑒別方法的研究[J].糧食儲藏,2006,35(1):42-45.
[3]GB/T 20571—2006,小麥儲存品質(zhì)判定規(guī)則[S].
[4]展海軍,范璐,周展明,等.用熱分析技術(shù)評價小麥新鮮度的研究[J].中國糧油學(xué)報,2003,18(1):78-80.
[5]Wikipedia.Support vector machine[EB/OL].(2014-05-18)[2014-06-04].http://en.wikipedia.org/wiki/Support_vector_machine.
[6]Keerthi S S,Lin C J.Asymptotic behaviors of support vector machines with Gaussian kernel[J].Neural Computation,2003,15(7):1667-1689.
[7]王華芳.小麥新鮮度判別技術(shù)的研究[D].鄭州:河南工業(yè)大學(xué),2010.
[8]GB/T 5510—85,糧食、油料檢驗 脂肪酸值測定法[S].