童珂凡 張忠良* 雒興剛 曾 鳴 湯建國
1(杭州電子科技大學管理學院 浙江 杭州 310018)2(云南中煙工業(yè)有限責任公司技術中心 云南 昆明 650231)
卷煙的感官質(zhì)量是評價其品質(zhì)的重要指標之一,一般包括光澤、香氣、諧調(diào)、雜氣、刺激性和余味等指標。目前,煙草公司主要采用卷煙感官評估專家人工評吸的方式對卷煙感官質(zhì)量進行評價。這種依賴專家經(jīng)驗進行卷煙感官質(zhì)量評價的方式存在諸多不足:首先,受到評吸專家主觀因素以及客觀環(huán)境的影響,不能保證評價結果的準確性;其次,高強度的評吸工作會影響評吸專家的身體健康;最后,煙草行業(yè)面臨著日益嚴峻的市場競爭,要求相關企業(yè)在卷煙制品的開發(fā)和產(chǎn)品維護中具有更高的效率和靈活性。
為了解決上述問題,從事煙草研究的相關專家試圖采用智能方式對卷煙感官質(zhì)量進行評價。文獻[1-5]表明,煙葉化學成分是卷煙感官質(zhì)量的物質(zhì)基礎,很多研究致力于建立卷煙感官質(zhì)量與化學成分之間的映射關系,從而輔助卷煙感官質(zhì)量評估。近年來,采用數(shù)據(jù)挖掘技術構建卷煙感官質(zhì)量評估模型受到了廣泛的關注。文獻[6]利用BP神經(jīng)網(wǎng)絡建立了卷煙感官質(zhì)量評估模型,而文獻[7]則采用基于支持向量機的技術對卷煙感官質(zhì)量評估進行了研究??紤]卷煙感官評估中的錯分代價敏感問題,文獻[8]提出了一種基于代價敏感學習的卷煙感官質(zhì)量評估方法。
然而,在卷煙感官質(zhì)量智能預測方面,現(xiàn)有研究大多使用單一分類器對卷煙感官質(zhì)量進行預測。數(shù)據(jù)挖掘研究[10]表明,目前還不存在一種分類學習算法可以在任何情況下都比其他分類算法表現(xiàn)出更好的性能[10]。即使是針對同一分類問題,針對不同的預測樣本的特點,不同的分類算法也表現(xiàn)出不同的分類效果?;谶@個事實,研究人員提出了動態(tài)選擇分類器,并且成為了數(shù)據(jù)挖掘領域重要的研究方向。另一方面,文獻[11-12]表明,集成學習能夠有效改善學習效果,并且對不同分類問題具有良好的魯棒性。結合動態(tài)分類器選擇和集成學習優(yōu)勢,人們提出了動態(tài)分類器集成選擇策略,目前該策略是一種有效的數(shù)據(jù)挖掘手段[13-15]。
本文針對卷煙感官質(zhì)量智能化評估問題的特點,提出了一種基于動態(tài)分類器集成選擇的卷煙感官質(zhì)量預測方法。首先,利用分類算法訓練得到20個不同的分類器形成分類器池;然后針對每一個測試樣本,采用一定的標準選擇符合要求的分類器;最后利用被選擇的分類器輸出預測結果。在候選分類器集合生成過程中,本文采用兩種方式:同種分類器集成和異種分類器集成。實驗結果表明,無論采用何種候選分類器集合生成方式,動態(tài)分類器集成方案在卷煙感官質(zhì)量評估中都能取得顯著的效果。
不同于靜態(tài)分類算法對不同的待分類樣本采用一致的分類器,動態(tài)分類學習算法對每個待分類樣本選擇不同的分類器。一般地,動態(tài)分類學習算法大致又可以分為動態(tài)分類器選擇和動態(tài)集成選擇。前者考慮對每個待測樣本盡量選擇最有競爭力的分類器,而后者則選擇最合適的分類器組合。圖1反映了動態(tài)分類器選擇和動態(tài)集成選擇的過程。
(a) 動態(tài)分類器選擇
(b) 動態(tài)集成選擇圖1 動態(tài)分類學習算法示例
可以看出,動態(tài)分類器集成大致可以分為4個步驟:(1) 生成候選分類器集合,分類器集合中的分類器可以采用同種分類學習算法得到也可以采用異質(zhì)分類學習算法獲得;(2) 評估候選分類器集合中每個基分類器對待測樣本分類性能;(3) 選擇最有競爭力的分類器或分類器組合;(4) 對待測樣本進行預測。
動態(tài)分類器選擇算法如算法1所示。本文采用文獻[16]所提出的算法,該方法采用待測未知樣本在訓練集中的鄰域作為評估候選分類器池中基分類器的性能,分類準確率最高的分類器被選擇預測未知樣本的標識。
算法1動態(tài)分類器選擇算法
輸入:分類器池C;訓練集Tr;測試集Te;最近鄰參數(shù)k
For每個測試集Te中的樣本tdo
If所有的分類器的輸出結果一致then
1-將該類別賦予測試樣本t
Else
2-在訓練集Tr中找到樣本t的k個最近鄰,由這些樣本構成樣本t的鄰域Ψ
For每個分類器池C中的分類器cido
Endfor
Endif
Endfor
在動態(tài)集成選擇方面,本文采用文獻[17]提出的方案。該方法采用基于隨機分類器來評估分類器的競爭力。分類器的競爭力采用如下方式計算:
(1)
算法2動態(tài)集成選擇算法
輸入:分類器池C;訓練集Tr;測試集Te;最近鄰參數(shù)k
For每個測試集Te中的樣本tdo
If所有的分類器的輸出結果一致then
2-將該類別賦予測試樣本t
Else
3-在訓練集Tr中找到樣本t的k個最近鄰組成鄰域Ψ
For每個分類器池C中的分類器cido
IfCompetencei(ci|t)>0
Endif
Endfor
7-k=k-1
Ifk=0
Else
9-返回步驟3
Endif
Endif
Endif
Endfor
本文所采用的實驗數(shù)據(jù)來自于國內(nèi)某煙草公司在2010年-2012年間針對成品煙的物理化學成份分析檢測和相應的感官質(zhì)量人工專家評吸結果。表1描述了卷煙感官質(zhì)量評判標準,樣本總量為684組數(shù)據(jù)。具體而言,物理化學指標包括總糖量、還原糖、總揮發(fā)堿、煙堿量、總氮量、煙堿氮、蛋白質(zhì)、含鉀量、含氯量、氨態(tài)堿、糖堿比、氮堿比、施木克值,總計13項,這些指標將作為分類學習算法的輸入屬性;用于評估卷煙感官質(zhì)量的指標包括香氣、光澤、諧調(diào)、刺激、雜氣和余味,共計6項,這些指標將分別作為分類學習算法的決策屬性。因此,本文考慮6組表示卷煙不同感官指標的數(shù)據(jù)集。
表1 卷煙感官質(zhì)量評判標準
按照表1卷煙感官質(zhì)量評判標準,由多位卷煙評吸專家以0.5為最小單位獨立地給出各感官指標的評吸結果,然后計算每個感官指標平均值作為相應感官指標的最終感官評價結果。我們得到的原始數(shù)據(jù)表中感官指標的數(shù)值不是0.5為間隔的離散值,需要對感官結果進行離散化處理。本文采用等區(qū)間的離散化處理方式,表2給出了卷煙感官評估指標的離散化情況。例如,以光澤感官指標為例,其評分標準為3~5,事實上在卷煙實際生產(chǎn)過程中感官質(zhì)量會滿足一定指標要求,因此在光澤指標上歷史數(shù)據(jù)中不存在分值小于3.75的情況,這樣將分值在[3.75,4.25]的樣本歸為第1類,(4.25,4.75]為第2類,(4.75,5]為第3類。
表2 卷煙感官指標離散化情況
續(xù)表2
針對每個感官指標,按照表2的離散化區(qū)間將歷史數(shù)據(jù)轉化成分類問題,獲得光澤、香氣、諧調(diào)、雜氣、刺激性以及余味6個數(shù)據(jù)集,其基本信息如表3所示,其中#Ex.表示樣本數(shù)量,#Attr.表示屬性個數(shù),#Cl.表示類別數(shù)目,#Dc.表示樣本分布。
表3 感官評估數(shù)據(jù)集信息
此外,由于歷史數(shù)據(jù)的物化指標量綱不同,需要進行歸一化處理,本文采用下式進行歸一化操作:
(2)
式中:xi是屬性取值;xmin是相應屬性取值中的最小值;xmax是相應屬性取值中的最大值。經(jīng)過歸一化處理之后,所有屬性取值在[0,1]之間。
本文采用5次5折交叉驗證的方式進行實驗分析。首先將全部數(shù)據(jù)樣本隨機分為數(shù)據(jù)規(guī)模相似的5份并盡可能保持數(shù)據(jù)分布的一致性。然后,每次取其中的4份訓練算法獲得分類器,剩下的1份樣本作為測試集,計算分類器在測試集上的分類準確率。每份數(shù)據(jù)集作一次測試集,就可以獲得5個測試結果,返回這5個結果的均值。重復進行5次這樣的實驗,并返回5次的平均結果作為最終分類預測準確率。
本文根據(jù)文獻[12]采用兩種方式產(chǎn)生候選分類器集合:同種類型的分類器和異質(zhì)分類器。在同種類型候選分類器集合中,分類器之間的差異通過有放回抽樣的方式獲得,也就是每個分類器使用不同的訓練樣本得到。在異質(zhì)候選分類器集合中,每個分類器使用的訓練樣本一致,分類器之間的差異通過不同類型的分類學習算法得到。本文中,同種類型候選分類器集合采用決策樹作為基分類器,而異質(zhì)候選分類器集合采用決策樹作為基分類器,兩種候選分類器集合中的基分類器個數(shù)均設置為20,所采用的分類學習算法和參數(shù)設置如表4所示。
表4 基礎分類器及其參數(shù)設置
本文采用以下方法進行實驗比較:
(1) 理想效果(Oracle):對于任意一個待測樣本,只要有一個分類器分類正確,則認為該樣本被正確預測,因此這是動態(tài)分類器選擇預測系統(tǒng)效果的上界,也是理想效果。
(2) 靜態(tài)分類器選擇(Static Classifier Selection, SCS):靜態(tài)選擇最優(yōu)的分類器,首先選擇在驗證集上效果最好的分類器,然后采用該分類器對所有的未知樣本進行標識。
(3) 動態(tài)分類器選擇(Dynamic Classifier Selection, DCS):針對每個被測樣本,首先確定被測樣本的鄰域,然后根據(jù)分類器在鄰域上的分類準確率(Local Accuracy, LA),選擇最優(yōu)的分類器。其中鄰域的選擇采用兩種方式:k-最近鄰(K-Nearest Neighbor, KNN)和k平等最近鄰(K-Nearest Neighbor Equality, KNNE),而分類性能的計算又采用距離加權(Distance weighted, DW)和未加權兩種方式。因此,產(chǎn)生4種動態(tài)分類器選擇的方式:LA-KNN(LK)、 LA-DW-KNN(LDK)、LA-KNNE(LKE)以及LA-DW-KNNE(LDKE)。
(4) 動態(tài)集成選擇(Dynamic Ensemble Selection, DES):對每個待測樣本動態(tài)地選擇分類器集合進行預測,采用基于距離加權的分類器性能評估方法,最終的預測結果采用多數(shù)投票機制,其中最近鄰個數(shù)設置為10。
采用分類準確率作為評價預測效果的標準,即分類準確率=(正確分類樣本數(shù)/樣本總數(shù))×100%。
采用同種分類器的實驗結果如表5所示。從平均結果看,LA-DW-KNN取得了最優(yōu)的結果,而DES緊追其后,兩者效果表現(xiàn)差異不大。從具體數(shù)據(jù)集角度看,除了在香氣這個數(shù)據(jù)集上,DES取得了最優(yōu)的效果,LA-DW-KNN在其他數(shù)據(jù)集上取得的效果最好。另外,相比較于靜態(tài)分類器選擇,動態(tài)分類器選擇方案具有明顯的優(yōu)勢。和理想情況相比,目前所取得的效果還有很大差距,理論上還有改進的空間。為了更直觀地觀察各個算法在卷煙感官質(zhì)量預測中的效果,圖2給出了所有算法(包括理想情況)的預測結果的直方圖??梢钥闯觯琇A-DW-KNN和DES比其他方法的預測效果更好。
表5 采用同質(zhì)分類器的實驗結果
圖2 基于同種分類器集成的結果比較
采用異種分類器的實驗結果如表6所示。不同于采用同種分類器產(chǎn)生分類器池所得到的實驗結果,采用異種分類器產(chǎn)生分類器池的情況下,DES取得了最優(yōu)的效果,并且其總體效果也優(yōu)于前者。具體來看,除了在光澤數(shù)據(jù)集上,SCS取得了最優(yōu)的效果,在其他數(shù)據(jù)集上,DES均取得了最優(yōu)的效果。但相較于理想情況,還有很大的改進空間。類似的結論也可以從圖3給出的直方圖中直觀地得出。
表6 采用異種分類器的實驗結果
圖3 基于異種分類器集成的結果比較
本文采用動態(tài)分類器選擇對卷煙感官質(zhì)量進行預測,實驗結果表明該方法可以有效改善預測效果。為了觀察基礎分類器對實驗結果的影響,我們采用了兩種方式產(chǎn)生分類器池:同種分類器和異種分類器。總體而言,當采用同種分類器時,LA-DW-KNN效果最好;而當采用異種分類器時,DES效果最優(yōu)。
雖然本文的研究表明采用動態(tài)分類器選擇可以有效改善卷煙感官質(zhì)量預測的效果,但是本文只采用了幾種經(jīng)典的動態(tài)分類器選擇方案,因此下一步將對不同動態(tài)分類器選擇方案在卷煙感官質(zhì)量預測中的效果進行比較實驗。