盧沛臨,田 青,李瑞東,吳 箭,鄧紹坤,范茂青,李 強(qiáng),逄 濤
(1.云南煙葉復(fù)烤有限責(zé)任公司,云南昆明 650000;2.云南煙葉復(fù)烤有限責(zé)任公司瀘西復(fù)烤廠,云南紅河 652400;3.云南省煙草農(nóng)業(yè)科學(xué)研究院,云南昆明 650000)
打葉復(fù)烤是卷煙工業(yè)企業(yè)進(jìn)行原料初挑、模塊配方、均勻性提升的重要環(huán)節(jié)[1]。近年來,隨著各卷煙企業(yè)重點(diǎn)品牌對(duì)成品片煙核心質(zhì)量指標(biāo)均勻性水平要求的不斷提高,打葉復(fù)烤企業(yè)在參數(shù)設(shè)置和優(yōu)化管控方面進(jìn)行了大量研究。楊凱等[2]通過煙堿值的組配模式,探索出基于煙堿變異系數(shù)的均質(zhì)化控制模式。皮亮等[3]結(jié)合歷史數(shù)據(jù),以過程工藝和參數(shù)標(biāo)準(zhǔn)化為切入點(diǎn), 有效控制過程質(zhì)量穩(wěn)定性, 從而使最終產(chǎn)品質(zhì)量指標(biāo)穩(wěn)定性顯著提升。楊洋等[4]通過多指標(biāo)權(quán)重分析和正交試驗(yàn)對(duì)遵義復(fù)烤新線工藝參數(shù)進(jìn)行優(yōu)化。黃小艷等[5]通過Scikit_learn中的決策樹算法和正交試驗(yàn),根據(jù)加工歷史數(shù)據(jù),使用機(jī)器學(xué)習(xí)方式對(duì)打葉復(fù)烤的水分參數(shù)進(jìn)行了優(yōu)化。通過以上研究使產(chǎn)品的化學(xué)成分指標(biāo)、葉片結(jié)構(gòu)指標(biāo)的均勻性有了明顯提升,但在過程質(zhì)量管控和數(shù)據(jù)價(jià)值的利用上仍有待加強(qiáng)。
2001年,Breiman[6]將決策樹集成組合成隨機(jī)森林。隨機(jī)森林算法是一種非常具有代表性的機(jī)器學(xué)習(xí)Bagging集成算法[7],它以決策樹作為基評(píng)估器,多棵樹隨機(jī)組成的森林也叫隨機(jī)森林,包括隨機(jī)森林分類器和隨機(jī)森林回歸器(random forest regressor)。成浩科等[8]使用隨機(jī)森林算法建立了河流總磷的預(yù)測(cè)模型,分析了河流總磷的影響因素。蘇志同等[9]也使用隨機(jī)森林算法對(duì)鋁電解煅燒工藝參數(shù)進(jìn)行了研究。由于決策樹算法本身存在的局限性,決策樹模型預(yù)測(cè)效果比隨機(jī)森林模型容易過擬合且受異常值的影響更大。張莉等[10]使用隨機(jī)森林和邏輯回歸分類模型,對(duì)各類煙葉樣品的外觀質(zhì)量指標(biāo)和感官質(zhì)量指標(biāo)進(jìn)行關(guān)聯(lián)分析,使精選效率大幅度提升,選出的煙葉工業(yè)適用性也明顯提高。 為適應(yīng)卷煙工業(yè)企業(yè)對(duì)片煙中片率的要求,進(jìn)一步分析中片率與打葉復(fù)烤工藝參數(shù)之間的相關(guān)性,筆者采用隨機(jī)森林回歸器對(duì)2021年葉梗分離工藝參數(shù)和片煙中片率進(jìn)行回歸建模,以期找到打葉復(fù)烤打葉工藝參數(shù)優(yōu)化調(diào)控的方向。
1.1 研究數(shù)據(jù)選取2021年瀘西復(fù)烤廠配方煙葉產(chǎn)地相近、產(chǎn)品質(zhì)量指標(biāo)要求相同的出口備貨煙葉模塊共計(jì)43個(gè),從17 646個(gè)數(shù)據(jù)中篩選出涉及葉梗分離段一打、二打、三打、四打、五打和一至十二風(fēng)分共計(jì)33項(xiàng)工藝參數(shù)及中片率數(shù)據(jù),共9 792個(gè)數(shù)據(jù)。相關(guān)數(shù)據(jù)來自瀘西復(fù)烤廠2021年中控系統(tǒng)的操作日志。將選取的數(shù)據(jù)集記為D={xij}(i=1,2,…,n;j=1,2,…,m),其中n和m分別表示樣本數(shù)和指標(biāo)數(shù)。
1.2 隨機(jī)森林回歸算法隨機(jī)森林是一種集成學(xué)習(xí)算法,集成多個(gè)決策樹算法對(duì)相同現(xiàn)象產(chǎn)生重復(fù)的預(yù)測(cè)結(jié)果,利用bootstrap 重抽樣方法從原始樣本中抽取多個(gè)樣本,對(duì)每個(gè)bootstrap 樣本構(gòu)建決策樹,然后將所有決策樹預(yù)測(cè)平均值作為最終預(yù)測(cè)結(jié)果。隨機(jī)森林回歸可以看成是由多個(gè)弱預(yù)測(cè)器(決策樹)集成的強(qiáng)預(yù)測(cè)器,抵消了部分隨機(jī)誤差,對(duì)異常值和噪聲具有很好的容忍度。
隨機(jī)森林回歸算法步驟可歸納如下:
設(shè)從獨(dú)立分布的隨機(jī)向量(X,Y)中抽取訓(xùn)練集,輸入向量為X,輸出向量為Y,則預(yù)測(cè)輸出h(X)的均方泛化誤差為EX,Y[Y-h(X)]2。
設(shè)θ為隨機(jī)參數(shù)向量,則對(duì)應(yīng)的決策樹為T(θ)。
(2)特征的隨機(jī)選取。在每棵回歸樹的每個(gè)節(jié)點(diǎn)處從m個(gè)特征中隨機(jī)抽取mtrain個(gè)特征(mtrain (3)隨機(jī)森林的生成。每棵回歸樹開始自頂向下的遞歸分枝,直到滿足分割終止條件。 (4)OOB估計(jì)及模型評(píng)價(jià)。將生成的k棵回歸樹組成隨機(jī)森林回歸模型,回歸的效果評(píng)價(jià)采用袋外數(shù)據(jù)(OOB)預(yù)測(cè)的殘差均方(MSE)和擬合系數(shù)(R2)。計(jì)算公式如下: (5)模型優(yōu)化。通過多次循環(huán)生成隨機(jī)森林回歸模型,求出每次循環(huán)的模型擬合系數(shù)和均方根誤差值,得到最優(yōu)決策樹大小參數(shù)、決策樹最大深度參數(shù)、內(nèi)部節(jié)點(diǎn)再劃分所需的最小樣本參數(shù)、葉子節(jié)點(diǎn)最小樣本數(shù)、最大特征數(shù)。 (6)特征重要性評(píng)價(jià)。特征重要性評(píng)價(jià)通常使用基尼指數(shù)(Gini index)或者袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)估指標(biāo)來衡量,采用袋外數(shù)據(jù)(OOB)錯(cuò)誤率作為評(píng)估指標(biāo)。對(duì)于隨機(jī)森林回歸中的變量重要性評(píng)分(variable importance measure,VIM),使用基于permutation隨機(jī)置換的殘差均方減小量進(jìn)行衡量。具體過程如下: a.每一個(gè)自助樣本建立一個(gè)回歸樹模型,同時(shí)使用該模型對(duì)相應(yīng)的袋外數(shù)據(jù)OOB進(jìn)行預(yù)測(cè),得到k個(gè)袋外數(shù)據(jù)的殘差均方,記為MSE1,MSE2,…,MSEk。 b.變量Xi在k個(gè)OOB樣本中隨機(jī)置換,形成新的OOB測(cè)試樣本,然后用已建立的隨機(jī)森林對(duì)新的OOB進(jìn)行預(yù)測(cè),與第一步的計(jì)算方法相同,得到隨機(jī)置換后的OOB殘差均方,得到以下矩陣: c.用MSE1,MSE2,…,MSEk與OOB殘差均方矩陣對(duì)應(yīng)的第i行向量相減,平均后再除以標(biāo)準(zhǔn)誤差得到變量Xi的重要性評(píng)分,即 2.1 隨機(jī)森林規(guī)模參數(shù)及其他參數(shù)的優(yōu)化模型規(guī)模參數(shù)(n_estimators)代表隨機(jī)森林中樹木的數(shù)量,即基評(píng)估器的數(shù)量。這個(gè)參數(shù)對(duì)隨機(jī)森林模型精確度的影響是單向的,模型規(guī)模參數(shù)越大,模型的效果往往越好。同時(shí),任何模型都具有決策邊界,當(dāng)模型規(guī)模參數(shù)達(dá)到一定數(shù)值后,隨機(jī)森林的精確度往往不再上升。為了獲取最優(yōu)的模型效果,使用300次循環(huán),計(jì)算不斷調(diào)試模型規(guī)模參數(shù)(得到學(xué)習(xí)曲線),求出每次循環(huán)的模型擬合系數(shù)和均方根誤差,并以可視化形式進(jìn)行展現(xiàn),便于求得最優(yōu)參數(shù)值。 經(jīng)過循環(huán)計(jì)算得出的最優(yōu)擬合系數(shù)和均方根誤差見表1。當(dāng)模型規(guī)模參數(shù)為93時(shí),以最優(yōu)擬合系數(shù)作為衡量標(biāo)準(zhǔn)時(shí),隨機(jī)森林模型精確度最大;當(dāng)模型規(guī)模參數(shù)為17時(shí),均方根誤差最小。 表1 隨機(jī)森林規(guī)模參數(shù) 通過觀察學(xué)習(xí)曲線(圖1)發(fā)現(xiàn),當(dāng)模型規(guī)模參數(shù)為93時(shí),曲線均處于平穩(wěn)狀態(tài),此時(shí)均方根誤差為7.21,均方根誤差稍有增加。為了保障模型精確且穩(wěn)定可靠,選擇93作為隨機(jī)森林規(guī)模參數(shù)(Scikit_learn中均方根誤差被認(rèn)定為一種誤差,因此顯示為負(fù)值,真實(shí)的均方根誤差為其顯示的絕對(duì)值)。 圖1 隨機(jī)森林模型規(guī)模參數(shù)學(xué)習(xí)曲線 隨機(jī)森林模型在模型規(guī)模參數(shù)為93時(shí),采用循環(huán)算法繪制出的樹最大深度(Max_depth)學(xué)習(xí)曲線見圖2。表2為優(yōu)化后模型擬合系數(shù)與均方根誤差的變化。由于擬合系數(shù)和均方根誤差的最優(yōu)值不同,根據(jù)參數(shù)變化百分比選擇對(duì)損失百分比最小的參數(shù)模型,并建立隨機(jī)森林回歸模型。 表2 模型優(yōu)化前后參數(shù)的變化 圖2 優(yōu)化后的隨機(jī)森林模型參數(shù)學(xué)習(xí)曲線 2.2 隨機(jī)森林模型模擬結(jié)果隨機(jī)森林對(duì)中片率的模擬結(jié)果見圖3。圖3顯示出坐標(biāo)點(diǎn)距離直線越近,表明預(yù)測(cè)值與實(shí)際值越接近。對(duì)預(yù)測(cè)值和實(shí)際值進(jìn)行相關(guān)性分析,相關(guān)系數(shù)為0.782,預(yù)測(cè)值與實(shí)際值存在較強(qiáng)的非線性相關(guān)性。在多因素影響、非線性關(guān)系且關(guān)系復(fù)雜的情況下,隨機(jī)森林仍然可以較好地預(yù)測(cè)不同葉梗分離參數(shù)下的中片率。 圖3 隨機(jī)森林模型中片率模擬結(jié)果 2.3 模型的重要特征因素評(píng)價(jià)在兼顧模型精確性和穩(wěn)定性,實(shí)現(xiàn)綜合性能最好時(shí),將剩余的70%測(cè)試集數(shù)據(jù)導(dǎo)入模型,選取決策影響度大于5%的因素作為重要特征參數(shù),得出影響模型決策的參數(shù)特征重要度排序,見表3。從表3可以看出,針對(duì)此次建模所采用的參數(shù)指標(biāo),二打一聯(lián)打輥轉(zhuǎn)速、五打打輥轉(zhuǎn)速、三打打輥轉(zhuǎn)速和一打打輥轉(zhuǎn)速是葉梗分離參數(shù)中影響最大的4個(gè)工藝參數(shù)指標(biāo),其中二打一聯(lián)打輥轉(zhuǎn)速和五打打輥轉(zhuǎn)速對(duì)中片率的影響最大,分別占比18.01%和18.31%。 表3 模型中片率與梗葉分離工藝參數(shù)特征重要度排序 2.4 基于重要特征因素和回歸關(guān)系的試驗(yàn)驗(yàn)證利用Values語法讀取出測(cè)試集數(shù)據(jù),選取測(cè)試集中的9個(gè)重要特征因素進(jìn)行預(yù)測(cè),結(jié)果如表4所示。然后,再將中片率的預(yù)測(cè)值與真實(shí)值進(jìn)行對(duì)比,結(jié)果見圖4。 圖4 中片率預(yù)測(cè)值與實(shí)際值的比較 表4 測(cè)試集數(shù)據(jù)及中片率預(yù)測(cè)值 使用Scikit_learn回歸模型中的3個(gè)重要評(píng)判指標(biāo)對(duì)預(yù)測(cè)效果進(jìn)行評(píng)價(jià),模型回歸評(píng)分為0.622(評(píng)分越接近1,則模型預(yù)測(cè)準(zhǔn)確度越好;當(dāng)評(píng)分為負(fù)數(shù)時(shí),表示模型預(yù)測(cè)效果較差)。該回歸模型MSE為1.824,預(yù)測(cè)值與真實(shí)值相比存在1.428 的平均誤差。在相對(duì)誤差方面,平均相對(duì)誤差為3.93%,說明隨機(jī)森林回歸模型準(zhǔn)確度能夠滿足現(xiàn)場(chǎng)參數(shù)調(diào)控需求。 目前打葉復(fù)烤企業(yè)的工藝參數(shù)選擇往往是依靠現(xiàn)場(chǎng)操作人員的經(jīng)驗(yàn)來確定,熱風(fēng)潤(rùn)葉和葉梗分離參數(shù)的調(diào)控對(duì)片煙的葉片結(jié)構(gòu)具有較為明顯的調(diào)節(jié)作用,但在實(shí)際生產(chǎn)中負(fù)責(zé)不同工段的操作人員很可能不同,依靠經(jīng)驗(yàn)進(jìn)行調(diào)控的方式難以形成固有的規(guī)律。針對(duì)加工出口煙葉梗葉分離段的工藝參數(shù),建立隨機(jī)森林回歸模型,初步篩選出9個(gè)影響中片率的重要特征參數(shù),模型回歸評(píng)分達(dá)到0.622,回歸模型預(yù)測(cè)效果較好。該方法可為打葉復(fù)烤打葉工藝參數(shù)的調(diào)控優(yōu)化提供技術(shù)支持。 隨著煙草行業(yè)數(shù)字化轉(zhuǎn)型的逐步推進(jìn),在未來還需要進(jìn)一步打通工商業(yè)相關(guān)業(yè)務(wù)的數(shù)據(jù)鏈條,獲取更多高質(zhì)量的業(yè)務(wù)數(shù)據(jù),通過包括隨機(jī)森林算法在內(nèi)的大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法,建立更加準(zhǔn)確、適用的預(yù)測(cè)模型,實(shí)現(xiàn)煙葉復(fù)烤的數(shù)字化和智能化,支撐行業(yè)高質(zhì)量發(fā)展。2 結(jié)果與分析
3 結(jié)論與討論