孫意然,胡利波,李 昆,宋 豪
( 貴州中煙工業(yè)有限責(zé)任公司畢節(jié)卷煙廠,貴州 畢節(jié) 551700)
相似性評價是煙葉綜合質(zhì)量評價的重要內(nèi)容,通過相似性評價有利于準(zhǔn)確把握被評價煙葉與優(yōu)質(zhì)煙葉間的差距,明確改進(jìn)目標(biāo)[1-6],也可以將相似性評價結(jié)果作為煙葉分組或配方替代的依據(jù),指導(dǎo)分組加工、配方模塊設(shè)計以及配方維護(hù)工作[7-9]。根據(jù)距離相關(guān)分析理論[10],相關(guān)系數(shù)和距離均可作為表征兩個隨機(jī)向量相似性的統(tǒng)計量,前者重點(diǎn)反映兩個隨機(jī)向量各分量分布形式的一致性程度,后者重點(diǎn)反映分布位置的接近程度。已有的煙葉相似性評價研究多采用距離表征相似性,或根據(jù)歐式距離計算結(jié)果直接評價兩種(地)煙葉的相似性,或通過進(jìn)一步的聚類分析按相似程度將煙葉進(jìn)行分組,而綜合利用相關(guān)系數(shù)和距離研究煙葉質(zhì)量相似性的文獻(xiàn)未見報道。本文以烤煙綜合物理特性為對象進(jìn)行了相似性評價方法研究,發(fā)現(xiàn)相關(guān)系數(shù)和歐式距離在表征烤煙綜合物理特性的相似性方面均存在不足之處,而根據(jù)相關(guān)系數(shù)和歐式距離構(gòu)建的新統(tǒng)計量——相似度則可以更全面地反映烤煙綜合物理特性的相似性。
河南省32個植煙縣的85個烤煙樣品,其中上部煙25個,等級均為B2F,中部煙31個,等級均為C2F,下部煙29個,等級均為X2F;主要儀器有ZKW-3電腦測控抗張試驗機(jī)、BZQ-1薄片抗張/耐折沖樣器、BHZ-1型電腦測控厚度測定儀、DHG9145A型電熱鼓風(fēng)干燥箱、YDZ430型智能填充值測定儀。
煙葉物理特性指標(biāo)包括葉片厚度、密度、填充值、陰燃時間、抗張強(qiáng)度和平衡含水率,各指標(biāo)測定方法參照吉書文等[11]的方法進(jìn)行。
為了消除不同物理指標(biāo)量綱上的差異并便于進(jìn)行統(tǒng)計分析,將所有指標(biāo)的檢測結(jié)果進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理,并轉(zhuǎn)換成T分?jǐn)?shù)。采用SPSS19.0進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化、描述統(tǒng)計分析、相關(guān)系數(shù)和歐式距離計算、分位數(shù)統(tǒng)計等數(shù)據(jù)分析工作[10]。
用隨機(jī)向量X={x1,x2,x3,x4,x5,x6}表示煙葉的綜合物理特性,其中x1~x6分別表示葉片厚度、密度、填充值、陰燃時間、抗張強(qiáng)度、平衡含水率,則兩種煙葉綜合物理特性間的相似性,也即兩個隨機(jī)向量Xi與Xj間的相似性。
簡單相關(guān)系數(shù)(r)即對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化處理、統(tǒng)一量綱后,兩個隨機(jī)向量間的簡單相關(guān)系數(shù)能夠反映各分量取值大小順序的一致性程度。當(dāng)r>0時,表明各分量取值大小順序呈一致性趨勢,r越接近1一致性程度越高,相似性越強(qiáng);反之,當(dāng)r<0時,表明各分量取值大小順序呈相反趨勢,r越接近-1一致性程度越差,相似性越弱。歐式距離反映兩個隨機(jī)向量在多維空間中分布位置的接近程度,因此也可以一定程度反映兩種煙葉綜合物理特性的相似性,歐式距離越小,相似性程度越高;反之,歐式距離越大,相似性程度越低。
以上兩個統(tǒng)計量在表征煙葉綜合物理特性的相似性時均存在不足之處。如圖1、2所示,38#和56#樣品間的相關(guān)系數(shù)和歐氏距離分別為0.9718和4.9384,62#和68#樣品間的相關(guān)系數(shù)和歐氏距離分別為0.9791和32.3194,雖然相關(guān)系數(shù)十分接近但綜合物理特性的相似性程度卻存在明顯差異。38#和56#樣品不僅各分量取值大小順序一致,且各分量取值接近,具有很強(qiáng)的相似性;62#和68#樣品雖然各分量取值大小順序一致,但62#樣品各分量的取值均明顯高于68#樣品,相似性較弱??梢?,簡單相關(guān)系數(shù)能夠較好反映各分量取值大小順序的一致性,但一致性強(qiáng)只能說明兩種煙葉的綜合物理特性具有“形”似的特點(diǎn),而是否相似還應(yīng)考察各分量取值的接近程度,即距離。如圖3、4所示,48#和68#樣品間的相關(guān)系數(shù)和歐氏距離分別為0.9550和25.8914,39#和51#樣品間的相關(guān)系數(shù)和歐氏距離分別為-0.9596和25.9651,雖然歐氏距離十分接近,但由于48#和68#樣品各分量取值大小順序一致,而39#和51#樣品各分量取值大小順序則呈相反趨勢,前者間的相似性明顯優(yōu)于后者。
圖2 62#和68#樣品各各分量取值及其分布
圖3 48#和68#樣品各各分量取值及其分布
綜上所述,當(dāng)兩個隨機(jī)向量各分量取值大小順序一致(“形”似)且取值接近(距離小)時相似程度高,反之,如果“形”似但距離遠(yuǎn)或距離近但"形"不似,相似程度就會降低。因此,根據(jù)相關(guān)系數(shù)和距離構(gòu)建出一個綜合指標(biāo)——相似度,理應(yīng)能夠更加全面地評價兩種煙葉綜合物理特性的相似性。
圖4 39#和51#樣品各分量取值及其分布
首先利用式(1)將簡單相關(guān)系數(shù)轉(zhuǎn)換成0~1間的數(shù)值,稱為相關(guān)度(R),然后根據(jù)相關(guān)度和歐式距離利用式(2)計算相似度(F)。相似度隨相關(guān)度升高而升高、隨距離增大而降低,因此,相似度越高說明兩種煙葉綜合物理特性的相似程度越高。
(1)
(2)
根據(jù)式1、式2計算圖1-圖4所示典型煙葉樣品間的相似度,結(jié)果如表1所示。各樣品對的相似度高低與其實(shí)際相似程度間表現(xiàn)出較強(qiáng)的一致性,說明相似度較好地彌補(bǔ)了利用簡單相關(guān)系數(shù)或距離表征相似性時存在的不足,可以更好地評價煙葉間的相似程度。
表1 典型煙葉樣品間的相似度
2.2.1 相似性等級劃分及評判標(biāo)準(zhǔn)
表2所示是全部85個煙葉樣品兩兩間相似度的分位數(shù)統(tǒng)計結(jié)果,其中50%、75%和90%分位數(shù)分別為0.0147、0.0251和0.0375。據(jù)此暫且將煙葉間的相似性劃分為三檔:中等(F≥0.0150)、較強(qiáng)(F≥0.0250)和強(qiáng)(F≥0.0375)。
表2 85個煙葉樣品兩兩間相似度的分位數(shù)統(tǒng)計結(jié)果
2.2.2 評價標(biāo)準(zhǔn)的合理性分析
按照不同的相似度要求對85個煙葉樣品進(jìn)行分組,將同一組內(nèi)煙葉各項物理指標(biāo)的離散程度與相同部位煙葉間的離散程度進(jìn)行比較,分析相似性評價標(biāo)準(zhǔn)的合理性。全部及不同部位煙葉物理指標(biāo)的描述統(tǒng)計結(jié)果見表3。
表3 全部及不同部位煙葉物理指標(biāo)的描述統(tǒng)計
2.2.2.1 分組原則
(1)同組內(nèi)煙葉兩兩間的相似度F≥Fα(相似度臨界值);
(2)組內(nèi)煙葉數(shù)量n≥3,以便于統(tǒng)計組內(nèi)各項物理指標(biāo)的離散度。
2.2.2.2 分組方法及步驟
采用剔除不符合要求煙葉樣品的方法進(jìn)行分組,具體步驟如下:
(1)將所有煙葉兩兩間的相似度矩陣記為D1,從D1中找出相似度最大的第一對煙葉,記為(X11,X12),兩者間的相似度記為F1。
(2)剔除D1中所有與X11和X12間的相似度F﹤Fα的煙葉,形成矩陣D11。
(3)若矩陣D11中所有煙葉兩兩間的相似度F≥Fα,則第一次分組完成,將該矩陣中的煙葉記為第一組G1;反之,①從D11中找出除(X11,X12)之外相似度最大第二對煙葉,記為(X13,X14),兩者間的相似度記為F2。②剔除D11中所有與X13和X14間的相似度F﹤Fα的煙葉,形成矩陣D12;③重復(fù)第①、②步,直到所得矩陣中所有煙葉兩兩間的相似度F≥Fα,將該矩陣中的煙葉記為第一組G1。
(4)從矩陣D1中剔除已經(jīng)分入G1組的煙葉形成矩陣D2,然后按相同方法提取第二組煙葉G2。
(5)重復(fù)上述過程,直到剩余煙葉無法形成滿足分組原則要求的組為止。
2.2.2.3 分組結(jié)果及分析
分別取Fα=0.0150、0.0250和0.0375對85個煙葉樣品進(jìn)行分組。以當(dāng)Fα=0.015時,共有82個樣品被分成了9個組,組內(nèi)平均相似度在0.0232~0.0399之間;有3個樣品既不能進(jìn)入已形成的組內(nèi),也無法構(gòu)成含3個或以上樣品的組。當(dāng)Fα=0.0250時,共有79個煙葉被分成了13個組,組內(nèi)平均相似度在0.0345~0.0545之間;有6個樣品既不能進(jìn)入已形成的組內(nèi),也無法構(gòu)成含3個或以上樣品的組。當(dāng)Fα=0.0375時,共有59個樣品被分成了15個組,組內(nèi)平均相似度在0.0493~0.0757之間;有26個樣品既不能進(jìn)入已形成的組內(nèi),也無法構(gòu)成含3個或以上樣品的組。Fα對組數(shù)、組內(nèi)平均相似度以及無法形成組的煙葉樣品數(shù)影響均較大,即Fα對分組效果影響較大,說明依據(jù)50%、75%和90%分位數(shù)確定的三個相似度臨界值能夠較好地區(qū)分煙葉綜合物理特性間的相似性。
表4 各項物理指標(biāo)的組內(nèi)標(biāo)準(zhǔn)偏差統(tǒng)計結(jié)果
表4(續(xù))
對全部煙葉、按部位及不同F(xiàn)α分組后各項物理指標(biāo)組內(nèi)標(biāo)偏的分布范圍及均值[12]進(jìn)行統(tǒng)計,結(jié)果如表4所示,其中組比表示組內(nèi)標(biāo)偏大于按部位分組時組內(nèi)標(biāo)偏均值的組數(shù)與總組數(shù)之比。 ①按部位分組時,除了葉片厚度和密度之外,其他各項物理指標(biāo)的標(biāo)偏均值與全部煙葉相差不大,說明部位分組方式區(qū)分這些物理指標(biāo)的能力較差。②隨著Fα增大,各項物理指標(biāo)組內(nèi)標(biāo)偏的均值均呈逐漸減小的趨勢,說明Fα越高分組越細(xì)、同組內(nèi)煙葉各項物理指標(biāo)一致性越好,即相似度能夠較好地表征煙葉綜合物理特性的相似性。③將按部位分組后各項物理指標(biāo)組內(nèi)標(biāo)偏的均值作為部位分組方式區(qū)分煙葉物理特性的平均能力,則當(dāng)Fα=0.0150時,各項物理指標(biāo)組內(nèi)標(biāo)偏的均值均低于部位分組,9組中葉片厚度、密度、陰燃時間、抗張強(qiáng)度的組內(nèi)標(biāo)偏大于部位分組的各有5、3、1、1組,分別占55.6%、33.3%、11.1%、11.1%,并且各項指標(biāo)的組內(nèi)標(biāo)偏均值與按部位分組時較為接近,尤其是厚度和葉片密度,說明此分組標(biāo)準(zhǔn)區(qū)分煙葉物理特性的能力與部位分組方式相當(dāng),因此將F≥0.0150定為煙葉相似性中等的標(biāo)準(zhǔn)較為合適。當(dāng)Fα=0.0250時,13組中葉片厚度、密度和平衡含水率的組內(nèi)標(biāo)偏大于部位分組的各有2、2、1組,分別占15.4%、15.4%、7.7%,各指標(biāo)的組內(nèi)標(biāo)偏均值及組比均較小,區(qū)分煙葉物理特性的能力強(qiáng)于部位分組方式,因此將F≥0.0250定為煙葉相似性較強(qiáng)的標(biāo)準(zhǔn)較為合適。
當(dāng)Fα=0.0375時,15組中僅密度有1組的組內(nèi)標(biāo)偏大于部位分組,占6.7%,各指標(biāo)的組內(nèi)標(biāo)偏均值及組比最小,區(qū)分煙葉物理特性的能力明顯強(qiáng)于部位分組方式,因此將F≥0.0375定為煙葉相似性強(qiáng)的標(biāo)準(zhǔn)較為合適。
按F≥0.0250分組時,組內(nèi)煙葉各項物理指標(biāo)的一致性均明顯高于按部位分組,且85個樣品中只有6個無法進(jìn)入相應(yīng)的組,因此,此標(biāo)準(zhǔn)較適合于煙葉分組,在進(jìn)行分組加工或配方模塊設(shè)計時,建議將相似性較強(qiáng)作為分組時的參考依據(jù);按F≥0.0375分組時,組內(nèi)煙葉各項物理指標(biāo)的一致性更高,但85個樣品中有26個無法進(jìn)入相應(yīng)的組,因此,建議將相似性強(qiáng)作為選擇替代煙葉時的參考依據(jù)。
(1)綜合簡單相關(guān)系數(shù)及歐式距離在評價煙葉兩兩間綜合物理特性的相似性方面的特點(diǎn)與不足,構(gòu)建了一個基于上述統(tǒng)計量的新統(tǒng)計量——相似度。相似度既可以反映兩種煙葉各項物理指標(biāo)取值高低的一致性程度,又可以反映各項物理指標(biāo)取值的接近程度,因此能夠更全面的評價煙葉兩兩間綜合物理特性的相似性。
(2)根據(jù)85個煙葉樣品兩兩間相似度的分位數(shù)統(tǒng)計結(jié)果,將河南烤煙煙葉綜合物理特性間的相似性劃分為三檔,即中等(F≥0.0150)、較強(qiáng)(F≥0.0250)和強(qiáng)(F≥0.0375)。分別取上述標(biāo)準(zhǔn)值作為相似度的臨界值(Fα),通過建立分組原則和分組方法對85個煙葉樣品進(jìn)行了分組研究,結(jié)果表明隨著Fα增大,組數(shù)增加、各項物理指標(biāo)的組內(nèi)標(biāo)準(zhǔn)偏差的均值均呈逐漸減小的趨勢,即Fα越高分組越細(xì)、同組內(nèi)煙葉各項物理指標(biāo)一致性越好,證明相似度能夠較好地表征煙葉綜合物理特性的相似性。與按部位分組后各項物理指標(biāo)的組內(nèi)標(biāo)準(zhǔn)偏差均值進(jìn)行的對比結(jié)果表明,按Fα≥0.0150分組時,區(qū)分組間煙葉物理特性的能力與部位分組方式相當(dāng),按Fα≥0.0250或Fα≥0.0375分組時,區(qū)分組間煙葉物理特性的能力均強(qiáng)于部位分組方式。