季益萍,楊云輝,黃少君
(1.天津工業(yè)大學(xué) 紡織學(xué)院,天津 300387;2.天津工業(yè)大學(xué) 先進(jìn)紡織復(fù)合材料教育部重點(diǎn)實(shí)驗(yàn)室,天津 300387;3.天津工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與軟件學(xué)院,天津 300387)
羊絨因其獨(dú)特的手感、光澤和優(yōu)良的品質(zhì)受到消費(fèi)者的青睞。由于羊絨產(chǎn)量低、價(jià)位高,市場上出現(xiàn)了很多羊絨羊毛混紡產(chǎn)品假冒純羊絨制品銷售的情況[1-2],因此,如何準(zhǔn)確、快速、經(jīng)濟(jì)地鑒別羊絨纖維顯得十分重要。由于羊毛在結(jié)構(gòu)、外觀形態(tài)、理化性能上都與羊絨較為接近[3-4],直到目前,對(duì)羊絨與羊毛的鑒別一直沒有一套科學(xué)的方法和完整的國際標(biāo)準(zhǔn)[5-6]。
目前,對(duì)羊絨與羊毛鑒別的研究主要是基于傳統(tǒng)統(tǒng)計(jì)方法,本文將數(shù)據(jù)挖掘思想引入羊絨與羊毛纖維的鑒別研究中,提出采用單根纖維上的多元指標(biāo)作為分類研究的特征屬性,從新的視角對(duì)羊絨與羊毛鑒別研究進(jìn)行探索。采用數(shù)據(jù)挖掘中經(jīng)典的決策樹算法,對(duì)羊絨和羊毛進(jìn)行分類鑒別研究,完成相應(yīng)的數(shù)學(xué)建模和評(píng)估。結(jié)果表明,基于決策樹算法所建分類模型具有很好的羊絨與羊毛鑒別能力。
數(shù)據(jù)挖掘中的分類預(yù)測就是通過向現(xiàn)有已知數(shù)據(jù)學(xué)習(xí),使建立的數(shù)學(xué)模型具備對(duì)未來新數(shù)據(jù)的分類預(yù)測能力。這需要對(duì)現(xiàn)有類別已知數(shù)據(jù)所包含的分類規(guī)律進(jìn)行歸納和提煉,并進(jìn)行有指導(dǎo)性的學(xué)習(xí)才能實(shí)現(xiàn)。
分類任務(wù)的輸入數(shù)據(jù)是記錄的集合。每條記錄可以用元祖(x,y)表示,x是屬性集,y是類標(biāo)號(hào)。例如,本文中屬性集即羊絨與羊毛特征參數(shù)的集合,包含纖維細(xì)度、鱗片高度等;而類標(biāo)號(hào)就是用+1和0表示羊絨和羊毛。本文采用數(shù)據(jù)挖掘的思想與其他羊絨與羊毛纖維鑒別研究不同的是所取的特征值都是在1根纖維上的數(shù)值,也就是從1根纖維獲取二元甚至多元的指標(biāo)數(shù)據(jù)進(jìn)行分類鑒別。
分類的任務(wù)就是通過對(duì)訓(xùn)練集學(xué)習(xí)得到1個(gè)分類數(shù)學(xué)模型f,把每個(gè)屬性集x映射到1個(gè)預(yù)先定義的類標(biāo)號(hào)y。解決分類問題的一般方法:首先,使用類標(biāo)號(hào)已知的訓(xùn)練集通過不同的算法建立多個(gè)分類模型,然后通過驗(yàn)證集評(píng)價(jià)每個(gè)分類模型的性能,比較模型并選出最適合的1個(gè)(在某些算法里,驗(yàn)證集還可用來自動(dòng)調(diào)節(jié)和改進(jìn)所建模型)。該模型將運(yùn)用于類標(biāo)號(hào)未知的檢驗(yàn)集,用于檢驗(yàn)所選模型在新數(shù)據(jù)上的真實(shí)性能[7]。
決策樹是數(shù)據(jù)挖掘中一種簡單、經(jīng)典且廣泛應(yīng)用的分類技術(shù)。它是使用樹結(jié)構(gòu)算法對(duì)數(shù)據(jù)進(jìn)行分類預(yù)測的方法。本文通過羊絨與羊毛纖維的特征參數(shù)值來判斷所測試樣是否是羊絨。
決策樹主要包含2個(gè)過程:第一,樹生成,即利用訓(xùn)練集完成決策樹建立的過程;第二,樹剪枝,即利用驗(yàn)證集對(duì)形成的決策樹進(jìn)行精簡的過程。
樹生成是以樣本為基礎(chǔ)的歸納學(xué)習(xí)方法,其表現(xiàn)形式是類似于流程圖的樹結(jié)構(gòu),在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值測試,并根據(jù)屬性值判斷由該節(jié)點(diǎn)引出的分支,在葉節(jié)點(diǎn)得到結(jié)論。其基本算法是貪心算法,采用自頂向下的遞歸方式構(gòu)造決策樹,主要策略如下。
1)樹以代表單個(gè)訓(xùn)練樣本的節(jié)點(diǎn)開始;
2)如果樣本都在同一個(gè)類,則該節(jié)點(diǎn)成為樹葉,并用該類標(biāo)記;
3)否則,算法使用成為信息增益的基于熵的度量作為啟發(fā)信息,選擇能將樣本進(jìn)行最佳分類的屬性;
4)對(duì)測試屬性每個(gè)已知的值,創(chuàng)建1個(gè)分枝,并據(jù)此劃分樣本;
5)算法使用同樣的過程,遞歸的形成每個(gè)劃分上的樣本判定樹,一旦一個(gè)屬性出現(xiàn)在1個(gè)節(jié)點(diǎn)上,就不必在該節(jié)點(diǎn)的任何后代上考慮該屬性。
遞歸劃分步驟僅當(dāng)下列條件之一成立時(shí)停止:1)給定節(jié)點(diǎn)的所有樣本屬于同一類;2)沒有剩余屬性可以用來進(jìn)一步劃分樣本,在此情況下,使用多數(shù)表決所得的類編號(hào)將節(jié)點(diǎn)轉(zhuǎn)化為樹葉;3)如果某個(gè)分枝沒有樣本,則以其劃分前的訓(xùn)練樣本的多數(shù)類創(chuàng)建 1 個(gè)樹葉[8]。
在決策樹創(chuàng)建時(shí),由于數(shù)據(jù)中包含噪聲和離群點(diǎn),許多分支反映的是訓(xùn)練集中的異常。樹剪枝就是處理這種過分?jǐn)M合的數(shù)據(jù)問題。通常,這種方法使用統(tǒng)計(jì)度量,剪去最不可靠的分枝。
常見的決策樹剪枝方法分為先剪枝和后剪枝。先剪枝主要用來限制決策樹的充分生長,后剪枝則是待決策樹充分生長后再進(jìn)行剪枝。
采用不同的樹生成策略和不同的樹剪枝策略,就形成了很多不同的決策樹算法,常見算法有C5.0、CART、CHAID 和 QUEST 等[9]。
本文以鄂爾多斯集團(tuán)提供的羊絨和如意集團(tuán)提供的羊毛為樣本,各取100根纖維作為建模依據(jù)。因?yàn)閽呙桦婄R所取圖像質(zhì)量遠(yuǎn)遠(yuǎn)好于光學(xué)顯微鏡,為了盡量保證數(shù)據(jù)的準(zhǔn)確性,本文通過掃描電鏡獲取羊絨與羊毛纖維的數(shù)字圖像(見圖1)。經(jīng)過圖像預(yù)處理后,本文采用數(shù)學(xué)形態(tài)學(xué)細(xì)化算法提取羊絨與羊毛纖維的中軸線,并基于此中軸線進(jìn)行纖維細(xì)度與鱗片高度的提取。這種改進(jìn)的方法采用真實(shí)的中軸概念,即使纖維彎曲,也能反映其彎曲的特征。經(jīng)過多點(diǎn)平均,可以盡量減少誤差[10]。
圖1 掃描電鏡下羊絨與羊毛纖維對(duì)比Fig.1 Comparison of wool and cashmere under SEM
測量每根羊絨與羊毛纖維的細(xì)度和鱗片高度,并推算其徑高比。本文以這3個(gè)識(shí)別指標(biāo)為基礎(chǔ)對(duì)羊絨與羊毛纖維進(jìn)行鑒別研究。
羊絨與羊毛的纖維直徑與徑高比散點(diǎn)圖如圖2所示。通過該圖可以把握特征參數(shù)的集中趨勢和離散程度,可以看出羊絨的徑高比在1.0附近,而羊毛徑高比大部分高于1.0,即使在1.0附近,其纖維直徑也比羊絨高。但是也可以看出中間交叉區(qū)域有部分纖維數(shù)據(jù)相當(dāng)接近,這是影響纖維鑒別準(zhǔn)確性最主要的因素。
圖2 羊絨和羊毛的直徑與徑高比散點(diǎn)圖Fig.2 Scatter diagram of diameter and diameter-height ratio of wool and cashmere
采用IBM Modeler 14.2對(duì)獲取的數(shù)據(jù)進(jìn)行建模仿真。圖3示出基于C5.0算法的羊絨和羊毛分類實(shí)驗(yàn)?zāi)P汀臎Q策樹上可以直接獲得推理規(guī)則,并得到每個(gè)節(jié)點(diǎn)所包含的樣本量及置信度。本文2種纖維各有100根樣本參與分析,從中隨機(jī)抽取近50%作為訓(xùn)練樣本,其余樣本為檢驗(yàn)集。本次實(shí)驗(yàn)所得是1棵3層決策樹,根節(jié)點(diǎn)包含100個(gè)樣本(羊絨47根,羊毛53根)。徑高比是第1個(gè)最佳分組變量,并以此形成二叉樹,因此,幾個(gè)指標(biāo)中它是分類決策中最重要的指標(biāo)。分析結(jié)論如下:
1)徑高比≤1.115時(shí)(45個(gè)樣本),分類為羊絨,置信度為97.778%;
圖3 基于C5.0算法的羊絨和羊毛分類模型Fig.3 Classification model of wool and cashmere based on C5.0 algorithm
2)徑高比 >1.323時(shí)(47個(gè)樣本),分類為羊毛,置信度為100%;
3)1.115<徑高比≤1.323,且纖維直徑≤15.476(4個(gè)樣本),則分類為羊絨,置信度為75%;
4)1.115<徑高比≤1.323,且纖維直徑 >15.476(4個(gè)樣本),則分類為羊毛,置信度為100%。
表1、2分別示出該模型的準(zhǔn)確率矩陣和混淆矩陣??梢钥闯銎渥R(shí)別正確率在95%左右。
表1 基于C5.0算法的羊絨和羊毛的準(zhǔn)確率矩陣Tab.1 Accuracy matrices of wool and cashmere based on C5.0 algorithm
表2 基于C5.0算法的羊絨和羊毛的混淆矩陣Tab.2 Confusion matrices of wool and cashmere based on C5.0 algorithm
本文還采用其他3種決策樹算法(CART、CHAID和 QUEST)進(jìn)行了建模仿真,如圖 4~6所示。
圖4 基于CART算法的羊絨和羊毛分類模型Fig.4 Classification model of wool and cashmere based on CART algorithm
本文比較了每個(gè)模型的混淆矩陣、信息增益等評(píng)價(jià)指標(biāo),結(jié)果如圖7所示。結(jié)果表明C5.0算法比其他算法更為精確和穩(wěn)定,可用于對(duì)實(shí)際羊絨與羊毛纖維的鑒別分類。
圖5 基于CHAID算法的羊絨和羊毛分類模型Fig.5 Classification model of wool and cashmere based on CHAID Algorithm
圖6 基于QUEST算法的羊絨和羊毛分類模型Fig.6 Classification model of wool and cashmere based on QUEST algorithm
圖7 4個(gè)模型的信息增益對(duì)比圖Fig.7 Comparison of information gain of wool and cashmere in four models.(a)Trian set;(b)Test set
本文基于數(shù)據(jù)挖掘技術(shù),對(duì)羊絨與羊毛纖維進(jìn)行鑒別研究,采用經(jīng)典的決策樹算法進(jìn)行數(shù)學(xué)建模。對(duì)比了4種典型的決策樹算法,結(jié)果表明C5.0算法比其他3種算法更為精確和穩(wěn)定,可用于對(duì)實(shí)際羊絨與羊毛纖維的鑒別分類。這種新的思路對(duì)于纖維鑒別的相關(guān)研究也具有一定的指導(dǎo)意義。
[1]SPILHAUS Karl. CCMI and cashmere fiber identification[C]//ZHANG Zhi.The 4th International Cashmere Determination Technique Symposium Paper Collection[s.l.],2008:1-19.
[2]LANGLEY D Kenneth.Practical issues in identifying cashmere[C]//ZHANG Zhi.The 2th International Cashmere and Wool Determination Seminar,2003:24-39.
[3]VINEIS Claudia,ALUIGI Annalisa,TONIN Claudio.Outstanding traits and thermal behaviour for the identification of speciality animal fibres[J].Textile Res J,2010,81(3):1-9.
[4]鄧麗麗,姜風(fēng)琴.山羊絨與相似毛絨類纖維鑒別方法的比較[J].大連輕工業(yè)學(xué)院學(xué)報(bào),2003(3):203-205.
DENG Lili,JIANG Fengqin.Comparison of identification means for cashmere and similar villiform fibers[J].Journal of Dalian Institute of Light Industry,2003(3):203-205.
[5]KURABAYASHI T,SAITOH F,WATANABE N,et al.Identification of textile fiber by terahertz spectroscopy[C]//Proceedings of IRMMW-THz,2010:1-2.
[6]JWIF. Analysis of sheep wool and goat fiber characteristics using scanning electron microscopy and study on the differentiation method[C]//ZHANG Zhi.The 4th International Cashmere Determination Technique Symposium Paper Collection,2008:88-98.
[7]TAN Pangning,STEINBACH Michael.Introduction to Data Mining[M].Beijing:The People's Posts and Telecommunications Press,2011:108-119.
[8]HAN Jaiwei, KAMBER Micheline. Data Mining Concepts and Techniques[M].Beijing:China Machine Press,2011:188-192.
[9]龐素琳,鞏吉璋.C5.0分類算法及在銀行個(gè)人信用評(píng)級(jí)中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2009(12):94-104 PANG Sulin,GONG Jizhang.C5.0 classification algorithm and its application on individual credit score for banks[J].Systems Engineering-Theory & Practice,2009(12):94-104.
[10]JI Yiping,WANG Rui.An improved algorithm of measuring diameter of wool and cashmere based on the medial axis[J].Advanced Materials Research,2011:1158-1161.