王思琦 周強(qiáng) 田杏芝
摘 要:針對(duì)傳統(tǒng)紙病檢測(cè)中相似紙病辨識(shí)準(zhǔn)確率低及紙病提取特征維數(shù)高致使紙病辨識(shí)過程時(shí)間較長(zhǎng)的問題,提出一種基于主成分分析(PCA)的紙病特征再提取算法。該算法以多種紙病的圖像為研究對(duì)象,對(duì)可能存在相關(guān)關(guān)系的高維原始紙病特征量進(jìn)行PCA降維處理并去除相關(guān)成分,形成相互獨(dú)立且更具代表性的紙病新特征,在減少數(shù)據(jù)處理量的同時(shí)使紙病辨識(shí)準(zhǔn)確率明顯提高。實(shí)驗(yàn)表明,PCA算法可顯著提高紙病辨識(shí)準(zhǔn)確率并可大幅縮短算法平均運(yùn)行時(shí)間。
關(guān)鍵詞:紙病特征;特征維數(shù);主成分分析;檢測(cè)算法;運(yùn)算量
中圖分類號(hào):TS736+.2
文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.11981/j.issn.1000-6842.2019.03.54
隨著現(xiàn)代造紙技術(shù)的改進(jìn)和紙張大批量的生產(chǎn),在復(fù)雜工序中,機(jī)械設(shè)備調(diào)試不當(dāng)或紙漿纖維質(zhì)量不高等原因會(huì)使紙張出現(xiàn)瑕疵(也稱紙病),從而影響紙張質(zhì)量。因此,紙病檢測(cè)成為紙張生產(chǎn)過程中必不可少的一項(xiàng)工作。此外,對(duì)各類紙病的準(zhǔn)確識(shí)別也對(duì)紙張生產(chǎn)過程起著重要的指導(dǎo)作用。
傳統(tǒng)的紙病依靠人工檢測(cè),但人工檢測(cè)具有實(shí)時(shí)性差、效率低等缺點(diǎn),已經(jīng)越來越不適應(yīng)于現(xiàn)在的造紙生產(chǎn)過程。隨著機(jī)器視覺技術(shù)的發(fā)展,人們開始將自動(dòng)檢測(cè)紙病的方法引入紙病檢測(cè)領(lǐng)域以代替?zhèn)鹘y(tǒng)人工檢測(cè)方法[1-2]。其中,基于機(jī)器視覺的紙病檢測(cè)方法利用工業(yè)相機(jī)拍攝紙病圖像,對(duì)紙病圖像進(jìn)行預(yù)處理、初步提取出紙病區(qū)域后,在圖像灰度空間、幾何空間以及形態(tài)空間構(gòu)建合適的紙病特征量[3-4],最后,根據(jù)紙病圖像在特征空間的投影,使用特征分類器辨識(shí)出有無紙病并斷定紙病類型[5]。
紙病檢測(cè)方法的核心是紙病辨識(shí)特征的提取環(huán)節(jié),支撐該環(huán)節(jié)的是由人工完成的紙病特征量確定技術(shù)。利用該技術(shù),算法設(shè)計(jì)者所確定的特征量直接關(guān)系到整個(gè)紙病檢測(cè)系統(tǒng)的檢測(cè)精度和效率[6]。但是目前,這一工作具有盲目性,無法保證紙病特征量的完備性和獨(dú)立性;因此,現(xiàn)有的檢測(cè)方法難以對(duì)特征相似的紙病進(jìn)行準(zhǔn)確區(qū)分[7-8]。例如,褶皺紙病和劃痕紙病,都呈條狀,周長(zhǎng)、面積等形態(tài)特征較為相似,且紙病區(qū)域灰度與其他部分的灰度差別不大;若僅依靠灰度特征與周長(zhǎng)、面積等形態(tài)特征則難以取得
理想的紙病辨識(shí)效果。因此,相似的紙病特征給紙病辨識(shí)特征量的確定增大了困難[9-10]。通常,只能依靠增加紙病特征量的維數(shù)才能勉強(qiáng)達(dá)到區(qū)分紙病的目的。但是,過多的紙病特征量維數(shù)必然會(huì)造成計(jì)算量膨脹,導(dǎo)致紙病辨識(shí)系統(tǒng)運(yùn)行時(shí)間長(zhǎng)[11],且人工選取的紙病特征量之間往往不具有獨(dú)立性,易發(fā)生耦合干擾,影響辨識(shí)效果,從而造成某些紙病的辨識(shí)準(zhǔn)確率始終難以提高[12]。
針對(duì)以上問題,本課題提出了基于主成分分析(PCA)的紙病特征再提取算法,通過去除紙病原特征的相關(guān)成分,保留獨(dú)立成分的線性變換過程[13],將之轉(zhuǎn)化為少數(shù)綜合的紙病新特征(主成分),在保留絕大部分有效信息的同時(shí)達(dá)到了降低紙病特征維數(shù)的目的。實(shí)驗(yàn)結(jié)果表明,采用該算法所獲取的紙病新特征包含的信息能更加突出各種紙病的特點(diǎn),使數(shù)據(jù)處理量減少的同時(shí)達(dá)到了較高的紙病辨識(shí)準(zhǔn)確率。
1 紙病類型及當(dāng)前主流辨識(shí)方法效果分析
1.1 紙病類型及其特征描述
目前,紙張生產(chǎn)過程中常見紙病包括黑斑、亮斑、孔洞、褶皺、劃痕、邊裂等[14]。黑斑是指紙面上灰度較小、圖像中有明顯較暗斑點(diǎn)狀的紙病,如圖1(a)所示;亮斑則是由于紙張某處纖維層較薄但尚未穿透、透光度比其他部分大導(dǎo)致圖像中呈現(xiàn)較亮點(diǎn)狀區(qū)域的紙病,如圖1(b)所示;孔洞紙病指在紙張上有完全穿透紙張且穿透部分沒有留下纖維的孔眼,
如圖1(c)所示;劃痕紙病為造紙生產(chǎn)過程中,機(jī)械部件在紙張表面摩擦劃過而留下的印痕,如圖1(d)所示;而邊裂紙病是指紙張中部或邊緣出現(xiàn)的裂縫或破損口,如圖1(e)所示;褶皺紙病則為紙張?jiān)趥魉瓦^程中,由于傳送器械等原因造成的紙張不平整[15],如圖1(f)所示。
由于產(chǎn)生的原因不盡相同,理論上,每類紙病圖像都應(yīng)具有能夠區(qū)別于其他類紙病的自身特征,即在紙病特征空間的各個(gè)特征上應(yīng)有不同程度的體現(xiàn),各種紙病的具體特征表現(xiàn)如表1所示。
如表1所示,黑斑、孔洞、亮斑紙病的灰度特征(灰度均值、灰度標(biāo)準(zhǔn)差)、面積、周長(zhǎng)和圓形度等形態(tài)特征表現(xiàn)明顯或較明顯。由于灰度和背景較為相似,因此,邊裂、褶皺、劃痕3種紙病在灰度特征方面表現(xiàn)并不明顯;但此3種紙病呈條形,因此,它們的面積、周長(zhǎng)、致密性和長(zhǎng)寬比等形態(tài)特征表現(xiàn)為明顯或較明顯,與其他紙病有明顯區(qū)別。
每種紙病都具有區(qū)別于其他紙病的特征,正是由于這些特征的存在,使得紙病辨識(shí)具有科學(xué)依據(jù),也使機(jī)器視覺在紙病檢測(cè)領(lǐng)域有了較為廣泛的應(yīng)用。
1.2 當(dāng)前主流辨識(shí)方法核心技術(shù)及其不足
目前,主流的紙病檢測(cè)過程都是在對(duì)原始紙張表面圖像進(jìn)行預(yù)處理、劃分出紙病區(qū)域之后,根據(jù)人工確定的、能夠反映各種紙病的共性特征,從紙病圖像中提取出多個(gè)紙病特征并借助分類器實(shí)現(xiàn)紙病類型的辨識(shí)分類,具體過程如圖2所示。
紙病檢測(cè)過程中,最關(guān)鍵的環(huán)節(jié)是紙病特征的提取。紙病特征的作用是將紙病與背景圖像及不同類型的紙病區(qū)分開。從當(dāng)前的研究成果來看,紙病特征主要集中在灰度和形態(tài)兩大特征空間中?;叶忍卣髦饕峭ㄟ^空域分析、頻域分析、統(tǒng)計(jì)分析等方法,提取出圖像的灰度均值、灰度標(biāo)準(zhǔn)差、灰度熵等特征,而形態(tài)特征主要包括紙病圖像區(qū)域面積、長(zhǎng)寬比等特征信息[3]。
目前,利用一個(gè)或若干個(gè)特征將紙病與背景圖像分離,或?qū)⑾嗨萍埐∵M(jìn)行進(jìn)一步辨識(shí)的難度還很大。以孔洞和黑斑兩種紙病為例,它們的灰度均值、灰度標(biāo)準(zhǔn)差等灰度特征雖然較為突出,但這兩種紙病的灰度特征十分接近,利用這些特征雖然能夠?qū)⒖锥春秃诎吲c其他紙病區(qū)別出來,卻很難將這二者加以區(qū)分。由于需要辨識(shí)的紙病較多,且其中有些紙病特征十分相似;因此,紙病特征空間的構(gòu)建過程中,特征量的完備性、獨(dú)立性和高效性很難完全滿足。通常,在紙病辨識(shí)前,必須從多個(gè)特征空間中確定一組能夠準(zhǔn)確反映紙病的存在和有效區(qū)分紙病類型的特征量來涵蓋各種紙病具有的所有特征,即具有完備性的紙病特征空間。但是,這樣做在滿足紙病特征完備性的同時(shí)會(huì)使紙病特征維數(shù)增加、紙病特征量稀疏性變差,從而產(chǎn)生運(yùn)算量增大的問題;且由于這些紙病特征量之間往往具有相關(guān)性,反映出來的信息便會(huì)出現(xiàn)一定的耦合作用,在不同程度上會(huì)造成相互干擾[11],使得紙病辨識(shí)準(zhǔn)確率不甚理想。
針對(duì)以上問題,本課題提出了一種基于PCA的紙病特征再提取算法,此算法可以去除原紙病特征量之間的相關(guān)性,對(duì)數(shù)據(jù)進(jìn)行降維,達(dá)到提高運(yùn)算速度及紙病辨識(shí)準(zhǔn)確率的目的。
2 基于PCA的紙病特征再提取算法
2.1 總體思路
PCA是一種多元統(tǒng)計(jì)方法,其總體思路就是將一組可能存在相關(guān)性的變量轉(zhuǎn)換為相互獨(dú)立的變量[16]。本課題所提出的基于PCA紙病特征再提取算法就是利用線性擬合的思路對(duì)原紙病特征進(jìn)行線性組合,將分布在多個(gè)維度的高維數(shù)據(jù)從原空間投影到所選的低維特征空間中,形成少數(shù)綜合性強(qiáng)的紙病新特征,以盡可能多地反映原來各紙病特征的信息,其數(shù)學(xué)表達(dá)式為:
式中,X1,X2,…,Xp 為紙病原特征向量,Y1,Y2,…,Yp為線性變換后的紙病新特征變量,u1,u2,…,up為線性表達(dá)式的系數(shù)向量,其中,ui=(ui1,ui2,…,uip)。為了使紙病特征信息的損失盡可能小,在降維過程中,保留特征空間坐標(biāo)中方差貢獻(xiàn)較大的紙病特征方向,即“主成分”。
基于PCA紙病特征再提取算法將可能存在相關(guān)性的多維紙病原特征進(jìn)行線性變換,形成相互獨(dú)立的紙病新特征,以其中灰度標(biāo)準(zhǔn)差最大的紙病新特征構(gòu)建新的低維紙病特征空間;在保留主要紙病特征信息的同時(shí)完成降維提取,最后將紙病新特征輸入分類器中進(jìn)行辨識(shí)分類,具體過程如圖3所示。
由圖3可知,對(duì)所有紙病圖像進(jìn)行預(yù)處理之后,原特征較為明顯的紙病圖像可以直接提取進(jìn)入分類器,對(duì)于原特征不明顯、需要增加特征維數(shù)來進(jìn)行判斷的紙病圖像,則需要利用基于PCA紙病特征再提取算法,對(duì)原特征進(jìn)行降維操作,提取出低維的新特征,之后再輸入分類器中進(jìn)行辨識(shí)分類。
2.2 基于 PCA的紙病特征再提取算法
本課題中,基于PCA的紙病特征再提取算法步驟如圖4所示。
經(jīng)過上述變換過程,標(biāo)準(zhǔn)正交特征向量矩陣u中的元素為式(1)中每個(gè)特征向量的系數(shù),而系數(shù)絕對(duì)值的大小也決定著紙病原特征量在紙病新特征量中的比例。本課題依據(jù)紙病原特征協(xié)方差矩陣C的特征值大小來進(jìn)行主成分的選擇,將特征值比例較大的前幾個(gè)特征值的個(gè)數(shù)i(i
由此便選出了主成分,最后,根據(jù)選擇出的紙病新特征,結(jié)合分類器來進(jìn)行紙病類型的辨識(shí)。
3 實(shí)驗(yàn)結(jié)果及分析
本文對(duì)黑斑、孔洞、亮斑、褶皺、邊裂和劃痕等主要紙病進(jìn)行了仿真實(shí)驗(yàn),具體實(shí)驗(yàn)過程如圖5所示。
(1)預(yù)處理。對(duì)紙病圖像進(jìn)行去噪和圖像分割處理。使用中值濾波去除紙病圖像的多余噪聲,并根據(jù)檢測(cè)需要使用的閾值分割劃分出紙病區(qū)域。在分割過程中,形狀較為細(xì)長(zhǎng)的紙病可能會(huì)存在多連通域的情況。因此,本課題利用形態(tài)學(xué)處理方式(膨脹、腐蝕等)去除多余噪點(diǎn),使這種紙病區(qū)域更為完整。
(2)紙病原特征提取。對(duì)紙病圖像進(jìn)行初步的特征提取操作,主要包括灰度均值、灰度標(biāo)準(zhǔn)差、周長(zhǎng)、面積、致密性、矩形度、圓形度及長(zhǎng)寬比8個(gè)紙病特征,并按順序組成紙病原特征矩陣X。由于紙病類型及特征數(shù)較多,文中僅列出褶皺及劃痕紙病的部分圖片特征數(shù)據(jù),如表2和表3所示?;叶染档燃埐≡卣鞣謩e表示為式(1)中的X1,X2,…,X8。
(3)PCA紙病特征再提取。基于步驟(2)所提取出的紙病原特征矩陣X,求出它的協(xié)方差矩陣C,繼而計(jì)算出協(xié)方差矩陣C的特征值λ與標(biāo)準(zhǔn)正交特征向量陣u,由特征值比例選擇主成分維數(shù)。由于褶皺與劃痕紙病前4個(gè)特征值所占比例分別為97.0832%與97.4305%,所以選擇降維后的紙病特征數(shù)為4。選擇后的褶皺紙病和劃痕紙病的特征值及其對(duì)應(yīng)的特征向量陣如表4和表5及表6和表7所示。其中,表6和表7中的每一列分別為式(1)中的ui1,ui2,…,ui8(1≤i≤4),uTX的結(jié)果為降維后的紙病新特征量。這一步完成了紙病特征數(shù)的降維,即將紙病特征數(shù)從8維降為4維。
由表6可知,褶皺紙病新特征3中,灰度均值、矩形度和長(zhǎng)寬比的系數(shù)絕對(duì)值較大;由表7可知,劃痕紙病新特征3中,灰度均值、灰度標(biāo)準(zhǔn)差、矩形度、面積、圓形度和長(zhǎng)寬比的系數(shù)絕對(duì)值較大。因此,這些特征值在紙病新特征中占比較大,在重構(gòu)紙病新特征時(shí)需重點(diǎn)體現(xiàn)。
(4)紙病類型辨識(shí)分類。本課題采用支持向量機(jī)(Support Vector Machine,SVM)作為辨識(shí)分類器對(duì)步驟(3)uTX的結(jié)果進(jìn)行多分類。首先,實(shí)驗(yàn)針對(duì)黑斑、孔洞、亮斑、褶皺、邊裂和劃痕6類紙病進(jìn)行辨識(shí)分類,結(jié)果如表8所示。
基于PCA的紙病特征再提取算法可在去除紙病原特征間相關(guān)性的同時(shí)對(duì)紙病進(jìn)行降維操作,保留了原數(shù)據(jù)的絕大部分信息,且脫耦及提升紙病辨識(shí)準(zhǔn)確率的效果明顯。由表8和表9可知,與傳統(tǒng)方法相比,基于PCA的紙病特征再提取算法的紙病辨識(shí)準(zhǔn)確率提高了4.40個(gè)百分點(diǎn),運(yùn)算時(shí)間降低了54.6%;對(duì)褶皺、劃痕、邊裂此3種特征相似紙病的辨識(shí)準(zhǔn)確率提高了5.74個(gè)百分點(diǎn),運(yùn)行時(shí)間降低了49.2%。
本課題中,保留的紙病新特征維數(shù)為4,在實(shí)際操作過程中,新特征維數(shù)的選擇對(duì)最后的辨識(shí)結(jié)果也有著一定的影響。因此,新特征的選擇情況會(huì)隨著具體情況的不同而發(fā)生改變。
4 結(jié) 語
本課題以含有多種紙病的紙張表面圖像為研究對(duì)象,提出了基于主成分分析(PCA)的紙病特征再提取算法,通過構(gòu)建紙病新特征空間,降低了紙病原特征量的維數(shù),該算法能夠明顯提高紙病辨識(shí)的速度,改善相似紙病的檢測(cè)精度,在實(shí)際的紙病檢測(cè)應(yīng)用中具有明顯優(yōu)勢(shì)。
參 考 文 獻(xiàn)
[1] HU Nan. A study and reflection on Paper Industry Development Policy[J]. China Pulp & Paper Industry, 2009, 30(4): 6.
胡 楠. 關(guān)于《造紙產(chǎn)業(yè)發(fā)展政策》的學(xué)習(xí)與思考[J]. 中華紙業(yè), 2009, 30(4) : 6.
[2] ZHOU Xin, ZHANG Feng. Identifying the Source of Sheet Flaws[J]. World Pulp and Paper, 2011, 30(2) : 42.
周 信, 張 鋒. 紙病來源的鑒別[J]. 國(guó)際造紙, 2011, 30(2): 42.
[3] ZHOU Qiang, CHEN Ying, SHEN Tian-yu, et al. Review on Development of Paper Defect Detection System Based on Machine Vision Technology[J]. China Pulp & Paper, 2016, 35(5) : 72.
周 強(qiáng), 陳 穎, 沈天宇, 等. 基于機(jī)器視覺的紙病檢測(cè)系統(tǒng)發(fā)展綜述[J]. 中國(guó)造紙, 2016, 35(5) : 72.
[4] Iivarinen J, Heikkinen K, Rauhamaa J, et al. A defect detection scheme for web surface inspection[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2000, 14(6) : 735.
[5] DANG Hong-she, WANG Li, ZHOU Qiang. Design of Paper Defect Extraction System Based on FPGA[J]. Transactions of China Pulp & Paper, 2014, 29(3) : 43.
黨宏社, 王 黎, 周 強(qiáng). 基于FPGA的紙病提取系統(tǒng)的設(shè)計(jì)[J]. 中國(guó)造紙學(xué)報(bào), 2014, 29(3) : 43.
[6] YANG Bo, ZHOU Qiang, ZHANG Gang-qiang. Study on Algorithm of Paper Defect Detection Based on Geometric and Gray Feature[J]. China Pulp & Paper, 2011, 30(9) : 50.
楊 波, 周 強(qiáng), 張剛強(qiáng). 基于幾何及灰度特征的紙病檢測(cè)算法研究[J]. 中國(guó)造紙, 2011, 30(9) : 50.
[7] ZHI Chuan, LIANG Qiao-ping, LU Zhao-qian, et al. Application of principal component analytical method in the evaluation of coated paper performance[J]. China Pulp & Paper Industry, 2010, 31(22) : 53.
智 川, 梁巧萍, 陸趙情, 等. 主成分分析法在涂布紙質(zhì)量綜合評(píng)價(jià)中的應(yīng)用[J]. 中華紙業(yè), 2010, 31(22) : 53.
[8] PAN Si-lu. The Study of Detection Algorithm of Paper Defects Based on Machine Vison[D]. Xian : Shaanxi University of Science & Technology, 2016.
潘思璐. 基于機(jī)器視覺的紙病檢測(cè)算法研究[D]. 西安: 陜西科技大學(xué), 2016.
[9] YUAN Jin-biao, ZHOU Qiang, ZHENG Hai-ying, et al. Paper Defects Offline Static Identification Based on Naive Bayes Classifier[J]. Transactions of China Pulp & Paper, 2014, 29(1) : 58.
院金彪, 周 強(qiáng), 鄭海英, 等. 基于樸素貝葉斯分類器的紙病離線靜態(tài)辨識(shí)方法研究[J]. 中國(guó)造紙學(xué)報(bào), 2014, 29(1): 58.
[10] WANG Yong-jun, CHEN WEN-kai, XIONG Zhi-xin, et al. Web Inspection Based on Hough Transform[J]. China Pulp & Paper, 2010, 29(3) : 59.
王勇軍, 陳文凱, 熊智新, 等. 基于Hough變換的紙病檢測(cè)分析[J]. 中國(guó)造紙, 2010, 29(3) : 59.
[11] Kang Jie, Pan Si-lu, Wang Xiao-dong. Segmentation Algorithm of Paper Defect Images Based on RPCA[J]. Transactions of China Pulp & Paper, 2017, 32(2) : 39.
亢 潔, 潘思璐, 王曉東. 基于RPCA的紙病圖像分割算法[J]. 中國(guó)造紙學(xué)報(bào), 2017, 32(2) : 39.
[12] He Xiao-qun. Modern Statistical Analysis Methods and Applications[M].? 3rd Ed. Beijing: China Renmin University Press, 2012: 152.
何曉群. 現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M]. 3版. 北京: 中國(guó)人民大學(xué)出版社, 2012: 152.
[13] LI Xin-rui. Compare and Application of Principal Component Analysis, Factor Analysis and Clustering Analysis[J]. Journal of Shandong Education Institute, 2007(6) : 23.
李新蕊. 主成分分析、 因子分析、 聚類分析的比較與應(yīng)用[J]. 山東教育學(xué)院學(xué)報(bào), 2007(6) : 23.
[14] NIE Feng-mei, ZHANG Jun-mei. Paper Disease Detection Based on Machine Vision[J]. Mechanical Engineering & Automation, 2016(2) : 37.
聶鳳梅, 張俊梅. 基于機(jī)器視覺的紙病檢測(cè)[J]. 機(jī)械工程與自動(dòng)化, 2016(2) : 37.
[15] REN Peng. Detection System of Paper Defects Based on Machine Vision and ImplemenTtation with C/C++[D]. Xian: Shaanxi University of Science & Technology, 2013.
任 鵬. 基于機(jī)器視覺C/C++實(shí)現(xiàn)的紙病檢測(cè)系統(tǒng)的研制[D]. 西安: 陜西科技大學(xué), 2013.
[16] WANG Wen-bo, CHEN Xiu-zhi. Comparison of Principal Component Analysis with Factor Analysis in Comprehensive Multi-indicators Scoring[J]. Statistics & Information Forum, 2006(5) : 19.
王文博, 陳秀芝. 多指標(biāo)綜合評(píng)價(jià)中主成分分析和因子分析方法的比較[J]. 統(tǒng)計(jì)與信息論壇, 2006(5) : 19.
Abstract:Because of the low accuracy in identification of similar paper defects in traditional paper defect detection and the slow running speed of the system caused by high feature dimension extraction, a PCA-based paper defect feature re-extraction algorithm was proposed. This method took various paper defect images as the research object, PCA was adoped to deal with the dimension reduction of high-dimensional original features that may have correlations and remove their related components so as to form new defect features which were indepen-dent and more representative, so that the data processing amount was reduced. At the same time, the identification accuracy of paper defects could be significantly improved. Experiments showed that the algorithm could significantly improve the accuracy of paper defect identification and the average running time of the system was greatly shortened.
Keywords:paper defect features; feature dimension; principal component analysis; detection algorithm; computation amount
(責(zé)任編輯:楊 艷)