楊丹
(上海交通大學(xué) 上海市 200240)
1.1.1 研究背景
隨著中國(guó)占世界經(jīng)濟(jì)總量比重的不斷上升,以及十九大提出的國(guó)家主要矛盾的變化,可見(jiàn)中國(guó)乃至世界對(duì)人民幣的需求將繼續(xù)增加。但電子支付的蓬勃發(fā)展和原材料成本的上升為印鈔行業(yè)帶來(lái)了前所未有的沖擊,企業(yè)的轉(zhuǎn)型發(fā)展迫在眉睫。如何轉(zhuǎn)型發(fā)展?保證質(zhì)量的情況下降本增效排在首位。雖然目前印鈔行業(yè)人民幣質(zhì)量檢測(cè)已不再采用傳統(tǒng)的人工檢驗(yàn)的方法,但現(xiàn)行的人民幣質(zhì)量檢測(cè)系統(tǒng)仍停留在第一代質(zhì)量檢測(cè)技術(shù)引進(jìn)的階段,使得誤檢率和漏檢率這對(duì)矛盾體已經(jīng)極大地影響了生產(chǎn)效率和成本控制。而要實(shí)現(xiàn)企業(yè)的轉(zhuǎn)型發(fā)展,優(yōu)化人民幣質(zhì)量檢測(cè)系統(tǒng)不失為一種有效且長(zhǎng)遠(yuǎn)可行的方法。
機(jī)器視覺(jué)系統(tǒng)實(shí)現(xiàn)對(duì)人民幣質(zhì)量檢測(cè)是基于一個(gè)優(yōu)秀的檢測(cè)模板與被檢測(cè)產(chǎn)品之間進(jìn)行的比較。通過(guò)確定待檢人民幣在亮度、墨色等方面與模板之間是否存在差異進(jìn)一步判斷這些差異是否能接受。檢測(cè)過(guò)程中,它能夠?qū)τ∷①|(zhì)量進(jìn)行自動(dòng)化檢測(cè)和分析,并對(duì)質(zhì)量檢測(cè)結(jié)果進(jìn)行自動(dòng)化管理,對(duì)提高生產(chǎn)效率,保證人民幣發(fā)行質(zhì)量、降低生產(chǎn)成本都具有重要意義。
在工業(yè)領(lǐng)域中,幾乎所有的印刷品都會(huì)存在各種類(lèi)型的印刷缺陷,人民幣也不例外。人民幣作為國(guó)家名片,為兼具圖案精美、墨色豐富和防偽的功能性,其設(shè)計(jì)和印刷流程都相當(dāng)復(fù)雜。印刷過(guò)程中,質(zhì)量會(huì)受到機(jī)械高速運(yùn)轉(zhuǎn)本身造成的差異、印刷過(guò)程中各種繁雜易忽略的細(xì)節(jié)漏洞以及工序流轉(zhuǎn)間造成套印不準(zhǔn)等問(wèn)題的影響,常會(huì)造成一些缺陷的高誤檢率和另一些缺陷的高漏檢率。
1.1.2 研究意義
由于人民幣圖案、墨色、防偽設(shè)計(jì)復(fù)雜,在日常檢測(cè)過(guò)程中,常會(huì)有因墨色閾值范圍不精確以及開(kāi)窗金屬線(xiàn)位置不穩(wěn)定出現(xiàn)缺陷誤判,缺陷報(bào)出數(shù)與實(shí)廢比例高達(dá)10:1。分析原因后發(fā)現(xiàn),根據(jù)生產(chǎn)調(diào)度安排,檢測(cè)模型的建立時(shí)間周期短,無(wú)法通過(guò)傳統(tǒng)的模板匹配法采集大量樣本集進(jìn)行閾值計(jì)算和樣本擴(kuò)充,只能在建模初期采集多車(chē)次少樣本先行建立初級(jí)模板,再人工收集初級(jí)模板閾值范圍外的樣本。這個(gè)過(guò)程需要大量的人力,也因?yàn)槌跫?jí)模板的粗略而產(chǎn)品巨大的廢品,增加了建模和后期生產(chǎn)成本。因此,本文旨在通過(guò)K-means 聚類(lèi)算法,對(duì)大量公差范圍內(nèi)的圖像進(jìn)行分類(lèi)標(biāo)記,并通過(guò)訓(xùn)練和測(cè)試建立建模數(shù)據(jù)集,使建模過(guò)程中的樣本訓(xùn)練更精確更有效。
根據(jù)研究背景和研究意義的介紹,本文將對(duì)人民幣質(zhì)量檢測(cè)模型建立過(guò)程中的一部分進(jìn)行優(yōu)化。人民幣質(zhì)量檢測(cè)的實(shí)現(xiàn)是基于一個(gè)優(yōu)秀的檢測(cè)模板和待檢圖像之間的對(duì)比和差異的判斷,因此該優(yōu)秀模板的生成是確保檢測(cè)結(jié)果準(zhǔn)確的重要環(huán)節(jié)。
本文以現(xiàn)行流通的2015 版100 元人民幣正面即毛主席人像正面圖像為研究對(duì)象,以2019年實(shí)際生產(chǎn)情況為數(shù)據(jù)統(tǒng)計(jì)基礎(chǔ),以大量生產(chǎn)公差范圍內(nèi)的實(shí)際產(chǎn)品圖像作為圖像數(shù)據(jù)集,建立以人工設(shè)定即當(dāng)前出現(xiàn)過(guò)的所有缺陷類(lèi)型為對(duì)象的特征庫(kù),采用K-means聚類(lèi)算法,對(duì)特征庫(kù)中所有特征分別進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果對(duì)前文提到的圖像數(shù)據(jù)集進(jìn)行分類(lèi)標(biāo)記,通過(guò)訓(xùn)練和測(cè)試建立分類(lèi)建模數(shù)據(jù)集。建立好的建模數(shù)據(jù)集,可以用于建模初期的樣本擴(kuò)充和訓(xùn)練,使模型更精確有效,特別是針對(duì)當(dāng)前誤判率最高的兩項(xiàng)圖像特征即墨色閾值和開(kāi)窗金屬線(xiàn)位置,從而實(shí)現(xiàn)日常檢測(cè)過(guò)程中最大程度地減少這兩項(xiàng)特定特征造成的質(zhì)量誤判,提高檢測(cè)的效率,節(jié)約生產(chǎn)成本。
2.1.1 傳統(tǒng)人民幣檢測(cè)
傳統(tǒng)的鈔券檢驗(yàn)方式是一些有經(jīng)驗(yàn)的檢驗(yàn)員目測(cè)人民幣圖像是否有缺陷。隨著經(jīng)濟(jì)的高度發(fā)展,人民幣的需求量越來(lái)越大,人工檢查對(duì)于高速印刷來(lái)說(shuō)變成了高成本、高風(fēng)險(xiǎn)、低效率的選擇。
2.1.2 現(xiàn)代人民幣檢測(cè)
機(jī)器視覺(jué)檢測(cè)系統(tǒng)采用照相機(jī)將被檢測(cè)的目標(biāo)轉(zhuǎn)換成圖像信號(hào),傳送給專(zhuān)用的圖像處理系統(tǒng),根據(jù)像素分布和亮度、顏色等信息,轉(zhuǎn)變成數(shù)字化信號(hào),圖像處理系統(tǒng)對(duì)這些信號(hào)進(jìn)行各種運(yùn)算來(lái)抽取目標(biāo)的特征,如面積、數(shù)量、位置、長(zhǎng)度,再根據(jù)預(yù)設(shè)的允許度和其他條件輸出結(jié)果,包括尺寸、角度、個(gè)數(shù)、合格/不合格、有/無(wú)等,實(shí)現(xiàn)自動(dòng)識(shí)別功能。綜合了光學(xué)、機(jī)械、電子、計(jì)算機(jī)軟硬件等方面的技術(shù),涉及到計(jì)算機(jī)、圖像處理、模式識(shí)別、人工智能、信號(hào)處理、光機(jī)電一體化等多個(gè)領(lǐng)域。
印鈔工藝和機(jī)器視覺(jué)系統(tǒng)的快速發(fā)展讓直接控制全幅面大張(橫5 縱7 連續(xù)排列的單張人民幣)的印刷質(zhì)量成為可能,在提高效率的同時(shí)減少小開(kāi)單張檢測(cè)的壓力。全幅面大張?jiān)诰€(xiàn)檢測(cè)系統(tǒng)采用分布式計(jì)算機(jī)處理系統(tǒng),這種基于機(jī)器視覺(jué)系統(tǒng)的在線(xiàn)檢測(cè),通過(guò)相機(jī)在線(xiàn)掃描人民幣圖像,圖像采集卡將相機(jī)采集得到的圖像數(shù)據(jù)傳送至服務(wù)器通過(guò)圖像處理軟件處理,將結(jié)果與標(biāo)準(zhǔn)數(shù)據(jù)比較,找出兩者之間的差異并分析產(chǎn)生誤差原因,然后反饋給操作人員。兩者之間的通信通過(guò)局域網(wǎng)和交換機(jī)實(shí)現(xiàn)。
人民幣圖像檢測(cè)系統(tǒng)主要由成像單元、電氣檢測(cè)、軟件檢測(cè)組成。其中:成像單元包含相機(jī)鏡頭、光源、吹風(fēng)管、壓紙輪、吸風(fēng)板等;電氣檢測(cè)包含編碼器、PLC、同步盒、工控機(jī)/服務(wù)器等;軟件檢測(cè)包括檢測(cè)軟件、建模軟件、數(shù)據(jù)核查軟件等。
2.2.1 成像單元
根據(jù)人民幣質(zhì)量檢測(cè)要求,成像單元包含了正面即毛主席人像面圖像、正面防偽、背面即人民大會(huì)堂正面圖像、背面防偽以及透視防偽五個(gè)檢測(cè)單元。本文研究的是正面即毛主席人像面的圖像。正面檢測(cè)單元采用5 個(gè)PC30 彩色線(xiàn)陣相機(jī),兩根高亮度白光LED光源,使用壓輪和吹風(fēng)的展平方式。
2.2.2 檢測(cè)單元
2.2.2.1 檢測(cè)流程簡(jiǎn)介
在光源穩(wěn)定、亮度均勻的環(huán)境下,當(dāng)機(jī)器滾筒轉(zhuǎn)動(dòng)到計(jì)算好的編碼器角度時(shí),PLC 會(huì)給相應(yīng)的相機(jī)一個(gè)觸發(fā)信號(hào),從而控制相機(jī)采圖。每一路相機(jī)會(huì)將圖像發(fā)給各自的處理軟件,在接收到進(jìn)位合壓信號(hào)確認(rèn)是人民幣圖像后,將進(jìn)行圖像處理并判斷該圖像是否有缺陷,然后將結(jié)果反饋給主程序,主程序會(huì)寫(xiě)入數(shù)據(jù)庫(kù)并顯示缺陷信息。
2.2.2.2 檢測(cè)原理簡(jiǎn)述
檢測(cè)系統(tǒng)實(shí)現(xiàn)對(duì)人民幣質(zhì)量數(shù)字化的檢測(cè)是基于一個(gè)優(yōu)秀的檢測(cè)模板與被檢測(cè)產(chǎn)品之間進(jìn)行可視化的比較。比較的目的是確定待檢測(cè)的人民幣的票面區(qū)域在亮度、顏色等方面與模板之間是否存在差異,并且判定這些差異是否可以接受。
首先,通過(guò)對(duì)所有樣本集計(jì)算平均值,生成虛擬參考平均值。原則上說(shuō),所謂的參考是指處于生產(chǎn)情況的中間位置,而人工挑選幾乎是不可能選到這樣的圖像,如果任意選取可能會(huì)導(dǎo)致檢測(cè)結(jié)果不理想。所以,就需要對(duì)所有樣本集進(jìn)行計(jì)算平均值的操作。
其次,系統(tǒng)通過(guò)計(jì)算樣本集中每一大張每一像素點(diǎn)與虛擬參考平均值的正負(fù)差別(即相對(duì)于平均值的差別,以正負(fù)區(qū)分并相應(yīng)歸為兩個(gè)集合)。正負(fù)數(shù)值平方后相加,然后取其平均值(即除以總數(shù)),最后開(kāi)平方根。其結(jié)果便是TD 和TL 的閾值標(biāo)準(zhǔn)。
最后,對(duì)實(shí)時(shí)采集到的圖像進(jìn)行逐像素的對(duì)比,超過(guò)TD 和TL 即判為缺陷。
如圖1 所示,建模數(shù)據(jù)集包括訓(xùn)練集和測(cè)試集的設(shè)計(jì)直接影響著后續(xù)模型體系的生成。在上文研究意義中也提到,當(dāng)前高達(dá)90%的誤廢率究其原因是由于建模數(shù)據(jù)集的粗略。因此,本文將以現(xiàn)行流通的2015 版100 元人民幣正面即毛主席人像面圖像為研究對(duì)象,在不涉密的基礎(chǔ)上以2019年實(shí)際生產(chǎn)情況為數(shù)據(jù)統(tǒng)計(jì)基礎(chǔ),以大量生產(chǎn)公差范圍內(nèi)的實(shí)際產(chǎn)品圖像作為圖像數(shù)據(jù)集,建立以人工設(shè)定為對(duì)象的特征庫(kù),采用K-means 聚類(lèi)算法,通過(guò)訓(xùn)練和測(cè)試建立分類(lèi)建模數(shù)據(jù)集,用于建模初期的樣本擴(kuò)充和訓(xùn)練,使模型更精確有效。
3.1.1 收集圖像數(shù)據(jù)集
3.1.1.1 建模訓(xùn)練集
根據(jù)人民幣印刷公差樣的標(biāo)準(zhǔn)選取的無(wú)印刷差錯(cuò)的圖像集合。這些圖像在印刷圖案的位置和墨色的深淺等等方面存在一些細(xì)小的差別,經(jīng)過(guò)系統(tǒng)的分析與計(jì)算,就形成了模板可容許的生產(chǎn)范圍,待檢人民幣的質(zhì)量信息在這個(gè)生產(chǎn)范圍之內(nèi),則屬于合格品,反之,就進(jìn)入缺陷列表。它包括參考樣、白紙、純膠品,純凹品、全印品訓(xùn)練集。參考樣以生產(chǎn)樣為標(biāo)準(zhǔn);白紙質(zhì)量良好,能夠代表紙張出現(xiàn)的變化與安全線(xiàn)的位置,白紙張僅在紙張含有安全線(xiàn)的情況下才需要;純凹品能夠代表全部印刷質(zhì)量與全部印版,不能包含印刷瑕疵與油污;全印品訓(xùn)練集的套印變化在公差范圍內(nèi),墨色變化涵蓋各印刷機(jī)臺(tái)的實(shí)際生產(chǎn)變化情況,無(wú)明顯瑕疵。應(yīng)盡可能地覆蓋生產(chǎn)過(guò)程中允許范圍內(nèi)的質(zhì)量變化,包括金屬線(xiàn)在允許范圍內(nèi)的飄移位置分布。
3.1.1.2 建模測(cè)試集
圖1:模板建立流程圖
同訓(xùn)練集相似,這些圖像是用來(lái)進(jìn)行模擬檢測(cè)的。測(cè)試集沒(méi)有數(shù)量上的限制,可以是好張,也可以是壞張,被用來(lái)模擬檢測(cè)模板的有效性。
3.1.2 建立特定特征庫(kù)
鈔券作為一種特殊印刷品,其圖案復(fù)雜、細(xì)節(jié)繁多,同時(shí)包含膠印、凹印、絲凸印等多種印刷方式,使得其質(zhì)量檢測(cè)比一般印刷品復(fù)雜。目前正面圖像的缺陷分為兩類(lèi),一類(lèi)是常見(jiàn)印后缺陷主要有串色、油墨污點(diǎn)、臟道、文字模糊、漏印等,另一類(lèi)是圖像中號(hào)碼、熒光、水印的漏印、錯(cuò)號(hào)、重印、模糊不清、位置走版等。
根據(jù)本文研究主題,將梯度直方圖(HOG:Histogram of Oriented Gradient)、基于LAB 的顏色直方圖等用于表征圖像墨色、膠凹紋理、金屬線(xiàn)位置等人工設(shè)定的特征作為特定特征庫(kù),表示為{f1,f2,f3,…fk}。
3.1.3 分類(lèi)標(biāo)記
3.1.3.1 K-Means 算法
K-Means 算法由MacQueen 在1967年提出,是最簡(jiǎn)單與最常見(jiàn)數(shù)據(jù)分類(lèi)方法之一。它作為一種常見(jiàn)數(shù)據(jù)分析技術(shù)在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別、圖像分析等領(lǐng)域廣泛應(yīng)用。從學(xué)習(xí)方法上來(lái)說(shuō),K-Means 算法屬于非監(jiān)督學(xué)習(xí)方法即整個(gè)學(xué)習(xí)過(guò)程中不需要人為干預(yù)的學(xué)習(xí)方法,自動(dòng)完成整個(gè)數(shù)據(jù)集合分類(lèi)。對(duì)于給定的數(shù)據(jù)集合DS (Data Set)與輸入的分類(lèi)數(shù)目K,K-Means 算法的整個(gè)工作原理可以描述如下:
(1)根據(jù)輸入的分類(lèi)數(shù)目K 定義K 個(gè)分類(lèi),每個(gè)分類(lèi)選擇一個(gè)中心點(diǎn);
(2)對(duì)DS 中每個(gè)數(shù)據(jù)點(diǎn)做如下操作:計(jì)算它與K 個(gè)中心點(diǎn)之間的距離;把數(shù)據(jù)點(diǎn)指定屬于K 個(gè)中心點(diǎn)中距離最近的中心點(diǎn)所屬的分類(lèi);
(3)對(duì)K 個(gè)分類(lèi)中每個(gè)數(shù)據(jù)點(diǎn)計(jì)算平均值得到新的K 個(gè)中心點(diǎn);
(4)比較新K 個(gè)中心點(diǎn)之間與第一步中已經(jīng)存在的K 個(gè)中心差值,當(dāng)兩者之間的差值沒(méi)有變化或者小于指定閾值,結(jié)束分類(lèi);當(dāng)兩者之間的差值或者條件不滿(mǎn)足時(shí)候,用新計(jì)算的中心點(diǎn)值做為K 個(gè)分類(lèi)的新中心點(diǎn),繼續(xù)重新執(zhí)行,直到條件滿(mǎn)足退出。
從數(shù)學(xué)的角度來(lái)說(shuō)K-Means 算法就是要找到K 個(gè)分類(lèi)而且他們的中心點(diǎn)到各個(gè)分類(lèi)中各個(gè)數(shù)據(jù)的之間差值平方和最小化,而實(shí)現(xiàn)這個(gè)過(guò)程就是要通過(guò)上述(2)-(4)步不斷的迭代執(zhí)行,直到收斂為止。
3.1.3.2 數(shù)據(jù)集訓(xùn)練原理簡(jiǎn)述
(1)數(shù)據(jù)特征聚類(lèi)。在上述特定特征庫(kù)中隨機(jī)選取數(shù)據(jù)特征fi 作為數(shù)據(jù)分類(lèi)標(biāo)記的聚類(lèi)依據(jù),利用K-Means 算法對(duì)提取的數(shù)據(jù)特征進(jìn)行聚類(lèi)。
(2)分類(lèi)標(biāo)記。根據(jù)聚類(lèi)結(jié)果,對(duì)上述建模訓(xùn)練集和建模測(cè)試集中的數(shù)據(jù)x 進(jìn)行分類(lèi)標(biāo)記,若數(shù)據(jù)x 對(duì)應(yīng)的特征f 被劃分在第n 類(lèi)(缺陷類(lèi)別),則數(shù)據(jù)x 被標(biāo)記為第n 類(lèi)(缺陷類(lèi)別)。
(3)分類(lèi)模型訓(xùn)練與測(cè)試簡(jiǎn)述。分類(lèi)標(biāo)記后的建模訓(xùn)練集和建模測(cè)試集分別分為訓(xùn)練子集和測(cè)試子集。利用建模訓(xùn)練集和建模測(cè)試集中的訓(xùn)練子集對(duì)初始化圖像模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的圖像分類(lèi)模型即訓(xùn)練后的訓(xùn)練集和測(cè)試集。
(4)分類(lèi)模型測(cè)試。利用上述得到的訓(xùn)練后的圖像分類(lèi)模型對(duì)兩個(gè)測(cè)試子集中的圖像數(shù)據(jù)進(jìn)行分類(lèi),并將測(cè)試分類(lèi)結(jié)果與自動(dòng)標(biāo)記分類(lèi)結(jié)果進(jìn)行比對(duì),若圖像數(shù)據(jù)x 的測(cè)試分類(lèi)結(jié)果與自動(dòng)分類(lèi)結(jié)果相同,則認(rèn)為圖像數(shù)據(jù)x 分類(lèi)正確,否則,進(jìn)一步計(jì)算得到圖像分類(lèi)模型對(duì)測(cè)試子集的分類(lèi)準(zhǔn)確率b。
將上述得到的分類(lèi)準(zhǔn)確率b 與預(yù)先設(shè)定的閾值a 進(jìn)行比較,若b 大于a,則根據(jù)自動(dòng)標(biāo)記分類(lèi)結(jié)果生成模型數(shù)據(jù)集;否則,將從刪除圖像數(shù)據(jù)特征fi 的特征庫(kù){f1,f2,f3,…fi-1,fi+1,…fk}中重新選取圖像特征為數(shù)據(jù)分類(lèi)標(biāo)記的聚類(lèi)依據(jù)。
上述得到的建模訓(xùn)練集和建模測(cè)試集已用于公司某部機(jī)器的新建圖像模板中,經(jīng)過(guò)了2 個(gè)月的測(cè)試品實(shí)驗(yàn),使用該數(shù)據(jù)集建模比原有建模方式的誤檢率降低約26%,特別是針對(duì)當(dāng)前誤判率最高的兩項(xiàng)圖像特征即墨色閾值和開(kāi)窗金屬線(xiàn)位置,誤檢率分別降低了33%、29%,明顯提高了人民幣生產(chǎn)過(guò)程中質(zhì)量檢測(cè)的效率,節(jié)約了后續(xù)大量誤廢產(chǎn)品處理成本。
人民幣質(zhì)量檢測(cè)的實(shí)現(xiàn)是基于一個(gè)優(yōu)秀的檢測(cè)模板和待檢圖像之間的對(duì)比和差異的判斷,因此該優(yōu)秀模板的生成是確保檢測(cè)結(jié)果準(zhǔn)確的重要環(huán)節(jié)。本文以現(xiàn)行流通的2015 版100 元人民幣正面即毛主席人像面圖像為研究對(duì)象,在不涉密的情況下以2019年實(shí)際生產(chǎn)情況為數(shù)據(jù)統(tǒng)計(jì)基礎(chǔ),以大量生產(chǎn)公差范圍內(nèi)的實(shí)際產(chǎn)品圖像作為圖像數(shù)據(jù)集,建立以人工設(shè)定即當(dāng)前出現(xiàn)過(guò)的所有缺陷類(lèi)型為對(duì)象的特征庫(kù),采用K-means 聚類(lèi)算法,對(duì)特征庫(kù)中所有特征分別進(jìn)行聚類(lèi),根據(jù)聚類(lèi)結(jié)果對(duì)前文提到的圖像數(shù)據(jù)集進(jìn)行分類(lèi)標(biāo)記,通過(guò)訓(xùn)練和測(cè)試建立分類(lèi)建模數(shù)據(jù)集。建立好的建模數(shù)據(jù)集,已實(shí)驗(yàn)于公司的某部機(jī)器,經(jīng)過(guò)了2 個(gè)月的測(cè)試實(shí)驗(yàn),使用該數(shù)據(jù)集建模比原有建模方式的誤檢率降低了約26%,基本完成了本文的研究目標(biāo)。
另外,本文由于篇幅的原因,對(duì)第三章的內(nèi)容進(jìn)行了精簡(jiǎn),完整版待畢業(yè)論文審核完成后可查閱。