祝海威
【摘 要】KNIME是一個(gè)用戶友好、有豐富功能的開源數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)分析和數(shù)據(jù)勘探平臺(tái)。當(dāng)前學(xué)術(shù)文獻(xiàn)對(duì)KNIME軟件的研究,特別是在圖像挖掘領(lǐng)域較少。文章在此背景下通過案例研究,調(diào)查KNIME在圖像挖掘領(lǐng)域的業(yè)務(wù)潛力,為在智能工廠中使用圖像挖掘應(yīng)用程序提供重要參考依據(jù)。
【關(guān)鍵詞】KNIME;圖像挖掘;邊緣計(jì)算
【中圖分類號(hào)】TP39 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2021)03-0192-04
1 KNIME概況
生產(chǎn)質(zhì)量的圖像挖掘是從海量的圖像數(shù)據(jù)中挖掘出有效的模型、關(guān)聯(lián)、規(guī)則、變化、不規(guī)則規(guī)律,用以改善生產(chǎn)質(zhì)量和管理過程。智能工廠對(duì)圖像數(shù)據(jù)的處理能力要求很高,因此圖像挖掘在智能工廠生產(chǎn)質(zhì)量管理的運(yùn)用將成為工廠升級(jí)發(fā)展的新方向。智能工廠最常見的內(nèi)部目標(biāo)就是提高產(chǎn)品質(zhì)量和資產(chǎn)利用率。以風(fēng)力渦輪機(jī)為例,利用圖像識(shí)別與機(jī)器學(xué)習(xí)技術(shù),通過運(yùn)算算法進(jìn)行分析,可以讓質(zhì)量控制過程實(shí)現(xiàn)自動(dòng)化,從而快速識(shí)別生產(chǎn)異常。文章選取KNIME數(shù)據(jù)挖掘軟件,通過案例驗(yàn)證軟件在圖像挖掘中的適用范圍。內(nèi)容考慮基于以下問題:①KNIME在生產(chǎn)質(zhì)量管理的圖像挖掘領(lǐng)域有哪些潛力?②哪種算法適用于生產(chǎn)質(zhì)量管理的KNIME圖像挖掘?
2 基本概念
考慮KNIME軟件在生產(chǎn)質(zhì)量管理的圖像挖掘潛力問題,需要將圖像挖掘結(jié)果對(duì)智能工廠的影響作為參考條件,有效提高智能工廠的效率,可以理解為KNIME軟件在圖像挖掘上的潛力。因此,需要架構(gòu)一個(gè)圖像挖掘應(yīng)用流程對(duì)問題進(jìn)行分析。本文對(duì)概念進(jìn)行分析,并依據(jù)概念構(gòu)成實(shí)驗(yàn)?zāi)P汀?/p>
2.1 圖像挖掘簡介
圖像數(shù)據(jù)挖掘是挖掘大規(guī)模圖像數(shù)據(jù)中隱含的知識(shí)、圖像內(nèi)或圖像間的各種關(guān)系,以及其他隱藏在圖像數(shù)據(jù)中的模式技術(shù)[1];它是計(jì)算機(jī)視覺、圖像處理、數(shù)據(jù)挖掘、模式識(shí)別、人工智能等多個(gè)學(xué)科交叉的研究領(lǐng)域。人們對(duì)圖像挖掘研究主要是挖掘系統(tǒng)的建立和挖掘算法的使用,通過使用不同的算法對(duì)數(shù)據(jù)進(jìn)行分析[2]。常用的算法分類如圖1所示。
如圖2所示,圖像數(shù)據(jù)挖掘在過程模型中分為預(yù)處理、轉(zhuǎn)換、挖掘、解釋和評(píng)估等階段。先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理提高圖像質(zhì)量,然后轉(zhuǎn)換數(shù)據(jù),方便下一步通過選定的分析方法挖掘圖像數(shù)據(jù),最后應(yīng)用適當(dāng)?shù)哪J阶R(shí)別并解釋結(jié)果,生成知識(shí)。
2.2 算法
隨著科技的發(fā)展,圖像挖掘技術(shù)已成熟地應(yīng)用于車輛跟蹤與檢測、違章檢測、事故檢測等??ㄋ闺べM(fèi)爾登設(shè)計(jì)的交通挖掘系統(tǒng)可由圖像分析系統(tǒng)和知識(shí)發(fā)現(xiàn)系統(tǒng)構(gòu)成[3]。圖像分析系統(tǒng)利用K-均值聚類算出每一幀圖像的質(zhì)心,連接連續(xù)圖像的相關(guān)質(zhì)心形成車輛的運(yùn)動(dòng)軌跡。知識(shí)發(fā)現(xiàn)系統(tǒng)利用分類器對(duì)圖像分析系統(tǒng)產(chǎn)生的運(yùn)行軌跡進(jìn)行分類并分析[4]。圖像挖掘技術(shù)也運(yùn)用到農(nóng)業(yè)生產(chǎn)領(lǐng)域,使用人工神經(jīng)方法對(duì)區(qū)域降水進(jìn)行預(yù)測。圖像挖掘技術(shù)在Web圖像和多傳感器圖像等領(lǐng)域也有應(yīng)用實(shí)例。MEI Tao等提出通用的視頻結(jié)構(gòu)的無監(jiān)督挖掘方法,以解決利用全拼圖提取魯棒的視覺特征[5]。參考以上應(yīng)用場景:將圖像挖掘運(yùn)用到工業(yè)生產(chǎn)質(zhì)量管理場景,此時(shí)圖像挖掘的主要目標(biāo)是有效提高工廠生產(chǎn)效率。通過對(duì)大數(shù)據(jù)進(jìn)行自動(dòng)化分析,做出歸納性的推理,從中挖掘出潛在的模式,幫助工廠調(diào)整生產(chǎn)過程,并做出正確決策[6]。目前,圖像挖掘常用算法有分類法、回歸分析法、聚類法、關(guān)聯(lián)規(guī)則法、神經(jīng)網(wǎng)絡(luò)法、Web數(shù)據(jù)挖掘法等。本次實(shí)驗(yàn)選用4種常見算法(見表1)對(duì)數(shù)據(jù)進(jìn)行挖掘。
2.3 邊緣計(jì)算
圖像挖掘系統(tǒng)在智能工廠條件下,可以考慮在KNIME軟件邊緣計(jì)算中的應(yīng)用來發(fā)掘KNIME在生產(chǎn)質(zhì)量管理圖像挖掘領(lǐng)域的潛力。邊緣計(jì)算是一種分布式、開放的IT體系結(jié)構(gòu),具有分散的處理能力,可實(shí)現(xiàn)移動(dòng)計(jì)算和物聯(lián)網(wǎng)(IoT)技術(shù)。在邊緣計(jì)算中,數(shù)據(jù)由設(shè)備本身或本地計(jì)算機(jī)或服務(wù)器處理,而不是傳輸?shù)綌?shù)據(jù)中心。根據(jù)Shallu Sarvari(2018)年的論述,邊緣檢測能滿足實(shí)時(shí)交付關(guān)鍵決策;減少在云服務(wù)中的存在,從而節(jié)省成本。邊緣計(jì)算更適合實(shí)時(shí)數(shù)據(jù)分析和智能處理,非常適合具有特殊業(yè)務(wù)要求的應(yīng)用程序,例如低延遲、高帶寬、高可靠性、大規(guī)模連接、異構(gòu)聚合和本地隱私保護(hù)[7]。KNIME在智能工廠中運(yùn)行圖像挖掘應(yīng)用程序如圖3所示。
3 實(shí)驗(yàn)的設(shè)計(jì)
實(shí)驗(yàn)的實(shí)時(shí)性以考慮信息傳遞給員工的延時(shí)為準(zhǔn),并基于KNIME在生產(chǎn)質(zhì)量管理圖像挖掘領(lǐng)域的潛力和最佳算法的分析。運(yùn)用圖像挖掘技術(shù)和邊緣計(jì)算概念,以智能工廠為實(shí)驗(yàn)背景,通過使用表1的算法;進(jìn)一步分析KNIME軟件在生產(chǎn)質(zhì)量管理圖像挖掘領(lǐng)域的潛力,并選出KNIME在此生產(chǎn)環(huán)境中的最佳算法。實(shí)驗(yàn)?zāi)P徒?jīng)過生產(chǎn)映像訓(xùn)練,以創(chuàng)建低故障率和低錯(cuò)誤率為目的。
4 圖像挖掘應(yīng)用
如圖4所示,選定4個(gè)圖像生產(chǎn)過程,然后使用開發(fā)的圖像挖掘模型對(duì)3D打印進(jìn)行錯(cuò)誤檢測實(shí)驗(yàn)。實(shí)驗(yàn)以創(chuàng)建故障率和錯(cuò)誤率低狀態(tài)為目的。本節(jié)將會(huì)根據(jù)實(shí)驗(yàn)流程,對(duì)圖像挖掘應(yīng)用程序的概念與結(jié)構(gòu)進(jìn)行簡要描寫。
此處使用KNIME軟件分析實(shí)驗(yàn)過程的所有步驟,并使其可配置使用圖形用戶界面。在圖像挖掘領(lǐng)域,通過KNIME軟件的Image Processing擴(kuò)展提供圖像挖掘的操作運(yùn)算符,并用于實(shí)驗(yàn)。在實(shí)驗(yàn)之前我們需要對(duì)收集到的圖像進(jìn)行分類,建立一個(gè)訓(xùn)練模型和測試模型。在機(jī)械學(xué)習(xí)中通過已知的數(shù)據(jù)和目標(biāo)調(diào)節(jié)算法參數(shù),最后得到的映射就是針對(duì)這個(gè)問題被訓(xùn)練出來的模型。如圖5所示,首先對(duì)收集的圖像進(jìn)行提取;然后執(zhí)行圖中的步驟,借助運(yùn)算符將圖像數(shù)據(jù)轉(zhuǎn)換并提取相應(yīng)的特征;接著使用算法對(duì)每個(gè)圖像進(jìn)行運(yùn)算;最后根據(jù)生成的模型,使用測試過程實(shí)時(shí)對(duì)每個(gè)捕獲的圖像進(jìn)行分類。
4.1 模型訓(xùn)練
實(shí)驗(yàn)?zāi)P瓦\(yùn)算符如下。
(1)圖像特征。計(jì)算田村特征:粒度、對(duì)比度、方向標(biāo)準(zhǔn)偏差的斜率、最大方向、偏斜度。
(2)規(guī)范化。此節(jié)點(diǎn)規(guī)范化所有(數(shù)字)列的值。所有值的最小—最大規(guī)范化線變換,以便每個(gè)列中的最小值和最大值都指定。
(3)規(guī)則引擎。此節(jié)點(diǎn)創(chuàng)建自定義規(guī)則列表,并嘗試將其與輸入表中的每一行匹配。
(4)評(píng)分。根據(jù)兩列的屬性值對(duì)比較兩列,并顯示混合矩陣,即與哪個(gè)屬性及其分類匹配的行數(shù)。
實(shí)驗(yàn)運(yùn)算符設(shè)置了基本設(shè)置,但是考慮在將來的實(shí)驗(yàn)環(huán)境中運(yùn)用,需要對(duì)運(yùn)算符的準(zhǔn)確性及其對(duì)模型預(yù)測準(zhǔn)確性的影響進(jìn)行評(píng)估。圖像數(shù)據(jù)特征提取后,需要驗(yàn)證哪些算法精度最高,確定最適合的實(shí)驗(yàn)?zāi)P?。除了算法的?zhǔn)確性外,還考慮算法執(zhí)行的延遲,因?yàn)殚_發(fā)的實(shí)驗(yàn)?zāi)P托枰?yàn)證KNIME的挖掘潛力。
4.2 模型測試
模型經(jīng)過配置和訓(xùn)練后,繼續(xù)從生產(chǎn)過程中捕獲新圖像并測試和分類。隨后使用運(yùn)算符Scorer產(chǎn)生分析預(yù)測數(shù)據(jù)。實(shí)驗(yàn)以創(chuàng)建無故障和無錯(cuò)誤狀態(tài)為目的。如果預(yù)測錯(cuò)誤,則將停止生產(chǎn),信息會(huì)通過網(wǎng)絡(luò)架構(gòu)傳輸給一線工作人員進(jìn)行決策。
4.3 算法驗(yàn)證
實(shí)驗(yàn)對(duì)積極的真實(shí)值(無故障)進(jìn)行運(yùn)算,以精度、F分?jǐn)?shù)、準(zhǔn)確性作為算法的驗(yàn)證度量。以算法執(zhí)行的延遲來驗(yàn)證邊緣計(jì)算條件、KNIME軟件的挖掘潛力。270張?jiān)紙D像數(shù)據(jù)來源于trinks的實(shí)驗(yàn)數(shù)據(jù)[7];54張圖片作為訓(xùn)練集,216張作為測試集。表2中顯示,NN算法擁有最好的精度、F分?jǐn)?shù)、準(zhǔn)確性;預(yù)測率都達(dá)到100%;但工作延時(shí)最高,達(dá)到737.43 ms。邏輯回歸算法的驗(yàn)證度量僅次于神經(jīng)網(wǎng)絡(luò)算法,但是延時(shí)最優(yōu)。
4.4 對(duì)延遲的考慮
邊緣計(jì)算通常會(huì)涉及實(shí)時(shí)分析。通過對(duì)實(shí)時(shí)分析的延時(shí)進(jìn)行討論并運(yùn)算,trinks認(rèn)為應(yīng)用程序的數(shù)據(jù)延遲、分析延遲和決策延遲必須盡可能低 [7]。高分辨率圖像能優(yōu)化已開發(fā)的預(yù)測,但由于圖像數(shù)據(jù)較大,反過來又對(duì)延遲產(chǎn)生負(fù)面影響。本次實(shí)驗(yàn)只考慮KNIME軟件在邊緣計(jì)算條件下運(yùn)用的可行性;算法驗(yàn)證的延遲小于1 s就可以認(rèn)為KNIME軟件能及時(shí)反饋問題,滿足實(shí)時(shí)生產(chǎn)需要。因?yàn)閱栴}最終是由人解決,生產(chǎn)延遲最終也取決于解決問題的速度。
5 結(jié)論
回顧本文的兩個(gè)問題。
(1)KNIME在生產(chǎn)質(zhì)量管理的圖像挖掘領(lǐng)域有哪些潛力?
在算法驗(yàn)證中,論述了可以通過考慮算法執(zhí)行的延遲來驗(yàn)證KNIME軟件的挖掘潛力。本次實(shí)驗(yàn)的延遲數(shù)據(jù)表明,各個(gè)算法的延遲均小于1 s。這表明結(jié)果能很好地將信息傳遞給一線工人,使之迅速對(duì)問題做出反饋。因此,KNIME軟件能基本滿足邊緣計(jì)算需求。但是本次實(shí)驗(yàn)只使用了270張圖像數(shù)據(jù)運(yùn)行,因此實(shí)驗(yàn)不能展現(xiàn)KNIME軟件在智能工廠條件下對(duì)海量圖像數(shù)據(jù)處理的能力是否能滿足實(shí)時(shí)生產(chǎn)。
(2)哪種算法適用于生產(chǎn)質(zhì)量管理的KNIME圖像挖掘?
從表2可以看出,神經(jīng)網(wǎng)絡(luò)算法是選取實(shí)驗(yàn)算法里最優(yōu)的。邏輯回歸算法是次優(yōu)的選擇。但是,實(shí)驗(yàn)的訓(xùn)練和測試數(shù)據(jù)較少,僅能證明在此次實(shí)驗(yàn)中表現(xiàn)最佳,并不能完全證明以上兩種算法適用于智能工廠的圖像挖掘。
參 考 文 獻(xiàn)
[1]曲文龍,李衛(wèi)東,楊炳儒.圖像挖掘技術(shù)研究[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(5):1-3.
[2]A Emam.Intelligent drowsy eye detection using image mining[J].Information Systems Frontiers,2009(1):947-960.
[3]卡斯滕·費(fèi)爾登.商業(yè)分析講座補(bǔ)充暑期學(xué)期[Z].2019:44.
[4]Zaboli Sh.Application of Image Mining for Knowledage Discovery of Analyzed Traffic Image[C]//IEEE International Conference on Industrial Technology,2006:1066-1070.
[5]MEI Tao,ZHOU He-qin,F(xiàn)ENG Huan-qing,et al.Unsupervised Mining of Sports Video Structure with Mosaic[J].Journal of China University of Science and Technology,2005,35(2):57-61.
[6]塞巴斯蒂安·特林克斯,卡斯滕·費(fèi)爾登.智能工廠內(nèi)實(shí)時(shí)故障檢測的圖像挖掘[C]//第21屆商業(yè)信息學(xué)會(huì)議(CBI),2019:584-593.
[7]Shallu Sarvari. Edge Computing: Der Beginn der autonomen Dinge[EB/OL]. [2018-06-01].https://www.nagarro.com/de/blog/author/shallu-sarvari.