基于聯(lián)機(jī)關(guān)聯(lián)的數(shù)據(jù)挖掘技術(shù)及可視化研究

2022-05-30 03:20:17施文李明東

客聯(lián) 2022年7期

施文李明東

摘要：文章中對(duì)圖像挖掘概念的提出以及圖像挖掘與相關(guān)技術(shù)的聯(lián)系做了介紹;對(duì)目前的圖像挖掘的研究思路作一個(gè)總結(jié);詳細(xì)論述了圖像挖掘的技術(shù)和方法。利用圖像挖掘的理論與方法可以從圖像中分析、挖掘出大量的圖像知識(shí)，這就涉及到這些大量圖像知識(shí)的管理和應(yīng)用問題。對(duì)應(yīng)用關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘出的規(guī)則的管理及應(yīng)用進(jìn)行分析、研究和探討，使圖像挖掘的結(jié)果能夠充分地被用戶所利用。

關(guān)鍵詞：聯(lián)機(jī)關(guān)聯(lián);數(shù)據(jù)挖掘技術(shù);可視化

圖像挖掘和基于內(nèi)容的圖像檢索雖然都是針對(duì)圖像數(shù)據(jù)集進(jìn)行操作，但圖像挖掘的概念遠(yuǎn)遠(yuǎn)超過了基于內(nèi)容的圖像檢索的目的和要求，圖像挖掘的目標(biāo)是從大量圖像集合中發(fā)現(xiàn)某種具有重要語義的模式，發(fā)現(xiàn)某種特征性的規(guī)則，更加強(qiáng)調(diào)對(duì)圖像內(nèi)容的高度概括和總結(jié)。

一、數(shù)據(jù)挖掘理論研究基礎(chǔ)

數(shù)據(jù)挖掘的研究目標(biāo)主要是為了從大量的科學(xué)數(shù)據(jù)中快速找到有用的新知識(shí)點(diǎn)和某些其中隱含的重要數(shù)據(jù)資料。在數(shù)據(jù)挖掘算法可以挖掘的數(shù)據(jù)類型方面，從表現(xiàn)形式來看，可以分為文字、數(shù)字、圖像、聲音等。

（一）數(shù)據(jù)挖掘相關(guān)算法的介紹

根據(jù)項(xiàng)目需求確定選取使用具體的挖掘算法，常見的數(shù)據(jù)挖掘算法有如下幾種：（1）神經(jīng)網(wǎng)絡(luò)：主要指的是一種仿造人工和生物神經(jīng)元的基本構(gòu)造和其功能而設(shè)計(jì)開發(fā)的一種專門用于進(jìn)行信息處理的系統(tǒng)。（2）決策樹：是一種基于樹的歸類算法，他能在無序的樣本中，提煉樹形的分類模型。（3）聚類：處理算法分析屬于一種無監(jiān)督的機(jī)器學(xué)習(xí)分析算法，聚類分析的基本功能和主要作用就是如何完成一個(gè)聚類。

（二）功能帶動(dòng)下的圖像挖掘

針對(duì)應(yīng)用的不同，系統(tǒng)的功能模塊組成也不同，常見的包含有以下幾個(gè)部分：圖像獲取模塊：用于從圖像庫中抽取圖像數(shù)據(jù)集。預(yù)處理模塊：提取圖像特征，將計(jì)算的特征數(shù)據(jù)存放在特征數(shù)據(jù)庫中。搜索匹配模塊：用于匹配數(shù)據(jù)庫中存儲(chǔ)的圖像特征和各種元數(shù)據(jù)。知識(shí)發(fā)現(xiàn)模塊：針對(duì)圖像集利用描述、分類、聚類、關(guān)聯(lián)等方法挖掘出圖像中潛在的知識(shí)和模式。

二、關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的最重要內(nèi)容之一，其模式屬于描述型的模式。一方面，在進(jìn)行關(guān)聯(lián)規(guī)則挖掘的過程中，我們可以得出不同的概念層次的關(guān)聯(lián)關(guān)系，在領(lǐng)域相關(guān)的概念層次樹支持的背景下，利用關(guān)聯(lián)規(guī)則挖掘的方法可以得到反映不同層次規(guī)律的關(guān)聯(lián)規(guī)則。

（一）關(guān)聯(lián)規(guī)則的概念

關(guān)聯(lián)規(guī)則的一般性概念描述如下：

設(shè)I={1i，2i，……，ni }是n個(gè)不同項(xiàng)的集合，任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫的事務(wù)的集合，其中每個(gè)事務(wù)T是項(xiàng)的集合，使得T■I。每一個(gè)事務(wù)有一個(gè)標(biāo)志符，稱作TID。設(shè)A是一個(gè)項(xiàng)集，事物T包含A，當(dāng)且僅當(dāng)A■T。關(guān)聯(lián)規(guī)則是形如A■B的蘊(yùn)涵式，其中A■I，B■l，并且A、B之間的交集為空。

（二）關(guān)聯(lián)規(guī)則挖掘的一般步驟

關(guān)聯(lián)規(guī)則挖掘可以分解為下述兩個(gè)子問題：

第一，找出事務(wù)數(shù)據(jù)庫D中所有大于等于用戶指定最小支持度的項(xiàng)目集。具有最小支持度的項(xiàng)目集稱為頻繁項(xiàng)目集，項(xiàng)目集的支持度只包含該項(xiàng)目集的項(xiàng)。

第二，利用頻繁項(xiàng)目集生成所需要的關(guān)聯(lián)規(guī)則。對(duì)每一個(gè)頻繁項(xiàng)目集A，找到A的所有非空子集a，如果比率support（A）/support（a）>=最小置信度，就生成關(guān)聯(lián)規(guī)則：a>=（A-a）.support（a）/support（a），即規(guī)則a■（A-a）的確信度。

關(guān)聯(lián)規(guī)則挖掘的主要步驟如下：

第一步，準(zhǔn)備供挖掘的數(shù)據(jù);第二步，設(shè)定最小支持度閾值和最小置信度閾值;第三步，根據(jù)數(shù)據(jù)挖掘的算法找出所有支持度大于或等于最小支持度閾值的頻繁項(xiàng)集;第四步，根據(jù)頻繁項(xiàng)集生成所有置信度大于或等于置信度閾值的強(qiáng)規(guī)則;如果生成的規(guī)則過多或者過少，則需要對(duì)支持度閾值和置信度閾值進(jìn)行調(diào)整，并重新生成強(qiáng)關(guān)聯(lián)規(guī)則。

（三）Top-K關(guān)聯(lián)規(guī)則挖掘算法

在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行挖掘的過程中，通過實(shí)踐，發(fā)現(xiàn)最小的支持度比最小的置信度更難設(shè)計(jì)，因?yàn)樽钚〉闹С侄热Q于大多數(shù)用戶不可能知道的數(shù)據(jù)庫特性，而最小的置信度代表了用戶在關(guān)聯(lián)規(guī)則中真正想要的預(yù)期置信度，而且通常是很容易判斷。因此，該算法的目標(biāo)是在滿足期望置信度的前提下，挖掘出具有最高支持度的Top-K規(guī)則。

三、數(shù)據(jù)挖掘系統(tǒng)的實(shí)驗(yàn)設(shè)計(jì)

（一）效率驗(yàn)證比較

表1是跟前端技術(shù)相關(guān)課程的關(guān)聯(lián)規(guī)則，從結(jié)果可以看到Spring Boot這一前端框架可以推出html5，docker等課程，Spring Boot是java的開源框架，它基于Spring4.0設(shè)計(jì)，是目前java最為流行的開源框架之一，html5是流行的前端腳本語言，根據(jù)結(jié)果可以看到，大多數(shù)用戶喜歡同時(shí)選擇html5課程與Spring Boot課程，其置信度為0.66。

四、總結(jié)

本文分析了圖像知識(shí)的存儲(chǔ)與管理的方法，提出了利用關(guān)系數(shù)據(jù)庫表格以及文本文件的方式進(jìn)行關(guān)聯(lián)知識(shí)的存儲(chǔ)與管理的方法。在傳統(tǒng)的數(shù)據(jù)挖掘結(jié)果的基礎(chǔ)上，針對(duì)圖像挖掘的特點(diǎn)，結(jié)合關(guān)聯(lián)規(guī)則的挖掘方法，探討了規(guī)則的存儲(chǔ)和管理并且在實(shí)驗(yàn)中加以論證。由于提取出的規(guī)則需要根據(jù)具體的領(lǐng)域相關(guān)知識(shí)進(jìn)行解釋和應(yīng)用，但限于本人在其它領(lǐng)域的知識(shí)貧乏所以沒有進(jìn)一步討論，僅將規(guī)則存儲(chǔ)起來供其它領(lǐng)域的人士使用。

參考文獻(xiàn)：

[1]李紹華，王錚，梁藝多.基于數(shù)據(jù)清洗和關(guān)聯(lián)規(guī)則的圖書推薦算法[J].赤峰學(xué)院學(xué)報(bào)（自然科學(xué)版），2021，37（03）：8-12.

[2]艾云昊，楊超宇，李慧宗.基于聚類的關(guān)聯(lián)規(guī)則后處理算法研究[J].黑龍江工業(yè)學(xué)院學(xué)報(bào)（綜合版），2020，20（09）：126-131.