施文 李明東
摘 要:文章中對(duì)圖像挖掘概念的提出以及圖像挖掘與相關(guān)技術(shù)的聯(lián)系做了介紹;對(duì)目前的圖像挖掘的研究思路作一個(gè)總結(jié);詳細(xì)論述了圖像挖掘的技術(shù)和方法。利用圖像挖掘的理論與方法可以從圖像中分析、挖掘出大量的圖像知識(shí),這就涉及到這些大量圖像知識(shí)的管理和應(yīng)用問題。對(duì)應(yīng)用關(guān)聯(lián)規(guī)則挖掘技術(shù)挖掘出的規(guī)則的管理及應(yīng)用進(jìn)行分析、研究和探討,使圖像挖掘的結(jié)果能夠充分地被用戶所利用。
關(guān)鍵詞:聯(lián)機(jī)關(guān)聯(lián);數(shù)據(jù)挖掘技術(shù);可視化
圖像挖掘和基于內(nèi)容的圖像檢索雖然都是針對(duì)圖像數(shù)據(jù)集進(jìn)行操作,但圖像挖掘的概念遠(yuǎn)遠(yuǎn)超過了基于內(nèi)容的圖像檢索的目的和要求,圖像挖掘的目標(biāo)是從大量圖像集合中發(fā)現(xiàn)某種具有重要語義的模式,發(fā)現(xiàn)某種特征性的規(guī)則,更加強(qiáng)調(diào)對(duì)圖像內(nèi)容的高度概括和總結(jié)。
一、數(shù)據(jù)挖掘理論研究基礎(chǔ)
數(shù)據(jù)挖掘的研究目標(biāo)主要是為了從大量的科學(xué)數(shù)據(jù)中快速找到有用的新知識(shí)點(diǎn)和某些其中隱含的重要數(shù)據(jù)資料。在數(shù)據(jù)挖掘算法可以挖掘的數(shù)據(jù)類型方面,從表現(xiàn)形式來看,可以分為文字、數(shù)字、圖像、聲音等。
(一)數(shù)據(jù)挖掘相關(guān)算法的介紹
根據(jù)項(xiàng)目需求確定選取使用具體的挖掘算法,常見的數(shù)據(jù)挖掘算法有如下幾種:(1)神經(jīng)網(wǎng)絡(luò):主要指的是一種仿造人工和生物神經(jīng)元的基本構(gòu)造和其功能而設(shè)計(jì)開發(fā)的一種專門用于進(jìn)行信息處理的系統(tǒng)。(2)決策樹:是一種基于樹的歸類算法,他能在無序的樣本中,提煉樹形的分類模型。(3)聚類:處理算法分析屬于一種無監(jiān)督的機(jī)器學(xué)習(xí)分析算法,聚類分析的基本功能和主要作用就是如何完成一個(gè)聚類。
(二)功能帶動(dòng)下的圖像挖掘
針對(duì)應(yīng)用的不同,系統(tǒng)的功能模塊組成也不同,常見的包含有以下幾個(gè)部分:圖像獲取模塊:用于從圖像庫中抽取圖像數(shù)據(jù)集。預(yù)處理模塊:提取圖像特征,將計(jì)算的特征數(shù)據(jù)存放在特征數(shù)據(jù)庫中。搜索匹配模塊:用于匹配數(shù)據(jù)庫中存儲(chǔ)的圖像特征和各種元數(shù)據(jù)。知識(shí)發(fā)現(xiàn)模塊:針對(duì)圖像集利用描述、分類、聚類、關(guān)聯(lián)等方法挖掘出圖像中潛在的知識(shí)和模式。
二、關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的最重要內(nèi)容之一,其模式屬于描述型的模式。一方面,在進(jìn)行關(guān)聯(lián)規(guī)則挖掘的過程中,我們可以得出不同的概念層次的關(guān)聯(lián)關(guān)系,在領(lǐng)域相關(guān)的概念層次樹支持的背景下,利用關(guān)聯(lián)規(guī)則挖掘的方法可以得到反映不同層次規(guī)律的關(guān)聯(lián)規(guī)則。
(一)關(guān)聯(lián)規(guī)則的概念
關(guān)聯(lián)規(guī)則的一般性概念描述如下:
設(shè)I={1i,2i,……,ni }是n個(gè)不同項(xiàng)的集合,任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫的事務(wù)的集合,其中每個(gè)事務(wù)T是項(xiàng)的集合,使得T■I。每一個(gè)事務(wù)有一個(gè)標(biāo)志符,稱作TID。設(shè)A是一個(gè)項(xiàng)集,事物T包含A,當(dāng)且僅當(dāng)A■T。關(guān)聯(lián)規(guī)則是形如A■B的蘊(yùn)涵式,其中A■I,B■l,并且A、B之間的交集為空。
(二)關(guān)聯(lián)規(guī)則挖掘的一般步驟
關(guān)聯(lián)規(guī)則挖掘可以分解為下述兩個(gè)子問題:
第一,找出事務(wù)數(shù)據(jù)庫D中所有大于等于用戶指定最小支持度的項(xiàng)目集。具有最小支持度的項(xiàng)目集稱為頻繁項(xiàng)目集,項(xiàng)目集的支持度只包含該項(xiàng)目集的項(xiàng)。
第二,利用頻繁項(xiàng)目集生成所需要的關(guān)聯(lián)規(guī)則。對(duì)每一個(gè)頻繁項(xiàng)目集A,找到A的所有非空子集a,如果比率support(A)/support(a)>=最小置信度,就生成關(guān)聯(lián)規(guī)則:a>=(A-a).support(a)/support(a),即規(guī)則a■(A-a)的確信度。
關(guān)聯(lián)規(guī)則挖掘的主要步驟如下:
第一步,準(zhǔn)備供挖掘的數(shù)據(jù);第二步,設(shè)定最小支持度閾值和最小置信度閾值;第三步,根據(jù)數(shù)據(jù)挖掘的算法找出所有支持度大于或等于最小支持度閾值的頻繁項(xiàng)集;第四步,根據(jù)頻繁項(xiàng)集生成所有置信度大于或等于置信度閾值的強(qiáng)規(guī)則;如果生成的規(guī)則過多或者過少,則需要對(duì)支持度閾值和置信度閾值進(jìn)行調(diào)整,并重新生成強(qiáng)關(guān)聯(lián)規(guī)則。
(三)Top-K關(guān)聯(lián)規(guī)則挖掘算法
在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行挖掘的過程中,通過實(shí)踐,發(fā)現(xiàn)最小的支持度比最小的置信度更難設(shè)計(jì),因?yàn)樽钚〉闹С侄热Q于大多數(shù)用戶不可能知道的數(shù)據(jù)庫特性,而最小的置信度代表了用戶在關(guān)聯(lián)規(guī)則中真正想要的預(yù)期置信度,而且通常是很容易判斷。因此,該算法的目標(biāo)是在滿足期望置信度的前提下,挖掘出具有最高支持度的Top-K規(guī)則。
三、數(shù)據(jù)挖掘系統(tǒng)的實(shí)驗(yàn)設(shè)計(jì)
(一)效率驗(yàn)證比較
表1是跟前端技術(shù)相關(guān)課程的關(guān)聯(lián)規(guī)則,從結(jié)果可以看到Spring Boot這一前端框架可以推出html5,docker等課程,Spring Boot是java的開源框架,它基于Spring4.0設(shè)計(jì),是目前java最為流行的開源框架之一,html5是流行的前端腳本語言,根據(jù)結(jié)果可以看到,大多數(shù)用戶喜歡同時(shí)選擇html5課程與Spring Boot課程,其置信度為0.66。
四、總結(jié)
本文分析了圖像知識(shí)的存儲(chǔ)與管理的方法,提出了利用關(guān)系數(shù)據(jù)庫表格以及文本文件的方式進(jìn)行關(guān)聯(lián)知識(shí)的存儲(chǔ)與管理的方法。在傳統(tǒng)的數(shù)據(jù)挖掘結(jié)果的基礎(chǔ)上,針對(duì)圖像挖掘的特點(diǎn),結(jié)合關(guān)聯(lián)規(guī)則的挖掘方法,探討了規(guī)則的存儲(chǔ)和管理并且在實(shí)驗(yàn)中加以論證。由于提取出的規(guī)則需要根據(jù)具體的領(lǐng)域相關(guān)知識(shí)進(jìn)行解釋和應(yīng)用,但限于本人在其它領(lǐng)域的知識(shí)貧乏所以沒有進(jìn)一步討論,僅將規(guī)則存儲(chǔ)起來供其它領(lǐng)域的人士使用。
參考文獻(xiàn):
[1]李紹華,王錚,梁藝多.基于數(shù)據(jù)清洗和關(guān)聯(lián)規(guī)則的圖書推薦算法[J].赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版),2021,37(03):8-12.
[2]艾云昊,楊超宇,李慧宗.基于聚類的關(guān)聯(lián)規(guī)則后處理算法研究[J].黑龍江工業(yè)學(xué)院學(xué)報(bào)(綜合版),2020,20(09):126-131.