陳 剛
(廣州華商學(xué)院 數(shù)據(jù)科學(xué)學(xué)院,廣州 511300)
特征挖掘就是準(zhǔn)確地提取存儲(chǔ)介質(zhì)中大量的不完整和干擾特征,從而挖掘出人們所需要的潛在有用信息。若想進(jìn)一步使用大數(shù)據(jù)需要大量的人力和時(shí)間,往往不能得到有價(jià)值的分析結(jié)果,且關(guān)聯(lián)屬性不強(qiáng),數(shù)據(jù)提取過程的融合性不好。
成紅紅等[1]設(shè)計(jì)了一種有效的相關(guān)度測量方法,該方法不存在相關(guān)關(guān)系的偏差。根據(jù)大數(shù)據(jù)環(huán)境下底層關(guān)聯(lián)關(guān)系公平排序的要求,結(jié)合當(dāng)前關(guān)聯(lián)度的公理化條件,給出了大數(shù)據(jù)關(guān)聯(lián)關(guān)系度量的可能性質(zhì)。但這種方法耗時(shí)長,不利于實(shí)時(shí)檢索。田方[2]提出了一種基于云計(jì)算管理系統(tǒng)的數(shù)據(jù)查詢技術(shù)?;跀?shù)據(jù)挖掘技術(shù),分析了云計(jì)算管理系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)和分布狀態(tài)模型,并利用數(shù)據(jù)流互信息特征提取技術(shù)對數(shù)據(jù)進(jìn)行挖掘,但它需要大量內(nèi)存和硬件資源。
筆者提出一種基于數(shù)據(jù)挖掘算法的地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)提取方法。強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù),即如果在數(shù)據(jù)x前和后不久訪問數(shù)據(jù)y,則數(shù)據(jù)x和數(shù)據(jù)y將被關(guān)聯(lián),反之,同時(shí)被訪問,為此,引入數(shù)據(jù)關(guān)聯(lián)度,在計(jì)算關(guān)聯(lián)特征數(shù)據(jù)值時(shí)具有明顯的優(yōu)越性,能得到較準(zhǔn)確的關(guān)聯(lián)特征數(shù)據(jù)值。
圖1 地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)管理系統(tǒng)Fig.1 Regional strong association rule data management system
地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)管理系統(tǒng)包括地域種類的劃分、存儲(chǔ)和順序的管理等功能。這種設(shè)計(jì)能給系統(tǒng)帶來許多好處,比如提供地域特征的詳細(xì)分析。系統(tǒng)的硬件支撐平臺(tái)如圖1所示。
如圖1所示,該系統(tǒng)利用現(xiàn)有資源,以虛擬社區(qū)的形式創(chuàng)建按需開放訂閱平臺(tái),允許web服務(wù)器將收集的信息源發(fā)布在互聯(lián)網(wǎng)上,也可滿足用戶的需求,查詢地域資料,檢索特征關(guān)聯(lián)性[3]。并且若沒有相關(guān)的地域資料,也可通過電子郵件建立地域數(shù)據(jù)庫。通過用戶需求處理系統(tǒng)將結(jié)果提供給用戶,用戶要求的信息處理完畢后,工作人員可根據(jù)情況進(jìn)行回復(fù),并以電子郵件的形式提供地域信息,以此收集地域特征,挖掘特征關(guān)聯(lián)度[4-5]。
在地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)特征挖掘過程中,需要檢索速率快和準(zhǔn)確性高的方法,為實(shí)現(xiàn)地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)提取,需要計(jì)算地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)特征的相似性,地域檢索過程中,用戶u選擇標(biāo)記集的特征向量是根據(jù)相鄰節(jié)點(diǎn)v∈Nu對用戶實(shí)施分析,其主導(dǎo)特征數(shù)據(jù)表示為
(1)
(2)
通過對同義詞和歧義詞的協(xié)同過濾,使推薦的可靠性和用戶的地域性內(nèi)容和興趣有所提升。使用余弦相似性過濾同義詞,相似度運(yùn)算式為
(3)
其中i為同義詞的評(píng)級(jí)向量,j為歧義詞的評(píng)級(jí)向量。
利用數(shù)據(jù)關(guān)聯(lián)度[6],分析地域信息檢索中地域特征之間的關(guān)聯(lián)性,其表達(dá)式為
(4)
(5)
通過分析標(biāo)簽的上下文信息代替地域信息數(shù)量的關(guān)聯(lián)行為,使優(yōu)先列表受到地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)特征相似性的約束[8]。詳情如表1所示。
表1 相似度約束下的優(yōu)先級(jí)列表Tab.1 The priority list under the similarity constraints
由表1可知,在相似性約束下,利用協(xié)同過濾推薦控制查詢地域信息種類,利用優(yōu)先級(jí)列表,有效確定上下文信息。
在約束條件Con下,依據(jù)支持度和置信度,筆者計(jì)算[9],分析地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)管理的集成性,在關(guān)聯(lián)規(guī)則下,若X是A,設(shè)Sup(〈X,A〉→〈Y,B〉)用于描述獲得的數(shù)據(jù)集τ中,則Y是B形式的支持度??傻?/p>
(6)
其中〈X,A〉和〈Y,B〉為屬性概念對,μcyk(ti[xj])為記錄ti值對屬于概念cxj的屬性xj的隸屬度,μcyk(ti[xj])的含義與此類似。對于ti,如果其屬性值ti[xj](xj∈X,j=1,2,…,r),cxj的隸屬度積大于ε(ε為大于零的最小值),說明該記錄滿足〈X,A〉的條件,并用cxj作為梯形云數(shù)字特征表,當(dāng)ti[xj]在概念cxj的期望區(qū)間時(shí),隸屬度為1,否則隸屬度為(0,1)中的某一值。
置信度是指滿足〈X,A〉和〈Y,B〉要求的記錄在滿足〈X,A〉或〈Y,B〉的記錄數(shù)量中所占的比例,它反映了所發(fā)現(xiàn)規(guī)則的確定性[10]。采用Conf(〈X,A〉→〈Y,B〉)表示在約束條件下在Con下獲得的數(shù)據(jù)集τ中,如果X是A,則Y是B形式的置信度??傻?/p>
根據(jù)式(6),式(7)進(jìn)行簡化處理,得
(8)
根據(jù)式(6)和式(7)可知,若在滿足記錄數(shù)據(jù)的基礎(chǔ)上,計(jì)算結(jié)果不超過閾值范圍,可判定為強(qiáng)關(guān)聯(lián)規(guī)則。
通過支持置信度框架,可從地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)管理系統(tǒng)中挖掘出大量的關(guān)聯(lián)規(guī)則。筆者通過Kulczynski,分析測度Kule不平衡的原因,依據(jù)關(guān)聯(lián)規(guī)則,對不符合條件的數(shù)據(jù)進(jìn)行分析和過濾,它具有零不變性質(zhì),是兩個(gè)方向上條件概率的綜合,公式如下
(9)
在關(guān)聯(lián)規(guī)則蘊(yùn)涵式內(nèi),不平衡率公式為
(10)
由式(10)可知,當(dāng)Sup(〈X,A〉)和supSup(〈Y,B〉)相同時(shí),IR(〈X,A〉→〈Y,B〉)為0,當(dāng)Sup(〈X,A〉)和supSup(〈Y,B〉)不同時(shí),二者的不平衡率越大。Kule利用不平衡比解決支持度置信空間不足的問題,篩分出偽項(xiàng)目集的關(guān)聯(lián)規(guī)則。
設(shè)置10%、50%、50%和0.3的最小Kule閾值和最大不平衡度閾值、最小支持度閾值、最小置信度閾值。數(shù)據(jù)及關(guān)聯(lián)性分析結(jié)果如表2所示。其中,Sup(a,b)為a、b兩個(gè)方位點(diǎn)同時(shí)超標(biāo)的支持度;Nab為兩個(gè)方位點(diǎn)a、b同時(shí)超標(biāo)的數(shù)據(jù)記錄數(shù),其余均相同;Conf(a→b)為若方位點(diǎn)a超過標(biāo)準(zhǔn)的置信度,則方位點(diǎn)b也超標(biāo),Conf(b→a)為若方位點(diǎn)b超過標(biāo)準(zhǔn)的置信度,則方位點(diǎn)a也超標(biāo),Kule(a,b)為Conf(a→b)和Conf(b→a)在方位點(diǎn)a、b上的概率集;IR(a,b)為對方位點(diǎn)a和b不平衡度的評(píng)價(jià)。
表2 數(shù)據(jù)及關(guān)聯(lián)性分析結(jié)果Tab.2 Data and association analysis results
為驗(yàn)證筆者方法的有效性,選用Matlab 7作為仿真軟件,在大型網(wǎng)絡(luò)數(shù)據(jù)庫中,選取10組測試樣本,將10組樣本的數(shù)據(jù)量從500 Mbit逐步增加到5 000 Mbit,將文獻(xiàn)[1]和文獻(xiàn)[2]方法作為對比對象,測試指標(biāo)為數(shù)據(jù)挖掘時(shí)間開銷,不同方法挖掘時(shí)間對比如圖2所示。
從圖2可以看出,每種挖掘方法的時(shí)間成本都隨著數(shù)據(jù)大小的增加而增加。文獻(xiàn)[1]和文獻(xiàn)[2]關(guān)聯(lián)挖掘方法的耗費(fèi)時(shí)間較長。而筆者挖掘方法耗費(fèi)時(shí)間較短,具有較高的挖掘效率。然后對比不同數(shù)據(jù)挖掘方法的內(nèi)存消耗如表3所示。對3種方法分析結(jié)果如圖3所示。
圖2 不同方法挖掘時(shí)間對比 圖3 不同方法擴(kuò)展率對比 Fig.2 Mining time comparison for different methods Fig.3 Extension rate comparison between different methods
從表3可以看出,筆者方法為0.486 Mbit,內(nèi)存消耗比較小,不影響系統(tǒng)的正常工作,也不會(huì)受到大數(shù)據(jù)規(guī)模操作的影響,在海量數(shù)據(jù)挖掘方面具有很大的優(yōu)勢。為驗(yàn)證該方法的擴(kuò)展率,在上述實(shí)驗(yàn)條件下,對3種方法進(jìn)行了比較分析,結(jié)果如圖3所示。
由圖3可知,相比兩種文獻(xiàn)方法,筆者方法擴(kuò)展率下降速度較為緩慢,擴(kuò)展率較高,使挖掘性能有效提升,內(nèi)存開銷可以降到最低極限值。
表3 內(nèi)存消耗對比結(jié)果Tab.3 Memory consumption comparative results (Mbit)
筆者提出一種基于數(shù)據(jù)挖掘算法的地域性強(qiáng)關(guān)聯(lián)規(guī)則數(shù)據(jù)提取方法,在數(shù)據(jù)挖掘中的平均時(shí)間開銷和內(nèi)存消耗都有所降低,具有一定優(yōu)勢,具備較高的挖掘效率和廣泛應(yīng)用價(jià)值。