• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多標(biāo)簽隱性知識顯性化下的數(shù)據(jù)挖掘算法

      2023-05-31 09:14:18劉利民
      計算機(jī)仿真 2023年4期
      關(guān)鍵詞:隱性數(shù)據(jù)挖掘標(biāo)簽

      劉利民,張 勇

      (1. 桂林電子科技大學(xué)計算機(jī)工程學(xué)院,廣西 北海 536000;2. 成都中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院,四川 成都 610075)

      1 引言

      多標(biāo)簽數(shù)據(jù)挖掘工作的開展,要求更高性能的挖掘算法[1,2]。當(dāng)前提出的數(shù)據(jù)挖掘算法,面對多標(biāo)簽數(shù)據(jù)無法展現(xiàn)較好的處理能力。有學(xué)者提出以鄰近算法為核心的數(shù)據(jù)挖掘算法,提取數(shù)據(jù)特征項(xiàng),并計算該特征項(xiàng)的信息熵?;诰€性斜率算法設(shè)計降維方法,處理由信息熵構(gòu)成的空間信號,便于后續(xù)數(shù)據(jù)挖掘效率提升。但是,該方法可行性較差。有學(xué)者以協(xié)同過濾技術(shù)為核心,集成多種來源的數(shù)據(jù)信息,建立分層評分矩陣并在隨機(jī)梯度下降法的作用下獲取評分結(jié)果,依托于預(yù)測評分獲取協(xié)同過濾挖掘結(jié)果[3,4]。但是,該數(shù)據(jù)挖掘算法加速比較低。除此之外,文獻(xiàn)[5]針對待挖掘數(shù)據(jù)進(jìn)行分析,結(jié)合連續(xù)模板匹配技術(shù)處理大數(shù)據(jù)信息。針對高維融合數(shù)據(jù)提取數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,在模糊卷積神經(jīng)網(wǎng)絡(luò)的作用下,實(shí)現(xiàn)大數(shù)據(jù)的分類挖掘。但是,該方法的數(shù)據(jù)挖掘效率較低。針對上述問題,本文提出了結(jié)合SECI模型與屬性分類模式的挖掘算法,針對多標(biāo)簽數(shù)據(jù)進(jìn)行分析可知,通常情況下,除了數(shù)據(jù)表面所顯示的信息外,數(shù)據(jù)內(nèi)往往包含更重要的隱性知識。在數(shù)據(jù)挖掘過程中,顯性知識與隱性知識相結(jié)合,對數(shù)據(jù)挖掘結(jié)果影響巨大。文中以將多標(biāo)簽數(shù)據(jù)內(nèi)包含的隱性知識顯性化為主要目的,提出以SECI理論為基礎(chǔ)的數(shù)據(jù)轉(zhuǎn)化模型。將多標(biāo)簽數(shù)據(jù)中的隱性知識提取出來,選取合適的數(shù)據(jù)特征。所謂的屬性分類,指的是按照待挖掘數(shù)據(jù)的基礎(chǔ)表分析數(shù)據(jù)屬性,根據(jù)屬性關(guān)系生成數(shù)據(jù)挖掘規(guī)則,在屬性分類規(guī)則的作用下,完成多標(biāo)簽數(shù)據(jù)挖掘。最后,通過實(shí)時交互獲取所需的數(shù)據(jù)挖掘結(jié)果。

      2 基于SECI模型與屬性分類的多標(biāo)簽數(shù)據(jù)挖掘算法設(shè)計

      2.1 構(gòu)建SECI數(shù)據(jù)轉(zhuǎn)化模型

      針對多標(biāo)簽數(shù)據(jù)進(jìn)行分析可知,通常情況下,除了數(shù)據(jù)表面所顯示的信息外,數(shù)據(jù)內(nèi)往往包含更重要的隱性知識[6]。在數(shù)據(jù)挖掘的過程中,顯性知識與隱性知識相結(jié)合,對數(shù)據(jù)挖掘結(jié)果影響巨大。以將多標(biāo)簽數(shù)據(jù)內(nèi)包含的隱性知識顯性化為主要目的,提出以SECI理論為基礎(chǔ)的數(shù)據(jù)轉(zhuǎn)化模型。

      隱性知識的顯性化轉(zhuǎn)變,主要包括四個環(huán)節(jié),分別是社會化、外部化、組合化以及內(nèi)部化。SECI知識轉(zhuǎn)換結(jié)構(gòu)如圖1所示,針對上述四個過程生成獨(dú)立的場,作為知識動態(tài)轉(zhuǎn)換和創(chuàng)新的環(huán)境基礎(chǔ)。

      圖1 SECI知識轉(zhuǎn)化結(jié)構(gòu)

      根據(jù)圖1可知,多標(biāo)簽數(shù)據(jù)的知識轉(zhuǎn)化過程中,創(chuàng)始場主要負(fù)責(zé)個體的主觀意愿交流,實(shí)現(xiàn)個體之間情感的一致性;對話場的功能在于通過交往活動,促進(jìn)知識的明晰化;練習(xí)場的作用是依托于數(shù)據(jù)顯性知識,提升自身隱性知識;再結(jié)合系統(tǒng)化場,共同完成知識轉(zhuǎn)換。

      針對多標(biāo)簽數(shù)據(jù)進(jìn)行隱性知識轉(zhuǎn)化,所需的具體模型如圖2所示。以社會化過程為核心,融合原有和新吸收的隱性知識,并針對新生成的隱性知識進(jìn)行互動。在語言化處理后,得到呈現(xiàn)出來的隱性多標(biāo)簽數(shù)據(jù)。

      圖2 多標(biāo)簽數(shù)據(jù)轉(zhuǎn)換SECI模型

      根據(jù)圖2可知,社會化模式與其它模式相結(jié)合前,需要進(jìn)行多次循環(huán),實(shí)現(xiàn)隱性、顯性知識之間的轉(zhuǎn)化。上述模型的應(yīng)用需要注意的一點(diǎn)是,選擇性內(nèi)化運(yùn)行時部分顯性知識無法完成內(nèi)化處理,則該部分知識會返回至組合化模式內(nèi),等待該次處理結(jié)束后,再一次進(jìn)行數(shù)據(jù)知識轉(zhuǎn)換。

      2.2 提取多標(biāo)簽數(shù)據(jù)特征

      多標(biāo)簽數(shù)據(jù)的隱性數(shù)據(jù)顯性化處理后,文中依托于Relief F算法提取出多標(biāo)簽數(shù)據(jù)特征[7]。從待挖掘處理的多標(biāo)簽數(shù)據(jù)中隨機(jī)選取樣本,并尋找該樣本的近鄰樣本,通過計算多個樣本點(diǎn)的特征權(quán)重,獲取特征權(quán)重排序結(jié)果[8]。最后,設(shè)置合理的閾值提取數(shù)據(jù)特征。針對特征冗余問題,文中采用互信息方法度量提取特征的冗余性,互信息的計算公式為

      I(X,Y)=H(X)+H(Y)-H(XY)

      (1)

      式中,X、Y表示向量,H表示信息熵,I表示互信息。根據(jù)計算結(jié)果,獲取兩個向量之間的相關(guān)性。通常情況下,式(1)計算結(jié)果越大,表明變量之間的關(guān)聯(lián)性越強(qiáng)。然后,依托于信息熵處理補(bǔ)償互信息內(nèi)部分屬性信息。對補(bǔ)償后的互信息進(jìn)行標(biāo)準(zhǔn)化處理,得到

      (2)

      式中,s表示標(biāo)準(zhǔn)化互信息。根據(jù)式(2)得出的標(biāo)準(zhǔn)化互信息,得到數(shù)據(jù)特征向量間的冗余度,計算公式為

      R(Xα,Xβ)=I(Xα,Xβ)

      (3)

      式中,R表示特征冗余度,Xα、Xβ表示特征向量。以式(3)為核心,推理出單個數(shù)據(jù)特征與特征集合的冗余度,計算公式為

      (4)

      式中,δ表示特征集合,|δ|表示特征集合中特征個數(shù),X0表示特征集合內(nèi)隨機(jī)選取的特征項(xiàng)。結(jié)合式(1)與式(4)推導(dǎo)出特征子集冗余度計算公式為

      (5)

      針對冗余度計算公式進(jìn)行標(biāo)準(zhǔn)化處理,得到

      (6)

      為了提取出冗余性較低的特征,并將其應(yīng)用于數(shù)據(jù)挖掘過程中,促進(jìn)數(shù)據(jù)挖掘效率。文中利用Relief F算法提取出多標(biāo)簽數(shù)據(jù)特征,輸出有效的多標(biāo)簽特征子集[9]?;谌哂喽扔嬎憬Y(jié)果,結(jié)合MML-RF算法,識別出特征子集中包含的無效項(xiàng)。建立多標(biāo)簽數(shù)據(jù)特征評價規(guī)則,進(jìn)行去冗余處理,保留與類標(biāo)簽相符的特征項(xiàng),實(shí)現(xiàn)特征子集的更新。為了降低多標(biāo)簽數(shù)據(jù)特征冗余度,建立式(7)所示的評價準(zhǔn)則公式

      (7)

      式中,φ表示評價矩陣,e表示類標(biāo)簽,W表示特征權(quán)值,W(δ)表示MML-RF算法運(yùn)行后特征子集權(quán)值和,Rδ(δ)表示冗余度標(biāo)準(zhǔn)化處理結(jié)果。

      將式(6)與式(7)相結(jié)合,生成最終特征判別公式

      (8)

      實(shí)際應(yīng)用過程中,得到評分排序處理后的特征子集,并獲取每個特征的權(quán)重向量值,經(jīng)過權(quán)重閾值選取符合權(quán)重要求的特征項(xiàng),獲取多標(biāo)簽數(shù)據(jù)特征的初步篩選。

      然后,通過序列的方式遍歷特征子集的每個特征項(xiàng),每遍歷一次,將集合中表現(xiàn)最差的特征項(xiàng)去除,并分析特征移除后特征子集的總體性能,所應(yīng)用的評估方法如式(7)所示。

      最后,為了數(shù)據(jù)挖掘算法的局部最優(yōu)化現(xiàn)象出來,在特征提取過程中添加容忍度概念,設(shè)置多標(biāo)簽數(shù)據(jù)挖掘算法的特征子集最低評分界限,確保多標(biāo)簽數(shù)據(jù)特征提取結(jié)果的合理性。

      2.3 設(shè)計屬性分類挖掘模式

      待挖掘的多標(biāo)簽數(shù)據(jù)樣本存在多維特點(diǎn),文中根據(jù)特征提取結(jié)果,設(shè)計屬性分類挖掘模式[10]。通過屬性分類法,得到最佳數(shù)據(jù)挖掘結(jié)果。屬性分類挖掘模式的應(yīng)用,需要基于數(shù)據(jù)特征類別和樣本容量,按照屬性分類理論計算出數(shù)據(jù)挖掘的最終類別。文中建立的屬性分類挖掘模式設(shè)計的原則是高類聚以及低耦合,數(shù)據(jù)挖掘的約束條件包括兩條,一條是最小類內(nèi)距離平方和,另一條則是最大類間距離平方和[11]。

      基于多標(biāo)簽數(shù)據(jù)的屬性進(jìn)行深入挖掘時,按照有序樣本的維數(shù),得到隨機(jī)選取樣本類型的類內(nèi)距離平方和計算公式

      (9)

      類平均向量計算公式為

      (10)

      式中,m表示數(shù)據(jù)樣本維數(shù)。根據(jù)樣本數(shù)量與樣本類別數(shù)量,樣本劃分結(jié)果表示為

      ?=(Mi1,Mi1+1,…,Mi2-1)+(Mi2,Mi2+1,…,Mi3-1)

      +…+(Mig,Mig+1,…,Mn)

      (11)

      式中,?表示待挖掘數(shù)據(jù)樣本集,g表示類別數(shù)量,n表示樣本向量數(shù)。

      當(dāng)樣本向量數(shù)的距離平方和相同時,該計算結(jié)果與類間與類內(nèi)距離平方和一致。當(dāng)平方和計算結(jié)果最小時,可以得到多標(biāo)簽數(shù)據(jù)最佳挖掘結(jié)果[12,13]。數(shù)據(jù)挖掘過程中,類內(nèi)距離平方和誤差函數(shù)計算公式為

      (12)

      式中,E表示平方和誤差。并有

      (13)

      最后,針對較分散的樣本數(shù)據(jù),為了提升數(shù)據(jù)挖掘效率,采用極差變換法生成式(14)所示的數(shù)據(jù)形式調(diào)整公式:

      (14)

      2.4 建立數(shù)據(jù)挖掘交互方案

      多標(biāo)簽數(shù)據(jù)按照屬性分類模式挖掘結(jié)束后,文中結(jié)合MVC模式建立挖掘結(jié)果交互界面,實(shí)時更新數(shù)據(jù)挖掘要求,保證輸出數(shù)據(jù)挖掘結(jié)果符合需求。MVC模式主要由控制器、模型和視圖三個軟件部分構(gòu)成[14]。其中,Model結(jié)構(gòu)是數(shù)據(jù)挖掘結(jié)果交互的主要環(huán)節(jié),實(shí)現(xiàn)數(shù)據(jù)挖掘結(jié)果的保存和調(diào)用??紤]到數(shù)據(jù)挖掘算法的實(shí)現(xiàn)是以數(shù)據(jù)為基礎(chǔ),交互界面地設(shè)計應(yīng)用View頁面視圖處理HTM文件,將算法運(yùn)行結(jié)果以各種形式直觀表現(xiàn)出來[15]。

      此外,文中對MVC模式稍作改進(jìn),添加了View Model結(jié)構(gòu),充當(dāng)數(shù)據(jù)對象轉(zhuǎn)化的中轉(zhuǎn)站,保證Model層內(nèi)的數(shù)據(jù)合理轉(zhuǎn)化,并與頁面視圖結(jié)構(gòu)相連接,進(jìn)行數(shù)據(jù)挖掘結(jié)果實(shí)時交互,改進(jìn)后的MVVM設(shè)計模式如圖3所示。

      圖3 MVVM設(shè)計模式

      根據(jù)圖3所示的設(shè)計模式,完成數(shù)據(jù)挖掘算法實(shí)現(xiàn)過程中前端、后端分離。其中,前端應(yīng)用Vue框架實(shí)現(xiàn),生成漸進(jìn)式數(shù)據(jù)驅(qū)動結(jié)構(gòu),將數(shù)據(jù)挖掘結(jié)果傳遞至圖表組件庫,建立直觀且生動的可視化圖表,保證用戶快速理解數(shù)據(jù)挖掘結(jié)果。

      而后端業(yè)務(wù)邏輯則應(yīng)用Django框架完成,通過Get和Post組件與前端顯示結(jié)果進(jìn)行交互。依托于強(qiáng)大的后臺數(shù)據(jù)庫功能,將文中所設(shè)計的數(shù)據(jù)挖掘算法部署到計算結(jié)內(nèi),便于后續(xù)應(yīng)用。并在后端接口連接一個Mongo DB分布式數(shù)據(jù)庫,在數(shù)據(jù)挖掘處理過程中發(fā)揮海量數(shù)據(jù)便捷獲取、有效存儲的性能,確保數(shù)據(jù)挖掘效率的提升。

      3 仿真研究

      為了驗(yàn)證文中設(shè)計算法的可行性,進(jìn)行仿真。本次仿真采用Windows操作系統(tǒng),應(yīng)用MATLAB仿真軟件設(shè)計仿真環(huán)境,明確文中設(shè)計數(shù)據(jù)挖掘算法的優(yōu)越性。

      3.1 實(shí)驗(yàn)參數(shù)和環(huán)境

      為保證實(shí)驗(yàn)的順利進(jìn)行,在仿真環(huán)境內(nèi),設(shè)置實(shí)驗(yàn)參數(shù)如表1所示。

      表1 實(shí)驗(yàn)參數(shù)

      利用上述試驗(yàn)參數(shù),展開后續(xù)多標(biāo)簽數(shù)據(jù)挖掘算法仿真測試。

      3.2 實(shí)驗(yàn)數(shù)據(jù)分布

      仿真所應(yīng)用的數(shù)據(jù)取自某通信企業(yè),匯總企業(yè)內(nèi)近六個月多標(biāo)簽樣本數(shù)據(jù),所采集的數(shù)據(jù)中包含2萬余條用戶通話數(shù)據(jù),以及20多萬條交互信息。數(shù)據(jù)采集后進(jìn)行數(shù)據(jù)清洗和標(biāo)準(zhǔn)化處理,將處理后的數(shù)據(jù)作為挖掘?qū)ο髮?dǎo)入MATLAB仿真環(huán)境中,獲取圖4所示的原始數(shù)據(jù)分布圖。

      圖4 實(shí)驗(yàn)數(shù)據(jù)分布圖

      根據(jù)圖4可知,原始數(shù)據(jù)中主要包含3類數(shù)據(jù)。針對上述實(shí)驗(yàn)數(shù)據(jù),應(yīng)用文中提出的基于SECI模型與屬性分類算法進(jìn)行數(shù)據(jù)挖掘,獲取仿真結(jié)果。

      3.3 實(shí)驗(yàn)結(jié)果分析

      MATLAB仿真環(huán)境中,應(yīng)用文中設(shè)計算法得出圖5所示的數(shù)據(jù)挖掘結(jié)果。

      圖5 數(shù)據(jù)挖掘結(jié)果

      根據(jù)圖5可知,文中設(shè)計算法應(yīng)用后,實(shí)現(xiàn)了多標(biāo)簽數(shù)據(jù)的精準(zhǔn)挖掘,將原始分布較為混亂的數(shù)據(jù),按照數(shù)據(jù)清晰地聚類,表明了所提出挖掘算法的有效性。

      為了更加直觀地呈現(xiàn)出仿真結(jié)果,同樣在MATLAB仿真環(huán)境中,針對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行挖掘處理。文中將實(shí)驗(yàn)判斷指標(biāo)選定為加速比,明確數(shù)據(jù)挖掘算法運(yùn)行過程中,隨著數(shù)據(jù)處理規(guī)模不斷增長算法處理能力變化。通過了解可知,數(shù)據(jù)挖掘算法的加速比越高,表明所提出挖掘算法的數(shù)據(jù)處理能力更強(qiáng)。在仿真環(huán)境中,多次運(yùn)行文中設(shè)計數(shù)據(jù)挖掘算法與其它三種算法,得到圖6所示的不同算法的加速比對比圖。

      圖6 不同算法的數(shù)據(jù)挖掘時間對比圖

      根據(jù)圖6所示的對比圖可知,傳統(tǒng)算法得到的仿真結(jié)果,與理想曲線具有較大偏差。挖掘時間完全偏離了理想曲線。綜上所述,處理相同的待挖掘數(shù)據(jù)量時,傳統(tǒng)算法所需要的時間遠(yuǎn)高于理想時間。文中提出的數(shù)據(jù)挖掘算法運(yùn)行時,雖然數(shù)據(jù)挖掘時間會隨著數(shù)據(jù)量增長而提升,但是,數(shù)據(jù)挖掘仿真結(jié)果極為接近理想曲線,表現(xiàn)出線性增長特點(diǎn)。

      數(shù)據(jù)挖掘算法的加速比計算公式為

      (15)

      式中,p表示待挖掘數(shù)據(jù)量,λ表示算法加速比,T表示數(shù)據(jù)挖掘所需時間。結(jié)合式(15)與圖6可知,文中設(shè)計算法受到SECI數(shù)據(jù)轉(zhuǎn)換模型與屬性分類挖掘模式的共同影響,有效提升了數(shù)據(jù)處理的加速比。

      4 結(jié)束語

      文中針對多標(biāo)簽數(shù)據(jù),建立SECI模型與屬性分類模式相結(jié)合的數(shù)據(jù)挖掘算法。根據(jù)轉(zhuǎn)化而來的隱性數(shù)據(jù)知識進(jìn)行特征提取,結(jié)合數(shù)據(jù)屬性分類模式達(dá)到挖掘的目的。針對文中設(shè)計的數(shù)據(jù)挖掘算法進(jìn)行仿真,驗(yàn)證結(jié)果顯示所提出挖掘算法應(yīng)用屬性分類挖掘模式,將多標(biāo)簽數(shù)據(jù)的本質(zhì)特征直觀體現(xiàn)出來,有效提升數(shù)據(jù)挖掘加速比。考慮到數(shù)據(jù)挖掘所涉及的學(xué)科和技術(shù)較多,面對不同的場景需要合理選定數(shù)據(jù)挖掘技術(shù)。文中設(shè)計的數(shù)據(jù)挖掘算法未來的改善方向,可以針對數(shù)據(jù)挖掘算法的通用性進(jìn)行研究。

      猜你喜歡
      隱性數(shù)據(jù)挖掘標(biāo)簽
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      隱性就業(yè)歧視的司法認(rèn)定
      反歧視評論(2019年0期)2019-12-09 08:52:40
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      標(biāo)簽化傷害了誰
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      芻議隱性采訪
      新聞傳播(2015年14期)2015-07-18 11:14:05
      新聞報道隱性失實(shí)的四種表現(xiàn)
      新聞傳播(2015年8期)2015-07-18 11:08:25
      基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
      宣武区| 丰顺县| 鄢陵县| 新巴尔虎左旗| 德保县| 乌拉特中旗| 丹寨县| 察隅县| 甘德县| 吴桥县| 苍南县| 都昌县| 济阳县| 蚌埠市| 蒲江县| 集安市| 大名县| 江北区| 合阳县| 青州市| 凉城县| 凤庆县| 渭南市| 高要市| 上栗县| 武义县| 灵寿县| 马关县| 甘泉县| 湛江市| 偃师市| 隆化县| 勃利县| 灵山县| 搜索| 高邮市| 沅陵县| 伊金霍洛旗| 昭通市| 乐陵市| 辉南县|