王艷然 楊鵬飛
摘要:為了降低由于數(shù)據(jù)特征差異引起的數(shù)據(jù)辨識分類結(jié)果精確度較低的問題,提出基于深度學(xué)習(xí)的多源數(shù)據(jù)自動分類算法設(shè)計(jì)。首先提取了不同數(shù)據(jù)域數(shù)據(jù)的特征,在最小化數(shù)據(jù)特征損失的基礎(chǔ)上,采用深度學(xué)習(xí)的方法,對多源數(shù)據(jù)的特征進(jìn)行分析,將分析結(jié)果作為數(shù)據(jù)分類的依據(jù),實(shí)現(xiàn)數(shù)據(jù)的高精度分類。通過試驗(yàn)對其進(jìn)行測試,結(jié)果表明,所提方法在不影響分類效率的前提下,分類精度可達(dá)到95%以上,具有良好的實(shí)際應(yīng)用價值。
關(guān)鍵詞:深度學(xué)習(xí);數(shù)據(jù)特征;多源數(shù)據(jù);自動分類
中圖分類號:TP399 ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)05-0020-02
隨著大數(shù)據(jù)在各行各業(yè)的廣泛滲透,其種類和形式也越來越多樣化,因此,對于多源數(shù)據(jù)的分類成為現(xiàn)階段計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn)[1]。通常情況下,多源數(shù)據(jù)具有內(nèi)容要素種類差異性較大、數(shù)據(jù)來源廣泛的特點(diǎn)[2]。因此,對其進(jìn)行分類時,主要是要對數(shù)據(jù)之間的內(nèi)在關(guān)系進(jìn)行準(zhǔn)確識別。以此作為數(shù)據(jù)分類的基礎(chǔ)[3]。但是,由于多源數(shù)據(jù)包含的數(shù)據(jù)內(nèi)容及結(jié)構(gòu)更加多樣化,其特征差異也較大,因此,在對其進(jìn)行分類時,難度也明顯高于一般的數(shù)據(jù)。對于此,已有學(xué)作出者做出了相關(guān)研究。其中,文獻(xiàn)[4]提出一種基于ReLU稀疏性特征的數(shù)據(jù)分類方法,實(shí)現(xiàn)了數(shù)據(jù)分類的準(zhǔn)確度,但分類的精度較低,分類的粒度較大;文獻(xiàn)[5]提出一種基于數(shù)據(jù)信息融合的分類方法,有效提高了分類的效果,但其在進(jìn)行分類的前期需要大量的融合計(jì)算,便捷程度有待提升。在不斷探索與研究過程中,人們逐漸發(fā)現(xiàn)了深度學(xué)習(xí)算法在數(shù)據(jù)分類中的獨(dú)特優(yōu)勢,深度學(xué)習(xí)是以數(shù)據(jù)的特點(diǎn)為基礎(chǔ),對數(shù)據(jù)進(jìn)行分類[6],因此,可以減少分類過程中的大量冗余計(jì)算,提高分類結(jié)果的可靠性[7]。
基于此,本文提出基于深度學(xué)習(xí)的多源數(shù)據(jù)自動分類算法設(shè)計(jì)。并通過試驗(yàn)對其有效性進(jìn)行驗(yàn)證。通過該研究,以期為數(shù)據(jù)分類方面的研究提供有價值的參考,提高數(shù)據(jù)的利用效率。
1基于深度學(xué)習(xí)的多源數(shù)據(jù)分類
1.1多源數(shù)據(jù)特征提取
為了實(shí)現(xiàn)對數(shù)據(jù)的精準(zhǔn)分類,需要對數(shù)據(jù)的特征進(jìn)行準(zhǔn)確提取,通過對提取結(jié)果進(jìn)行深度學(xué)習(xí),實(shí)現(xiàn)對待分類數(shù)據(jù)的自動分類。本文建立了一種無監(jiān)督的特征提取方式,在樣本數(shù)據(jù)之間構(gòu)建非線性函數(shù)關(guān)系,使其擺脫多源數(shù)據(jù)本身存在標(biāo)簽對樣本的限定。
首先,假設(shè)Xi和Yi分別表示來自不同數(shù)據(jù)域的數(shù)據(jù)信息,其中Xi表示位置數(shù)據(jù),Yi表示內(nèi)容數(shù)據(jù),通過建立對二者之間存在的內(nèi)在關(guān)聯(lián)進(jìn)行挖掘,構(gòu)建數(shù)據(jù)特征的跨區(qū)域轉(zhuǎn)換。由于Xi和Yi是同一數(shù)據(jù)表信息的不同數(shù)據(jù)源表征,因此,其對應(yīng)關(guān)系也不局限于單一的數(shù)據(jù)域內(nèi),以數(shù)據(jù)元為單位的基本單元中也存在表征層面的相關(guān)性。因此,本文在對多源數(shù)據(jù)進(jìn)行特征識別時,以數(shù)據(jù)元為基礎(chǔ),對其內(nèi)在關(guān)聯(lián)進(jìn)行分析。得到Xi和Yi之間的跨區(qū)域轉(zhuǎn)換過程為:
[Ha,b(Xi)≈Yi] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
其中,[a]表示數(shù)據(jù)攜帶信息的權(quán)重,[b]表示數(shù)據(jù)的偏置參數(shù)。[Yi]作為數(shù)據(jù)域內(nèi)數(shù)據(jù)特征的樣本,其中包含反向運(yùn)算過程,其也是實(shí)現(xiàn)對多源數(shù)據(jù)間隱藏關(guān)聯(lián)優(yōu)化的唯一標(biāo)準(zhǔn)。根據(jù)式(1)轉(zhuǎn)化后的數(shù)據(jù),對其進(jìn)行特征提取,其可表示為:
[ω=λHa,b(Xi)n] ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
其中, [ω]表示最終得出數(shù)據(jù)特征參量,[λ]表示多源數(shù)據(jù)間的關(guān)聯(lián)強(qiáng)度,[n]表示數(shù)據(jù)的來源總數(shù)。
將得到的特征結(jié)果作為深度學(xué)習(xí)的內(nèi)容,實(shí)現(xiàn)對多源數(shù)據(jù)內(nèi)在關(guān)系的深入分析,為數(shù)據(jù)分類提供依據(jù)。
1.2基于深度學(xué)習(xí)的數(shù)據(jù)特征分析
在上述基礎(chǔ)上,得到不同數(shù)據(jù)域數(shù)據(jù)的特征,為了使數(shù)據(jù)分類結(jié)果具有更高的可靠性,本文采用深度學(xué)習(xí)的方式對特征進(jìn)行分析,根據(jù)分析結(jié)果,對待分類數(shù)據(jù)進(jìn)行自動分類處理。
首先,對多源數(shù)據(jù)間的關(guān)聯(lián)最小損失進(jìn)行計(jì)算。在關(guān)聯(lián)損失中,共包含兩部分,分別為數(shù)據(jù)特征損失以及數(shù)據(jù)結(jié)構(gòu)損失,因此設(shè)計(jì)損失目標(biāo)函數(shù)為:
[P=Pmin=i=1nωin+i=1n(Xi+Yi)n] ? ? ? ? ? ? (3)
其中,Pmin表示最小損失,當(dāng)P=Pmin時,表明數(shù)據(jù)特征的損失最小。通過對損失進(jìn)行約束,避免由于數(shù)據(jù)關(guān)聯(lián)引起數(shù)據(jù)特征的丟失,提高深度學(xué)習(xí)結(jié)果的可靠性,確保數(shù)據(jù)分類的完整性。
以此為基礎(chǔ),對多源數(shù)據(jù)特征進(jìn)行深度學(xué)習(xí),其可表示為:
[Tω=i=1nωinXi-Yi] ? ? ? ? ? ? ? ? ? ? ? (4)
[Ts=i=1n(Xi+Yi)nSIMMXi-Yi] ? ? ? ? ? (5)
其中,[Tω]表示深度學(xué)習(xí)得到的多源數(shù)據(jù)間的內(nèi)容特征, [Ts]表示多源數(shù)據(jù)間的結(jié)構(gòu)特征,[SIMM(*)]表示不同數(shù)據(jù)域數(shù)據(jù)的結(jié)構(gòu)相似性。二者也是對多源數(shù)據(jù)進(jìn)行自動分類時,判斷區(qū)所在類別的依據(jù)。
1.3多源數(shù)據(jù)自動分類
根據(jù)深度學(xué)習(xí)的結(jié)果,分別從數(shù)據(jù)內(nèi)容特征及結(jié)構(gòu)特征兩個方面實(shí)現(xiàn)對多源數(shù)據(jù)的自動分類。通過尋找到與其特征差異最小的數(shù)據(jù)類別,判斷其對應(yīng)的分類結(jié)果,也就是計(jì)算待分類數(shù)據(jù)在上文的學(xué)習(xí)結(jié)果中的最優(yōu)映射。
假設(shè)待分類數(shù)據(jù)c∈Rn,其中Rn表示其所在數(shù)據(jù)域范圍,則首先要根據(jù)其攜帶的數(shù)據(jù)信息的權(quán)重以及偏置變量對其特征進(jìn)行計(jì)算,其可表示為
[ωc=f(ac+b)] ? ? ? ? ? ? ? ? ? ? ? ? (6)
[Sc=RnnSIMMc] ? ? ? ? ? ? ? ? ? ? (7)
其中,f表示激活函數(shù)。[ωc]和[Sc]分別表示其內(nèi)容特征和結(jié)構(gòu)特征。通過式(6)和式(7)得到待分類數(shù)據(jù)的特征,將其與深度學(xué)習(xí)結(jié)果進(jìn)行映射尋優(yōu),其可表示為:
[sim(ωc,Tω)=(ωc+Tω)ωc?Tωsim(Sc,Ts)=(Sc+Ts)Sc?Ts] ? ? ? ? ? ? ? ? ? ? ? ?(8)
當(dāng)sim(ωc,Tω)為最大值,且sim(Sc,Ts)也為最大值時,則認(rèn)為該數(shù)據(jù)的分類結(jié)果與Tω所在的類別一致,以此實(shí)現(xiàn)對其的自動分類。
2試驗(yàn)測試
為了測試本文設(shè)計(jì)算法的實(shí)際應(yīng)用效果,進(jìn)行了試驗(yàn)測試。同時,為了確保測試結(jié)果具有更高的可靠性,分別采用文獻(xiàn)[4]和文獻(xiàn)[5]提出的分類方法同樣多試驗(yàn)數(shù)據(jù)進(jìn)行分類處理。通過對比三種方法的分類結(jié)果,對本文設(shè)計(jì)算法的有效性進(jìn)行分析。
2.1測試環(huán)境
試驗(yàn)采用的數(shù)據(jù)為Houston遙感數(shù)據(jù),包含了一組某區(qū)域的全覆蓋機(jī)載高光譜圖像,以及對應(yīng)的激光雷達(dá)數(shù)據(jù)。其中,具體的參數(shù)如表1所示。
在數(shù)據(jù)集中,共標(biāo)定10類常見地表建筑物,對應(yīng)編號為1~10,其中每種地表建筑物的訓(xùn)練樣本與測試樣本的數(shù)目比為1:6。在此基礎(chǔ)上,分別采用三種方法對其進(jìn)行分類。
2.2測試結(jié)果
在上述試驗(yàn)環(huán)境下,分別采用三種分類方法對試驗(yàn)數(shù)據(jù)進(jìn)行分類處理,并對比了三種分類方法的分類結(jié)果,其結(jié)果如表2所示。
從表2中可以看出,三種分類方法的分類精度都可達(dá)到90%以上,其中文獻(xiàn)[4]方法的分類精度基本穩(wěn)定在92%~94%之間,文獻(xiàn)[5]方法的分類精度基本穩(wěn)定在93%~95%之間,而本文分類方法的分類精度始終在95%以上,且最高值可達(dá)97%,明顯優(yōu)于另外兩種方法,表明其具有良好的分類效果。這主要是因?yàn)楸疚膶?shù)據(jù)進(jìn)行分類前,首先對其特征進(jìn)行分析,并在損失最小約束的條件下,對其進(jìn)行深度學(xué)習(xí),提高了學(xué)習(xí)結(jié)果的完整性,以此實(shí)現(xiàn)對多源數(shù)據(jù)的分類處理,提高了分類結(jié)果的可靠性。
在此基礎(chǔ)上,為了驗(yàn)證本文設(shè)計(jì)方法的分類效率,對比了三種方法完成數(shù)據(jù)分類的耗時情況,其結(jié)果如圖1所示。
從圖1中可以看出,在三種分類方法中,文獻(xiàn)[5]分類方法的耗時相對較長,這與其前期的融合計(jì)算過程直接相關(guān),本文方法與文獻(xiàn)[4]方法的耗時基本一致,并未出現(xiàn)增加分類時間的情況,這表明本文方法在提高分類精度的同時,并未對分類效率造成負(fù)面影響,具有實(shí)際應(yīng)用價值,可實(shí)現(xiàn)在不影響分類效率的條件下,提高分類效果的目的。
3 結(jié)束語
在互聯(lián)網(wǎng)時代背景下,數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長的趨勢,數(shù)據(jù)的多樣性也顯著增加,在此背景下,對數(shù)據(jù)進(jìn)行準(zhǔn)確分類成
了提高數(shù)據(jù)利用效率的關(guān)鍵環(huán)節(jié)。本文提出基于深度學(xué)習(xí)的多源數(shù)據(jù)自動分類算法設(shè)計(jì),在不增加計(jì)算耗時的基礎(chǔ)上,實(shí)現(xiàn)了對多源數(shù)據(jù)的高精度分類,為數(shù)據(jù)分類研究提供了有價值的參考。在后的研究中,可以在現(xiàn)有研究內(nèi)容的基礎(chǔ)上,加強(qiáng)在數(shù)據(jù)分類過程中的效率研究,降低數(shù)據(jù)分類的耗時,以滿足更大規(guī)模數(shù)據(jù)的分類需求。
參考文獻(xiàn):
[1] 張曉丹.改進(jìn)的圖神經(jīng)網(wǎng)絡(luò)文本分類模型應(yīng)用研究——以NSTL科技期刊文獻(xiàn)分類為例[J].情報(bào)雜志,2021,40(1):184-188.
[2] 王曉紅,諶鵬,劉芳,等.基于集成學(xué)習(xí)的強(qiáng)魯棒性三維點(diǎn)云數(shù)據(jù)分類研究[J].包裝工程,2021,42(3):252-258.
[3] 任磊,劉國慶,王麗華,等.一種新型高效的移動端深度學(xué)習(xí)圖像分類系統(tǒng)[J].物聯(lián)網(wǎng)技術(shù),2021,11(5):58-63.
[4] 趙馨宇,黃福珍,周晨旭.基于ReLU稀疏性的MAXOUT卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類算法[J].上海電力大學(xué)學(xué)報(bào),2020,36(3):280-284.
[5] 王宏濤,雷相達(dá),趙宗澤.融合光譜信息的機(jī)載LiDAR點(diǎn)云三維深度學(xué)習(xí)分類方法[J].激光與光電子學(xué)進(jìn)展,2020,57(12):348-355.
[6] 陳俊夫,皮德常,張強(qiáng).一種基于遷移學(xué)習(xí)的遙測數(shù)據(jù)異常檢測方法[J].宇航學(xué)報(bào),2021,42(4):522-530.
[7] 師蕓,馬東暉,呂杰,等.基于流形光譜降維和深度學(xué)習(xí)的高光譜影像分類[J].農(nóng)業(yè)工程學(xué)報(bào),2020,36(6):151-160,323.
[8] 李曉峰,王妍瑋,李東.基于層次化深度學(xué)習(xí)的醫(yī)療數(shù)據(jù)庫離群數(shù)據(jù)檢測算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2020,29(3):180-186.
[通聯(lián)編輯:唐一東]
收稿日期:2021-10-15
作者簡介:王艷然(1991—),女,河南鄭州人,助教,碩士,研究方向?yàn)橹悄苄畔⑻幚?楊鵬飛(1992—),男,河南新鄉(xiāng)人,助教,碩士,研究方向?yàn)樘摂M現(xiàn)實(shí)、人工智能。