雷宇
(長江職業(yè)學(xué)院數(shù)據(jù)信息學(xué)院,湖北 武漢 430074)
在網(wǎng)絡(luò)技術(shù)應(yīng)用愈發(fā)廣泛的社會背景下,相關(guān)大數(shù)據(jù)技術(shù)的研究已成為了社會中的焦點(diǎn)問題,如何有效處理大規(guī)模數(shù)據(jù)量已成為技術(shù)產(chǎn)業(yè)的研究重點(diǎn)。尤其在現(xiàn)代化社會背景下,商業(yè)技術(shù)、生產(chǎn)技術(shù)、經(jīng)營技術(shù)不斷更新,導(dǎo)致社會中可用的數(shù)據(jù)量顯著性提升。面對海量增長的數(shù)據(jù)集合,若不及時采用有效的處理方式,不僅會使數(shù)據(jù)存儲出現(xiàn)負(fù)荷危險(xiǎn),甚至?xí)谝欢ǔ潭壬显斐蓪?shù)據(jù)使用的低效率性[1]。為此,本文引進(jìn)分布式KNN分類器,使用k-近鄰算法,設(shè)計(jì)一種大數(shù)據(jù)分類處理方法,確保對價(jià)值數(shù)據(jù)集合的有效聚類。
在設(shè)計(jì)大數(shù)據(jù)分類處理方法的過程中,引進(jìn)分布式KNN分類器,對大數(shù)據(jù)回歸任務(wù)進(jìn)行聚類處理。在此過程中,可借鑒分類器運(yùn)行中的KNN算法,將其定義為一種非參數(shù)計(jì)算方法[2]。假定參與訓(xùn)練的大數(shù)據(jù)樣本集合表示為Ds,參與測試的大數(shù)據(jù)樣本集合表示為Ts,每個樣本集合中的數(shù)據(jù)量均表示為n,樣本數(shù)表示為t。此時,可認(rèn)為集合中的每一個數(shù)據(jù)樣本均為一個多元特征的數(shù)據(jù)組[3]。表達(dá)公式如下。
公式(1)中:p表示為樣本對應(yīng)屬性;ω表示為樣本數(shù)據(jù)所屬類別。假定數(shù)據(jù)樣本的對應(yīng)空間表示為D,則對于訓(xùn)練大數(shù)據(jù)樣本集合Ds而言,Ds的ω屬于一個已知項(xiàng);Ts的ω屬于一個未知項(xiàng)。
此時,使用KNN算法對未知項(xiàng)進(jìn)行檢索,以歐幾里德距離作為度量的標(biāo)準(zhǔn),選擇K個升序樣本值,對大數(shù)據(jù)樣本集合進(jìn)行聚類處理。處理過程中,設(shè)定樣本集合的復(fù)雜度表示為n×D,每個樣本均存在k個近鄰點(diǎn),結(jié)合近鄰點(diǎn)的數(shù)量,對距離進(jìn)行計(jì)算,并將最終的計(jì)算結(jié)果作為大數(shù)據(jù)樣本聚類的結(jié)果[4]。此過程可用如下計(jì)算公式表示。
公式(2)中:hloss(h)表示為大數(shù)據(jù)樣本聚類結(jié)果(/距離計(jì)算結(jié)果);xi表示為漢明損失量i;Y表示為升序樣本值;q表示為樣本標(biāo)簽長度;h表示為歐幾里德距離度量單位,導(dǎo)出計(jì)算結(jié)果,完成對于分布式KNN分類器的大數(shù)據(jù)回歸任務(wù)聚類處理。
在完成上述相關(guān)處理的基礎(chǔ)上,結(jié)合MR框架,對大數(shù)據(jù)樣本集合進(jìn)行分類處理。流程如下圖1所示。
圖1 整合MR框架的大數(shù)據(jù)分類處理流程
按照上述圖1所示的流程,在進(jìn)行大數(shù)據(jù)分類處理的過程中,可定義一個value處理鍵,將待分類的樣本數(shù)據(jù)進(jìn)行Map映射處理,完成映射處理后的數(shù)據(jù)樣本集合通??勺鳛橹苯訕颖緮?shù)據(jù),即存在任意一個處理分區(qū),可實(shí)現(xiàn)對任意鍵進(jìn)行關(guān)聯(lián)分類處理。而提出的Map映射鍵通常需要應(yīng)用在一個指定中間key上,即與value處理鍵進(jìn)行配對,當(dāng)匹配結(jié)果存在顯示存在關(guān)聯(lián)性,即可認(rèn)為鍵位具備對應(yīng)分類特征,便可直接將此鍵位與value處理鍵連接,完成配對。當(dāng)匹配結(jié)果存在顯示不存在關(guān)聯(lián)性時,即可認(rèn)為鍵位不具備對應(yīng)分類特征,需要對大數(shù)據(jù)樣本集合進(jìn)行持續(xù)篩選,只有篩選結(jié)果滿足Map映射關(guān)系時,或映射鍵通常位于指定中間key上時,即可認(rèn)為樣本數(shù)據(jù)集合與其具備一定的直接關(guān)聯(lián),此時便可執(zhí)行對樣本的分類處理。綜合上述分析,完成對大數(shù)據(jù)分類處理方法的設(shè)計(jì)。
在完成上述對基于分布式KNN分類器的大數(shù)據(jù)分類處理方法設(shè)計(jì)后,本文提出下述對比實(shí)驗(yàn),希望通過設(shè)計(jì)對比實(shí)驗(yàn)的方式,證明本文設(shè)計(jì)方法的有效性。在本文設(shè)計(jì)的此次實(shí)驗(yàn)中,選擇Higuust;Guiggi;Caggerts;A-hugs;B-reasts五個大數(shù)據(jù)集合作為此次實(shí)驗(yàn)的數(shù)據(jù)樣本。上述提出的數(shù)據(jù)集合中不僅涉及了大量的實(shí)例性內(nèi)容,同時也涵蓋了大量對集合的描述性數(shù)據(jù)內(nèi)容。對提出的大數(shù)據(jù)集合進(jìn)行描述。
上述提出的大數(shù)據(jù)樣本集合U型均符合交叉對比實(shí)驗(yàn)需求,隨機(jī)選擇樣本數(shù)據(jù)集合中的85.0%的數(shù)據(jù)信息作為實(shí)驗(yàn)數(shù)據(jù)(/訓(xùn)練樣本),剩余數(shù)據(jù)樣本則作為對測試數(shù)據(jù)。本次實(shí)驗(yàn)在互聯(lián)網(wǎng)支撐下進(jìn)行,設(shè)定主分類節(jié)點(diǎn)上包括5個信息節(jié)點(diǎn),即每組數(shù)據(jù)均可被劃分為5類,信息節(jié)點(diǎn)采用Ei2.0-2560處理器進(jìn)行處理。除上述提出的實(shí)驗(yàn)要求,與實(shí)驗(yàn)環(huán)境相關(guān)的參數(shù)可用如下表1表示。
表1 實(shí)驗(yàn)環(huán)境布設(shè)
在完成對實(shí)驗(yàn)環(huán)境的布設(shè)后,分別采用本文設(shè)計(jì)的基于分布式KNN分類器的大數(shù)據(jù)分類處理方法與傳統(tǒng)分類處理方法,對測試樣本集合進(jìn)行分類處理。將漢明指數(shù)、加速比值、分類時間等多項(xiàng)參數(shù)作為評估方法的依據(jù),執(zhí)行對比實(shí)驗(yàn)。結(jié)果如下表2所示,實(shí)驗(yàn)結(jié)果以本文方法/傳統(tǒng)方法表示。
表2中,F(xiàn)表示為方法應(yīng)用價(jià)值,如上述表3所示的實(shí)驗(yàn)結(jié)果,看出本文大數(shù)據(jù)分類處理方法,在實(shí)際應(yīng)用中,無論是在處理中的漢明損失,或是分類處理時長、加速比值等方面,其優(yōu)勢顯著高于傳統(tǒng)方法。為此,得出本文此次對比實(shí)驗(yàn)的結(jié)果:本文設(shè)計(jì)的大數(shù)據(jù)分類處理方法,具有更高的處理效率、更低的數(shù)據(jù)損失率,相比傳統(tǒng)的方法,本文方法更優(yōu)[5]。
表2 對比實(shí)驗(yàn)結(jié)果
本文使用分布式KNN分類器,利用KNN算法,從聚類大數(shù)據(jù)回歸任務(wù)、整合MR框架的大數(shù)據(jù)分類處理流程兩個方面,完成對大數(shù)據(jù)分類處理方法的設(shè)計(jì)。并通過對比實(shí)驗(yàn)得出最終結(jié)論:相比傳統(tǒng)的大數(shù)據(jù)分類處理方法,本文設(shè)計(jì)的大數(shù)據(jù)分類處理方法,具有更高的處理效率、更低的數(shù)據(jù)損失率,整體應(yīng)用價(jià)值相對較高。