王天皓
(宜昌市大數(shù)據(jù)中心 湖北省宜昌市 443000)
隨著互聯(lián)網(wǎng)時代的飛速發(fā)展,我國逐漸進(jìn)入信息化、數(shù)據(jù)化的時代,人們可以在海量的數(shù)據(jù)信息中精準(zhǔn)地找到自己所需要的內(nèi)容。近年來,大數(shù)據(jù)的興起,使人們搜尋信息更加容易,大數(shù)據(jù)可以將人們的需求瞬間得到,進(jìn)而提高搜索效率[1]。比如,在學(xué)習(xí)過程中,有一些詞語不懂,打開搜索界面,就能看見想要搜索的詞語,提高檢索效率[2]。但是隨著大數(shù)據(jù)的產(chǎn)生速度加快,大數(shù)據(jù)的處理方法逐漸跟不上大數(shù)據(jù)的產(chǎn)生腳步,出現(xiàn)了數(shù)據(jù)處理效果變差、數(shù)據(jù)處理時間滯后的現(xiàn)象。因此,本文設(shè)計(jì)了基于改進(jìn)模糊K-means算法的大數(shù)據(jù)處理方法。首先采集大數(shù)據(jù),得出大數(shù)據(jù)的處理現(xiàn)狀;其次制定改建算法的相關(guān)流程,得出改進(jìn)算法的相似度量;進(jìn)而計(jì)算大數(shù)據(jù)處理方法的相似度,消除精準(zhǔn)度誤差?;谝陨戏椒ㄔO(shè)計(jì),旨在提高大數(shù)據(jù)處理效果,為互聯(lián)網(wǎng)事業(yè)作出貢獻(xiàn)。
改進(jìn)模糊K-means算法是一種數(shù)據(jù)聚類處理算法,可以通過數(shù)據(jù)采集、計(jì)算等步驟得出大數(shù)據(jù)的相似度,從而消除MAE的誤差。大數(shù)據(jù)處理步驟如圖1所示。
圖1:大數(shù)據(jù)處理流程
近年來,社交數(shù)據(jù)信息快速發(fā)展,各種業(yè)務(wù)都在使用大數(shù)據(jù),隨著大數(shù)據(jù)的興起,各個領(lǐng)域的搜索范圍、規(guī)模、速度都有非常顯著地提升[3]。因此大數(shù)據(jù)的處理方法亟待改進(jìn),本文設(shè)計(jì)的大數(shù)據(jù)處理方法,以建立大數(shù)據(jù)采集模塊為基礎(chǔ),涵蓋了社會生活和生產(chǎn)的許多領(lǐng)域,包括支付信息、商業(yè)信息、交流記錄等。與傳統(tǒng)的處理方法不同,本文設(shè)計(jì)的大數(shù)據(jù)采集模塊,處理數(shù)據(jù)這種信息資源時,需要經(jīng)過采集、分析、提煉等操作,最終生成對人們有用的數(shù)據(jù)信息。此外,數(shù)據(jù)采集的過程是通過大數(shù)據(jù),從海量信息資源中發(fā)現(xiàn)規(guī)律,并進(jìn)行分析,將有價值的信息,透過人們的需求展現(xiàn)出來[4]。
傳統(tǒng)大數(shù)據(jù)處理方法中,大數(shù)據(jù)采集模塊是對采集到的數(shù)據(jù)進(jìn)行分析、整合,繼而得出相應(yīng)數(shù)據(jù)信息,但是在處理過程缺乏明確的目標(biāo),進(jìn)而導(dǎo)致大數(shù)據(jù)處理效果不佳[5]。本文摒棄以上缺點(diǎn),從大量不完整、模糊和隨機(jī)的數(shù)據(jù)信息中識別出有效信息,并根據(jù)這些信息作出決策。本文設(shè)計(jì)的數(shù)據(jù)采集過程包括:確定采集的目標(biāo)、準(zhǔn)備數(shù)據(jù)采集、采集數(shù)據(jù)、分析結(jié)果等四個步驟,以上步驟都是為了處理大數(shù)據(jù)而執(zhí)行的。本文通過對采集到的數(shù)據(jù)進(jìn)行分析,可以有效地減少資源浪費(fèi),大大提高大數(shù)據(jù)處理的質(zhì)量和效率。
大數(shù)據(jù)處理方法除了上文中建立的大數(shù)據(jù)采集模塊以外,本文將設(shè)計(jì)改進(jìn)模糊K_means算法的流程。本文在改進(jìn)算法過程中,對原算法進(jìn)行估計(jì),得出處理大數(shù)據(jù)的連續(xù)輸出效率。為了提高大數(shù)據(jù)處理效率,將原算法中結(jié)果數(shù)量不確定的因素拋棄,利用分類技術(shù)代表大數(shù)據(jù)的輸出結(jié)果,使大數(shù)據(jù)處理結(jié)果更加清晰[6]。此外,在改進(jìn)算法中,評價技術(shù)可以說是分類技術(shù)的前期工作。首先利用評價技術(shù)得到連續(xù)未知量的數(shù)值,然后利用分類技術(shù)對結(jié)果進(jìn)行處理[7]。通過對分類技術(shù)或評價技術(shù)進(jìn)行模擬,并應(yīng)用于大數(shù)據(jù)的處理,在分類技術(shù)中,包括了預(yù)測功能,使其可以預(yù)測不同類型的信息資源。利用關(guān)聯(lián)規(guī)則,將大數(shù)據(jù)采集中的各個相互關(guān)聯(lián)的詞語作出整合,有助于人們同時識別。K-means算法不適用于不連續(xù)的大數(shù)據(jù),處理效果不佳,本文將改進(jìn)此項(xiàng)缺陷,使其適用于任何大數(shù)據(jù)的處理場景。另外,K-means算法的缺點(diǎn)還包括計(jì)算過程依賴初始化設(shè)定,且對噪聲點(diǎn)過于敏感,用于大數(shù)據(jù)處理用于出現(xiàn)干擾,因此,使用改進(jìn)后的K-means算法進(jìn)行大數(shù)據(jù)處理更加理想。
如圖2所示,為改進(jìn)模糊K-means算法流程圖。
圖2:改進(jìn)模糊K-means算法流程圖
如圖2所示,使用K-means算法大數(shù)據(jù)是隨機(jī)生成的,處理起來較為繁瑣,并且現(xiàn)如今,使用大數(shù)據(jù)的一般為年輕人,數(shù)據(jù)流量較大,所以本文利用模糊密度的技術(shù),改進(jìn)K-means算法。改進(jìn)后的K-means算法可以實(shí)現(xiàn)大數(shù)據(jù)集的處理,伸縮性較強(qiáng),且處理效率較高,其理論依據(jù)為,密度越高,數(shù)據(jù)處理效果越好,進(jìn)而得出大數(shù)據(jù)處理的最優(yōu)結(jié)果。因此,本文改進(jìn)的模糊K-means算法有兩個步驟,其一,計(jì)算兩個大數(shù)據(jù)間的密度,公式如下:
其二,根據(jù)密度公式,強(qiáng)化模糊系數(shù),公式如下:
式(2)中,D(xi)為大數(shù)據(jù)周圍密度,當(dāng)周圍密度較小時,則表示為大數(shù)據(jù)處理相似;M、N、u均為改進(jìn)算法的模糊系數(shù)。基于此項(xiàng)流程,得到改進(jìn)K-means模糊算法。
根據(jù)上文中,得到的改進(jìn)K-means模糊算法,本文件計(jì)算大數(shù)據(jù)處理方法的相似度。本文中計(jì)算相似度基于改進(jìn)算法的基礎(chǔ),利用過濾算法進(jìn)行計(jì)算。過濾算法是將相似的大數(shù)據(jù),通過過濾協(xié)同達(dá)成用戶的需求,將相近的詞語或指標(biāo)作為MAE值展現(xiàn),利用MAE值得出用戶的目標(biāo)需求[8]。傳統(tǒng)算法在計(jì)算大數(shù)據(jù)相似度方面存在不足,產(chǎn)生這些不足的主要原因是,相似度計(jì)算不準(zhǔn)確,MAE值相差較多。本文提出了一種基于灰色鄰近相關(guān)分析模型,此模型中,利用余弦相似性,根據(jù)空間夾角作為相似度的衡量標(biāo)準(zhǔn),夾角越小,相似性越大,大數(shù)據(jù)內(nèi)容就值得推薦。以數(shù)據(jù)A、B為例,公式如下:
式(3)中,sin(A,B)為大數(shù)據(jù)A與大數(shù)據(jù)S之間的夾角;cos(MA,MB)為sin(A,B)的對應(yīng)cos值;k、m、n均為相似度系數(shù),為數(shù)據(jù)A的MAE值;為數(shù)據(jù)B的MAE值。從以上得出的數(shù)據(jù)相似度計(jì)算過程,使用數(shù)據(jù)之間的相似度量來衡量數(shù)據(jù)的相似性,充分利用了用戶對數(shù)據(jù)的歷史搜索功能,對用戶的數(shù)據(jù)信息分類有很好的效果,讓用戶可以更準(zhǔn)確地找到目標(biāo)需求。同時,每個用戶的歷史信息均可以為其他用戶提供有效的信息,形成一個良性循環(huán)。保證大數(shù)據(jù)的處理質(zhì)量。鑒于已知數(shù)據(jù)集明確了分類,原始數(shù)據(jù)集將進(jìn)一步遵循灰色理論,從而實(shí)現(xiàn)大數(shù)據(jù)的更優(yōu)處理,本文將利用閾值對大數(shù)據(jù)進(jìn)行分類。當(dāng)已知的分類情況和閾值不同時,可以對改進(jìn)算法得到的結(jié)果進(jìn)行比較研究,消除基本誤差,明確特定閾值下可獲得的最高準(zhǔn)確率。
本文利用仿真實(shí)驗(yàn),利用改進(jìn)模糊K_means算法的MAE值進(jìn)行計(jì)算,并將改進(jìn)模糊K_means算法與傳統(tǒng)算法下的大數(shù)據(jù)處理方法作對比,驗(yàn)證本文設(shè)計(jì)的大數(shù)據(jù)處理方法的有效性。
本次實(shí)驗(yàn)采用精度度量方法,計(jì)算MAE值,當(dāng)?shù)贸龅腗AE值與實(shí)際值偏離程度越小,算法的精準(zhǔn)度就越高,也就是說大數(shù)據(jù)處理方法的處理效果越好。MAE計(jì)算公式如下:
式(4)中,MAE為偏離差值,S為大數(shù)據(jù)處理項(xiàng)目總數(shù),利用此公式,計(jì)算兩種處理方法的MAE值,驗(yàn)證本文設(shè)計(jì)的處理方法精準(zhǔn)度情況。
實(shí)驗(yàn)樣本數(shù)據(jù)為“臟數(shù)據(jù)”,第一,數(shù)據(jù)雜亂,數(shù)據(jù)來源于不同的應(yīng)用程序或系統(tǒng)平臺,包含文件數(shù)據(jù)和數(shù)據(jù)庫等,沒有統(tǒng)一的數(shù)據(jù)格式和定義,結(jié)構(gòu)混亂;第二,數(shù)據(jù)重復(fù),以同一條件在不同系統(tǒng)提取數(shù)據(jù),所獲取的數(shù)據(jù)會有許多重復(fù)的現(xiàn)象,數(shù)據(jù)冗余嚴(yán)重;第三,數(shù)據(jù)不完整,數(shù)據(jù)有采集到提取極易出現(xiàn)數(shù)據(jù)丟失的現(xiàn)象,可能是由于數(shù)據(jù)格式不兼容或原始數(shù)據(jù)不全等原因造成的。使用“臟數(shù)據(jù)”進(jìn)行實(shí)驗(yàn),更能體現(xiàn)大數(shù)據(jù)處理方法的有效性,樣本數(shù)據(jù)類別如表1所示。
表1:樣本數(shù)據(jù)類別
隨機(jī)選取10組大數(shù)據(jù),利用傳統(tǒng)處理方法與本文設(shè)計(jì)的處理方法對比,結(jié)果如表2所示。
表2:兩種處理方法MAE值對比
如表2所示,10組大數(shù)據(jù)均為隨機(jī)選取,利用公式(4),計(jì)算得出傳統(tǒng)方法與本文設(shè)計(jì)方法的MAE值,表1中,傳統(tǒng)大數(shù)據(jù)處理方法的MAE值,與實(shí)際MAE值相差±0.000200,差值較大,處理的精準(zhǔn)度有隨之下降,因此大數(shù)據(jù)處理效果差;本文設(shè)計(jì)的大數(shù)據(jù)處理方法的MAE值,與實(shí)際MAE值差額僅在±0.000001,甚至在04組大數(shù)據(jù)中,差值為0,整體差值較小,處理大數(shù)據(jù)的精準(zhǔn)度較高,因此大數(shù)據(jù)處理效果更佳,符合本次實(shí)驗(yàn)?zāi)康摹?/p>
近年來,互聯(lián)網(wǎng)技術(shù)發(fā)展迅速,我國正處于信息化時代,大數(shù)據(jù)的興起令人們的搜索方式變得更加簡單,因此大數(shù)據(jù)的處理方法成為亟待改進(jìn)的問題。本文從建立大數(shù)據(jù)采集模塊、繪制改進(jìn)算法流程、計(jì)算大數(shù)據(jù)相似度等三方面,研究了基于改進(jìn)模糊K-means算法的大數(shù)據(jù)處理方法。保證大數(shù)據(jù)處理方法的精準(zhǔn)度,進(jìn)而提高大數(shù)據(jù)處理效果。