龔芳海 李文彪
摘 要:互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)已經(jīng)成為現(xiàn)代網(wǎng)絡(luò)社會的發(fā)展趨勢,大數(shù)據(jù)挖掘是數(shù)據(jù)處理的關(guān)鍵技術(shù)。因此,文章結(jié)合互聯(lián)網(wǎng),對大數(shù)據(jù)關(guān)鍵技術(shù)進(jìn)行分析,在分析互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代發(fā)展現(xiàn)狀的基礎(chǔ)上,分析了大數(shù)據(jù)挖掘關(guān)鍵技術(shù),包括數(shù)據(jù)采集、實(shí)時(shí)數(shù)據(jù)處理以及數(shù)據(jù)管理等基礎(chǔ),以期推動互聯(lián)網(wǎng)企業(yè)的高速發(fā)展。
關(guān)鍵詞:互聯(lián)網(wǎng);大數(shù)據(jù)挖掘;關(guān)鍵技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)逐漸影響人們的學(xué)習(xí)和生活,在互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代下,社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)相對較大[1]。通過大數(shù)據(jù)分析技術(shù),可以揭示數(shù)據(jù)與隱藏模式的相關(guān)性,繼而可以為企業(yè)的發(fā)展提供契機(jī),使其根據(jù)客戶的需求來提供針對性的體驗(yàn)服務(wù),在此基礎(chǔ)上,可以不斷提升企業(yè)的綜合競爭能力[2]。而客戶通過大數(shù)據(jù)挖掘技術(shù),可以享受更好的服務(wù)體系,便于增加體驗(yàn)感。因此,在互聯(lián)網(wǎng)環(huán)境下,對大數(shù)據(jù)挖掘關(guān)鍵技術(shù)進(jìn)行分析具有重要的意義。
1 大數(shù)據(jù)含義
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,大數(shù)據(jù)已經(jīng)逐漸影響人們的學(xué)習(xí)和生活,所謂大數(shù)據(jù),是指數(shù)據(jù)相對較為龐大,無法通過計(jì)算機(jī)軟件有效的獲取[3]。IBM曾經(jīng)提出大數(shù)據(jù)的4個(gè)特征:(1)數(shù)據(jù)量龐大,達(dá)到PB等級。(2)存在視頻、圖片以及日志等多樣化的文件形式。(3)具有較快的處理速度。(4)具有高質(zhì)量的數(shù)據(jù)。在大數(shù)據(jù)處理過程中,通過數(shù)據(jù)分析挖掘技術(shù),可以挖掘數(shù)據(jù)的價(jià)值。
2 互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的發(fā)展現(xiàn)狀
互聯(lián)網(wǎng)大數(shù)據(jù)是指用戶在使用終端的情況下產(chǎn)生的數(shù)據(jù)信息,其包括網(wǎng)絡(luò)協(xié)議以及流量等情況,網(wǎng)絡(luò)是由供應(yīng)商提供,同時(shí)其可以通過數(shù)據(jù)信息來獲取用戶的相關(guān)數(shù)據(jù)[4]。隨著互聯(lián)網(wǎng)事業(yè)的不斷發(fā)展,企業(yè)同樣獲取了較大的發(fā)展機(jī)遇,互聯(lián)網(wǎng)大數(shù)據(jù)可以為其發(fā)展提供基礎(chǔ)信息以及使用信息,通過對數(shù)據(jù)的掌握,了解網(wǎng)絡(luò)的運(yùn)行狀況,并且可以加強(qiáng)用戶的體驗(yàn)。大數(shù)據(jù)分析是對網(wǎng)絡(luò)的服務(wù)管理,可以分析用戶體驗(yàn)的相關(guān)信息。
3 大數(shù)據(jù)挖掘關(guān)鍵技術(shù)
3.1 大數(shù)據(jù)采集
大數(shù)據(jù)采集技術(shù)通常劃分為基礎(chǔ)支撐層以及大智能感知層。智能感知層主要負(fù)責(zé)對數(shù)據(jù)的識別、傳輸以及感知等基礎(chǔ)[5]。基礎(chǔ)支撐層則負(fù)責(zé)為數(shù)據(jù)平臺提供數(shù)據(jù)庫以及物聯(lián)網(wǎng)等相關(guān)處理技術(shù)。運(yùn)營商通過對網(wǎng)絡(luò)大數(shù)據(jù)的處理,可以及時(shí)地對用戶的需求變化作出響應(yīng),從而提升企業(yè)的綜合運(yùn)營能力。
互聯(lián)網(wǎng)每天會產(chǎn)生大量的視頻、日志以及互動等多樣化的數(shù)據(jù)信息,雖然可以為用戶帶來便利,但是其同樣會為運(yùn)營商帶來巨大的挑戰(zhàn),其主要體現(xiàn)在以下幾個(gè)方面:(1)存在多源數(shù)據(jù)獲取問題。大數(shù)據(jù)時(shí)代具有多元異構(gòu)以及動態(tài)性的特點(diǎn),如單個(gè)用戶的位置信息價(jià)值相對較低,而將多個(gè)用戶的信息整合起來,則可以提升整體價(jià)值。然而在數(shù)據(jù)采集中,收集多元化的數(shù)據(jù)成為企業(yè)面臨的新問題。(2)海量異構(gòu)管理問題。在互聯(lián)網(wǎng)上,存在大量的異構(gòu)數(shù)據(jù)信息,部分?jǐn)?shù)據(jù)缺乏注冊結(jié)構(gòu),因而其價(jià)值不一,企業(yè)需要對關(guān)鍵數(shù)據(jù)以及異構(gòu)分析,以此來實(shí)現(xiàn)對數(shù)據(jù)質(zhì)量的管理。(3)數(shù)據(jù)實(shí)時(shí)挖掘問題。對于現(xiàn)代網(wǎng)絡(luò),聚類和關(guān)聯(lián)分析已經(jīng)逐漸應(yīng)用于數(shù)據(jù)信息的處理,然而通過模擬分析,無法獲取實(shí)時(shí)的數(shù)據(jù),為互聯(lián)網(wǎng)企業(yè)的發(fā)展帶來了較大的沖擊。
3.2 大數(shù)據(jù)預(yù)處理技術(shù)
大數(shù)據(jù)預(yù)處理是指在大數(shù)據(jù)挖掘前期,通過相關(guān)技術(shù),對大數(shù)據(jù)進(jìn)行預(yù)處理,其主要包括數(shù)據(jù)的清理、集成以及歸約等幾種處理方式[6]。大數(shù)據(jù)的數(shù)據(jù)量相對較為龐大,但是并未存在較多的數(shù)據(jù)價(jià)值,相反,大數(shù)據(jù)數(shù)量的增加,在一定程度上增加了數(shù)據(jù)的噪音,部分?jǐn)?shù)據(jù)缺乏使用,同時(shí)由于數(shù)據(jù)的不斷增加,導(dǎo)致媒體數(shù)據(jù)被碎片化處理,因此,需要采用大數(shù)據(jù)清洗技術(shù)以及降噪技術(shù)來處理大數(shù)據(jù)。對于數(shù)據(jù)的早期處理,主要通過數(shù)據(jù)挖掘技術(shù)來獲取時(shí)序知識以及分類知識等,同時(shí)在大數(shù)據(jù)時(shí)代,人們進(jìn)入非結(jié)構(gòu)化的時(shí)代,需要對大數(shù)據(jù)進(jìn)行預(yù)處理,以此來滿足時(shí)代的發(fā)展需求。
3.3 大數(shù)據(jù)管理技術(shù)
大數(shù)據(jù)通過網(wǎng)絡(luò)時(shí)代的發(fā)展而產(chǎn)生,并且隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,呈現(xiàn)更為多樣化的發(fā)展趨勢,同時(shí)多樣化的物聯(lián)網(wǎng)感知設(shè)備,其具有多種格式,且大數(shù)據(jù)環(huán)境下,其具有多樣化和復(fù)雜性的特點(diǎn)。在此情況下,其要求物聯(lián)網(wǎng)大數(shù)據(jù)系統(tǒng)需要通過特定技術(shù)來處理大數(shù)據(jù),以此來滿足多樣化的發(fā)展需求。因此,設(shè)計(jì)系統(tǒng)架構(gòu),以此來提升系統(tǒng)的擴(kuò)展性成為研究的重要課題。
3.4 大數(shù)據(jù)處理和可視化技術(shù)
大數(shù)據(jù)信息具有速度快的特點(diǎn),因而在處理過程中,如果處理不及時(shí),將會不斷減弱數(shù)據(jù)信息的價(jià)值,因此,對于大數(shù)據(jù)的處理,需要從諸多領(lǐng)域進(jìn)行實(shí)時(shí)挖掘。通過在線處理的方式來提升數(shù)據(jù)的處理效率,且對數(shù)據(jù)的算法以及模式進(jìn)行改進(jìn)。
大數(shù)據(jù)可視分析技術(shù),是指將大數(shù)據(jù)挖掘以及對計(jì)算機(jī)的融合和認(rèn)知能力結(jié)合起來,通過人機(jī)交互以及可視化技術(shù)對數(shù)據(jù)進(jìn)行分析,其可以有效提升數(shù)據(jù)的分析能力和處理能力。
3.5 海量異構(gòu)數(shù)據(jù)處理
隨著互聯(lián)網(wǎng)事業(yè)的不斷發(fā)展,其逐漸產(chǎn)生了海量的異構(gòu)數(shù)據(jù),根據(jù)數(shù)據(jù)的特點(diǎn)分析發(fā)現(xiàn),其具有數(shù)量龐大、類型多、價(jià)值密度低以及處理速度快等特點(diǎn),要求在秒級的時(shí)間內(nèi),對數(shù)據(jù)進(jìn)行分析,并且產(chǎn)生相應(yīng)的分析結(jié)果。如果處理時(shí)間相對較長,則會逐漸降低信息的價(jià)值,針對大數(shù)據(jù)的處理問題,需要對其模塊進(jìn)行設(shè)計(jì),其主要包括下列模塊:(1)處理模塊。(2)集成模塊。(3)文件系統(tǒng)模塊。(4)數(shù)據(jù)庫模塊。(5)易用性模塊。(6)接口數(shù)據(jù)訪問層。
針對互聯(lián)網(wǎng)數(shù)據(jù)的處理問題,需要在數(shù)據(jù)處理系統(tǒng)中安裝探測模塊?;ヂ?lián)網(wǎng)企業(yè)通常根據(jù)處理時(shí)間,將數(shù)據(jù)劃分為在線信息、近線信息以及離線信息。其主要是根據(jù)消耗的時(shí)間來進(jìn)行劃分。對于秒級信息的處理,通常是采用流處理技術(shù),通過適當(dāng)?shù)奶幚砑夹g(shù)分析,可以強(qiáng)化對I/O系統(tǒng)的應(yīng)用。
對于流式處理系統(tǒng),其主要采用Flume以及Storm等系統(tǒng)架構(gòu),在對數(shù)據(jù)處理后,將相關(guān)數(shù)據(jù)存儲到數(shù)據(jù)庫,以此來實(shí)現(xiàn)對數(shù)據(jù)的實(shí)時(shí)處理。對于批處理系統(tǒng)的設(shè)計(jì),首先需要對數(shù)據(jù)進(jìn)行存儲管理,之后對數(shù)據(jù)進(jìn)行分析和計(jì)算,其存儲系統(tǒng)可以采用HBase,對于冷數(shù)據(jù)的處理,可以采用Gluster FS等技術(shù),這樣可以有效降低管理成本。同時(shí)在數(shù)據(jù)的處理中,通常利用OLAP來進(jìn)行建模,同時(shí)利用組件進(jìn)行分析,可以較好地提升數(shù)據(jù)的處理效率。
在互聯(lián)網(wǎng)技術(shù)不斷發(fā)展的情況下,相關(guān)技術(shù)同樣呈現(xiàn)不斷發(fā)展的趨勢,如通過Spark技術(shù),可以將中間數(shù)據(jù)進(jìn)行存放,使其提升迭代的效率,另外,通過計(jì)算模型以及相關(guān)問題分析,可以繪制圖形數(shù)據(jù)庫。另外,在數(shù)據(jù)處理中,通過數(shù)據(jù)接口,可以為用戶提供應(yīng)用以及服務(wù)。
3.6 實(shí)時(shí)數(shù)據(jù)挖掘
互聯(lián)網(wǎng)數(shù)據(jù)具有復(fù)雜性的特征,其不利于實(shí)現(xiàn)故障的診斷以及用戶的體驗(yàn),數(shù)據(jù)挖掘模塊是通過對無線網(wǎng)絡(luò)的理解,采用數(shù)據(jù)分析和挖掘的方式獲取報(bào)表,以此來開放應(yīng)用程序編程接口(Application Programming Interface,API),其可以獲取以下幾種類型的數(shù)據(jù)信息:(1)網(wǎng)絡(luò)分析信息,通過對流量以及會話等模塊的分析,可以實(shí)現(xiàn)對網(wǎng)絡(luò)性能的關(guān)鍵績效指標(biāo)(Key Performance Indicator,KPI)分析。(2)網(wǎng)元分析。通過網(wǎng)元對比以及網(wǎng)元組對比等趨勢分析,可以獲取RNC性能負(fù)載。(3)終端分析。通過終端設(shè)備的使用情況分析,可以獲取小時(shí)的數(shù)據(jù)變化,繼而可以獲取相關(guān)的性能指標(biāo)。(4)用戶分析。通過對用戶數(shù)據(jù)的比較,可以獲取用戶資源的使用情況。(5)應(yīng)用分析。通過對用戶應(yīng)用業(yè)務(wù)的分析,可以獲取用戶的累計(jì)分布情況以及單個(gè)用戶的時(shí)間變化。(6)通過QoS以及QoE等指標(biāo)的分析,可以獲取用戶網(wǎng)絡(luò)狀況以及負(fù)荷等相關(guān)信息。
在實(shí)時(shí)數(shù)據(jù)分析中,多媒體數(shù)據(jù)挖掘同樣是重要的技術(shù)手段。通過畫像建立以及視頻推廣等模式進(jìn)行分析。用戶畫像的挖掘技術(shù)通過視頻播放以及注冊搜索等行為,采用大數(shù)據(jù)分類方式構(gòu)建模型,包括性別或者年齡模型等,通過對模型的預(yù)測,可以對用戶進(jìn)行判斷,以此來為企業(yè)的發(fā)展提供數(shù)據(jù)信息支持。視頻推薦模式是根據(jù)用戶的行為,對視頻的相關(guān)熱度等情況進(jìn)行分析,可以獲取用戶的興趣反饋數(shù)據(jù),其便于識別用戶的ID,經(jīng)過信息整理,企業(yè)可以采用針對性的推薦來滿足客戶的基本需求。另外,通過用戶畫像以及視頻推薦,可以為廣告企業(yè)進(jìn)行定位,其將符合用戶需求的廣告投放到定向的人群,以此來提升媒體的運(yùn)營質(zhì)量。
4 結(jié)語
隨著互聯(lián)網(wǎng)事業(yè)的發(fā)展,大數(shù)據(jù)挖掘已經(jīng)成為企業(yè)關(guān)注的重要問題,本文對大數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,體現(xiàn)了對海量數(shù)據(jù)的整合,企業(yè)可以通過大數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)對客戶信息的整理,并且為客戶提供個(gè)性化的服務(wù)模式。
[參考文獻(xiàn)]
[1]裴瑩,付世秋,吳鋒.我國教育大數(shù)據(jù)研究熱點(diǎn)及存在問題的可視化分析[J].中國遠(yuǎn)程教育,2017(22):1-8.
[2]李濤,曾春秋,周武柏,等.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘—從應(yīng)用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),2015(4):57-80.
[3]程陳.大數(shù)據(jù)挖掘分析[J].軟件,2014(4):130-131.
[4]李平榮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報(bào),2014(3):45-47.
[5]郭遲,劉經(jīng)南,方媛,等.位置大數(shù)據(jù)的價(jià)值提取與協(xié)同挖掘方法[J].軟件學(xué)報(bào),2014(4):713-730.
[6]王樹良,丁剛毅,鐘鳴.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J].中國電子科學(xué)研究院學(xué)報(bào),2013(1):8-17.