李偉 陳如旭
摘要:本文主要對大數(shù)據(jù)中的典型緯度和特點進行分析,然后提出基于機器學習的通信網(wǎng)絡(luò)非結(jié)構(gòu)化大數(shù)據(jù)算法,最后對算法的性能進行全面的分析。
關(guān)鍵詞:機器學習;通信網(wǎng)絡(luò);非結(jié)構(gòu)化;大數(shù)據(jù)分析
中圖分類號:TP311.13? ? 文獻標識碼:A? ? 文章編號:1007-9416(2018)10-0000-00
現(xiàn)如今的大數(shù)據(jù)中復(fù)雜數(shù)據(jù)集和超大的數(shù)據(jù)量級等特點,需要專業(yè)的分析工具對其予以分析,為此,提出以機器學習為基礎(chǔ)的通信網(wǎng)絡(luò)非結(jié)構(gòu)化大數(shù)據(jù)分析算法,將其應(yīng)用到大數(shù)據(jù)分析中。雖然關(guān)于不同類型數(shù)據(jù)的處理技術(shù)研究已經(jīng)在展開,但是在并行效率的優(yōu)化方面依舊有待提升,尤其是針對信息分散較廣的在線用戶端信息分析難度更大。
1 大數(shù)據(jù)的特點及緯度
對于在極短時間內(nèi),完成數(shù)以百萬次計算的動態(tài)數(shù)據(jù)集的需求,大數(shù)據(jù)分析所面臨的挑戰(zhàn)是前所未有的。而這種挑戰(zhàn)很大程度上源于大數(shù)據(jù)的數(shù)據(jù)特征。大容量是大數(shù)據(jù)最基本的特點,結(jié)合數(shù)據(jù)為異構(gòu)數(shù)據(jù)的原因,想要進行批量處理是不太現(xiàn)實的。另外,考慮到大數(shù)據(jù)一般是分布式的,所以是做不到集中處理工具一次性多種操作的處理[1]。
在當今最新大數(shù)據(jù)分析過程中,對大數(shù)據(jù)的特點進行調(diào)整,然后成為:(1)以每分鐘為單位的數(shù)據(jù)量會增加;(2)數(shù)據(jù)雖然可以擁有多種格式,卻無法進行批量處理;(3)數(shù)據(jù)之間的關(guān)系會隨著大數(shù)據(jù)量的不斷增加變得更加復(fù)雜,同時這種復(fù)雜關(guān)系愈來愈高;(4)當決策人員進行決策時,其可以提供數(shù)據(jù)支持和實證;(5)由于數(shù)據(jù)來源廣,其聚合的難度也是非常高的。
接著將視線轉(zhuǎn)移到大數(shù)據(jù)的緯度,大數(shù)據(jù)的緯度是C3緯度,而關(guān)于存儲、挖掘、機器學習及分析數(shù)據(jù)等方面,都是建模時必須要著重考慮的。C3所對應(yīng)的內(nèi)容包括:(1)集合化的對象,其能夠?qū)μ卣骱蛿?shù)量進行記錄;(2)大數(shù)據(jù)的表達特點,包括其所占用的空間;(3)負載性通常指的是三維度,分別是:數(shù)據(jù)類型變化、數(shù)據(jù)集維度和數(shù)據(jù)高速處理需求。
大數(shù)據(jù)分析解決方案的核心,也就是所討論的數(shù)據(jù)大小和復(fù)雜度,只有解決了這些問題,這樣大數(shù)據(jù)分析的結(jié)果方可被更好的使用。為了驗證這一說法,我們將時下的在線教育作為例子,以此加以說明?,F(xiàn)如今,教育方式已經(jīng)發(fā)生了翻天覆地的變化,不再僅僅局限于傳統(tǒng)的課堂教育,當前在線交互式教育越來越受歡迎,它可以實現(xiàn)將世界各地的學生們匯聚在同一個“虛擬教室”里進行學習。這種模式的更迭,最終造成互聯(lián)網(wǎng)數(shù)據(jù)呈井噴式增長趨勢,伴隨著聯(lián)系和交集的加深,在線教學所產(chǎn)生的交互數(shù)據(jù)格式和形式也有了很大的變化。在線教育當今的數(shù)據(jù)源的特征非常鮮明,并不是所有的教學材料都是電子化形式,非電子材質(zhì)還是占據(jù)一定比例的,而新數(shù)據(jù)的組成部分也是豐富的,分別有:學校服務(wù)器運行日志、信息系統(tǒng)自身運行數(shù)據(jù)信息、學生在公共網(wǎng)絡(luò)上表達的言論觀點等等。結(jié)合現(xiàn)代大數(shù)據(jù)呈現(xiàn)多樣化和大容量的特點,這意味著數(shù)據(jù)的分析和處理性能有著更高的要求,方可滿足大數(shù)據(jù)的發(fā)展需求。
2 大數(shù)據(jù)分析算法
本文所提及的,關(guān)于以機器學習為基礎(chǔ)通信網(wǎng)絡(luò)非結(jié)構(gòu)化大數(shù)據(jù)分析算法,實際上就是在線終端分析算法(簡稱OTA),其具體的設(shè)計如[2]:
(1)OTA的學習算法的性質(zhì)為監(jiān)督作用,其主要功能在于挖掘在線客戶的數(shù)據(jù)庫。已識別的標簽,生成集,非生成集和數(shù)字,這些均可以成為訓練集的輸入數(shù)據(jù),每一次更迭,輸入一種數(shù)據(jù)類型。事物都有兩面性,預(yù)測結(jié)果有時候也會出錯,所以訓練過程顯得非常重要,當出錯時,訓練過程就能夠發(fā)揮自我修訂的作用,一直到訓練集數(shù)據(jù)達到正確為準。
(2)在線終端分析算法主要圍繞非結(jié)構(gòu)化數(shù)據(jù)所設(shè)計。OTA是直接面向應(yīng)用場景的,非結(jié)構(gòu)化數(shù)據(jù)是其訓練集實例的組成部分,在進行對象之間的聯(lián)系關(guān)聯(lián)時,OTA的加權(quán)參數(shù)是以相鄰節(jié)點距離參考的,然后進行評估關(guān)聯(lián)度。
(3)對于名字節(jié)點文件的存儲系統(tǒng)轉(zhuǎn)換數(shù)據(jù)的形態(tài),一般來說主要有兩種,一種是在塊編號中融入數(shù)據(jù)節(jié)點,另外一種是在數(shù)據(jù)節(jié)點中融入數(shù)據(jù)塊。為了實現(xiàn)對工作節(jié)點的任務(wù)執(zhí)行全面監(jiān)督,本文對OTA中設(shè)置了任務(wù)跟蹤器,同時還能匯報工作跟蹤器的實時情況。如果任務(wù)跟蹤器有接收到任務(wù)時,本地工作跟蹤器將會獲得由其分配的任務(wù),然后是數(shù)據(jù)的生成,這樣就可以工作跟蹤器的進程進行匯報。為了達成檢驗Map過程的目的,將其中所要輸入的數(shù)據(jù)劃分成很多個數(shù)據(jù)切片,其次對其輸入在線終端分析算法,完成之后,再接著把數(shù)據(jù)切片輸入到Hadoop平臺中加以處理分析。
當在Map結(jié)束后,則會進入下一個階段:Red階段,而這個階段則是數(shù)據(jù)并行處理的過程。其主要任務(wù)是將數(shù)據(jù)合并,該合并的數(shù)據(jù)則視為最終的分析結(jié)果。考慮到Red是將Map結(jié)果作為依據(jù)而執(zhí)行的,為此在運行處理過程中,絕對的并行顯然并不現(xiàn)實,而在Map結(jié)束之后所進行的Red階段,要實現(xiàn)優(yōu)化的難度很大。然后理論上來看,通過Map與Red 來進行傳輸數(shù)據(jù)的過程中,其結(jié)構(gòu)和接收數(shù)據(jù)值是相對應(yīng)的。接收數(shù)據(jù)映射的輸出為相同映射機構(gòu),并且要結(jié)合實際情況,不一樣的值,要采用對應(yīng)的步驟進行處理。
3 算法的性能分析
為了對在線終端分析算法性能進一步挖掘和分析,本篇文章將在線購物作為例子展開研究,通過分析其原始數(shù)據(jù)性能,從而獲得在線購物的用戶數(shù)據(jù)信息。
(1)先創(chuàng)建大數(shù)據(jù)平臺,可以進行測試數(shù)據(jù),然后配置平臺。待一切準備就緒后,可以全方面地分析運行數(shù)據(jù),每一次運行的信息節(jié)點數(shù)量是有差異的,與此同時每次處理的時間也是不一樣的。可以根據(jù)不同的時間和節(jié)點數(shù)量來制作相應(yīng)的圖表進行對比分析。就會發(fā)現(xiàn),時間與節(jié)點數(shù)量為正比關(guān)系。(2)為了可以全面評估OTA在運行過程中數(shù)據(jù)分析的結(jié)果,可以采用四次運算的名字及數(shù)據(jù)節(jié)點的大小對比的方法來對以上的分析結(jié)果名稱節(jié)點及數(shù)據(jù)節(jié)點進行全面的分析。(3)關(guān)于比較計算過程中的效率,也就是OTA和傳統(tǒng)數(shù)據(jù)庫兩者的對比,以每秒實現(xiàn)處理的次數(shù)作為單位,再去對比這兩種算法,最后可以發(fā)現(xiàn):其運行節(jié)點和數(shù)量與最初的分析結(jié)果相符合一致。
4 結(jié)語
綜上所述,數(shù)字化進程不斷加快,隨著數(shù)據(jù)呈直線式的增長,大數(shù)據(jù)中也會存在著一定的問題,其構(gòu)成也會由簡單轉(zhuǎn)向復(fù)雜化,而且數(shù)據(jù)的量之大,變之快,如果還是采用傳統(tǒng)的機器學習算法來分析和處理大數(shù)據(jù),恐怕是難以實現(xiàn)。因此,本文在機器學習的基礎(chǔ)上,對通信網(wǎng)絡(luò)非結(jié)構(gòu)化的大數(shù)據(jù)分析算法進行全面分析,通過對其算法性能進行研究分析得出,線終端分析算法性能是良好的,可以實現(xiàn)對大數(shù)據(jù)的有效分析處理,此外關(guān)于傳統(tǒng)機器學習過程中所遇到的問題也可以行之有效地予以解決。
參考文獻
[1] 亢華愛.面向機器學習的通信網(wǎng)絡(luò)大數(shù)據(jù)相關(guān)性分析算法研究[J].激光雜志,2016,(8):145-148.
[2] 許春玲,范志剛,宋應(yīng)文.機器學習算法的網(wǎng)絡(luò)大數(shù)據(jù)級應(yīng)用實踐[J].網(wǎng)絡(luò)新媒體技術(shù),2012,(6):63-69.
Machine Learning Based Unstructured Large
Data Analysis Algorithm for Communication Networks
LI Wei, CHEN Ru-xu
(China Tong Service Consulting and Design Institute Co., Ltd. ,Nanjing Jiangsu 210019)
Abstract: This paper mainly analyses the typical latitude and characteristics of large data, then proposes an unstructured large data algorithm for communication network based on machine learning, and finally makes a comprehensive analysis of the performance of the algorithm.
Key words: machine learning; communication network; unstructured; big data analysis