黃敏
摘 要:大數(shù)據(jù)在很多的行業(yè)和企業(yè)得到了應(yīng)用,對大數(shù)據(jù)的研究和分析也受到了很多的學(xué)者的青睞。大量非結(jié)構(gòu)化流式數(shù)據(jù)已成為大數(shù)據(jù)時代的主要數(shù)據(jù)形態(tài),這給傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)架構(gòu)帶來非常大的挑戰(zhàn),必將使大數(shù)據(jù)處理系統(tǒng)漸漸由流程設(shè)計轉(zhuǎn)變?yōu)閿?shù)據(jù)設(shè)計。為此,該文主要從大數(shù)據(jù)分析的方法理論入手,對現(xiàn)今各行各業(yè)即將運用的大數(shù)據(jù)處理方法進(jìn)行研究,總結(jié)出一種較適用的大數(shù)據(jù)分析方法及其應(yīng)用,以供行業(yè)和企業(yè)在未來的業(yè)務(wù)活動中作參考。
關(guān)鍵詞:預(yù)測分析 大數(shù)據(jù)處理 大數(shù)據(jù)應(yīng)用 數(shù)據(jù)挖掘
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2017)06(c)-0053-03
隨著云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)等新一代信息技術(shù)的發(fā)展,傳統(tǒng)企業(yè)級IT架構(gòu)正在朝基于互聯(lián)網(wǎng)的分布式新架構(gòu)轉(zhuǎn)型。大數(shù)據(jù)作為新一代信息技術(shù)的核心,正在使各個領(lǐng)域變得越來越可感知,并走向智能化。大數(shù)據(jù)將會發(fā)揮自身獨特的優(yōu)勢,帶給我們更多的方便和便捷。大數(shù)據(jù)分析的方法理論有哪些、在行業(yè)、企業(yè)的活動中有哪些應(yīng)用。
1 大數(shù)據(jù)分析的五個基本要素
1.1 大數(shù)據(jù)預(yù)測性分析
大數(shù)據(jù)技術(shù)的主要應(yīng)用是預(yù)測性分析,如在線教學(xué)資源網(wǎng)站通過數(shù)據(jù)分析用戶會對推薦的教學(xué)模是否感興趣,保險公司通過數(shù)據(jù)預(yù)測被保險人是否會違規(guī),地震監(jiān)測部門通過對大數(shù)據(jù)的分析,預(yù)測某地點發(fā)生地震的大致時間,氣象部門利用數(shù)據(jù)預(yù)測天氣變化等。預(yù)測是人類本能的一部分,通過大數(shù)據(jù)預(yù)測人類才可以獲得有意義的、智能的信息。許許多多的行業(yè)應(yīng)用都會涉及到大數(shù)據(jù),大數(shù)據(jù)的豐富特征表述了快速增長的存儲數(shù)據(jù)的復(fù)雜性。大數(shù)據(jù)預(yù)測分析打破了數(shù)據(jù)預(yù)測一直是象牙塔里數(shù)據(jù)科學(xué)家和統(tǒng)計學(xué)家的工作,伴隨著大數(shù)據(jù)的出現(xiàn),并融合到現(xiàn)有的MIS、MRPII、DSS 、CIMS和其他核心業(yè)務(wù)系統(tǒng),大數(shù)據(jù)預(yù)測分析將起到越來越重要的作用。
1.2 數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量
大數(shù)據(jù)分析跟數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理緊密相關(guān),而質(zhì)量高的數(shù)據(jù)和有效的數(shù)據(jù)管理可以使分析結(jié)果有價值、真實并得到有力的保證。
1.3 可視化分析
普通用戶和大數(shù)據(jù)分析專家是大數(shù)據(jù)分析的直接使用者,因此他們對大數(shù)據(jù)分析的基本要求就是要可視化,因為他們想通過可視化分析獲得可觀的大數(shù)據(jù)特征,讓用戶直觀看到結(jié)果。
提高解釋信息的能力可以通過數(shù)據(jù)的可視化展示來實現(xiàn),而可視化展示主要由圖形和圖表來呈現(xiàn)。要從大量的數(shù)據(jù)和信息中找尋相關(guān)性非常的不容易,而圖形或圖表能夠在短時間內(nèi)展示數(shù)據(jù)之間的相關(guān)信息,并為用戶提供所需的信息。
1.4 語義引擎
語義引擎是把現(xiàn)有的數(shù)據(jù)標(biāo)注語義,其實可以把它理解為結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)集上的一個語義疊迭層。它是數(shù)據(jù)分析及語義技術(shù)最直接的應(yīng)用,好的語義引擎能夠使大數(shù)據(jù)分析用戶快而準(zhǔn)地獲得比較全面的數(shù)據(jù)。
數(shù)據(jù)分析的新挑戰(zhàn)及困難主要表現(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)與異構(gòu)數(shù)據(jù)等的多樣性,必須配合大量的工具去分析、解析、提取數(shù)據(jù)。語義引擎的設(shè)計可以達(dá)到能夠從文檔中自動提取有用信息,使語義引擎能挖掘出大數(shù)據(jù)的特征,在此基礎(chǔ)上科學(xué)建模和輸入新的數(shù)據(jù),來預(yù)測未來的可用數(shù)據(jù)。
1.5 數(shù)據(jù)挖掘算法
大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘。各種數(shù)據(jù)的算法基于不同的數(shù)據(jù)類型和格式,能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身的特點,能更快速地處理大數(shù)據(jù)。如果采用一個算法需要花好幾年才能得出結(jié)論,那大數(shù)據(jù)價值也就無從說起了。可視化是給人看的,數(shù)據(jù)挖掘是給機器看的。集群、分割、孤立點分析還有其他的算法可以使我們深入挖掘數(shù)據(jù)內(nèi)部的價值,并且這些算法能夠處理大數(shù)據(jù)的數(shù)據(jù)量,也可以滿足處理大數(shù)據(jù)的效率要求。
2 大數(shù)據(jù)處理方法
大數(shù)據(jù)處理技術(shù)在社會的發(fā)展中占有重要的地位,現(xiàn)在有很多的研究者對大數(shù)據(jù)處理技術(shù)進(jìn)行研究,將大數(shù)據(jù)處理技術(shù)與交互設(shè)計結(jié)合,讓交叉科學(xué)得到發(fā)展,計算機技術(shù)的進(jìn)步,讓交叉技術(shù)被廣泛應(yīng)用,并引起了很多人的重視,例如:計算機技術(shù)可以在藝術(shù)中被應(yīng)用,進(jìn)行色彩搭配,還可以將計算機技術(shù)應(yīng)用到垃圾分類里,這些都是研究人員對計算機和交叉設(shè)計的結(jié)合。這種結(jié)合讓設(shè)計學(xué)與計算機技術(shù)緊急的結(jié)合在一起,將傳統(tǒng)的調(diào)研方式和測試方式應(yīng)用到交叉科學(xué)領(lǐng)域,這種方法的研究可以為用戶調(diào)研和測試方法提供依據(jù),能夠減少人工的成本。大數(shù)據(jù)處理方法其實有很多,筆者根據(jù)長時間的實踐,總結(jié)了幾種基本的大數(shù)據(jù)處理方法,如非結(jié)構(gòu)數(shù)據(jù)處理法、自然語言處理法等,該文主要介紹非結(jié)構(gòu)數(shù)據(jù)處理流程涉及到的主要方法和技術(shù)。非結(jié)構(gòu)化數(shù)據(jù)處理流程主要以網(wǎng)頁處理為例來闡述,包括3個階段,分別是信息采集、網(wǎng)頁預(yù)處理和網(wǎng)頁分類。
2.1 信息采集
信息采集主要是根據(jù)相關(guān)主題由固定的專業(yè)人士來完成,其采集的數(shù)據(jù)只能用于所針對的主題和相關(guān)的模塊,出于對效率和成本的考慮完全不必對整個互聯(lián)網(wǎng)進(jìn)行遍歷,因此,模塊信息采集時往往需要研究以哪種方式預(yù)測鏈接指向的頁面與主題的關(guān)聯(lián)性,并測算其是否值得訪問;然后研究以哪種相關(guān)策略訪問Web,以在采集到主題相關(guān)頁面的同時,盡可能地減少采集到主題無關(guān)的頁面。
預(yù)先設(shè)定好種子鏈接是信息采集的基本方法,充分使用HTTP協(xié)議下載被訪問的頁面,運用分析算法對頁面與主題的相關(guān)性進(jìn)行分析,然后確定待訪問的相關(guān)鏈接,預(yù)測可能指向主題相關(guān)頁面的鏈接,最后循環(huán)迭代地運用不同的相關(guān)策略訪問網(wǎng)頁。
2.2 網(wǎng)頁預(yù)處理
網(wǎng)頁預(yù)處理最主要涉及到網(wǎng)頁去重處理,網(wǎng)頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內(nèi)容的對比去重,它適用基于信息指紋的文本相似度算法。
網(wǎng)頁去重是先抽取文檔對象的特征,再對文檔內(nèi)容進(jìn)行分解,將文檔的特征集合表示出來,然后有目的針對特征集合的壓縮編碼,通過將哈希編碼等文本轉(zhuǎn)為數(shù)字串映射方式,為后續(xù)的特征存儲以及特征比較提供方便,這樣可以起到減少存儲空間,提高比較速度的作用,最后就是計算文檔的相似度,此步需要根據(jù)文檔特征重復(fù)比例來確定文檔內(nèi)容是否重復(fù)。一般是提取網(wǎng)頁的某一個信息特征,通常是一組關(guān)鍵詞,或者是關(guān)鍵詞加權(quán)重的組合,調(diào)用相應(yīng)的算法,轉(zhuǎn)換為一組關(guān)鍵代碼,也被稱為指紋,若兩個頁面有大數(shù)量的相似指紋,那么可以預(yù)測這兩個頁面內(nèi)容具有很高的重復(fù)性。
2.3 網(wǎng)頁分類
網(wǎng)絡(luò)時代,人類所面臨的一個非常重要且具有普遍意義的問題就是網(wǎng)頁分類。將網(wǎng)絡(luò)信息正確分類,方便人們更好地使用網(wǎng)絡(luò)資源,使雜亂無章的網(wǎng)絡(luò)環(huán)境變得有條理。而網(wǎng)頁分類一般是先對網(wǎng)頁中的文本素材進(jìn)行分類,通常采用文本分類來完成。文本分類主要應(yīng)用于電子郵件分類、信息過濾、文獻(xiàn)翻譯、數(shù)據(jù)檢索等任務(wù),文本分類的一個關(guān)鍵問題是特征詞的選擇問題及其權(quán)重分配。
在搜索引擎中,文本分類主要有以下用途:相關(guān)性排序會根據(jù)不同的網(wǎng)頁類型做相應(yīng)的排序規(guī)則;根據(jù)網(wǎng)頁是索引頁面還是信息頁面,下載調(diào)度時會做不同的調(diào)度策略;在做頁面信息抽取的時候,會根據(jù)頁面分類的結(jié)果做不同的抽取策略;在做檢索意圖識別的時候,會根據(jù)用戶所點擊的URL所屬的類別來推斷檢索串的類別等。
網(wǎng)頁分類方法有SVM分類方法和樸素貝葉斯方法,其中比較推薦的是支持向量機分類方法(SVM),該算法主要基于統(tǒng)計學(xué)理論及線性分類器準(zhǔn)則之上,從線性可分入手,再擴(kuò)展到線性不可分的情況。甚至有時會擴(kuò)展到使用非線性函數(shù)中去,這種分類器統(tǒng)稱為支持向量機。近年來,支持向量機分類方法越來越多的受到網(wǎng)頁分類技術(shù)人員的青睞。
3 大數(shù)據(jù)分析在行業(yè)活動中的應(yīng)用
非結(jié)構(gòu)數(shù)據(jù)處理和數(shù)據(jù)挖掘的應(yīng)用范圍較廣,它可能應(yīng)用于運營商、銀行、傳統(tǒng)企業(yè)和電商,挑選幾個具有代表性的案例與大家分享。
3.1 電信行業(yè)
某城市電信運營商的上網(wǎng)日志分析系統(tǒng),該系統(tǒng)通過收集用戶上網(wǎng)日志歷史記錄數(shù)據(jù),分析出每個用戶的偏好。首先該系統(tǒng)通過并行統(tǒng)計出每個人有效歷史上網(wǎng)日志URL;然后從日志URL中抓取網(wǎng)頁內(nèi)容,提取正文,并通過文本分類算法計算分類;最后通過統(tǒng)計出每個用戶上網(wǎng)關(guān)注類別總數(shù),分析出每個用戶的偏好。
3.2 地產(chǎn)行業(yè)
某房地產(chǎn)企業(yè)的社會化品牌實時營銷系統(tǒng),該系統(tǒng)通過社交媒體數(shù)據(jù),進(jìn)行網(wǎng)絡(luò)口碑監(jiān)測,負(fù)面情緒被及時地發(fā)現(xiàn)并制止;通過與客戶進(jìn)行互動,爭取客戶忠誠度;通過監(jiān)控同行及競爭對手的各方面資訊,量化評估競爭態(tài)勢;快速提升品牌知曉度和美譽度,將媒體影響力轉(zhuǎn)換為客戶量,縮短人氣聚集周期。
3.3 證券行業(yè)
某證券商戰(zhàn)略信息監(jiān)測通過歷史回顧與信息摘要,提供題目、摘要、原文URL,今日輿情焦點,今日輿論,展示抓取的所有期貨產(chǎn)品相關(guān)信息的縮略,并提供全文鏈接。通過熱點事件列表可以看到歷史相似事件對趨勢的影響,通過天氣指數(shù)與趨勢對應(yīng)曲線可以看到歷史相似天氣與歷史趨勢的對照。
3.4 金融行業(yè)
某大型股份制商業(yè)銀行供應(yīng)商風(fēng)險評估系統(tǒng),該系統(tǒng)通過抓取供應(yīng)商內(nèi)部數(shù)據(jù),如企業(yè)年報、公司變動、領(lǐng)導(dǎo)情況、財務(wù)狀況等數(shù)據(jù),分析公司運營指數(shù);通過計算各供應(yīng)商社交數(shù)據(jù),對其社會影響力做評估;通過同行之間的數(shù)據(jù)分析對比,對供應(yīng)商進(jìn)行實力評估,這些數(shù)據(jù)指數(shù)可以有效協(xié)助商業(yè)銀行進(jìn)行供應(yīng)商風(fēng)險評估。
4 結(jié)語
大數(shù)據(jù)處理數(shù)據(jù)的基本理念是用全體代替抽樣,用效率代替絕對精確,用相關(guān)代替因果。證券、微商、地產(chǎn)等行業(yè)每天都會產(chǎn)生巨大的數(shù)據(jù)量,大數(shù)據(jù)分析與處理已成為大數(shù)據(jù)技術(shù)的最重要的應(yīng)用,通過大數(shù)據(jù)技術(shù)從海量數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價值的、潛在的信息,找出產(chǎn)品或服務(wù)未來發(fā)展趨勢,為決策者提供有力依據(jù),有益于推動企業(yè)內(nèi)部的科學(xué)化、信息化管理。
參考文獻(xiàn)
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-149.
[2] 國際電子商情2013年大數(shù)據(jù)應(yīng)用與趨勢調(diào)查[Z].
[3] 大數(shù)據(jù)時代來臨:國內(nèi)IT企業(yè)布局已然落后[EB/OL].新浪網(wǎng),2012-06-01.
[4] 大數(shù)據(jù)時代降臨[EB/OL].半月談網(wǎng),2012-09-22.
[5] 王惠.大數(shù)據(jù)時代下數(shù)據(jù)分析理念研究[J].中國市場,2015(22):74.
[6] 高志鵬,牛琨,劉杰.面向大數(shù)據(jù)的分析技術(shù)[J].北京郵電大學(xué)學(xué)報,2015(3):1-12.
[7] 張榮建,張志強,祖述勛.鋼管混凝土拱橋安全性評價的SVM機器模型[J].混凝土,2011(11):8-10.