陳俟伶 謝鵬
摘 要 本文是基于數(shù)據(jù)挖掘的微信公眾號關(guān)注趨勢分析。數(shù)據(jù)挖掘技術(shù)能夠在海量的數(shù)據(jù)信息中搜尋出更加有價值的信息,實現(xiàn)數(shù)據(jù)信息的價值。微信公眾平臺是微信旗下推出進行信息推送與接收的平臺,是自媒體時代的產(chǎn)物,依靠著微信這個大平臺展示出了良好的傳播效果,其傳播路徑和方式與以前的媒體形式有所不同。利用數(shù)據(jù)分析工具對這些數(shù)據(jù)進行可視化展示,對產(chǎn)生的結(jié)果進行分析。
關(guān)鍵詞 大數(shù)據(jù)時代 數(shù)據(jù)挖掘 微信公眾號
中圖分類號:TP311文獻標識碼:A
0緒論
(1)數(shù)據(jù)挖掘的意義。
在這個大數(shù)據(jù)的時代,每個人都可以被稱為是生產(chǎn)者或是傳播者,因此很多互聯(lián)網(wǎng)信息中都帶有這關(guān)于潛在消費者的信息,通過對這些數(shù)據(jù)進行挖掘利用,就能夠更加清楚的得知這些潛在客戶的真實需求。數(shù)據(jù)挖掘技術(shù)具有比較復(fù)雜的特征,無論是應(yīng)用對象還是應(yīng)用過程,都涉及到大量因素。因為數(shù)據(jù)挖掘技術(shù)的特殊性,所以最終得到的結(jié)果也是存在特殊性質(zhì)的信息。
(2)數(shù)據(jù)挖掘的包含方面。
數(shù)據(jù)挖掘一般包含數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、后處理這三個方面。
預(yù)處理的存在是為了提前將一些無用的數(shù)據(jù)剔除出去,這些“廢物”的存在很可能導(dǎo)致數(shù)據(jù)模型計算的失敗,所以說數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中不可缺失的一部分,雖然這部分會占據(jù)數(shù)據(jù)挖掘的大部分時間,但還是值得我們認真去完成。當(dāng)我們完成數(shù)據(jù)的預(yù)處理后,接下來的數(shù)據(jù)挖掘和后處理就變得簡單很多,只需要將特定的數(shù)據(jù)放到特定的模型中去計算,將最合適的移交給后處理。
1算法介紹
1.1數(shù)據(jù)挖掘的算法
1.1.1經(jīng)典算法
在如今的國際上認同的算法有:
C2.5算法;Apriori算法;PageRank算法;AdaBoost算法;KNN算法;CART算法;SVM算法;EM算法;K-Means算法;NaiveBayes算法。
1.1.2算法舉例
(1)聚類:K均值(Kmeans)、最近鄰算法(KNN)、期望最大值算法(EM)、隱含狄利克雷分布(LDA)。
(2)分類:支持向量機(SVM)、邏輯回歸(LR)、梯度下降樹(GBDT)、隨機森林(RF)、樸素貝葉斯(NB)、深層神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、LSTM(Long Short-Term Memory)。
(3)回歸:普通最小二乘回歸(OLS)、梯度下降樹(GBDT)。
(4)降維:主成分分析(PCA)、因子分析(FA)、LDA。
(5)時間序列:自回歸模型(AR)、滑動平均模型(MA)、自回歸移動平均模型(ARMA)。
①Adaboost。Adaboost是將不同的幾個弱的分類器相互結(jié)合在一起成強分類器算法然后來加快算法的速度。
②PageRank。PageRank的核心最主要的思想是在從一些優(yōu)質(zhì)的網(wǎng)頁基礎(chǔ)上鏈接過來的網(wǎng)頁,所以還是優(yōu)質(zhì)網(wǎng)頁的回歸關(guān)系,來判定所有網(wǎng)頁的重要性。
1.2微信公眾號數(shù)據(jù)的獲取
1.2.1爬蟲抓取數(shù)據(jù)
微信在數(shù)據(jù)方面來說是一個比較封閉的一個平臺,首先從微信的客戶端入手,然后通過抓包來進行數(shù)據(jù)的分析請求,再者使用 Fiddler、Charles 代理工具來進行抓包分析請求的構(gòu)造原理,然后 Requests 等網(wǎng)絡(luò)請求的板塊來模擬微信向服務(wù)器發(fā)出請求從而獲得響應(yīng)式數(shù)據(jù),接著把抓出來的數(shù)據(jù)過濾和清潔,最后就可以用 Pandas 來進行數(shù)據(jù)分析然后就可視化展示出來了。
1.2.2數(shù)據(jù)挖掘的流程
(1)數(shù)據(jù)集選擇。一般來說數(shù)據(jù)集就是可獲得或者已存在的 (在網(wǎng)上過濾抓取需要的數(shù)據(jù)或者訪問網(wǎng)上的一些資料庫和使用軟件進行主動收集的數(shù)據(jù)等)。數(shù)據(jù)集的選擇對數(shù)據(jù)挖掘起著非常至關(guān)重要的作用。
(2)數(shù)據(jù)預(yù)處理。在數(shù)據(jù)集選取了后,接著就可以對數(shù)據(jù)進行預(yù)處理,這樣可以讓數(shù)據(jù)可以被我們使用。數(shù)據(jù)預(yù)處理大大的提高了數(shù)據(jù)的質(zhì)量。
①數(shù)據(jù)清理。首先不看元祖,然后主動填寫缺失的值,使用屬性的中心度量的填充,給定同一類所有樣本的屬性均值或中位數(shù)填充,最可能的值填充。
②數(shù)據(jù)集成。實體識別,冗余和相關(guān)分析(卡方檢驗,相關(guān)系數(shù),協(xié)方差等,用spss比較方便)。
③數(shù)據(jù)歸約。維規(guī)約(小波變換和主成分分析,最常用),數(shù)量規(guī)約(較小的數(shù)據(jù)替代原始數(shù)據(jù)),數(shù)據(jù)壓縮(有損無損兩種,尤其對于圖像視頻等多媒體常用)。
(3)數(shù)據(jù)分析算法。最經(jīng)典的莫過于頻繁模式挖掘了,對象為事物出現(xiàn)的次數(shù)。如著名的啤酒尿布。其中最典型的算法為Apriori算法,包括連接和剪枝。其中有置信度,支持度,頻繁項集最小置信度閾值等重要概念,到相關(guān)分析中還有提升度,全置信度,Kulczy和余弦等判斷標準和零不變度量考慮。
2結(jié)論
通過對微信公眾號推送內(nèi)容進行數(shù)據(jù)分析,企業(yè)可以編輯與自己企業(yè)文化相關(guān)的內(nèi)容發(fā)布到微信公眾號上,同時也要滿足用戶的需求,推送用戶喜歡的內(nèi)容,正確認識用戶的需求,以恰當(dāng)?shù)姆绞秸归_工作,結(jié)合讀者的需求為其推送更有價值的文章。同時從根本上提高微信公眾號的專業(yè)性,以此發(fā)揮微信公眾號的作用。
參考文獻
[1] JiaweiHan, MichelinKamber, JianPei,et al.數(shù)據(jù)挖掘:概念與技術(shù)(第三版)[M].機械工業(yè)出版社, 2012.
[2] 胡可云,田鳳,董偉峰.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社, 2008.
[3] 王學(xué)鳴,黃秋波.微信公眾號的現(xiàn)狀、類型及發(fā)展趨勢研究[J].無線互聯(lián)科技,2018(05):60-61.
[4] 李平榮.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報,2014(03): 45-47.
[5] 黃楚新,王丹.微信公眾號的現(xiàn)狀、類型及發(fā)展趨勢[J].新聞與寫作,2015(07): 5-9.
[6] 中國產(chǎn)業(yè)信息網(wǎng). 2017年中國微信公眾號發(fā)展現(xiàn)狀及發(fā)展趨勢分析【圖】[EB/OL]. http://www.chyxx.com/industry/201807/656197.html, 2018-07-06.