俞如富
摘 要 本文通過從數(shù)據(jù)分析的價值,延伸到數(shù)據(jù)分析三要素能力應(yīng)用的案例,進(jìn)而探索式的分享做好數(shù)據(jù)挖掘分析工作的五步法,為有志在這行業(yè)發(fā)展的人提供一些思路參考。
【關(guān)鍵詞】數(shù)據(jù)分析 數(shù)據(jù)挖掘 方法論
1 緒論
在互聯(lián)網(wǎng)快速發(fā)展的時代,通信、互聯(lián)網(wǎng)、金融、制造業(yè)等這些行業(yè)每天產(chǎn)生海量的生產(chǎn)運營數(shù)據(jù)。擁有這些關(guān)于數(shù)百萬潛在顧客的海量數(shù)據(jù),結(jié)合軟件工具、數(shù)據(jù)庫技術(shù)、各種硬件設(shè)備的飛快發(fā)展,使得我們分析海量數(shù)據(jù)成為可能,也使得數(shù)據(jù)分析師能更好的為領(lǐng)導(dǎo)決策提供參考依據(jù),進(jìn)而節(jié)約成本,提高企業(yè)盈利能力。
2 數(shù)據(jù)挖掘分析思維的三要素
數(shù)據(jù)分析師不在于掌握多高深的分析方法和算法技術(shù),而是要對分析的指標(biāo)深入理解,理解數(shù)據(jù)背后的業(yè)務(wù)場景,同時,要不斷的去探究為什么,不是只告訴人家What,還要告訴人家下一步的How,這才是數(shù)據(jù)分析師的價值。
比如針對一組數(shù)據(jù)分析結(jié)果,“2017年7~9月公司的客戶活躍度是12%?!币玫淖プ『徒鉀Q客戶活躍度的問題。需要考慮以下三大要素。
2.1 反饋場景現(xiàn)狀——描述問題
這個活躍度的數(shù)據(jù)統(tǒng)計口徑是什么?客戶活躍度是如何得到的?數(shù)值代表業(yè)務(wù)發(fā)生了什么(背景是什么)?客戶活躍度是如何定義的?這次取的數(shù)據(jù)是否具有一定的代表性?活躍的人群具有什么特點:是訪問了一下就走,還是呆了比較長時間才走,主要訪問了哪幾個功能模塊等,盡可能如實的描述數(shù)據(jù)在場景下的狀態(tài)。
2.2 比較找到定位——比較問題
描述了之后還要做比較,如12%算高還是低呢,要結(jié)合我們制定的活躍度目標(biāo),只有這樣才能明確這個活躍率是高還是低,要有個定性的結(jié)論:它是增長了還是衰退了;而且還需跟行業(yè)內(nèi)其他競爭對手相比,還需同比和環(huán)比的情況,只有這樣,我們分析的數(shù)據(jù)才有立體感。
2.3 順藤找到根源——分析和解決問題
描述問題、比較問題,最終都是為了分析和解決問題。要進(jìn)一步探究原因,找到解決方案和思路。
通過分析,對以下幾個問題就可以很好的做決策輔助:
2.3.1 對客戶
最近要對已有產(chǎn)品設(shè)計改版,活躍的人經(jīng)常訪問的內(nèi)容是否跟我們的客戶投訴有關(guān)聯(lián)?哪些設(shè)計能極大提升客戶的滿意度?
2.3.2 對活動
這次活躍度的提高或降低是因為什么原因?因為做營銷活動帶來的提升么?如果是,我們的營銷效果情況怎樣?后續(xù)要如何更好的跟蹤和評估效果。
上面的轉(zhuǎn)換思考例子,更多的要求數(shù)據(jù)分析師能結(jié)合一定的業(yè)務(wù)場景,并且能把業(yè)務(wù)的問題數(shù)據(jù)化,把數(shù)據(jù)的問題可視化,進(jìn)而對后續(xù)的經(jīng)營決策做輔助支撐。
3 數(shù)據(jù)挖掘分析5步法
數(shù)據(jù)挖掘分析工作都有一定的模式和方法論,重點以下5步驟如何更好的執(zhí)行。
3.1 需求明確,理解業(yè)務(wù)
業(yè)務(wù)理解階段重點把握以下兩點:
3.1.1 需求分析,抓住痛點
具體可考慮以下三個方法:
(1)用戶使用場景梳理,明確問題在哪里?怎么發(fā)生的問題;
(2)用戶訪談、調(diào)查調(diào)研(為什么);
(3)利用原型法來確定或引導(dǎo)用戶需求,評估項目中可能的問題。
以上三個方法還需要考慮,滿足用戶的需求,并在痛點需求上引導(dǎo)用戶。
3.1.2 業(yè)務(wù)目標(biāo)的明確和可行性分析
做好了需求分析就要明確業(yè)務(wù)目標(biāo),明確目標(biāo)需要業(yè)務(wù)背景,明確數(shù)據(jù)挖掘分析的成功標(biāo)準(zhǔn)是什么。同時要做可行性分析,要從技術(shù)角度、業(yè)務(wù)角度、商業(yè)市場等角度,結(jié)合擁有的資源,條件和限制,評估風(fēng)險,并做成本和效益估計,并對數(shù)據(jù)挖掘分析做整體的規(guī)劃,初步估計用到的工具和技術(shù)。
3.2 數(shù)據(jù)準(zhǔn)備,加工處理
3.2.1 數(shù)據(jù)準(zhǔn)備,探索數(shù)據(jù)屬性
重點做好收集原始數(shù)據(jù)并對收集的數(shù)據(jù)進(jìn)行簡單的統(tǒng)計分析,了解數(shù)據(jù)的分布屬性,結(jié)合數(shù)據(jù)挖掘目標(biāo)和數(shù)據(jù)質(zhì)量選擇合適的數(shù)據(jù),包括表的選擇、記錄選擇和屬性選擇,只有這樣才能科學(xué)的選擇樣本數(shù)據(jù),分析場景結(jié)果。
3.2.2 數(shù)據(jù)加工處理,為分析建模做數(shù)據(jù)資源準(zhǔn)備
重點是做好ETL(抽取、轉(zhuǎn)換、加載),清洗加載轉(zhuǎn)換數(shù)據(jù)過程是核心和靈魂,把數(shù)據(jù)從各種原始的業(yè)務(wù)系統(tǒng)中讀取出來,按照預(yù)先設(shè)計好的規(guī)則將抽取的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使本來異構(gòu)的數(shù)據(jù)格式能統(tǒng)一起來,最后把轉(zhuǎn)換完的數(shù)據(jù)按計劃增量或全部導(dǎo)入到目標(biāo)結(jié)果庫中。
3.3 建立模型,尋找規(guī)律
在數(shù)據(jù)準(zhǔn)備加工好后,需要利用數(shù)據(jù)分析的方法和工具對對處理過的數(shù)據(jù)進(jìn)行分析,重點是包含以下四個內(nèi)容:
(1)選擇建模技術(shù):確定數(shù)據(jù)挖掘算法和參數(shù),可能會利用多個算法;
(2)測試方案設(shè)計:設(shè)計某種測試模型的質(zhì)量和有效性的機(jī)制;
(3)模型訓(xùn)練:在準(zhǔn)備好的數(shù)據(jù)集上運行數(shù)據(jù)挖掘算法,得出一個或者多個模型。
3.4 模型評估,目標(biāo)導(dǎo)向
模型評估(Evaluation)階段,主要包括以下三個內(nèi)容:
(1)結(jié)果評估:從商業(yè)角度評估得到的模型,甚至實際試用該模型測試其效果;
(2)過程回顧:回顧項目的所有流程,確定每一個階段都沒有失誤;
(3)確定下一步工作:根據(jù)結(jié)果評估和過程回顧得出的結(jié)論,確定是部署該挖掘模型還是從某個階段開始重新開始。
3.5 數(shù)據(jù)展現(xiàn),報表撰寫
一般情況下,數(shù)據(jù)是通過表格和圖形的方式來呈現(xiàn)的。能用圖說明問題的就不用表格,能用表說明問題的就不用文字。
一份好的數(shù)據(jù)分析報告,首先需要有一個好的分析匯報框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結(jié)構(gòu)清晰、主次分明可以使閱讀者正確理解報告內(nèi)容;圖文并茂,可以令數(shù)據(jù)更加生動活潑,提高視覺沖擊力,有助于閱讀者更形象、直觀地看清楚問題和結(jié)論,從而產(chǎn)生思考。
好的數(shù)據(jù)分析報告需要有明確的結(jié)論、建議或解決方案。
4 小結(jié)
數(shù)據(jù)分析行業(yè)是一個朝陽行業(yè),特別是互聯(lián)網(wǎng)的不斷發(fā)展和大數(shù)據(jù)技術(shù)的應(yīng)用和普及,越來越多的企業(yè)需要有數(shù)據(jù)分析師資質(zhì)的專業(yè)人士為他們的項目做出科學(xué)、合理的分析,以便正確決策項目;越來越多的有志之士把數(shù)據(jù)分析知識作為其職業(yè)生涯發(fā)展中必備的知識體系。
參考文獻(xiàn)
[1][美]Nathan Yau.鮮活的數(shù)據(jù)[M].北京:人民郵電出版社,2012(10).
[2]陳哲.數(shù)據(jù)分析企業(yè)的賢內(nèi)助[M].北京:機(jī)械工業(yè)出版社,2013(11).
作者單位
中電福富信息科技有限公司 福建省福州市 350003