錢汐陽
數(shù)據(jù)分析涉及很多知識點,對于分析人員來說,過程很重要,是一個發(fā)現(xiàn)業(yè)務(wù)價值、探索業(yè)務(wù)價值的過程,但對于領(lǐng)導(dǎo)來說,結(jié)果才最重要,只有可落地實施、可帶來實際效益的結(jié)果才是數(shù)據(jù)分析價值的體現(xiàn)。所以,流程中的每一步鋪墊與探索都是為了最終的業(yè)務(wù)價值的實現(xiàn)。
數(shù)據(jù)分析SOP流程
數(shù)據(jù)分析包括四大階段:
需求處理階段———考驗溝通理解能力;
數(shù)據(jù)處理階段———考驗數(shù)據(jù)清洗及SQL、python等工具使用能力;
數(shù)據(jù)分析與展現(xiàn)階段———考驗分析應(yīng)用與可視化展現(xiàn)能力;
復(fù)盤跟蹤階段———考驗反省優(yōu)化能力。
其實數(shù)據(jù)分析一句話就是:將一堆無序的海量數(shù)據(jù)經(jīng)過一系列清洗、處理、規(guī)整和加工展現(xiàn),提煉出痛點及機會,從而驅(qū)動業(yè)務(wù)增長、輔助業(yè)務(wù)決策。
發(fā)現(xiàn)問題
問題千千萬,需從中找出有效問題。有效問題就是有價值的問題,這涉及了什么業(yè)務(wù),與什么指標(biāo)相關(guān),有多大的影響,能解決什么難題,受宏觀影響還是微觀影響,無法避免還是本可避免等。發(fā)現(xiàn)問題,可以從幾個方面著手:與歷史對比、與總體對比、與競品對比、與目標(biāo)對比、與經(jīng)驗對比等。
需求處理階段
需求分2部分:他人驅(qū)動與自我驅(qū)動。
他人驅(qū)動
通常由業(yè)務(wù)方、上級領(lǐng)導(dǎo)等需求方發(fā)現(xiàn)問題,提出需求。這里可能會存在需求不明確的問題,既增加溝通成本,又耗費時間成本,分析師將需求完成之后,需求方才發(fā)現(xiàn)自己需求并未解決,成了無意義的工作、低成本的分析。
所以需要清晰需求方的痛點,了解清楚需求背景、需求目的、指標(biāo)口徑、數(shù)據(jù)需求范圍、數(shù)據(jù)需求維度和需求的期望排期等。
另外還需明確一點,數(shù)據(jù)展示聚合還是明細(xì)。如果展示聚合,需要按照什么維度聚合、什么方式聚合;如果需要展示明細(xì),就要搞清楚為什么需要的是明細(xì)數(shù)據(jù),因為明細(xì)數(shù)據(jù)量會比較大,既涉及數(shù)據(jù)安全,也會給調(diào)取數(shù)據(jù)帶來壓力。
有時候需求方要求明細(xì)數(shù)據(jù),他們拿到明細(xì)數(shù)據(jù)之后還要再用excel去聚合做數(shù)據(jù)處理。其實這一步驟分析師完全可以直接用SQL或者BI產(chǎn)品解決,也就是說這個明細(xì)數(shù)據(jù)并不能一步到位讓需求方看到想看到的數(shù)據(jù),所以需要引導(dǎo)需求方了解他們需求的真正目的。這就需要做到拆解需求,將抽象的需求具體化,復(fù)雜的需求簡單化。
自我驅(qū)動
分析師本人發(fā)現(xiàn)問題,探索解決問題的方案。比如某個指標(biāo)波動異常,先于業(yè)務(wù)方發(fā)現(xiàn)并解決問題,再比如專門負(fù)責(zé)某一個項目,主動通過數(shù)據(jù)探索項目優(yōu)化方案。
數(shù)據(jù)采集
數(shù)據(jù)采集的目的是為了在分析中使用,多數(shù)情況下用到的是聚合數(shù)據(jù)。數(shù)據(jù)采集分為內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)2種。
內(nèi)部數(shù)據(jù)
需要梳理清楚這個需求需要什么數(shù)據(jù),需要判別需要的數(shù)據(jù)是否能從現(xiàn)有數(shù)據(jù)庫中獲取。如果可以,應(yīng)該從哪個庫中的哪個表獲???這個表中字段的口徑和需求所需的字段口徑是否一致?
如果現(xiàn)有數(shù)據(jù)庫中沒有現(xiàn)成的數(shù)據(jù)可以滿足需求,就需要梳理好口徑請數(shù)倉管理員重新落表。
如果現(xiàn)有數(shù)據(jù)庫中有表可以滿足,但是需要通過SQL層層關(guān)聯(lián)才能從數(shù)據(jù)庫中獲取聚合數(shù)據(jù),最好的方式是請數(shù)倉管理員將所需的聚合數(shù)據(jù)落成數(shù)據(jù)庫表,這樣一方面使用起來較為簡單,另一方面也減少了數(shù)據(jù)展現(xiàn)層的BI端連接數(shù)據(jù)的壓力。
外部數(shù)據(jù)
行業(yè)報告數(shù)據(jù):比如艾瑞網(wǎng)、極光大數(shù)據(jù)、阿里研究所、199IT互聯(lián)網(wǎng)數(shù)據(jù)中心等都會不時地發(fā)一些行業(yè)分析報告。整個行業(yè)的數(shù)據(jù)公司內(nèi)部是無法獲取的,所以可以從一些行業(yè)分析報告入手。
問卷采集,通過問卷數(shù)據(jù)獲取一些產(chǎn)品中無法獲得的數(shù)據(jù)輔助分析,包括:
①主觀想法:喜歡產(chǎn)品的原因是什么?產(chǎn)品最吸引您的點是什么?您覺得產(chǎn)品最應(yīng)該改進(jìn)的點是什么?
②對競品的行為:您在xx場景下更愿意使用A產(chǎn)品、B產(chǎn)品還是C產(chǎn)品?
③用戶習(xí)慣的場景:您在什么場景下更愿意使用xx產(chǎn)品?
宏觀數(shù)據(jù),指標(biāo)有時候也會受到宏觀政策的影響。比如在xx日出具了xx政策,本公司產(chǎn)品在該政策之前與之后變化有多大等。確保能獲取核心的關(guān)鍵性數(shù)據(jù),為下一步做準(zhǔn)備。
數(shù)據(jù)處理
對分析師而言,這步需要分析師將數(shù)據(jù)根據(jù)腦中的分析框架處理成所需要的數(shù)據(jù)。會涉及數(shù)據(jù)異常值處理、缺失值處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)聚合、數(shù)據(jù)分組歸類以及數(shù)據(jù)準(zhǔn)確性的校驗,為下一步的數(shù)據(jù)分析奠定好基礎(chǔ)。
總之,井井有條的數(shù)據(jù)更有利于分析。
數(shù)據(jù)分析
硬實力
數(shù)據(jù)調(diào)?。篗ySQL,SparkSQL,Hive,impala,PostgreSQL,Oracle等;
數(shù)據(jù)清洗或建模:Python,SPSS等;
數(shù)據(jù)可視化:Tableau,F(xiàn)ine BI,Quick BI,PowerBI等;
數(shù)據(jù)分析報告:ppt,Excel,word。
以上硬實力并不是說全部都需要,針對不同的崗位性質(zhì)需要不同的技能。比如有的分析只需要會SQL、可視化工具或者寫分析報告就可以了,有的分析額外還需要會python建模等。
軟實力
統(tǒng)計知識:描述性統(tǒng)計、邏輯回歸、假設(shè)檢驗等;
排查問題的能力;
溝通能力:與業(yè)務(wù)方、數(shù)倉、上級領(lǐng)導(dǎo)溝通;
歸納總結(jié)能力:從一系列分析中歸納出最重要的點;
數(shù)據(jù)敏感度。
軟實力更重要,工具大家認(rèn)真學(xué)都能學(xué)會,軟實力卻是實打?qū)嵉膫€人特色與魅力。
數(shù)據(jù)展現(xiàn)
以上準(zhǔn)備都做好之后,就到了數(shù)據(jù)應(yīng)用層———數(shù)據(jù)展現(xiàn)。數(shù)據(jù)展現(xiàn)普遍來說,有2種形式:數(shù)據(jù)分析報告和可視化報表。
數(shù)據(jù)分析報告
數(shù)據(jù)分析報告要素:數(shù)據(jù)調(diào)取時間、報告出具時間、報告負(fù)責(zé)人、數(shù)據(jù)維度、分析背景、分析目的、結(jié)論要點和附表等。
注意:最好將要點總結(jié)放在上面,這樣看報告的人可以第一時間清楚要點,然后再針對性去看每個要點的分析。
結(jié)論要點總結(jié),求精不求多。一張圖盡量表明一個觀點,而如果一張圖涉及很多種指標(biāo),傳達(dá)很多種觀點,容易造成干擾。
一份有價值的分析報告才是成果的展現(xiàn)。
BI報表
不管是采取外購的BI產(chǎn)品還是自研,都需要有一種敏捷BI來為數(shù)據(jù)應(yīng)用提供一種入口。
數(shù)據(jù)可視化旨在將復(fù)雜數(shù)據(jù)圖片化,幫助人更好地分析數(shù)據(jù)??梢暬⒉皇菃渭兊恼故緮?shù)據(jù),而是使分析結(jié)果可視化,注意“分析結(jié)果”這4個字。借助于圖形,清晰有效地傳達(dá)與溝通問題。舉個例子,可視化相較于數(shù)據(jù),好比照片相較于文字。一張好的照片可以讓人瞬間發(fā)現(xiàn)其中的亮點,而無需在大量文字中去提取。一份優(yōu)秀的可視化可以讓人瞬間發(fā)現(xiàn)數(shù)據(jù)要傳達(dá)的含義,重點在于直觀的展示,而非簡單的好看。
數(shù)據(jù)是思想,可視化是表達(dá)方式。想象一下,倘若公司沒有可視化,員工會在數(shù)據(jù)處理上耗費大量的時間,于員工而言,耗時耗力;于企業(yè)而言,員工因數(shù)據(jù)處理而導(dǎo)致的加班增加了開支成本,且管理層無法第一時間迅速獲得有效信息。
持續(xù)跟蹤
一份分析報告的完成以及一份BI報表的上線,并不是分析的終點。分析需要可持續(xù)化的復(fù)盤跟蹤,比如:
①跟蹤分析方案有沒有為公司帶來實質(zhì)性的價值。該方案執(zhí)行一段時間后,需要進(jìn)行執(zhí)行后VS執(zhí)行前的對比分析,跟蹤分析方案有沒有為公司帶來實質(zhì)性的價值;
②跟蹤分析數(shù)據(jù)指標(biāo)異動的原因。上線了新的報表之后,需要跟蹤下報表上指標(biāo)的變化,及時感知數(shù)據(jù)是否出現(xiàn)異動以及探索異動的原因;
③跟蹤分析數(shù)據(jù)實際表現(xiàn)與目標(biāo)的差距。通過對歷史數(shù)據(jù)的歸納總結(jié),聚焦實際表現(xiàn)與目標(biāo)的主要差距,量化分析優(yōu)勢與不足。
持續(xù)化的復(fù)盤跟蹤,有助于查漏補缺、完善方案,更有助于探索數(shù)據(jù)深層次的含義、及時感知數(shù)據(jù)的異常波動,提升自我價值與業(yè)務(wù)價值。
分析其實就是要摸清楚需求對象是誰,關(guān)注點是什么,需要解決什么問題?過程服務(wù)于業(yè)務(wù),分析師不是一線,但與一線人員息息相關(guān)。