大數(shù)據(jù)分析流程

大數(shù)據(jù) 分析 流程| 2022-09-05 admin

一、為什么要做一份數(shù)據(jù)報(bào)告

你是一個(gè)在校學(xué)生,上著自己喜歡或不喜歡的課,閑來(lái)無(wú)事,你打開知乎,看到了數(shù)據(jù)分析話題,你下定決心要成為一個(gè)數(shù)據(jù)分析師,你搞來(lái)一堆學(xué)習(xí)資料和在線課程,看完之后自信滿滿,準(zhǔn)備去投簡(jiǎn)歷,然后發(fā)現(xiàn)不清楚各種工具和模型的適用范圍,也不知道數(shù)據(jù)報(bào)告需要包括哪些內(nèi)容,面試的感覺就是一問(wèn)三不知……

你是一個(gè)工作了一段時(shí)間的白領(lǐng),你覺得現(xiàn)在這份工作不適合你,你下班以后去逛知乎,在上面看到很多人在說(shuō)大數(shù)據(jù)代表未來(lái),數(shù)據(jù)分析師是21世紀(jì)最性感的十大職業(yè)之一……你激動(dòng)了,你也要成為數(shù)據(jù)分析師,你利用空余時(shí)間補(bǔ)上了統(tǒng)計(jì)知識(shí),學(xué)了分析工具,然后發(fā)現(xiàn)自己目前的工作跟數(shù)據(jù)分析沒啥關(guān)系,覺得沒有相關(guān)經(jīng)驗(yàn)沒公司要你……

這些問(wèn)題的根源是什么?一句話可以概括:你沒有辦法在最短的時(shí)間內(nèi)向招聘者展示,你能夠勝任數(shù)據(jù)分析這項(xiàng)工作。

在開始投簡(jiǎn)歷前的最后一步,我建議用25個(gè)小時(shí)——占整個(gè)計(jì)劃的四分之一,來(lái)做一份數(shù)據(jù)報(bào)告,這個(gè)步驟至少能為你帶來(lái)三個(gè)好處:

檢驗(yàn)?zāi)愕膶W(xué)習(xí)成果——數(shù)據(jù)分析是一門實(shí)用學(xué)科,能靈活運(yùn)用學(xué)到的知識(shí)做出成果,比通過(guò)任何考試都重要

測(cè)試你是否真的想做/適合做數(shù)據(jù)分析工作——比起你轉(zhuǎn)行后用半年或是一年時(shí)間來(lái)發(fā)現(xiàn)自己的真實(shí)想法,不如在此之前就看看你能否做好這份工作,或是從其中得到樂(lè)趣;

展示你具有的能力——程序員的世界里講究“No more talk,Show me the code”,數(shù)據(jù)分析師同樣可以“Show me the report”,一份內(nèi)容完整的數(shù)據(jù)報(bào)告,能幫你的面試官省下很多判斷/評(píng)估/糾結(jié)的時(shí)間,給你更多的機(jī)會(huì)。

寫了一大堆做數(shù)據(jù)報(bào)告的好處,那么以一個(gè)初學(xué)者的水平,如何去做一份數(shù)據(jù)報(bào)告呢?下文細(xì)說(shuō)。

二、制作數(shù)據(jù)報(bào)告的流程

一個(gè)數(shù)據(jù)報(bào)告(副本)依據(jù)需求不同,有普通難度(藍(lán)->橙->綠->紅),也有英雄難度(藍(lán)->橙->綠+黃->紅),這次我們先講普通難度的攻略,英雄難度放到下次講。

普通難度的數(shù)據(jù)報(bào)告要經(jīng)歷7個(gè)步驟:

Step 1:目標(biāo)確定

這一步在工作中通常是由你的客戶/上級(jí)/其他部門同事/合作方提出來(lái)的,但第一次的數(shù)據(jù)報(bào)告中,需要你自己來(lái)提出并確定目標(biāo)。

選擇目標(biāo)時(shí),請(qǐng)注意以下幾點(diǎn):

選擇一個(gè)你比較熟悉,或者比較感興趣的領(lǐng)域/行業(yè);

選擇一個(gè)范圍比較小的細(xì)分領(lǐng)域/細(xì)分行業(yè)作為切入點(diǎn);

確定這個(gè)領(lǐng)域/行業(yè)有公開發(fā)表的數(shù)據(jù)/可以獲取的UGC內(nèi)容(論壇帖子,用戶點(diǎn)評(píng)等)。

逐一分析上面三個(gè)注意點(diǎn):

選擇熟悉/感興趣的領(lǐng)域/行業(yè),是為了保證你在后續(xù)的分析過(guò)程中能夠真正觸及事情的本質(zhì)——這一過(guò)程通常稱為洞察——而不是就數(shù)字論數(shù)字;

選擇細(xì)分領(lǐng)域/行業(yè)作為切入點(diǎn),是為了保證你的報(bào)告能夠有一條清晰的主線,而非單純堆砌數(shù)據(jù);

確定公開數(shù)據(jù)/UGC內(nèi)容,是為了保證你有數(shù)據(jù)可以分析,可以做成報(bào)告,你說(shuō)你是個(gè)軍迷,要分析一下美國(guó)在伊拉克的軍事行動(dòng)與基地組織恐怖活動(dòng)之間的關(guān)系……找到了數(shù)據(jù)麻煩告訴我一聲,我叫你一聲大神……

不管用什么方法,你現(xiàn)在有了一個(gè)目標(biāo),那么就向下個(gè)階段邁進(jìn)吧。

Step 2:數(shù)據(jù)獲取

目標(biāo)定下來(lái)了,接下來(lái)要去找相應(yīng)的數(shù)據(jù)。如果你制定目標(biāo)時(shí)完全遵循了第一步的三個(gè)注意點(diǎn),那么你現(xiàn)在會(huì)很明確要找哪些數(shù)據(jù)。如果現(xiàn)在你還不確定自己需要哪些數(shù)據(jù),那么……回到第一步重來(lái)吧。

下面我總結(jié)一下,在不依賴公司資源,不花錢買數(shù)據(jù)的情況下,獲取目標(biāo)數(shù)據(jù)的三類方法:

1.從一些有公開數(shù)據(jù)的網(wǎng)站上復(fù)制/下載,比如統(tǒng)計(jì)局網(wǎng)站,各類行業(yè)網(wǎng)站等,通過(guò)搜索引擎可以很容易找到這些網(wǎng)站。舉例:要找汽車銷量數(shù)據(jù),在百度輸入“汽車銷量數(shù)據(jù)查詢”關(guān)鍵字,結(jié)果如下:

我打碼的那個(gè)鏈接,也就是第三個(gè)鏈接(第一個(gè)非推廣鏈接)就是要找的結(jié)果,點(diǎn)進(jìn)去可以看到各月的汽車銷量,但只是全國(guó)數(shù)據(jù),沒有分省統(tǒng)計(jì)數(shù)據(jù)。當(dāng)然不會(huì)每次找數(shù)據(jù)都這么順利,這里只是告訴你:要善用搜索引擎。

2.通過(guò)一些專門做數(shù)據(jù)整理打包的網(wǎng)站/api來(lái)下載,如果你要找金融類的數(shù)據(jù),這種方法比較實(shí)用。其他類型的數(shù)據(jù)也有人做,但通常要收費(fèi)。

3.自行收集所需數(shù)據(jù),比如用爬蟲工具爬取點(diǎn)評(píng)網(wǎng)站的商家評(píng)分、評(píng)價(jià)內(nèi)容等,或是直接自己人肉收集(手工復(fù)制下來(lái)),亦或是找一個(gè)免費(fèi)問(wèn)卷網(wǎng)站做一份問(wèn)卷然后散發(fā)給你身邊的人,都是可以的。這種方式受限制較少,但工作量/實(shí)現(xiàn)難度相對(duì)較大。

如果你是在職人員或是實(shí)習(xí)生,我建議你不要用任何現(xiàn)在公司的數(shù)據(jù)。保證數(shù)據(jù)的安全性,不對(duì)外泄露公司的任何非公開數(shù)據(jù),是數(shù)據(jù)分析師的基本職業(yè)道德。

實(shí)在非要用(例如你要在面試中展示你在以前公司做過(guò)的數(shù)據(jù)報(bào)告),請(qǐng)將一切有意義的內(nèi)容,包括但不限于各種數(shù)字、競(jìng)品及本品名稱、時(shí)間、用戶屬性全部打碼并轉(zhuǎn)成pdf格式,只留圖形和敘事邏輯描述內(nèi)容。

Step 3:數(shù)據(jù)清洗

在工作中,90%以上的情況,你拿到的數(shù)據(jù)都需要先做清洗工作,排除異常值、空白值、無(wú)效值、重復(fù)值等等。這項(xiàng)工作經(jīng)常會(huì)占到整個(gè)數(shù)據(jù)分析過(guò)程將近一半的時(shí)間。

如果在上一步中,你的數(shù)據(jù)是通過(guò)手工復(fù)制/下載獲取的,那么通常會(huì)比較干凈,不需要做太多清洗工作。但如果數(shù)據(jù)是通過(guò)爬蟲等方式得來(lái),那么你需要進(jìn)行清洗,提取核心內(nèi)容,去掉網(wǎng)頁(yè)代碼、標(biāo)點(diǎn)符號(hào)等無(wú)用內(nèi)容。

無(wú)論你采用哪一種方式獲取數(shù)據(jù),請(qǐng)記住,數(shù)據(jù)清洗永遠(yuǎn)是你必須要做的一項(xiàng)工作。

Step 4:數(shù)據(jù)整理

清洗過(guò)后,需要進(jìn)行數(shù)據(jù)整理,即將數(shù)據(jù)整理為能夠進(jìn)行下一步分析的格式,對(duì)于初學(xué)者,用Excel來(lái)完成這一工作就OK。

如果你的數(shù)據(jù)已經(jīng)是表格形式,那么計(jì)算一些二級(jí)指標(biāo)就好,比如用今年銷量和去年銷量算出同比增長(zhǎng)率。鑒于你是第一次做數(shù)據(jù)報(bào)告,建議你不要計(jì)算太多復(fù)雜的二級(jí)指標(biāo),基本的同比、環(huán)比、占比分布這些就OK。

如果你收集的是一些非數(shù)字的數(shù)據(jù),比如對(duì)商家的點(diǎn)評(píng),那么你進(jìn)行下一步統(tǒng)計(jì)之前,需要通過(guò)“關(guān)鍵詞-標(biāo)簽”方式,將句子轉(zhuǎn)化為標(biāo)簽,再對(duì)標(biāo)簽進(jìn)行統(tǒng)計(jì)。

Step 5:描述分析

描述分析是最基本的分析統(tǒng)計(jì)方法,在實(shí)際工作中也是應(yīng)用最廣的分析方法。描述統(tǒng)計(jì)分為兩大部分:數(shù)據(jù)描述和指標(biāo)統(tǒng)計(jì)。

數(shù)據(jù)描述:用來(lái)對(duì)數(shù)據(jù)進(jìn)行基本情況的刻畫,包括:數(shù)據(jù)總數(shù)、時(shí)間跨度、時(shí)間粒度、空間范圍、空間粒度、數(shù)據(jù)來(lái)源等。如果是建模,那么還要看數(shù)據(jù)的極值、分布、離散度等內(nèi)容。這次我們是零基礎(chǔ)做數(shù)據(jù)報(bào)告,那么就不用考慮后一類數(shù)據(jù)了。

指標(biāo)統(tǒng)計(jì):用來(lái)作報(bào)告,分析實(shí)際情況的數(shù)據(jù)指標(biāo),可粗略分為四大類:變化、分布、對(duì)比、預(yù)測(cè);

變化:指標(biāo)隨時(shí)間的變動(dòng),表現(xiàn)為增幅(同比、環(huán)比等);

分布:指標(biāo)在不同層次上的表現(xiàn),包括地域分布(省、市、區(qū)縣、店/網(wǎng)點(diǎn))、用戶群分布(年齡、性別、職業(yè)等)、產(chǎn)品分布(如動(dòng)感地帶和全球通)等;

對(duì)比:包括內(nèi)部對(duì)比和外部對(duì)比,內(nèi)部對(duì)比包括團(tuán)隊(duì)對(duì)比(團(tuán)隊(duì)A與B的單產(chǎn)對(duì)比、銷量對(duì)比等)、產(chǎn)品線對(duì)比(動(dòng)感地帶和全球通的ARPU、用戶數(shù)、收入對(duì)比);外部對(duì)比主要是與市場(chǎng)環(huán)境和競(jìng)爭(zhēng)者對(duì)比;這一部分和分布有重疊的地方,但分布更多用于找出好或壞的地方,而對(duì)比更偏重于找到好或壞的原因;

預(yù)測(cè):根據(jù)現(xiàn)有情況,估計(jì)下個(gè)分析時(shí)段的指標(biāo)值。

描述分析的產(chǎn)出是圖表,下一個(gè)步驟的內(nèi)容將基于這些圖表產(chǎn)出。

Step 6:洞察結(jié)論

這一步是數(shù)據(jù)報(bào)告的核心,也是最能看出數(shù)據(jù)分析師水平的部分。一個(gè)年輕的分析師和一個(gè)年邁的分析師拿到同樣的圖表,完全有可能解讀出不同的內(nèi)容。

舉個(gè)例子:

年輕的分析師:2013年1月銷售額同比上升60%,迎來(lái)開門紅。2月銷售額有所下降,3月大幅回升,4月持續(xù)增長(zhǎng)。

年邁的分析師:2013年1月、2月銷售額去除春節(jié)因素后,1月實(shí)際同比上升20%,2月實(shí)際同比上升14%,3月、4月銷售額持續(xù)增長(zhǎng)。

看到兩者的區(qū)別了嗎?2013年春節(jié)在2月,2012年則在1月,因此需要各去除一周的銷售額,再進(jìn)行比較。如果不考慮這一因素,那么后續(xù)得出的所有結(jié)論都是錯(cuò)的。挖掘數(shù)字變化背后的真正影響因素,才是洞察的目標(biāo)。

再舉個(gè)例子:

一個(gè)用戶行為聚類的結(jié)果,人群被聚成四類。前三類人群可以很清楚的得出結(jié)論:他們是某一種游戲主機(jī)的用戶。那么第四類人群,是什么人群呢?

年輕的分析師:第四類人群是游戲主機(jī)的狂熱愛好者,他們交易頻率遠(yuǎn)高于一般用戶。

年邁的分析師:第四類人群是二手販子,否則誰(shuí)沒事一年內(nèi)會(huì)搞將近7臺(tái)索尼主機(jī)放家里。

很明顯,年邁的分析師由于具備豐富的行業(yè)經(jīng)驗(yàn),能迅速看穿數(shù)據(jù)背后的真實(shí)情況,得出正確的洞察結(jié)論,這也是為什么我在step 1里一再?gòu)?qiáng)調(diào)要找你熟悉或感興趣的領(lǐng)域/行業(yè),缺乏業(yè)務(wù)經(jīng)驗(yàn),很可能你的洞察結(jié)果是完全錯(cuò)誤的。

以上這兩個(gè)洞察的例子本身比較簡(jiǎn)單,但通常來(lái)說(shuō),即使是復(fù)雜的數(shù)據(jù)報(bào)告,也是由一個(gè)個(gè)相對(duì)簡(jiǎn)單的洞察結(jié)論組成的,這其中涉及到問(wèn)題的分拆,邏輯線的建立等一系列內(nèi)容。作為初學(xué)者,做到自己力所能及的程度就好。

總結(jié)一下,所謂洞察,就是要越過(guò)數(shù)據(jù),去推測(cè)和理解真實(shí)情況。單純描述數(shù)據(jù),誰(shuí)都會(huì)做,根據(jù)數(shù)據(jù)得出有價(jià)值的結(jié)論,報(bào)告才有意義。

Step 7:報(bào)告撰寫

都到這一步了,相信各位對(duì)數(shù)據(jù)報(bào)告也不再陌生了。這一步中,需要保證的是數(shù)據(jù)報(bào)告內(nèi)容的完整性。

一個(gè)完整的數(shù)據(jù)報(bào)告,應(yīng)至少包含以下六塊內(nèi)容:

1.報(bào)告背景

2.報(bào)告目的

3.數(shù)據(jù)來(lái)源、數(shù)量等基本情況

4.分頁(yè)圖表內(nèi)容及本頁(yè)結(jié)論

5.各部分小結(jié)及最終總結(jié)

6.下一步策略或?qū)厔?shì)的預(yù)測(cè)

其中,背景和目的決定了你的報(bào)告邏輯(解決什么問(wèn)題);數(shù)據(jù)基本情況告訴對(duì)方你用了什么樣的數(shù)據(jù),可信度如何;分頁(yè)內(nèi)容需要按照一定的邏輯來(lái)構(gòu)建,目標(biāo)仍然是解決報(bào)告目的中的問(wèn)題;小結(jié)及總結(jié)必不可少;下一步策略或?qū)厔?shì)的預(yù)測(cè)能為你的報(bào)告加分。

還覺得復(fù)雜么?我再換一種說(shuō)法:

各位應(yīng)該都寫過(guò)議論文,一份好的數(shù)據(jù)分析報(bào)告其實(shí)就是一篇好的議論文,立論(背景)——破題(目的)——列舉論據(jù)(圖表+結(jié)論)——論證論點(diǎn)(小結(jié)及總結(jié))——結(jié)題(策略或預(yù)測(cè))。按照這個(gè)邏輯去組織你的報(bào)告,你的論點(diǎn)就很容易被人接受,自然能得高分嘍。

那么,普通難度的數(shù)據(jù)報(bào)告做法就是這樣了。高深的固然要更難一些,但是普通的已經(jīng)將整體的路徑將的很清楚了。