因為在之前的回答里提到,建議希望成為數(shù)據分析師的知友們在學習過相關知識以后,做一份自己的數(shù)據報告,作為求職的敲門磚,展示已有能力。后來發(fā)現(xiàn),我這個建議自以為干貨,但其實犯了“給雞湯不給勺子”的錯誤,很多人(>20個)發(fā)私信來問我報告到底怎么做……為了不違反我的人生準則之一——給雞湯必須給勺兒,現(xiàn)在我就來幫初學者們梳理一下數(shù)據報告的制作方法。
目錄:
一、為什么要做一份數(shù)據報告
二、制作數(shù)據報告的流程
三、Q&A
正文:
一、為什么要做一份數(shù)據報告
你是一個在校學生,上著自己喜歡或不喜歡的課,閑來無事,你打開知乎,看到了數(shù)據分析話題,你下定決心要成為一個數(shù)據分析師,你搞來一堆學習資料和在線課程,看完之后自信滿滿,準備去投簡歷,然后發(fā)現(xiàn)不清楚各種工具和模型的適用范圍,也不知道數(shù)據報告需要包括哪些內容,面試的感覺就是一問三不知……
你是一個工作了一段時間的白領,你覺得現(xiàn)在這份工作不適合你,你下班以后去逛知乎上,看到很多人在說大數(shù)據代表未來,數(shù)據分析師是21世紀最性感的十大職業(yè)之一……你激動了,你也要成為數(shù)據分析師,你利用空余時間補上了統(tǒng)計知識,學了分析工具,然后發(fā)現(xiàn)自己目前的工作跟數(shù)據分析沒啥關系,覺得沒有相關經驗沒公司要你……
這些問題的根源是什么?一句話可以概括:你沒有辦法在最短的時間內向招聘者展示,你能夠勝任數(shù)據分析這項工作。
我在之前的回答如何快速成為數(shù)據分析師? – 陳丹奕的回答中,提出過一個“100小時學習計劃”,在開始投簡歷前的最后一步,我建議用25個小時——占整個計劃的四分之一,來做一份數(shù)據報告,這個步驟至少能為你帶來三個好處:
檢驗你的學習成果——數(shù)據分析是一門實用學科,能靈活運用學到的知識做出成果,比通過任何考試都重要;
測試你是否真的想做/適合做數(shù)據分析工作——比起你轉行后用半年或是一年時間來發(fā)現(xiàn)自己的真實想法,不如在此之前就看看你能否做好這份工作,或是從其中得到樂趣;
展示你具有的能力——程序員的世界里講究“No more talk,Show me the code”,數(shù)據分析師同樣可以“Show me the report”,一份內容完整的數(shù)據報告,能幫你的面試官省下很多判斷/評估/糾結的時間,給你更多的機會。
寫了一大堆做數(shù)據報告的好處,那么以一個初學者的水平,如何去做一份數(shù)據報告呢?下文細說。
二、制作數(shù)據報告的流程
可以很清楚的看到,一個數(shù)據報告(副本)依據需求不同,有普通難度(藍->橙->綠->紅),也有英雄難度(藍->橙->綠+黃->紅),這次我們先講普通難度的攻略,英雄難度放到下次講。
普通難度的數(shù)據報告要經歷7個步驟:
Step 1:目標確定
這一步在工作中通常是由你的客戶/上級/其他部門同事/合作方提出來的,但第一次的數(shù)據報告中,需要你自己來提出并確定目標。
選擇目標時,請注意以下幾點:
選擇一個你比較熟悉,或者比較感興趣的領域/行業(yè);
選擇一個范圍比較小的細分領域/細分行業(yè)作為切入點;
確定這個領域/行業(yè)有公開發(fā)表的數(shù)據/可以獲取的UGC內容(論壇帖子,用戶點評等)。
逐一分析上面三個注意點:
選擇熟悉/感興趣的領域/行業(yè),是為了保證你在后續(xù)的分析過程中能夠真正觸及事情的本質——這一過程通常稱為洞察——而不是就數(shù)字論數(shù)字;
選擇細分領域/行業(yè)作為切入點,是為了保證你的報告能夠有一條清晰的主線,而非單純堆砌數(shù)據;
確定公開數(shù)據/UGC內容,是為了保證你有數(shù)據可以分析,可以做成報告,你說你是個軍迷,要分析一下美國在伊拉克的軍事行動與基地組織恐怖活動之間的關系……找到了數(shù)據麻煩告訴我一聲,我叫你一聲大神……
不管用什么方法,你現(xiàn)在有了一個目標,那么就向下個階段邁進吧。
Step 2:數(shù)據獲取
目標定下來了,接下來要去找相應的數(shù)據。如果你制定目標時完全遵循了第一步的三個注意點,那么你現(xiàn)在會很明確要找哪些數(shù)據。如果現(xiàn)在你還不確定自己需要哪些數(shù)據,那么……回到第一步重來吧。
下面我總結一下,在不依賴公司資源,不花錢買數(shù)據的情況下,獲取目標數(shù)據的三類方法:
一是從一些有公開數(shù)據的網站上復制/下載,比如統(tǒng)計局網站,各類行業(yè)網站等,通過搜索引擎可以很容易找到這些網站。舉例:要找汽車銷量數(shù)據,在百度輸入“汽車銷量數(shù)據查詢”關鍵字,結果如下:
我打碼的那個鏈接,也就是第三個鏈接(第一個非推廣鏈接)就是要找的結果,點進去可以看到各月的汽車銷量,但只是全國數(shù)據,沒有分省統(tǒng)計數(shù)據。
當然不會每次找數(shù)據都這么順利,這里只是告訴你:要善用搜索引擎。
二是通過一些專門做數(shù)據整理打包的網站/api來下載,如果你要找金融類的數(shù)據,這種方法比較實用。其他類型的數(shù)據也有人做,但通常要收費。
三是自行收集所需數(shù)據,比如用爬蟲工具爬取點評網站的商家評分、評價內容等,或是直接自己人肉收集(手工復制下來),亦或是找一個免費問卷網站做一份問卷然后散發(fā)給你身邊的人,都是可以的。這種方式受限制較少,但工作量/實現(xiàn)難度相對較大。
如果你是在職人員或是實習生,我建議你不要用任何現(xiàn)在公司的數(shù)據。保證數(shù)據的安全性,不對外泄露公司的任何非公開數(shù)據,是數(shù)據分析師的基本職業(yè)道德。實在非要用(例如你要在面試中展示你在以前公司做過的數(shù)據報告),請將一切有意義的內容,包括但不限于各種數(shù)字、競品及本品名稱、時間、用戶屬性全部打碼并轉成pdf格式,只留圖形和敘事邏輯描述內容。
Step 3:數(shù)據清洗
在工作中,90%以上的情況,你拿到的數(shù)據都需要先做清洗工作,排除異常值、空白值、無效值、重復值等等。這項工作經常會占到整個數(shù)據分析過程將近一半的時間。
如果在上一步中,你的數(shù)據是通過手工復制/下載獲取的,那么通常會比較干凈,不需要做太多清洗工作。但如果數(shù)據是通過爬蟲等方式得來,那么你需要進行清洗,提取核心內容,去掉網頁代碼、標點符號等無用內容。
無論你采用哪一種方式獲取數(shù)據,請記住,數(shù)據清洗永遠是你必須要做的一項工作。
Step 4:數(shù)據整理
清洗過后,需要進行數(shù)據整理,即將數(shù)據整理為能夠進行下一步分析的格式,對于初學者,用Excel來完成這一工作就OK。
如果你的數(shù)據已經是表格形式,那么計算一些二級指標就好,比如用今年銷量和去年銷量算出同比增長率。鑒于你是第一次做數(shù)據報告,建議你不要計算太多復雜的二級指標,基本的同比、環(huán)比、占比分布這些就OK。
如果你收集的是一些非數(shù)字的數(shù)據,比如對商家的點評,那么你進行下一步統(tǒng)計之前,需要通過“關鍵詞-標簽”方式,將句子轉化為標簽,再對標簽進行統(tǒng)計。
Step 5:描述分析
描述分析是最基本的分析統(tǒng)計方法,在實際工作中也是應用最廣的分析方法。描述統(tǒng)計分為兩大部分:數(shù)據描述和指標統(tǒng)計。
數(shù)據描述:用來對數(shù)據進行基本情況的刻畫,包括:數(shù)據總數(shù)、時間跨度、時間粒度、空間范圍、空間粒度、數(shù)據來源等。如果是建模,那么還要看數(shù)據的極值、分布、離散度等內容。這次我們是零基礎做數(shù)據報告,那么就不用考慮后一類數(shù)據了。
指標統(tǒng)計:用來作報告,分析實際情況的數(shù)據指標,可粗略分為四大類:變化、分布、對比、預測;
以上部分引用自我的一個回答面試中針對一個企業(yè)的數(shù)據分析場景應該怎么去分析?應屆生還不懂怎么結合企業(yè)業(yè)務做系統(tǒng)的分析,求指點 – 陳丹奕的回答,希望進一步了解的話,可以進這個答案。描述分析的產出是圖表,下一個步驟的內容將基于這些圖表產出。
Step 6:洞察結論
這一步是數(shù)據報告的核心,也是最能看出數(shù)據分析師水平的部分。一個年輕的分析師和一個年邁的分析師拿到同樣的圖表,完全有可能解讀出不同的內容。
舉個例子:
年輕的分析師:2013年1月銷售額同比上升60%,迎來開門紅。2月銷售額有所下降,3月大幅回升,4月持續(xù)增長。
年邁的分析師:2013年1月、2月銷售額去除春節(jié)因素后,1月實際同比上升20%,2月實際同比上升14%,3月、4月銷售額持續(xù)增長。
看到兩者的區(qū)別了嗎?2013年春節(jié)在2月,2012年則在1月,因此需要各去除一周的銷售額,再進行比較。如果不考慮這一因素,那么后續(xù)得出的所有結論都是錯的。挖掘數(shù)字變化背后的真正影響因素,才是洞察的目標。
再舉個例子:
這張圖是一個用戶行為聚類的結果,人群被聚成四類。前三類人群可以很清楚的得出結論:他們是某一種游戲主機的用戶。那么第四類人群,是什么人群呢?
年輕的分析師:第四類人群是游戲主機的狂熱愛好者,他們交易頻率遠高于一般用戶。
年邁的分析師:第四類人群是二手販子,否則誰沒事一年內會搞將近7臺索尼主機放家里。
很明顯,年邁的分析師由于具備豐富的行業(yè)經驗,能迅速看穿數(shù)據背后的真實情況,得出正確的洞察結論,這也是為什么我在step 1里一再強調要找你熟悉或感興趣的領域/行業(yè),缺乏業(yè)務經驗,很可能你的洞察結果是完全錯誤的。
以上這兩個洞察的例子本身比較簡單,但通常來說,即使是復雜的數(shù)據報告,也是由一個個相對簡單的洞察結論組成的,這其中涉及到問題的分拆,邏輯線的建立等一系列內容。作為初學者,做到自己力所能及的程度就好。
總結一下,所謂洞察,就是要越過數(shù)據,去推測和理解真實情況。單純描述數(shù)據,誰都會做,根據數(shù)據得出有價值的結論,報告才有意義。
Step 7:報告撰寫
都到這一步了,相信各位對數(shù)據報告也不再陌生了。這一步中,需要保證的是數(shù)據報告內容的完整性。
一個完整的數(shù)據報告,應至少包含以下六塊內容:
-
報告背景
-
報告目的
-
數(shù)據來源、數(shù)量等基本情況
-
分頁圖表內容及本頁結論
-
各部分小結及最終總結
-
下一步策略或對趨勢的預測
其中,背景和目的決定了你的報告邏輯(解決什么問題);數(shù)據基本情況告訴對方你用了什么樣的數(shù)據,可信度如何;分頁內容需要按照一定的邏輯來構建,目標仍然是解決報告目的中的問題;小結及總結必不可少;下一步策略或對趨勢的預測能為你的報告加分。
還覺得復雜么?我再換一種說法:
各位應該都寫過議論文,一份好的數(shù)據分析報告其實就是一篇好的議論文,立論(背景)——破題(目的)——列舉論據(圖表+結論)——論證論點(小結及總結)——結題(策略或預測)。按照這個邏輯去組織你的報告,你的論點就很容易被人接受,自然能得高分嘍。
三、Q&A
Q1:我按照數(shù)據收集的方法去找了,但還是找不到數(shù)據怎么辦?
A1:確定你是否認真找了,如果確實沒有,那么換個領域。
Q2:不知道怎么做數(shù)據清洗?
A2:把收集來的數(shù)據先看一遍(如果太多就抽樣),肉眼識別一些臟數(shù)據,記錄下來,然后從中抽取清洗規(guī)則,清洗一遍,再繼續(xù)看,直到認為足夠干凈了為止。這一步不做的話,主要影響結論的正確性。
那么,普通難度的數(shù)據報告做法就講到這里,下次我們來聊聊看似高深的建模。
核心關注:拓步ERP系統(tǒng)平臺是覆蓋了眾多的業(yè)務領域、行業(yè)應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業(yè)務領域的管理,全面涵蓋了企業(yè)關注ERP管理系統(tǒng)的核心領域,是眾多中小企業(yè)信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://www.ezxoed.cn/
本文標題:教程:幫初學者們梳理一下數(shù)據報告的制作方法
本文網址:http://www.ezxoed.cn/html/support/11121518823.html