作為一名數(shù)據(jù)分析師,我仿佛是個(gè)數(shù)據(jù)黑洞,領(lǐng)導(dǎo)、業(yè)務(wù)負(fù)責(zé)人有啥數(shù)據(jù)需求都丟給我,而我卻只能照單全收?每天的工作都泡在數(shù)據(jù)里,滿眼望去是洗不完的數(shù)據(jù)和做不完的表格!OH ON~這不是我要的生活。
這樣的場(chǎng)景是否覺(jué)得有點(diǎn)熟悉?其實(shí)數(shù)據(jù)分析師的日常工作確實(shí)是跟數(shù)據(jù)打交道,如何有規(guī)劃、有目標(biāo)、有序的進(jìn)行工作則是一枚數(shù)據(jù)老炮和數(shù)據(jù)萌新的區(qū)別所在。
言歸正傳,讓我們來(lái)看看數(shù)據(jù)老炮們都是怎么樣開(kāi)展日常工作的?
一、數(shù)據(jù)分析師的工作流程1、收集數(shù)據(jù)
數(shù)據(jù)分析師的工作第一步就是收集數(shù)據(jù),如果是內(nèi)部數(shù)據(jù),可以用SQL進(jìn)行取數(shù),如果是要獲取外部數(shù)據(jù),數(shù)據(jù)的可靠真實(shí)性和全面性其實(shí)很難保證。在所有獲取外部數(shù)據(jù)的渠道中,網(wǎng)絡(luò)采集越來(lái)越受到大家的關(guān)注。網(wǎng)絡(luò)采集最常用的方法是通過(guò)爬蟲(chóng)獲取數(shù)據(jù),相比較而言,編寫(xiě)爬蟲(chóng)程序獲取到的海量數(shù)據(jù)更為真實(shí)、全面,在信息繁榮的互聯(lián)網(wǎng)時(shí)代更為行之有效。如果是分布式系統(tǒng)的大數(shù)據(jù),使用Hadoop和Apache Spark兩者進(jìn)行選取和清理。
可以看出,光是收集數(shù)據(jù)就要用到各種不同的計(jì)算機(jī)語(yǔ)言和知識(shí)了。如果一個(gè)數(shù)據(jù)分析師只會(huì)SQL取數(shù)是不夠的,會(huì)逐漸被市場(chǎng)淘汰。因?yàn)镾QL數(shù)據(jù)庫(kù)無(wú)法支持大量的數(shù)據(jù)流量,無(wú)法支持SparkStreaming的實(shí)時(shí)
數(shù)據(jù)采集。
2、數(shù)據(jù)清洗
數(shù)據(jù)清洗是一個(gè)非常耗時(shí)的工作,很多數(shù)據(jù)分析師有可能80%的精力都在處理清洗數(shù)據(jù),包括字段提取、整合歸一、規(guī)范化。數(shù)據(jù)在現(xiàn)有的商業(yè)環(huán)境中才開(kāi)始逐漸重視,故數(shù)據(jù)采集整理非常重要,許多公司都在開(kāi)始重視數(shù)據(jù)背后的重要價(jià)值,故會(huì)把歷史數(shù)據(jù)拿出來(lái)處理加工。
數(shù)據(jù)清洗的結(jié)果質(zhì)量高低也會(huì)直接關(guān)系到模型效果和最終結(jié)論。國(guó)外有些學(xué)術(shù)機(jī)構(gòu)會(huì)專門(mén)研究如何做數(shù)據(jù)清洗,相關(guān)的書(shū)籍也不少。需要進(jìn)行處理的數(shù)據(jù)大概分成以下幾種:缺失值、重復(fù)值、異常值和數(shù)據(jù)類型有誤的數(shù)據(jù)。
3、數(shù)據(jù)初加工
這里包含了數(shù)據(jù)描述性統(tǒng)計(jì)(比如極值,最值,均值,方差,分布),這種初步加工目的是為了大體了解這些數(shù)據(jù)的基本概況,這是初始業(yè)務(wù)必須要做的,從這些數(shù)據(jù)中一定程度上還能能夠反映日常業(yè)務(wù)變況。
4、數(shù)據(jù)可視化
數(shù)據(jù)可視化是為了準(zhǔn)確且高效、精簡(jiǎn)而全面地傳遞出數(shù)據(jù)帶來(lái)的信息和知識(shí)。可視化能將不可見(jiàn)的數(shù)據(jù)現(xiàn)象轉(zhuǎn)化為可見(jiàn)的圖形符號(hào),能將錯(cuò)綜復(fù)雜、看起來(lái)沒(méi)法解釋和關(guān)聯(lián)的數(shù)據(jù),建立起聯(lián)系和關(guān)聯(lián),發(fā)現(xiàn)規(guī)律和特征,獲得更有商業(yè)價(jià)值的洞見(jiàn)和價(jià)值。在利用了合適的圖表后,直截了當(dāng)且清晰而直觀地表達(dá)出來(lái),實(shí)現(xiàn)了讓數(shù)據(jù)說(shuō)話的目的。人類右腦記憶圖像的速度比左腦記憶抽象的文字快100萬(wàn)倍,這也就是為什么數(shù)據(jù)可視化能夠加深和強(qiáng)化受眾對(duì)于數(shù)據(jù)的理解和記憶。
這里會(huì)涉及到做基本報(bào)表,反映日常業(yè)務(wù)態(tài)勢(shì)包含基本業(yè)務(wù)總體概況,同環(huán)比分析,并去查找業(yè)務(wù)邏輯數(shù)據(jù)表現(xiàn)的原因,當(dāng)然里面會(huì)涉及到數(shù)據(jù)可視化圖表(折線圖,旋風(fēng)圖,散點(diǎn)圖,柱形圖)等等,諸多數(shù)據(jù)分析方法論
5、挖掘數(shù)據(jù)價(jià)值
不同行業(yè)和領(lǐng)域的側(cè)重點(diǎn)是不同的,可以是商業(yè)策略,也可以是市場(chǎng)營(yíng)銷,是不固定的,要依據(jù)公司的戰(zhàn)略發(fā)展走。許多行業(yè)都是需要數(shù)據(jù)分析師的存在,像金融、制藥、生物、政治、歷史、經(jīng)濟(jì)、新聞傳媒、物流、時(shí)尚、旅游、環(huán)保……對(duì)一個(gè)領(lǐng)域有了充分的理解和在該領(lǐng)域深入從事的經(jīng)驗(yàn),進(jìn)而體現(xiàn)在數(shù)據(jù)分析上時(shí),能夠更好地發(fā)現(xiàn)并定義出實(shí)際的問(wèn)題,也就可以在數(shù)據(jù)分析之后更符合行業(yè)發(fā)展規(guī)律地去改進(jìn)問(wèn)題并挖掘數(shù)據(jù)價(jià)值,給公司決策有所幫助。
二、數(shù)據(jù)分析師常使用的工具推薦1、數(shù)據(jù)處理工具:Excel
數(shù)據(jù)分析師,在有些公司也會(huì)有數(shù)據(jù)產(chǎn)品經(jīng)理、數(shù)據(jù)挖掘工程師等等。他們最初級(jí)最主要的工具就是Excel。有些公司也會(huì)涉及到像Visio,Xmind、PPT等設(shè)計(jì)圖標(biāo)數(shù)據(jù)分析方面的高級(jí)技巧。數(shù)據(jù)分析師是一個(gè)需要擁有較強(qiáng)綜合能力的崗位,因此,在有些互聯(lián)網(wǎng)公司仍然需要數(shù)據(jù)透視表演練、Vision跨職能流程圖演練、Xmind項(xiàng)目計(jì)劃導(dǎo)圖演練、PPT高級(jí)動(dòng)畫(huà)技巧等。
在Excel,需要重點(diǎn)了解數(shù)據(jù)處理的重要技巧及函數(shù)的應(yīng)用,特別是數(shù)據(jù)清理技術(shù)的應(yīng)用。這項(xiàng)運(yùn)用能對(duì)數(shù)據(jù)去偽存真,掌握數(shù)據(jù)主動(dòng)權(quán),全面掌控?cái)?shù)據(jù);Excel數(shù)據(jù)透視表的應(yīng)用重在挖掘隱藏的數(shù)據(jù)價(jià)值,輕松整合海量數(shù)據(jù):各種圖表類型的制作技巧及Power Query、Power Pivot的應(yīng)用可展現(xiàn)數(shù)據(jù)可視化效果,讓數(shù)據(jù)說(shuō)話。因此想從事數(shù)據(jù)分析崗位的,需要快速掌握快各種Excel數(shù)據(jù)處理與分析技巧。
2、數(shù)據(jù)庫(kù):MySQL
Excel如果能夠玩的很轉(zhuǎn),能勝任一部分?jǐn)?shù)據(jù)量不是很大的公司。但是基于Excel處理數(shù)據(jù)能力有限,如果想勝任中型的互聯(lián)網(wǎng)公司中數(shù)據(jù)分析崗位還是比較困難。因此需要學(xué)會(huì)數(shù)據(jù)庫(kù)技術(shù),一般Mysql。你需要了解MySQL管理工具的使用以及數(shù)據(jù)庫(kù)的基本操作;數(shù)據(jù)表的基本操作、MySQL的數(shù)據(jù)類型和運(yùn)算符、MySQL函數(shù)、查詢語(yǔ)句、存儲(chǔ)過(guò)程與函數(shù)、觸發(fā)程序以及視圖等。比較高階的需要學(xué)習(xí)MySQL的備份和恢復(fù);熟悉完整的MySQL數(shù)據(jù)系統(tǒng)開(kāi)發(fā)流程。
3、數(shù)據(jù)可視化:Tableau & Echarts & 億信ABI
如果說(shuō)前面2條是數(shù)據(jù)處理的技術(shù),那么在如今“顏值為王”的現(xiàn)在,如何將數(shù)據(jù)展現(xiàn)得更好看,讓別人更愿意看,這也是一個(gè)技術(shù)活。好比公司領(lǐng)導(dǎo)讓你對(duì)某一個(gè)項(xiàng)目的研究成果做匯報(bào),那么你不可能給他看單純的數(shù)據(jù)一樣,你需要讓數(shù)據(jù)更直觀,甚至更美觀
Echarts是開(kāi)源的,代碼可以自己改,種類也非常豐富,這里不多做介紹,可以去創(chuàng)建一個(gè)工作區(qū)了解下。億信ABI的功能相當(dāng)強(qiáng)大,它不單單能實(shí)現(xiàn)數(shù)據(jù)可視化,像上述的數(shù)據(jù)分析流程,數(shù)據(jù)采集、數(shù)據(jù)清洗等基本上都能輕松拿下。目前正在免費(fèi)試用中,可前往億信華辰官網(wǎng)參與試用。

數(shù)據(jù)萌新VS數(shù)據(jù)老炮,月入5K與月入20K的數(shù)據(jù)分析師差別?4、技術(shù)型分析:SPSS & Python& HiveSQL 等
如果說(shuō)Excel是“輕數(shù)據(jù)處理工具”,Mysql是“中型數(shù)據(jù)處理工具”,
大數(shù)據(jù)分析涉及的面就非常廣泛,技術(shù)點(diǎn)涉及的也比較多。這也就是為什么目前互聯(lián)網(wǎng)公司年薪百萬(wàn)重金難求大數(shù)據(jù)分析師的原因。
大數(shù)據(jù)分析需要處理海量的數(shù)據(jù),這對(duì)于數(shù)據(jù)分析師的工作能力要求就比較高,一般來(lái)說(shuō),大數(shù)據(jù)分析師需要會(huì):
(1)會(huì)使用Hive的SQL方法HiveQL來(lái)匯總、查詢和分析存儲(chǔ)在Hadoop分布式文件系統(tǒng)上的大數(shù)據(jù)集合。知道Hive如何在Hadoop生態(tài)系統(tǒng)進(jìn)行數(shù)據(jù)分析工作。
(2)會(huì)一些SPSS modeler基礎(chǔ)應(yīng)用,這部分技能對(duì)應(yīng)數(shù)據(jù)建模分析師。
(3)何使用R語(yǔ)言進(jìn)行數(shù)據(jù)集的創(chuàng)建和數(shù)據(jù)的管理等工作;會(huì)使用R語(yǔ)言數(shù)據(jù)可視化操作,讓學(xué)員學(xué)會(huì)如何用R語(yǔ)言作圖,如條形圖、折線圖和組合圖等等;是R語(yǔ)言數(shù)據(jù)挖掘,本部分?jǐn)?shù)據(jù)挖掘工程師。
(4)用Python來(lái)編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)程序,從頁(yè)面中抓取數(shù)據(jù)的多種方法,提取緩存中的數(shù)據(jù),使用多個(gè)線程和進(jìn)程來(lái)進(jìn)行并發(fā)抓取等。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)