日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

數(shù)據(jù)分析中常犯的14個(gè)錯(cuò)誤,如何解決?

時(shí)間:2022-09-25來(lái)源:二二的女生瀏覽數(shù):393

這篇文章結(jié)合數(shù)據(jù)分析的幾個(gè)階段,總結(jié)了14個(gè)我們可能會(huì)犯的一些錯(cuò)誤,以及如何避免。

數(shù)據(jù)獲取階段

數(shù)據(jù)采集/獲取階段,容易犯的錯(cuò)誤:

NO.1 采樣偏差

在數(shù)據(jù)采集的時(shí)候,如果不能獲取到總體的數(shù)據(jù),那就要采集到可以代表總體的樣本,抽樣就顯得尤其重要,如果樣本不具有代表性,那么得出的結(jié)論一定是有失偏頗的。

舉個(gè)例子:

小紅書(shū)的用戶(hù)群體是年輕的女性用戶(hù)為主,如果用這份數(shù)據(jù)去預(yù)測(cè)一部受眾是青少年的電影票房,結(jié)果可能就不合理了。

避免的方法:

使樣本能夠充分代表總體。

NO.2 幸存者偏差

指的是只能看到經(jīng)過(guò)某種篩選而產(chǎn)生的結(jié)果,忽略了被篩選掉的關(guān)鍵信息。

在二戰(zhàn)期間,人們發(fā)現(xiàn)幸存的轟炸機(jī)中,機(jī)翼中彈的數(shù)量很多,而機(jī)身中彈的卻很少。因此人們認(rèn)為我們應(yīng)該加固飛機(jī)的機(jī)翼,其實(shí)不然,就是因?yàn)闄C(jī)翼中彈多還能飛回來(lái),所以機(jī)翼中彈并沒(méi)有影響飛機(jī)返航;而機(jī)身中彈的少則說(shuō)明了子彈打中機(jī)身對(duì)飛機(jī)的影響更大,導(dǎo)致飛機(jī)不能返航,在這個(gè)飛機(jī)問(wèn)題中,只統(tǒng)計(jì)到了幸存下來(lái)的飛機(jī),以此下結(jié)論,是不正確的。

舉個(gè)例子:

在某產(chǎn)品開(kāi)放日,邀請(qǐng)使用該產(chǎn)品的用戶(hù)到現(xiàn)場(chǎng)給產(chǎn)品打分,結(jié)果用戶(hù)滿(mǎn)意度都很高,其實(shí)就是一個(gè)幸存者偏差的例子,愿意來(lái)現(xiàn)場(chǎng)打分的客戶(hù),基本上都是忠實(shí)客戶(hù)了,得分自然就高。

避免的方法:

還是樣本不具備代表性的問(wèn)題,避免主觀臆斷,用科學(xué)的方法選擇樣本。

數(shù)據(jù)處理階段

在數(shù)據(jù)處理階段,容易犯的錯(cuò)誤:

NO.3 不注意數(shù)據(jù)的清洗

行百里者半九十,都說(shuō)做數(shù)據(jù)分析有80%的時(shí)間都是在處理數(shù)據(jù),其實(shí)就在告訴我們數(shù)據(jù)處理是多么的重要,干凈的數(shù)據(jù)源是一切工作的前提,不然一切都要從頭開(kāi)始。

NO.4 在原始數(shù)據(jù)上直接處理

盡量不要直接在原始數(shù)據(jù)上開(kāi)始修改處理,最好拷貝一份,保留好原始數(shù)據(jù)。這樣做的目的是避免后續(xù)處理時(shí)出現(xiàn)錯(cuò)誤,無(wú)法返回到原始數(shù)據(jù)的情況。

舉個(gè)例子:

在做異常值處理時(shí),直接把異常值刪除了,后面發(fā)現(xiàn)其實(shí)不是異常值,而是一個(gè)值得注意的小概率事件,這就麻煩了,還不如一開(kāi)始就在原始數(shù)據(jù)的備份上進(jìn)行操作。

避免的方法:

在拷貝的原始數(shù)據(jù)上處理。

數(shù)據(jù)分析階段

在數(shù)據(jù)分析階段,容易犯的錯(cuò)誤:

NO.5 只會(huì)工具,不會(huì)分析

各種數(shù)據(jù)分析工具Excel、SQL、Python、Power BI、Tableau運(yùn)用的爐火純青,但卻沒(méi)有一個(gè)分析的邏輯思維方法,沒(méi)有深入地去分析現(xiàn)象背后的原因。通常要搞清楚分析的目的是什么,工具都是輔助。

避免的方法:

多學(xué)習(xí)和總結(jié)一些思維和方法,并能夠成功地運(yùn)用,掌握其要領(lǐng)。

NO.6 過(guò)于追求高級(jí)方法/工具

在分析時(shí),崇尚所謂高級(jí)的、時(shí)尚的方法,而不從項(xiàng)目自身實(shí)際出發(fā),找到適合項(xiàng)目的分析方法。同樣,過(guò)分追求“高端”工具的使用,比如在數(shù)據(jù)量很少的情況下,非要用數(shù)據(jù)庫(kù)/Python,但其實(shí)Excel就可以簡(jiǎn)單便宜地滿(mǎn)足分析的需求。

避免的方法:

合適的才是最好的。

可視化階段

在可視化階段,容易犯的錯(cuò)誤:

NO.7 不做圖表

用文字來(lái)表達(dá)結(jié)果,肯定不如直接上圖更顯而易見(jiàn)。

避免的方法:

能用圖表展示的結(jié)論就少用文字來(lái)描述。

NO.8 誤導(dǎo)性的圖表

比不做圖表更可怕的是做出具有誤導(dǎo)性的圖表。常見(jiàn)的比如把Y軸的刻度不從0開(kāi)始計(jì),這樣得到的圖形走勢(shì)就顯得差距非常大,給人造成一定程度上的視覺(jué)沖擊,但實(shí)際上,差距并沒(méi)有那么大。

舉個(gè)例子:

下圖中凈利潤(rùn)的增長(zhǎng)可以看到Q4增長(zhǎng)幅度非常明顯,但仔細(xì)一看可以發(fā)現(xiàn),縱坐標(biāo)是從13%開(kāi)始的,如果把縱坐標(biāo)調(diào)成0%開(kāi)始,就會(huì)發(fā)現(xiàn)這個(gè)增長(zhǎng)幅度其實(shí)并不明顯。

縱坐標(biāo)從13%開(kāi)始

縱坐標(biāo)從0開(kāi)始

避免的方法:

保持客觀的態(tài)度做圖表,不要被心里預(yù)設(shè)的結(jié)論所左右,該是什么就是什么。

得出結(jié)論階段

在得出結(jié)論時(shí),容易犯的錯(cuò)誤:

NO.9 主觀臆斷

完全拋棄數(shù)據(jù),而是以自我經(jīng)驗(yàn)或想法來(lái)給出結(jié)論。這樣做數(shù)據(jù)分析就沒(méi)有意義了,要保持客觀的態(tài)度,不要總是“我覺(jué)得”,“我認(rèn)為”,要以數(shù)據(jù)為依據(jù)。

避免的方法:

以數(shù)據(jù)為導(dǎo)向,保持一個(gè)數(shù)據(jù)人應(yīng)用的科學(xué)客觀的態(tài)度。

NO.10 數(shù)據(jù)偏見(jiàn)

在得出結(jié)論時(shí),僅選擇支持你聲明的數(shù)據(jù),丟棄不支持聲明的部分。這就失去了客觀性,是建立在數(shù)據(jù)上的主觀臆斷,一定要讓數(shù)據(jù)反映出客觀事實(shí)。

舉個(gè)例子:

發(fā)現(xiàn)了啤酒和尿布的銷(xiāo)量一樣好,如果我只選擇性地關(guān)注啤酒的銷(xiāo)量,而忽視尿布,那就不會(huì)有購(gòu)物籃分析了。

避免的方法:

客觀,客觀,還是客觀的態(tài)度。

NO.11 相關(guān)性==因果性

我們經(jīng)常說(shuō)相關(guān)性不等于因果性,兩個(gè)變量之間存在相關(guān)關(guān)系,并不意味著一個(gè)變量會(huì)影響另一個(gè)變量,也不意味著二者存在實(shí)際關(guān)系。

如果一個(gè)指標(biāo)和另一個(gè)指標(biāo)是一起變化的,說(shuō)明它們是相關(guān)的,而如果是一個(gè)指標(biāo)先變化從而導(dǎo)致了另一個(gè)指標(biāo)的變化,才說(shuō)明它們是有因果性的。

在數(shù)據(jù)分析時(shí)很容易將相關(guān)性判斷為因果性,這是不對(duì)的。相關(guān)性已經(jīng)很好了,但因果性更佳,很多時(shí)候,我們只能發(fā)現(xiàn)相關(guān)性,但應(yīng)永不停止尋找因果性。因?yàn)榘l(fā)現(xiàn)相關(guān)性可以幫助我們預(yù)測(cè)未來(lái),而發(fā)現(xiàn)因果性意外著可以改變未來(lái)。

NO.12 唯數(shù)據(jù)論

由數(shù)據(jù)分析得到的結(jié)果不具備可行性,完全不考慮常識(shí)和業(yè)務(wù)需求,數(shù)據(jù)脫離了業(yè)務(wù),也是常犯的錯(cuò)誤。

避免的方法:

多了解業(yè)務(wù),多溝通,不要一味搞技術(shù)。

其他

NO.13 先預(yù)設(shè)一個(gè)結(jié)果,再倒推原因

依據(jù)經(jīng)驗(yàn)常識(shí)先預(yù)設(shè)了一個(gè)結(jié)果,再?gòu)慕Y(jié)果出發(fā),為結(jié)果找原因,這也是一種主觀臆斷,顛倒了數(shù)據(jù)分析的邏輯,我們應(yīng)當(dāng)是先分析,再結(jié)果,現(xiàn)在變成了先結(jié)果,再為結(jié)果找一個(gè)說(shuō)辭。

避免的方法:

可以有假設(shè),但假設(shè)不能等同于結(jié)論,大膽假設(shè),小心求證。

NO.14 忽視黑天鵝事件

在發(fā)現(xiàn)澳大利亞的黑天鵝之前,17世紀(jì)之前的歐洲人認(rèn)為天鵝都是白色的。但隨著第一只黑天鵝的出現(xiàn),這個(gè)不可動(dòng)搖的觀念崩潰了。

黑天鵝的存在寓意著不可預(yù)測(cè)的重大稀有事件,它在意料之外,卻又改變著一切。人類(lèi)總是過(guò)度相信經(jīng)驗(yàn),而不知道一只黑天鵝的出現(xiàn)就足以顛覆一切。

2008年美國(guó)次貸危機(jī)爆發(fā)就是一個(gè)典型的黑天鵝事件,大家用通用的風(fēng)險(xiǎn)價(jià)值模型預(yù)測(cè)投資風(fēng)險(xiǎn),結(jié)論是美國(guó)商業(yè)銀行放貸業(yè)務(wù)崩潰發(fā)生的概率只有不到1%,結(jié)果我們都知道了,這種不到1%的小概率事件居然發(fā)生了。

避免的方法:

所以不要忽視小概率事件,它有可能會(huì)造成嚴(yán)重的后果。

(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線(xiàn)咨詢(xún)

在線(xiàn)咨詢(xún)

點(diǎn)擊進(jìn)入在線(xiàn)咨詢(xún)