日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數(shù)據(jù)分析平臺

ABI(ALL in one BI)是億信華辰歷經(jīng)19年匠心打造的國產(chǎn)化BI工具,技術(shù)自主可控。它打通從數(shù)據(jù)接入、到數(shù)據(jù)建模與處理、再到數(shù)據(jù)分析與挖掘整個數(shù)據(jù)應(yīng)用全鏈路,可滿足企業(yè)經(jīng)營中各類復(fù)雜的分析需求,幫助企業(yè)實現(xiàn)高效數(shù)字化轉(zhuǎn)型。

億信ABI

一站式數(shù)據(jù)分析平臺

億信華辰深耕商業(yè)智能十多年,
打造一體化的填報、處理、可視化平臺。

大數(shù)據(jù)分析陷阱與Simpson’s Paradox(辛普森悖論)

時間:2019-03-04來源:億信華辰瀏覽數(shù):2994

大數(shù)據(jù)分析時,你有沒有遇到這樣一種奇怪現(xiàn)象:當(dāng)分開看數(shù)據(jù)的時候會得到一種結(jié)論,但是合起來之后發(fā)現(xiàn)情況卻完全改變?這就是著名的辛普森悖論。它總是隱藏在大數(shù)據(jù)之中,成為大數(shù)據(jù)分析的陷阱之一。

1、含義

辛普森悖論(Simpson’s Paradox)是概率和統(tǒng)計學(xué)中的一種現(xiàn)象,即幾組不同的數(shù)據(jù)中均存在一種趨勢,但當(dāng)這些數(shù)據(jù)組組合在一起后,這種趨勢消失或反轉(zhuǎn)。

2、案例

案例1:腎結(jié)石治療

這是一個真實案例,比較了兩種腎結(jié)石治療的成功率。其中方案A包括所有開放式外科手術(shù),方案B僅涉及小的穿刺,

小腎結(jié)石和大腎結(jié)石的治療的成功率和治療案例數(shù)如下表所示:

(括號中的數(shù)字表示:成功案例數(shù)/治療總案例數(shù))

?

?

?

從表格中可以發(fā)現(xiàn)治療方案A的成功率更高,那是否我們就應(yīng)該選擇方案A呢?

?

?

?

我們把兩種治療方案進行總計,卻發(fā)現(xiàn)方案B的成功率更高。

案例2:運動與患病的關(guān)系

假設(shè)我們有關(guān)于每周運動小時數(shù)與兩組患者(50歲以下和50歲以上患者)患病風(fēng)險的數(shù)據(jù)。下圖顯示根據(jù)年齡分層的疾病概率與每周運動小時數(shù)的關(guān)系圖。我們清楚地看到其呈現(xiàn)負相關(guān)關(guān)系,表明每周運動水平的增加可以使患病的風(fēng)險降低。

?

?

?

當(dāng)我們將數(shù)據(jù)組合在一起:相關(guān)性完全逆轉(zhuǎn)了! 如果只顯示這個數(shù)字,我們會得出結(jié)論,運動增加了疾病的風(fēng)險!這與常理相悖。

?

?

?

3、原理

數(shù)據(jù)中存在多個單獨分布的隱藏變量,不當(dāng)拆分時就會造成辛普森悖論。這種隱藏變量被稱為潛伏變量,并且它們通常難以識別。而這種潛伏變量可能是由于采樣錯誤或者數(shù)據(jù)領(lǐng)域本身屬性造成的。

1)如案例1所示,可能是由于我們的采樣方法存在誤差導(dǎo)致加權(quán)結(jié)果出現(xiàn)問題,不同大小的結(jié)石中對于不同方法的應(yīng)用數(shù)量有較大的差異,沒有做到正確的控制變量。

2)如案例2所示,年齡就是一個與患病非常相關(guān)的潛伏變量,如果繪制患病概率與年齡的關(guān)系,我們可以看到患者的年齡與疾病概率強烈正相關(guān)。

?

?

?

隨著患者年齡的增加,患病的風(fēng)險增加。所以即使運動量相同,老年患者也比年輕患者更容易患病。

4、啟示

在大數(shù)據(jù)分析時代,我們嘗試在很短的時間內(nèi)檢測模式并做出決策。 時間越短,出現(xiàn)短期誤導(dǎo)的可能性越大,越不可能找到被隱藏的真正趨勢,導(dǎo)致錯誤的決策和行動。

如果我們依賴于經(jīng)過嚴(yán)格模板化和打包的軟件并且沒有意識到數(shù)據(jù)的驅(qū)動因素和限制,那么這些偏見的出現(xiàn)概率會很大。

辛普森悖論警示我們在大數(shù)據(jù)分析和數(shù)據(jù)科學(xué)過程中要更加注意以下幾個方面:

1)不能單純看數(shù)據(jù)本身。直接計算會得出錯誤的結(jié)論,我們必須考慮數(shù)據(jù)生成過程——因果模型——決定數(shù)據(jù),減少潛伏變量的影響。

2)對數(shù)據(jù)保持懷疑態(tài)度。數(shù)據(jù)分析中我們總是試圖從單一的數(shù)據(jù)觀點來看待整個事件,而不是用理性認真思考并深入挖掘。特別是當(dāng)有人要銷售產(chǎn)品或?qū)嵤┳h程時,我們必須對這些數(shù)字保持批判性思維。

3)關(guān)注數(shù)據(jù)采樣的正確性。了解我們是否正在查看采樣不良的數(shù)據(jù)或悖論的真實案例,這一點非常重要,更可能早的避免決策錯誤的發(fā)生。

4)找到數(shù)據(jù)中的潛伏變量。盡可能多地檢查、重組合和重采樣數(shù)據(jù)。如果從不同分類中可以得出多個不同的結(jié)論,我們需要知道我們尋找的重點,并用最佳的數(shù)據(jù)觀點來公正地表達真相。

5)很強的洞察力和領(lǐng)域知識。如果沒有足夠的洞察力和領(lǐng)域知識,我們無法找到隱藏在數(shù)據(jù)背后的潛伏變量,使得簡單的統(tǒng)計分析也可以徹底誤導(dǎo)和激發(fā)錯誤的決策。


(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
產(chǎn)品功能
數(shù)據(jù)填報

對分析表中的數(shù)據(jù)進行補錄或修改

數(shù)據(jù)處理

在可視化建模的同時同步完成ETL流程設(shè)計

大屏可視化

可任意制作酷炫靈動的圖標(biāo)和大屏

自助式分析

只需簡單拖拽維度和指標(biāo)即可生成相應(yīng)的分析圖表

預(yù)測挖掘

讓繁瑣復(fù)雜的數(shù)據(jù)挖掘過程變得簡單易用

customer

在線咨詢

在線咨詢

點擊進入在線咨詢