日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

數(shù)據(jù)可視化,看這一篇就夠了

時(shí)間:2022-03-24來源:你惹不起瀏覽數(shù):370

引言

John Snow(不是G.O.T.里那個(gè)“私生子”)大概永遠(yuǎn)不會(huì)想到,自己在排查霍亂傳播途徑時(shí),在地圖上標(biāo)記死于霍亂病人的“霍亂地圖”居然會(huì)被后人評(píng)為歷史上十佳數(shù)據(jù)可視化的案例,并且成為了醫(yī)藥地理學(xué)和傳染病學(xué)中一項(xiàng)基本的研究方法。約翰·斯諾(John Snow,1813年3月15日-1858年6月16日),英國內(nèi)科醫(yī)生,曾經(jīng)當(dāng)過維多利亞女王的私人醫(yī)師,因在1854年寬街霍亂爆發(fā)事件研究中作出重大貢獻(xiàn),被認(rèn)為是麻醉醫(yī)學(xué)和公共衛(wèi)生醫(yī)學(xué)的開拓者。

https://www.results.org.au/john-snow-the-epidemiologist/

在斯諾生活的年代,對(duì)霍亂的起因的主流意見是空氣污染論(認(rèn)為霍亂像黑死病一樣通過空氣傳播)。另一方意見是未被廣泛接受病菌學(xué)說。通過深入研究,在與當(dāng)?shù)鼐用竦臏贤ㄖ屑由虾嗬烟睾5碌膮f(xié)助,斯諾判斷出寬街的公共水泵是污染源,斯諾隨后使用點(diǎn)示圖去解釋霍亂案例爆發(fā)點(diǎn)是以水泵為中心。通過連接霍亂事件與地理信息的關(guān)聯(lián),創(chuàng)制了著名的 “霍亂地圖”。

他將該地區(qū)的每一個(gè)水泵,以及四周的水井都標(biāo)注到圖中。最后他發(fā)現(xiàn)最多的霍亂患者圍繞的水泵位于寬街。

新冠疫情肆虐期間,大家每天查看的疫情地圖,都得感謝祖師爺斯諾的貢獻(xiàn)。

回到本文的主題,關(guān)于數(shù)據(jù)可視化,數(shù)據(jù)玩家將按經(jīng)典的Why-What-How邏輯為大家逐步展開。

一、為什么要數(shù)據(jù)可視化

——Necessity for data visualization

先來舉個(gè)栗子,大家可以嘗試找出下圖中的“7”:

看累了?試試下面這張圖呢?

是不是容易太多了,這就是視覺的力量

可視化輔助決策

研究表明,人眼是一個(gè)高帶寬大量視覺信號(hào)并行GPU,帶寬在2.339G/s,相當(dāng)于一個(gè)兩萬兆網(wǎng)卡,具有超強(qiáng)的模式識(shí)別能力,且對(duì)可視符號(hào)的處理速度比數(shù)字或者文本快多個(gè)數(shù)量級(jí),在大數(shù)據(jù)時(shí)代,數(shù)據(jù)可視化是人們洞察數(shù)據(jù)內(nèi)涵、理解數(shù)據(jù)蘊(yùn)藏價(jià)值的有力工具。

因此,可視化常常被用來輔助決策,如上圖,中間的一張密密麻麻的客戶表,到底能得出什么有價(jià)值的信息指導(dǎo)決策呢?光看一行行一列列的數(shù)據(jù),可能需要很久才能得出一些結(jié)論,但是經(jīng)過可視化,我們可以輕松的以各種形式的可視化快速掌握結(jié)論,從而輔助決策。

這就是:可視分析,即將信息提煉為知識(shí),起到“觀物至知”對(duì)作用,便于決策者從復(fù)雜、大量、多維度的數(shù)據(jù)中快速挖掘有效信息。

不當(dāng)可視化誤導(dǎo)判斷

值得注意的是,并非所有的可視化都可以指導(dǎo)決策,甚至不當(dāng)?shù)目梢暬瘯?huì)誤導(dǎo)判斷,以致做出錯(cuò)誤的決策。

? 2004年前后,美國有線通信協(xié)會(huì)(NCTA)發(fā)布的報(bào)告中,用下圖聲稱美國政府的管制行為導(dǎo)致了企業(yè)投資下降,而在放開管制后,企業(yè)投資就大量增加。

? 乍看之下,管制的時(shí)候是左柱,投資只有140億美元,放開管制后,投資有560億美元貌似結(jié)論沒有錯(cuò)誤。但這張圖有嚴(yán)重的誤導(dǎo)與邏輯的紕漏。

? 1996-1999年間三年的數(shù)據(jù)缺失。三年可以發(fā)生很多事情,在缺乏數(shù)據(jù)的情況下,強(qiáng)行將1999年后的投資增長(zhǎng)歸結(jié)于去管制,是有邏輯欠缺的。

? 左柱只總結(jié)了3年的總投資,右柱則總結(jié)了4年的總投資,這更是故意誤導(dǎo)觀眾,讓觀眾認(rèn)為去管制后企業(yè)投資大大增加,而游說政府放開行業(yè)管制。實(shí)際上很可能是其他因素造成的快速增長(zhǎng),而不僅僅是去管制。

真相到底是什么?

可以看到,事實(shí)上96年放開管制后,隨后的三年里企業(yè)投資并沒有顯著變化,99年以后的爆發(fā)式增長(zhǎng)肯定是由于別的原因造成,而非單純的放開管制。

再看一個(gè)栗子:

這圖看起來,是不是16年比15年增加了特別多,實(shí)際看看坐標(biāo)軸,才從59增加到60,2%不到,把坐標(biāo)軸換一下:

這樣看起來就能體現(xiàn)出2%的增量其實(shí)沒多少了。不過,根據(jù)目的的不同,不排除有的場(chǎng)景也可以采用第一種展現(xiàn)方式。再比如前一段時(shí)間好多群都在轉(zhuǎn)的下面這張圖,縱坐標(biāo)從1100萬開始,顯得2020年的1200萬簡(jiǎn)直快到底了,是不是沒人生孩子了……

我們換成從0開始的縱坐標(biāo)來看看:

這是不是正常多了,雖然也下降得不少,但是整個(gè)基數(shù)還是很大的。

不過,如果需要販賣焦慮,用上面那張圖就比較容易達(dá)到效果。

二、什么是數(shù)據(jù)可視化

——Concept of data Visualization

發(fā)展歷程

利用人眼的感知能力對(duì)數(shù)據(jù)進(jìn)行交互的可視表達(dá)以增強(qiáng)認(rèn)知的技術(shù)稱為可視化,它將不可見或難以分析的數(shù)據(jù)轉(zhuǎn)化為可感知的圖形、符號(hào)、顏色、紋理等等,以提高數(shù)據(jù)識(shí)別信息傳遞的效率。

我們拿到的原始數(shù)據(jù),可能是半結(jié)構(gòu)化,甚至非結(jié)構(gòu)化的,經(jīng)過數(shù)據(jù)清洗和ETL過程,我們得到規(guī)整的結(jié)構(gòu)化數(shù)據(jù)表,再通過視覺映射,我們得到需要展示的視覺結(jié)構(gòu),即按照什么維度,展示什么指標(biāo),最后,將視覺結(jié)構(gòu)通過圖像轉(zhuǎn)換,轉(zhuǎn)化為最終的可視化圖像,呈現(xiàn)給決策者。

我們可以將數(shù)據(jù)可視化的發(fā)展歷程分為七個(gè)歷程。

17世紀(jì)之前——圖表萌芽

人類早在公元前6200年就掌握了觀測(cè)和繪制的能力,此后也一直通過手工的方式制作可視化作品。可視化萌芽出自地圖和一些簡(jiǎn)單的圖表,數(shù)據(jù)也不是測(cè)量而來,目的大多是展示一些重要的信息。

人類第一幅地圖(公元前6200年)

公元950年,歐洲人畫出了基于時(shí)間變化的折線圖,用于展示太陽,月亮等行星的位置變化趨勢(shì),開始出現(xiàn)如今的數(shù)據(jù)圖表的雛形。

17世紀(jì)——物理測(cè)量

17世紀(jì)以后,隨著對(duì)物理基本量(時(shí)間、距離等)的測(cè)量理論和設(shè)備的完善,制圖學(xué)理論也隨著分析幾何、概率論等學(xué)科迅速發(fā)展,17世紀(jì)末產(chǎn)生了基于真實(shí)測(cè)量數(shù)據(jù)的可視化作品。

人類第一幅天氣圖(1686年)

這幅圖是誰畫的呢?Edmond Halley(1656-1742),埃德蒙·哈雷,是不是挺耳熟,沒錯(cuò),就是發(fā)現(xiàn)哈雷彗星的那個(gè)哈雷。

Edmond Halley

圖上繪制了信風(fēng)和季風(fēng)的方向,“一目了然地顯示了這些風(fēng)的所有不同地段和路線;據(jù)此,有可能比任何口頭描述都更容易理解”。[1].

18世紀(jì)——圖形符號(hào)

進(jìn)入18世紀(jì),人類不再滿足于地圖上的幾何信息,隨著統(tǒng)計(jì)理論、實(shí)驗(yàn)數(shù)據(jù)分析等學(xué)科的發(fā)展,現(xiàn)在我們所熟悉的函數(shù)圖、抽象圖被廣泛發(fā)明。

丹麥和挪威的進(jìn)出口貿(mào)易時(shí)間序列

此圖來自威廉·普萊費(fèi)爾(WilliamPlayfair,1759-1823),他是來自蘇格蘭的工程師和政治經(jīng)濟(jì)學(xué)家,今天我們使用的折線圖、條形圖、餅圖和面積圖都是他發(fā)明的。圖中,紅線是出口額,黃線是進(jìn)口額,通過兩條折線可以很明顯的看出,1754年前,出口額小于進(jìn)口額,之后出口額反超。

19世紀(jì)——數(shù)據(jù)圖形

19世紀(jì),統(tǒng)計(jì)圖、概念圖等迅猛爆發(fā),此時(shí)人們已經(jīng)掌握了眾多統(tǒng)計(jì)數(shù)據(jù)可視化工具,包括柱狀圖、餅圖、折線圖、時(shí)間線、輪廓線等。政府規(guī)劃和運(yùn)營也越來越多的采用可視化方法,19世紀(jì)下半葉,迎來了數(shù)據(jù)可視化的黃金時(shí)期。這個(gè)時(shí)期的數(shù)據(jù)可視化代表作,除了上文中提到的“霍亂地圖”,還有下面這張拿破侖東征流圖。

1812-1813對(duì)俄戰(zhàn)爭(zhēng)中法軍人力持續(xù)損失示意圖(1869年,被譽(yù)為史上最佳可視化)

這張圖的信息量極大,是1969年法國工程師Charles Joseph Minard制作的,描繪了拿破侖1812年率軍攻占莫斯科的行軍圖。

其中,最底層是地圖,深黃色圖形表示行軍規(guī)模,黑色圖形表示撤軍規(guī)模,線條寬度代表了軍隊(duì)的人數(shù),可以看出從出發(fā)時(shí)開始的42w大軍,行軍規(guī)模逐漸縮減,撤軍規(guī)模逐漸增加,到達(dá)莫斯科時(shí)只剩1w人。當(dāng)然,線條的走勢(shì)也是行軍/撤軍路線。

同時(shí),底部既有橫向的時(shí)間軸,也有縱向的刻度標(biāo)識(shí)了當(dāng)時(shí)的氣溫。

此圖可以直觀的感受到,拿破侖的40萬大軍是如何在長(zhǎng)途跋涉和寒冬中消耗殆盡,此次東征也稱為拿破侖由盛轉(zhuǎn)衰的轉(zhuǎn)折點(diǎn)。此外,還有南丁格爾玫瑰圖:

南丁格爾玫瑰圖

沒錯(cuò),就是那位護(hù)士弗羅倫斯·南丁格爾(Florence Nightingale),護(hù)理學(xué)的奠基人。

Florence Nightingale

她的另一個(gè)身份是統(tǒng)計(jì)學(xué)家。“南丁格爾玫瑰圖”直觀展示了衛(wèi)生條件對(duì)死亡人數(shù)的影響,因而爭(zhēng)取到了更好的醫(yī)療條件。

20世紀(jì)——多維數(shù)據(jù)

進(jìn)入20世紀(jì),數(shù)據(jù)可視化的黃金時(shí)期終結(jié),主要原因是隨著數(shù)理統(tǒng)計(jì)的誕生,追求數(shù)理統(tǒng)計(jì)的數(shù)學(xué)基礎(chǔ)成為數(shù)據(jù)科學(xué)行業(yè)的首要目標(biāo),而圖形和可視化作為其輔助,沒有得到太多重視,多維數(shù)據(jù)可視化是這個(gè)時(shí)期可視化的重要特點(diǎn)。

1904年關(guān)于太陽黑子隨時(shí)間擾動(dòng)的蝴蝶圖驗(yàn)證了太陽黑子的周期性1970s-21世紀(jì)——交互可視化

隨著計(jì)算機(jī)的發(fā)明和應(yīng)用,人們開始采用計(jì)算機(jī)編程完成可視化過程。70年代以后,隨著人機(jī)交互界面、圖形顯示設(shè)備的普及,人們獲得了將更復(fù)雜、更高維數(shù)據(jù)的可視化能力。

谷歌人體瀏覽器

自80年代末開始,Windows系統(tǒng)的問世使得人們能夠直接與信息交互,也極大的提升了人們對(duì)于可視化的熱情。同時(shí),隨著高維數(shù)據(jù)和高性能計(jì)算的進(jìn)一步普及,對(duì)于多維、時(shí)變、非結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)和分析的需求也更加強(qiáng)烈,可交互的可視化產(chǎn)品開始登上歷史舞臺(tái)。

2004至今——可視分析學(xué) 大數(shù)據(jù)公司Palantir為美軍分析的亞丁灣海盜概率熱點(diǎn)圖

進(jìn)入21世紀(jì),人們并不滿足現(xiàn)有可視化技術(shù)對(duì)于數(shù)據(jù)的呈現(xiàn)和表示,開始將可視化和數(shù)據(jù)挖掘、圖形學(xué)結(jié)合起來,以輔助用戶從大尺度、復(fù)雜、矛盾甚至不完整的數(shù)據(jù)中快速挖掘出有用的信息,以便有效做出決策,這門學(xué)科就稱為可視分析學(xué)。

主流呈現(xiàn)形式 軟件生成分析圖

Excel、Python、Matlab和SAS等數(shù)據(jù)分析軟件經(jīng)常自帶數(shù)據(jù)可視化包或工具,科研人員或技術(shù)人員可借此對(duì)數(shù)據(jù)進(jìn)行初步可視化,以繼續(xù)深入分析和挖掘,維度相對(duì)簡(jiǎn)單,對(duì)視覺要求較低,適合技術(shù)人員初步分析或?qū)W者發(fā)表研究論文。下圖是針對(duì)16年美國大選選民學(xué)歷的可視化分析,未接受高等教育的白人比例越大(相比4年前),Trump的勝算越大,而這個(gè)比例在男性中更為明顯。

信息圖

由設(shè)計(jì)人員根據(jù)清洗過的數(shù)據(jù),充分分析其含義后,利用illustrator、corel draw等平面設(shè)計(jì)軟件進(jìn)行手動(dòng)加工,同時(shí)加入注解信息獲得。可讀性趣味性很強(qiáng),但相對(duì)數(shù)據(jù)準(zhǔn)確度不高,常出現(xiàn)于媒體資訊或者公司行業(yè)報(bào)告中,也就是大家經(jīng)常看到的“一圖看懂XXXX”。

可交互的HTML網(wǎng)頁(BI系統(tǒng)

可借由HTML5、JS等技術(shù)動(dòng)態(tài)地、可交互地展示高維數(shù)據(jù),非技術(shù)背景的普通用戶也可以對(duì)自己感興趣的數(shù)據(jù)進(jìn)行選取和下鉆。常由多個(gè)網(wǎng)頁構(gòu)成商業(yè)智能(BI)系統(tǒng),但近年來也被媒體廣泛采用展示熱點(diǎn)數(shù)據(jù)。

三、怎么做數(shù)據(jù)可視化

——How to visualize data

進(jìn)入“大數(shù)據(jù)時(shí)代”后,復(fù)雜、異構(gòu)、大尺度的數(shù)據(jù)中經(jīng)過分析所得的知識(shí)和人類所掌握知識(shí)的差異是導(dǎo)致新知識(shí)發(fā)現(xiàn)的根源,但如此復(fù)雜的數(shù)據(jù)也往往會(huì)讓人感到困惑。利用人的強(qiáng)大視覺識(shí)別能力和推理分析智能來表達(dá)、分析、檢驗(yàn)這些差異正是“大數(shù)據(jù)時(shí)代”數(shù)據(jù)可視化的新思路。這就要求我們?cè)谶M(jìn)行數(shù)據(jù)可視化時(shí)必須理解數(shù)據(jù)含義、目標(biāo)明確。

可視化流程 獲取并清洗數(shù)據(jù)

巧婦難為無米之炊,第一步當(dāng)然是要獲取結(jié)構(gòu)化的,干凈的數(shù)據(jù),否則:

再漂亮的可視化,沒有準(zhǔn)確的數(shù)據(jù)支撐,也是空中樓閣。不光是可視化,基于數(shù)據(jù)的分析,模型,支撐風(fēng)控、營銷和運(yùn)營,在缺少數(shù)據(jù)質(zhì)量支撐的前提下幾乎都無從談起。

礙于篇幅,此處不再展開,后續(xù)會(huì)針對(duì)數(shù)據(jù)質(zhì)量專門撰文。

理解數(shù)據(jù)含義&明確目標(biāo)

做可視化,最容易進(jìn)入的誤區(qū)就是,拿到一堆數(shù)據(jù),還沒有理解數(shù)據(jù)有什么含義,直接就開始套用圖形進(jìn)行展示,把大部分時(shí)間用在美化圖表上,而完全忽略數(shù)據(jù)本身傳達(dá)的意義。下面這張圖信息量很大,可以幫助大家評(píng)估一個(gè)可視化作品是否成功。比如,把數(shù)據(jù)按照一個(gè)故事線組織起來,那多半是一個(gè)研究文檔或者提綱,再加上特定的目標(biāo)和功能介紹,才可以畫出線框圖,最后加上視覺形式,才有可能變成一個(gè)成功的可視化作品。再比如,只有數(shù)據(jù)和視覺形式,那可能只是純粹的數(shù)據(jù)藝術(shù),看起來很美,其實(shí)沒有價(jià)值,就算加上一個(gè)故事,也沒有什么特定的用途,給不了任何啟發(fā),只有賦予它一個(gè)特定的目標(biāo),才有可能成為一個(gè)成功的可視化。所以,明確一個(gè)可視化作品的目標(biāo)是很重要的,知道了要傳達(dá)什么信息,達(dá)到什么目標(biāo),才知道要選擇什么展現(xiàn)形式。不同的圖表類型適合表達(dá)不同的含義,比如,要比較趨勢(shì),折線圖就比柱狀圖更合適,比如,要表達(dá)占比,餅圖不一定比堆積柱狀圖好用。

選擇合適的展現(xiàn)形式

那么,如何選擇合適的展現(xiàn)形式呢,畢竟,有那么多種類的圖形:

下面列舉了常用的各類圖表及適用場(chǎng)景:

可視化Check List

過度設(shè)計(jì)影響信息表達(dá)

如下圖,其實(shí)只需要表現(xiàn)一個(gè)度量,但是卻用了三維圖形,扇面的高度不具有任何含義。

條形圖足以表達(dá):

同樣,下圖想表現(xiàn)的信息過多:

看起來很美,但是看完以后完全不知所云,不如拆成幾張圖分別表達(dá)。

圖表類型不合適

想表現(xiàn)趨勢(shì),卻用了柱狀圖:

換成折線圖更加直觀:

使用過多的色彩

顏色本身也傳遞了一定的信息量,過多的顏色也給人一頭霧水的感覺:

結(jié)合我們想要表現(xiàn)的重點(diǎn),有針對(duì)性的突出一到兩種顏色即可:

避免信息過載

折線圖比較了太多系列,建議不超過三個(gè):

同樣,和弦圖也有類似的情況:

少用3D效果

3D效果通常不能表現(xiàn)額外的信息,反而會(huì)造成不必要的遮擋和誤解:

改成2D的圖形效果反而更好:

瞇眼測(cè)試,突出重點(diǎn)

一套復(fù)雜的BI看板,常常讓觀看者無從看起:

通過瞇眼測(cè)試,可以看出表格中的什么元素更加突出,從而有針對(duì)性的找出重點(diǎn)并突出展示。

甚至可以采用動(dòng)圖的形式,將不需要重點(diǎn)展現(xiàn)的圖形模糊化處理,最后突出重點(diǎn):

結(jié)語

可視化的核心還是傳達(dá)信息,如果你自己還沒想清楚要傳達(dá)什么信息,不用操之過急,想清楚以后再選擇合適的圖表進(jìn)行展現(xiàn)即可。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢