Intetix Foundation(英明泰思基金會)由從事數(shù)據(jù)科學(xué)、非營利組織和公共政策研究的中國學(xué)者發(fā)起成立,致力于通過數(shù)據(jù)科學(xué)改善人類社會和自然環(huán)境。通過聯(lián)絡(luò)、動員中美最頂尖的數(shù)據(jù)科學(xué)家和社會科學(xué)家,以及分布在全球的志愿者,我們創(chuàng)造性地踐行著我們的使命:為美好生活洞見數(shù)據(jù)價值。
摘要:在簡化數(shù)據(jù)量和降低大數(shù)據(jù)應(yīng)用的復(fù)雜性中,大數(shù)據(jù)分析發(fā)揮著關(guān)鍵的作用。可視化是其中一個重要的途徑,它能夠幫助大數(shù)據(jù)獲得完整的數(shù)據(jù)視圖并挖掘數(shù)據(jù)的價值。大數(shù)據(jù)分析和可視化應(yīng)該無縫連接,這樣才能在大數(shù)據(jù)應(yīng)用中發(fā)揮最大的功效。這篇文章將介紹一些常規(guī)的數(shù)據(jù)可視化方法以及在大數(shù)據(jù)應(yīng)用領(lǐng)域突破常規(guī)的可視化手段,也會討論大數(shù)據(jù)可視化帶來的挑戰(zhàn),同時介紹大數(shù)據(jù)可視化領(lǐng)域新的方法、應(yīng)用程序以及其技術(shù)的進(jìn)步。
一、引言
數(shù)據(jù)可視化是將數(shù)據(jù)以不同形式展現(xiàn)在不同系統(tǒng)中,其中包括屬性和變量的單位信息。基于可視化發(fā)現(xiàn)數(shù)據(jù)的方法允許用戶使用不同的數(shù)據(jù)源,來創(chuàng)建自定義分析。先進(jìn)的分析集成了許多方法,為了支持交互式動畫在臺式電腦、筆記本電腦或平板電腦、智能手機(jī)等移動設(shè)備上創(chuàng)建圖形桌面。
表1.數(shù)據(jù)可視化工具的好處

重排或再映射:空間布局是最重要的視覺映射,重排信息的空間布局對產(chǎn)生不同的見解非常有效。
新的數(shù)據(jù)庫技術(shù)和前沿的網(wǎng)絡(luò)可視化方法可能是減少成本的重要因素,也有助于完善科研的進(jìn)程。隨著網(wǎng)絡(luò)時代的到來,數(shù)據(jù)時時都在更新,大大減小了可視化的時效性。這些“低端”可視化通常用于商業(yè)分析和政府?dāng)?shù)據(jù)的開放,但它們對科研沒有太大的幫助。許多科學(xué)家使用的可視化工具都不允許連接這些網(wǎng)絡(luò)工具。
三、大數(shù)據(jù)可視化面臨的挑戰(zhàn)
拓展性和動態(tài)分析是可視化的兩個最主要的挑戰(zhàn)。根據(jù)數(shù)據(jù)量的大小,顯示了靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)的研究現(xiàn)狀。對大型動態(tài)數(shù)據(jù),原本A問題的答案和B問題的答案也許在同時應(yīng)對AB兩個問題時就不適用了。
基于可視化的方法迎接了四個“V”的挑戰(zhàn),并將它們轉(zhuǎn)化成以下的機(jī)遇。
?體量(Volume):使用數(shù)據(jù)量很大的數(shù)據(jù)集開發(fā),并從大數(shù)據(jù)中獲得意義。
?多源(Variety):開發(fā)過程中需要盡可能多的數(shù)據(jù)源。
?高速(Velocity):企業(yè)不用再分批處理數(shù)據(jù),而是可以實時處理全部數(shù)據(jù)。
?質(zhì)量(Value):不僅為用戶創(chuàng)建有吸引力的信息圖和熱點圖,還能通過大數(shù)據(jù)獲取意見,創(chuàng)造商業(yè)價值。
大數(shù)據(jù)可視化的多樣性和異構(gòu)性(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)是一個大問題。高速是大數(shù)據(jù)分析的要素。在大數(shù)據(jù)中,設(shè)計一個新的可視化工具并具有高效的索引并非易事。云計算和先進(jìn)的圖形用戶界面更有助于發(fā)展大數(shù)據(jù)的擴(kuò)展性。
可視化系統(tǒng)必須與非結(jié)構(gòu)化的數(shù)據(jù)形式(如圖表、表格、文本、樹狀圖還有其他的元數(shù)據(jù)等)相抗衡,而大數(shù)據(jù)通常是以非結(jié)構(gòu)化形式出現(xiàn)的。由于寬帶限制和能源需求,可視化應(yīng)該更貼近數(shù)據(jù),并有效地提取有意義的信息。可視化軟件應(yīng)以原位的方式運行。由于大數(shù)據(jù)的容量問題,大規(guī)模并行化成為可視化過程的一個挑戰(zhàn)。而并行可視化算法的難點則是如何將一個問題分解為多個可同時運行的獨立的任務(wù)。
高效的數(shù)據(jù)可視化是大數(shù)據(jù)時代發(fā)展進(jìn)程中關(guān)鍵的一部分。大數(shù)據(jù)的復(fù)雜性和高維度催生了幾種不同的降維方法。然而,他們可能并不總是那么適用。高維可視化越有效,識別出潛在的模式、相關(guān)性或離群值的概率越高。
大數(shù)據(jù)可視化還有以下幾點問題:
?視覺噪聲:在數(shù)據(jù)集中,大多數(shù)對象之間具有很強(qiáng)的相關(guān)性。用戶無法把他們分離作為獨立的對象來顯示。
?信息丟失:減少可視數(shù)據(jù)集的方法是可行的,但是這會導(dǎo)致信息的丟失。
?大型圖像感知:數(shù)據(jù)可視化不僅受限于設(shè)備的長寬比和分辨率,也受限于現(xiàn)實世界的感受。
?高速圖像變換:用戶雖然能觀察數(shù)據(jù),卻不能對數(shù)據(jù)強(qiáng)度變化做出反應(yīng)。
?高性能要求:在靜態(tài)可視化幾乎沒有這個要求,因為可視化速度較低,性能的要求也不高。
可感知的交互的擴(kuò)展性也是大數(shù)據(jù)可視化面臨的挑戰(zhàn)。可視化每個數(shù)據(jù)點都可能導(dǎo)致過度繪制而降低用戶的辨識能力,通過抽樣或過濾數(shù)據(jù)可以刪去離群值。查詢大規(guī)模數(shù)據(jù)庫的數(shù)據(jù)可能導(dǎo)致高延遲,降低交互速率。
在大數(shù)據(jù)的應(yīng)用程序中,大規(guī)模數(shù)據(jù)和高維度數(shù)據(jù)會使進(jìn)行數(shù)據(jù)可視化變得困難。當(dāng)前大多數(shù)大數(shù)據(jù)可視化工具在擴(kuò)展性、功能和響應(yīng)時間上表現(xiàn)非常糟糕。可視化分析過程中,不確定性是有效的考慮不確定性的可視化過程巨大挑戰(zhàn)。
可視化和大數(shù)據(jù)面臨許多的挑戰(zhàn),下面是一些可能的解決方法:
1. 滿足高速需要:一是改善硬件,可以嘗試增加內(nèi)存和提高并行處理的能力。二是許多機(jī)器會用到的,將數(shù)據(jù)存儲好并使用網(wǎng)格計算方法。
2. 了解數(shù)據(jù):請合適的專業(yè)領(lǐng)域人士解讀數(shù)據(jù)。
3. 訪問數(shù)據(jù)質(zhì)量:通過數(shù)據(jù)治理或信息管理確保干凈的數(shù)據(jù)十分必要。
4. 顯示有意義的結(jié)果:將數(shù)據(jù)聚集起來到一個更高層的視圖,在這里小型數(shù)據(jù)組和數(shù)據(jù)可以被有效地可視化。
5. 處理離群值:將數(shù)據(jù)中的離群值剔除或為離群值創(chuàng)建一個單獨的圖表。
四、大數(shù)據(jù)可視化的一些進(jìn)展
在大數(shù)據(jù)時代,可視化操作究竟是如何進(jìn)行的呢?首先可視化會為用戶提供一個總的概覽,再通過縮放和篩選,為人們提供其所需的更深入的細(xì)節(jié)信息。可視化的過程在幫助人們利用大數(shù)據(jù)獲取較為完整的客戶信息時起到了關(guān)鍵性作用。而錯綜的關(guān)系是眾多大數(shù)據(jù)場景中的重要一環(huán),社交網(wǎng)絡(luò)或許就是最顯著的例子,想要通過文本或表格的形式理解其中的大數(shù)據(jù)信息是非常困難的;相反,可視化卻能夠?qū)⑦@些網(wǎng)絡(luò)的趨勢和固有模式展現(xiàn)地更為清晰。在形象體現(xiàn)社交網(wǎng)絡(luò)用戶之間的關(guān)系時,通常使用的是基于云計算的可視化方法。通過相關(guān)性模型來描繪社交網(wǎng)絡(luò)中用戶節(jié)點的層次關(guān)系,這種方法能夠直觀地展示用戶的社會關(guān)系。此外,它還能借助利用云技術(shù)的海杜普軟件平臺(Hadoop)將可視化過程并行化,從而加快社交網(wǎng)絡(luò)的大數(shù)據(jù)收集。
大數(shù)據(jù)可視化可以通過多種方法來實現(xiàn),比如多角度展示數(shù)據(jù)、聚焦大量數(shù)據(jù)中的動態(tài)變化,以及篩選信息(包括動態(tài)問詢篩選,星圖展示,和緊密耦合)等等。以下一些可視化方法是按照不同的數(shù)據(jù)類型(大規(guī)模體數(shù)據(jù)、變化數(shù)據(jù)和動態(tài)數(shù)據(jù))來進(jìn)行分析和分類的:
樹狀圖式:基于分層數(shù)據(jù)的空間填充可視化方法。
圓形填充式:樹狀圖式的直接替代。它使用圓形作為原始形狀,并能從更高級的分層結(jié)構(gòu)中引入更多的圓形。
旭日型:在樹狀圖可視化基礎(chǔ)上轉(zhuǎn)換到極坐標(biāo)系統(tǒng)。其中的可變參量由寬和高變成半徑和弧長。
平行坐標(biāo)式:通過可視化分析,將不同帝鄉(xiāng)的多重數(shù)據(jù)因素拓展開來。
蒸汽圖式:堆疊區(qū)域圖的一種,數(shù)據(jù)圍繞一條中軸線展開,并伴隨流動及有機(jī)形態(tài)。
循環(huán)網(wǎng)絡(luò)圖式:數(shù)據(jù)圍繞一個圓形排列,并按照它們自身的相關(guān)性比率由曲線相互連接。通常用不同的線寬或色彩飽和度測量數(shù)據(jù)對象的相關(guān)性。
傳統(tǒng)的數(shù)據(jù)可視化工具不足以被用來處理大數(shù)據(jù)。以下列舉了幾種將交互式大數(shù)據(jù)可視化的方法。首先,利用一個由可擴(kuò)展的直觀數(shù)據(jù)摘要群組成的設(shè)計空間可以將多種類型的變化數(shù)據(jù)可視化,這些直觀的數(shù)據(jù)摘要通過數(shù)據(jù)簡化(如聚合或抽樣)的方法得出。被應(yīng)用于特定區(qū)間的交互查詢方法(比如關(guān)聯(lián)和更新技術(shù))因此通過結(jié)合多元數(shù)據(jù)塊和并行查詢而被開發(fā)出來。而更先進(jìn)的方法被運用在一個基于瀏覽器的視覺分析系統(tǒng)——imMens上,來處理數(shù)據(jù)以及對GPU(圖像處理器)進(jìn)行渲染。
大數(shù)據(jù)分析工具可以輕而易舉地處理ZB(十萬億億字節(jié))和PB(千萬億字節(jié))數(shù)據(jù),但它們往往不能將這些數(shù)據(jù)可視化。而億信華辰的數(shù)據(jù)可視化平臺---酷屏 ,在新一代動感3D引擎的助力下,讓數(shù)據(jù)“躍然屏上”,詮釋數(shù)據(jù)立體美;內(nèi)置近百種組件特效,展示效果炫酷奪目;可任意制作酷炫靈動的圖表和大屏,真正達(dá)到設(shè)計能走多遠(yuǎn),數(shù)據(jù)可視化展現(xiàn)就能達(dá)到多遠(yuǎn)的境界。
五、結(jié)論
可視化既可以是靜態(tài)的,也可以是動態(tài)的。交互式可視化通常引領(lǐng)著新的發(fā)現(xiàn),并且比靜態(tài)數(shù)據(jù)工具能夠更好的進(jìn)行工作。所以交互式可視化為大數(shù)據(jù)帶來了無限前景。在可視化工具和網(wǎng)絡(luò)(或者說是Web瀏覽器工具)之間互動的關(guān)聯(lián)和更新技術(shù)助推了整個科學(xué)進(jìn)程。基于Web的可視化使我們可以及時獲取動態(tài)數(shù)據(jù)并實現(xiàn)實時可視化。
一些傳統(tǒng)的大數(shù)據(jù)可視化工具的延伸并不具備實際應(yīng)用性。針對不同的大數(shù)據(jù)應(yīng)用,我們應(yīng)該開發(fā)出更多新的方法。本文介紹了一些最新的大數(shù)據(jù)可視化方法并對這些軟件進(jìn)行了SWOT分析,以幫助我們能夠再此基礎(chǔ)上創(chuàng)新。大數(shù)據(jù)分析和可視化,二者的整合也讓大數(shù)據(jù)應(yīng)用更好地為人們所用。此外能夠有效幫助大數(shù)據(jù)可視化過程的沉浸式VR,也是我們處理高維度和抽象信息時強(qiáng)有力的新方法。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)