- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-05-27來源:玉竹瀏覽數:1187次
數據引力只會隨著時間的推移而增加,進而會吸引更多的應用程序和服務,這給數據管理、治理帶來了一定的挑戰。事實證明,企業只有對數據進行有效管理,確保其提供的信息準確性、完整性和及時性,這樣的數據才是有價值的。
全文共 3228個字,建議閱讀需 5 分鐘
數字化時代,毋庸置疑數據是有價值的。釋放數據價值、用于特定的業務場景、實現數據驅動決策……,這樣的需求越來越多,而這種需求只能通過維護大量數據來滿足。隨著企業向前發展,數據只會繼續增長。這種數據持續的擴展的現象被稱為“數據引力”。
— 1 —什么是數據引力? 人始終應處于首要位置,在此之后,數據是任何業務領域的重中之重。數據的位置決定了許多業務相關要素(存儲數據的硬件、管理數據的人員和使用數據的應用程序)的位置。隨著數據規模增加,其引力也增加,“數據引力”一詞由此得來。這個術語是由 Dave McCrory 在一篇 2010 年的博客文章中首次提出的。不錯,數據引力并非一個新概念。數據引力是大型數據集的觀察特征,描述了它們吸引較小數據集以及相關服務和應用程序的趨勢,它還說明了移動大型“重”數據集的難度。將大量數據(例如數據湖)想象成一個星球,將服務和應用程序想象成衛星。數據越大,它的引力或重力就越大。引力越大,數據就會將更多的衛星(服務、應用程序和數據)進入其軌道。?由于數據存在多樣性、復雜性,使得大型數據集很有吸引力。也是因為他們很有吸引力(即具有引力),所以用于存儲此類大型數據集的技術(例如云服務)需要各種配置,從而需要對數據的處理和使用方式進行更多選擇。數據引力的概念也用于表示數據集的大小并討論其相對持久性。大型數據集“重”且難以移動。這對如何使用數據以及合并或遷移數據需要什么樣的資源都有影響。隨著業務數據持續成為一種日益增長的商品,在設計將如何使用該數據的解決方案時,必須考慮數據引力。不僅要考慮當前的數據引力,還要考慮其潛在增長。
— 2 —數據引力將給企業帶來影響 數據引力只會隨著時間的推移而增加,進而會吸引更多的應用程序和服務,這給數據管理、治理帶來了一定的挑戰。事實證明,企業只有對數據進行有效管理,確保其提供的信息準確性、完整性和及時性,這樣的數據才是有價值的。否則,它就是企業的負擔。由于數據引力對任何數據體都起作用,企業必須考慮數據的影響。因此,需要將其作為數據管理和治理的一部分!如果沒有適當的策略、程序和管理規則,數據倉庫、數據湖泊或其他數據集中的海量數據可能會變得不堪重負。更糟糕的是,這些數據可能未被充分利用。應用程序的所有者可能會恢復為僅使用他們擁有的數據來做出決策,從而導致單個或多個應用程序做出片面或不協調的決策。?數據整合在很大程度上受到數據引力理念的影響,特別是統一數據管理平臺。將數據放在一個集中的中央存儲,意味著數據引力不會隨著時間的推移而緩慢收集,而是會在短時間內大幅增加。?了解了數據引力對企業的數據管理的影響將確保應急措施到位,以處理數據對系統迅速增加的影響。例如,考慮數據引力如何影響數據分析。將海量數據集遷移到分析集群中是一個無效的——更不用說這是一個昂貴的過程。企業將需要開發更好的數據處理架構,以實現更大的數據可操作性。
— 3 —數據引力帶來的問題 數據引力給數據管理者帶來了兩個問題:數據的延遲和不可移植性。
數據延遲
就其本質而言,大型數據集要求使用它的應用程序足夠靠近,并在其軌道上,否則就會遭受延遲。這是因為應用程序離數據越近,工作負載的性能就越好。速度對于成功的業務運營至關重要。隨著數據引力的增加,增加數據延遲是根本不可能的,這會影響業務的運營。企業需要確保吞吐量和工作負載的平衡,并隨著數據的重要性而增長。這意味著將應用程序移動到與數據相同的領域,以防止延遲并提高吞吐量。亞馬遜QuickSight是解決延遲問題的一個很好的例子,它的開發是為了直接依賴于依靠云數據能力來優化性能。不可移植性
數據引力隨著數據集的大小而增加,數據集越大,數據集就越難移動。畢竟,移動一個“星球”將是一個相當大的壯舉。移動大量的數據是緩慢的,而且在這個過程中會占用大量資源。在任何需要遷移數據的時候,都必須考慮到數據的引力。由于數據集的持續增長,企業將需要根據需求制定遷移計劃,需要考慮到數據集大小和增長的要求,而不是其實際的、當前的規模。數據引力是指有多少服務、應用程序和附加數據會被吸引到數據集上,在確定未來的規模時應考慮到這一點。遷移將需要一個專門的,往往是創造性的計劃,才能獲得成功。
— 4 —數據引力要如何應對 數據引力是數字時代的現實,必須盡可能巧妙地處理,以保持事情順利有效地進行。數據管理者武器庫中最大的武器將是數據管理和治理,以及精湛的數據集成。
1. 數據管理數據管理是必須的,無論數據是存儲在云還是在企業內部。數據管理允許利用數據引力--數據將如何被使用,由誰使用,以及用于什么目的,這些因素都將有助于確定哪些應用程序和服務需要在云中運行的數據。隨著時間的推移,數據引力帶來了更多的應用和服務,保持數據的完整性以提供準確和完整的數據是至關重要的。
2. 數據治理數據治理是數據管理的一個核心部分。數據治理最好被解釋為一個角色系統,它定義了與數據有關的責任和義務。這是解決數據引力問題的首要條件,因為它可以創建更好的數據質量并允許數據映射。良好的數據治理將提供確保數據質量的相關策略,并有助于提供更好的整體數據管理。
3. 數據集成數據集成是企業如何提高系統和應用程序的效率,同時提高利用數據的能力。?雖然使用數據整合作為處理數據引力的手段似乎有悖常理,但它可以歸結為只擁有一個數據源而不是很多數據源。一個中央源肯定是龐大的,但它也意味著數據管理工具和人員只需與一個數據引力源而不是幾個數據引力源競爭。
— 5 —云和數據引力的未來 數據引力的最大缺點是需要在數據和需要該數據的應用之間建立起一個接近的關系。例如,越來越多的企業正在尋求分享他們的數據,以努力產生更有價值的、強大的數據集,這將是互惠互利的。為了有效地做到這一點,參與的企業都需要向數據靠近。進入云端,全國甚至全球的企業都可以通過利用云技術實現這種接近。然而,云技術既可以被視為一種解決方案,也可以被視為一個問題。云技術允許控制數據的主題大規模擴張,這起到了增加數據引力而不是分散數據引力的作用。在硬幣的另一面,云技術通過允許企業擁有可擴展的處理能力和接近所需的數據,成為對抗數據引力的一種手段。這就把云推到了前臺,不鼓勵企業內部的本地數據存儲。
— 6 —主動管理數據引力 數據引力不一定是一個不可克服的問題。數據引力是影響數據世界的環境因素,但了解這些影響可以讓數據管理者控制并處理潛在的后果。盡管幾乎沒有確切的答案,但企業可以采取措施通過適當的數據管理和數據治理來減輕數據引力的負面影響。隨著技術和流程的日益先進,數據管理和治理必須不斷發展。處理日益增加的復雜性似乎令人生畏,但擁有正確的技術和工具對于緩解這種壓力大有幫助。不要在“數據星球”的軌道上漂泊。有兩種新型數據技術架構,或許可以幫助企業應對數據引力。一個是Data Fabric,另一個是Data Mesh。Data Fabric中文翻譯為數據編織,是由著名咨詢機構Gartner提出來的一個新概念。可以將 Data Fabric 視為在一個大空間上伸展的編織物,它連接多個位置、類型和數據源,以及訪問該數據的方法。Data Fabric它不僅可以集合所有業務用戶的信息,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何數據。Data Fabric改進了數據倉庫和數據湖的概念,引入了一個新的架構(網絡狀),使整個企業能夠統一利用數據。Data Fabric用基于網絡的架構而不是點對點的連接來處理數據,實現了從數據源層面到分析、洞察力生成、協調和應用的一體化數據結構。關于數據編織(Data Fabric),請參考:你知道數據治理,你聽過數據編織嗎?Data Mesh中文翻譯為數據網格,是由 Thoughtworks 的 首席技術顧問Zhamak Dehghani 開發的一種利用域驅動的自助數據基礎架構。Data Mesh允許最終用戶輕松訪問重要數據,而無需將其傳輸到數據湖或數據倉庫,也無需專家數據團隊進行干預。Data Mesh側重于去中心化,將數據所有權分配給可以獨立、安全地將數據作為產品進行管理的團隊——減少數據管理中的瓶頸和孤島,并在不犧牲數據治理的情況下實現可擴展性。
關于數據網格(Data Mesh),請參考:數字前沿:數據網格的原理和邏輯架構!
<END>