日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

什么是數據湖?有什么用?終于有人講明白了……

時間:2024-08-22來源:小一一一瀏覽數:160

01 什么是數據湖?

如果需要給數據湖下一個定義,可以定義為這樣:數據湖是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。

參考:數據湖,下一代數據倉庫

數據湖從企業的多個數據源獲取原始數據,并且針對不同的目的,同一份原始數據還可能有多種滿足特定內部模型格式的數據副本。因此,數據湖中被處理的數據可能是任意類型的信息,從結構化數據到完全非結構化數據。

企業對數據湖寄予厚望,希望它能幫助用戶快速獲取有用信息,并能將這些信息用于數據分析和機器學習算法,以獲得與企業運行相關的洞察力。


數據湖與企業的關系

數據湖能給企業帶來多種能力,例如,能實現數據的集中式管理,在此之上,企業能挖掘出很多之前所不具備的能力。

另外,數據湖結合先進的數據科學與機器學習技術,能幫助企業構建更多優化后的運營模型,也能為企業提供其他能力,如預測分析、推薦模型等,這些模型能刺激企業能力的后續增長。

企業數據中隱藏著多種能力,然而,在重要數據能夠被具備商業數據洞察力的人使用之前,人們無法利用它們來改善企業的商業表現。


02 數據湖能為企業帶來什么價值?

長期以來,企業一直試圖找到一個統一的模型來表示企業中所有實體。這個任務有極大的挑戰性,原因有很多,下面列舉了其中的一部分:

一個實體在企業中可能有多種表示形式,因此可能不存在某個完備的模型來統一表示實體。

不同的企業應用程序可能會基于特定的商業目標來處理實體,這意味著處理實體時會采用或排斥某些企業流程。 不同應用程序可能會對每個實體采用不同的訪問模式及存儲結構。

這些問題已困擾企業多年,并阻礙了業務處理、服務定義及術語命名等事務的標準化。

從數據湖的角度來看,我們正在以另外一種方式來看待這個問題。使用數據湖,隱式實現了一個較好的統一數據模型,而不用擔心對業務程序產生實質性影響。這些業務程序則是解決具體業務問題的“專家”。數據湖基于從實體所有者相關的所有系統中捕獲的全量數據來盡可能“豐滿”地表示實體。

因為在實體表示方面更優且更完備,數據湖確實給企業數據處理與管理帶來了巨大的幫助,使得企業具備更多關于企業增長方面的洞察力,幫助企業達成其商業目標。


數據湖的優點

企業會在其多個業務系統中產生海量數據,隨著企業體量增大,企業也需要更智能地處理這些橫跨多個系統的數據。

一種最基本的策略是采用一個單獨的領域模型,它能精準地描述數據并能代表對總體業務最有價值的那部分數據。這些數據指的是前面提到的企業數據。

對企業數據進行了良好定義的企業當然也有一些管理數據的方法,因此企業數據定義的更改能保持一致性,企業內部也很清楚系統是如何共享這些信息的。

在這種案例中,系統被分為數據擁有者(data owner)及數據消費者(data consumer)。對于企業數據來說,需要有對應的擁有者,擁有者定義了數據如何被其他消費系統獲取,消費系統扮演著消費者的角色。

一旦企業有了對數據和系統的明晰定義,就可以通過該機制利用大量的企業信息。該機制的一種常見實現策略是通過構建企業級數據湖來提供統一的企業數據模型,在該機制中,數據湖負責捕獲數據、處理數據、分析數據,以及為消費者系統提供數據服務。


數據湖能從以下方面幫助到企業:

實現數據治理(data governance)與數據世系。

通過應用機器學習與人工智能技術實現商業智能。 預測分析,如領域特定的推薦引擎。 信息追蹤與一致性保障。 根據對歷史的分析生成新的數據維度。 有一個集中式的能存儲所有企業數據的數據中心,有利于實現一個針對數據傳輸優化的數據服務。 幫助組織或企業做出更多靈活的關于企業增長的決策。


03?數據湖與數據倉庫的區別

很多時候,數據湖被認為與數據倉庫是等同的。實際上數據湖與數據倉庫代表著企業想達成的不同目標。下表顯示了兩者的關鍵區別。

數據湖

數據倉庫

能處理所有類型的數據,如結構化數據,非結構化數據,半結構化數據等,數據的類型依賴于數據源系統的原始數據格式。

只能處理結構化數據進行處理,而且這些數據必須與數據倉庫事先定義的模型吻合。

擁有足夠強的計算能力用于處理和分析所有類型的數據,分析后的數據會被存儲起來供用戶使用。

處理結構化數據,將它們或者轉化為多維數據,或者轉換為報表,以滿足后續的高級報表及數據分析需求。

數據湖通常包含更多的相關的信息,這些信息有很高概率會被訪問,并且能夠為企業挖掘新的運營需求。

數據倉庫通常用于存儲和維護長期數據,因此數據可以按需訪問。

數據湖與數據倉庫的關鍵區別

從上表來看,數據湖與數據倉庫的差別很明顯。然而,在企業中兩者的作用是互補的,不應認為數據湖的出現是為了取代數據倉庫,畢竟兩者的作用是截然不同的。


04?數據湖的構建方法

不同的組織有不同的偏好,因此它們構建數據湖的方式也不一樣。構建方法與業務、處理流程及現存系統等因素有關。

簡單的數據湖實現幾乎等價于定義一個中心數據源,所有的系統都可以使用這個中心數據源來滿足所有的數據需求。雖然這種方法可能很簡單,也很劃算,但它可能不是一個非常實用的方法,原因如下:

只有當這些組織重新開始構建其信息系統時,這種方法才可行。

這種方法解決不了與現存系統相關的問題。 即使組織決定用這種方法構建數據湖,也缺乏明確的責任和關注點隔離。 這樣的系統通常嘗試一次性完成所有的工作,但是最終會隨著數據事務、分析和處理需求的增加而分崩離析。

更好的構建數據湖的策略是將企業及其信息系統作為一個整體來看待,對數據擁有關系進行分類,定義統一的企業模型。

這種方法雖然可能存在流程相關的挑戰,并且可能需要花費更多的精力來對系統元素進行定義,但是它仍然能夠提供所需的靈活性、控制和清晰的數據定義以及企業中不同系統實體之間的關注點隔離。

這樣的數據湖也可以有獨立的機制來捕獲、處理、分析數據,并為消費者應用程序提供數據服務。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢