日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據架構:從數據倉庫、數據湖到湖倉一體

時間:2022-07-29來源:落榜生瀏覽數:680

湖倉一體的兩個發展方向 數據倉庫和數據湖的融合有兩個方向,一種是在數據湖基礎上增加數據倉庫能力,另一種是數據湖和數據倉庫并行融合形成混合式的邏輯數據倉庫。

伴隨5G、大數據、AI、IoT的飛速發展,數據呈現大規模、多樣性的高速增長。為了應對更加復雜多變的業務需求,許多機構對數據處理的實時性和融合性提出了更高的要求,“湖倉一體”的概念應運而生,它打破了數據倉庫和數據湖之間的壁壘,使得割裂的數據融合統一,減少了數據分析中的搬遷,實現了統一的數據管理,有利于發現更多數據價值。

01 什么是數據倉庫? 數據倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創建。為需要業務智能的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。 數據倉庫是一個面向主題的、集成的、隨時間變化的、但信息本身相對穩定的數據集合,用于對管理決策過程的支持。數據倉庫本身并不“生產”任何數據,同時自身也不需要“消費”任何的數據,數據來源于外部,并且開放給外部應用使用。?

02 什么是數據湖? 數據湖(Data?Lake)是一種在系統或存儲庫中以自然格式存儲數據的方法,它有助于以各種模式和結構形式配置數據,通常是對象塊或文件。數據湖的主要思想是對企業中的所有數據進行統一存儲,從原始數據(源系統數據的精確副本)轉換為用于報告、可視化、分析和機器學習等各種任務的目標數據。數據湖中的數據包括結構化數據(關系數據庫數據),半結構化數據(CSV、XML、JSON等),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像、音頻、視頻),從而形成一個容納所有形式數據的集中式數據存儲。Data?Lake這個術語由Pentaho公司的創始人兼首席技術官詹姆斯·狄克遜(James Dixon)提出,他對數據湖的解釋是:把你以前在磁帶上擁有的東西倒入到數據湖,然后開始探索該數據。重要的只把需要的數據倒入到Hadoop;如果你想結合來自數據湖的信息和客戶關系管理系統(CRM)里面的信息,我們就進行連接,只有需要時才執行這番數據結合。?數據湖具有龐大的數據存儲規模,PB級別的計算能力,滿足多元化的數據信息交叉分析以及大容量、高速度的數據管道。?

03 數據湖和數據倉庫的區別

比較項 數據倉庫 數據湖
數據 已經加工過的結構化數據 所有類型的原始數據,包括結構化數據、半結構化數據和非結構化數據
加工方式 寫時模式(schema?on?write),表示數據在入DB前進行處理 讀時模式(schema?on?read),表示將數據的處理推遲到從DB讀出后
存儲 高成本存儲,使用本地存儲 低成本存儲,計算和存儲分離
靈活性 不靈活 高度靈活和可配置的
安全性 已成熟 正在發展
用戶群體 業務專家 各類用戶,包括業務專家、數據科學家、數據開發人員等。
應用場景 批處理報告、BI、可視化分析 機器學習、探索性分析、數據發現、流處理、大數據與特征分析

最重要的區別是數據倉庫是存儲已經加工過的結構化數據,事先已經知道怎么使用這些數據。而數據湖采用對象存儲方式,存儲的是各種原始的結構化、半結構化和非結構化數據,事先并不知道怎么使用這些數據,只有在有特定的數據分析需要時才對涉及的這部分數據進行處理。 數據湖還有助于從數據中發掘更多價值。數據倉庫和數據集市由于只使用數據中的部分屬性,所以只能回答一些事先定義好的問題;而數據湖存儲所有最原始、最細節的數據,所以可以回答更多的問題。并且數據湖允許組織中的各種角色使用,業務專家、數據分析師通過自助分析工具,對數據進行分析,數據科學家可以利用AI、機器學習的技術,從數據中發掘更多的價值。

? 04 什么是湖倉一體??

隨著數據湖的優勢受到關注,越來越多的企業開始融合數據湖和數據倉庫的平臺,不僅可以實現數據倉庫的功能,還實現了各種不同類型數據的處理功能、數據科學、用于發現新模型的高級功能,這就是所謂的湖倉一體(Lake House),而Amazon Web Services則稱之為 “智能湖倉”。湖倉一體(Lake House)是一種結合了數據湖和數據倉庫優勢的新范式,解決了數據湖的局限性。Lake House架構最重要的一點,是實現"湖里"和"倉里"的數據、元數據能夠無縫打通,并且“自由”流動。Lake House使用新的系統設計:直接在用于數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。湖倉一體具有以下特點: 統一的數據管理:湖倉一體提供完善的數據管理能力。數據湖中會存在兩類數據:原始數據和處理后的數據。數據湖中的數據會不斷的積累、演化,因此包含以下數據管理能力:數據源、數據連接、數據格式、數據schema(庫/表/列/行)。同時,數據湖是單個企業中統一的數據存放場所,因此,還具有一定的權限管理能力。 多模態的存儲引擎: 湖倉一體本身內置多模態的存儲引擎,以滿足不同的應用對于數據訪問需求(綜合考慮響應時間/并發/訪問頻次/成本等因素)。但是,在實際的使用過程中,為了達到可接受的性價比,湖倉一體解決方案提供可插拔式存儲框架,支持的類型有HDFS/S3等, 并且在必要時還可以與外置存儲引擎協同工作,滿足多樣化的應用需求。 豐富的計算引擎:提供從批處理、流式計算、交互式分析到機器學習等各類計算引擎。一般情況下,數據的加載、轉換、處理會使用批處理計算引擎;需要實時計算的部分,會使用流式計算引擎;對于一些探索式的分析場景,可能又需要引入交互式分析引擎。隨著大數據技術與人工智能技術的結合越來越緊密,各類機器學習/深度學習算法也被不斷引入,可以支持從HDFS/S3上讀取樣本數據進行訓練。因此,湖倉一體解決方案提供計算引擎的可擴展/可插拔。 數據全生命周期管理:湖倉一體提供一個企業中全量數據的存儲場所,需要對數據的全生命周期進行管理,包括數據的定義、接入、存儲、處理、分析、應用的全過程。一個強大的數據湖實現,需要能做到對其間的任意一條數據的接入、存儲、處理、消費過程是可追溯的,能夠清楚的重現數據完整的產生過程和流動過程。?

05 湖倉一體的兩個發展方向 數據倉庫和數據湖的融合有兩個方向,一種是在數據湖基礎上增加數據倉庫能力,另一種是數據湖和數據倉庫并行融合形成混合式的邏輯數據倉庫。 第一種模式目前業界已經涌現了一些LakeHouse產品,如NexFlix開源Iceberg、Uber開源Hudi、Databricks的DeltaLake。以目前生態發展迅速的Apache Hudi為例:統一數據存儲,分布式存儲不同應用所需的各種類型數據;數倉模式執行和治理,實現事務和更新機制,保證數據完整性和一致性,具有健壯的治理和審計機制;支持各種分析引擎,通過開放和標準化的存儲格式(如Parquet)實現統一數據存儲,并提供API以便各類工具和引擎(包括機器學習和Python /R語言)直接有效地訪問數據。 第二個融合方向是數據湖和數據倉庫協同起來,向湖倉一體的融合分析架構發展,即邏輯數據倉庫LDW。湖倉一體可以認為是邏輯數據倉庫架構理念下針對Hadoop數據湖和MPPDB數據倉庫的融合架構。數據對用戶完全實現虛擬化,以邏輯統一的數據系統為企業提供數據分析服務。平臺層面,Hadoop與MPP具備數據共用和跨庫分析能力,通過互聯互通、計算下推、協同計算,實現數據在多個數據平臺之間透明流動。 06 Amazon的智能湖倉方案

湖倉一體的大數據平臺正在發展當中,不同廠家也給出了自己的解決方案。本節介紹AmazonWeb Services的智能湖倉方案,下一節介紹華為云的FusionInsight湖倉一體解決方案。?Amazon?Web?Services推出了Redshift Spectrum,打通了數倉對數據湖的直接訪問,能夠高效查詢S3數據湖當中的EB級數據。“Spectrum”是智能湖倉的核心組件,被稱為“?Lake House引擎”,它可以在?湖與?倉之間架起數據流動的管道。 在實際業務場景下,數據的移動和訪問,不僅限于數據倉庫和數據湖之間,搜索引擎服務、機器學習服務、大數據分析服務……,都涉及到數據在本地(本系統)和數據湖之間的移動,以及數據在不同服務之間的移動。把數據湖和數據倉庫集成起來只是第一步,還要把湖、倉以及所有其他數據處理服務組成統一且連續的整體,這就是Amazon Web Services為何把自家的Lake House架構稱為“智能湖倉”,而非“湖倉一體”。這套架構,以數據湖為中心,把數據湖作為中央存儲庫,再圍繞數據湖建立專用“數據服務環”,環上的服務包括了數倉、機器學習、大數據處理、日志分析,甚至RDS和NOSQL服務等等。?Amazon Web Services官方給出了智能湖倉的參考架構,具體如下:這個六層架構,覆蓋了從數據源、數據攝取和入湖入倉,到湖倉打通與集成,再到數據出湖、數據處理和數據消費的完整流程,將各種數據服務無縫集成在一起。?

07 華為云的FusionInsight湖倉一體解決方案?

華為云FusionInsight智慧數據湖涵蓋了分布式存儲、大數據、數據倉庫、數據治理等技術,提供云原生湖倉一體解決方案。整體的參考架構如下:數據存儲層基于云原生架構,存算分離有效降低TCO,統一元數據管理實現湖倉共用數據存儲資源池,針對同一份元數據定義定義各類場景,提供API方便各類工具和引擎(包括機器學習、Python、R等)直接有效地訪問數據,這是實現湖倉一體的一個關鍵點。 計算引擎層為數據湖增加了事務能力,HetuEngine可通過標準SQL訪問跨域多源數據,實現湖倉數據關聯分析、協同計算;打破數據墻,在湖內基于統一數據目錄,可基于數據湖實現融合分析和AI訓練推理,減少數據搬遷,實現海量數據快速價值挖掘。 運營管理層則提供統一的數據開發和數據治理環境,具備安全管理能力,支持多引擎任務統一開發和編排,數據統一建模和質量監測,實現湖倉一致的開發治理體驗。?

08 結論

湖倉一體于2020年剛剛提出,業內還處在探索階段,企業應用也非常有限。但從發展趨勢來看,湖倉一體必將在數字經濟建設中發揮非常重要的作用,值得我們關注研究和嘗試應用。不過,不同企業在選擇數據平臺架構時還是要根據自己的實際需要確定,如果數據量不大,而且主要是結構化數據,那就選擇傳統數倉就好了,不需要盲目追求高大上的湖倉一體,畢竟適合自己的才是最好的,關鍵還是挖掘和發揮數據價值。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢