日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數據分析平臺

ABI(ALL in one BI)是億信華辰歷經19年匠心打造的國產化BI工具,技術自主可控。它打通從數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,可滿足企業經營中各類復雜的分析需求,幫助企業實現高效數字化轉型。

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

數據倉庫、數據湖、湖倉一體,究竟有什么區別

時間:2022-11-10來源:互聯網瀏覽數:240

數據,已經成為了企業的生命線與核心資產,數據管理和數據分析成為非常重要的應用領域。出于對數據管理領域的關注,不同行業也逐步提升了對數據存儲數據治理及數據分析能力的要求,這一趨勢帶來了新理念。從數據倉庫到數據湖再到湖倉一體,關于數據的存儲和管理有了越來越多的新概念和新方法。

這三個概念看起來非常相似,其定義也同樣相似嗎?是不是就是存儲容量的區別?

其實并不是如此,要明白它們有什么區別,就從概念溯源,分析其底層邏輯,和小億一起來看看吧。

一、概念溯源
1.數據倉庫
數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合,用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統之聯機事務處理(OLTP)經年累月所累積的大量資料,透過數據倉庫理論所特有的資料儲存架構,作一有系統的分析整理,以利各種分析方法如聯機分析處理(OLAP)、數據挖掘(Data Mining)之進行,并進而支持如決策支持系統(DSS)、主管資訊系統(EIS)之創建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應外在環境變動,幫助建構商業智能(BI)。

所謂主題:是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫內的信息是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。

所謂集成:是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和匯總的過程,因此數據倉庫中的信息是關于整個企業的一致的全局信息。

所謂隨時間變化:是指數據倉庫內的信息并不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。


△數據倉庫邏輯架構

2.數據湖

數據湖(Data Lake)是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖是以其自然格式存儲的數據的系統或存儲庫,通常是對象blob或文件。數據湖通常是企業所有數據的單一存儲,包括源系統數據的原始副本,以及用于報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關系數據庫(行和列)的結構化數據,半結構化數據(CSV,日志,XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像,音頻,視頻)。

目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集群。但其實數據湖是一個概念,而Hadoop是用于實現這個概念的技術。


3.湖倉一體

近年來,業界開始提出湖倉一體(Data Lakehouse)的概念,旨在為企業提供一個統一的、可共享的數據底座,避免傳統的數據湖、數據倉庫之間的數據移動,將原始數據、加工清洗數據、模型化數據,共同存儲于一體化的“湖倉”中,既能面向業務實現高并發、精準化、高性能的歷史數據、實時數據的查詢服務,又能承載分析報表、批處理、數據挖掘等分析型業務。

湖倉一體方案的出現,幫助企業構建起全新的、融合的數據平臺,打破了數據湖與數據倉庫割裂的體系,在架構上將數據湖的靈活性、數據多樣性以及豐富的生態,與數據倉庫的企業級數據分析能力進行融合。

通過對機器學習和AI算法的支持,實現數據湖+數據倉庫的閉環,極大地提升業務的效率。數據湖和數據倉庫的能力充分結合,形成互補,同時對接上層多樣化的計算生態。

毫無疑問,湖倉一體將會更好地服務于企業,幫助企業實現大數據能力的提升,如降低成本、提升運營效率、業務模式探索等。


△湖倉一體示意圖

二、特點明晰
這三個概念雖然有相同的部分,但更多的部分是有所不同的,所以我們就從它們的特點來看:

1、數據倉庫特點

數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。它具有以下典型的特點:

(1)高執行效率:數據倉庫處理的數據量巨大,且分析周期一般以天為單位,因此對分析的時效性要求相對較高,這就需要它具有高效率的數據存儲和處理能力。

(2)高數據質量:進入數據倉庫的數據一般會經過數據清洗的環節,因此可能導致數據失真的臟數據會被清除,從而保證數據倉庫提供的信息是準確的。

(3)高擴展性:數據倉庫的設計和建設一般會考慮未來3-5年的情況。

(4)面向主題:數據倉庫中的數據是按照一定的主題域進行組織的。主題是指在較高層次上將企業信息系統中的數據綜合、歸類并進行分析利用的抽象。

2、數據湖特點

數據湖是一類存儲數據原始格式的系統。它通常是企業中全量數據的單一存儲。全量數據包括原始系統所產生的原始數據拷貝以及為了各類任務而產生的轉換數據,各類任務包括報表、可視化、高級分析和機器學習。數據湖中包括來自于關系型數據庫中的結構化數據、半結構化數據、非結構化數據和二進制數據等。相比數據倉庫,數據湖具有以下特征:

(1)保真性:數據湖中必須要保存一份原始數據,無論是數據格式、數據模式、數據內容都不應該被修改。

(2)靈活性:在假設沒辦法預估業務變化的前提下,直接保持數據的原始狀態,一旦需要時,再根據需求對數據進行加工處理。

(3)可管理:數據湖中的數據會不斷地積累、演化。因此,對于數據管理能力要求也很高。它至少應該包含的數據管理能力包括:數據源、數據連接、數據格式、數據模式,數據權限等。

(4)可追溯:數據湖是一個企業中全量數據的存儲場所,需要對數據的全生命周期進行管理,包括數據的定義、接入、存儲、處理、分析、應用的全過程。它需要能做到對其間的任意一條數據的接入、存儲、處理、消費過程是可追溯的,能夠清楚地重現數據完整的產生過程和流動過程。

3、湖倉一體特點

湖倉一體指的是結合了數據倉庫和數據湖的元素而形成的數據解決方案。它實現了數據倉庫的數據結構和數據湖的可管理特性。通常既可以用來做機器學習,也可以用來做BI分析。湖倉一體的特點包括:

(1)統一的數據管理:湖倉一體提供完善的數據管理能力。數據湖中會存在兩類數據:原始數據和處理后的數據。數據湖中的數據會不斷地積累、演化,因此包含以下數據管理能力:數據源、數據連接、數據格式、數據schema(庫/表/列/行)。同時,數據湖是單個企業中統一的數據存放場所,因此,還具有一定的權限管理能力。

(2)多模態的存儲引擎:湖倉一體本身內置多模態的存儲引擎,以滿足不同的應用對于數據訪問需求(綜合考慮響應時間/并發/訪問頻次/成本等因素)。但是,在實際的使用過程中,為了達到可接受的性價比,湖倉一體解決方案提供可插拔式存儲框架,支持的類型有HDFS/S3等, 并且在必要時還可以與外置存儲引擎協同工作,滿足多樣化的應用需求。

(3)豐富的計算引擎:提供從批處理、流式計算、交互式分析到機器學習等各類計算引擎。一般情況下,數據的加載、轉換、處理會使用批處理計算引擎;需要實時計算的部分,會使用流式計算引擎;對于一些探索式的分析場景,可能又需要引入交互式分析引擎。隨著大數據技術與人工智能技術的結合越來越緊密,各類機器學習/深度學習算法也被不斷引入,可以支持從HDFS/S3上讀取樣本數據進行訓練。因此,湖倉一體解決方案提供計算引擎的可擴展/可插拔。

(4)數據全生命周期管理:湖倉一體提供一個企業中全量數據的存儲場所,需要對數據的全生命周期進行管理,包括數據的定義、接入、存儲、處理、分析、應用的全過程。一個強大的數據湖實現,需要能做到對其間的任意一條數據的接入、存儲、處理、消費過程是可追溯的,能夠清楚的重現數據完整的產生過程和流動過程。

三、區別了解
數據湖是近幾年熱度比較高的一個數據域的一個概念,熱度和認知度幾乎超過了前些年的數據倉庫。其實數據湖和數據倉庫不完全一個層面的概念。數據湖和數據倉庫代表了數據架構設計的兩種取向。我們先來看看數據湖和數據倉庫的區別。

1、數據倉庫和數據湖

綜上,數據倉庫和數據湖,是大數據架構的兩種設計取向。兩者在設計的根本分歧點是對包括存儲系統訪問、權限管理、建模要求等方面的把控。

數據湖優先的設計,通過開放底層文件存儲,給數據入湖帶來了最大的靈活性。進入數據湖的數據可以是結構化的,也可以是半結構化的,甚至可以是完全非結構化的原始日志。另外,開放存儲給上層的引擎也帶來了更多的靈活度,各種引擎可以根據自己針對的場景隨意讀寫數據湖中存儲的數據,而只需要遵循相當寬松的兼容性約定(這樣的松散約定當然會有隱患,后文會提到)。但同時,文件系統直接訪問使得很多更高階的功能很難實現,例如,細粒度(小于文件粒度)的權限管理、統一化的文件管理和讀寫接口升級也十分困難(需要完成每一個訪問文件的引擎升級,才算升級完畢)。

而數據倉庫優先的設計,更加關注的是數據使用效率、大規模下的數據管理、安全 / 合規這樣的企業級成長性需求。數據經過統一但開放的服務接口進入數據倉庫,數據通常預先定義 schema,用戶通過數據服務接口或者計算引擎訪問分布式存儲系統中的文件。數據倉庫優先的設計通過抽象數據訪問接口 / 權限管理 / 數據本身,來換取更高的性能(無論是存儲還是計算)、閉環的安全體系、數據治理的能力等,這些能力對于企業長遠的大數據使用都至關重要,我們稱之為成長性。

2、從數據倉庫、數據湖到湖倉一體

近幾年,數據湖和數據倉庫的應用場景和分界還是很清晰的。數據倉庫擅長的BI、數據洞察離業務更近、價值更大,而數據湖里的數據,更多的是為了遠景。但是隨著數據處理技術的發展以及AI的廣泛應用,原來為畫餅準備的數據湖里的數據得以重見天日,其價值被重新定義。這就是湖倉一體化。

如今對數據價值的深度挖掘成了行業客戶普遍關注的熱點,所以很多人就想能不能把數據倉庫和數據湖的價值進行疊加,讓數據流動起來,減少重復建設。比如,讓“數倉”在進行數據分析的時候,可以直接訪問數據湖里的數據。再比如,讓數據湖在架構設計上,就“原生”支持數倉能力。

正是這些想法和需求,推動了數倉和數據湖的打通和融合,也就是當下炙手可熱的概念:Lake House,現在也叫智慧湖倉。智慧湖倉架構最重要的一點,是實現“湖里”和“倉里”的數據/元數據能夠無縫打通,并且“自由”流動。湖里的“新鮮”數據可以流到倉里,甚至可以直接被數倉使用,而倉里的“不新鮮”數據,也可以流到湖里,低成本長久保存,供未來的數據挖掘使用。

在湖倉一體化架構下,以下場景得以實現:

可以將數據湖中最近幾個月的“熱數據”抽取到數倉中;
可以輕松將大量冷門歷史數據從數倉轉移至成本更低廉的數據湖內,同時這些移到湖里的數據,仍然可以被數倉查詢使用;
處理數倉內的熱數據與數據湖中的歷史數據,生成豐富的數據集,全程無需執行任何數據移動操作;
生成的新數據集可以插入到數倉中的表內,或者直接插入由數據湖托管的外部表中。
在實際業務場景中,數據的移動不只是存在于數據湖和數據倉庫之間,可以簡單歸納為三種,一種是由外向內的數據入湖,第二種是由內向外的數據出湖,第三種是圍繞數據湖數據在數據服務組件之間流動。數據越多,管理和治理起來就越困難,就會形成所謂的“數據重力”現象。湖倉一體化不僅需要把數倉和數據湖集成起來,還要克服數據重力,讓數據在服務之間按需流動。

湖倉一體化也好,智能湖倉也好,并非單一產品,它描述的是一種架構。這套架構,以數據湖為中心,把數據湖作為中央存儲庫,再圍繞數據湖建立專用“數據服務環”,環上的服務包括了數倉、機器學習、大數據處理、日志分析,甚至RDS和NOSQL服務等等。

3、PetaBase、數據工廠與湖倉一體的架構關系

PetaBase:是一個分布式、高性能、支持SQL的大數據計算和存儲的基礎設施平臺。

數據工廠(EDF):是一個提供數據的采集、集中處理、分發、加載、傳輸功能的一站式開發平臺。


億信華辰倉湖一體解決方案是由“數據存儲架構 + 數據處理工具”組成的解決方案,涵蓋數據存儲、數據融合、數據加工、數據共享四大應用,綜合數據湖、數據倉庫兩種技術演進方向,為企業用戶提供云原生倉湖一體解決方案。


四、應用舉例

1.建設背景

在HW企業規模飛速擴張的今天,各類業務、應用系統全方位地覆蓋了整個企業。應用系統從最初的滿足用戶需求,跨越到分析用戶體驗及用戶畫像,立志為全球用戶提供最好的服務和體驗。

基于此初衷,該企業各部門越來越重視運營這個模塊,IT數字化運營的概念也逐漸浮出水面。數字化運營在中小型企業實現起來也許不會那么困難,但對于龐大且歷史長久的HW來說必會大動干戈,數字化運營將面對海量的數據存儲,企業級數據倉庫和各業務數據集市的建設,以及如何在海量數據中挖掘分析出有價值的KPI。對于運營人員來說,最快、最準、最新的運營數據支持,往往能讓他們事半功倍。

IT數字化運營所面對的困難:

海量數據的存儲和處理引擎
企業級的數據倉庫和數據集市的建設
數據處理的可拓展性(挖掘算法、自定義算法的支持)
運營頁面的響應速度
2.建設內容

為解決以上問題,項目中使用億信華辰自主研發的分布式大數據庫產品PetaBase ,代替了傳統的關系型數據庫作為主要的數據處理引擎。

挑戰一:海量數據的存儲和處理引擎

PetaBase數據存儲基于Hadoop提供的HDFS分布式文件存儲方式,支持關系型數據庫和非結構化的數據導入,解決了用戶海量數據存儲的問題。數據處理使用impala內存計算引擎,相對于Hadoop生態中其他的計算引擎,它有著計算快,支持大多數SQL中的DDL和DML語句等優勢。在本次HW數字化運營項目中共處理60多T的數據,其中單表最大數據量達到80億條,3級ETL跑批只需4到6個小時即可完成。

挑戰二:企業級的數據倉庫和數據集市的建設

IT數字化運營系統共分為四層,分別是底層數據源,存儲層,服務層和應用層。底層數據源包含多個業務系統的底層數據,來源于關系型數據庫,Nosql數據庫,文本數據等多種數據源。存儲層通過PetaBase大數據平臺進行搭建,在PetaBase中對底層多源數據進行匯總存儲并分層處理,形成多層次數據模型,完成面向應用的數據倉庫與數據集市的建設。PetaBase大數據平臺為其他平臺提供數據接口,為上層應用提供數據基礎。

挑戰三:數據處理的可拓展性

由于PetaBase的數據存儲在HDFS中,Hadoop生態中有多種多樣的數據處理引擎,并能支持用戶自定義函數的擴展(數據挖掘函數等)。項目中有用到多種數據挖掘的方法,比如通過箱線圖的算法來排除異常性能數據,然后取正常性能數據升序排序后的90%位置的數據作為性能值的一個度量,并通過用戶自定義的函數來實現。

3.價值體現

隨著HW IT智能運營平臺(eSee)承擔的IT數字化轉型的使命加強,eSee平臺的底層數據覆蓋范圍和數據量呈指數級增長,單靠傳統關系型數據庫已無法滿足要求,平臺需要一套基于大數據架構的數據庫承擔底層數據存儲計算工作,而PetaBase的出現正好彌補該企業IT運營平臺的不足,并且PetaBase與億信BI同出一脈,天然的融為一體,讓PetaBase對比其他大數據架構平臺有更多優勢,在項目中應用起來非常便捷。

當前PetaBase已經承擔企業IT智能運營平臺(eSee)底層大部分的數據存儲以及計算處理工作,處理能力得到充分認可:

在Saas服務層,PetaBase底層處理的數據已覆蓋600+IT產品、80萬+IT用戶的用戶行為、產品質量以及應用本身的業務量的數據,這些應用數據計算處理后被廣泛用于單產品的數字化運營、全球IT服務的5s度量、產品經營分析、用戶服務畫像等重要的業務場景中。通過運營洞察各產品在網運行情況,驅動產品自我改進;支撐各類IT用戶的ROADs體驗落地;發現業務流量的高地,支撐流量低的應用"日落"。

在Paas平臺層,PetaBase在平臺底層支撐HW服務的百萬級VM對應資源的性能容量的運營數據的處理,通過資源使用率的度量,幫助業務優化資源管理和分配,讓云資源能及時合理使用和釋放,提升云資源使用效率。

在Iaas基礎設施層,Patabase底層承擔HW全球5大中心和RDC、SR數據中心的機柜、電力、能耗數據的處理工作,同時支撐著全球10萬+IT后端資產的性能容量的運營數據的后臺處理,處理的數據通過前端億信BI給各業務場景構建的運營界面,助力企業IT的資產使用效率的提升、降低IT基礎設施的成本投資,使能企業IT數字化轉型成功!

五、小結
湖倉一體于2020年提出,業內還處在探索階段,企業應用也非常有限。但從發展趨勢來看,湖倉一體必將在數字經濟建設中發揮非常重要的作用,值得我們關注研究和嘗試應用。不過,不同企業在選擇數據平臺架構時還是要根據自己的實際需要確定,畢竟適合自己的才是最好的,關鍵還是挖掘和發揮數據價值。一味糾結定義的高低,不如開發適合自己企業的產品。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢