日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

做不到這三點,“湖倉”一體就流于表面

時間:2022-01-27來源:夕陽無限好瀏覽數:272

伴隨著數據的指數增長和數據種類的不斷增多,數據的使用場景更為復雜,以及基于實時數據的快速決策越來越普及,單一的數據倉庫或者數據湖解決方案滿足不了用戶數據挖掘的需求了。

用戶希望橫跨數據湖和數據倉庫,利用更多的數據,發現更多的機會。

創新公司Databricks和Snowflake等利用創新技術,首先嘗試湖倉一體,讓用戶嘗到甜頭,也讓云服務商看到了商機和危機。

現在,湖倉一體的窗口期到了!然而誰能真正做到湖倉一體,賦能用戶呢?

湖倉一體“優勢”被放大

湖倉一體市場被點燃。

2021年是大數據開源項目Hadoop誕生的第15年,開源項目Spark誕生的第12年。

兩大開源項目本身是相互依存的,Hadoop為分布式大數據存儲技術,而Spark是對存儲的分布式大數據進行處理的技術。

然而,兩大開源項目如今的現狀卻大不相同:Hadoop的獨角獸企業Hortonworks和Cloudera合并,銷售額不斷降低,另一家公司MapR已經被收購。

但是由Apache Spark初始成員創立的大數據初創公司Databricks卻在2021完成 10億美元G輪融資,公司估值高達280億美元。

其核心是Databricks是行業最早布局并最早推出湖倉一體的公司,首先推出Lakehouse架構,即數據湖技術與數據倉庫技術結合為一體。

另一家將數據倉庫做到了云原生的創業公司Snowflake,市值始終維持在730億美元左右,已經相當于1/2個IBM,1/3個甲骨文。

Snowflake的計算等能力是從AWS、Azure、Google Cloud三大公有云廠商那里“批發”的,同時又能利用三大云廠商的數據湖能力,讓三大云企業受益,最核心的是數據云及其背后的湖倉一體技術。

湖倉一體的優勢,以及市場規模,點燃了云服務商賺錢的欲望。

傳統意義上的數據湖、數據倉庫,存在著顯著的差異。

數據倉庫是一個經過優化的數據庫,用于分析來自事務系統和業務線應用程序的關系型數據,因此數據倉庫存儲的都是結構化數據。數據經過了清理、豐富和轉換,因此可以充當用戶可信任的“單一信息源”。

數據倉庫對數據提供高效地存儲,便于用戶通過報表、看板和分析工具來獲取查詢結果,從而從數據中獲得洞察力、決策指導。

對應起來看,數據湖存儲著來自業務線應用程序的關系型數據,以及來自移動應用程序、IoT 設備和社交媒體的非關系型數據。

用戶可以對數據使用不同的方式如 SQL 查詢、大數據分析、全文搜索、實時分析和機器學習等,來獲得對數據的深入了解。

當不清楚某些數據存在的價值時,將數據以原生格式天然沉積在數據湖。數據來源可以不同,可以使用不同的過程將數據注入到數據湖中。

過去的十幾年里,數據倉庫和數據湖方案在快速演進和彌補自身缺陷。目前,很多企業采用傳統的“湖倉分離”模式,獨立建設了數據湖和數據倉庫,一定程度上實現了功能的互相補充。

隨著用戶對數據的利用的不斷發展,對技術的要求也日益提高,企業在數據運營、價值挖掘、運維等方面,也遇到了明顯的挑戰:

數據倉庫和數據湖之間,不能實現高時效的數據共享,一般需要借助ETL數據傳輸來打通。

不同格式的數據在轉換處理時,引入大量的開源模塊,技術棧更加復雜化,尤其是當數據容量達到一定量級時,管理和維護成本大幅增加。

數據湖中的數據模型未經治理,數據混亂,無法進行有效的元數據管理、血緣關系管理,一定程度上形成了“數據沼澤”。

傳統的數據湖,對業務的承載能力有限,無法對外提供海量數據的高性能查詢服務。

同時,數據的冗余存儲,帶來了資源的浪費。

近年來,業界開始提出湖倉一體(Data Lakehouse)的概念,優勢日漸突出。

湖倉一體,簡單理解就是把面向企業的數據倉庫技術與低廉的數據湖存儲技術相結合,為企業提供一個統一的、可共享的數據底座,避免傳統的數據湖、數據倉庫之間的數據移動,將原始數據、加工清洗數據、模型化數據,共同存儲于一體化的“湖倉”中,既能面向業務實現高并發、精準化、高性能的歷史數據、實時數據的查詢服務,又能承載分析報表、批處理、數據挖掘等分析型業務。

湖倉一體方案的出現,幫助企業構建起全新的、融合的數據平臺。通過對機器學習和AI算法的支持,實現數據湖+數據倉庫的閉環,提升業務的效率。數據湖和數據倉庫的能力充分結合,形成互補,同時對接上層多樣化的計算生態。

當然,湖倉一體技術本身并不簡單,面臨的挑戰就非常顯眼。

湖倉一體架構是否真正落地?

各大云廠商陸續提出自己的“湖倉一體”(Lakehouse)技術方案,如AWS的 Redshift Spectrum、微軟 Azure Synapse Analytics服務與Azure Databricks 集成、阿里云 MaxCompute+DataWorks、華為云 FusionInsight 等。

還有一些公司正在通過開源表格式(如 Delta Lake、Apache Iceberg、Apache Hudi)構建自己的數據湖倉。

在云廠商和開源技術方案的共同推動之下,2021年市場將出現更多“湖倉一體”的實際落地案例。

但是對于用戶而言,這些方案與服務是否實現了一體化結構,不是一個過渡方案,則是問題的關鍵。

專家認為,云原生的新一代數據架構不再遵循數據湖或數據倉庫的單一經典架構,而是在一定程度上結合二者的優勢重新構建。

看看不同企業的不同做法。6月24日,亞馬遜云科技推出“智能湖倉”架構。亞馬遜云科技“智能湖倉”架構以Amazon Simple Storage Service(Amazon S3)為基礎構建數據湖,作為中央存儲庫,圍繞數據湖集成專門的“數據服務環”,包括數據倉庫、機器學習、大數據處理、日志分析等數據服務,然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,實現數據湖的構建、數據的移動和管理等。

亞馬遜云科技“智能湖倉”架構具有靈活擴展、專門構建、數據融合、深度智能和開源開放五大特點,涵蓋數據源、數據攝取層、存儲層、目錄層、數據處理層和消費層六層架構,可幫助客戶應對海量業務數據,充分挖掘數據價值

阿里云 MaxCompute在原有的數據倉庫架構上,融合了開源數據湖和云上數據湖,最終實現了湖倉一體化的整體架構。在該架構中,盡管底層多套存儲系統并存,但通過統一的存儲訪問層和統一的元數據管理,向上層引擎提供一體的封裝接口,用戶可以同時查詢數據倉庫和數據湖中的表。

MaxCompute 實現了4個關鍵技術點,快速接入、統一數據/元數據管理、統一開發體驗、自動數倉等。

華為云 FusionInsight 智能數據湖為政企客戶提供“湖倉一體”的解決方案,提供MRS 云原生數據湖、GaussDB(DWS) 云數據倉庫、DGC 數據湖治理中心、GES 圖引擎、DLI 數據湖探索等云服務,用于離線分析、實時分析、數倉集市、交互查詢、實時檢索、多模分析、數據接入治理、圖計算等海量數據分析場景,實現政企客戶一企一湖、一城一湖的業務模式。

華為云 FusionInsight湖倉一體架構提供靈活的多樣性算力和存算分離方案,符合當下的企業需求。

2019年,Databricks推出了湖倉一體Lakehouse的關鍵開源技術Delta Lake;2020年6月,Databricks宣布收購以色列初創公司Redash并基于其技術推出了Lakehouse關鍵開源技術Delta Engine。2020年,Delta Lake、Apache Spark和Databricks統一分析平臺的進步,不斷提高了Lakehouse架構的功能和性能。

Databricks的Lakehouse架構通過一種新的系統設計,直接在云數據湖的靈活、低成本存儲上實現了與數據倉庫類似的數據結構和數據管理功能。通過將兩種體系結構的優點結合,企業可在同一平臺上同時運行傳統分析和數據科學/ML工作負載,大幅減少在數據湖和下游數據倉庫之間不斷移動數據的復雜數據操作,而且還消除了數據孤島。

湖和倉的數據能否自由流動?

客戶實際業務場景下的數據是如何移動的呢?湖倉中數據移動有幾種方式,包括由外向內——數據入湖,由內向外——數據出湖和環湖移動。

“這三種數據的移動路徑就像一支籃球隊,在進攻的時候,無非是球從內線傳到外線,或者是從外線傳到內線,或者是從外線導幾下手突然投一個三分。”

湖倉一體需要解決另一個關鍵問題就是湖和倉的數據/元數據無縫打通和順暢流動,且不需要用戶人工干預。檢驗一個湖倉一體實力的地方就是能否實現湖倉之間的數據打通和自由移動。真正能做到這一點的企業又有哪幾家呢?

數據的無縫移動是指數據在數據湖、數據倉庫以及圍繞著數據湖周邊構建的所有的這些專用的數據存儲、SQL的數據庫、Non-SQL數據庫,甚至更多不同的分析引擎之間的移動。

亞馬遜云科技“智能湖倉”架構將其數據服務無縫集成,打通了數據湖和數據倉庫之間數據移動和訪問,并且進一步實現了數據在數據湖、數據倉庫,以及在數據查詢、數據分析、機器學習等各類專門構建的服務之間按需移動,從而形成統一且連續的整體,滿足客戶各種實際業務場景下的不同需求。

亞馬遜云科技“智能湖倉”架構降低了數據融合與數據共享時統一安全管控和數據治理的難度。其中,Amazon Glue提供數據無縫流動能力,Amazon Lake Formation提供了快速構建湖倉、簡化安全與管控的全面數據管理能力。

據介紹,TCL基于亞馬遜云科技“智能湖倉”架構搭建的解決方案,將傳統的數據庫、數據倉庫與數據湖打通,讓全品類IoT設備的數據和業務系統實現了互聯互通,海外業務與國內業務實現了數據統一。

通過使用亞馬遜云科技專門構建的數據分析服務,之前需要一周才能完成的復雜數據報表,現在僅需要1-2小時;每天運行300個以上的作業產生 200多個BI報表,為運營和數字化營銷提供有力支撐。

阿里云MaxCompute 實現湖倉一體化的元數據管理,通過DB元數據一鍵映射技術,實現數據湖和 MaxCompute 數倉的元數據無縫打通,無須聯邦查詢方式里的人工操作。

MaxCompute通過向用戶開放創建external project 的形式,將數據湖 HiveMetaStore 中的整個database直接映射為MaxCompute的project,對Hive Database的改動會實時反應在這個project中。與此同時,阿里云EMR數據湖解決方案在2020云棲大會也推出了 Data Lake Formation,湖倉一體方案也會支持對該數據湖中的統一元數據服務的一鍵映射能力。

MaxCompute 實現湖倉一體化的存儲訪問層,不僅支持內置優化的存儲系統,而且也無縫地支持外部存儲系統,既支持HDFS數據湖,也支持OSS 云存儲數據湖,可讀寫各種開源文件格式。

能否與ML打通,實現敏捷分析、深度智能?

一位專家曾說過,今天當我們去談數據的時候,永遠分不開三個步驟:

第一是數據基礎設施現代化,如采用云原生數據庫或者數據庫倉庫、數據湖等;

第二從數據中真正產生價值,必須采用數據分析工具

第三,用機器學習更好地輔助決策,甚至是驅動決策。

因此,評價湖倉一體服務另一個標準是能否與人工智能和機器學習功能打通,實現數據的共享。

亞馬遜云科技智能湖倉將數據、數據分析服務與機器學習服務無縫集成,為客戶提供更智能的服務。例如Amazon Aurora ML、Amazon Redshift ML、Neptune ML等,數據庫開發者只需使用熟悉的SQL語句,就能進行機器學習操作。

Amazon Glue、Amazon Athena ML、Amazon QuickSight Q等,可以幫助用戶使用熟悉的技術,甚至自然語言來使用機器學習,幫助企業利用數據做出更好的決策。

用戶也可以通過機器學習服務Amazon SageMaker、個性化推薦服務Amazon Personalize等挖掘數據智能。

Databricks也創建了MLflow——一個開源的機器學習平臺,可以讓團隊可靠地構建和生產ML機器學習應用程序。Databricks表示,隨著每月超過250萬次的下載,來自100個組織的200個貢獻者以及4倍的同比增長,MLflow 已經成為最廣泛使用的開源機器學習平臺,可以跨不同的機器學習庫、語言、云和本地環境。

Databricks提供統一數據分析平臺,能夠在一個地方大規模地運行數據處理和機器學習工作負載。客戶可以通過一個簡單、開放的分析、數據科學和機器學習平臺,更好、更快地利用數據來推動創新,并將團隊、流程和技術結合在一起。

世界上最有價值的不再是石油而是數據!但是怎么讓數據發揮它的價值,卻是眾多企業發展中面臨的最嚴峻的挑戰,人們在數據價值挖掘方面的求索,從來都沒有停止過。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢