日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

湖倉一體一文讀懂

時間:2022-03-15來源:Roue瀏覽數:563

數據庫行業正走向分水嶺。

過去幾年,全球數據庫行業發展迅猛。2020年,Gartner首次把數據庫領域的魔力象限重新定義為Cloud DBMS,把云數據庫作為唯一的評價方向;2021年,Gartner魔力象限又發生了兩個關鍵的變化:

1、Snowflake和Databricks兩個云端數據倉庫進入領導者象限;

2、放開了魔力象限的收入門檻限制,SingleStore、Exasol、MariaDB、Couchbase等數據庫新勢力首次進入榜單。

某種程度上,這種變化的背后,暗示著全球數據庫已經進入發展的黃金時代,也是一眾新興勢力的加速崛起之年。其中,最為典型的例子是Snowflake和Databricks經常隔空喊話,前者是云端數倉的代表玩家,去年繼續保持了1倍以上的業務增長;后者因推出“湖倉一體”,估值一路飆升至360億美金,兩者之爭,其實是數據庫新舊架構之爭。

數據湖、數據倉、湖倉一體發展歷程

(來源:Databricks官方)

隨著企業數字化駛入深水區,對于數據使用場景也呈現多元化的趨勢,過去容易被企業忽略的數據,開始從幕后走到臺前,如何為眾多場景選擇一款合適的數據庫產品,已經成了很多CIO和管理者的一道必答題。

但有一點可以確定的是,過去的數據庫已難以匹配眼下日益增長的數據復雜度需求,基于擴展性和可用性劃分,分布式架構突破單機、共享、集群架構下的數據庫局限,近些年發展態勢迅猛。

為此,這篇文章我們將主要分析:

1、數據倉、數據湖、湖倉一體究竟是什么?

2、架構演進,為什么說湖倉一體代表了未來?

3、現在是布局湖倉一體的好時機嗎?

01:數據湖+數據倉≠湖倉一體

在湖倉一體出現之前,數據倉庫和數據湖是被人們討論最多的話題。正式切入主題前,先跟大家科普一個概念,即大數據的工作流程是怎樣的?這里就要涉及到兩個相對陌生的名詞:數據的結構化程度和數據的信息密度。前者描述的是數據本身的規范性,后者描述的是單位存儲體積內、包含的信息量的大小。?一般來說,人們獲取到的原始數據大多是非結構化的,且信息密度比較低,通過對數據進行清洗、分析、挖掘等操作,可以排除無用數據、找到數據中的關聯性,在這個過程中,數據的結構化程度、信息密度也隨之提升,最后一步,就是把優化過后的數據加以利用,變成真正的生產資料。 簡而言之,大數據處理的過程其實是一個提升數據結構化程度和信息密度的過程。在這個過程中,數據的特征一直在發生變化,不同的數據,適合的存儲介質也有所不同,所以才有了一度火熱的數據倉庫和數據湖之爭。?我們先來聊聊數據倉庫,它誕生于1990年,是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,主要用于支持管理決策和信息的全局共享。簡單點說,數據倉庫就像是一個大型圖書館,里面的數據需要按照規范放好,你可以按照類別找到想要的信息。就目前來說,對數據倉庫的主流定義是位于多個數據庫上的大容量存儲庫,它的作用在于存儲大量的結構化數據,為管理分析和業務決策提供統一的數據支持,雖然存取過程相對比較繁瑣,對于數據類型有一定限制,但在那個年代,數據倉庫的功能性已經夠用了,所以在2011年前后,市場還是數據倉庫的天下。?到了互聯網時代,數據量呈現“井噴式”爆發,數據類型也變得異構化。受數據規模和數據類型的限制,傳統數據倉庫無法支撐起互聯網時代的商業智能,隨著Hadoop與對象存儲的技術成熟,數據湖的概念應用而生,在2011年由James Dixon提出。?相比于數據倉庫,數據湖是一種不斷演進中、可擴展的大數據存儲、處理、分析的基礎設施。它就像一個大型倉庫,可以存儲任何形式(包括結構化和非結構化)和任何格式(包括文本、音頻、視頻和圖像)的原始數據,數據湖通常更大,存儲成本也更為廉價。但它的問題也很明顯,數據湖缺乏結構性,一旦沒有被治理好,就會變成數據沼澤。從產品形態上來說,數據倉庫一般是獨立標準化產品,數據湖更像是一種架構指導,需要配合著系列周邊工具,來實現業務需要。換句話說,數據湖的靈活性,對于前期開發和前期部署是友好的;數據倉庫的規范性,對于大數據后期運行和公司長期發展是友好的,那么,有沒有那么一種可能,有沒有一種新架構,能兼具數據倉庫和數據湖的優點呢? 于是,湖倉一體誕生了。依據DataBricks公司對Lakehouse 的定義,湖倉一體是一種結合了數據湖和數據倉庫優勢的新范式,在用于數據湖的低成本存儲上,實現與數據倉庫中類似的數據結構和數據管理功能。湖倉一體是一種更開放的新型架構,有人把它做了一個比喻,就類似于在湖邊搭建了很多小房子,有的負責數據分析,有的運轉機器學習,有的來檢索音視頻等,至于那些數據源流,都可以從數據湖里輕松獲取。就湖倉一體發展軌跡來看,早期的湖倉一體,更多是一種處理思想,處理上將數據湖和數據倉庫互相打通,現在的湖倉一體,雖然仍處于發展的初期階段,但它已經不只是一個純粹的技術概念,而是被賦予了更多與廠商產品層面相關的含義和價值。?這里需要注意的是,“湖倉一體”并不等同于“數據湖”+“數據倉”,這是一個極大的誤區,現在很多公司經常會同時搭建數倉、數據湖兩種存儲架構,一個大的數倉拖著多個小的數據湖,這并不意味著這家公司擁有了湖倉一體的能力,湖倉一體絕不等同于數據湖和數據倉簡單打通,反而數據在這兩種存儲中會有極大冗余度。

02:為什么說湖倉一體是未來?

回歸開篇的核心問題:湖倉一體憑什么能代表未來??關于這個問題,我們其實可以換一個問法,即在數據智能時代,湖倉一體會不會成為企業構建大數據棧的必選項?就技術維度和應用趨勢來看,這個問題的答案幾乎是肯定的,對于高速增長的企業來說,選擇湖倉一體架構來替代傳統的獨立倉和獨立湖,已經成為不可逆轉的趨勢。?一個具有說服力的例證是,現階段,國內外各大云廠商均陸續推出了自己的“湖倉一體”技術方案,比如亞馬遜云科技的Redshift Spectrum、微軟的Azure Databricks、華為云的Fusion Insight、滴普科技的FastData等,這些玩家有云計算的老牌龍頭,也有數據智能領域的新勢力。?事實上,架構的演進是由業務直接驅動的,如果業務側提出了更高的性能要求,那么在大數據架構建設的過程中,就需要數據庫架構建設上進行技術升級。以國內數字化企業服務領域成長最快的獨角獸滴普科技為例,依托新一代湖倉一體、流批一體的數據分析基礎平臺FastData,基于對先進制造、生物醫藥、消費流通等行業的深度洞察,滴普科技從實際場景切入,為客戶提供了一站式的數字化解決方案。滴普方面認為,“在數據分析領域,湖倉一體是未來。它可以更好地應對AI時代數據分析的需求,在存儲形態、計算引擎、數據處理和分析、開放性以及面向AI的演進等方面,要領先于過去的分析型數據庫。”以AI應用層面為例,湖倉一體架構天然適合AI類的分析(包括音視頻非結構化數據存儲,兼容AI計算框架,具有模型開發和機器學習全生命周期的平臺化能力),也更適合大規模機器學習時代。 這一點,和趨勢不謀而合。?就在前不久,Gartner發布了湖倉一體的未來應用場景預測:湖倉一體架構需要支持三類實時場景,第一類是實時持續智能;第二類是實時按需智能;第三類是離線按需智能,這三類場景將可以通過快照視圖、實時視圖以及實時批視圖提供給數據消費者,這同樣是未來湖倉一體架構需要持續演進的方向。

03:現在是布局湖倉一體的好時機嗎?

從市場發展走向來看,“湖倉一體”架構是基于技術發展進程的必經之路。?但由于這個新型開放架構仍處于發展早期,國內外企業數字化水平和市場認知的不同,造成了解決方案也存在著較大的差異。在業內投資人看來,“雖然美國的企業服務市場比我們成熟的多,也有很多路徑可以參考,但中國市場卻有著很多中國特色。以對標Databricks的滴普科技為例,美國企業服務市場往往賣產品就可以了,但中國大客戶群體需要更與客戶資深場景深度融合的解決方案,解決方案需要兼顧通用性和定制化。”在此前與滴普科技的合作中,百麗國際就已經完成了統一數倉的搭建,實現了多個業務線的數據采集和各個業務域的數據建設。在保證前端數據正常運行、“熱切換”底層應用的前提下,滴普科技和百麗國際緊密協作,在短短幾個月時間里將多個數倉整合為統一數倉,有效統一了業務口徑,大幅縮減了開發運維工作量,整個業務價值鏈也形成了閉環。這也是“湖倉一體”的能力價值所在:隨著數據結構的逐漸多樣性,3D圖紙、直播視頻、會議視頻、音頻等數據資料越來越多,為深度挖掘數據價值,依托于領先的湖倉一體技術架構,百麗國際可先將海量的多模數據存儲入湖,在未來算力允許時,及挖掘深度的業務分析場景后,從數據湖中抓取數據分析。?舉個簡單的例子,某個設計師想要設計一款鞋子,一般會從歷史數據中找有效信息參考,設計師也許只需要一張貨品照片,就能像瀏覽電影般,了解到該商品多年來全生命周期的銷售業績、品牌故事、競品分析等數據,賦能生產及業務決策,實現數據價值的最大化。?一般來說,大體量的企業想要保持持續增長,往往需要依靠大量、有效的數據輸出,進而實現智慧決策。很多企業出于 IT 建設能力的限制,導致很多事情沒法做,但通過湖倉一體架構,讓之前被限制的數據價值得以充分發揮,如果企業能夠在注重數據價值的同時,并有意識地把它保存下來,企業就完成了數字化轉型的重要命題之一。?我們也有理由相信,隨著企業數字化轉型加速,湖倉一體架構也會有更為廣闊的發展空間。



(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢