日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

一文詳解數據湖及其搭建方法論

時間:2022-04-12來源:小億瀏覽數:857

數據湖作為新一代大數據基礎設施,近年來持續火熱。市場調研機構Research and Markets發布的報告顯示,2020年,全球數據湖市場的價值為37.4億美元,預計到2026年將達到176億美元,在2021年至2026年的預測期間的復合年增長率為29.9%。到底什么是數據湖?近幾年來為何突然大熱?企業應如何搭建數據湖?本文將會一一探討解讀以上問題。

01、什么是數據湖?

“數據湖”并不是一個新興概念。

它最早是由一家開源BI公司Pentaho的CTO詹姆斯·迪克森于2010年提出,他認為:“如果你認為一個數據集市可以看作是桶裝水店——提供了清洗、包裝和組織等服務以方便用戶消費,那‘數據湖’就是一個擁有更自然狀態的大的水體。來自源頭的內容流補充到湖中,各類客戶可以來湖中檢測探索以及獲取樣本。”?

“數據湖”之所以被命名為“湖”,形象地反映了其一些在數據存儲以及數據應用方面的一些特點:
沉淀性:數據湖是為了滿足企業建設統一中心、存放管理數據的需求演進而來的,數據湖包羅萬象,不管結構化數據還是非結構化數據都被囊括其中。
邊界性:“湖”不同于“海”,它是有邊界的,數據湖也是一樣,在企業/組織的業務邊界下,需要更多的數據管理和權限管理能力。
精細治理: 數據湖需要具備完善的數據管理能力,可以管理各類數據相關的要素,包括數據源、數據格式、連接信息、數據schema、權限管理等。

關于數據湖更簡潔明了的定義我們可以參考AWS,它將數據湖定義為一個集中式存儲庫,允許你以任意規模存儲所有結構化和非結構化數據。

隨著大數據技術的融合發展,數據湖不斷演變,成為了一個“平臺級”的方案。需要注意的是,到目前為止,“數據湖”依舊是一個架構概念,而不是特定的產品或實施方法。其所要達成的目標囊括了不止一種數據技術,它匯集了包括數據倉庫、實時和高速數據流技術、數據挖掘、深度學習、分布式存儲等技術在內的多種技術,已經從當初的一種“大數據存算方案”進階到了“大數據存算+處理分析+資產治理+安全隱私+數據變現”的一攬子方案。

02、數據湖為何火熱??

1.企業數據建設面臨新的挑戰
(1)數據復雜化
當前企業紛紛邁入全面數字化階段,以前因為成本、技術和環境限制的需求也得到釋放,越來越需要從不斷增長的數據量中進行分析從而獲得更深入的內容,企業數據規模進一步擴大,要治理的數據也越來越龐雜,企業的數據來源和數據格式也日趨多樣化。
數據來源多樣:包含了事務數據(MySQL, SqlServer)、搜索數據 (SOLR)和批處理數據 (SPARK, HIVE)等。
數據格式多樣化:包含Parquet / Orc / Avro / Csv / Json / Text等格式。

(2)數據應用多元化
數據驅動下,企業內的數據應用場景和數據應用的用戶角色,也日趨多元。
數據分析場景多樣化:不僅有基于語義的搜索分析,還包括隨機/近實時 OLAP 分析。
數據分析用戶多元化:數據的分析應用不再僅僅是技術團隊的工作,各業務方也需要對的數據進行及時的分析以及應用,而這并不能完全依賴于技術團隊;除此之外,數據應用的用戶角色的多樣性,也對于用戶數據訪問合規管控提出了更高的訴求。

(3)數據建設新要求
數據的復雜化和數據應用的多元化,驅使企業對于數據建設提出了新的要求。
一是全面。全面完整的數據是用戶豐富應用場景和挖掘數據資產價值的重要前提。
二是敏捷。業務環境復雜多變,只有幫助用戶快速定位并查找數據位置、高效便捷地開展數據提取,才能快速迭代開發、創建適應變化需求的敏捷業務模型,促進業務創新。
三是準確。準確且高質量的數據是讓數據充分發揮價值的根基保障。對此,需要統一數據標準,且保障數據質量問題可度量、可監控。

2.數據湖應運而生

對于企業數據建設的這些新問題、新需求,數據湖應運而生,成為了一套能存儲全量數據,快速實現洞察的方案。
作為“湖”,它具有著與傳統的數據倉庫、數據集市不同的優勢。

(1)數據規模彈性大
數據湖技術支持超大規模存儲及可擴展的大規模數據處理能力,可根據企業的業務需求提供可大可小的彈性擴充。

(2)數據類型豐富
數據湖可以存儲海量的任意類型的數據,包括結構化、半結構化、非結構化和二進制數據。

(3)數據模式靈活
數據湖無需任何預處理即可對數據進行采集、存儲和分析,還能消除數據采集和存儲的復雜性,加速應用數據,賦能廣大研發者、數據分析師,實現對跨平臺、跨語言、跨領域的所有數據進行高效分析和處理。

(4)數據時效性提升
數據湖支持流批一體架構,能夠兼顧流處理的及時性和批處理的可靠性。當前多種開源數據湖框架均可以實現流批一體,既可以攝取增量數據,提升數據加載速度,為實時場景需求提供支撐;也可以提取全量數據,進行全量的數據加工,提供穩定的數據服務。

03、企業如何搭建數據湖?

1.數據入湖
(1)數據盤點
數據湖的數據盤點相對簡單,因為它是對原始數據做全量的保存,所以無需進行預設計和建模。數據入湖前的盤點范圍主要是:數據來源、數據類型、數據形態、數據模式、數據總量、數據增量等。

(2)技術選型
有關數據湖建設的技術選型需要根據數據盤點的情況來看。關于數據湖的技術選型,業界有很多的通行的做法:通常建議的存儲選型是分布式對象存儲系統(如S3/OSS/OBS);計算引擎上重點考慮批處理需求和SQL處理能力,因為在實踐中,這兩類能力是數據處理的關鍵;無論是計算還是存儲,建議優先考慮serverless的形式;后續可以在應用中逐步演進,真的需要獨立資源池了,再考慮構建專屬集群。

(3)數據接入
確定要接入的數據源,通過統一的數據接入平臺,按數據的不同類型進行智能的數據接入,完成數據的全量抽取與增量接入。

2.湖中治理

數據湖存儲的是未經轉換的數據,任何需要支持分析的數據都是需要治理的。比如從合規層面來看,數據湖負責全域數據采集,其中往往包括消費者的個人可識別信息。這些敏感數據必須經過合規處理,以確保系統遵守隱私法律和法規。因此,從最開始就應將數據治理納入數據湖的設計中。

數據湖中的數據治理主要涵蓋以下領域。

(1)數據目錄
數據湖中數據量龐大,要讓數據不被淹沒,能隨時得到追蹤,我們需要維護好數據目錄。
數據湖中的數據目錄是元數據的集合。好的數據湖系統,計算引擎在處理數據時,能從元數據中直接獲取數據存儲位置、數據格式、數據模式、數據分布等信息,然后直接進行數據處理,而無需進行人工/編程干預。更進一步,好的數據湖系統還可以對數據湖中的數據進行訪問控制,控制的力度可以做到“庫表列行”等不同級別。
數據目錄充當可用數據的清單,并提供信息以評估適用數據的預期用途。一個有效的方法是維護中央數據目錄,并在各種處理框架(如Hadoop、Spark以及其他可用工具)中使用,這樣可以應用簡單的數據治理規則來確保元數據的完整性。

(2)數據質量
要保證數據湖中的數據能夠可靠地支撐應用,數據的完整性、準確性、一致性以及標準化應得到保障。
企業需要從一開始就制定相關數據質量標準與流程,從而維護湖中數據質量。數據湖相關的數據質量標準可以從以下幾個維度來考慮:
權限管理:確定各角色權限,包括數據管理員和數據用戶。
數據發現:了解數據的來龍去脈,并集中精力治理最有價值和最常用的數據。
標準化:在統一數據標準的指導下驗證,清理和轉換數據。
數據核對:確認數據已正確遷移。
自動化:確定機器學習在數據質量過程中可以提供哪些幫助,例如重復數據刪除。
監控和管理:動態監測與反饋數據,提出數據質量衡量指標并加以改進。

(3) 數據合規
根據所運營的業務領域,數據湖必須滿足一些合規要求,例如GDPR(《通用數據保護條例》)、HIPAA(《健康保險便利和責任法案》)和ISO等標準和規范。對于很多企業而言,數據合規是很重要的工作,數據合規一旦出問題,可能導致巨額罰款或者數據泄露,損害企業的信譽。

3.業務支撐

數據湖技術使得數據的處理與建模,保留了極大的敏捷性,能快速適應業務的發展與變化。在通用模型基礎上,各個業務部門可以定制自己的細化數據模型、數據使用流程、數據訪問服務。

04、數據湖搭建案例

農業銀行搭建數據湖的過程,對于有著建湖需求的企業來說值得借鑒。

農業銀行選擇在企業級大數據平臺的基礎上,圍繞“采、建、管、用”四個關鍵環節進行數據湖建設。從源頭上豐富數據種類,在建設中提升海量數據存儲計算能力,在管理上加強數據資產線上化和規范化水平,在消費端通過租戶管理、資源開放和自助服務,實現數據應用的快速構建。農業銀行數據湖一體化與自服務建設如圖所示。

現已通過立機制、建工具、落實施,實現了海量內外部數據的快速入湖,為全行各業務領域百余個應用場景提供數據支撐。同時正在積極開展數據湖新技術架構的建設落地,通過開源軟件和國產商用產品融合的方式,完成了異構存儲管理、元數據管理、計算引擎上云及實時數據處理等關鍵技術攻關和重點場景驗證。數據湖全流程建設如圖所示。

后續農業銀行擬按照“試點落地,湖倉一體,全面上云”三步走的路線,持續推進數據湖建設。近期在數據湖新技術架構的基礎上,上線各類新業務場景;中期打通數據湖與現有數倉,實現湖倉架構融合,并推進大數據與云計算的融合,進一步提升資源管理和服務能力;最終,建成云數據湖,實現集團數據一體化管理,形成行業領先的大數據基礎架構,全面夯實企業級數據底座,為集團提供更豐富、更及時、更開放、更融合的數據支撐。

05、小結

無論在功能目標還是項目建設方面,數據湖總體仍處于不斷發展的階段。它由業務訴求催生出,又隨著業務需求的不斷變化而不斷演進。數據湖作為現代化的支持數據管理、數據分析、應用創新的“新基建”,能憑借其敏捷、全面且彈性的特性,來為企業的數字化戰略賦能。
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢