日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

蘇寧數據治理實戰方法論和三字經

時間:2022-01-14來源:雪蠶瀏覽數:268

? ? ? 隨著移動互聯網和大數據的蓬勃發展,“數據即資產”的理念深入人心。大數據已發展成為具有戰略意義的生產資料,在各行各業發揮著極其重要的作用,而大數據也給很多企業帶來了前所未有的自豪感和自信感。

? ? ? 但是,大數據真的是越“大”越好嗎?大數據到達一定的規模,其所需承載的集群資源成本、數據開發維護成本和數據管理成本,將會呈幾何式增長,同樣也將會帶來一筆巨額的開銷。

? ? ? 如果缺少科學有效的治理管控,就會出現大量的“負”數據資產,這不僅會吞噬公司的利潤,還會極大影響數據業務的發展以及平臺運行的穩定。

? ? ? 很多大數據公司都會面臨這樣一些窘境

? ? ? 新開發的數據任務,趕緊上,卻發現集群資源不夠了。

? ? ? 早上要跑完的任務,上午還沒跑完,報表什么時候能看到?

? ? ? 上個月剛刪了很多數據,存儲又快滿了,每天還有大量的數據在增長。

? ? ? 小文件數量這么多,集群 NameNode 內存快要爆了……

? ? ? 一個個頭疼的問題接踵而至,面對這些問題我們是不是得換一個視角,給大數據集群資源來一場瘦身,取其精華、去其糟粕,讓大數據集群資源環境更加健康,數據開發工作更加高效,公司投入產出比更加合理。

? ? ? 所以,大數據集群資源治理(以下簡稱“治理”)的工作亟待開展。

? ? ? 治理為何難以推動?

? ? ? 大多數公司在大數據發展初期都是野蠻生長的,它們更關注的是擁有更多的數據,更快速的完成數據業務開發,即使集群資源不夠了,增加機器遠比開展治理來得更快。

? ? ? 治理工作涉及眾多的職能線與部門,角色不同,立場不同,治理投入度也不同。

? ? ? 即使集群資源達到一定規模,不得不治理時,各組織仍會以開發業務為核心,治理工作對他們來說優先級并不高,這也直接影響著治理效果。

? ? ? 治理工作如何開展?

? ? ? 蘇寧認為,治理工作需要從組織保障和治理工具兩方面協同推進。公司的支持至關重要,有助于建設統一的數據文化,推進成立數據治理委員會,明確各組織的職責,制定治理制度、標準和流程等,以專職的治理團隊負責治理工具建設和整體運營推進。

? ? ? 不同于傳統數據資產管理,大數據集群資源治理聚焦計算資源和存儲資源的縮容,在保障平臺性能和穩定性的同時,又需要考量數據資產管理的賦能。

? ? ? 大數據集群資源的治理工作應結合公司現狀,集中精力解決當前最大痛點,優先治理緊急的、投入產出比高的治理項。

? ? ? 對于緊急的治理項,如果涉及的部門和用戶較少,能夠通過面對面、郵件、社交媒體進行溝通,在短時間內解決的,采用線下手工治理方式。

? ? ? 對于非緊急治理項,涉及的部門和用戶較廣,并且需要長期治理的,則采用線上工具輔助治理,以減少人力投入成本。

? ? ? 為此,蘇寧啟動了“巡湖工程”、“千遷工程”等專項治理工程:

? ? ? 巡湖工程,主要任務是對大數據集群資源進行全面的巡檢和治理。

? ? ? 千遷工程,是對高算力的 Hive 任務,進行分批次遷移至 SparkSQL 計算平臺,同時保障治理工作的全面性和聚焦性。

? ? ? 在治理工作方式的演進上,蘇寧采用了四個步驟:線下手工治理、半工具化治理、工具化治理和自驅動治理,最終實現各組織自我驅動型的治理常態。


? ? ? 典型治理場景和方案

? ? ? 大數據集群資源治理是一項龐大且復雜的工程,蘇寧結合自己的治理經歷,從計算治理、存儲治理、性能和穩定性治理三個方面,分享一下典型的治理場景和解決方案。

? ?? ?1 計算治理

? ? ? 毫無疑問,CPU 和內存是集群的稀缺資源,保障集群資源算力是首要任務。

? ? ? 一旦計算資源缺乏,將面臨數據采集數據存儲、數據加工、數據稽核等一系列數據作業的延誤,甚至崩潰。

? ? ? 如何降低計算資源的消耗,提高任務執行的性能,縮短任務產出的時間,是計算治理的核心目標。

? ? ? 以下主要從任務復算治理、任務異常治理、任務削峰平谷治理、任務資源配置治理、計算框架優化幾個角度,分別介紹計算治理優化。

? ? ? ①任務復算治理

? ? ? 數倉建設過程中,往往存在事實表與維度表多次關聯、事實表與事實表多次關聯的現象,造成數據的重復計算。

? ? ? 任務復算治理,是面向大數據離線任務 Hive、SparkSQL 等 SQL 類的任務,通過對表與表關聯的 union、join、子查詢復雜關聯等語法進行解析,識別重復計算的任務及其讀取的關聯表(源表)數據,并以此推動公共模型建設,減少任務重復計算。

? ? ? 其中,表關聯 union 方式識別比較簡單,示例如下:

? ? ? ②任務異常治理

? ? ? ?任務出錯率是衡量任務是否需要治理的重要指標,出錯率過高意味著這個任務是沒有價值的,一般可以被清除。如果任務確實需要使用,則必須進行優化。

以下作為一個參考,閾值可根據實際情況進行調整:

? ? ? 另外,當任務的目標表在一個或多個調度周期內未作更新,可認定為該任務未產出數據,任務清除下線的可能性很大。

? ? ? ③任務削峰平谷治理

? ? ? 從全天來看,任務執行會有明顯的忙閑時之分。大部分公司的忙時主要集中在凌晨 0 點至 8 點,其余時間段相對為閑時,這就造成了忙時計算資源嚴重緊缺。

? ? ? 大家都想在早上 8 點前跑完任務,但是不是每個忙時任務都有這個必要呢?通過對忙時任務產出表的被讀時間進行分析,可以識別出不合理調度執行的任務。

? ? ? 比如,如果任務在早上 8 點跑完,其寫入的目標表在中午 12 點才被讀取,是否可以將該任務避開忙時執行?

? ? ? ④任務資源配置治理

? ? ? 這里主要談一下 Spark Streaming 實時任務資源治理。Spark Streaming 和 Spark 處理邏輯是相同的,都是收到外部數據流之后按照時間切分。

? ? ? “微批”處理一個個切分后的文件,往往會存在資源分配過多的現象,這很容易被識別。

? ? ? 由上圖可見,將數據按照時間劃分成 N 等分。假設每批次 A 的間隔時長:batch_time;處理 B 的時長:total_delay;等待 C 的時長:wait_time。

? ? ? 當出現 batch_time>>total_delay 時,當前任務占用的資源會浪費 wait_time。

? ? ? 通過縮減任務資源或多個任務合并成一個任務的方式來治理,都可以提升資源利用率。

? ? ? 雖然 total_delay 會加長,只要整體處理時間還在原定計劃內,即可滿足業務需求。

? ? ? ⑤計算框架優化

? ? ? 計算框架越來越多,也越來越成熟完善,選擇適合自己的計算框架是關鍵。比如,由 Hive 任務遷移至 SparkSQL 任務、Storm 任務遷移至 Flink 任務,會帶來性能上的明顯提升。但是,在海量數據任務的前提下,任務遷移絕非易事,需要綜合考慮遷移的方案以及涉及的成本和風險。

? ? ? 2 存儲治理

? ? ? 在數據爆發式增長的今天,存儲資源的有效使用也面臨著一系列的挑戰。如何降低存儲資源的消耗,節省存儲成本,是存儲治理的目標。以下主要從生命周期管理、數據壓縮治理、數據復存治理、數據價值治理幾個角度介紹存儲治理優化。

? ? ? ①生命周期管理

? ? ? 根據表生命周期對表進行清理刪除,是最常見有效的存儲治理方式。為降低數據丟失風險,可以先對表進行 rename 或通過 ranger 禁止表讀寫權限(相當于邏輯刪除),7 天觀察期過后刪除至回收站,回收站默認保留 3 天后進行最終刪除。如果表的生命周期設置不合理(過長),也可以根據表的類型、業務情況進行稽核整改。

? ? ? ②數據壓縮治理

? ? ? 數據壓縮治理是最簡單有效的存儲治理方式。數據壓縮的好處顯而易見,可以直接節省磁盤空間,提升磁盤利用率,并且加速網絡傳輸。但同時數據的壓縮和解壓,需要消耗計算資源。如果集群計算資源緊缺,并且數據經常被讀,則建議根據實際場景選擇合適的數據壓縮方式。在不同的存儲格式和壓縮算法下,簡單查詢、大寬表查詢和復雜查詢的執行表現均有差異,具體需結合實際場景選擇使用。

? ? ? ③數據復存治理

? ? ? 比較簡單的方式是通過解析 Hive 任務、SparkSQL 任務的代碼邏輯,分析代碼中的讀表、寫表、條件、字段函數,識別讀表和寫表是否重復存儲。另外,也可以通過表名、字段名的相似度進行識別,并結合某些周期產出數據,抽樣進行相似度對比分析和識別。如果表數據出現重復存儲,還需要根據鏈路血緣關系找出上游任務,對整個鏈路上的表及上游任務實施“一鍋端”治理。

? ? ? ④數據價值治理

? ? ? 梳理當前業務價值,從數據應用層(包括報表、指標、標簽)源頭分析投入產出比,對整體鏈路資源進行“從上至下”的價值治理。如果表長時間未作更新(如 32 天)或未被讀取,往往表明這張表價值很低,甚至沒有價值,則可對表進行清理刪除,這時可以優先考慮治理大表、分區表、高成本表。

? ? ? 3 性能和穩定性治理

? ? ? 集群的性能和穩定性治理涉及眾多方面,這里重點談一下小文件治理和數據傾斜治理。

? ? ? ①小文件治理

? ? ? HDFS 雖然支持水平擴展,但是不適合大量小文件的存儲。因為 NameNode 將文件系統的元數據存放在內存中,導致存儲的文件數目受限于 NameNode 內存大小。當集群到了一定規模,NameNode 內存就會成為瓶頸。小文件治理需要根據當前集群的文件數量,定義合適的小文件大小,比如小于 1M。治理方式需要考慮從源頭控制,在任務中配置文件合并參數,在 HDFS 存儲之前進行小文件合并,但這又會延長任務執行時間。所以,可選擇在閑時進行周期性的小文件合并。另外,也可以設置小文件占比閾值,根據閾值觸發小文件合并。

? ? ? ②數據傾斜治理

? ? ? 很多時候,我們在用 Hive 或 Spark 任務取數,只是跑了一個簡單的 join 語句,卻跑了很長時間,往往會覺得這是集群資源不夠導致的,但是很大情況下,是出現了“數據傾斜”的情況。數據傾斜,在 MapReduce 編程模型中十分常見,大量的相同 key 被 partition 分配到一個分區里,造成了“某些任務累死,還拖了后腿,其他任務閑死”的情況,這并不利于資源最大化的有效利用。

? ? ? 由上圖可見,通過對任務執行的監控日志分析,可以很方便的找出數據傾斜任務。

? ? ? 結合具體產生原因、數據分布和業務變化,有針對性的優化任務,任務執行時間能縮短幾十倍以上,效果非常明顯。

? ? ? 治理工具需要具備哪些能力?

? ? ? 面向治理責任人、項目主管、公司領導及治理運營人員,蘇寧構建了統一的集群資源治理平臺,全局把控集群計算資源、存儲資源、性能和穩定性的整體情況,通過平臺“識別通知、治理優化、監督考核”的支撐能力,實現一站式治理服務和閉環流程,降低 治理投入的工作量,提升治理成效。

? ? ? 后記

? ? ? 蘇寧建設了較為成熟的數據治理體系和標準流程,多項治理工作同步推進,均取得了顯著的成果,為公司節約了可觀的服務器資源投入成本。并且,隨著治理工作的推進,各組織也更主動的開展源頭治理,大大減輕了事后治理的工作量。

治理工作不會一蹴而就,也不如前端業務那么容易出彩,顯得“樸實無華”。每一位治理工作者都在背后默默的堅守付出,孜孜不倦地保障著大數據集群資源的最大化有效利用。未來,蘇寧大數據治理團隊仍將持續推進治理工作,進一步提升治理工具產品支撐能力,賦能治理工作常態化、工具化和智能化。我們崇尚科技與藝術的結合,最后賦詩一首,希望能幫助有需要的同仁更好的理解這項工作,更快的實現治理目標。

《蘇寧數據治理 三字經》

--韋真

數之初,量本小。猛增長,遇瓶頸。

缺管理,實難控。若不治,隨可崩。

若廣治,懼其繁。治之道,貴以專。

高層挺,強執行。定職責,齊協作。

察現狀,診問題。能識別,準定位。

控增量,降存量。攤成本,明方向。

始源頭,理價值。視場景,擇平臺。

宜壓縮,需清理。去冗余,平峰谷。

治理急,線下先。累經驗,建工具。

能優化,可評估。須考核,納監督。

體系化,智能化。一站式,閉環式。

存儲易,算力難。若有方,皆可成。

點左下角獲取移動數據治理體系資料
(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢