日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

大數據時代的“冷熱數據”管理

時間:2022-06-05來源:臨風唱晚秋瀏覽數:497

為“數據”降本的背景

信息爆炸的時代數據極速膨脹,數據存儲與計算消耗的IT資源、能源日益增長。為了節省能源,例如我國推出了東數西算,騰訊把數據中心裝進了貴州山里,微軟把數據中心建在海底,“臉書”在猶他州雪山旁建立新數據中心。海底的數據中心建設從硬件、技術角度進行“數據成本”控制。從業務角度對膨脹的數據本身進行“冷熱”分級管理,不僅有利于節約“計算成本”,也可以提高業務數據化運營效率

冷熱數據定義及意義

冷熱數據主要從數據訪問頻度、更新頻度進行劃分。冷數據,即實際生產中被訪問、更新頻度比較低、概率比較低的數據。熱數據,訪問、更新頻度較高,未來被調用的概率較高的數據。冷數據在業務場景中計算時效要求慢,可以做集中化部署,可以對數據進行壓縮、去重等降低成本的方法。熱數據因為訪問頻次需求大,效率要求高,可以高性能存儲與就近計算部署;

數據冷熱管理最核心目標提高算力利用率,所謂算力通常包含CPU、GPU、內存、帶寬等能力,算力瓶頸在于單位時間內處理數據能力。視頻、人工智能等領域的算力消耗集中在對大規模數據及參數的“算法”的計算處理。在傳統行業領域以結構化數據為主,算力消耗集中在“訂單、客戶、事件”三大類數據的搬運、數據排序、數據關聯、數據合并、數據算術運算、數據的查詢等。

希望通過對數據冷熱區分,精準識別出“熱”數據,減少對“冷數據”的搬運、關聯、排序、計算等,把算力集中在刀刃上,實現數據處理“提速、降本”。

系統架構設計時對數據的“冷熱”管理

數據規模控制目前有“冷熱分離異構系統”和“冷熱分離同構系統”兩類架構。

“冷熱分離異構系統”:將冷熱數據根據被訪問的頻度及概率,一般來說將“時間序列較早,訪問頻度較低于一定比例”歸檔轉移至另一個系統的進行存儲。兩套系統擁有不同的存儲特性、訪問方式等,優先熱數據訪問性能的同時,降低冷數據的運維成本

“冷熱分離同構系統”:冷熱數據應用同一套規則,同一個數據集群中部署不同配置的機器,不同服務器進HOT/COLD屬性標志。高配置服務器管理管理熱數據,低配置服務器用于管理冷數據。當創建一個新的Index時,指定其數據分配到Hot屬性的機器上;一段時間后,再將其配置修改為分配到Cold屬性機器上,Elasticsearch便會自動完成數據遷移。系統級數據的冷熱分級管理可以有效提高算力使用效率。

圖:冷熱存儲策略

全冷存儲指數據全部存儲在HDD盤,是一種較為經濟的存儲策略。全熱存儲指數據全部存儲在SSD盤,滿足高性能訪問的需求。冷熱混合存儲指一定數量的分區存儲在SSD盤,其余數據存儲在HDD盤。

數據結構設計時進行“冷熱”管理

傳統行業的數據處理不需要像阿爾法狗即時計算出圍棋的落子位置,更多的是固化的計算邏輯。因此可以通過“數據分區、計算分時”等策略優化算力利用率

數據分區,數據結構設計時從動態與靜態維度對數據進行“冷熱”分區,減少對“冷數據”的搬運、關聯、排序、計算等,降低參與計算的數據規模。計算分時,很多傳統領域數據計算步驟是相對固化的、非實時的,可以通過對計算步驟分解在多個時段,平滑并發計算量。

1、所謂靜態數據主要指事件類數據,描述發生一個事件的數據記錄,如保險領域理賠,報案事件、理算記錄、結案事件,每個事件包含了對象、時間、事件內容等。靜態數據參與的計算主要在于“被搬運、被查詢、被關聯、被計算”,靜態數據本身幾乎不進行合并更新計算。對于靜態數據中被關聯、被計算關鍵字段可以進行熱度標識,參與計算的高頻字段可以分配至臨時表獨立存儲,減少統計類計算時加載的數據規模。

如:保險領域對理賠事件原始數據字段超過20個,數據“入湖共享”時對高頻度報表計算的“案件類型、報案時間、結案時間、金額”4個“熱”數據字段拆出一個獨立表進行共享,并增加“機構屬性標記、客戶號、手機號、保單號”關聯關鍵字段(數據規模比原始數據降低3/4)。這樣不同機構在開展個性化理賠統計報表分析時(不同分公司報表分析頻度、統計樣式可以個性化),僅需要加載對應機構的數據,快速完成“客戶-理賠”與“保單-理賠”關聯計算,減少“客戶-保單-理賠”跨表數據搬運及復雜關聯。

2、動態數據指會時序更新的數據,如客戶類的數據“收入、偏好、最近一次交易等”涉及持續更新合并。動態數據消耗的算力集中在“數據更新合并、數據排序、查詢、關聯”,其中數據的Update涉及較多校驗規則。針對動態數據中各字段更新頻度進行冷熱標識,對于高頻度update字段進行獨立表管理,避免高頻對大寬表的讀寫操作。

如在保險領域,客戶高頻度更新信息字段主要是“職業、出險次數、最近投保”等和交易關聯性強字段,客戶數據中臺數據結構設計時,對高頻update字段獨立表寫入管理,減少對客戶大寬表加載與讀寫。

結語

目前在IT行業系統架構設計重視度比較高,在數據結構設計有很大提升空間。如我所在在保險企業業務核心系統為外資產品,運行10多年后進行升級重構時,最大的難題就是數據結構設計,招投標時國內廠商可以在系統結構上給出較為完善的解決方案,但在數據結構上、數據規則上面臨很大挑戰。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢