日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

首頁 行業百科 數據預處理需要做什么,有哪些流程

數據預處理需要做什么,有哪些流程

|億信華辰大數據知識庫2022-04-26

數據預處理需要做什么,有哪些流程

數據倉庫的構建中,數據預處理是關鍵的一環,它是整個數據倉庫的生命線,一直貫穿于項目始終。如果將數據倉庫比喻為高樓,那么數據預處理就是地基,建設數據倉庫的首要問題,要考慮從不同類型的源系統中提取數據以及要將數據存儲在一個相當規模的目標數據庫中,這個過程就是數據預處理過程。

數據倉庫的構建中,數據預處理是關鍵的一環,它是整個數據倉庫的生命線,一直貫穿于項目始終。如果將數據倉庫比喻為高樓,那么數據預處理就是地基,建設數據倉庫的首要問題,要考慮從不同類型的源系統中提取數據以及要將數據存儲在一個相當規模的目標數據庫中,這個過程就是數據預處理過程。
一、什么是數據預處理
數據預處理是指在主要的處理前對數據進行的一些處理,它是一個把數據從數據源依照一定的規則裝入到數據倉庫的過程,這個過程的實質就是符合特定規則的數據流動過程,從不同異構數據源流向統一的目標數據。數據預處理的主要過程有數據抽取(Extraction)、數據轉換(Transformation)和數據加載(Loading),也稱為ETL,這個過程是負責將分布的、異構數據源中的數據抽取到臨時中間層進行轉換、集成等處理,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
二、數據預處理流程
數據預處理包含三個方面的內容:一是“抽取(Extraction)”,指的是將數據從各種原始的業務系統中讀取出來,這是所有工作的前提;二是“轉換(Transformation)”,指按照預先設計好的規則將抽取的數據進行轉換,使本來異構的數據格式能統一起來;三是“加載(Loading)”,將轉換完的數據按計劃導入到數據倉庫中。在構建商務智能系統時,如何正確有效地將分散在各個不同數據源中的信息整合到系統中成為整個系統成敗的關鍵,直接影響到系統的運行效率和最終結果。數據預處理正是解決這一問題的有力方案。
1、數據抽取
數據抽取部分是將數據從各個不同的數據源抽取到ODS(Operational Data Store,操作型數據存儲)中,在抽取的過程中需要挑選不同的抽取方法,盡可能地提高數據預處理的運行效率。如果已經清楚了數據是從幾個業務系統中來,各個業務系統的數據庫服務器運行什么DBMS,是否存在手工數據,手工數據量有多大,是否存在非結構化的數據等相關的信息,就可以根據這些信息開始進行數據抽取部分的設計。
2、數據轉換
數據轉換部分實際就是利用有關技術,如數理統計、數據挖掘或預定義的數據轉換規則將源數據轉化成滿足數據質量要求的數據。數據預處理中,花費時間最長的就是數據的轉換部分,一般情況下這部分的工作量要占整個數據預處理的2/3。在大多數情況下,數據轉換是將數據匯總。在轉換結構中,確保能找出一種最好的方法保證數據從傳統的數據存儲器到數據倉庫的同步。
3、數據加載

數據加載部分是將轉換后的數據加載到數據倉庫中。數據加載策略包括加載周期和數據追加策略,數據加載周期要綜合考慮經營分析需求和系統訓載的代價,對不同業務系統的數據采用不同的加載周期,但必須保持同一時間業務數據的完整件和一致性。

三、關于睿治數據治理平臺
睿治智能數據治理平臺由億信華辰自主研發,是一款融合數據治理十大產品模塊,覆蓋數據全生命周期管理的應用平臺,也是目前國內功能齊全的數據治理工具,助力數據標準落地,提升數據質量,實現數據資產融合。睿治數據治理平臺融合數據集成、數據交換、實時計算存儲、元數據管理、數據標準管理、數據質量管理、主數據管理、數據資產管理、數據安全管理、數據生命周期管理十大產品模塊,打通數據治理各個環節,十大產品模塊可獨立或任意組合使用,快速滿足政府、企業各類不同的數據治理場景。
其中,數據集成管理可實現跨部門數據的傳輸、加載、清洗、轉換和整合,支持自定義調度和圖形化監控,實現統一調度、統一監控,滿足運維可視化需求,提高運維管理工作效率。
認為本內容有幫助
0
您可能需要的數據產品
億信華辰助力政企數字化轉型
customer

在線咨詢

在線咨詢

點擊進入在線咨詢