- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-07-16來源:徐長卿瀏覽數:275次
數據歸類、數據特性分析在加載需求過程中是前置準備環節。完整的數據加載需求應在數據歸類的基礎上結合業務與系統實際情況,分析數據特性,最后根據現狀調研、數據歸類與數據特性制定數據加載策略,從而保證數據加載效率,提升數據質量,減少系統負擔。
01、數據歸類及數據特性
數據歸類、數據特性分析在加載需求過程中是前置準備環節。完整的數據加載需求應在數據歸類的基礎上結合業務與系統實際情況,分析數據特性,最后根據現狀調研、數據歸類與數據特性制定數據加載策略,從而保證數據加載效率,提升數據質量,減少系統負擔。
1.數據歸類
目前根據系統的業務特點,一般分為生產交易型數據、服務支撐型數據與系統數據三類:
1)生產交易型數據:生產交易型數據就是企業各IT支撐系統所產生、使用的數據,該類數據主要分布在業務支撐系統和管理支撐系統,如業務支撐系統、客戶關系管理系統、ERP系統、電子渠道系統等。一般可根據業務類型將生產交易型的數據劃分為客服域、資源域、營銷域、產品域。
2)服務支撐型數據:服務支撐型數據是指將各個生產系統收集的數據,經沉淀加工挖掘后形成的信息數據,該類數據主要分布在提供數據服務和數據支撐的IT平臺中,如數據倉庫。此類數據按照數據倉庫數據分層的原則可分為原型數據、明細數據、匯總數據、應用數據。
3)系統數據:系統數據是IT開發過程所產生的數據,由于此類數據一般不直接被業務需要,在數據歸類過程中很容易被遺漏。然而眾多系統實際情況表明,如果未能有效管理,將會嚴重影響系統的運行效率,一般包括程序軟件、日志數據、過程數據和臨時數據幾類。
2.數據特性
在數據加載需求分析過程中,需根據不同數據的特性制定相適應的性能、可用性、保存方式等要求。一般從以下幾個方面進行考量。
1)重要性:在業務使用過程中按照數據的重要程度進行歸類,數據分成不同的重要級別。針對高重要性的數據,如核心數據、客服數據,需要制定災難備份和災難恢復策略,確保數據的安全性。
2)訪問頻率:在系統運行過程中,依據數據的訪問頻率,對數據進行歸類。通過不同的訪問頻率定義不同的加載策略。現數據加載階段主要支持按日/按月訪問。如監控系統穩定的日志數據、分析市場盈虧趨勢的收支明細數據多數為按日訪問;而月度上報監管類數據則使用按月訪問的加載策略。
3)訪問性能要求:根據業務部門需求,針對不同數據需要提供不同的訪問性能支持和加載策略。通常情況下,數據訪問頻率較高,如針對每日需要頻繁進行訪問的安全日志數據,一般采用使用高性能的集群加載,確保數據的高可用性。
4)數據量:在系統運行過程中,數據以日/月為單位,按照數據量的大小,提供不同的加載策略。通常幾十萬級的數據,采用全量加載,而超過千萬、億級的數據,如訪問頻率不高,建議采用增量的方式減輕系統負擔。
02、數據加載策略
常見的加載策略一般有全量加載、增量加載、批量加載三類。
1)全量加載:全量加載是指全表刪除后再進行全部(全量)數據加載。從技術角度來說,全量加載和增量加載相比,全量加載更易操作。一般只需要在數據加載之前將目標表清空,再將源數據表中的數據進行導入。
2)增量加載:增量加載是指目標表僅更新源數據表中變化的數據。增量加載的關鍵在于如何正確設計相應的方法,用于從源數據表中抽取增量的數據,以及變化“牽連”數據(雖沒有變化,但受到變化數據影響的數據)。同時,將這些變化的和未變化但受到影響的數據,在完成相應的邏輯轉換后更新到數據倉庫中。
3)批量加載:業務人員在分析過程中需要對數據表過去數月甚至數年的數據需要進行趨勢分析,對此類固定時間內的數據做一次性的加載方式稱為批量加載。通常,對于幾十萬條記錄的數據遷移而言,采取insert、update、delete等語句能夠較好地將數據遷移到目標數據庫中。然而,當數據加載量過大時,DML語句執行時生成的事物日志和約束條件將大大影響加載性能,故需要針對數據量大的數據采取批量加載處理。
03、數據加載的應用場景
制定數據加載策略除了滿足業務需求之外,還需要充分考慮其數據特點,制定合理的加載策略。
場景一:金融產品設計場景
產品設計人員在設計產品時,需要通過分析行內的快貸代碼配置表、個人貸款申請表等數據,充分了解客戶偏好,總結提煉產品特征,設計對客戶最有吸引力的產品。此類生產交易型數據特點主要是數據重要性高、訪問頻率高、數據量較小,可以采用全量加載方式,保留分區,以便在保證性能的情況下獲取充足的數據。
場景二:獲客營銷場景
營銷人員為進一步提升信用卡營銷活動的推廣效果,通過分析地面推廣營銷情況、信用卡激活比例等數據,總結營銷活動成效與不足,為下階段活動推廣時段和地點的選擇提供參考。針對該類服務支撐型數據,其數據特點主要是數據重要性不高、訪問頻率不高、數據量大,可以采用增量加載方式。
場景三:績效考核場景
管理人員在對員工過去一年的工作內容進行績效考核和監督時,一般根據員工營銷產品數量、獲客數量、辦理效率等數據進行綜合考量。針對該類固定時間內的批量數據,其數據特點為重要性低,訪問頻率固定、數據量龐大,占大量系統內存,適合使用批量加載的方式,并在管理人員做好分析評估后進行清理。