提供數(shù)據(jù)質量管理實現(xiàn)數(shù)據(jù)全生命周期的質量管理,能根據(jù)標準規(guī)則可視化配置數(shù)據(jù)質量檢查策略,通過調度中心實現(xiàn)數(shù)據(jù)質量的檢查,發(fā)現(xiàn)問題數(shù)據(jù),將問題數(shù)據(jù)根據(jù)擁有者體系派給相關人員修正,并能根據(jù)需要形成數(shù)據(jù)質量評估報告和問題處理報告等。為減輕對信息系統(tǒng)數(shù)據(jù)庫影響,數(shù)據(jù)質量檢查采用數(shù)據(jù)流檢查技術,數(shù)據(jù)質量檢查方法及計算運行在引擎中而不是依賴數(shù)據(jù)庫的SQL。
數(shù)據(jù)質量工具主要包括:數(shù)據(jù)質量初步分析、數(shù)據(jù)質量精度檢查、比對和驗證檢查、檢查結果處理。

質量管理管控體系
1)數(shù)據(jù)質量初步分析:提供數(shù)據(jù)質量初步分析能力,方便對給定庫表做數(shù)據(jù)質量的初步了解。包括全庫初步探測、數(shù)據(jù)庫表基本信息分析、表基本信息分析的統(tǒng)計信息等分析。全庫初步探測,對庫中所有表做初步探測獲得庫基本信息,每個表初步探測包括表名、主鍵字段數(shù)、外鍵字段數(shù)、字段數(shù)、必填字段數(shù)、記錄數(shù)、空值率、空值比等。并以表的方式提供。
2)數(shù)據(jù)質量精度檢查:提供數(shù)據(jù)質量精度檢查,方便對給定表做精細化的
數(shù)據(jù)質量分析。提供數(shù)據(jù)質量檢查服務對數(shù)據(jù)庫表做指定規(guī)則檢查,提供邏輯表達式檢查,提供相似重復記錄檢查,提供復合檢查,提供可視化定義界面,提供數(shù)據(jù)質量檢查方法接口、相似度檢查方法接口,方便增加數(shù)據(jù)質量檢查方法。
3)數(shù)據(jù)質量檢查服務:對數(shù)據(jù)庫表做指定規(guī)則檢查,包括格式檢查、范圍檢查、缺失記錄檢查、相似重復記錄檢查、精度檢查、邏輯表達式檢查、復合規(guī)則檢查等。在數(shù)據(jù)質量檢查服務可視化配置出單字段多規(guī)則檢查,也可以配置出多字段同規(guī)則檢查,還可以配置出多字段之間的關聯(lián)檢查。
4)相似重復記錄檢查:包括完全重復記錄檢查、相似記錄檢查。完全重復記錄檢查可以根據(jù)一個字段或者多個字段的比對,得到重復記錄,能可視化配置;相似記錄檢查是指先檢查一個或者多個字段相似度,然后得到記錄相似度,根據(jù)記錄相似度的值得到相似記錄,可視化選擇多種字段相似算法和可視化定義記錄相似算法及屬性。
5)比對和驗證檢查:提供比對和驗證功能,對于數(shù)據(jù)目標和數(shù)據(jù)源做一致性檢查,發(fā)現(xiàn)其差異。主要包括數(shù)據(jù)庫表的比對、數(shù)據(jù)文件的比對。對源庫表和目標庫表做一致性比對檢查,包括表結構比對、數(shù)據(jù)一致性比對,能發(fā)現(xiàn)并展示不一樣的結構、不一致的數(shù)據(jù)(包括增加、修改、減少的數(shù)據(jù))對源和目標文件夾下的文件做比對和驗證檢查,能發(fā)現(xiàn)并展示不一致的文件,包括增加、修改的文件。支持數(shù)據(jù)源和數(shù)據(jù)目標位于不同網(wǎng)段的一致性檢查。
6)檢查結果處理:數(shù)據(jù)質量檢查服務部署運行完成后,會生成檢查結果,數(shù)據(jù)質量檢查結果存儲到指定數(shù)據(jù)庫中,每個數(shù)據(jù)質量檢查服務的存儲表結構根據(jù)選擇的檢查字段、定義的檢查規(guī)則自動生成,并提供可視化界面,方便修改信息配置。
7)系統(tǒng)提供問題數(shù)據(jù)統(tǒng)計:針對每個數(shù)據(jù)質量檢查服務提供數(shù)據(jù)質量檢查結果報告,包括異常數(shù)據(jù)、異常數(shù)據(jù)檢查的規(guī)則描述,并能做問題數(shù)據(jù)統(tǒng)計、修改情況統(tǒng)計、檢查規(guī)則統(tǒng)計。
(部分內容來源網(wǎng)絡,如有侵權請聯(lián)系刪除)