企業(yè)介紹
該企業(yè)是一家集芯片設(shè)計(jì)、工藝研發(fā)、晶圓生產(chǎn)與測(cè)試、銷(xiāo)售服務(wù)于一體的半導(dǎo)體存儲(chǔ)器企業(yè),為全球提供先進(jìn)的存儲(chǔ)產(chǎn)品和解決方案,廣泛應(yīng)用于移動(dòng)通信、計(jì)算機(jī)、數(shù)據(jù)中心和消費(fèi)電子領(lǐng)域。
項(xiàng)目背景
數(shù)據(jù)是企業(yè)的重要資產(chǎn),是企業(yè)數(shù)字化的基礎(chǔ)和前提。在國(guó)企數(shù)字化轉(zhuǎn)型的過(guò)程中,不僅要打通“數(shù)據(jù)孤島”,還需要翻越數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全這兩座“大山”,而數(shù)據(jù)治理就是連接大山的橋梁。本項(xiàng)目的建設(shè)內(nèi)容就是從數(shù)據(jù)接入、轉(zhuǎn)換、應(yīng)用各個(gè)階段加強(qiáng)數(shù)據(jù)質(zhì)量的管控,為集團(tuán)數(shù)倉(cāng)、數(shù)據(jù)分析、數(shù)據(jù)挖掘應(yīng)用提供標(biāo)準(zhǔn)、可靠的基礎(chǔ)數(shù)據(jù)支撐。
當(dāng)前該企業(yè)數(shù)據(jù)資源涉及7000-8000張數(shù)據(jù)庫(kù)表,存儲(chǔ)于不同的關(guān)系型數(shù)據(jù)庫(kù)以及分布式數(shù)據(jù)庫(kù)中,每天的增量數(shù)據(jù)在1-2T左右,在ETL過(guò)程中需要對(duì)數(shù)據(jù)的及時(shí)性、完整性和一致性進(jìn)行校驗(yàn)。同時(shí)需要對(duì)互相有關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)進(jìn)行業(yè)務(wù)規(guī)則校驗(yàn),各式各樣復(fù)雜的業(yè)務(wù)規(guī)則邏輯需要依靠業(yè)務(wù)骨干的工作積累和經(jīng)驗(yàn)反復(fù)推敲才能落地,單靠技術(shù)部門(mén)的投入難以達(dá)到最好的效果。
綜上,該企業(yè)需要一款獨(dú)立于業(yè)務(wù)系統(tǒng)之外的數(shù)據(jù)質(zhì)量管理平臺(tái),一方面滿足技術(shù)部門(mén)長(zhǎng)效的數(shù)據(jù)質(zhì)量管控,另一方面能夠形成業(yè)務(wù)精英為主、技術(shù)精英為輔的業(yè)務(wù)數(shù)據(jù)梳理體系。
項(xiàng)目痛點(diǎn)
1、需支持多樣化的數(shù)據(jù)來(lái)源
當(dāng)前業(yè)務(wù)數(shù)據(jù)存儲(chǔ)在不同類(lèi)型的數(shù)據(jù)庫(kù)中,包含Oracle/Mysql/SQLServer/Postgresql/Hive/HDFS/Hbase/Kudu/Vertica等,所選平臺(tái)需要具備多種數(shù)據(jù)源的接入機(jī)制,并能夠基于后續(xù)的業(yè)務(wù)發(fā)展,適用更多的數(shù)據(jù)來(lái)源。
2、需支持繁簡(jiǎn)不一的規(guī)則配置
在數(shù)據(jù)質(zhì)量管控過(guò)程中,需要進(jìn)行各種各樣的質(zhì)檢規(guī)則配置,簡(jiǎn)單的如空值校驗(yàn)、字段類(lèi)型校驗(yàn)、值域校驗(yàn)、及時(shí)性校驗(yàn)等,復(fù)雜涉及多表關(guān)聯(lián)的邏輯公式校驗(yàn)、完整性校驗(yàn)、一致性校驗(yàn)等,所選平臺(tái)需要支持多種規(guī)則的校驗(yàn)設(shè)置,同時(shí)還要便于技術(shù)能力較弱的業(yè)務(wù)精英進(jìn)行操作。
3、需支持海量數(shù)據(jù)的處理應(yīng)對(duì)
面對(duì)海量數(shù)據(jù)的質(zhì)檢,不僅是數(shù)據(jù)量大,同時(shí)還面臨多個(gè)質(zhì)檢工作的并發(fā)。一方面需要在規(guī)定時(shí)間內(nèi)完成所有檢驗(yàn),另一方面給還需要及時(shí)將結(jié)果反饋給數(shù)據(jù)管理者。所選平臺(tái)需要具備大數(shù)據(jù)量的處理能力、支持多個(gè)質(zhì)檢進(jìn)程并發(fā),同時(shí)還要考慮后續(xù)數(shù)據(jù)量越來(lái)越大,接入的數(shù)據(jù)源越來(lái)越多的發(fā)展趨勢(shì),能夠支持集群中節(jié)點(diǎn)的靈活擴(kuò)展,滿足長(zhǎng)期的數(shù)據(jù)質(zhì)檢需要。
建設(shè)內(nèi)容
數(shù)據(jù)質(zhì)量管理平臺(tái)主要用于解決業(yè)務(wù)系統(tǒng)運(yùn)行、數(shù)據(jù)倉(cāng)庫(kù)建設(shè)及數(shù)據(jù)治理過(guò)程中的數(shù)據(jù)質(zhì)量問(wèn)題。它以標(biāo)準(zhǔn)化的數(shù)據(jù)質(zhì)量規(guī)范為基礎(chǔ),運(yùn)用數(shù)據(jù)挖掘、數(shù)據(jù)分析、工作流、評(píng)分卡、可視化等技術(shù)幫助組織建立數(shù)據(jù)質(zhì)量管理體系,提升數(shù)據(jù)的完整性、規(guī)范性、及時(shí)性、一致性、邏輯性,降低數(shù)據(jù)管理成本,減少因數(shù)據(jù)不可靠導(dǎo)致的決策偏差和損失。
系統(tǒng)主要功能包括質(zhì)量檢查規(guī)則管理、績(jī)效管理、工作流管理、質(zhì)量分析報(bào)表查詢、質(zhì)量報(bào)告等。
項(xiàng)目建設(shè)架構(gòu)圖
1、單點(diǎn)登錄
為滿足公司內(nèi)部的通過(guò)統(tǒng)一身份認(rèn)證平臺(tái)進(jìn)行數(shù)據(jù)質(zhì)量平臺(tái)的登錄,實(shí)現(xiàn)了與認(rèn)證平臺(tái)的單點(diǎn)登錄集成。
2、質(zhì)量問(wèn)題實(shí)現(xiàn)短信預(yù)警
數(shù)據(jù)質(zhì)量平臺(tái)支持按照配置的質(zhì)檢方案自動(dòng)的執(zhí)行質(zhì)檢,質(zhì)檢結(jié)果會(huì)自動(dòng)的通過(guò)郵件或者短信發(fā)送到相關(guān)責(zé)任人,提醒技術(shù)人員及時(shí)的處理質(zhì)量問(wèn)題。
3、支持多種大數(shù)據(jù)平臺(tái)數(shù)據(jù)源的質(zhì)檢
平臺(tái)除了支持常見(jiàn)的關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行質(zhì)檢外,還支持Hive/HDFS/Hbase/Kudu/Vertica等多種大數(shù)據(jù)庫(kù)的數(shù)據(jù)源接入,能夠滿足公司后續(xù)的業(yè)務(wù)發(fā)展,適用豐富的數(shù)據(jù)類(lèi)型。
項(xiàng)目?jī)r(jià)值
該企業(yè)數(shù)據(jù)質(zhì)量管理平臺(tái)的建設(shè),滿足了公司數(shù)據(jù)質(zhì)量管控的需求,實(shí)現(xiàn)了數(shù)據(jù)質(zhì)量檢查的自動(dòng)執(zhí)行和問(wèn)題數(shù)據(jù)短信預(yù)警,大大的提升了業(yè)務(wù)數(shù)據(jù)的質(zhì)量,為公司數(shù)倉(cāng)、數(shù)據(jù)分析、數(shù)據(jù)挖掘應(yīng)用提供標(biāo)準(zhǔn)、可靠的基礎(chǔ)數(shù)據(jù)支撐。客戶對(duì)于項(xiàng)目整體建設(shè)成果非常滿意,通過(guò)產(chǎn)品的應(yīng)用,使各業(yè)務(wù)條線的數(shù)據(jù)質(zhì)量問(wèn)題得到有效管控,簡(jiǎn)化技術(shù)人員的數(shù)據(jù)質(zhì)量問(wèn)題核查的工作難度,同時(shí)極大的提升了客戶的工作效率。
1)數(shù)據(jù)質(zhì)量管理平臺(tái)提供了可視化的頁(yè)面就能完成數(shù)據(jù)質(zhì)量檢查工作,大大降低了數(shù)據(jù)質(zhì)檢的技術(shù)門(mén)檻,不僅僅只靠公司數(shù)據(jù)部門(mén)的技術(shù)人員來(lái)提升數(shù)據(jù)質(zhì)量,現(xiàn)在也將業(yè)務(wù)部門(mén)的人員也參與到數(shù)據(jù)質(zhì)量提升工作中,形成業(yè)務(wù)精英為主、技術(shù)精英為輔的業(yè)務(wù)數(shù)據(jù)梳理體系。
2)數(shù)據(jù)質(zhì)量的質(zhì)檢結(jié)果實(shí)現(xiàn)了短信自動(dòng)預(yù)警,提醒技術(shù)人員及時(shí)的處理質(zhì)量問(wèn)題,提升了技術(shù)部門(mén)的數(shù)據(jù)質(zhì)量問(wèn)題管理效率。
3)隨著公司業(yè)務(wù)數(shù)據(jù)不斷增大,大數(shù)據(jù)平臺(tái)的應(yīng)用不斷深入,數(shù)據(jù)質(zhì)量平臺(tái)支持多種基于Hadoop的數(shù)據(jù)源的接入進(jìn)行質(zhì)檢,為公司業(yè)務(wù)的發(fā)展和質(zhì)量管理奠定了基礎(chǔ)。