在大數(shù)據(jù)和數(shù)據(jù)科學(xué)的新時(shí)代,企業(yè)擁有與業(yè)務(wù)流程一致的集中式數(shù)據(jù)架構(gòu)至關(guān)重要,該架構(gòu)隨著業(yè)務(wù)增長(zhǎng)而擴(kuò)展,并隨著技術(shù)進(jìn)步而發(fā)展。成功的數(shù)據(jù)架構(gòu)可以清楚地了解數(shù)據(jù)的各個(gè)方面,從而使數(shù)據(jù)科學(xué)家能夠有效地處理可信賴的數(shù)據(jù)并解決復(fù)雜的業(yè)務(wù)問(wèn)題。它還使組織準(zhǔn)備好通過(guò)利用新興技術(shù)快速利用新的業(yè)務(wù)機(jī)會(huì),并通過(guò)管理整個(gè)企業(yè)的復(fù)雜數(shù)據(jù)和信息交付來(lái)提高運(yùn)營(yíng)效率。
與信息架構(gòu)、系統(tǒng)架構(gòu)和軟件架構(gòu)相比,數(shù)據(jù)架構(gòu)相對(duì)較新。數(shù)據(jù)架構(gòu)師的角色也很模糊,落在了高級(jí)業(yè)務(wù)分析師、ETL 開(kāi)發(fā)人員和數(shù)據(jù)科學(xué)家的肩上。盡管如此,我們認(rèn)為數(shù)據(jù)架構(gòu)師是指那些為組織設(shè)計(jì)數(shù)據(jù)架構(gòu)的數(shù)據(jù)管理專(zhuān)業(yè)人員。在談?wù)摷軜?gòu)時(shí),我們經(jīng)常會(huì)想到與建筑架構(gòu)的類(lèi)比。傳統(tǒng)的建筑架構(gòu)師計(jì)劃、設(shè)計(jì)和審查建筑物的建造。
設(shè)計(jì)過(guò)程涉及與客戶合作以充分收集要求,了解該地點(diǎn)的法律和環(huán)境限制,并與工程師、測(cè)量師和其他專(zhuān)家合作,以確保設(shè)計(jì)符合實(shí)際并在預(yù)算范圍內(nèi)。這項(xiàng)工作的復(fù)雜性確實(shí)與數(shù)據(jù)架構(gòu)師的角色非常相似。但是,這兩個(gè)架構(gòu)師角色之間存在一些根本區(qū)別:
■建筑架構(gòu)是自上而下設(shè)計(jì)的,而數(shù)據(jù)架構(gòu)通常是可能已經(jīng)存在的組件或系統(tǒng)的集成過(guò)程。
■建筑架構(gòu)師在建造建筑物之前必須了解全部要求并定義整個(gè)范圍。數(shù)據(jù)架構(gòu)的范圍可以很廣泛并且很容易改變。因此,一個(gè)成功的數(shù)據(jù)架構(gòu)應(yīng)該被設(shè)計(jì)成靈活的并且能夠預(yù)測(cè)未來(lái)的變化。
■建筑架構(gòu)師具有明確的教育和專(zhuān)業(yè)要求,應(yīng)具備商業(yè)、藝術(shù)、結(jié)構(gòu)物理和建筑材料方面的深入知識(shí)。大多數(shù)數(shù)據(jù)架構(gòu)師來(lái)自 IT 背景,在少數(shù)公司或行業(yè)擁有專(zhuān)業(yè)經(jīng)驗(yàn),并且對(duì)業(yè)務(wù)的了解有限。因此,他們應(yīng)該意識(shí)到他們的設(shè)計(jì)可能存在偏差,并且他們需要根據(jù)組織中業(yè)務(wù)和技術(shù)專(zhuān)家的反饋進(jìn)行調(diào)整。建筑設(shè)計(jì)幾乎總是針對(duì)從零開(kāi)始建造的新建筑。因此,建筑架構(gòu)師可以完全根據(jù)新要求和新材料進(jìn)行規(guī)劃和設(shè)計(jì)。數(shù)據(jù)架構(gòu)師沒(méi)有這種奢侈的環(huán)境,他們很少能從頭開(kāi)始,但在為未來(lái)設(shè)計(jì)時(shí)需要了解現(xiàn)有的平臺(tái)和數(shù)據(jù)庫(kù)。鑒于所有這些差異,數(shù)據(jù)架構(gòu)師仍然可以向建筑架構(gòu)師學(xué)習(xí),特別是采用自上而下的方法來(lái)改進(jìn)數(shù)據(jù)架構(gòu)設(shè)計(jì)。在許多組織中,缺乏系統(tǒng)的、集中的、端到端的數(shù)據(jù)架構(gòu)設(shè)計(jì)。下面列出了一些主要原因:
■大型集團(tuán)有多個(gè) IT 部門(mén),他們各自獨(dú)立地使用自己的數(shù)據(jù)標(biāo)準(zhǔn)和架構(gòu)。
■應(yīng)用程序和流程是根據(jù)個(gè)人業(yè)務(wù)需求構(gòu)建的,沒(méi)有可遵循的數(shù)據(jù)架構(gòu)標(biāo)準(zhǔn)。
■數(shù)據(jù)架構(gòu)師的角色只關(guān)注有限數(shù)量的技術(shù)領(lǐng)域,并且對(duì)數(shù)據(jù)擁有有限的業(yè)務(wù)知識(shí)。
■IT 項(xiàng)目的管理不考慮數(shù)據(jù)架構(gòu)作為設(shè)計(jì)階段的一部分;數(shù)據(jù)科學(xué)家和工程師在沒(méi)有一致的數(shù)據(jù)管理流程的情況下自行編寫(xiě)代碼。由于這些不足,我們經(jīng)常看到一家公司的數(shù)據(jù)系統(tǒng)脫節(jié),團(tuán)隊(duì)和部門(mén)之間存在差距。這些差異導(dǎo)致系統(tǒng)性能不佳,出現(xiàn)生產(chǎn)數(shù)據(jù)問(wèn)題時(shí)需要很長(zhǎng)時(shí)間才能進(jìn)行故障排除,缺乏跨系統(tǒng)達(dá)成正確解決方案的責(zé)任感,以及缺乏評(píng)估影響的能力改變。最后,當(dāng)遷移或重新設(shè)計(jì)到下一代平臺(tái)時(shí),脫節(jié)的系統(tǒng)可能會(huì)導(dǎo)致分析和研究工作量巨大。鑒于所有這些,成功的企業(yè)需要有一個(gè)基于業(yè)務(wù)流程和運(yùn)營(yíng)設(shè)計(jì)的自上而下的連貫數(shù)據(jù)架構(gòu)。特別是,就像建筑架構(gòu)師所做的那樣,企業(yè)數(shù)據(jù)架構(gòu)師需要首先在概念和邏輯級(jí)別構(gòu)建藍(lán)圖,然后再將技術(shù)應(yīng)用于詳細(xì)的應(yīng)用程序設(shè)計(jì)和實(shí)現(xiàn)。
1. 基于業(yè)務(wù)流程和運(yùn)營(yíng)的概念級(jí)數(shù)據(jù)架構(gòu)設(shè)計(jì)
在現(xiàn)代 IT 中,業(yè)務(wù)流程由數(shù)據(jù)實(shí)體、數(shù)據(jù)流和應(yīng)用于數(shù)據(jù)的業(yè)務(wù)規(guī)則支持和驅(qū)動(dòng)。因此,數(shù)據(jù)架構(gòu)師需要具備深入的業(yè)務(wù)知識(shí),包括財(cái)務(wù)、營(yíng)銷(xiāo)、產(chǎn)品以及業(yè)務(wù)流程的行業(yè)特定專(zhuān)業(yè)知識(shí),例如電信、金融、制造和零售等。然后,可以通過(guò)設(shè)計(jì)代表每個(gè)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)實(shí)體和分類(lèi)以及業(yè)務(wù)流程下的數(shù)據(jù)流,在企業(yè)級(jí)別正確構(gòu)建數(shù)據(jù)藍(lán)圖。特別是,在這個(gè)概念階段需要考慮和規(guī)劃以下領(lǐng)域:
■核心數(shù)據(jù)實(shí)體和數(shù)據(jù)元素,例如關(guān)于客戶、產(chǎn)品、銷(xiāo)售的數(shù)據(jù)。
■用戶和客戶需要的輸出數(shù)據(jù)。
■要收集和轉(zhuǎn)換或引用以生成輸出數(shù)據(jù)的源數(shù)據(jù)。
■每個(gè)數(shù)據(jù)實(shí)體的所有權(quán)以及應(yīng)如何根據(jù)業(yè)務(wù)用例使用和分發(fā)數(shù)據(jù)實(shí)體。
■應(yīng)用于每個(gè)數(shù)據(jù)實(shí)體的安全策略。
■數(shù)據(jù)實(shí)體之間的關(guān)系,例如引用完整性、業(yè)務(wù)規(guī)則、執(zhí)行順序。
■標(biāo)準(zhǔn)數(shù)據(jù)分類(lèi)和分類(lèi)。
■數(shù)據(jù)質(zhì)量、操作和服務(wù)水平協(xié)議 (SLA) 的標(biāo)準(zhǔn)。此概念設(shè)計(jì)級(jí)別由支持每個(gè)業(yè)務(wù)功能的底層數(shù)據(jù)實(shí)體組成。藍(lán)圖對(duì)于成功設(shè)計(jì)和實(shí)施企業(yè)和系統(tǒng)架構(gòu)及其未來(lái)的擴(kuò)展或升級(jí)至關(guān)重要。在許多組織中,這種概念設(shè)計(jì)通常嵌入到由單個(gè)項(xiàng)目驅(qū)動(dòng)的業(yè)務(wù)分析中,而沒(méi)有從企業(yè)端到端解決方案和標(biāo)準(zhǔn)的角度進(jìn)行指導(dǎo)。
2. 邏輯級(jí)數(shù)據(jù)架構(gòu)設(shè)計(jì)
通過(guò)考慮使用哪種類(lèi)型的數(shù)據(jù)庫(kù)或數(shù)據(jù)格式,這種設(shè)計(jì)水平有時(shí)被稱(chēng)為數(shù)據(jù)建模。它將業(yè)務(wù)需求連接到底層技術(shù)平臺(tái)和系統(tǒng)。但是,鑒于數(shù)據(jù)建模者的角色,大多數(shù)組織僅在特定數(shù)據(jù)庫(kù)或系統(tǒng)中設(shè)計(jì)數(shù)據(jù)建模。通過(guò)考慮適用于每個(gè)數(shù)據(jù)庫(kù)或系統(tǒng)的標(biāo)準(zhǔn)以及這些數(shù)據(jù)系統(tǒng)之間的數(shù)據(jù)流,應(yīng)使用集成方法開(kāi)發(fā)成功的數(shù)據(jù)架構(gòu)。特別是需要以協(xié)同方式設(shè)計(jì)以下5個(gè)領(lǐng)域:
■命名約定和數(shù)據(jù)完整性數(shù)據(jù)實(shí)體和元素的命名約定應(yīng)該一致地應(yīng)用于每個(gè)數(shù)據(jù)庫(kù)。此外,如果相同的數(shù)據(jù)必須駐留在多個(gè)數(shù)據(jù)庫(kù)中,則應(yīng)強(qiáng)制執(zhí)行數(shù)據(jù)源及其引用之間的完整性。最終,這些數(shù)據(jù)元素應(yīng)該屬于數(shù)據(jù)架構(gòu)中概念設(shè)計(jì)中的一個(gè)數(shù)據(jù)實(shí)體,然后可以根據(jù)業(yè)務(wù)需求進(jìn)行協(xié)同準(zhǔn)確的更新或修改。
■數(shù)據(jù)歸檔/保留政策數(shù)據(jù)歸檔和保留策略通常直到數(shù)據(jù)生產(chǎn)的每個(gè)后期才考慮或建立,這導(dǎo)致資源浪費(fèi)、不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)狀態(tài)不一致以及數(shù)據(jù)查詢和更新的性能不佳。為了加強(qiáng)數(shù)據(jù)完整性,數(shù)據(jù)架構(gòu)師應(yīng)根據(jù)運(yùn)營(yíng)標(biāo)準(zhǔn)在數(shù)據(jù)架構(gòu)中定義數(shù)據(jù)歸檔和保留策略。
■隱私和安全信息隱私和安全成為邏輯數(shù)據(jù)庫(kù)設(shè)計(jì)的重要方面。雖然概念設(shè)計(jì)已經(jīng)定義了哪些數(shù)據(jù)組件是敏感信息,但邏輯設(shè)計(jì)應(yīng)該在數(shù)據(jù)庫(kù)中保護(hù)機(jī)密信息,訪問(wèn)受限、數(shù)據(jù)復(fù)制受限、特定數(shù)據(jù)類(lèi)型和安全數(shù)據(jù)流以保護(hù)信息。
■數(shù)據(jù)復(fù)制數(shù)據(jù)復(fù)制是三個(gè)目標(biāo)需要考慮的一個(gè)關(guān)鍵方面:1)高可用性;2) 避免通過(guò)網(wǎng)絡(luò)傳輸數(shù)據(jù)的性能;3) 解耦以最小化下游影響。但是,過(guò)多的數(shù)據(jù)復(fù)制會(huì)導(dǎo)致混亂、數(shù)據(jù)質(zhì)量差和性能低下。任何數(shù)據(jù)復(fù)制都應(yīng)由數(shù)據(jù)架構(gòu)師檢查,并按照原則和規(guī)則加以應(yīng)用。
■數(shù)據(jù)流和管道應(yīng)該在這個(gè)級(jí)別明確定義不同數(shù)據(jù)庫(kù)系統(tǒng)和應(yīng)用程序之間的數(shù)據(jù)流動(dòng)方式。同樣,此流程與業(yè)務(wù)流程和數(shù)據(jù)架構(gòu)師概念級(jí)別中說(shuō)明的流程一致。此外,數(shù)據(jù)攝取的頻率、管道中的數(shù)據(jù)轉(zhuǎn)換以及針對(duì)輸出數(shù)據(jù)的數(shù)據(jù)訪問(wèn)模式應(yīng)在邏輯設(shè)計(jì)的集成視圖中考慮。例如,如果上游數(shù)據(jù)源是實(shí)時(shí)的,而下游系統(tǒng)主要用于索引繁重的聚合信息的數(shù)據(jù)訪問(wèn)(例如,頻繁更新和插入的成本很高),則需要在兩者之間設(shè)計(jì)數(shù)據(jù)管道以優(yōu)化性能。
3. 數(shù)據(jù)治理是數(shù)據(jù)架構(gòu)持續(xù)成功的關(guān)鍵
由于數(shù)據(jù)架構(gòu)反映并支持業(yè)務(wù)流程和流程,因此無(wú)論何時(shí)更改業(yè)務(wù)流程,它都會(huì)發(fā)生變化。隨著底層數(shù)據(jù)庫(kù)系統(tǒng)的變化,數(shù)據(jù)架構(gòu)也需要調(diào)整。因此,數(shù)據(jù)架構(gòu)不是靜態(tài)的,而是需要持續(xù)管理、增強(qiáng)和審計(jì)。因此,應(yīng)采用數(shù)據(jù)治理來(lái)確保在啟動(dòng)每個(gè)新項(xiàng)目時(shí)正確設(shè)計(jì)和實(shí)施企業(yè)數(shù)據(jù)架構(gòu)。
小結(jié)
在成功的數(shù)據(jù)架構(gòu)中,基于業(yè)務(wù)流程的概念設(shè)計(jì)是最關(guān)鍵的要素,其次是強(qiáng)調(diào)所有數(shù)據(jù)庫(kù)和數(shù)據(jù)管道的一致性、完整性和效率的邏輯設(shè)計(jì)。一旦建立了數(shù)據(jù)架構(gòu),組織就可以查看哪些數(shù)據(jù)駐留在何處,并確保數(shù)據(jù)得到保護(hù)、有效存儲(chǔ)和準(zhǔn)確處理。此外,當(dāng)一個(gè)數(shù)據(jù)庫(kù)或一個(gè)組件發(fā)生變化時(shí),數(shù)據(jù)架構(gòu)可以讓組織快速評(píng)估影響并指導(dǎo)所有相關(guān)團(tuán)隊(duì)進(jìn)行設(shè)計(jì)和實(shí)施。最后,數(shù)據(jù)架構(gòu)是企業(yè)系統(tǒng)的實(shí)時(shí)文檔,保證是最新的,并提供清晰的端到端視圖。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)