最近有彭友跟我欲言又止,吞吞吐吐不知道要干啥。我明白,他是有問題了。繞了半天,他才問:怎么才能精準識別主數(shù)據(jù)呢?我一看這個問法,肯定是遇到難題了,可不能用主數(shù)據(jù)的定義、什么N大特性糊弄過去了。
01主數(shù)據(jù)
DMBOK里的定義是這樣嬸兒的:
主數(shù)據(jù)是有關(guān)業(yè)務(wù)實體(如雇員、客戶、產(chǎn)品、金融結(jié)構(gòu)、資產(chǎn)和?位置等)的數(shù)據(jù),這些實體為業(yè)務(wù)交易和分析提供了語境信息。實體是客觀世界的對象(人、組織、地方或事物等)。實體被實體、實例以數(shù)據(jù)/記錄的方式表示。
發(fā)現(xiàn)沒有?主數(shù)據(jù)和實體有關(guān)系喲~~~所以主數(shù)據(jù)其實跟模型關(guān)系是很緊密的。其實理解主數(shù)據(jù)很簡單,我之前就寫過一篇文章專門解釋這個東東:【戳這里查看:主數(shù)據(jù)又是啥東東?應(yīng)該怎么建?】簡單來說,就是核心業(yè)務(wù)中,非數(shù)值的關(guān)鍵數(shù)據(jù)。這個理解不精準,但是容易理解。不過這哥們的問題,顯然不是這篇文章能解決的,因為他肯定是在進行主數(shù)據(jù)識別的時候遇到模棱兩可的內(nèi)容,無法進行區(qū)分了。
02主數(shù)據(jù)識別
想要確認兩個內(nèi)容是否是主數(shù)據(jù),就得從主數(shù)據(jù)的定義入手,從主數(shù)據(jù)特征入手。當然,也有一些偏門的手法可以輔助識別。石秀峰石老師在他的書《一本書講透數(shù)據(jù)治理》里寫了兩個方法:1、主數(shù)據(jù)特征識別法2、業(yè)務(wù)影響和共享程度分析矩陣法主數(shù)據(jù)特征識別法顧名思義,就是對著主數(shù)據(jù)的特征比劃一下就行了:
我們看看這些數(shù)據(jù)是否有以上特征,如果都有,那么是。如果缺一兩個,可以考慮考慮。一般可列為6個問題:
1、是否體現(xiàn)業(yè)務(wù)核心價值?這一點非常非常重要!(客戶信息肯定是,但是配送地址所在省份就不是核心價值數(shù)據(jù)了)
2、是否是獨立的實體?(商品是獨立不可拆分的實體,但是臨期商品則不是)
3、是否相對穩(wěn)定?(之所以加上相對,就是某些主數(shù)據(jù)是會變的,比如客戶信息)
4、是否會在其他系統(tǒng)共享?(如果只是單個系統(tǒng)使用,即便是核心價值的,一般也不會列為主數(shù)據(jù))
5、是否具有唯一性?(如果這個數(shù)據(jù)不強制唯一,全局可能重復(fù),那么可以踢出去了)
6、是否長期有效?(如果是短期使用,一般不作為主數(shù)據(jù)。但是這個長期短期和業(yè)務(wù)有關(guān),比如互聯(lián)網(wǎng)的訂單和造船廠的訂單時效性就不一樣,前者半個月后大概率就無了,后者一般都持續(xù)好幾年)至于業(yè)務(wù)共享矩陣法,其實就是看這個數(shù)據(jù)的重要程度和共享程度:

按照重要程度和共享程度一分,優(yōu)先級別自然就出來了。至于那些又不重要又不共享的,自然就排除在外了。
03區(qū)分難題
雖然已經(jīng)有方法了,但是有些時候遇到不熟悉的業(yè)務(wù),還是會蒙圈。一般容易搞混淆的是參考數(shù)據(jù)和主數(shù)據(jù)。因為參考數(shù)據(jù)有很多特征和主數(shù)據(jù)非常類似,比如也是長期有效、跨系統(tǒng)共享、也很重要(價值不一定高)、非常穩(wěn)定、全局唯一等。一些大家熟知的還行,但是一旦跟業(yè)務(wù)掛鉤,如果你不懂業(yè)務(wù),幾乎就沒辦法與主數(shù)據(jù)拆分開。?DMBOK里提出了二者管理重點的區(qū)別:
對于參考數(shù)據(jù)和主數(shù)據(jù),管理的重點是不同的:?
1)參考數(shù)據(jù)管理(Reference Data Management,RDM)。需要對定義的域值及其定義進行控制。參考數(shù)據(jù)管理的目標是確保組織能夠訪問每個概念的一整套準確且最新的值。
2)主數(shù)據(jù)管理(Master Data Management,MDM)。需要對主數(shù)據(jù)的值和標識符進行控制,以便能夠跨系統(tǒng)地、一致地使用核心業(yè)務(wù)實體中最準確、最及時的數(shù)據(jù)。主數(shù)據(jù)管理的目標包括確保當前值的準確性和可用性,同時降低由那些不明確的標識符所引發(fā)的相關(guān)風險(那些?被識別為具有多個實例的實體和那些涉及多個實體的實例)。
至于如何區(qū)分二者,除了分清楚數(shù)據(jù)價值之外,還有一個比較取巧的方式:看表字段多寡和數(shù)據(jù)量。一般來說,參考數(shù)據(jù)的數(shù)據(jù)集通常會比交易數(shù)據(jù)集或主數(shù)據(jù)集小,復(fù)雜程度低,擁有的列和行也更少。所以如果你看到一個3列的數(shù)據(jù)表,無法區(qū)分這是主數(shù)據(jù)還是參考數(shù)據(jù),那么盲猜一波參考數(shù)據(jù)準沒錯~~~當然,更重要的區(qū)分,還是看其價值,就是參與到核心業(yè)務(wù)的程度和價值。以及該數(shù)據(jù)是否完成“識別和管理來自不同系統(tǒng)和流程的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系”。參考數(shù)據(jù)會在核心流程里體現(xiàn),比如配送地址所在省份,但是程度比較低,價值也不是特別大,丟失了甚至都沒太大關(guān)系(可以通過其他數(shù)據(jù)推出來)。而且,該數(shù)據(jù)也無需識別和管理不停系統(tǒng)和流程的數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。所以,列為參考數(shù)據(jù)是沒問題的。
04小結(jié)
主數(shù)據(jù)很容易與參考數(shù)據(jù)混淆。區(qū)分方式有很多種,常規(guī)方法有兩個:1、主數(shù)據(jù)特征識別法2、業(yè)務(wù)影響和共享程度分析矩陣法非常規(guī)方法有很多:1、管理重心區(qū)分法2、字段、數(shù)據(jù)量判斷法3、不同系統(tǒng)數(shù)據(jù)關(guān)聯(lián)法4、經(jīng)驗判斷法。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)