- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-01-20來源:半面情緒瀏覽數:326次
? ? ? ?“不是所有可以計算的東西都有價值,也不是所有有價值的東西都能被計算。”---愛因斯坦
? ? ? ?最近,關鍵數據的概念引起了數據管理專業人士的關注。我自己也不例外,所以我決定深入研究這個主題并做一些研究。我的意思是,并非所有數據都需要主動管理、監控和控制。事實上,這樣做會使數據治理成為人們實際開展日常活動的負擔或障礙。這絕不是數據治理的重點。我相信數據治理的重點是識別最重要的數據,并根據數據對貴公司的價值按比例管理這些數據。我在保險業工作時第一次接觸到這個概念。他們的規定之一是償付能力。它主要處理保險公司的資本充足率,但同時要求對資本充足率計算中使用的所有數據進行數據治理。然而,監管者意識到一個非常重要的點,在這些相當復雜的計算中,一些數據非常重要,而其他數據只是為了上下文。現在,如果后面的數據是錯誤的或缺失的,那么它對最終計算的影響要么沒有,要么可以忽略不計。因此,監管機構表示,他們不希望對這些數據實施相同級別的數據治理,而不是真正重要的數據,實際上會導致計算出嚴重錯誤的數字。??當我開始嘗試為我合作的第一家保險公司解決這個問題時,這對我來說很有意義。我很快意識到,將精力集中在最重要的數據上是數據治理的正確做法。從那時起,我鼓勵每一位客戶,無論他們在哪個行業經營,都采用這種方法。?我們可以為這種方法起一個名字—— 關鍵數據管理,即它是關于識別最重要的數據并適當地管理它。但是,請注意,將其稱為“材料數據”可能不適合。事實上,我的一位制造客戶毫不含糊地告訴我,如果您的公司使用材料來制造某些東西,那么“物質”這個術語絕對不起作用,因為材料數據在這種情況下完全意味著其他東西! 識別關鍵或重要數據是一種非常明智和務實的方法,但不一定是一種簡單的方法。您需要為每個關鍵級別的含義定義一些標準,以便數據所有者可以根據標準評估他們擁有的數據并決定它是否重要。?還有一個有趣的問題是您需要制定多少級別的關鍵性??我通常的做法是三個級別:高關鍵性或高重要性數據是對您的業務最有價值的數據,如果質量差,則會產生最大的負面影響。中關鍵性或中等重要性是重要的數據,但如果質量較差,則不會產生如此大的影響。非關鍵或非重要數據是有用的數據,可能會增加上下文,但如果質量不是最好的,也不會造成很大的問題。多年來,一些客戶傾向于只選擇兩個關鍵級別,即關鍵或不關鍵。但這感覺有點像全有或全無的方法。數據要么有大量的控制、標準、數據質量監控和報告,要么什么都沒有。?一位客戶要求我實施五個級別的重要性。老實說,我真的很難區分將在五個類別中應用的不同級別的數據治理,最終,我將其合理化為三個。無論你怎么稱呼它,無論你決定多少層級都適合你的組織,我真的鼓勵你在你的數據治理計劃中嘗試這種方法。你真的不能完美地管理所有數據。那么,為什么不識別對您的組織最重要的數據并進行適當的管理呢。
? ? ? ?數字時代的特點是各種數據的大量存在。組織擁有大量的數據實體和數據,這些數據實體和數據與不同的主題領域相關,如客戶、產品、資產、金融等,并且與之對應的數據量也很大。數據量每天都在增長,低成本高容量存儲的可用性可以存儲所有這些數據。對于大量的數據和存儲在存儲庫中的大量數據,以及在組織的數據管道中流動的大量數據,重要的是要對關鍵數據進行優先級排序,并管理這些關鍵數據的質量。這就是關鍵數據概念的來源。…關鍵數據的定義;…使用關鍵數據和關鍵數據元素的原因;…關鍵數據和關鍵數據元素在實際實施中的主要挑戰。作為研究的起點,我查閱數據管理指南和立法文件,以了解他們對關鍵數據的看法。關鍵數據的概念已經出現在 DAMA International 的第二版 DAMA-DMBOK (DAMA-DMBOK 2) 中與數據質量知識領域相關的主題中。DAMA-DMBOK2 僅提供關鍵數據的一般特征。關鍵數據由其用途指定,即“監管報告、財務報告、業務政策、持續運營、業務戰略”?。DAMA-DMBOK2 還強調“關鍵性的具體驅動因素因行業而異”?。巴塞爾銀行監管委員會的標準編號 239中也引入了關鍵數據概念:“有效風險數據匯總和風險報告的原則”(BCBS 239 或 PERDARR)。BCBS239 在以下情況下談論關鍵數據:“對銀行管理其面臨的風險至關重要的數據”?“對風險數據聚合和 IT 基礎設施計劃至關重要的數據”?'匯總信息以做出有關風險的關鍵決策'?在查閱了這些指南和法規后,我得出結論,關鍵數據的概念尚未在各種來源中定義或統一。出于本文的目的,我們可能會記住以下兩點:?關鍵數據影響公司的財務和非財務管理決策和績效?關鍵性標準應根據不同的公司制定。現在讓我們談談實現關鍵數據素概念的商業價值。簡而言之,關鍵數據是指如果數據質量在一個或多個數據質量維度上沒有達到標準,則會產生直接或間接財務影響的數據(Mahanti 2019)。在本文中,我們將討論一些關于數據、數據質量、關鍵數據質量的重要性以及數據對業務的影響的關鍵概念。
? ? ? ?在我們繼續之前,讓我解釋一些與數據相關的術語。數據實體是收集數據的真實世界的對象、概念、事件和現象。數據是描述數據實體的不同屬性。因此,數據實體充當容器,由描述它的所有數據組成。試想一下有很多產品的超市:肥皂、牛奶、黃油、洗滌劑等等。“產品”是表示商店中產品的數據實體,數據可能是產品類型,例如食品、奶制品和清潔產品,產品ID、產品名稱、產品描述、生產日期、過期日期等等,在相關的數據結構中存儲不同產品的屬性值,例如關系表。另一個術語是“數據質量維度”。這是指定義數據質量的特征。引用我們示例中的“產品”,這將涉及產品數據實體的每個記錄中每個數據的有用值的存在,例如數據的及時可用性、數據的準確性、重復值等等。質量維度提供了對數據質量的洞察。
? ? ? ?如果數據適合其預期用途,則被認為是高質量的。換句話說,數據質量可以定義為對這些數據在給定上下文中是否服務于某個目的的評估。雖然數據質量是一個整體的抽象概念,不能測量數據質量本身,但它有幾個維度或方面可以測量。這些可測量的方面被稱為數據質量維度。數據質量維度的一些例子包括完整性(即值是否存在)、唯一性(與實體相關的數據不重復的程度)、準確性(數據值與現實的接近程度)、有效性(數據值是否符合標準)和及時性(數據是否及時可用,以便滿足業務需求)。在前面提到的產品示例中,如果我們的目的是跟蹤商店中特定產品的總可用數量,那么產品的產品號、過期日期(在適用的情況下)和可用的數量可能是使用該產品的必要數據,并且需要是準確和完整的。過期日期可能不適用于所有產品。例如,食品、乳制品和化妝品需要有一個保質期。但是,像餐具、存儲容器和器皿這樣的產品沒有過期日期,因此這些產品的數據將沒有過期日期值。產品描述中過期日期不是必要的數據。數據質量維度的可用數據可能是數據更新的頻率。如果這些數據是實時更新的,那將是非常有用的,從而得到高質量的數據。
? ? ? ?考慮到組織存儲的數據數量龐大,確保組織所有數據的質量是一項昂貴且資源密集型的工作,不建議這樣做。這是因為并非所有數據都是關鍵的。數據的價值是不一樣的,因此不具有同等的重要性。有些數據是關鍵的,組織必須確保它們是高質量的,并且符合預期的用途。有些數據是適度關鍵的。另一方面,一些數據可能沒有任何價值,評估它們的質量是浪費時間、金錢和精力。例如,許多數據值是出于可疑的原因捕獲和存儲的,比如作為購買的數據模型的一部分,或者從數據遷移項目中保留下來,但是它們可能不是實現任何業務目標所必需的。評估此類數據的質量是浪費時間和精力(Mahanti 2019)。考慮數據剖析活動涉及到測量對公司的直接營銷活動數據的質量要求。這里需要回答的問題是,執行直接營銷活動需要什么數據?它本質上需要客戶聯系數據,比如姓名、地址、電子郵件地址等等。應該選擇包含客戶聯系數據的正確數據源和正確的數據(包含客戶姓名、地址、電子郵件地址的字段)。然而,那些記錄評論和職位頭銜的字段是客戶聯系數據的一部分,但對于市場活動的目的沒有商業價值,不需要特別考慮(Mahanti, 2015)
? ? ? ?關鍵數據可以定義為企業關鍵業務功能或流程的數據,如果數據質量在一個或多個數據質量維度上沒有達到標準,則會導致客戶不滿、帶來合規風險或產生直接的財務影響(Mahanti 2019)。客戶不滿和監管影響會對財務產生不利影響。例如,不遵守規定可能會導致企業支付罰款。心懷不滿的顧客可能會把生意轉到別處,造成收入損失。一般來說,財務影響可能包括處罰成本、失去的機會成本、費用增加或收入和利潤減少。因此,可以使用與數據、數據組或數據實體有關的不同數據質量維度的成本來確定臨界度(Mahanti 2019)。例如,在大多數以客戶為中心的組織(如金融服務、電信、公用事業或零售公司)中,不準確的名稱和地址數據可能會導致巨大的郵件成本。因此,對他們來說,地址數據非常重要。理解關鍵數據實體和數據的一種方法是考慮依賴于數據質量的重要企業業務,并映射數據依賴關系,即獲取每個業務的信息所需的關鍵數據實體和相關數據。對一項企業業務至關重要的數據可能對另一項企業業務并不重要。例如,零售公司的企業關鍵活動可能包括銷售報告和消費者行為趨勢報告。雖然客戶年齡、年收入和職業可能是消費者行為趨勢報告的關鍵數據,但它們不是銷售報告的關鍵數據。另一方面,有些數據可能對大多數企業業務至關重要。企業業務可能因行業部門或業務類型而異。以下因素可用于確定數據的臨界度:?使用該數據的業務數量;?與數據相關的成本;?與數據相關的風險;?使用數據的業務單位、部門、團隊或業務用戶的數量除此之外,某些數據和信息非常敏感,從數據隱私和安全的角度來說可以被歸類為重要信息。名譽損害、訴訟費用和罰款是敏感數據被盜的一些影響。敏感數據的例子包括社會安全號碼、借記卡號碼、信用卡號碼、安全PIN號碼、密碼和護照號碼。有時,單獨的數據可能不被認為敏感,但在一組數據中就會變得敏感。個人可識別信息就是這種情況的一個例子(Mahanti 2019)。在組織開始根據數據質量的相關數據質量維度(數據質量的可度量方面)評估其數據質量之前,確定關鍵數據并確定優先級是必須執行的第一步。試圖度量和管理所有數據的質量可能是一項艱巨的、在財務上不可行的工作,注定會失敗。因此,當您考慮評估和提高數據質量時,請記住著名物理學家阿爾伯特·愛因斯坦的名言:“不是所有可以計算的東西