那些關于
數(shù)據(jù)治理的不過時觀點
數(shù)據(jù)不是越多越好
不明白如何消費數(shù)據(jù)的
數(shù)據(jù)集市建設就是耍流氓
大數(shù)據(jù)是AI的基礎,在應用側,AI場景更多的是呈點狀分布
數(shù)據(jù)是有成本,數(shù)據(jù)是有成本的。存儲數(shù)據(jù)是需要成本的,數(shù)據(jù)的成本絕非只有物理存儲空間成本那么簡單,實際上它包括了下述五種成本要素:
物理存儲器:各種專用或通用的
數(shù)據(jù)存儲設備或者分布式存儲設備;
人員和軟件:為了有效地管理存儲而必須配備的人員與軟件所投入的資金和努力;
電力和空間:為確保存儲系統(tǒng)能正常運行所需要的電力和IDC機房空間的投入;
遍歷的時間:為了檢索數(shù)據(jù)而不得不遍歷存儲空間所耗費的時間;
災備的成本
為了保證數(shù)據(jù)安全而進行數(shù)據(jù)備份所需要的各類資源,數(shù)據(jù)的成本 = 物理存儲器 + 人員和軟件 + 電力和空間 + 遍歷的時間 + 災備的成本。
一、數(shù)據(jù)的成本價值困局
數(shù)據(jù)對企業(yè)的價值并非相同。在許多企業(yè)中,時間會減低我們可以從任何特定數(shù)據(jù)元素中所獲得的價值。例如,很多舊數(shù)據(jù)對建立交易模型用處不大。某個客戶與電子商務平臺交互的舊記錄可能有用,但其價值遠不如最新的數(shù)據(jù)。電話公司幾年前的詳細通話記錄沒有最新的通話記錄對用戶的價值大。三年前的銀行交易記錄不如最近幾個星期的有用。人們可能會偶爾看一下老照片和老視頻,但是經(jīng)常看的還是最近上傳的新照片和新視頻。雖然我們不能說所有的舊數(shù)據(jù)都沒有新
數(shù)據(jù)價值大,但在大多數(shù)的情況下,新數(shù)據(jù)更有價值是一個事實。

上面的表達方法叫RFM圖,R代表數(shù)據(jù)的產(chǎn)生時間(Recent), F代表數(shù)據(jù)的使用頻率,M代表以貨幣表達的數(shù)據(jù)價值(Monetary)。從上面的RFM圖可以看出,越是最近產(chǎn)生,越是經(jīng)常使用的數(shù)據(jù)其貨幣價值越高(右后上方的頂點)。相反,產(chǎn)生很久,而且不常使用的數(shù)據(jù)幾乎沒有什么貨幣價值。
如果數(shù)據(jù)的價值隨著時間的推移而降低,那么為什么我們還要保存那么多的數(shù)據(jù)呢? 我們把這個問題叫作數(shù)據(jù)的成本價值困局。大多數(shù)公司并沒有對數(shù)據(jù)價值隨時間的推移逐漸降低和維持高速增長的數(shù)據(jù)成本這些事實引起高度注重。
通常情況下,更新、更快存儲技術的出現(xiàn)使我們能夠以更低的初始成本來存儲相同數(shù)量的數(shù)據(jù),或者用相同的成本來存儲更多的數(shù)據(jù)。隨著單位存儲成本的下降,我們要保存更多數(shù)據(jù)的愿望也逐漸膨脹。在高速增長的公司,除了要考慮數(shù)據(jù)的價值很可能會隨著時間的推移而降低的事實之外,我們還要考慮雖然單位存儲成本下降,但保存數(shù)據(jù)的總成本極有可能增加的事實。如何對此做出合理的決策對大多數(shù)企業(yè)提出了獨特的新挑戰(zhàn)。
準確的價值則取決于最終所選擇的方案能夠帶來的利益。數(shù)據(jù)選項的價值有限度,為了給這個價值一個界限,我們應該開始回答下述五個問題:
我們過去經(jīng)常依靠數(shù)據(jù)做出有價值的決定嗎?
在那個決定中,我們使用多久以前的數(shù)據(jù)?
該數(shù)據(jù)最終創(chuàng)造的價值是多少?
維護這些舊數(shù)據(jù)的成本是多少?
平衡成本,最終的結果我們贏利嗎?
提出這些問題并不意味著要從系統(tǒng)中刪除所有的數(shù)據(jù)。如果沒有一些有意義的數(shù)據(jù),平臺可能無法運作。確切地說是要指出應該評估和質(zhì)疑保留數(shù)據(jù)的策略,以確保所有保存的數(shù)據(jù)都有價值。如果在過去你沒有依靠數(shù)據(jù)做出更好的決定,那么從明天開始使用所有數(shù)據(jù)的機會也不會太大。即使你開始使用數(shù)據(jù),也不太可能使用所有的數(shù)據(jù)。因此,應該確定:
哪些數(shù)據(jù)具有真正的價值?
哪些數(shù)據(jù)有價值但應該存儲在低成本的存儲系統(tǒng)?
哪些數(shù)據(jù)可以刪除?
然而,在大多數(shù)情況下,數(shù)據(jù)的價值會隨著時間的推移而降低,無限的數(shù)據(jù)不等同于無窮的價值。兩者會有一個平衡點,在該點之后,舊數(shù)據(jù)的價值開始明顯地衰減。因此需要了解數(shù)據(jù)的價值,把數(shù)據(jù)在某一年的價值與之前二年、五年的價值進行比較,以此類推,從而確定一個數(shù)據(jù)不再帶來贏利的時間點和額外數(shù)據(jù)的增加會對保留客戶、做出更好決策等等帶來的接近于零價值的時間點。
二、大數(shù)據(jù)時代下的數(shù)據(jù)治理壓力

上圖為某運營商從運維壓力、管理壓力、增值壓力等角度進行敘述,如果說的淺顯直白一點的話,數(shù)據(jù)治理最主要的動機來自2方面。
一方面是業(yè)務上的困擾
數(shù)據(jù)標準問題,如數(shù)據(jù)字段口徑不統(tǒng)一、數(shù)據(jù)研發(fā)煙囪式建設,導致重復建設或者數(shù)據(jù)不同源導致的分析結果不可信。

一方面是技術上的消耗
由于缺乏統(tǒng)一規(guī)劃和明確分工依賴,煙囪式野蠻生長,存儲和計算資源的大量消耗,而其業(yè)務價值無法評估收益。
以一貫之的目標驅動
圍繞某銀行數(shù)據(jù)平臺建設,提供針對數(shù)據(jù)生命周期的管控機制,體現(xiàn)為以下幾個出發(fā)點:
數(shù)據(jù)標準規(guī)范化–規(guī)范化管理構成數(shù)據(jù)平臺的業(yè)務和技術基礎設施,包括數(shù)據(jù)管控制度與流程規(guī)范文檔、信息項定義等。
數(shù)據(jù)關系脈絡化–實現(xiàn)對數(shù)據(jù)間流轉、依賴關系的影響和血緣分析。
數(shù)據(jù)質(zhì)量度量化—全方位管理數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量,實現(xiàn)可定義的數(shù)據(jù)質(zhì)量檢核和維度分析,以及問題跟蹤。
數(shù)據(jù)服務電子化–為數(shù)據(jù)平臺提供面向業(yè)務用戶的服務溝通渠道。
(部分內(nèi)容來源網(wǎng)絡,如有侵權請聯(lián)系刪除)