- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-03-15來源:終究會落幕瀏覽數:189次
在一個數字化轉型的分享會上,下面的這張圖給我很深刻的印象。過去,治國必治水;現在治企必治數。
那么,都江堰治理的三字經,八字真言在數據治理過程中是否同樣有效?我們一起來解讀分析!

1、深淘灘
都江堰的深淘灘是指的對應飛沙堰的鳳棲窩那一段河道每年歲修需要淘到臥鐵的高度,準確的說就是2.15米,這個深是標準的深,不宜過淺,也不宜過深。
對治數有什么啟示?深淘灘,意味著打好基礎功,尤其是數據盤點和數據調研的基礎功夫。歲修淘灘的功夫決定次年灌溉、防洪的效果,數據盤點和數據調研也直接決定數據治理的成敗。
在數據治理的實踐中,甚至數據盤點和數據調研花的功夫比數據開發本身的功夫都要多,成本要高。尤其是首次啟動數據治理項目的公司,很容易發現無論是歷史的業務數據庫還是陳年的數倉都是一團亂麻,這個時候就需要下決心去梳理業務流,然后基于業務流,配合對歷史數據庫的解析,分析出數據流。而這些下面的功夫,直接決定數倉搭建的質量,甚至決定指標開發的成敗。
基于業務流梳理數據流,明確數據實體,定義數據標準,確定數據權屬,制定管理制度和流程。這個基本方法論大家可能都明白,但實際執行太難了,從上而上的梳理說著容易,如果缺乏高層領導的支持,這種梳理只會流于形式,解決不了實際問題。所以,我特別對“下決心”這個詞深有感觸,十分同意!!——石秀峰
2、低做堰
低做堰是指飛沙堰修筑的高度也剛剛好2.15米,既能排洪,又能排沙。
低做堰對數據治理的啟示,是要通過各種方式降低數據治理的難度,尤其是低代碼的方式來降低數據開發的難度,以及通過數據平臺產品的持續優化來大幅提升數據治理的優勢,比如實時數倉減少無謂的調度。
用低代碼來降低數據開發的難度,這是一個很好的實踐。低代碼的價值不僅限于數據分析、數據開發,還能打通線下收集數據的通道,實現基于業務流和業務表單的數據采集,這雖然本質上是解決“業務數據化”的問題,但這恰恰是很多傳統企業最需要的!
——石秀峰詳情:數據中臺遇見低代碼平臺,會擦出怎樣的火花?
3、遇彎截角遇彎截角是指在凸出的地方要把銳角去掉,避免沖刷河岸。
這個對治數最大的啟示,是通過制度、標準、流程來對數據治理形成保護,減少掣肘。我們知道數據治理的有三個域:軟件域、制度域和實施域,其中軟件域和實施域往往乙方可以代為效勞,但制度域是甲方一定要自己深入打好基礎的,否則就會沖擊實施。所以有數據治理的專家說,如果甲方的業務不配合,數據治理就很容易有風險,就如凸出的銳角,極容易沖刷河岸一樣。
事實上,除了這三個域還有一個重要的域:運營域。沒有建立持續化的數據治理和運營機制,所有的努力只不過就是一場運動罷了。
——石秀峰4、逢正抽芯
是指要把主河道中心深挖,靜水流深仍然是要減少到河岸的沖擊,減少洪災,過去修筑堤壩很貴啊。
這個對數據治理的啟示就是,在條件運行的情況下,一定要做好數倉層級的搭建,不好的數據倉庫都是很“淺”的,可能ODS直接就到指標層了,所以河水很容易漫出堤壩,成了洪水。我們很多項目因為不愿意深挖,發現最后的ads層很不牢靠,極容易出錯,是因為項目之初就根本不像建設DW層,這是數倉的深度,猶如河道的深度,所以后期改造成本就如行洪成本。
夯實數倉層,避免數據開發的返工和數據分析的性能瓶頸,是基于數倉數據治理的一個重要的實踐。
5、魚嘴
利用地形和彎道水流動力學的規律,巧妙的實現冬季60%的水流入成都平原,保證1000萬畝良田的灌溉,才使得大家有吃飽了沒事干的幸福;而夏季又確保60%超出用途的水通過外江流入長江歸入大海。同時也確保80%的砂石排入外江。
數據治理的魚嘴就是ODS層,就能保證有用的數據全部進入數據內江——ODS層,又要保證多余的泥沙都排出外江,也就是不要進入ODS層,而這個也是需要調研的,我們知道李冰選擇魚嘴這個位置是很精心挑選的,那么什么進ODS,什么不進ODS一樣異常關鍵。
6、飛沙堰
飛沙堰是二次行洪排沙之所在,將剩余20%排入內江的砂石通過彎道動力學再次甩出15%。發生超出規模的洪水的時候二次排洪。
飛沙堰是DW層,是ODS流入的內江部分,需要進一步加工清洗,把泥沙(臟數據)進一步排除。
這就是我常說數據治理在哪治的問題,小數據(基礎數據)一般是要在源頭治理,而大數據(業務數據)一般是在數倉(中臺)治理。
——石秀峰7、寶瓶口
配合飛沙堰,嚴格控制進入內江的水量,從而實現第三次排洪的功能。
寶瓶口是APS層,這一層的都是可用的了,通過寶瓶口的水又通過不同的閘道形成星羅密布的灌溉體系,在數據治理體系里面就是APS的數據通過個性化的API,恰到好處的提供數據服務給下游應用或者BI。
8、科技與狠活
形容都江堰最多的是巧妙,利用地形環境和動力學,基本沒有現代工程學的痕跡,然而能抗住5.12大地震,基本做到了永續利用(可持續利用),要知道那些新修的科技狠活人工大壩是沒有扛過汶川大地震的。
這個對數據治理的啟示是,未來可能會有層出不斷的科技,比如最近流行的大模型和chatGPT,讓大家誤以為數據治理不重要了,只需要灌入足夠多的數據就夠了,管他有沒有質量。但這意味著灌入足夠多的假數據,照樣結果會被污染。而扎實做過治理的高治理的數據完全不影響更高的科技,而是一定能賦能更高的科技,比如現在都江堰已經有很多現代工程的痕跡了,但主體仍然是2000年前的非科技狠活,才能這么多年一直能扛過來。
近日,TIME 發布了一篇獨家報道,發現 ChatGPT 在構建內容過濾器時所使用的標注數據由肯尼亞工人完成,且每小時收入不足 2 美元。chatGPT背后需要大量的人工做數據標注,這本質上就是一種數據治理行為。因此,AI和數據治理是螺旋向前發展的。
——石秀峰