現在關于數據中臺的解釋很多了,當然各有道理,但如果我問你數據中臺與
數據倉庫、數據平臺、數據湖等有什么本質區別,你不一定說得清楚。比如我們引入的某大廠的ETL工具BDI,你認為其是數據中臺一部分嗎?我可以明確的告訴你,它剛出來的時候根本不能算是中臺的東西,它只是一個偏系統級的應用。
為什么?今天就再來深入的談一談數據中臺的本質,本篇文章有5000個字,一定要看完。在之前,筆者先給大家看一封很久很久以前一位同事的離職信,上面是這么說的:“非常感謝周五下午您的那次促膝長談和寫給我的兩封信(一定花了您不少時間!)。這兩天認真考慮了您給我的建議,并與身邊好友以及XX的同學交流了看法,特別是征求了家人的建議,最終我還是決定離開。主要基于如下考慮:工作對于我來說,最大的成就感就在于能發揮自己的專長并因此創造價值,影響決策者,在這點上,XX企業的目前的職位更為明晰一點。在傳統行業,還是以業務部門為絕對主導,他們有大量和決策層接觸的機會,例如......分析報告,無論是主動還是被動,他們都得到了大量的鍛煉機會,并可以自由在報告中表達自己的觀點、想法,影響決策者......”這封信反映了一名數據技術從業者的困惑。筆者再介紹自己以前寫的一篇文章,名字叫《思考|談談數據管理的原則》:“一直以來,企業的
BI數據管理跟IT是緊捆綁的,但跟公司的戰略、業務脫節非常厲害,很多企業幾乎沒有想過企業獲取利潤跟數據管理有多少直接的關系,反正是大概有關系吧。企業有投資,有費用,反正屬于IT要干的事就去干吧,大家都在做,我們當然也要做,在我剛開始做
元數據管理的時候,就是這個感覺,從沒想到這個東西跟企業的利潤有半毛錢關系。”“做了怎么樣?不做了又怎么樣?我們甚至連自己都騙不過。直到開始做大數據,當商務、開發必須緊密銜接的時候,當發現某個數據問題已經導致變現困難的時候,才感覺到數據管理的真正價值,才知道自己的數據管理工作該干什么。”
這是我以前的困惑。自己不止一次的提到過:IT是業務的后端,而數據是后端的后端,數據要往前走面臨著巨大挑戰。DT時代給了我們一次機會,但有了勢,沒有方法和舉措,你也抓不住,還好,我們有數據中臺為自己正名。但十多年前數據倉庫如火如荼興起的時候,為什么它就不能稱為數據中臺?為什么數據倉庫就不能更好的創造價值?筆者認為數據中臺起碼有三個特征,是傳統的數據平臺很難兼顧的:
業務化、服務化及開放化。
業務是根本,服務是手段,開放是價值,而數據中臺把三個都占全了。一、業務化
數據倉庫是數據中臺嗎?不是,因為數據倉庫只是實現了數據的平臺化,那么,平臺化又是什么意思呢?舉個例子,我們拿一個飲料廠的產品線來講,他可以生產果汁,還可以生產其他的產品,從原材料加工成飲料,它有很多環節,雖然品種不一樣,但是它很多環節是類似的,比如裝瓶、攪拌。那么這幾個不同的生產流程、生產線,我們可以把那些公共的部分合并起來,更加專業化,然后并且讓他們獨立去維護,之后把那些不同的產品面向客戶,使客戶體驗不同的產品,使它獨立出來,這就是平臺化的思路。所以,平臺化的思路很重要的就是把那些有共性的資源,有共性的能力合并在一起,然后把那些面向客戶的價值獨立出來,這樣的話,專業的人做專業的事情,并且對于企業的績效也非常的有利,不揉在一塊了,更加的清晰,這就是平臺化的思路。數據倉庫也有一樣,各方的數據資源通過E匯聚在一起,然后通過T統一做轉化,再通過L統一入庫再通過DW分層處理建模,最終實現數據的共享,整個過程就是柔性數據處理"流水線",從而滿足不斷豐富、變化的
數據分析、挖掘類需求,有時我們也把數據倉庫叫做數據倉庫平臺。但數據倉庫也好,傳統的數據平臺也好,其出發點應該說更是一個支撐性的技術系統,即一定要去考慮我有什么數據,然后我才能干什么,因此特別強調
數據質量和元數據管理,而數據中臺的第一出發點可不是數據,而是業務,一開始不用看你系統里面有什么數據,而是去解決你的業務問題需要什么樣的數據服務?至于說這些數據服務所依賴的數據有沒有,那是我們的實現方式,只要這個服務有價值,那我們就要去想辦法去拿到數據,如果沒有能力我們去建這個技術能力,去完成數據服務的提供。
(注:以上黑體字觀點參考 史凱 BangTalk︱第1期《火熱的數據中臺對企業的價值是什么?相關論述》)筆者以下的實踐完美的詮釋了以上觀點。一般來講
數據采集在一個企業是由統一的采集運維團隊負責的,但你會發現一些數據的采集和解析方式直接決定了業務的價值,而這對于一般的采集運維團隊來說是非常困難的。比如對于位置數據,筆者就要求打破層級式的數據管理方式,讓位置洞察團隊直接端到端的完成從業務到數據采集的全過程,位置洞察團隊實際承擔著位置產品研發、行業模型研發、位置精度算法、位置數據解析和采集等多種職能,因為只有他們才能理解清楚如何根據業務要求來采集全自己所需的數據,從而讓上層應用達到業務的要求。
你看,這就叫業務化,用業務驅動數據的建設,這是數據中臺希望達到的目標。我們也可以反思,為什么以前大而全的
數據治理項目會經常失敗?因為它源于數據,終于數據,它竟然是自我循環的。為什么公司會限制大數據的投資?因為看不到明顯的業務產出,因為沒有人為你的數據平臺建設背書。數據中臺區別于傳統數據平臺的在于數據中臺的思維是業務化的思維,它從業務問題出發。這也能解釋為什么業務部門對數據中臺是比較歡迎的,哪怕我的數據只有50%的準確性,只要能產生價值,何必糾結于50%?最近筆者團隊上線了實時數據中臺,快速的構建起了校園營銷實時應用,雖然業務部門不知道實時數據中臺是什么,但一定會為校園實時營銷背書,這是有說服力的。很多數據平臺饒了十八個彎才跟業務掛上點關系,就是建設伊始就跟業務離得太遠了,誰又能理解你建的這個東西對于業務能產生什么直接的價值。不管黑貓還是白貓,抓到老鼠的就是好貓,看來是顛撲不磨的真理。二、服務化
大家在提數據中臺的時候,服務化應是提得最多的,因為服務化自帶共享,可編排等中臺核心的特征。很多時候我們會發現不同的應用開發項目組,他們都會調用同樣的數據模型,同樣的數據服務,但是由于不了解數據,并且他們也不知道底層的數據結構,所以不同的項目組可能對同樣的數據會用不同的處理方法,自己做自己的,然后出來的結果不一樣。有的是錯誤的,所以開發速度慢,并且數據結果不準確,質量低,這就是過去應用開發和數據開發所面臨的矛盾。但是現在數據中臺就要解決這個問題,數據中臺要把那些能復用的數據模型,變成一個數據的能力平臺,讓那些做數據的人專注在做數據,把數據變成一個樂高積木,數據服務提供給應用開發,然后不同的應用開發項目組可以共同的去調用唯一的數據服務,從而保證數據質量和一致性,加速從數據到價值的轉換過程。筆者的企業建設了一個客戶經營中心,也就是標簽庫,沉淀了百萬級的標簽,對內對外提供統一的洞察服務,對內服務于營業廳、社會渠道、手廳等渠道的個性化推薦,對外服務于智慧精選、驗真、洞察、客流等變現產品,每天的調用量超過千萬。你看,通過數據服務我們把對內、對外、各類產品的畫像服務全部標準化和統一化了,從而可以最大化數據的價值,但如果沒有標簽庫前期沉淀的這些數據服務,讓每個項目或產品團隊自建基本是不可能的。
關于服務化的形式,有些人認為只有封裝成API才算是,我覺得不是,因為數據跟功能不同,其分析的靈活性和數據維度的無限性決定了你不可能封裝出所有的數據服務,因此這里的服務應該是廣義的服務,只要我提供的數據能夠被共享使用,在前端被業務人員或者其他機器快速方便的使用或調用,這就是數據的服務化。正如我在《數據中臺到底是什么》一問中所闡述的一樣,廣義的數據服務有三種服務的方式:1、數據模型數據模型是廣義數據服務的基礎,按照數據倉庫的模型分層概念,
第一種是基礎模型,主要實現數據的標準化,我們叫作“書同文、車同軌”,
第二種是融合模型,主要實現跨越數據的整合,整合的形式可以是匯總、關聯,也包括解析,
第三種是挖掘模型,雖然是偏應用的,但模型具有共性的話就需要把它歸屬到中臺模型,以便開放給其它人使用,中臺模型的中是相對的,沒有絕對的標準。2、數據服務將數據模型按照應用要求做了服務封裝,比如API,所謂的狹義的數據服務,其更多強調的是機器與機器的接口,就是我的數據分析或挖掘出來的結果,不僅僅以報表可視化的形式讓人看,而更多的是把這些API數據服務直接地嵌入到生產系統里面產生影響,變成你的價格策略,推薦引擎或者風險管控。為什么我前面說初期版本的BDI采集工具不是一個數據中臺的東西,因為它只提供僵死的界面,不提供API等任何接口,它是一個純粹的應用。數據封裝比一般的功能封裝要難一點,畢竟OLTP功能的變化有限,而數據分析受市場因素的影響很大,變化更快,導致服務封裝的難度很大。隨著企業大數據運營的深入,各類大
數據應用層出不窮,對于數據服務的需求非常迫切,大數據如果不服務化,就很難規模化。3、數據開發但有數據模型和數據服務還是遠遠不夠的,因為再好的現成數據和服務也往往無法滿足前端個性化的要求,這時候就得授人以魚不如授人以漁了,廣義的數據服務的最后一種服務形式就是數據開發和探索,其按照開發難度也分為三個層次:最簡單的是提供標簽庫(DMP),用戶可以基于標簽的組裝快速形成客戶群,一般面向業務人員。其次是提供數據開發平臺,用戶可以基于該平臺訪問到所有的數據并進行可視化開發,一般面向SQL開發人員。最后就是提供應用環境和組件,讓技術人員可以自主打造個性化數據產品,以上層層遞進,滿足不同層次人員的要求。
但你也需要知道,光有服務化不能成就數據中臺,它只是數據中臺的必要條件而已,而業務化是前提。有人會說那么你的數據倉庫基礎模型就不能算是數據中臺的東西,它可不是業務化的產物?還真不一定,誰說數據服務就一定要從模型的上層走?比如驗真的簡單查詢服務其數據來源就是基礎模型提供的東西,數據倉庫的數據所處層次跟其能給業務帶來的價值并沒有絕對的相關性。三、開放化
那么有了業務化、服務化特征的數據平臺總是數據中臺了吧?概念上講是,但追求形式沒意義,關鍵還要看數據中臺的開放能力,這個決定了它能創造的最終價值。1、開放意味著知道數據中臺要發揮出價值,光有能力不夠,你必須通過各種手段告知別人你有這種能力,2016年我們就完成了大數據平臺的建設,該采集的數據也采了,該提供的服務也提供了,但當時最大的挑戰是如何讓人家知道你有哪些數據,數據怎么訪問,有什么價值,直到現在這個問題還存在,即使已經實施了多年。對外變現更加是了,浙江移動打造了神燈大數據品牌,開通了微信公眾號,在各種展會上展示我們的產品和能力,就是為了讓社會知道我們是開放的,希望大家合作共贏。2、開放意味著好用數據中臺由于直接為前端服務,對于體驗的要求特別高,比如你讓人家查詢到了某個標簽,但由于這個標簽解釋性差就放棄了,最近我們啟動的標簽治理工作就是要解決好這類問題,數據做到最后都是細微之處見真功夫。我們提供了不少開放平臺,比如數據開發平臺、敏捷挖掘平臺等等,但以前就是不好用啊,你的數據操作體驗不如PL/DEV,人家就不會用,你不支持存儲過程,人家也不會用,敏捷挖掘的性能不夠,人家也會抱怨,數據開放平臺的成長史就是一部項目經理、產品經理的血淚史。3、開放意味著迭代你敢于開放數據中臺,就意味著要以謙卑的心態去接受批評并不斷迭代提升,它不僅僅是說我產生完數據或產品就完事了,而是所有數據或產品的都要持續的去運營,運營的目的就是去看我提供的數據或產品服務是有誰在用,用的情況如何,產生了多少收入,從而給出提升的方法,如此循環,你的數據中臺的價值才會越來越大。迭代還意味著很多數據中臺需要結合企業實際進行定制化,因為你沒有現成的產品可買,諸如數據管理等大量功能都需要定制化,數據中臺定制化的比例估計超過7成,意味著你很少能找到其他行業的最佳實踐為你所用。
筆者所以提業務化、服務化、開放化是數據中臺的特征,目的還是希望能澄清概念,提供一個較為中肯的衡量數據中臺的方法,不是任何一個數據平臺或組件都可以稱之為數據中臺的,在數據中臺未達到預期前,先想想有哪些要素我是沒做到的。
(部分內容來源網絡,如有侵權請聯系刪除)