日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

我們需要什么樣的ETL?

時間:2023-03-30來源:小灬帆瀏覽數:306

從10年前的數據倉庫到當前的大數據平臺,ETL也需要與時俱進,這里來談談個人的理解,如果你在考慮建設新的企業級ETL平臺,可以作為參考:

一、定位的重新認識

ETL作為傳統數據倉庫的底層技術組件,主要是服務于數據采集的,因此,一般數據流動往往是單向的,但在新的時期,我們需要拓展其概念的內涵,從ETL升級到交換,以適應更多的應用場景,這是大數據平臺規劃人員特別需要考慮的。

但我們看到,在很多企業PaaS平臺級的研發中,并未將交換其納入產品的核心功能,為什么?

ETL出來之時,的確適應了數據倉庫建設的需要,畢竟系統建設之初,數據采集和整合為王, 技術驅動業務,沒什么好說的。

但在大數據時代,需要與時俱進,基于筆者的實踐,感覺開放的交換平臺將是未來標配,原因有以下幾個:

從業務角度講, 隨著數據應用的日益豐富,不同平臺、系統的相互大批量數據交互成常態,僅僅滿足于采集數據已經不適應業務需要,還需要能夠為數據的目的端落地提供支撐,我們需要一個端到端的更適應業務需要的交換系統,而不是只管自己一畝三分地的ETL系統, 比如浙江移動的日常的數據交換應用早就超過了簡單的數據采集需求,業務始終為王。

從技術角度講,ETL做一定的擴展可以升級為兼具交換能力,兩者有傳承,可以實現平滑過渡,不是有誰沒誰的問題,我們好不容易搞了PaaS級的ETL,但交換卻要考慮用另一個工具實現,同時未來大數據平臺組件將異常豐富,相互之間的數據交換將是常態,必須要有個PaaS級的交換工具滿足這種要求,這是個趨勢性的東西。

從管理角度講,無論是ETL,還是系統或應用間的數據交換,管理的對象都是接口,描述的方式沒有本質的區別,我們需要用一種工具實現所有接口的透明化統一管理,顯然升級ETL是最好的方案,很多企業采集由于ETL工具存在管的還算可以,但交互的接口管理一塌糊涂,比如繁多的FTP搞暈了運維人員,付出的管理成本很大。

二、交換平臺的一種架構

以下是勾畫的一種數據交換平臺的功能架構,供參考。

交換平臺除了傳統ETL功能, 分布式動態可擴展是必須的,現在云化交換平臺產品已經很多了,應該各有千秋吧,特別強調以下幾點,:

必須具備多樣化數據采集能力,支持對表、文件、消息等多種數據的實時增量數據采集(使用flume、消息隊列、OGG等技術)和批量數據分布式采集等能力(SQOOP、FTP VOER HDFS),比基于傳統ETL性能有量級上的提升。

必須支持對于業界主流數據庫的相互對接能力,包括ORACLE/HIVE/GBASE/IMPALA/ASTER/HBASE等等,要實現這些功能,涉及到互信等眾多問題,但對于業務的價值巨大。

必須具備多租戶的管理,因為傳統ETL可能跟應用無關,統一運維團隊配置即可,但交換跟應用強相關,必須要能夠授權自主配置,這個時候,多租戶管理就變得非常重要。

必須具備能力開放能力,能夠對外輸出元數據,這個其實是未來對于任何企業級平臺的剛性要求,做平臺的企業別老想著封閉,包打天下, 比如浙江移動有個統一的數據管理平臺,不能由于交換平臺的封閉,讓數據管理平臺廢了半條腿,這是企業未來引入技術組件必須考慮的因素。

必須具備可視化快速配置能力,能夠提供圖形化的開發和維護界面,支持圖形化拖拽式開發,免代碼編寫,降低開發難度,每配置一個數據接口耗時越小越好,比如以前我們采用的老ETL平臺一個接口平均配置3小時,這是無法忍受的。

必須具備統一調度管控能力,實現采集任務的統一調度,可支持Hadoop的多種技術組件(如 MapReduce、Spark 、HIVE)、關系型數據庫存儲過程、 shell腳本等,支持多種調度策略(時間/接口通知/手工)。

三、交換平臺的現實挑戰

除了BAT,業內真正能打造這類PaaS級的ETL平臺屈指可數,因為要實現此類交換平臺綜合要求其實非常高,除了技術因素,挑戰更多來自于需求理解、開放性及持續服務能力,這是我們在實踐中碰到的痛點:

客戶需求的理解往往是硬傷,很多公司技術的確很強,但由于產品是賣給別人的,自己也不會用,其很難達到BAT產品的境界,未來是BAT的,不是說BAT技術有多強,而在于其產品從實踐中走出來,在客戶需求理解能力上是大多數公司難以項背的,客戶大多數時候并不需要你的技術有多牛逼,快速解決問題就行,但此類產品經常陷入拼性能,列功能,強升級的場景,而忽視本質的東西。

開放性也是很多公司的軟肋,隨便拿個可視化界面來講吧, 大多數場景其實需要極簡的界面,我們經常哀求能否開放個API出來啊,其他平臺無縫集成下行不,但往往無法滿足,說不符合產品路線,如果下回有個ETL公司來跟你推銷產品,你首先得問一句,能開放元數據接口不?能開放API不?

服務型公司才是未來,一個產品打天下的時代即將過去,未來是服務的時代,甭跟我提一堆概念,誰都無法預測未來,我更關注當下,既然我找你,你就要做好持續服務的準備,一個合理的優化短則一月,多則1-2年,沒有哪個客戶有耐心。

ETL作為企業搞大數據核心的技術平臺,在建設或選擇的時候,要考慮的東西其實非常多,大多傳統企業在這方面的掌控能力是非常欠缺的,很容易陷入建設的怪圈而效益卻很難顯現,以為搞了云化就OK了,其實僅僅解決了ETL中很小的一個問題,不被忽悠并理解自己真正想要什么其實很難。

我上面列的那張功能架構圖,任何一個點的需求即使要進行確認,投入的精力也是蠻大的, 不全面考慮,死磕到底,最后吃虧的終將是企業自己, 一個小功能的缺失就可能導致ETL的效率的大幅降低,甚至可能推倒重來,留給運維團隊的也將是無盡的痛苦。

當然如果企業的數據量不大,那怎么搗鼓都行,其實大多數企業當前并不需要重型的ETL大炮,但對于每個BI人,從大數據的角度講,理解它又是有必要的。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢