- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2021-10-13來源:知乎瀏覽數:13135次
ETL是數據倉庫中的非常重要的一環,是承前啟后的必要的一步。ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
下面給大家介紹一下什么是ETL以及ETL常用的三種工具——Datastage,Informatica,Kettle。
ETL,Extract-Transform-Load 的縮寫,用來描述將數據從來源端經過抽?。╡xtract)、轉換(transform)、加載(load)至目的端的過程。

數據倉庫結構
通俗的說法就是從數據源抽取數據出來,進行清洗加工轉換,然后加載到定義好的數據倉庫模型中去。目的是將企業中的分散、零亂、標準不統一的數據整合到一起,為企業的決策提供分析依據。
ETL是BI項目重要的一個環節,其設計的好壞影響生成數據的質量,直接關系到BI項目的成敗。
在數據處理的時候,我們有時會遇到這些問題:
當數據來自不同的物理主機,這時候如使用SQL語句去處理的話,就顯得比較吃力且開銷也更大。
數據來源可以是各種不同的數據庫或者文件,這時候需要先把他們整理成統一的格式后才可以進行數據的處理,這一過程用代碼實現顯然有些麻煩。
在數據庫中我們當然可以使用存儲過程去處理數據,但是處理海量數據的時候存儲過程顯然比較吃力,而且會占用較多數據庫的資源,這可能會導致數據資源不足,進而影響數據庫的性能。
而上述遇到的問題,我們用ETL工具就可以解決。ETL工具具有以下幾點優勢:
1、支持多種異構數據源的連接。
2、圖形化的界面操作十分方便。
3、處理海量數據速度快、流程更清晰等。
IBM公司的商業軟件,最專業的ETL工具,但同時價格不菲,適合大規模的ETL應用。
使用難度:★★★★
商業軟件,相當專業的ETL工具。價格上比Datastage便宜一點,也適合大規模的ETL應用。
使用難度:★★
免費,最著名的開源產品,是用純java編寫的ETL工具,只需要JVM環境即可部署,可跨平臺,擴展性好。
使用難度:★★
Datastage、Informatica、Kettle三個ETL工具的特點和差異介紹:
這三種ETL工具都是屬于比較簡單易用的,主要看開發人員對于工具的熟練程度。
Informatica有四個開發管理組件,開發的時候我們需要打開其中三個進行開發,Informatica沒有ctrl+z的功能,如果對job作了改變之后,想要撤銷,返回到改變前是不可能的。相比Kettle跟Datastage在測試調試的時候不太方便。Datastage全部的操作在同一個界面中,不用切換界面,能夠看到數據的來源,整個job的情況,在找bug的時候會比Informatica方便。
Kettle介于兩者之間。
Kettle只需要JVM環境,Informatica需要服務器和客戶端安裝,而Datastage的部署比較耗費時間,有一點難度。
大數據量下Informatica與Datastage的處理速度是比較快的,比較穩定。Kettle的處理速度相比之下稍慢。
Informatica與Datastage有很好的商業化的技術支持,而Kettle則沒有。商業軟件的售后服務上會比免費的開源軟件好很多。
風險與成本成反比,也與技術能力成正比。
Kettle的擴展性無疑是最好,因為是開源代碼,可以自己開發拓展它的功能,而Informatica和Datastage由于是商業軟件,基本上沒有。
三者都有監控和日志工具。
在數據的監控上,個人覺得Datastage的實時監控做的更加好,可以直觀看到數據抽取的情況,運行到哪一個控件上。這對于調優來說,我們可以更快的定位到處理速度太慢的控件并進行處理,而informatica也有相應的功能,但是并不直觀,需要通過兩個界面的對比才可以定位到處理速度緩慢的控件。有時候還需要通過一些方法去查找。
Datastage < Informatica < kettle,相對來說,Datastage跟Informatica在遇到問題去網上找到解決方法的概率比較低,kettle則比較多。