ETL是{Extract-抽??;Transformation-轉換;Load-載入}的縮寫,把原始數據從各種數據源中抽取出來,然后經過各種轉換,載入到
數據倉庫或是數據中心或是可以分析、交互的平臺當中。
ETL是一個橋梁,是多個數據庫中的數據,并到數據中心的必經之路:

ETL是一個處理器,是各種各樣的粗糙數據,變成可供分析的高質量數據的必經過程:

ETL是將業務系統的數據經過抽取、清洗轉換之后加載到數據倉庫的過程,目的是將企業中的分散、零亂、標準不統一的數據整合到一起,為企業的決策提供分析依據。 ETL是
BI項目重要的一個環節。 通常情況下,在BI項目中ETL會花掉整個項目的1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。
ETL的設計分三部分:數據抽取、數據的清洗轉換、數據的加載。在設計ETL的時候我們也是從這三部分出發。數據的抽取是從各個不同的數據源抽取到ODS(Operational Data Store,操作型
數據存儲)中——這個過程也可以做一些數據的清洗和轉換),在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運行效率。ETL三個部分中,花費時間最長的是“T”(Transform,清洗、轉換)的部分,一般情況下這部分工作量是整個ETL的2/3。數據的加載一般在
數據清洗完了之后直接寫入DW(Data Warehousing,數據倉庫)中去。
ETL的實現有多種方法,常用的有三種。一種是借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的SSIS服務、Informatic等)實現,一種是SQL方式實現,另外一種是ETL工具和SQL相結合。前兩種方法各有各的優缺點,借助工具可以快速的建立起ETL工程,屏蔽了復雜的編碼任務,提高了速度,降低了難度,但是缺少靈活性。SQL的方法優點是靈活,提高ETL運行效率,但是編碼復雜,對技術要求比較高。第三種是綜合了前面二種的優點,會極大地提高ETL的開發速度和效率。
(部分內容來源網絡,如有侵權請聯系刪除)