etl工具是什麼_常用的etl工具有哪些

A. ETL是什麼,形象的介紹一下

對於做過 BI 開發的朋友，ETL 並不陌生，只要涉及到數據源的數據抽取、數據的計算和處理過程的開發，都是 ETL，ETL 就這三個階段，Extraction 抽取，Transformation 轉換，Loading 載入。

從不同數據源抽取數據 EXTRACTION ，按照一定的數據處理規則對數據進行加工和格式轉換 TRASFORMATION，最後處理完成的輸出到目標數據表中也有可能是文件等等，這個就是 LOADING。

再通俗一點講，ETL 的過程就跟大家日常做菜一樣，需要到菜市場的各個攤位買好菜，把菜買回來要摘一下，洗一洗，切一切最後下鍋把菜炒好端到飯桌上。菜市場的各個攤位就是數據源，做好的菜就是最終的輸出結果，中間的所有過程像摘菜、洗菜、切菜、做菜就是轉換。

在開發的時候，大部分時候會通過 ETL 工具去實現，比如常用的像 KETTLE、PENTAHO、IBM DATASTAGE、INFORNAICA、微軟 SQL SERVER 裡面的 SSIS 等等，在結合基本的 SQL 來實現整個 ETL 過程。

也有的是自己通過程序開發，然後控制一些數據處理腳本跑批，基本上就是程序加 SQL 實現。

哪種方式更好，也是需要看使用場景和開發人員對那種方式使用的更加得心應手。我看大部分軟體程序開發人員出身的，碰到數據類項目會比較喜歡用程序控制跑批，這是程序思維的自然延續。純 BI 開發人員大部分自然就選擇成熟的 ETL 工具來開發，當然也有一上來就寫程序腳本的，這類 BI 開發人員的師傅基本上是程序人員轉過來的。

用程序的好處就是適配性強，可擴展性強，可以集成或拆解到到任何的程序處理過程中，有的時候使用程序開發效率更高。難就難在對維護人員有一定的技術要求，經驗轉移和可復制性不夠。

用 ETL 工具的好處，第一是整個 ETL 的開發過程可視化了，特別是在數據處理流程的分層設計中可以很清晰的管理。第二是鏈接到不同數據源的時候，各種數據源、資料庫的鏈接協議已經內置了，直接配置就可以，不需要再去寫程序去實現。第三是各種轉換控制項基本上拖拉拽就可以使用，起到簡化的代替一部分 SQL 的開發，不需要寫代碼去實現。第四是可以非常靈活的設計各種 ETL 調度規則，高度配置化，這個也不需要寫代碼實現。

所以在大多數通用的項目中，在項目上使用 ETL 標准組件開發會比較多一些。

ETL 從邏輯上一般可以分為兩層，控制流和數據流，這也是很多 ETL 工具設計的理念，不同的 ETL 工具可能叫法不同。

控制流就是控制每一個數據流與數據流處理的先後流程，一個控制流可以包含多個數據流。比如在數據倉庫開發過程中，第一層的處理是ODS層或者Staging 層的開發，第二層是 DIMENSION維度層的開發，後面幾層就是DW 事實層、DM數據集市層的開發。通過ETL的調度管理就可以讓這幾層串聯起來形成一個完整的數據處理流程。

數據流就是具體的從源數據到目標數據表的數據轉換過程，所以也有 ETL 工具把數據流叫做轉換。在數據流的開發設計過程中主要就是三個環節，目標數據表的鏈接，這兩個直接通過 ETL 控制項配置就可以了。中間轉換的環節，這個時候就可能有很多的選擇了，調 SQL 語句、存儲過程，或者還是使用 ETL 控制項來實現。

有的項目上習慣使用 ETL 控制項來實現數據流中的轉換，也有的項目要求不使用標準的轉換組件使用存儲過程來調用。也有的是因為數據倉庫本身這個資料庫不支持存儲過程就只能通過標準的SQL來實現。

我們通常講的BI數據架構師其實指的就是ETL的架構設計，這是整個BI項目中非常核心的一層技術實現，數據處理、數據清洗和建模都是在ETL中去實現。一個好的ETL架構設計可以同時支撐上百個包就是控制流，每一個控制流下可能又有上百個數據流的處理過程。之前寫過一篇技術文章，大家可以搜索下關鍵字 BIWORK ETL 應該在網上還能找到到這篇文章。這種框架設計不僅僅是ETL框架架構上的設計，還有很深的ETL項目管理和規范性控制器思想，包括後期的運維，基於BI的BI分析，ETL的性能調優都會在這些框架中得到體現。因為大的BI項目可能同時需要幾十人來開發ETL，框架的頂層設計就很重要。

B. ETL什麼意思

ETL，Extraction-Transformation-Loading的縮寫，中文名稱為數據抽取、轉換和載入。
一般隨著業務的發展擴張，產線也越來越多，產生的數據也越來越多，這些數據的收集方式、原始數據格式、數據量、存儲要求、使用場景等方面有很大的差異。

數據抽取是指把ODS源數據抽取到DW中，數據拉取，清洗完之後，就需要展示了。一般是把清洗好的數據載入到mysql中，然後在各系統中使用，或者使用Tableau直接給相關人員展示。元數據管理系統對於數據倉庫來說是必須的，並且相關人員必須定時維護，如果元數據和數據倉庫中的變動不同步，那麼元數據系統就形同虛設。

(2)etl工具是什麼擴展閱讀

ETL所描述的過程，一般常見的作法包含ETL或是ELT，並且混合使用。通常愈大量的數據、復雜的轉換邏輯、目的端為較強運算能力的資料庫，愈偏向使用ELT，以便運用目的端資料庫的平行處理能力。目的是將企業中的分散、零亂、標准不統一的數據整合到一起，為企業的決策提供分析依據，是商業智能項目重要的一個環節。

C. 大數據etl工具有哪些

ETL是數據倉庫中的非常重要的一環，是承前啟後的必要的一步。ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。

下面給大家介紹一下什麼是ETL以及ETL常用的三種工具——Datastage，Informatica，Kettle。

一、什麼是ETL？
ETL，Extract-Transform-Load 的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、載入（load）至目的端的過程。

數據倉庫結構
通俗的說法就是從數據源抽取數據出來，進行清洗加工轉換，然後載入到定義好的數據倉庫模型中去。目的是將企業中的分散、零亂、標准不統一的數據整合到一起，為企業的決策提供分析依據。

ETL是BI項目重要的一個環節，其設計的好壞影響生成數據的質量，直接關繫到BI項目的成敗。

二、為什麼要用ETL工具？
在數據處理的時候，我們有時會遇到這些問題：

▶ 當數據來自不同的物理主機，這時候如使用SQL語句去處理的話，就顯得比較吃力且開銷也更大。

▶ 數據來源可以是各種不同的資料庫或者文件，這時候需要先把他們整理成統一的格式後才可以進行數據的處理，這一過程用代碼實現顯然有些麻煩。

▶ 在資料庫中我們當然可以使用存儲過程去處理數據，但是處理海量數據的時候存儲過程顯然比較吃力，而且會佔用較多資料庫的資源，這可能會導致數據資源不足，進而影響資料庫的性能。

而上述遇到的問題，我們用ETL工具就可以解決。ETL工具具有以下幾點優勢：

1、支持多種異構數據源的連接。（部分）

2、圖形化的界面操作十分方便。

3、處理海量數據速度快、流程更清晰等。

三、ETL工具介紹
1、Datastage

IBM公司的商業軟體，最專業的ETL工具，但同時價格不菲，適合大規模的ETL應用。

使用難度：★★★★

2、Informatica

商業軟體，相當專業的ETL工具。價格上比Datastage便宜一點，也適合大規模的ETL應用。

使用難度：★★

3、Kettle

免費，最著名的開源產品，是用純java編寫的ETL工具，只需要JVM環境即可部署，可跨平台，擴展性好。

使用難度：★★

四、三種ETL工具的對比
Datastage、Informatica、Kettle三個ETL工具的特點和差異介紹：

1、操作

這三種ETL工具都是屬於比較簡單易用的，主要看開發人員對於工具的熟練程度。

Informatica有四個開發管理組件，開發的時候我們需要打開其中三個進行開發，Informatica沒有ctrl+z的功能，如果對job作了改變之後，想要撤銷，返回到改變前是不可能的。相比Kettle跟Datastage在測試調試的時候不太方便。Datastage全部的操作在同一個界面中，不用切換界面，能夠看到數據的來源，整個job的情況，在找bug的時候會比Informatica方便。

Kettle介於兩者之間。

2、部署

Kettle只需要JVM環境，Informatica需要伺服器和客戶端安裝，而Datastage的部署比較耗費時間，有一點難度。

3、數據處理的速度

大數據量下Informatica與Datastage的處理速度是比較快的，比較穩定。Kettle的處理速度相比之下稍慢。

4、服務

Informatica與Datastage有很好的商業化的技術支持，而Kettle則沒有。商業軟體的售後服務上會比免費的開源軟體好很多。

5、風險

風險與成本成反比，也與技術能力成正比。

6、擴展

Kettle的擴展性無疑是最好，因為是開源代碼，可以自己開發拓展它的功能，而Informatica和Datastage由於是商業軟體，基本上沒有。

7、Job的監控

三者都有監控和日誌工具。

在數據的監控上，個人覺得Datastage的實時監控做的更加好，可以直觀看到數據抽取的情況，運行到哪一個控制項上。這對於調優來說，我們可以更快的定位到處理速度太慢的控制項並進行處理，而informatica也有相應的功能，但是並不直觀，需要通過兩個界面的對比才可以定位到處理速度緩慢的控制項。有時候還需要通過一些方法去查找。

8、網上的技術文檔

Datastage < Informatica < kettle,相對來說，Datastage跟Informatica在遇到問題去網上找到解決方法的概率比較低，kettle則比較多。

五、項目經驗分享
在項目中，很多時候我們都需要同步生產庫的表到數據倉庫中。一百多張表同步、重復的操作，對開發人員來說是細心和耐心的考驗。在這種情況下，開發人員最喜歡的工具無疑是kettle，多個表的同步都可以用同一個程序運行，不必每一張表的同步都建一個程序，而informatica雖然有提供工具去批量設計，但還是需要生成多個程序進行一一配置，而datastage在這方面就顯得比較笨拙。

在做增量表的時候，每次運行後都需要把將最新的一條數據操作時間存到資料庫中，下次運行我們就取大於這個時間的數據。Kettle有控制項可以直接讀取資料庫中的這個時間置為變數；對於沒有類似功能控制項的informatica，我們的做法是先讀取的資料庫中的這個時間存到文件，然後主程序運行的時候指定這個文件為參數文件，也可以得到同樣的效果

D. 「etl」是什麼

ETL，是英文Extract-Transform-Load的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、載入（load）至目的端的過程。ETL一詞較常用在數據倉庫，但其對象並不限於數據倉庫。
數據倉庫是為企業所有級別的決策制定過程，提供所有類型數據支持的戰略集合。它是單個數據存儲，出於分析性報告和決策支持目的而創建。為需要業務智能的企業，提供指導業務流程改進、監視時間、成本、質量以及控制。
ETL是將業務系統的數據經過抽取、清洗轉換之後載入到數據倉庫的過程，目的是將企業中的分散、零亂、標准不統一的數據整合到一起，為企業的決策提供分析依據， ETL是BI（商業智能）項目重要的一個環節。

(4)etl工具是什麼擴展閱讀：
ETL與ELT：

ETL所描述的過程，一般常見的作法包含ETL或是ELT（Extract-Load-Transform），並且混合使用。通常愈大量的數據、復雜的轉換邏輯、目的端為較強運算能力的資料庫，愈偏向使用ELT，以便運用目的端資料庫的平行處理能力。
ETL（orELT）的流程可以用任何的編程語言去開發完成，由於ETL是極為復雜的過程，而手寫程序不易管理，有愈來愈多的企業採用工具協助ETL的開發，並運用其內置的metadata功能來存儲來源與目的的對應（mapping）以及轉換規則。
工具可以提供較強大的連接功能（connectivity）來連接來源端及目的端，開發人員不用去熟悉各種相異的平台及數據的結構，亦能進行開發。當然，為了這些好處，付出的代價便是金錢。

E. 數據ETL是指什麼

也有的是自己通過程序開發，然後控制一些數據處理腳本跑批，基本上就是程序加 SQL 實現。

所以在大多數通用的項目中，在項目上使用 ETL 標准組件開發會比較多一些。

ETL 從邏輯上一般可以分為兩層，控制流和數據流，這也是很多 ETL 工具設計的理念，不同的 ETL 工具可能叫法不同。

F. 常用的etl工具有哪些

1、DataPipeline

DataPipeline 隸屬於北京數見科技有限公司，是一家企業級批流一體數據融合服務商和解決方案提供商，國內實時數據管道技術的倡導者。

通過平台和技術為企業客戶解決數據准備過程中的各種痛點，幫助客戶更敏捷、更高效、更簡單地實現復雜異構數據源到目的地的實時數據融合和數據管理等綜合服務。

從而打破傳統 ETL 給客戶靈活數據應用帶來的束縛，讓數據准備過程不再成為數據消費的瓶頸。

2、Kettle

Kettle是一款國外開源的ETL工具，純java編寫，可以在Windows、Linux、Unix上運行，數據抽取高效穩定。

Kettle 中文名稱叫水壺，該項目的主程序員MATT 希望把各種數據放到一個壺里，然後以一種指定的格式流出。

3、Talend

Talend 是數據集成解決方案領域的領袖企業，為公共雲和私有雲以及本地環境提供一體化的數據集成平台。Talend的使命是致力於幫助客戶優化數據，提高數據可靠性，把企業數據更快地轉化為商業價值。

以此為使命，Talend的解決方案將數據從傳統基礎架構中解放出來，提高客戶在業務中的洞察力，讓客戶更早實現業務價值。

4、Informatica

Informatica是全球領先的數據管理軟體提供商。

在如下Gartner魔力象限位於領導者地位：數據集成工具魔力象限、數據質量工具魔力象限、元數據管理解決方案魔力象限、主數據管理解決方案魔力象限、企業級集成平台即服務（EiPaaS）魔力象限。

5、DataStage

IBM® InfoSphere™ Information Server 是一種數據集成軟體平台，能夠幫助企業從散布在各個系統中的復雜異構信息獲得更多價值。InfoSphere Information Server提供了一個統一的平台，使公司能夠了解、清理、變換和交付值得信賴且上下文豐富的信息。

IBM® InfoSphere™ DataStage® and QualityStage™ 提供了圖形框架，您可使用該框架來設計和運行用於變換和清理、載入數據的作業。

G. etl的概念，etl和elt數據處理上的區別

也有的是自己通過程序開發，然後控制一些數據處理腳本跑批，基本上就是程序加 SQL 實現。

所以在大多數通用的項目中，在項目上使用 ETL 標准組件開發會比較多一些。

ETL 從邏輯上一般可以分為兩層，控制流和數據流，這也是很多 ETL 工具設計的理念，不同的 ETL 工具可能叫法不同。

H. ETL工具有哪些

開源的代表是kettle，性能比較強大，關鍵是免費
國外的主流產品有informatica、talend
國內有haohedi（這個工具部署在雲端，在他們的公司官網可以實操體驗）

I. 什麼是「ETL」

ETL，是英文Extract-Transform-Load的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、載入（load）至目的端的過程。ETL一詞較常用在數據倉庫，但其對象並不限於數據倉庫。

數據倉庫是為企業所有級別的決策制定過程，提供所有類型數據支持的戰略集合。它是單個數據存儲，出於分析性報告和決策支持目的而創建。為需要業務智能的企業，提供指導業務流程改進、監視時間、成本、質量以及控制。

ETL是將業務系統的數據經過抽取、清洗轉換之後載入到數據倉庫的過程，目的是將企業中的分散、零亂、標准不統一的數據整合到一起，為企業的決策提供分析依據， ETL是BI（商業智能）項目重要的一個環節。

(9)etl工具是什麼擴展閱讀：

ETL與ELT：

ETL所描述的過程，一般常見的作法包含ETL或是ELT（Extract-Load-Transform），並且混合使用。通常愈大量的數據、復雜的轉換邏輯、目的端為較強運算能力的資料庫，愈偏向使用ELT，以便運用目的端資料庫的平行處理能力。

ETL（orELT）的流程可以用任何的編程語言去開發完成，由於ETL是極為復雜的過程，而手寫程序不易管理，有愈來愈多的企業採用工具協助ETL的開發，並運用其內置的metadata功能來存儲來源與目的的對應（mapping）以及轉換規則。

工具可以提供較強大的連接功能（connectivity）來連接來源端及目的端，開發人員不用去熟悉各種相異的平台及數據的結構，亦能進行開發。當然，為了這些好處，付出的代價便是金錢。

etl工具是什麼

與etl工具是什麼相關的內容