免費etl工具有哪些_有沒有好的ETL工具大家推薦一下吧

1. 免費的ETL軟體哪個好用

restcloud，datax，kettle

2. 有沒有好的ETL工具，大家推薦一下吧

我感覺Informatica用著挺好的，很大公司都用這個IBM的，我們公司就是用這個

3. etl有什麼免費的工具嗎

KETTLE，開源的，用java實現的

4. 大數據etl工具有哪些

ETL是數據倉庫中的非常重要的一環，是承前啟後的必要的一步。ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層後進行清洗、轉換、集成，最後載入到數據倉庫或數據集市中，成為聯機分析處理、數據挖掘的基礎。

下面給大家介紹一下什麼是ETL以及ETL常用的三種工具——Datastage，Informatica，Kettle。

一、什麼是ETL？
ETL，Extract-Transform-Load 的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、載入（load）至目的端的過程。

數據倉庫結構
通俗的說法就是從數據源抽取數據出來，進行清洗加工轉換，然後載入到定義好的數據倉庫模型中去。目的是將企業中的分散、零亂、標准不統一的數據整合到一起，為企業的決策提供分析依據。

ETL是BI項目重要的一個環節，其設計的好壞影響生成數據的質量，直接關繫到BI項目的成敗。

二、為什麼要用ETL工具？
在數據處理的時候，我們有時會遇到這些問題：

▶ 當數據來自不同的物理主機，這時候如使用SQL語句去處理的話，就顯得比較吃力且開銷也更大。

▶ 數據來源可以是各種不同的資料庫或者文件，這時候需要先把他們整理成統一的格式後才可以進行數據的處理，這一過程用代碼實現顯然有些麻煩。

▶ 在資料庫中我們當然可以使用存儲過程去處理數據，但是處理海量數據的時候存儲過程顯然比較吃力，而且會佔用較多資料庫的資源，這可能會導致數據資源不足，進而影響資料庫的性能。

而上述遇到的問題，我們用ETL工具就可以解決。ETL工具具有以下幾點優勢：

1、支持多種異構數據源的連接。（部分）

2、圖形化的界面操作十分方便。

3、處理海量數據速度快、流程更清晰等。

三、ETL工具介紹
1、Datastage

IBM公司的商業軟體，最專業的ETL工具，但同時價格不菲，適合大規模的ETL應用。

使用難度：★★★★

2、Informatica

商業軟體，相當專業的ETL工具。價格上比Datastage便宜一點，也適合大規模的ETL應用。

使用難度：★★

3、Kettle

免費，最著名的開源產品，是用純java編寫的ETL工具，只需要JVM環境即可部署，可跨平台，擴展性好。

使用難度：★★

四、三種ETL工具的對比
Datastage、Informatica、Kettle三個ETL工具的特點和差異介紹：

1、操作

這三種ETL工具都是屬於比較簡單易用的，主要看開發人員對於工具的熟練程度。

Informatica有四個開發管理組件，開發的時候我們需要打開其中三個進行開發，Informatica沒有ctrl+z的功能，如果對job作了改變之後，想要撤銷，返回到改變前是不可能的。相比Kettle跟Datastage在測試調試的時候不太方便。Datastage全部的操作在同一個界面中，不用切換界面，能夠看到數據的來源，整個job的情況，在找bug的時候會比Informatica方便。

Kettle介於兩者之間。

2、部署

Kettle只需要JVM環境，Informatica需要伺服器和客戶端安裝，而Datastage的部署比較耗費時間，有一點難度。

3、數據處理的速度

大數據量下Informatica與Datastage的處理速度是比較快的，比較穩定。Kettle的處理速度相比之下稍慢。

4、服務

Informatica與Datastage有很好的商業化的技術支持，而Kettle則沒有。商業軟體的售後服務上會比免費的開源軟體好很多。

5、風險

風險與成本成反比，也與技術能力成正比。

6、擴展

Kettle的擴展性無疑是最好，因為是開源代碼，可以自己開發拓展它的功能，而Informatica和Datastage由於是商業軟體，基本上沒有。

7、Job的監控

三者都有監控和日誌工具。

在數據的監控上，個人覺得Datastage的實時監控做的更加好，可以直觀看到數據抽取的情況，運行到哪一個控制項上。這對於調優來說，我們可以更快的定位到處理速度太慢的控制項並進行處理，而informatica也有相應的功能，但是並不直觀，需要通過兩個界面的對比才可以定位到處理速度緩慢的控制項。有時候還需要通過一些方法去查找。

8、網上的技術文檔

Datastage < Informatica < kettle,相對來說，Datastage跟Informatica在遇到問題去網上找到解決方法的概率比較低，kettle則比較多。

五、項目經驗分享
在項目中，很多時候我們都需要同步生產庫的表到數據倉庫中。一百多張表同步、重復的操作，對開發人員來說是細心和耐心的考驗。在這種情況下，開發人員最喜歡的工具無疑是kettle，多個表的同步都可以用同一個程序運行，不必每一張表的同步都建一個程序，而informatica雖然有提供工具去批量設計，但還是需要生成多個程序進行一一配置，而datastage在這方面就顯得比較笨拙。

在做增量表的時候，每次運行後都需要把將最新的一條數據操作時間存到資料庫中，下次運行我們就取大於這個時間的數據。Kettle有控制項可以直接讀取資料庫中的這個時間置為變數；對於沒有類似功能控制項的informatica，我們的做法是先讀取的資料庫中的這個時間存到文件，然後主程序運行的時候指定這個文件為參數文件，也可以得到同樣的效果

5. etl是什麼

ETL，是英文Extract-Transform-Load的縮寫，用來描述將數據從來源端經過抽取（extract）、轉換（transform）、載入（load）至目的端的過程。ETL一詞較常用在數據倉庫，但其對象並不限於數據倉庫。

數據倉庫是為企業所有級別的決策制定過程，提供所有類型數據支持的戰略集合。它是單個數據存儲，出於分析性報告和決策支持目的而創建。為需要業務智能的企業，提供指導業務流程改進、監視時間、成本、質量以及控制。

ETL是將業務系統的數據經過抽取、清洗轉換之後載入到數據倉庫的過程，目的是將企業中的分散、零亂、標准不統一的數據整合到一起，為企業的決策提供分析依據， ETL是BI（商業智能）項目重要的一個環節。

(5)免費etl工具有哪些擴展閱讀：

ETL與ELT：

ETL所描述的過程，一般常見的作法包含ETL或是ELT（Extract-Load-Transform），並且混合使用。通常愈大量的數據、復雜的轉換邏輯、目的端為較強運算能力的資料庫，愈偏向使用ELT，以便運用目的端資料庫的平行處理能力。

ETL（orELT）的流程可以用任何的編程語言去開發完成，由於ETL是極為復雜的過程，而手寫程序不易管理，有愈來愈多的企業採用工具協助ETL的開發，並運用其內置的metadata功能來存儲來源與目的的對應（mapping）以及轉換規則。

工具可以提供較強大的連接功能（connectivity）來連接來源端及目的端，開發人員不用去熟悉各種相異的平台及數據的結構，亦能進行開發。當然，為了這些好處，付出的代價便是金錢。

6. 現在常用的ETL工具,哪個比較易用而且價格比較低對安裝平台是否有具體的要求

常用的ETL工具有
IBM的DataStage，Informatica的Powercenter 這兩款功能強，但是成本也很高。
BSP的waha！transformation 功能相對較弱，只能運行在windows平台，支持所有資料庫鏈接及格式化文本的鏈接。安裝配置非常簡單，界面話操作簡單，價格也相對便宜的多。可以考慮這個。

7. 常見的大數據採集工具有哪些

1、離線搜集工具：ETL

在數據倉庫的語境下，ETL基本上便是數據搜集的代表，包括數據的提取(Extract)、轉換(Transform)和載入(Load)。在轉換的過程中，需求針對具體的事務場景對數據進行治理，例如進行不合法數據監測與過濾、格式轉換與數據規范化、數據替換、確保數據完整性等。

2、實時搜集工具：Flume/Kafka

實時搜集首要用在考慮流處理的事務場景，比方，用於記錄數據源的履行的各種操作活動，比方網路監控的流量辦理、金融運用的股票記賬和 web 伺服器記錄的用戶訪問行為。在流處理場景，數據搜集會成為Kafka的顧客，就像一個水壩一般將上游源源不斷的數據攔截住，然後依據事務場景做對應的處理(例如去重、去噪、中心核算等)，之後再寫入到對應的數據存儲中。

3、互聯網搜集工具：Crawler, DPI等

Scribe是Facebook開發的數據(日誌)搜集體系。又被稱為網頁蜘蛛，網路機器人，是一種按照一定的規矩，自動地抓取萬維網信息的程序或者腳本，它支持圖片、音頻、視頻等文件或附件的搜集。

除了網路中包含的內容之外，關於網路流量的搜集能夠運用DPI或DFI等帶寬辦理技術進行處理。

8. 開源ETL工具比較，Kettle和Talend，都有什麼優勢和劣勢

Pentaho Data Integration (Kettle)是Pentaho生態系統中默認的ETL工具。通過非常直觀的圖形化編輯器（Spoon），您可以定義以XML格式儲存的流程。在Kettle運行過程中，這些流程會以不同的方法編譯。用到的工具包括命令行工具(Pan),小型伺服器(Carte)，資料庫存儲庫（repository）(Kitchen)或者直接使用IDE(Spoon)。

Talend Open Studio是 Talend 開發的ETL工具——Talend 是一家主營數據集成和數據管理解決方案的企業。Talend 採用用戶友好型，綜合性很強的IDE（類似於Pentaho Kettle 的 Spoon）來設計不同的流程。這些流程可以在IDE內部測試並編譯成Java 代碼。您可以隨時查看並編輯生成的Java代碼，同時實現強大的控制力和靈活性。

兩者都非常優秀，都屬於用戶友好型的交叉平台（基於Java的）工具。它們的主要差異在於Kettle 將 ELT 流程編譯為 XML 格式，然而Talend Open Studio 則生成 Java 代碼。

易用性：
Talend：有 GUI 圖形界面但是以 Eclipse 的插件方式提供。
Kettle：有非常容易使用的 GUI，出現問題可以到社區咨詢。

技術支持：
Talend：主要在美國
Kettle：在美國，歐洲（比利時，德國，法國，英國），亞洲（中國，日本，韓國）都可以找到相關技術支持人員。

部署：
Talend：創建 java 或perl 文件，並通過操作系統調度工具來運行
Kettle：可以使用 job 作業方式或操作系統調度，來執行一個轉換文件或作業文件，也可以通過集群的方式在多台機器上部署。

速度：
Talend：需要手工調整，對特定數據源有優化知識。
Kettle：比 Talend 快，不過也需要手工調整，對 Oracle 和 PostGre 等數據源做了優化，同時也取決於轉換任務的設計。

數據質量：
Talend：在 GUI 里有數據質量特性，可以手工寫 SQL 語句。
Kettle：在 GUI 里有數據質量特性，可以手工寫 SQL 語句、java腳本、正則表達式來完成數據清洗。

監控：
Talend：有監控和日誌工具
Kettle：有監控和日誌工具

連接性：
Talend：各種常用資料庫，文件，web service。
Kettle：非常廣泛的資料庫，文件，另外可以通過插件擴展

9. ETL工具有哪些

開源的代表是kettle，性能比較強大，關鍵是免費
國外的主流產品有informatica、talend
國內有haohedi（這個工具部署在雲端，在他們的公司官網可以實操體驗）

10. ETL的工具應用

ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle、久其ETL……
開源的工具有eclipse的etl插件:cloveretl
數據集成：快速實現ETL
ETL的質量問題具體表現為正確性、完整性、一致性、完備性、有效性、時效性和可獲取性等幾個特性。而影響質量問題的原因有很多，由系統集成和歷史數據造成的原因主要包括:業務系統不同時期系統之間數據模型不一致；業務系統不同時期業務過程有變化；舊系統模塊在運營、人事、財務、辦公系統等相關信息的不一致；遺留系統和新業務、管理系統數據集成不完備帶來的不一致性。
實現ETL，首先要實現ETL轉換的過程。體現為以下幾個方面：
1、空值處理：可捕獲欄位空值，進行載入或替換為其他含義數據，並可根據欄位空值實現分流載入到不同目標庫。
2、規范化數據格式：可實現欄位格式約束定義，對於數據源中時間、數值、字元等數據，可自定義載入格式。
3、拆分數據：依據業務需求對欄位可進行分解。例，主叫號 861082585313-8148，可進行區域碼和電話號碼分解。
4、驗證數據正確性：可利用Lookup及拆分功能進行數據驗證。例如，主叫號861082585313-8148，進行區域碼和電話號碼分解後，可利用Lookup返回主叫網關或交換機記載的主叫地區，進行數據驗證。
5、數據替換：對於因業務因素，可實現無效數據、缺失數據的替換。
6、Lookup：查獲丟失數據 Lookup實現子查詢，並返回用其他手段獲取的缺失欄位，保證欄位完整性。
7、建立ETL過程的主外鍵約束：對無依賴性的非法數據，可替換或導出到錯誤數據文件中，保證主鍵唯一記錄的載入。

免費etl工具有哪些

與免費etl工具有哪些相關的內容