當前位置:首頁 » 工具五金 » 開源資料庫建模工具有哪些
擴展閱讀
切氣塊的工具是什麼 2025-05-16 01:22:44

開源資料庫建模工具有哪些

發布時間: 2022-05-18 03:40:04

A. MySQL essential版本和普通版本有什麼區別

在這個下載界面會有幾個版本的選擇。

1. MySQL Community Server 社區版本,開源免費,但不提供官方技術支持。
2. MySQL Enterprise Edition 企業版本,需付費,可以試用30天。
3. MySQL Cluster 集群版,開源免費。可將幾個MySQL Server封裝成一個Server。
4. MySQL Cluster CGE 高級集群版,需付費。
5. MySQL Workbench(GUI TOOL)一款專為MySQL設計的ER/資料庫建模工具。它是著名的資料庫設計工具DBDesigner4的繼任者。MySQL Workbench又分為兩個版本,分別是社區版(MySQL Workbench OSS)、商用版(MySQL Workbench SE)。

MySQL Community Server 是開源免費的,這也是我們通常用的MySQL的版本。根據不同的操作系統平台細分為多個版本,

B. 常用的數據可視化軟體有哪些

數據可視化工具:

  • PowerBI

  • Microsoft PowerBI同時提供本地和雲服務。它最初是作為Excel插件引入的,不久PowerBI憑借其強大的功能開始普及。目前,它被視為商業分析領域的軟體領導者。它提供了數據可視化和bi功能,使用戶可以輕松地以更低的成本實現快速,明智的決策,用戶可協作並共享自定義的儀錶板和互動式報告。

  • Solver

  • Solver是一家專業的企業績效管理(CPM)軟體公司。Solver致力於通過獲取可提升公司盈利能力的所有數據源來提供世界一流的財務報告、預算方案和財務分析。其軟體BI360可用於雲計算和本地部署,它專注於四個關鍵的分析領域,包括財務報告、預算、儀錶板和數據倉庫。

  • Qlik

  • Qlik是一種自助式數據分析和可視化工具。它具有可視化儀錶板,可簡化數據分析,並幫助公司快速制定業務決策。

  • Tableau Public

  • Tableau 是一個互動式數據可視化工具。不像大多數可視化工具那樣需要編寫腳本,Tableau的簡便性可以幫助新手降低使用難度。只需托拉拽的簡單操作使數據分析輕松完成。他們也有一個「新手入門工具包」和豐富的培訓資料,可幫助用戶創建創更多的分析報告。

  • 谷歌Fusion Tables

  • Fusion Table 是谷歌提供的數據管理平台。你可以使用它來做數據收集、數據可視化和數據共享。他就像電子數據表,但功能更強大更專業。你可以通過添加CSV、KML和電子表格中的數據集和同事共享資料。你還可以發布數據資料並將其嵌入到其他網頁屬性中。

  • Infogram

  • Infogram是一種直觀的可視化工具,可幫助你創建精美的信息圖表和報告。它提供了超過35個互動式圖表和500多個地圖,幫助你可視化數據。除了各種各樣的圖表,還有柱狀圖、條形圖、餅圖或詞雲等,它用創新的信息圖表給你留下深刻印象。

C. 數據分析工具有哪些 python

IPython


IPython 是一個在多種編程語言之間進行交互計算的命令行 shell,最開始是用 python 開發的,提供增強的內省,富媒體,擴展的 shell
語法,tab 補全,豐富的歷史等功能。IPython 提供了如下特性:

更強的交互 shell(基於 Qt 的終端)

一個基於瀏覽器的記事本,支持代碼,純文本,數學公式,內置圖表和其他富媒體

支持交互數據可視化和圖形界面工具

靈活,可嵌入解釋器載入到任意一個自有工程里

簡單易用,用於並行計算的高性能工具

由數據分析總監,Galvanize 專家 Nir Kaldero 提供。



GraphLab Greate 是一個 Python 庫,由 C++ 引擎支持,可以快速構建大型高性能數據產品。

這有一些關於 GraphLab Greate 的特點:

可以在您的計算機上以交互的速度分析以 T 為計量單位的數據量。

在單一平台上可以分析表格數據、曲線、文字、圖像。

最新的機器學習演算法包括深度學習,進化樹和 factorization machines 理論。

可以用 Hadoop Yarn 或者 EC2 聚類在你的筆記本或者分布系統上運行同樣的代碼。

藉助於靈活的 API 函數專注於任務或者機器學習。

在雲上用預測服務便捷地配置數據產品。

為探索和產品監測創建可視化的數據。

由 Galvanize 數據科學家 Benjamin Skrainka 提供。

Pandas

pandas 是一個開源的軟體,它具有 BSD 的開源許可,為 Python
編程語言提供高性能,易用數據結構和數據分析工具。在數據改動和數據預處理方面,Python 早已名聲顯赫,但是在數據分析與建模方面,Python
是個短板。Pands 軟體就填補了這個空白,能讓你用 Python 方便地進行你所有數據的處理,而不用轉而選擇更主流的專業語言,例如 R 語言。

整合了勁爆的 IPyton 工具包和其他的庫,它在 Python 中進行數據分析的開發環境在處理性能,速度,和兼容方面都性能卓越。Pands
不會執行重要的建模函數超出線性回歸和面板回歸;對於這些,參考 statsmodel 統計建模工具和 scikit-learn 庫。為了把 Python
打造成頂級的統計建模分析環境,我們需要進一步努力,但是我們已經奮斗在這條路上了。

由 Galvanize 專家,數據科學家 Nir Kaldero 提供。

PuLP

線性編程是一種優化,其中一個對象函數被最大程度地限制了。PuLP 是一個用 Python
編寫的線性編程模型。它能產生線性文件,能調用高度優化的求解器,GLPK,COIN CLP/CBC,CPLEX,和GUROBI,來求解這些線性問題。

由 Galvanize 數據科學家 Isaac Laughlin 提供

Matplotlib



matplotlib 是基於 Python 的
2D(數據)繪圖庫,它產生(輸出)出版級質量的圖表,用於各種列印紙質的原件格式和跨平台的互動式環境。matplotlib 既可以用在 python 腳本,
python 和 ipython 的 shell 界面 (ala MATLAB? 或 Mathematica?),web 應用伺服器,和6類 GUI
工具箱

matplotlib 嘗試使容易事情變得更容易,使困難事情變為可能。你只需要少量幾行代碼,就可以生成圖表,直方圖,能量光譜(power
spectra),柱狀圖,errorcharts,散點圖(scatterplots)等,。

為簡化數據繪圖,pyplot 提供一個類 MATLAB 的介面界面,尤其是它與 IPython
共同使用時。對於高級用戶,你可以完全定製包括線型,字體屬性,坐標屬性等,藉助面向對象介面界面,或項 MATLAB 用戶提供類似(MATLAB)的界面。

Galvanize 公司的首席科學官 Mike Tamir 供稿。

Scikit-Learn



Scikit-Learn 是一個簡單有效地數據挖掘和數據分析工具(庫)。關於最值得一提的是,它人人可用,重復用於多種語境。它基於
NumPy,SciPy 和 mathplotlib 等構建。Scikit 採用開源的 BSD 授權協議,同時也可用於商業。Scikit-Learn
具備如下特性:

分類(Classification) – 識別鑒定一個對象屬於哪一類別

回歸(Regression) – 預測對象關聯的連續值屬性

聚類(Clustering) – 類似對象自動分組集合

降維(Dimensionality Rection) – 減少需要考慮的隨機變數數量

模型選擇(Model Selection) –比較、驗證和選擇參數和模型

預處理(Preprocessing) – 特徵提取和規范化

Galvanize 公司數據科學講師,Isaac Laughlin提供

Spark



Spark 由一個驅動程序構成,它運行用戶的 main 函數並在聚類上執行多個並行操作。Spark
最吸引人的地方在於它提供的彈性分布數據集(RDD),那是一個按照聚類的節點進行分區的元素的集合,它可以在並行計算中使用。RDDs 可以從一個 Hadoop
文件系統中的文件(或者其他的 Hadoop 支持的文件系統的文件)來創建,或者是驅動程序中其他的已經存在的標量數據集合,把它進行變換。用戶也許想要 Spark
在內存中永久保存 RDD,來通過並行操作有效地對 RDD 進行復用。最終,RDDs 無法從節點中自動復原。

Spark 中第二個吸引人的地方在並行操作中變數的共享。默認情況下,當 Spark
在並行情況下運行一個函數作為一組不同節點上的任務時,它把每一個函數中用到的變數拷貝一份送到每一任務。有時,一個變數需要被許多任務和驅動程序共享。Spark
支持兩種方式的共享變數:廣播變數,它可以用來在所有的節點上緩存數據。另一種方式是累加器,這是一種只能用作執行加法的變數,例如在計數器中和加法運算中。

D. MySQL Workbench是開源軟體嗎哪裡可以下載

MySQL Workbench同時有開源和商業化兩個版本,MySQL Workbench 是可視化資料庫設計軟體,為資料庫管理員和開發人員提供了一整套可視化的資料庫操作環境,主要功能有資料庫設計與模型建立、SQL 開發(取代 MySQL Query Browser)、資料庫管理(取代 MySQL Administrator)如果是自學的話那可以去北鯤雲超算平台試試,對於這種開源的軟體來說在北鯤雲超算也比較方便,不用考慮lisence的問題,直接用就可以了。機時費跟超算中心的差不多,也比較劃算。

E. 哪位高手可以推薦幾款通用的資料庫管理工具

1、MySQL Workbench
MySQL Workbench是一款專為MySQL設計的ER/資料庫建模工具。它是著名的資料庫設計工具DBDesigner4的繼任者。你可以用MySQL Workbench設計和創建新的資料庫圖示,建立資料庫文檔,以及進行復雜的MySQL 遷移
MySQL Workbench是下一代的可視化資料庫設計、管理的工具,它同時有開源和商業化的兩個版本。該軟體支持Windows和Linux系統,下面是一些該軟體運行的界面截圖:

2、資料庫管理工具 Navicat Lite
NavicatTM是一套快速、可靠並價格相宜的資料庫管理工具,大可使用來簡化資料庫的管理及降低系統管理成本。它的設計符合資料庫管理員、開發人員及中小企業的需求。 Navicat是以直覺化的使用者圖形介面所而建的,讓你可以以安全且簡單的方式建立、組織、存取並共用資訊。
界面如下圖所示:

Navicat 提供商業版Navicat Premium 和免費的版本 Navicat Lite 。免費版本的功能已經足夠強大了。
Navicat 支持的資料庫包括MySQL、Oracle、SQLite、PostgreSQL和SQL Server 等。

3、開源ETL工具Kettle
Kettle是一款國外開源的etl工具,純java編寫,綠色無需安裝,數據抽取高效穩定(數據遷移工具)。Kettle中有兩種腳本文件,transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。

·授權協議:LGPL
·開發語言: Java
·操作系統: 跨平台
4、Eclipse SQLExplorer
SQLExplorer是Eclipse集成開發環境的一種插件,它可以被用來從Eclipse連接到一個資料庫。
SQLExplorer插件提供了一個使用SQL語句訪問資料庫的圖形用戶介面(GUI)。通過使用SQLExplorer,你能夠顯示表格、表格結構和表格中的數據,以及提取、添加、更新或刪除表格數據。
SQLExplorer同樣能夠生成SQL腳本來創建和查詢表格。所以,與命令行客戶端相比,使用SQLExplorer可能是更優越的選擇,下圖是運行中的界面,很好很強大。

l授權協議: 未知
l開發語言: Java
l操作系統: 跨平台
5、MySQL管理工具phpMyAdmin
phpMyAdmin是一個非常受歡迎的基於web的MySQL資料庫管理工具。它能夠創建和刪除資料庫,創建/刪除/修改表格,刪除/編輯/新增欄位,執行SQL腳本等。

l授權協議:GPL
l開發語言:PHP
l操作系統:跨平台
6、Mongodb 管理工具Mongodb Studio
Mongodb是一款性能優良,功能豐富的文檔型非關系型資料庫。由於該資料庫是開源項目並且還在不斷更新中,目前為止在任何平台上都不能找到功能相對完整的客戶端資料庫管理工具。而越來越多的項目中使用了Mongodb,使得管理起來十分麻煩.如果點點滑鼠就搞定了.那該有多好。
基於如上背景,我們製作了此MongoDB管理工具,在DBA/開發/管理員三個維度提供一定層次的管理功能。

Mongodb Management Studio功能如下:
l伺服器管理功能
添加伺服器,刪除伺服器
l伺服器,資料庫,表,列,索引,樹形顯示和狀態信息查看
l查詢分析器功能.
支持select,insert,Delete,update
支持自定義分頁函 數 $rowid(1,5)查詢第一條到第五條,需放在select後面.
l索引管理功能
支持列名的顯示,索引的創建,查看,刪除.
l資料庫Profile管理.
可以設置Profile開關,查看Profile信息.自定義分頁大小.
lmaster/slave信息顯示
7、MySQL監控小工具mycheckpoint
mycheckpoint是一個開源的 MySQL監控工具,主要用來監控數據。通過視圖方式提供監控數據報表。mycheckpoint支持以獨立的Web伺服器來運行。
例如:SELECTinnodb_read_hit_percent, DML FROM sv_report_chart_sample;

查看詳細報表示例。
安裝手冊:http://code.openark.org/forge/mycheckpoint/documentation/installation
8、SQL SERVER 資料庫發布向導
Microsoft SQL Server DatabasePublishing Wizard (微軟SQLServer資料庫發布向導) 是微軟發布的一個開源工具,使用該工具可以幫你將SQLSERVER 資料庫導出成一個 SQL腳本,類似 MySQL 的 mysqlmp工具。
官方說明:SQLServer資料庫發布向導提供了一種將資料庫發布到 T-SQL 腳本或者直接發布到支持宿主服務提供程序的方法。

9、Eclipse 的Oracle插件jOra
jOra是一個為 Oracle開發者和管理員提供的 Eclipse 插件,可輕松的對Oracle進行開發和管理。
安裝地址:http://jora.luenasoft.de/updatesite
插件截圖

l授權協議:免費,非開源
l開發語言:Java
l操作系統:跨平台
10、免費PostgreSQL監控工具pgwatch
pgwatch 是一個簡單易用的PostgreSQL的監控工具,支持PostgreSQL 9.0 以及更新的版本。
主要特性:
- 配置簡單
- 大量的監控圖表
- 快速系統檢查面板
- 自動收集統計信息
- 互動式的 Flash 圖表
- 集成 SQL worksheet

l授權協議: Artistic
l開發語言:PHP
l操作系統: Linux
11、MySQL Browser
MySQL的客戶端工具MySQL Browser的優點是簡單,及其的簡單,安裝之後能夠立刻上手,馬上就能使用的那種,布局也很簡陋,功能也很簡陋,簡單使用沒有問題,尤其是剛開始學習mysql的同學,可以嘗試一下。

·授權協議:未知
·操作系統: Windows
12、MySQL客戶端軟體HeidiSQL
HeidiSQL是一個功能非常強大的 MySQL 客戶端軟體,採用Delphi 開發,支持 Windows 操作系統。

l授權協議:GPL
l開發語言:Delphi/Pascal
l操作系統: Windows
13、SQLite管理工具SQLiteStudio
SQLiteStudio 是一個跨平台的 SQLite資料庫的管理工具,採用 Tcl語言開發。
l授權協議:未知
l操作系統:跨平台
14、SQL客戶端工具SQLyog
SQLyog 是一個易於使用的、快速而簡潔的圖形化管理MYSQL資料庫的工具,它能夠在任何地點有效地管理你的資料庫。

功能:
l快速備份和恢復數據;
l以GRID/ TEXT格式顯示結果;
l支持客戶端挑選、過濾數據;
l批量執行很大的SQL腳本文件;
l快速執行多重查詢並能夠返回每頁超過1000條的記錄集,而這種操作是直接生成在內存中的;
l程序本身非常短小精悍!壓縮後只有348 KB ;
l完全使用MySQLC APIs程序介面;
l以直觀的表格界面建立或編輯數據表;
l以直觀的表格界面編輯數據;
l進行索引管理;
l創建或刪除資料庫;
l操縱資料庫的各種許可權:庫、表、欄位;
l編輯BLOB類型的欄位,支持Bitmap/GIF/JPEG格式;
l輸出數據表結構/數據為SQL腳本;
l支持輸入/輸出數據為CSV文件;
l可以輸出資料庫清單為HTML文件;
l為所有操作建立日誌;
l個人收藏管理操作語句;
l支持語法加亮顯示;
l可以保存記錄集為CSV、HTML、XML格式的文件;
l21、99% 的操作都可以通過快捷鍵完成;
l支持對數據表的各種高級屬性修改;
l查看數據伺服器的各種狀態、參數等;
l支持更改數據表類型為ISAM, MYISAM, MERGE, HEAP, InnoDB, BDB;
l刷新數據伺服器、日誌、許可權、表格等;
l診斷數據表:檢查、壓縮、修補、分析。
l授權協議:GPLv2
l開發語言:C/C++
l操作系統: Windows
15、數據挖掘工具RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
功能和特點
l免費提供數據挖掘技術和庫;
l100%用Java代碼(可運行在操作系統);
l數據挖掘過程簡單,強大和直觀;
l內部XML保證了標准化的格式來表示交換數據挖掘過程;
l可以用簡單腳本語言自動進行大規模進程;
l多層次的數據視圖,確保有效和透明的數據;
l圖形用戶界面的互動原型;
l命令行(批處理模式)自動大規模應用;
lJava API(應用編程介面);
l簡單的插件和推廣機制;
l強大的可視化引擎,許多尖端的高維數據的可視化建模;
l400多個數據挖掘運營商支持;
l耶魯大學已成功地應用在許多不同的應用領域,包括文本挖掘,多媒體挖掘,功能設計,數據流挖掘,集成開發的方法和分布式數據挖掘。

l授權協議:未知
l開發語言:Java
l操作系統:跨平台
16、Oracle 資料庫開發工具Oracle SQL Developer
Oracle SQL Developer 是一個免費非開源的用以開發資料庫應用程序的圖形化工具,使用SQLDeveloper 可以瀏覽資料庫對象、運行 SQL 語句和腳本、編輯和調試 PL/SQL語句。另外還可以創建執行和保存報表。該工具可以連接任何 Oracle 9.2.0.1 或者以上版本的 Oracle 資料庫,支持Windows、Linux 和 Mac OS X 系統。

·授權協議:免費,非開源
·開發語言:Java
·操作系統:Windows Linux MacOS
17、EMS SQL Manager for MySQL
EMS SQL Manager for MySQL是一款高性能MySQL資料庫伺服器系統的管理和開發工具。它支持從MySQL 3.23到6.0的任一版本,並支持最新版本的MySQL的特點,包括:查看、存儲規程和函數、InnoDB外部鍵字和其他特點。它提供了大量工具以滿足富有經驗的用戶的所有要求。添加了精心設計的操作向導系統,以及SQL Manager for MySQL那富有藝術感的圖形用戶界面,即使新手也可以不會為如何使用而感到困擾。

l授權協議:商業軟體
l開發語言:C/C++
l操作系統: Windows
18、資料庫管理工具CoolSQL
CoolSQL是一個資料庫客戶端管理工具。
·支持大部分資料庫包括:DB2、oracle、mysql、MS SQL Server、Derby、HSQL、Informix、Sybase、PostgresSQL等。
·為用戶提供友好和漂亮UI,其整體框架由視圖組成類似於Eclipse。支持直接修改SQL查詢結果。
·支持將表格數據導出成文本文件,EXCEL和HTML。
·擁有一個支持SQL語法著色顯示,智能提示,文本編輯和查找的SQL編輯器。
·能夠展示資料庫大部分元數據包括:版本,數據類型、函數,連接信息等。
·支持導出數據對象信息包括對象數據(INSERT SQL語句),生成創建/刪除腳本(create script/drop script)。
·所有SQL腳本都可以以批量的模式執行。
·能夠搜索所有數據包括資料庫列,表/視圖和其他表格型。
·支持i18n,當前提供兩種語言(中文和英文)。
·提供收藏功能,管理由用戶收集的文本信息。
·支持通過插件擴展其功能。

ll 授權協議:未知
l開發語言:Java
l操作系統:跨平台
19、SQLite Manager
這是一款方便firefox對任何SQLite資料庫操作的擴展。使用這款擴展,可以在firefox下很容易的創建表格、建立索引、瀏覽搜索等操作。此外它還具有一個語法檢查功能的下拉式菜單,從而保證用戶的操作不會出錯。

20、MySQL GUI Tools
這是MySQL官方專業的資料庫管理工具,同時支持多種操作系統。該工具包括下面三個產品:
·MySQL Administrator 1.2
·MySQL Query Browser 1.2
·MySQL MigrationToolkit 1.1

21、SQL客戶端管理工具SQuirreL SQL Client
SQuirreL SQL Client是一個SQL客戶端管理工具。它允許你查看一個兼容JDBC的資料庫的結構,瀏覽表格中的數據,運行SQL命令, 可連接的資料庫有ORCAL,MS SQLSERVER, DB2 等, 它還允許用戶安裝和創建用於補充應用程序基本功能的插件。

功能和特點:
l柱狀圖顯示對像;
l自動完成;
l語句提示;
l標記;
l自動糾正;
l編輯查詢結果;
l關系圖;
l分頁列印。
l授權協議:未知
l語言:Java
l操作系統:跨平台
22、Tomcat管理工具EasyTomcat
EasyTomcat是一個用來幫助簡化 Tomcat和 MySQL管理的系統,你可以啟動、停止和配置Tomcat和MySQL伺服器,同時也提供了監控的功能。

l授權協議:未知
l開發語言:Java
l操作系統:跨平台
23、SQL Server管理工具sqlBuddy
SqlBuddy是C#編寫的一款用於Microsoft SQLServer和MSDE的開源工具,使用它可以很容易的編寫SQL腳本。SqlBuddy提供的功能和查詢分析器的目的有些微不同,它傾向於幫助使用者編寫SQL。

l授權協議:未知
l開發語言:C#
l操作系統: Windows
24、資料庫開發工具GSQL
GSQL 是 Gnome 下的一個集成資料庫開發工具。資料庫結構顯示在下圖左邊的樹狀結構中,支持SQL的語法著色。

l授權協議:未知
l操作系統:Linux
25、SQLite資料庫管理SQLiteSpy
sqlitespy是一個快速和緊湊的資料庫SQLite的GUI管理軟體 。它的圖形用戶界面使得它很容易探討,分析和操縱sqlite3資料庫。

l授權協議:未知
l開發語言:Delphi/Pascal
l操作系統:Windows
26、資料庫開發工具Aqua Data Studio
Aqua DataStudio 是一個為資料庫開發人員准備的集成開發環境,可以對資料庫做查詢、管理,提供大量的資料庫工具,例如資料庫比較、源碼控制等,目前支持的資料庫包括:Oracle, DB2iSeries, DB2 LUW, MS SQL Server, Sybase ASE, Sybase Anywhere, Sybase IQ, Informix,PostgreSQL, MySQL, Apache Derby, JDBC, and ODBC.

l授權協議:未知
l開發語言:C/C++
l操作系統:跨平台
27、MySQL 架構管理工具MySQL MMM
MySQL Master-Master 架構常被用在 SQLquery 相依性低的情況,像是 counter常使用的INSERT INTO ... ON DUPLICATEKEY UPDATE a = a + 1不會因為out-of-order而造成問題。而 MySQL MMM算是其中一套寫得比較好的 MySQLMaster-Master架構管理工具。
l授權協議:未知
l開發語言:Python
l操作系統: Linux
28、MySQL Client
MySQL的客戶端工具,主界面如下:

l授權協議:未知
l操作系統:Windows

F. mysql workbench 怎麼用

MySQL Workbench是一款專為MySQL設計的ER/資料庫建模工具。它是著名的資料庫設計工具DBDesigner4的繼任者。你可以用MySQL Workbench設計和創建新的資料庫圖示,建立資料庫文檔,以及進行復雜的MySQL 遷移。MySQL Workbench是下一代的可視化資料庫設計、管理的工具,它同時有開源和商業化的兩個版本。該軟體支持Windows和Linux系統
http://jingyan..com/article/3f16e003c2da162591c103e4.html
詳細可以參考這個,有圖解教程,希望可以幫到你

G. 數據分析一般用什麼工具啊

六個用於大數據分析的最好工具

一、Hadoop
Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
二、HPCC
HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了「重大挑戰項目:高性能計算與 通信」的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國 實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆 比特網路技術,擴展研究和教育機構及網路連接能力。
三、Storm
Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。
Storm有許多應用領域:實時分析、在線機器學習、不停頓的計算、分布式RPC(遠過程調用協議,一種通過網路從遠程計算機程序上請求服務)、 ETL(Extraction-Transformation-Loading的縮寫,即數據抽取、轉換和載入)等等。Storm的處理速度驚人:經測 試,每個節點每秒鍾可以處理100萬個數據元組。Storm是可擴展、容錯,很容易設置和操作。

四、Apache Drill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為「Drill」的開源項目。Apache Drill 實現了 Google』s Dremel.
據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹,「Drill」已經作為Apache孵化器項目來運作,將面向全球軟體工程師持續推廣。
五、RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
六、Pentaho BI
Pentaho BI 平台不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。

H. 開源ETL工具比較,Kettle和Talend,都有什麼優勢和劣勢

Pentaho Data Integration (Kettle)是Pentaho生態系統中默認的ETL工具。通過非常直觀的圖形化編輯器(Spoon),您可以定義以XML格式儲存的流程。在Kettle運行過程中,這些流程會以不同的方法編譯。用到的工具包括命令行工具(Pan),小型伺服器(Carte),資料庫存儲庫(repository)(Kitchen)或者直接使用IDE(Spoon)。

Talend Open Studio是 Talend 開發的ETL工具——Talend 是一家主營數據集成和數據管理解決方案的企業。Talend 採用用戶友好型,綜合性很強的IDE(類似於Pentaho Kettle 的 Spoon)來設計不同的流程。這些流程可以在IDE內部測試並編譯成Java 代碼。您可以隨時查看並編輯生成的Java代碼,同時實現強大的控制力和靈活性。

兩者都非常優秀,都屬於用戶友好型的交叉平台(基於Java的)工具。它們的主要差異在於Kettle 將 ELT 流程編譯為 XML 格式,然而Talend Open Studio 則生成 Java 代碼。

易用性:
Talend:有 GUI 圖形界面但是以 Eclipse 的插件方式提供。
Kettle:有非常容易使用的 GUI,出現問題可以到社區咨詢。

技術支持:
Talend:主要在美國
Kettle:在美國,歐洲(比利時,德國,法國,英國),亞洲(中國,日本,韓國)都可以找到相關技術支持人員。

部署:
Talend:創建 java 或perl 文件,並通過操作系統調度工具來運行
Kettle:可以使用 job 作業方式或操作系統調度,來執行一個轉換文件或作業文件,也可以通過集群的方式在多台機器上部署。

速度:
Talend:需要手工調整,對特定數據源有優化知識。
Kettle:比 Talend 快,不過也需要手工調整,對 Oracle 和 PostGre 等數據源做了優化,同時也取決於轉換任務的設計。

數據質量:
Talend:在 GUI 里有數據質量特性,可以手工寫 SQL 語句。
Kettle:在 GUI 里有數據質量特性,可以手工寫 SQL 語句、java腳本、正則表達式來完成數據清洗。

監控:
Talend:有監控和日誌工具
Kettle:有監控和日誌工具

連接性:
Talend:各種常用資料庫,文件,web service。
Kettle:非常廣泛的資料庫,文件,另外可以通過插件擴展