Ⅰ 科技公司鍾愛的50款開源工具
大數據
1. Hadoop
Apache主持的這個項目是最廣為人知的大數據工具。眾多公司為Hadoop提供相關產品或商業支持,包括亞馬遜網路服務、Cloudera、Hortonworks、IBM、Pivotal、Syncsort和VMware。知名用戶包括:阿里巴巴、美國在線、電子港灣、Facebook、谷歌、Hulu、領英、Spotify、推特和雅虎。
支持的操作系統:Windows、Linux和OS X
相關網站:http://hadoop.apache.org
2. Hypertable
Hypertable在互聯網公司當中非常流行,它由谷歌開發,用來提高資料庫的可擴展性。用戶包括網路、電子港灣、Groupon和Yelp。它與Hadoop兼容,提供商業支持和培訓。
支持的操作系統:Linux和OS X
相關網站:http://www.hypertable.com
3. Mesos
Apache Mesos是一種資源抽象工具,有了它,企業就可以鞀整個數據中心當成一個資源池,它在又在運行Hadoop、Spark及類似應用程序的公司當中很流行。使用它的企業組織包括:Airbnb、歐洲原子核研究組織(CERN)、思科、Coursera、Foursquare、Groupon、網飛(Netflix)、推特和優步。
支持的操作系統:Linux和OS X
相關網站:http://mesos.apache.org
4. Presto
Presto由Facebook開發,自稱是「一款開源分布式SQL查詢引擎,用於對大大小小(從GB級到PB級)的數據源運行互動式分析查詢。」Facebook表示,它將Presto用於對300PB大小的數據倉庫執行查詢,其他用戶包括Airbnb和Dropbox。
支持的操作系統:Linux
相關網站:https://prestodb.io
5. Solr
這種「快若閃電」的企業搜索平台聲稱高度可靠、擴展和容錯。使用它的公司包括:AT&T、Ticketmaster、康卡斯特、Instagram、網飛、IBM、Adobe和SAP Hybris。
支持的操作系統:與操作系統無關
相關網站:http://lucene.apache.org/solr/
6. Spark
Apache Spark聲稱,「它在內存中運行程序的速度比Hadoop MapRece最多快100倍,在磁碟上快10倍。」Spark「支持」的企業組織包括:亞馬遜、網路、Groupon、日立解決方案、IBM、MyFitnessPal、諾基亞和雅虎。
支持的操作系統:Windows、Linux和OS X
相關網站:http://spark.apache.org
7. Storm
正如Hadoop用來處理批量數據,Apache Storm用來處理實時數據。官方網站上顯示用戶包括:天氣頻道、推特、雅虎、WebMD、Spotify、威瑞信(Verisign)、Flipboard和Klout。
支持的操作系統:Linux
相關網站:https://storm.apache.org
雲計算
8. Cloud Foundry
Cloud Foundry提供用於構建平台即服務的開源工具。它聲稱「由行業領袖為行業領袖構建」,其支持者包括IBM、 Pivotal、惠普企業、VMware、英特爾、SAP和EMC。
支持的操作系統:Linux
相關網站:https://www.cloudfoundry.org
9. CloudStack
這個交鑰匙IaaS解決方案構成了許多公共雲和私有雲的基礎。它的用戶極多,包括阿爾卡特-朗訊、蘋果、Autodesk、英國電信、冠群科技、思傑、Cloudera、戴爾、富士通、SAP和韋里遜。
支持的操作系統:與操作系統無關
相關網站:http://cloudstack.apache.org
10. OpenStack
這種很受歡迎的雲計算平台聲稱,「世界上成百上千個大品牌」每天依賴它。支持者包括:AT&T、Ubuntu、惠普企業、IBM、英特爾、Rackspace、紅帽、SUSE、思科、戴爾、EMC、賽門鐵克及另外許多知名科技公司。
支持的操作系統:與操作系統無關
相關網站:http://www.openstack.org
11. Scalr
這種雲管理平台備受市場研究公司的好評,它簡化了管理多個雲環境的過程。知名用戶包括Expedia、三星、美國宇航局噴氣推進實驗室、埃森哲、索尼和Autodesk。
支持的操作系統:Linux
相關網站:http://www.scalr.com
容器
12. Docker
Docker在相對新興的容器領域迅速確立起了主導平台這一地位。科技界的許多大牌公司在構建或提供擴展或使用Docker技術的產品,包括亞馬遜、微軟、IBM、惠普企業、紅帽、Rackspace和Canonical。
支持的操作系統:Windows、Linux和OS X
相關網站:https://www.docker.com
輸入標題 內容管理
13. DNN
這款內容管理解決方案之前名為DotNetNuke,承諾構建豐富的互動式網站時,只要花較少的精力,就能收到顯著的成效。用戶包括佳能、時代華納有線電視、德州儀器和美國銀行。
支持的操作系統:Windows
相關網站:http://www.dnnsoftware.com
14. Drupal
Drupal聲稱,98000多個開發人員在為這個極其流行的內容管理系統積極貢獻代碼。支持者包括微軟、Zend、Fastly和New Relic,其內容市場有數百家公司參與其中,它們提供了相關的產品和服務。
支持的操作系統:與操作系統無關
相關網站:https://www.drupal.org
15. Joomla
Joomla為數百萬個網站提供平台,其下載量超過了5000萬人次。許多用戶當中就有這些公司:電子港灣、巴諾書店、MTV和標致。
支持的操作系統:與操作系統無關
相關網站:https://www.joomla.org
16. MediaWiki
MediaWiki以維基網路使用的軟體而出名,它還為網路、Vistaprint、Novell、英特爾和美國宇航局支持網站。它是構建可編輯網頁的不錯選擇,許多企業組織用它來構建內部知識庫。
支持的操作系統:Windows、Linux/Unix和OS X
相關網站:https://www.mediawiki.org/wiki/MediaWiki
資料庫
17. Cassandra
這種NoSQL資料庫由Facebook開發,其用戶包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、網飛、Reddit及其他科技公司。它支持極其龐大的數據集,聲稱擁有非常高的性能和出色的耐用性和彈性。可通過第三方獲得支持。
支持的操作系統:與操作系統無關
相關網站:http://cassandra.apache.org
18. CouchDB
CouchDB為Web而開發,這種NoSQL資料庫將數據存儲在JSON文檔中,這類文檔可通過HTTP來加以查詢,並用JavaScript來處理。Cloudant現在歸IBM所有,它提供一款專業人員支持的軟體版本,用戶包括:三星、Akamai、Expedia、微軟游戲工作室及其他公司。
支持的操作系統:Windows、Linux、OS X和安卓
相關網站:http://couchdb.apache.org
19. MongoDB
MongoDB是一種NoSQL資料庫,聲稱「針對關鍵任務型部署環境進行了優化」,用戶包括Foursquare、《福布斯》、Pebble、Adobe、領英、eHarmony及其他公司。提供收費的專業版和企業版。
支持的操作系統:Windows、Linux、OS X和Solaris
相關網站:http://www.mongodb.org
20. MySQL
MySQL自稱是「世界上最流行的開源資料庫」,備受眾多互聯網公司的青睞,比如YouTube、貝寶、谷歌、Facebook、推特、電子港灣、領英、優步和亞馬遜。除了免費社區版外,它還有多款收費版。最新更新版聲稱速度比老版本快三倍。
支持的操作系統:Windows、Linux、Unix和OS X
相關網站:http://www.mysql.com
21. Neo4j
Neo4J自詡為「世界上領先的圖形資料庫」,用於欺詐檢測、推薦引擎、社交網站、主數據管理及更多領域。用戶包括電子港灣、沃爾瑪、思科、惠普、埃森哲、CrunchBase、eHarmony、Care.com及另外許多企業組織。
支持的操作系統:Windows和Linux
相關網站:http://neo4j.com
開發工具
22. Bugzilla
Bugzilla是開源社區的寵兒,用戶包括Mozilla、Linux基金會、GNOME、KDE、Apache、LibreOffice、Open Office、Eclipse、紅帽、Novell及其他公司。這款軟體缺陷追蹤系統(bugtracker)的重要功能包括:高級搜索功能、電子郵件通知、預定報告、時間追蹤、出色的安全及更多特性。
支持的操作系統:Windows、Linux和OS X
相關網站:https://www.bugzilla.org
23. Eclipse
Eclipse項目最為知名的是,它是一種大受歡迎的面向Java的集成開發環境(IDE),它還提供面向C/C++和PHP的IDE,此外提供另外一大批開發工具。主要支持者包括冠群科技、谷歌、IBM、甲骨文、紅帽和SAP。
支持的操作系統:與操作系統無關
相關網站:http://www.eclipse.org
24. Ember.js
這種框架用於「構建野心勃勃的Web應用程序」,旨在為JavaScript開發人員提高工作效率。官方網站上顯示用戶包括雅虎、Square、Livingsocial、Groupon、Twitch、TED、網飛、Heroku和微軟。
支持的操作系統:與操作系統無關
相關網站: http://emberjs.com
25. Grunt
Grunt是一種JavaScript任務運行工具,有助於自動處理重復性的開發任務。使用它的知名科技公司包括:Adobe、推特、Mozilla、Cloudant和WordPress。
支持的操作系統:與操作系統無關
相關網站:http://gruntjs.com
26. LoopBack
這個Node.js框架旨在讓用戶很容易構建REST API,並連接到後端數據存儲區。知名用戶包括GoDaddy、美國能源部和賽門鐵克。
支持的操作系統:Windows、Linux、OS X、安卓和iOS
相關網站:http://loopback.io
27. Node.js
Node.js的成名之處在於,它讓開發人員可以使用JavaScript,編寫伺服器端應用程序。開發工作之前由Joyent管控,現在交由Node.js基金會監管。用戶包括IBM、微軟、雅虎、SAP、領英、貝寶和網飛。
支持的操作系統:Windows、Linux和OS X
相關網站:https://nodejs.org/en/
28. PhoneGap
Apache Cordova是一種開源框架,讓開發人員可以使用HTML、CSS和JavaScript等Web技術,構建移動應用程序。PhoneGap是最受歡迎的Cordova發行版。使用某一種Cordova發行版的科技公司包括:維基網路、Facebook、 Salesforce、IBM、微軟、Adobe和黑莓。
支持的操作系統:Window、Linux和OS X
相關網站:http://phonegap.com
29. React Native
React Native由Facebook開發,這種框架可用於使用JavaScript和React JavaScript庫(同樣由Facebook開發),構建原生移動應用程序。其他用戶包括:《探索》頻道和CBS體育新聞網。
支持的操作系統:OS X
相關網站:http://facebook.github.io/react-native/
30. Ruby on Rails
這個Web開發框架在開發人員當中極其流行,它聲稱「為確保編程員滿意和持續高效地工作進行了優化」。用戶包括Basecamp、推特、Shopify和GitHub等公司。
支持的操作系統:Windows、Linux和OS X
相關網站:http://rubyonrails.org
31. Sencha Touch
Sencha Touch自稱是「一種用於構建通用移動應用程序的領先的跨平台移動Web應用程序框架,基於HTML5和JavaScript」。它既有開源許可證版本,也有商業許可證版本。據官方網站聲稱,《財富》100強中60%使用它。
支持的操作系統:與操作系統無關
相關網站:https://www.sencha.com/procts/touch/
32. ZK
索尼、Sun、IBM、Adobe、電子港灣、富士通、夢工廠和優利系統等公司使用這種Java Web框架來構建Web和移動應用程序。提供收費支付及相關工具。
支持的操作系統:與操作系統無關
相關網站:http://www.zkoss.org
中間件
33. JBoss
紅帽的JBoss中間件包括各種輕量級、對雲計算友好的工具,同時結合、集成和自動化各個企業應用程序和系統。用戶包括:橡樹嶺國家實驗室、日產、思科、冠群科技、AMD及其他公司。
支持的操作系統:Linux
相關網站:http://www.redhat.com/en/technologies/jboss-middleware
操作系統
34. 紅帽企業版Linux
紅帽最知名的產品就是其旗艦Linux發行版,這需要付費訂購。據該公司聲稱,《財富》全球500強公司中超過90%在使用紅帽產品。
相關網站:http://www.redhat.com/en/technologies/linux-platforms/enterprise-linux
35. SUSE Linux企業版
這款面向企業的Linux發行版同樣備受大企業的追捧,它也需要付費訂購。該公司聲稱,它有13000多個企業用戶,包括倫敦證券交易所、SAP、天睿(Teradata)和沃爾格林連鎖葯店(Walgreens)。
相關網站:https://www.suse.com
36. Ubuntu
Ubuntu提供廣受歡迎的Linux發行版,有多個版本:桌面版、伺服器版、雲版、手機版、平板電腦版和物聯網版。聲稱用戶包括亞馬遜、IBM、維基網路和英偉達。
相關網站:http://www.ubuntu.com/index_kylin
項目管理
37. Project Libre
這個屢獲獎項的項目是微軟Project的替代者,下載量已有近200萬人次。它有一大批用戶,包括IBM、埃森哲、美國能源部、思科、ATI和AMD。
支持的操作系統:Windows、Linux和OS X
相關網站:http://www.projectlibre.org
存儲
38. FreeNAS
這款開源網路附加存儲(NAS)軟體聲稱,它備受聯合國、迪士尼互動媒體集團、路透社和Dr. Phil等用戶的「喜愛」。它可以安裝到幾乎任何硬體上,而TrueNAS提供的預先構建的設備就基於該技術。
支持的操作系統:FressBSD
相關網站:http://www.freenas.org
39. Gluster
Gluster是一種可高度擴展的網路文件系統,適合雲計算環境。紅帽提供一款基於該技術的收費產品,用戶包括卡西歐和Intuit。
支持的操作系統:Linux
相關網站:http://www.gluster.org
40. Lustre
Lustre是另一種可高度擴展的文件系統,旨在支持高性能計算(HPC)環境。一些最早採用它的用戶包括美國的幾大國家實驗室:勞倫斯·利物莫爾國家實驗室、桑迪亞國家實驗室、橡樹嶺國家實驗室和洛斯阿拉莫斯國家實驗室。
支持的操作系統:Linux
相關網站:http://lustre.org
系統管理工具
41. Ansible
Ansible現在歸紅帽所有,它自稱是「一種異常簡單的IT自動化引擎,可以使雲服務配置、配置管理、應用程序部署、服務內部的編排以及其他許多IT操作實現自動化。」使用它的科技公司包括:思科、瞻博網路、Evernote、推特、威瑞信、GoPro、EA Sports、Atlassian和韋里遜。它既有免費版,也有收費版。
支持的操作系統:Linux
相關網站:http://www.ansibleworks.com
42. Chef
作為另一款自動化工具,Chef支持開發運維方法,同時改善了速度、協作和安全性。擁有免費版和收費版。官方網站上顯示用戶包括:塔吉特(Target)、諾德斯特龍(Nordstrom)、Facebook、Etsy、IGM、雅虎和彭博社。
支持的操作系統:Windows、Linux和OS X
相關網站:https://www.chef.io/chef/
43. Hudson
Hudson在使用敏捷和開發運維方法的企業當中很流行,它是一種可擴展的持續集成伺服器系統,可以監控重復作業的執行。這個項目得到了Eclipse基金會、甲骨文、Atlassian和YourKit的支持。
支持的操作系統:與操作系統無關
相關網站:http://hudson-ci.org
44. Puppet
Puppet號稱「使用最廣泛的開源IT管理系統」,它包括40多個基礎設施管理方面的開源項目。除了開源版本外,它還有一款收費的企業版本。它聲稱,用戶包括25000多家企業,比如迪士尼、沃爾瑪、1-800-Flowers.com、Heartland Payment Systems、蓋蒂圖片社(Getty Images)和Yelp。
支持的操作系統:Windows、Linux、Unix和OS X
相關網站:https://puppetlabs.com/puppet/open-source-projects
版本控制
45. Bazaar
Bazaar由Canonical管理,被許多開源項目所使用,包括Ubuntu、 GNU基金會、Linux基金會、MySQL、Bugzilla、 Debian和Maria DB。它簡單易學,支持任何工作流程和工作區間模式,承諾存儲效率很高、速度很快。
支持的操作系統:Windows、Linux和OS X
相關網站:http://bazaar.canonical.com/en/
46. Git
這個版本控制系統已變得極受歡迎,這一方面歸功於GitHub服務的使用日益廣泛。使用它的公司和項目包括:谷歌、Facebook、微軟、推特、領英、網飛、Perl、PostgreSQL、安卓、Rails、QT、Gnome和Eclipse。
支持的操作系統:Windows、Linux和OS X
相關網站:http://git-scm.com
47. Mercurial
Mercurial是一種分布式源代碼控制管理工具,專注於幫助團隊更輕松、更快速地協同工作。用戶包括OpenJDK和NetBeans等各大項目。
支持的操作系統:Windows、Linux和OS X
相關網站:https://www.mercurial-scm.org
48. Subversion
這個企業級版本控制系統得到Apache的支持,首次發布於2000年。使用它的企業組織包括Apache軟體基金會自己、Hobby Lobby、Mono、Plone和GNU Enterprise。
支持的操作系統:Windows、Linux和OS X
相關網站:http://subversion.apache.org
Web伺服器
49. Apache HTTP Server
Apache至今已有20年多的歷史,專利是自1996年以來互聯網上最受歡迎的Web伺服器系統。據W3Techs聲稱,目前所有網站中55.3%是由Apache支持的。
支持的操作系統:Windows、Linux和OS X
相關網站:http://httpd.apache.org
50. Nginx
Nginx的人氣也極旺,它被互聯網上所有網站中的大約四分之一所使用。除了俄羅斯許多訪問量很大的網站外,用戶還包括網飛和WordPress.com。
支持的操作系統:Windows、Linux和OS X
相關網站:http://nginx.org
Ⅱ 大數據分析 哪些工具經常會用到
說一些我常用到的大數據分析工具
1.專業的大數據分析工具
2.各種Python數據可視化第三方庫
3.其它語言的數據可視化框架
一、專業的大數據分析工具
1、FineReport
FineReport是一款純Java編寫的、集數據展示(報表)和數據錄入(表單)功能於一身的企業級web報表工具,只需要簡單的拖拽操作便可以設計復雜的中國式報表,搭建數據決策分析系統。
2、FineBI
FineBI是新一代自助大數據分析的商業智能產品,提供了從數據准備、自助數據處理、數據分析與挖掘、數據可視化於一體的完整解決方案,也是我比較推崇的可視化工具之一。
FineBI的使用感同Tableau類似,都主張可視化的探索性分析,有點像加強版的數據透視表。上手簡單,可視化庫豐富。可以充當數據報表的門戶,也可以充當各業務分析的平台。
二、Python的數據可視化第三方庫
Python正慢慢地成為數據分析、數據挖掘領域的主流語言之一。在Python的生態里,很多開發者們提供了非常豐富的、用於各種場景的數據可視化第三方庫。這些第三方庫可以讓我們結合Python語言繪制出漂亮的圖表。
1、pyecharts
Echarts(下面會提到)是一個開源免費的javascript數據可視化庫,它讓我們可以輕松地繪制專業的商業數據圖表。當Python遇上了Echarts,pyecharts便誕生了,它是由chenjiandongx等一群開發者維護的Echarts Python介面,讓我們可以通過Python語言繪制出各種Echarts圖表。
2、Bokeh
Bokeh是一款基於Python的互動式數據可視化工具,它提供了優雅簡潔的方法來繪制各種各樣的圖形,可以高性能的可視化大型數據集以及流數據,幫助我們製作互動式圖表、可視化儀錶板等。
三、其他數據可視化工具
1、Echarts
前面說過了,Echarts是一個開源免費的javascript數據可視化庫,它讓我們可以輕松地繪制專業的商業數據圖表。
大家都知道去年春節以及近期央視大規劃報道的網路大數據產品,如網路遷徙、網路司南、網路大數據預測等等,這些產品的數據可視化均是通過ECharts來實現的。
2、D3
D3(Data Driven Documents)是支持SVG渲染的另一種JavaScript庫。但是D3能夠提供大量線性圖和條形圖之外的復雜圖表樣式,例如Voronoi圖、樹形圖、圓形集群和單詞雲等。
Ⅲ 大數據分析工具都有哪些
大數據分析工具好用的有以下幾個,分別是Excel、BI工具、Python、Smartbi、Bokeh、Storm、Plotly等。
1、Excel
Excel可以稱得上是最全能的數據分析工具之一,包括表格製作、數據透視表、VBA等等功能,保證人們能夠按照需求進行分析。
2、BI工具
BI也就是商業智能,BI工具的產品設計,幾乎是按照數據分析的流程來設計的。先是數據處理、整理清洗,再到數據建模,最後數據可視化,全程圍繞數據指導運營決策的思想。由於功能聚焦,產品操作起來也非常簡潔,依靠拖拉拽就能完成大部分的需求,沒有編程基礎的業務人員也能很快上手。
3、Python
python在數據分析領域,確實稱得上是一個強大的語言工具。盡管入門的學習難度要高於Excel和BI,但是作為數據科學家的必備工具,從職業高度上講,它肯定是高於Excel、BI工具的。尤其是在統計分析和預測分析等方面,Python等編程語言更有著其他工具無可比擬的優勢。
4、思邁特軟體Smartbi
融合傳統BI、自助BI、智能BI,滿足BI定義所有階段的需求;提供數據連接、數據准備、數據分析、數據應用等全流程功能;提供復雜報表、數據可視化、自助探索分析、機器學習建模、預測分析、自然語言分析等全場景需求;滿足數據角色、分析角色、管理角色等所有用戶的需求。
5、Bokeh
這套可視化框架的主要目標在於提供精緻且簡潔的圖形處理結果,用以強化大規模數據流的交互能力。其專門供Python語言使用。
6、Storm
Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它知名的應用企業包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。
7、 Plotly
這是一款數據可視化工具,可兼容JavaScript、MATLAB、Python以及R等語言。Plotly甚至能夠幫助不具備代碼編寫技能或者時間的用戶完成動態可視化處理。這款工具常由新一代數據科學家使用,因為其屬於一款業務開發平台且能夠快速完成大規模數據的理解與分析。
Ⅳ 大數據常用開發工具
1. Apache Hive
Hive是一個建立在Hadoop上的開源數據倉庫基礎設施,通過Hive可以很容易的進行數據的ETL,對數據進行結構化處理,並對Hadoop上大數據文件進行查詢和處理等。Hive提供了一種簡單的類似SQL的查詢語言—HiveQL,這為熟悉SQL語言的用戶查詢數據提供了方便。
2. Apache Spark
Apache Spark是Hadoop開源生態系統的新成員。它提供了一個比Hive更快的查詢引擎,因為它依賴於自己的數據處理框架而不是依靠Hadoop的HDFS服務。同時,它還用於事件流處理、實時查詢和機器學習等方面。
3. Jaspersoft BI 套件
Jaspersoft包是一個通過資料庫列生成報表的開源軟體。行業領導者發現Jaspersoft軟體是一流的,許多企業已經使用它來將SQL表轉化為pdf,,這使每個人都可以在會議上對其進行審議。另外,JasperReports提供了一個連接配置單元來替代HBase。
4. Keen IO
Keen IO是個強大的移動應用分析工具。開發者只需要簡單到一行代碼, 就可以跟蹤他們想要的關於他們應用的任何信息。開發者接下來只需要做一些Dashboard或者查詢的工作就可以了。
5. Mortar Data
Mortar Data是專為開發者打造的Hadoop開發平台,它用Pig和Python的組合替代了MapRece以便開發者能簡單地編寫Hadoop管道(Pipeline)。
6. Placed Analytics
利用腳本語言以及API, PlacedAnalytics能夠提供針對移動和網路應用的詳細用戶行為分析。包括, 用戶使用時間和地理位置信息。 這些可以幫助開發者的應用更好地吸引廣告商, 也可以幫助開發者對自己的應用進行改善。
7. Ingres Corp
它擁有超過一萬客戶而且正在擴增。它通過Vectorwise以及對ParAccel實現了擴展。這些發展分別導致了Actian Vector和Actian Matrix的創建。它有Apache,Cloudera,Hortonworks以及其他發行版本可供選擇。
Ⅳ 大數據分析的工具有哪些
1、Hadoop
Hadoop 是一個能夠對大量數據進行分布式處理的軟體框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區伺服器,因此它的成本比較低,任何人都可以使用。
2、HPCC
HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。1993年,由美國科學、工程、技術聯邦協調理事會向國會提交了“重大挑戰項目:高性能計算與 通信”的報告,也就是被稱為HPCC計劃的報告,即美國總統科學戰略項目,其目的是通過加強研究與開發解決一批重要的科學與技術挑戰問題。HPCC是美國 實施信息高速公路而上實施的計劃,該計劃的實施將耗資百億美元,其主要目標要達到:開發可擴展的計算系統及相關軟體,以支持太位級網路傳輸性能,開發千兆 比特網路技術,擴展研究和教育機構及網路連接能力。
3、Storm
Storm是自由的開源軟體,一個分布式的、容錯的實時計算系統。Storm可以非常可靠的處理龐大的數據流,用於處理Hadoop的批量數據。Storm很簡單,支持許多種編程語言,使用起來非常有趣。
4、Apache Drill
為了幫助企業用戶尋找更為有效、加快Hadoop數據查詢的方法,Apache軟體基金會近日發起了一項名為“Drill”的開源項目。Apache Drill 實現了 Google's Dremel.
據Hadoop廠商MapR Technologies公司產品經理Tomer Shiran介紹,“Drill”已經作為Apache孵化器項目來運作,將面向全球軟體工程師持續推廣。
5、RapidMiner
RapidMiner是世界領先的數據挖掘解決方案,在一個非常大的程度上有著先進技術。它數據挖掘任務涉及范圍廣泛,包括各種數據藝術,能簡化數據挖掘過程的設計和評價。
6、Pentaho BI
Pentaho BI 平台不同於傳統的BI 產品,它是一個以流程為中心的,面向解決方案(Solution)的框架。其目的在於將一系列企業級BI產品、開源軟體、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。
Ⅵ 大數據常用工具有哪些
第一,Hadoop
Hadoop是用於分布式處理的大量數據軟體框架。但是Hadoop以可靠,高效和可擴展的方式進行處理。Hadoop是可靠的,因為它假定計算元素和存儲將發生故障,因此它維護工作數據的多個副本以確保可以為故障節點重新分配處理。Hadoop之所以高效是因為它可以並行工作,並通過並行處理來加快處理速度。Hadoop還具有可伸縮性,可以處理PB級的數據。此外,Hadoop依賴社區伺服器,因此其成本相對較低,任何人都可以使用它。
第二,HPCC
HPCC,高性能計算和通信(High Performance Performance and Communications,高性能計算和通信)的縮寫。1993年,美國科學,工程和技術聯邦協調委員會向國會提交了有關“重大挑戰項目:高性能計算和通信”的報告,也被稱為HPCC計劃的報告,即美國。總統的科學戰略項目。目的是通過加強研發來解決許多重要的科學技術挑戰。HPCC是一項計劃在美國實施信息高速公路。該計劃的實施將耗資數百億美元。它的主要目標是開發可擴展的計算系統和相關軟體,以支持TB級網路傳輸性能並開發數千美元。兆位網路技術擴展了研究和教育機構以及網路連接能力。
第三,暴風雨
Storm是免費的開源軟體,是一種分布式的,容錯的實時計算系統。Storm可以非常可靠地處理大量數據流,並用於處理Hadoop批處理數據。Storm非常簡單,支持多種編程語言,並且使用起來非常有趣。Storm由Twitter開源,其他知名的應用程序公司包括Groupon,淘寶,支付寶,阿里巴巴,Le Element,Admaster等。
Ⅶ 常用的大數據工具有哪些
大數據分析的前瞻性使得很多公司以及企業都開始使用大數據分析對公司的決策做出幫助,而大數據分析是去分析海量的數據,所以就不得不藉助一些工具去分析大數據,。一般來說,數據分析工作中都是有很多層次的,這些層次分別是數據存儲層、數據報表層、數據分析層、數據展現層。對於不同的層次是有不同的工具進行工作的。下面小編就對大數據分析工具給大家好好介紹一下。
首先我們從數據存儲來講數據分析的工具。我們在分析數據的時候首先需要存儲數據,數據的存儲是一個非常重要的事情,如果懂得資料庫技術,並且能夠操作好資料庫技術,這就能夠提高數據分析的效率。而數據存儲的工具主要是以下的工具。
1、MySQL資料庫,這個對於部門級或者互聯網的資料庫應用是必要的,這個時候關鍵掌握資料庫的庫結構和SQL語言的數據查詢能力。
2、SQL Server的最新版本,對中小企業,一些大型企業也可以採用SQL Server資料庫,其實這個時候本身除了數據存儲,也包括了數據報表和數據分析了,甚至數據挖掘工具都在其中了。
3、DB2,Oracle資料庫都是大型資料庫了,主要是企業級,特別是大型企業或者對數據海量存儲需求的就是必須的了,一般大型資料庫公司都提供非常好的數據整合應用平台;
接著說數據報表層。一般來說,當企業存儲了數據後,首先要解決報表的問題。解決報表的問題才能夠正確的分析好資料庫。關於數據報表所用到的數據分析工具就是以下的工具。
1、Crystal Report水晶報表,Bill報表,這都是全球最流行的報表工具,非常規范的報表設計思想,早期商業智能其實大部分人的理解就是報表系統,不藉助IT技術人員就可以獲取企業各種信息——報表。
2、Tableau軟體,這個軟體是近年來非常棒的一個軟體,當然它已經不是單純的數據報表軟體了,而是更為可視化的數據分析軟體,因為很多人經常用它來從資料庫中進行報表和可視化分析。
第三說的是數據分析層。這個層其實有很多分析工具,當然我們最常用的就是Excel,我經常用的就是統計分析和數據挖掘工具;
1、Excel軟體,首先版本越高越好用這是肯定的;當然對Excel來講很多人只是掌握了5%Excel功能,Excel功能非常強大,甚至可以完成所有的統計分析工作!但是我也常說,有能力把Excel玩成統計工具不如專門學會統計軟體;
2、SPSS軟體:當前版本是18,名字也改成了PASW Statistics;我從3.0開始Dos環境下編程分析,到現在版本的變遷也可以看出SPSS社會科學統計軟體包的變化,從重視醫學、化學等開始越來越重視商業分析,現在已經成為了預測分析軟體。
最後說表現層的軟體。一般來說表現層的軟體都是很實用的工具。表現層的軟體就是下面提到的內容。
1、PowerPoint軟體:大部分人都是用PPT寫報告。
2、Visio、SmartDraw軟體:這些都是非常好用的流程圖、營銷圖表、地圖等,而且從這里可以得到很多零件;
3、Swiff Chart軟體:製作圖表的軟體,生成的是Flash
Ⅷ 常用的大數據分析軟體有哪些
數據分析的工具千萬種,綜合起來萬變不離其宗。無非是數據獲取、數據存儲、數據管理、數據計算、數據分析、數據展示等幾個方面。而SAS、R、SPSS、python、excel是被提到頻率最高的數據分析工具。
Ⅸ 常見的大數據開發工具有哪些
1.Hadoop
Hadoop是一個由Apache基金會所開發的分布式體系基礎架構。用戶能夠在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。Hadoop是一個能夠對很多數據進行分布式處理的軟體結構。Hadoop 以一種牢靠、高效、可伸縮的方式進行數據處理。
2.Apache Hive
Hive是一個建立在Hadoop上的開源數據倉庫基礎設施,經過Hive能夠很簡略的進行數據的ETL,對數據進行結構化處理,並對Hadoop上大數據文件進行查詢和處理等。 Hive供給了一種簡略的類似SQL的查詢言語—HiveQL,這為了解SQL言語的用戶查詢數據供給了便利。
3. Apache Spark
Apache Spark是Hadoop開源生態體系的新成員。它供給了一個比Hive更快的查詢引擎,由於它依賴於自己的數據處理結構而不是依靠Hadoop的HDFS服務。一起,它還用於事情流處理、實時查詢和機器學習等方面。
4. Keen IO
Keen IO是個強壯的移動應用分析東西。開發者只需要簡略到一行代碼, 就能夠跟蹤他們想要的關於他們應用的任何信息。開發者接下來只需要做一些Dashboard或者查詢的工作就能夠了。
5. Ambari
Apache Ambari是一種基於Web的東西,支撐Apache Hadoop集群的供給、管理和監控。Ambari已支撐大多數Hadoop組件,包含HDFS、MapRece、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。
6. Flume
Flume是Cloudera供給的一個高可用的,高牢靠的,分布式的海量日誌搜集、聚合和傳輸的體系,Flume支撐在日誌體系中定製各類數據發送方,用於搜集數據;一起,Flume供給對數據進行簡略處理,並寫到各種數據接受方(可定製)的才能。
7.MapRece
MapRece是一種編程模型,用於大規模數據集(大於1TB)的並行運算。概念"Map(映射)"和"Rece(歸約)",是它們的首要思維,都是從函數式編程言語里借來的,還有從矢量編程言語里借來的特性。它極大地便利了編程人員在不會分布式並行編程的情況下,將自己的程序運行在分布式體繫上。
關於常見的大數據開發工具有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
Ⅹ 大數據平台的軟體有哪些
一、Phoenix
簡介:這是一個Java中間層,可以讓開發者在Apache HBase上執行SQL查詢。Phoenix完全使用Java編寫,代碼位於GitHub上,並且提供了一個客戶端可嵌入的JDBC驅動。
Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan,並編排執行以生成標準的JDBC結果集。直接使用HBase API、協同處理器與自定義過濾器,對於簡單查詢來說,其性能量級是毫秒,對於百萬級別的行數來說,其性能量級是秒
二、Stinger
簡介:原叫Tez,下一代Hive,Hortonworks主導開發,運行在YARN上的DAG計算框架。
某些測試下,Stinger能提升10倍左右的性能,同時會讓Hive支持更多的SQL,其主要優點包括:
❶讓用戶在Hadoop獲得更多的查詢匹配。其中包括類似OVER的字句分析功能,支持WHERE查詢,讓Hive的樣式系統更符合SQL模型。
❷優化了Hive請求執行計劃,優化後請求時間減少90%。改動了Hive執行引擎,增加單Hive任務的被秒處理記錄數。
❸在Hive社區中引入了新的列式文件格式(如ORC文件),提供一種更現代、高效和高性能的方式來儲存Hive數據。
三、Presto
簡介:Facebook開源的數據查詢引擎Presto ,可對250PB以上的數據進行快速地互動式分析。該項目始於 2012 年秋季開始開發,目前該項目已經在超過 1000 名 Facebook 雇員中使用,運行超過 30000 個查詢,每日數據在 1PB 級別。Facebook 稱 Presto 的性能比諸如 Hive 和 Map*Rece 要好上 10 倍有多。
Presto 當前支持 ANSI SQL 的大多數特效,包括聯合查詢、左右聯接、子查詢以及一些聚合和計算函數;支持近似截然不同的計數(DISTINCT COUNT)等。