当前位置:首页 » 工具五金 » 大数据开源工具有哪些
扩展阅读
大学收学费用什么软件 2025-05-17 13:51:11
工资挂什么费用 2025-05-17 13:21:25

大数据开源工具有哪些

发布时间: 2022-05-13 03:07:36

Ⅰ 科技公司钟爱的50款开源工具

大数据
1. Hadoop

Apache主持的这个项目是最广为人知的大数据工具。众多公司为Hadoop提供相关产品或商业支持,包括亚马逊网络服务、Cloudera、Hortonworks、IBM、Pivotal、Syncsort和VMware。知名用户包括:阿里巴巴、美国在线、电子港湾、Facebook、谷歌、Hulu、领英、Spotify、推特和雅虎。

支持的操作系统:Windows、Linux和OS X

相关网站:http://hadoop.apache.org

2. Hypertable

Hypertable在互联网公司当中非常流行,它由谷歌开发,用来提高数据库的可扩展性。用户包括网络、电子港湾、Groupon和Yelp。它与Hadoop兼容,提供商业支持和培训。

支持的操作系统:Linux和OS X

相关网站:http://www.hypertable.com

3. Mesos

Apache Mesos是一种资源抽象工具,有了它,企业就可以鼗整个数据中心当成一个资源池,它在又在运行Hadoop、Spark及类似应用程序的公司当中很流行。使用它的企业组织包括:Airbnb、欧洲原子核研究组织(CERN)、思科、Coursera、Foursquare、Groupon、网飞(Netflix)、推特和优步。

支持的操作系统:Linux和OS X

相关网站:http://mesos.apache.org

4. Presto

Presto由Facebook开发,自称是“一款开源分布式SQL查询引擎,用于对大大小小(从GB级到PB级)的数据源运行交互式分析查询。”Facebook表示,它将Presto用于对300PB大小的数据仓库执行查询,其他用户包括Airbnb和Dropbox。

支持的操作系统:Linux

相关网站:https://prestodb.io

5. Solr

这种“快若闪电”的企业搜索平台声称高度可靠、扩展和容错。使用它的公司包括:AT&T、Ticketmaster、康卡斯特、Instagram、网飞、IBM、Adobe和SAP Hybris。

支持的操作系统:与操作系统无关

相关网站:http://lucene.apache.org/solr/

6. Spark

Apache Spark声称,“它在内存中运行程序的速度比Hadoop MapRece最多快100倍,在磁盘上快10倍。”Spark“支持”的企业组织包括:亚马逊、网络、Groupon、日立解决方案、IBM、MyFitnessPal、诺基亚和雅虎。

支持的操作系统:Windows、Linux和OS X

相关网站:http://spark.apache.org

7. Storm

正如Hadoop用来处理批量数据,Apache Storm用来处理实时数据。官方网站上显示用户包括:天气频道、推特、雅虎、WebMD、Spotify、威瑞信(Verisign)、Flipboard和Klout。

支持的操作系统:Linux

相关网站:https://storm.apache.org

云计算
8. Cloud Foundry

Cloud Foundry提供用于构建平台即服务的开源工具。它声称“由行业领袖为行业领袖构建”,其支持者包括IBM、 Pivotal、惠普企业、VMware、英特尔、SAP和EMC。

支持的操作系统:Linux

相关网站:https://www.cloudfoundry.org

9. CloudStack

这个交钥匙IaaS解决方案构成了许多公共云和私有云的基础。它的用户极多,包括阿尔卡特-朗讯、苹果、Autodesk、英国电信、冠群科技、思杰、Cloudera、戴尔、富士通、SAP和韦里逊。

支持的操作系统:与操作系统无关

相关网站:http://cloudstack.apache.org

10. OpenStack

这种很受欢迎的云计算平台声称,“世界上成百上千个大品牌”每天依赖它。支持者包括:AT&T、Ubuntu、惠普企业、IBM、英特尔、Rackspace、红帽、SUSE、思科、戴尔、EMC、赛门铁克及另外许多知名科技公司。

支持的操作系统:与操作系统无关

相关网站:http://www.openstack.org

11. Scalr

这种云管理平台备受市场研究公司的好评,它简化了管理多个云环境的过程。知名用户包括Expedia、三星、美国宇航局喷气推进实验室、埃森哲、索尼和Autodesk。

支持的操作系统:Linux

相关网站:http://www.scalr.com

容器
12. Docker

Docker在相对新兴的容器领域迅速确立起了主导平台这一地位。科技界的许多大牌公司在构建或提供扩展或使用Docker技术的产品,包括亚马逊、微软、IBM、惠普企业、红帽、Rackspace和Canonical。

支持的操作系统:Windows、Linux和OS X

相关网站:https://www.docker.com

输入标题 内容管理
13. DNN

这款内容管理解决方案之前名为DotNetNuke,承诺构建丰富的交互式网站时,只要花较少的精力,就能收到显着的成效。用户包括佳能、时代华纳有线电视、德州仪器和美国银行。

支持的操作系统:Windows

相关网站:http://www.dnnsoftware.com

14. Drupal

Drupal声称,98000多个开发人员在为这个极其流行的内容管理系统积极贡献代码。支持者包括微软、Zend、Fastly和New Relic,其内容市场有数百家公司参与其中,它们提供了相关的产品和服务。

支持的操作系统:与操作系统无关

相关网站:https://www.drupal.org

15. Joomla

Joomla为数百万个网站提供平台,其下载量超过了5000万人次。许多用户当中就有这些公司:电子港湾、巴诺书店、MTV和标致。

支持的操作系统:与操作系统无关

相关网站:https://www.joomla.org

16. MediaWiki

MediaWiki以维基网络使用的软件而出名,它还为网络、Vistaprint、Novell、英特尔和美国宇航局支持网站。它是构建可编辑网页的不错选择,许多企业组织用它来构建内部知识库。

支持的操作系统:Windows、Linux/Unix和OS X

相关网站:https://www.mediawiki.org/wiki/MediaWiki

数据库
17. Cassandra

这种NoSQL数据库由Facebook开发,其用户包括苹果、欧洲原子核研究组织(CERN)、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、网飞、Reddit及其他科技公司。它支持极其庞大的数据集,声称拥有非常高的性能和出色的耐用性和弹性。可通过第三方获得支持。

支持的操作系统:与操作系统无关

相关网站:http://cassandra.apache.org

18. CouchDB

CouchDB为Web而开发,这种NoSQL数据库将数据存储在JSON文档中,这类文档可通过HTTP来加以查询,并用JavaScript来处理。Cloudant现在归IBM所有,它提供一款专业人员支持的软件版本,用户包括:三星、Akamai、Expedia、微软游戏工作室及其他公司。

支持的操作系统:Windows、Linux、OS X和安卓

相关网站:http://couchdb.apache.org

19. MongoDB

MongoDB是一种NoSQL数据库,声称“针对关键任务型部署环境进行了优化”,用户包括Foursquare、《福布斯》、Pebble、Adobe、领英、eHarmony及其他公司。提供收费的专业版和企业版。

支持的操作系统:Windows、Linux、OS X和Solaris

相关网站:http://www.mongodb.org

20. MySQL

MySQL自称是“世界上最流行的开源数据库”,备受众多互联网公司的青睐,比如YouTube、贝宝、谷歌、Facebook、推特、电子港湾、领英、优步和亚马逊。除了免费社区版外,它还有多款收费版。最新更新版声称速度比老版本快三倍。

支持的操作系统:Windows、Linux、Unix和OS X

相关网站:http://www.mysql.com

21. Neo4j

Neo4J自诩为“世界上领先的图形数据库”,用于欺诈检测、推荐引擎、社交网站、主数据管理及更多领域。用户包括电子港湾、沃尔玛、思科、惠普、埃森哲、CrunchBase、eHarmony、Care.com及另外许多企业组织。

支持的操作系统:Windows和Linux

相关网站:http://neo4j.com

开发工具
22. Bugzilla

Bugzilla是开源社区的宠儿,用户包括Mozilla、Linux基金会、GNOME、KDE、Apache、LibreOffice、Open Office、Eclipse、红帽、Novell及其他公司。这款软件缺陷追踪系统(bugtracker)的重要功能包括:高级搜索功能、电子邮件通知、预定报告、时间追踪、出色的安全及更多特性。

支持的操作系统:Windows、Linux和OS X

相关网站:https://www.bugzilla.org

23. Eclipse

Eclipse项目最为知名的是,它是一种大受欢迎的面向Java的集成开发环境(IDE),它还提供面向C/C++和PHP的IDE,此外提供另外一大批开发工具。主要支持者包括冠群科技、谷歌、IBM、甲骨文、红帽和SAP。

支持的操作系统:与操作系统无关

相关网站:http://www.eclipse.org

24. Ember.js

这种框架用于“构建野心勃勃的Web应用程序”,旨在为JavaScript开发人员提高工作效率。官方网站上显示用户包括雅虎、Square、Livingsocial、Groupon、Twitch、TED、网飞、Heroku和微软。

支持的操作系统:与操作系统无关

相关网站: http://emberjs.com

25. Grunt

Grunt是一种JavaScript任务运行工具,有助于自动处理重复性的开发任务。使用它的知名科技公司包括:Adobe、推特、Mozilla、Cloudant和WordPress。

支持的操作系统:与操作系统无关

相关网站:http://gruntjs.com

26. LoopBack

这个Node.js框架旨在让用户很容易构建REST API,并连接到后端数据存储区。知名用户包括GoDaddy、美国能源部和赛门铁克。

支持的操作系统:Windows、Linux、OS X、安卓和iOS

相关网站:http://loopback.io

27. Node.js

Node.js的成名之处在于,它让开发人员可以使用JavaScript,编写服务器端应用程序。开发工作之前由Joyent管控,现在交由Node.js基金会监管。用户包括IBM、微软、雅虎、SAP、领英、贝宝和网飞。

支持的操作系统:Windows、Linux和OS X

相关网站:https://nodejs.org/en/

28. PhoneGap

Apache Cordova是一种开源框架,让开发人员可以使用HTML、CSS和JavaScript等Web技术,构建移动应用程序。PhoneGap是最受欢迎的Cordova发行版。使用某一种Cordova发行版的科技公司包括:维基网络、Facebook、 Salesforce、IBM、微软、Adobe和黑莓。

支持的操作系统:Window、Linux和OS X

相关网站:http://phonegap.com

29. React Native

React Native由Facebook开发,这种框架可用于使用JavaScript和React JavaScript库(同样由Facebook开发),构建原生移动应用程序。其他用户包括:《探索》频道和CBS体育新闻网。

支持的操作系统:OS X

相关网站:http://facebook.github.io/react-native/

30. Ruby on Rails

这个Web开发框架在开发人员当中极其流行,它声称“为确保编程员满意和持续高效地工作进行了优化”。用户包括Basecamp、推特、Shopify和GitHub等公司。

支持的操作系统:Windows、Linux和OS X

相关网站:http://rubyonrails.org

31. Sencha Touch

Sencha Touch自称是“一种用于构建通用移动应用程序的领先的跨平台移动Web应用程序框架,基于HTML5和JavaScript”。它既有开源许可证版本,也有商业许可证版本。据官方网站声称,《财富》100强中60%使用它。

支持的操作系统:与操作系统无关

相关网站:https://www.sencha.com/procts/touch/

32. ZK

索尼、Sun、IBM、Adobe、电子港湾、富士通、梦工厂和优利系统等公司使用这种Java Web框架来构建Web和移动应用程序。提供收费支付及相关工具。

支持的操作系统:与操作系统无关

相关网站:http://www.zkoss.org

中间件
33. JBoss

红帽的JBoss中间件包括各种轻量级、对云计算友好的工具,同时结合、集成和自动化各个企业应用程序和系统。用户包括:橡树岭国家实验室、日产、思科、冠群科技、AMD及其他公司。

支持的操作系统:Linux

相关网站:http://www.redhat.com/en/technologies/jboss-middleware

操作系统
34. 红帽企业版Linux

红帽最知名的产品就是其旗舰Linux发行版,这需要付费订购。据该公司声称,《财富》全球500强公司中超过90%在使用红帽产品。

相关网站:http://www.redhat.com/en/technologies/linux-platforms/enterprise-linux

35. SUSE Linux企业版

这款面向企业的Linux发行版同样备受大企业的追捧,它也需要付费订购。该公司声称,它有13000多个企业用户,包括伦敦证券交易所、SAP、天睿(Teradata)和沃尔格林连锁药店(Walgreens)。

相关网站:https://www.suse.com

36. Ubuntu

Ubuntu提供广受欢迎的Linux发行版,有多个版本:桌面版、服务器版、云版、手机版、平板电脑版和物联网版。声称用户包括亚马逊、IBM、维基网络和英伟达。

相关网站:http://www.ubuntu.com/index_kylin

项目管理
37. Project Libre

这个屡获奖项的项目是微软Project的替代者,下载量已有近200万人次。它有一大批用户,包括IBM、埃森哲、美国能源部、思科、ATI和AMD。

支持的操作系统:Windows、Linux和OS X

相关网站:http://www.projectlibre.org

存储
38. FreeNAS

这款开源网络附加存储(NAS)软件声称,它备受联合国、迪士尼互动媒体集团、路透社和Dr. Phil等用户的“喜爱”。它可以安装到几乎任何硬件上,而TrueNAS提供的预先构建的设备就基于该技术。

支持的操作系统:FressBSD

相关网站:http://www.freenas.org

39. Gluster

Gluster是一种可高度扩展的网络文件系统,适合云计算环境。红帽提供一款基于该技术的收费产品,用户包括卡西欧和Intuit。

支持的操作系统:Linux

相关网站:http://www.gluster.org

40. Lustre

Lustre是另一种可高度扩展的文件系统,旨在支持高性能计算(HPC)环境。一些最早采用它的用户包括美国的几大国家实验室:劳伦斯·利物莫尔国家实验室、桑迪亚国家实验室、橡树岭国家实验室和洛斯阿拉莫斯国家实验室。

支持的操作系统:Linux

相关网站:http://lustre.org

系统管理工具
41. Ansible

Ansible现在归红帽所有,它自称是“一种异常简单的IT自动化引擎,可以使云服务配置、配置管理、应用程序部署、服务内部的编排以及其他许多IT操作实现自动化。”使用它的科技公司包括:思科、瞻博网络、Evernote、推特、威瑞信、GoPro、EA Sports、Atlassian和韦里逊。它既有免费版,也有收费版。

支持的操作系统:Linux

相关网站:http://www.ansibleworks.com

42. Chef

作为另一款自动化工具,Chef支持开发运维方法,同时改善了速度、协作和安全性。拥有免费版和收费版。官方网站上显示用户包括:塔吉特(Target)、诺德斯特龙(Nordstrom)、Facebook、Etsy、IGM、雅虎和彭博社。

支持的操作系统:Windows、Linux和OS X

相关网站:https://www.chef.io/chef/

43. Hudson

Hudson在使用敏捷和开发运维方法的企业当中很流行,它是一种可扩展的持续集成服务器系统,可以监控重复作业的执行。这个项目得到了Eclipse基金会、甲骨文、Atlassian和YourKit的支持。

支持的操作系统:与操作系统无关

相关网站:http://hudson-ci.org

44. Puppet

Puppet号称“使用最广泛的开源IT管理系统”,它包括40多个基础设施管理方面的开源项目。除了开源版本外,它还有一款收费的企业版本。它声称,用户包括25000多家企业,比如迪士尼、沃尔玛、1-800-Flowers.com、Heartland Payment Systems、盖蒂图片社(Getty Images)和Yelp。

支持的操作系统:Windows、Linux、Unix和OS X

相关网站:https://puppetlabs.com/puppet/open-source-projects

版本控制
45. Bazaar

Bazaar由Canonical管理,被许多开源项目所使用,包括Ubuntu、 GNU基金会、Linux基金会、MySQL、Bugzilla、 Debian和Maria DB。它简单易学,支持任何工作流程和工作区间模式,承诺存储效率很高、速度很快。

支持的操作系统:Windows、Linux和OS X

相关网站:http://bazaar.canonical.com/en/

46. Git

这个版本控制系统已变得极受欢迎,这一方面归功于GitHub服务的使用日益广泛。使用它的公司和项目包括:谷歌、Facebook、微软、推特、领英、网飞、Perl、PostgreSQL、安卓、Rails、QT、Gnome和Eclipse。

支持的操作系统:Windows、Linux和OS X

相关网站:http://git-scm.com

47. Mercurial

Mercurial是一种分布式源代码控制管理工具,专注于帮助团队更轻松、更快速地协同工作。用户包括OpenJDK和NetBeans等各大项目。

支持的操作系统:Windows、Linux和OS X

相关网站:https://www.mercurial-scm.org

48. Subversion

这个企业级版本控制系统得到Apache的支持,首次发布于2000年。使用它的企业组织包括Apache软件基金会自己、Hobby Lobby、Mono、Plone和GNU Enterprise。

支持的操作系统:Windows、Linux和OS X

相关网站:http://subversion.apache.org

Web服务器
49. Apache HTTP Server

Apache至今已有20年多的历史,专利是自1996年以来互联网上最受欢迎的Web服务器系统。据W3Techs声称,目前所有网站中55.3%是由Apache支持的。

支持的操作系统:Windows、Linux和OS X

相关网站:http://httpd.apache.org

50. Nginx

Nginx的人气也极旺,它被互联网上所有网站中的大约四分之一所使用。除了俄罗斯许多访问量很大的网站外,用户还包括网飞和WordPress.com。

支持的操作系统:Windows、Linux和OS X

相关网站:http://nginx.org

Ⅱ 大数据分析 哪些工具经常会用到

说一些我常用到的大数据分析工具
1.专业的大数据分析工具
2.各种Python数据可视化第三方库
3.其它语言的数据可视化框架
一、专业的大数据分析工具
1、FineReport
FineReport是一款纯Java编写的、集数据展示(报表)和数据录入(表单)功能于一身的企业级web报表工具,只需要简单的拖拽操作便可以设计复杂的中国式报表,搭建数据决策分析系统。
2、FineBI
FineBI是新一代自助大数据分析的商业智能产品,提供了从数据准备、自助数据处理、数据分析与挖掘、数据可视化于一体的完整解决方案,也是我比较推崇的可视化工具之一。
FineBI的使用感同Tableau类似,都主张可视化的探索性分析,有点像加强版的数据透视表。上手简单,可视化库丰富。可以充当数据报表的门户,也可以充当各业务分析的平台。
二、Python的数据可视化第三方库
Python正慢慢地成为数据分析、数据挖掘领域的主流语言之一。在Python的生态里,很多开发者们提供了非常丰富的、用于各种场景的数据可视化第三方库。这些第三方库可以让我们结合Python语言绘制出漂亮的图表。
1、pyecharts
Echarts(下面会提到)是一个开源免费的javascript数据可视化库,它让我们可以轻松地绘制专业的商业数据图表。当Python遇上了Echarts,pyecharts便诞生了,它是由chenjiandongx等一群开发者维护的Echarts Python接口,让我们可以通过Python语言绘制出各种Echarts图表。
2、Bokeh
Bokeh是一款基于Python的交互式数据可视化工具,它提供了优雅简洁的方法来绘制各种各样的图形,可以高性能的可视化大型数据集以及流数据,帮助我们制作交互式图表、可视化仪表板等。
三、其他数据可视化工具
1、Echarts
前面说过了,Echarts是一个开源免费的javascript数据可视化库,它让我们可以轻松地绘制专业的商业数据图表。
大家都知道去年春节以及近期央视大规划报道的网络大数据产品,如网络迁徙、网络司南、网络大数据预测等等,这些产品的数据可视化均是通过ECharts来实现的。
2、D3
D3(Data Driven Documents)是支持SVG渲染的另一种JavaScript库。但是D3能够提供大量线性图和条形图之外的复杂图表样式,例如Voronoi图、树形图、圆形集群和单词云等。

Ⅲ 大数据分析工具都有哪些

大数据分析工具好用的有以下几个,分别是Excel、BI工具、Python、Smartbi、Bokeh、Storm、Plotly等。

1、Excel

Excel可以称得上是最全能的数据分析工具之一,包括表格制作、数据透视表、VBA等等功能,保证人们能够按照需求进行分析。

2、BI工具

BI也就是商业智能,BI工具的产品设计,几乎是按照数据分析的流程来设计的。先是数据处理、整理清洗,再到数据建模,最后数据可视化,全程围绕数据指导运营决策的思想。由于功能聚焦,产品操作起来也非常简洁,依靠拖拉拽就能完成大部分的需求,没有编程基础的业务人员也能很快上手。

3、Python

python在数据分析领域,确实称得上是一个强大的语言工具。尽管入门的学习难度要高于Excel和BI,但是作为数据科学家的必备工具,从职业高度上讲,它肯定是高于Excel、BI工具的。尤其是在统计分析和预测分析等方面,Python等编程语言更有着其他工具无可比拟的优势。

4、思迈特软件Smartbi

融合传统BI、自助BI、智能BI,满足BI定义所有阶段的需求;提供数据连接、数据准备、数据分析、数据应用等全流程功能;提供复杂报表、数据可视化、自助探索分析、机器学习建模、预测分析、自然语言分析等全场景需求;满足数据角色、分析角色、管理角色等所有用户的需求。

5、Bokeh

这套可视化框架的主要目标在于提供精致且简洁的图形处理结果,用以强化大规模数据流的交互能力。其专门供Python语言使用。

6、Storm

Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

7、 Plotly

这是一款数据可视化工具,可兼容JavaScript、MATLAB、Python以及R等语言。Plotly甚至能够帮助不具备代码编写技能或者时间的用户完成动态可视化处理。这款工具常由新一代数据科学家使用,因为其属于一款业务开发平台且能够快速完成大规模数据的理解与分析。

Ⅳ 大数据常用开发工具

1. Apache Hive
Hive是一个建立在Hadoop上的开源数据仓库基础设施,通过Hive可以很容易的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。Hive提供了一种简单的类似SQL的查询语言—HiveQL,这为熟悉SQL语言的用户查询数据提供了方便。
2. Apache Spark
Apache Spark是Hadoop开源生态系统的新成员。它提供了一个比Hive更快的查询引擎,因为它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS服务。同时,它还用于事件流处理、实时查询和机器学习等方面。
3. Jaspersoft BI 套件
Jaspersoft包是一个通过数据库列生成报表的开源软件。行业领导者发现Jaspersoft软件是一流的,许多企业已经使用它来将SQL表转化为pdf,,这使每个人都可以在会议上对其进行审议。另外,JasperReports提供了一个连接配置单元来替代HBase。
4. Keen IO
Keen IO是个强大的移动应用分析工具。开发者只需要简单到一行代码, 就可以跟踪他们想要的关于他们应用的任何信息。开发者接下来只需要做一些Dashboard或者查询的工作就可以了。
5. Mortar Data
Mortar Data是专为开发者打造的Hadoop开发平台,它用Pig和Python的组合替代了MapRece以便开发者能简单地编写Hadoop管道(Pipeline)。
6. Placed Analytics
利用脚本语言以及API, PlacedAnalytics能够提供针对移动和网络应用的详细用户行为分析。包括, 用户使用时间和地理位置信息。 这些可以帮助开发者的应用更好地吸引广告商, 也可以帮助开发者对自己的应用进行改善。
7. Ingres Corp
它拥有超过一万客户而且正在扩增。它通过Vectorwise以及对ParAccel实现了扩展。这些发展分别导致了Actian Vector和Actian Matrix的创建。它有Apache,Cloudera,Hortonworks以及其他发行版本可供选择。

Ⅳ 大数据分析的工具有哪些

1、Hadoop


Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。


2、HPCC


HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。


3、Storm


Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。


4、Apache Drill


为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google's Dremel.


据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。


5、RapidMiner


RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。


6、Pentaho BI


Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。

Ⅵ 大数据常用工具有哪些

第一,Hadoop


Hadoop是用于分布式处理的大量数据软件框架。但是Hadoop以可靠,高效和可扩展的方式进行处理。Hadoop是可靠的,因为它假定计算元素和存储将发生故障,因此它维护工作数据的多个副本以确保可以为故障节点重新分配处理。Hadoop之所以高效是因为它可以并行工作,并通过并行处理来加快处理速度。Hadoop还具有可伸缩性,可以处理PB级的数据。此外,Hadoop依赖社区服务器,因此其成本相对较低,任何人都可以使用它。


第二,HPCC


HPCC,高性能计算和通信(High Performance Performance and Communications,高性能计算和通信)的缩写。1993年,美国科学,工程和技术联邦协调委员会向国会提交了有关“重大挑战项目:高性能计算和通信”的报告,也被称为HPCC计划的报告,即美国。总统的科学战略项目。目的是通过加强研发来解决许多重要的科学技术挑战。HPCC是一项计划在美国实施信息高速公路。该计划的实施将耗资数百亿美元。它的主要目标是开发可扩展的计算系统和相关软件,以支持TB级网络传输性能并开发数千美元。兆位网络技术扩展了研究和教育机构以及网络连接能力。


第三,暴风雨


Storm是免费的开源软件,是一种分布式的,容错的实时计算系统。Storm可以非常可靠地处理大量数据流,并用于处理Hadoop批处理数据。Storm非常简单,支持多种编程语言,并且使用起来非常有趣。Storm由Twitter开源,其他知名的应用程序公司包括Groupon,淘宝,支付宝,阿里巴巴,Le Element,Admaster等。

Ⅶ 常用的大数据工具有哪些

大数据分析的前瞻性使得很多公司以及企业都开始使用大数据分析对公司的决策做出帮助,而大数据分析是去分析海量的数据,所以就不得不借助一些工具去分析大数据,。一般来说,数据分析工作中都是有很多层次的,这些层次分别是数据存储层、数据报表层、数据分析层、数据展现层。对于不同的层次是有不同的工具进行工作的。下面小编就对大数据分析工具给大家好好介绍一下。

首先我们从数据存储来讲数据分析的工具。我们在分析数据的时候首先需要存储数据,数据的存储是一个非常重要的事情,如果懂得数据库技术,并且能够操作好数据库技术,这就能够提高数据分析的效率。而数据存储的工具主要是以下的工具。

1、MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。

2、SQL Server的最新版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。

3、DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台;

接着说数据报表层。一般来说,当企业存储了数据后,首先要解决报表的问题。解决报表的问题才能够正确的分析好数据库。关于数据报表所用到的数据分析工具就是以下的工具。

1、Crystal Report水晶报表,Bill报表,这都是全球最流行的报表工具,非常规范的报表设计思想,早期商业智能其实大部分人的理解就是报表系统,不借助IT技术人员就可以获取企业各种信息——报表。

2、Tableau软件,这个软件是近年来非常棒的一个软件,当然它已经不是单纯的数据报表软件了,而是更为可视化的数据分析软件,因为很多人经常用它来从数据库中进行报表和可视化分析。

第三说的是数据分析层。这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;

1、Excel软件,首先版本越高越好用这是肯定的;当然对Excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;

2、SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件。

最后说表现层的软件。一般来说表现层的软件都是很实用的工具。表现层的软件就是下面提到的内容。

1、PowerPoint软件:大部分人都是用PPT写报告。

2、Visio、SmartDraw软件:这些都是非常好用的流程图、营销图表、地图等,而且从这里可以得到很多零件;

3、Swiff Chart软件:制作图表的软件,生成的是Flash

Ⅷ 常用的大数据分析软件有哪些

数据分析的工具千万种,综合起来万变不离其宗。无非是数据获取、数据存储、数据管理、数据计算、数据分析、数据展示等几个方面。而SAS、R、SPSS、python、excel是被提到频率最高的数据分析工具。

Ⅸ 常见的大数据开发工具有哪些

1.Hadoop


Hadoop是一个由Apache基金会所开发的分布式体系基础架构。用户能够在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop是一个能够对很多数据进行分布式处理的软件结构。Hadoop 以一种牢靠、高效、可伸缩的方式进行数据处理。


2.Apache Hive


Hive是一个建立在Hadoop上的开源数据仓库基础设施,经过Hive能够很简略的进行数据的ETL,对数据进行结构化处理,并对Hadoop上大数据文件进行查询和处理等。 Hive供给了一种简略的类似SQL的查询言语—HiveQL,这为了解SQL言语的用户查询数据供给了便利。


3. Apache Spark


Apache Spark是Hadoop开源生态体系的新成员。它供给了一个比Hive更快的查询引擎,由于它依赖于自己的数据处理结构而不是依靠Hadoop的HDFS服务。一起,它还用于事情流处理、实时查询和机器学习等方面。


4. Keen IO


Keen IO是个强壮的移动应用分析东西。开发者只需要简略到一行代码, 就能够跟踪他们想要的关于他们应用的任何信息。开发者接下来只需要做一些Dashboard或者查询的工作就能够了。


5. Ambari


Apache Ambari是一种基于Web的东西,支撑Apache Hadoop集群的供给、管理和监控。Ambari已支撑大多数Hadoop组件,包含HDFS、MapRece、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。


6. Flume


Flume是Cloudera供给的一个高可用的,高牢靠的,分布式的海量日志搜集、聚合和传输的体系,Flume支撑在日志体系中定制各类数据发送方,用于搜集数据;一起,Flume供给对数据进行简略处理,并写到各种数据接受方(可定制)的才能。


7.MapRece


MapRece是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Rece(归约)",是它们的首要思维,都是从函数式编程言语里借来的,还有从矢量编程言语里借来的特性。它极大地便利了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式体系上。


关于常见的大数据开发工具有哪些,青藤小编就和您分享到这里了。如果您对大数据工程有浓厚的兴趣,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

Ⅹ 大数据平台的软件有哪些

一、Phoenix
简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动。
Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒
二、Stinger
简介:原叫Tez,下一代Hive,Hortonworks主导开发,运行在YARN上的DAG计算框架。
某些测试下,Stinger能提升10倍左右的性能,同时会让Hive支持更多的SQL,其主要优点包括:
❶让用户在Hadoop获得更多的查询匹配。其中包括类似OVER的字句分析功能,支持WHERE查询,让Hive的样式系统更符合SQL模型。
❷优化了Hive请求执行计划,优化后请求时间减少90%。改动了Hive执行引擎,增加单Hive任务的被秒处理记录数。
❸在Hive社区中引入了新的列式文件格式(如ORC文件),提供一种更现代、高效和高性能的方式来储存Hive数据。
三、Presto
简介:Facebook开源的数据查询引擎Presto ,可对250PB以上的数据进行快速地交互式分析。该项目始于 2012 年秋季开始开发,目前该项目已经在超过 1000 名 Facebook 雇员中使用,运行超过 30000 个查询,每日数据在 1PB 级别。Facebook 称 Presto 的性能比诸如 Hive 和 Map*Rece 要好上 10 倍有多。
Presto 当前支持 ANSI SQL 的大多数特效,包括联合查询、左右联接、子查询以及一些聚合和计算函数;支持近似截然不同的计数(DISTINCT COUNT)等。