Hadoop工具生态系统指南

Mapreduce chart

Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。

 

Hadoop

Apache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。

网址:hadoop.apache.org

 

HDFS

分布式文件系统提供高速的应用数据访问。

网址:hadoop.apache.org/hdfs/

 

MapReduce

在计算机集群上进行大数据分布式处理的软件框架。

 

亚马逊Elastic MapReduce

亚马逊Elastic MapReduce是一种web服务,能让企业、研究人员、数据分析师和开发者低成本快速处理海量数据。该服务是托管于亚马逊弹性云(EC2)和亚马逊S3存储云上的web大规模基础架构上的Hadoop框架。

网址:aws.amazon.com/elasticmapreduce/

 

Cloudera Hadoop发行版(CDH)

Cloudera的Hadoop发行版(CDH)为基于Hadoop的数据管理平台树立了新的标杆。

网址:cloudera.com/hadoop

 

ZooKeeper

针对分布式应用的高性能协调服务。ZooKeeper为配置信息、命名提供集中化管理服务,支持分布式同步,并提供群组服务。

网址:hadoop.apache.org/zookeeper/

 

HBase

可扩展的分布式数据库,支持大表(big table)的结构化数据存储。

网址:hbase.apache.org

 

Avro

数据序列化系统。与ThriftProtocolbuffers类似。

avro.apache.org

 

Sqoop

Sqoop(SQL-to-Hadoop),是命令行工具,有以下功能:

    • ● 将单独的表或者整个数据库导入HDFS文件
    • ● 通用Java库支持与导入数据的互动
    • ● 支持将SQL数据库直接导入你的Hive数据仓库

网址:cloudera.com/downloads/sqoop/

 

Flume

Flume是一个分布式高可靠的大数据传输服务。

网址:archive.cloudera.com/cdh/3/flume/

 

Hive

Hive是基于Hadoop的数据仓库基础架构,提供的工具能进行简便的数据汇总、ad-hoc查询,以及对存储在Hadoop文件中的大数据集的分析。Hive提供一种简单易用的查询语言——Hive QL,该语言基于SQL,这意味着那些对SQL熟悉的用户可以像使用SQL数据库一样查询大数据。Hive QL还云寻传统的map/reduce程序员插入他们自己的mappers和reducers,进行更为复杂的分析。

网址:hive.apache.org

 

Pig

Pig是一种高阶数据流语言和并行计算的执行框架。Apache Pig是一个大数据集分析平台,提供了一种表达数据分析程序的高阶语言,以及评估这些程序的基础架构。Pig程序的最大优点是其架构能为底层并行化进行调整,从而能处理非常大规模的数据集。

网址:pig.apache.org

 

Oozie

Oozie 是一个开源的工作流和协作服务引擎,为管理Apache hadoop数据处理任务提供工作流/协作服务。Oozie 是可扩展的、可伸缩的面向数据的服务,运行在Hadoop 平台上,协调Hadoop上运行的不同任务(包括HDFS,Pig和MapReduce)。

Oozie 包括一个离线的Hadoop处理的工作流解决方案,以及一个查询处理 API。

网址:yahoo.github.com/oozie

 

Cascading

Cascading是一个查询API和查询计划器,被用于定义和执行Hadoop集群上运行的复杂、可自由扩展、可容错的数据处理工作流。

网址:cascading.org

 

Cascalog

Cascalog一种能使在Hadoop上使用Clojure处理数据变得简单直观的工具。Cascalog综合了两大顶尖技术:Clojure和Hadoop,同时让Datalog焕发青春。Cascalog的特点是高性能、灵活和鲁棒。

网址:github.com/nathanmarz/cascalog

 

HUE

Hue是运营和开发Hadoop应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。

网址:archive.cloudera.com/cdh3/hue   更多信息:Cloudera blog

 

Chukwa

Chukwa是面向大型分布式系统的数据采集系统。Chukwa基于Hadoop HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和容错性。Chukwa还提供一个灵活而强大的工具包,用于显示、监控和分析分析结果,更好地利用所收集的数据。

网址:incubator.apache.org/chukwa/

 

Mahout

一种可扩展的机器学习和数挖掘库。

网址:mahout.apache.org

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:
标签:


关于作者

        在TMT领域具有十余年的咨询和创业经验。 目前主要关注信息安全,同时密切关注云计算、社会化媒体、移动、企业2.0等领域的技术创新和商业价值。拥有美国麻省理工学院MBA学位和清华大学经济管理学院学士学位,曾任BDA中国公司高级顾问,服务过美国高通、英特尔、中国网通、SK电讯、及沃达丰等公司。联系邮件:wangmeng@ctocio.com