Twitter如何推动大数据的开源与民主化

 

twitter-as-a-global-mood-ringTwitter最近在其大数据工具的开源上动作频频,最新开源的两个工具是Cassie——一个Scala客户端用于管理超过1000个的Cassandra集群节点,和Scalding——一个MapReduce框架用于简化Hadoop工作的创建。如果您还认为大数据是一种黑箱魔术,那么该换换脑筋了。

Twitter这两年一直活跃在开源第一线,因为需要处理海量数据,Twitter公开了很多数据处理工具。在Twitter开源的的项目中,包括Gizzard,一个中间件框架用于分布式数据库;FlockDB,一个图形数据库管理Twitter的社交图景;以及Storm,一个流处理引擎用于处理实时数据。

在Twitter最新发布的两个工具中,Scalding也许是最引人注目的,因为整个IT业都对Hadoop趋之若鹜。在Twitter工程师博客中,Twitter数据科学家Edwin Chen如是描述Scalding:

“Scalding是Twitter最近开源的一个内部部署的MapReduce框架。与(Apache)Pig类似的是,Scalding在MapReduce之上提供了一个抽象层,可以用简洁的句法编写大数据任务。与Pig不同的是,Scalding完全用Scala编写——这意味着Scala和JVM的功能已经内建。不再需要UDFs了,筒子们!

此外,Scalding不会强制你编写原生的Map和Reduce功能,它允许你使用自然代码…

Chen还演示了一些Scalding的一些简单应用例子,例如将人们的电影爱好与他们的Foursquare签到进行关联。在电影这个例子中,Chen演示了采集和解析各种数据所需的代码,以及在Hadoop中运行任务的简单命令。

Twitter的开源工作的意义不仅仅在于其对大数据民主化的推动。我们看到一个更宏大的趋势正在浮现——在创业公司、大型软件供应商以及Twitter这样的互联网企业的努力下,开源大数据工具的涌现正在使普通人也能完成大数据分析工作,而不再局限于那些头顶着数据科学家光环的人群。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:
标签: ,


关于作者

主要关注社会化商务时代的客户关系管理、业务流程管理、数据挖掘、商业智能和企业协作等领域的新技术、新应用和新趋势。曾长期从事信息化咨询服务和软件开发工作,服务过首都机场、国家电网公司、中国蓝星等企业。邮箱:guanzhigang@ctocio.com