DataSift架构曝光:每秒实时挖掘12万条Twitter内容

Twitter开放其数据管道Firehose对于社交大数据分析来说无疑是一个晴天大利好。利用Twitter实时数据你几乎能进行各种数据分析,从奥斯卡电影人气到美国总统支持率,再到产品用户满意度分析,可谓一座不设防的数据大金矿。

但是掘金Twitter“快数据”也对分析系统提出了很高要求,DataSift是少数能吃下Twitter数据的顶级社会化分析机器之一,DataSift从Twitter购买了多年的数据同步授权,能够访问所有Twitter管道数据,并将子集卖给第三方,主要是企业客户。目前只有Gnip获得了同样的授权。

DataSift的定位是实时社交数据挖掘平台,处理海量推文本身对于DataSift来说不算什么,DataSift的挑战是在互联网上向大规模用户提供Twitter数据分析服务。

要知道,是大数据概念让DataSift成为一个十亿美元俱乐部的成员。而DataSift的最大创新就是创建了一个互联网规模的关键词过滤系统,能够快速评估热门关键词(例如Lady Gaga),DataSift是如何做到这一点的呢,相信下面这个Data Sift的系统架构图能给你答案(点击查看大图):

Datasift twitter analysis architecture

从上图可以看出DataSift的架构包括:

    • ● 运行于SSD固态硬盘之上的MySQL(Percona server)
    • ● HBase集群(目前约30个Hadoop节点,400TB存储)
    • ● Memcashed(cache)
    • ● Redis(依然用于一些内部队列、但也许很快将弃用)

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

        在TMT领域具有十余年的咨询和创业经验。 目前主要关注信息安全,同时密切关注云计算、社会化媒体、移动、企业2.0等领域的技术创新和商业价值。拥有美国麻省理工学院MBA学位和清华大学经济管理学院学士学位,曾任BDA中国公司高级顾问,服务过美国高通、英特尔、中国网通、SK电讯、及沃达丰等公司。联系邮件:wangmeng@ctocio.com