Datasift:我们如何分析Twitter社交数据

twitter-bigdata

2006年3月21日,Jack Dorsey发出了史上第一条微博(tweet)。只用三年时间,Twitter就迎来了第10亿条推文。如今,Twitter每两天半就会产生10亿条推文,也就是每天4亿多条,每秒钟近5000条推文。对于社会化数据分析来说,这差不多相当于每天需要处理2TB新数据。

不久前Salesforce.com与Twitter签署了数据管道授权协议,这意味着Salesforce将能访问所有的Twitter公共数据(Firehose),也标志着企业应用与社交大数据分析的历史性对接。

关注大数据和社会化分析的企业不禁会问:Twitter的海量数据对于企业来说到底有什么价值?Twitter海量数据的分析过程是怎样的?作为同样获得Twitter授权的企业之一,社交媒体大数据分析公司Datasift在自己的官方博客上透露了Datasift分析Twitter数据的流程和方法:

Datasift的大数据平台会对每一条推文进行分析并推送给客户:

首先我们将数据按照结构分为77个领域——包括用户名、ID、描述、位置、时区、粉丝数、关注数等。

如果推文包含链接(约20%的推文有链接),我们就会抓取完整的链接网址(这意味着我们需要把t.co,bitl.ly等短网址还原)并给页面加上标题。

然后Datasift进一步分析数据,这又会为每条推文增加34类数据,包括:

Klout——包括用户的Klout得分以及推文涉及话题的Klout得分

Twitter Trend——DataSift密切关注实时的趋势话题。当有推文与话题匹配时,就会被标上相应的话题标签。

情绪(Sentiment)——通过我们合作伙伴Lexlytics提供的高级文本分析软件,我们可以判断推文的正面或者负面情绪。此外重大话题也会被识别并打分。

话题分析——我们还会对推文内容进行高级分类——例如时尚、科技或金融。

实体抽取(Entity Extraction)——我们使用自然语言处理技术识别退文中提及的人物、地点、产品或企业,以及用户对它们的态度。

人口统计——用户会被标记为男性或女性(或未知)

经过以上的处理工作,Datasift的客户获得的不再是来自Twitter主数据流的原始数据,而是更容易进一步分析趋势和模型的“熟”数据。

Twitter大数据的价值何在?

Twitter社交大数据的潜在价值无可估量,人们正在发明各种让人吃惊的应用来利用Twitter社交数据,从社交监测到医疗应用,甚至追踪疫情爆发。

在定制化的客户数据流中,通过过滤用户归属地、发推位置和相关关键词,你甚至能搜索到那些在加拿大化学的日本游客。通过过滤电影片名、位置和情绪标签,你还可以知道洛杉矶、纽约和伦敦等城市最受欢迎的电影是哪些。(参考阅读:社会化舆情分析,你信奥斯卡还是IBM)

你还能通过过滤原始网页链接、追踪转发数量的方式评估一篇华尔街日报报道的社交媒体渗透率。将社交数据与其他金融数据相结合后,你甚至能把twitter变成一个股票交易工具。(参考阅读:Twitter情绪如何影响股市

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

        在TMT领域具有十余年的咨询和创业经验。 目前主要关注信息安全,同时密切关注云计算、社会化媒体、移动、企业2.0等领域的技术创新和商业价值。拥有美国麻省理工学院MBA学位和清华大学经济管理学院学士学位,曾任BDA中国公司高级顾问,服务过美国高通、英特尔、中国网通、SK电讯、及沃达丰等公司。联系邮件:wangmeng@ctocio.com