Datasift：我们如何分析Twitter社交数据

作者：王萌
2012年09月05日
大数据

2006年3月21日，Jack Dorsey发出了史上第一条微博（tweet）。只用三年时间，Twitter就迎来了第10亿条推文。如今，Twitter每两天半就会产生10亿条推文，也就是每天4亿多条，每秒钟近5000条推文。对于社会化数据分析来说，这差不多相当于每天需要处理2TB新数据。

不久前Salesforce.com与Twitter签署了数据管道授权协议，这意味着Salesforce将能访问所有的Twitter公共数据（Firehose），也标志着企业应用与社交大数据分析的历史性对接。

关注大数据和社会化分析的企业不禁会问：Twitter的海量数据对于企业来说到底有什么价值？Twitter海量数据的分析过程是怎样的？作为同样获得Twitter授权的企业之一，社交媒体大数据分析公司Datasift在自己的官方博客上透露了Datasift分析Twitter数据的流程和方法：

Datasift的大数据平台会对每一条推文进行分析并推送给客户：

首先我们将数据按照结构分为77个领域——包括用户名、ID、描述、位置、时区、粉丝数、关注数等。

如果推文包含链接（约20%的推文有链接），我们就会抓取完整的链接网址（这意味着我们需要把t.co,bitl.ly等短网址还原）并给页面加上标题。

然后Datasift进一步分析数据，这又会为每条推文增加34类数据，包括：

Klout——包括用户的Klout得分以及推文涉及话题的Klout得分

Twitter Trend——DataSift密切关注实时的趋势话题。当有推文与话题匹配时，就会被标上相应的话题标签。

情绪（Sentiment）——通过我们合作伙伴Lexlytics提供的高级文本分析软件，我们可以判断推文的正面或者负面情绪。此外重大话题也会被识别并打分。

话题分析——我们还会对推文内容进行高级分类——例如时尚、科技或金融。

实体抽取（Entity Extraction）——我们使用自然语言处理技术识别退文中提及的人物、地点、产品或企业，以及用户对它们的态度。

人口统计——用户会被标记为男性或女性（或未知）

经过以上的处理工作，Datasift的客户获得的不再是来自Twitter主数据流的原始数据，而是更容易进一步分析趋势和模型的“熟”数据。

Twitter大数据的价值何在？

Twitter社交大数据的潜在价值无可估量，人们正在发明各种让人吃惊的应用来利用Twitter社交数据，从社交监测到医疗应用，甚至追踪疫情爆发。

在定制化的客户数据流中，通过过滤用户归属地、发推位置和相关关键词，你甚至能搜索到那些在加拿大化学的日本游客。通过过滤电影片名、位置和情绪标签，你还可以知道洛杉矶、纽约和伦敦等城市最受欢迎的电影是哪些。(参考阅读：社会化舆情分析,你信奥斯卡还是IBM)

你还能通过过滤原始网页链接、追踪转发数量的方式评估一篇华尔街日报报道的社交媒体渗透率。将社交数据与其他金融数据相结合后，你甚至能把twitter变成一个股票交易工具。（参考阅读：Twitter情绪如何影响股市）


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    2016年文本、语义、社交分析十大趋势
                                      大数据时代的Google？市场智能平台Ekho获得120万美元投资
                                      警务大数据：纽约警察使用Twitter预测犯罪
                                      营销技术创业公司Radius获得1300万美元融资
                                      用社交网络分析企业管理架构缺陷
                                      代表大数据未来的十大创业公司
                                      Gnip推出Twitter历史数据全文检索服务
                                      总统候选人的假粉丝：Twitter黑市探秘
                  



标签： datasift, 社会化分析, 社会化媒体分析

关于作者王萌

在TMT领域具有十余年的咨询和创业经验。目前主要关注信息安全，同时密切关注云计算、社会化媒体、移动、企业2.0等领域的技术创新和商业价值。拥有美国麻省理工学院MBA学位和清华大学经济管理学院学士学位，曾任BDA中国公司高级顾问，服务过美国高通、英特尔、中国网通、SK电讯、及沃达丰等公司。联系邮件：wangmeng@ctocio.com

上一篇«Android平板上最好用的桌面远程控制工具

聚焦HTML5：海豚浏览器获高通战略投资»下一篇

Datasift：我们如何分析Twitter社交数据

除非注明，本站文章均为原创或编译，未经许可严禁转载。

关于作者王萌

人工智能对知识工作者生产力和工作质量影响报告

99条赛道·700+厂商 | 「Cyber Security Billboard」第1版正式发布·附下载

云主机上必备的10个开源安全工具

Kali Linux 2020.2正式发布

如何用人工智能技术制作deepfake深度伪造视频

新一代浪潮K1 Power高端服务器上市引领中国关键计算产业发展

Infoblox 3.0将混合DDI与安全相结合，开启云优先战略

NVIDIA，为未来数据中心应用“拾柴添薪”

DDN助力TACC Frontera让不可能成为可能