美国国家安全局如何分析通话数据

Teleculture

近日华盛顿邮报爆料称美国国家安全局(NSA)正运行一个代号PRISM的超大规模数据挖掘项目,能直接监测Google、Facebook、微软和苹果等九大互联网IT企业中央服务器中的用户数据,被提取分析的数据包括音频、视频、图片、电子邮件、文档和联系日志(下图)。虽然以上九大IT企业纷纷发表声明否认此事,但是NSA正在建设全球最大规模数据监测和分析网络已经是公开的事实,据NSA官员透露的文档,仅Verizon的用户通话数据的图谱分析项目,规模就已经超过了Facebook。

prism-slide-4

NSA的大数据武器:图谱分析

美国国家安全局NSA也许没有Verizon的手机用户姓名资料,但是如果NSA想的话,依然能够分析出用户的行为动机。Verizon提供给NSA的数据包括:电话号码、被叫号码、通话时长、位置等,对于拥有合适工具和分析技能的组织来说,这些数据就是一座金矿,而NSA,就是这样一个有“挖宝”能力的机构。

NSA分析海量通话数据的方法有很多,但图谱分析(Graph Analysis)毫无疑问是其中最重要的一种。图谱分析非常适合用来在海量通话和短信数据中发现数据碎片之间的关联,在“被冷落的大数据热点:图谱分析”一文中,我们曾经介绍过,今天图谱分析的应用领域已经远远超出了社交网络,从银行的欺诈政策和网络安全中的入侵侦测,从内容和商品推荐到基因分析等各个领域都可以看到图谱分析的影子。

如今NSA已经将图谱分析发展成对付犯罪的工具,NSA把所有来自Verizon(不排除其他运营商)的通话数据存储在一个超大数据库系统Accumulo中,该数据库系统基于Hadoop,数年前由NSA自行开发,当时NSA找不到其他能够同时满足规模、可靠性和安全性的技术方案。如今NSA在Accumulo中存储了数十PB的数据。

NSA

在图谱分析中,顶点代表个人数据点(例如电话号码或社交网络用户)连线代表他们之间的关系。今年五月底NSA曾发布了一个演示稿

,详细讲述了Accumulo如何处理一个包含4.4万亿个节点,70万亿个关联的图谱。相比而言,Facebook的社交图谱研究仅包含了几十亿节点和数万亿关联。

可见,分析数以亿计的手机用户对于NSA目前的技术能力来说已经是小菜一碟,而且NSA正在兴建全球最大的数据中心(下图)来支撑其数据分析工作。

对于如此强大的数据采集和分析能力,目前NSA的官方说法是用于分析哪些暗中联系或支持恐怖分子嫌犯的人。但美国媒体和民众对NSA修建超级数据中心,监控九大IT互联网公司用户隐私数据的行为不无忧虑。

不过据NSA内部人士透露,NSA掌握的绝大多数的数据都是匿名的,只有那些与恐怖分子网络有关联的人的数据才会进入NSA的数据分析雷达。

 

6月8日更新:

TalkingPoints Memo报道,NSA的PRISM项目可能源自硅谷数据挖掘软件公司Palantir的同名数据集成软件工具——Prism。但是palantir公司立刻发表声明称其Prism产品目前被用于银行与对冲基金的量化分析,与NSA的PRISM项目不存在任何关系。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

        在TMT领域具有十余年的咨询和创业经验。 目前主要关注信息安全,同时密切关注云计算、社会化媒体、移动、企业2.0等领域的技术创新和商业价值。拥有美国麻省理工学院MBA学位和清华大学经济管理学院学士学位,曾任BDA中国公司高级顾问,服务过美国高通、英特尔、中国网通、SK电讯、及沃达丰等公司。联系邮件:wangmeng@ctocio.com