波士顿马拉松爆炸案的大数据难题

作者：刘朝阳
2013年04月18日
动态, 政府, 热点

boston bomb2

在波士顿马拉松爆炸案发生后，在IT业和企业界炙手可热的新技术——大数据，能否体现自己的价值，在分析海量数据后揪出嫌犯？政府执法部门如何在侦查和预防犯罪的大数据采集和分析过程中避免触及公民自由和公民隐私红线？甚至，如何通过大数据技术预防犯罪的发生？这些都是大数据专业人士和各国政府和公安部门需要从波士顿马拉松爆炸案的侦破过程中吸取的经验。

根据《洛杉矶时报》对本周一爆炸案的报道，FBI已经在波士顿马拉松爆炸事件后在案发现场附近采集了10TB左右的数据。根据《时代周刊》的报道，这些数据包括采集自移动基站的电话通讯记录，附近商店、加油站、报摊的监控录像以及志愿者提供的图片和影像资料。(这引发了一个争议，那就是能否将一些犯罪侦查工作众包出去，从而保护公民的隐私权利。)

目前来看，FBI采集到的10TB的数据量与“大数据”的”Volume”有些差距，但影响数据分析结果的不仅仅是数据规模，另外几个重要因素是数据来源和质量。与在海量银行交易记录中识别地下钱庄洗钱交易不同，在波士顿爆炸案中，通过数据分析锁定嫌疑犯或找到炸弹来源要困难得多。根据数据分析专家Jeff Jonas的一篇博文，常规的数据来源往往无法提供任何有助于找到炸弹的信息。

Jeff Jonas指出当常规的数据源不充足，侦破甚至预测犯罪需要增加新的观察空间（即数据源）时需要注意以下几点：

1.在分析中整合外部数据源是一门艺术，需要对防火墙内和墙外的数据流转机制，以及相关的法律和政策问题有充分的了解。

2.增加数据源的顺序是先内后外。当然也可以加大旧的数据源的采集范围。（编者注，在波士顿爆炸案中，增加范围意味着不仅仅采集马拉松沿途的视频监控和移动基站数据）

3.抓住坏人的关键是其中一些数据源（暂时）不为犯罪分子所知的。

4.利用好社交媒体。

5.给数据的优先级排序。

对于FBI和波士顿警方来说，扩大数据的来源和观察空间不仅仅意味着增加监控和监控数据的分析能力，更重要的是增加社交媒体和群众数据的采集和整合能力。在本周的一次研讨会上，IBM I2首席专家王海波以长春盗车杀婴案为例提出“天网工程”的几点疑问：

1.从报案到第二天上午群众举报为什么没有找到车？

2.摄像头精度不足，还是无法处理视频记录？

3.报案后卡口无法及时收到通知并拦截？

4.罪犯当时和谁在一起，能否取证，能否证明自首者是真凶？

天网工程的掉链子说明，一味增加旧有数据源的采集力度未必能解决问题。数据质量、可视化和智能化、非结构化数据的快速甚至实时分析、预测都是“警务大数据”需要面对的重大议题。

作为美国警界最早的大数据预测分析试点单位，圣克鲁斯警察局通过城市大数据预测犯罪地点和时间，分析历史案件，发现犯罪趋势和犯罪模式，找出共同点和相关性，通过分析城市数据源和社交网络数据，甚至能预测犯罪。过去需要几天，几周甚至几个月的数据资料分析，在最新的警用Hadoop大数据分析系统中几个小时内就完成，从而大大加速了警察办案的效率。参考阅读：警务2.0：用大数据预防犯罪

虽然FBI和波士顿警察局（@Boston_Police）昨日发布声明谴责并否认包括CNN、路透社在内的多家媒体的“已经逮捕嫌疑犯”的报道（编者按：这些媒体的爆料很可能来自类似Reddit民间调查小组的讨论消息），但是社交媒体相比FBI的800电话在收集民众手中的图片和视频方面显然效率要高得多（但存在诸多法律风险和道德争议）。如果能事先设计明确的警务社交媒体规范和信息分享机制，就能有效扩大警务数据分析的来源，提高刑侦效率，同时减少和避免谣言的流传。

19日更新：

FBI今日发布了两名爆炸案嫌疑犯的图片和视频(黑帽已经证实被击毙，白帽在逃)，从下图可以看出，能够帮助面部识别系统锁定嫌犯的照片全部来自一位现场观众的相机（编者按：从EXiF信息可以看出，拍摄者使用的是尼康D200，搭配低端变焦镜头，自动曝光模式，很可能是一位非常业余的摄影者）

Reddit民间调查小组再次提供了新的线索，下图为爆炸发生时，戴白帽的嫌犯逃窜路线（左下街角处，点击查看大图）


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    NSA天网计划：基于机器学习算法的云端大数据高级分析系统
                                      警务大数据案例：用手机移动数据预测犯罪
                                      “沃森”变身超级警察，大数据帮助公共安全部门分析突发事件
                                      警务大数据案例：大数据预测分析与犯罪预防
                                      警务大数据：纽约警察使用Twitter预测犯罪
                                      交通大数据：大城市交通路在何方？
                                      斯诺登：机场Wi-Fi沦为情报机构的间谍工具
                                      大数据时代律师行业的三大变革
                  



标签： FBI, 波士顿马拉松爆炸案, 警务大数据

关于作者刘朝阳

能用IT解决的问题都不是问题。极客、科技作家、周末画报专栏作家、IBM商业价值研究院资深撰稿人；著有《软件的黄金时代》。邮箱：liuchaoyang@ctocio.com

上一篇«工控系统安全的五大误区

Mozilla CEO：Web今非昔比，Firefox OS必将成功»下一篇

波士顿马拉松爆炸案的大数据难题

除非注明，本站文章均为原创或编译，未经许可严禁转载。

关于作者刘朝阳

人工智能对知识工作者生产力和工作质量影响报告

99条赛道·700+厂商 | 「Cyber Security Billboard」第1版正式发布·附下载

云主机上必备的10个开源安全工具

Kali Linux 2020.2正式发布

如何用人工智能技术制作deepfake深度伪造视频

新一代浪潮K1 Power高端服务器上市引领中国关键计算产业发展

Infoblox 3.0将混合DDI与安全相结合，开启云优先战略

NVIDIA，为未来数据中心应用“拾柴添薪”

DDN助力TACC Frontera让不可能成为可能