笔记本电脑也能分析大数据
图片:Maximilian Bode
大数据之所以能火,说白了就是用白菜价的Linux服务器集群和开源软件把数据分析成本降下来了,但这仅仅是一个开始。这不,一种全新的软件能让你在笔记本电脑上分分钟搞定过去需要大规模计算机集群处理的大数据。
卡内基梅隆大学的计算机科学家们最近设计出了一种能在笔记本电脑上大规模分析社交网络和web搜索数据的软件框架。
该软件能帮助开发者处理很多当今的数据任务:例如利用社交网络关系设计一种全新的推荐引擎。为了进行有效的社会化推荐,软件必须能分析社交网络用户之间的关系。这类任务通常被称为图谱计算(Graph Computation),是一种越来越常见的分析。处理大规模数据集(例如社交网络)通常需要借助很多计算机的集群产生的强大计算力, 例如亚马逊提供的云计算EC2服务。
但卡内基梅隆大学科学家们开发的这款软件——代号GraphChi,充分利用了个人电脑中的大容量硬盘。用于分析的图谱通常存储于内存中,但是GraphChi把图谱放到硬盘中(类似Ramdisk?)。
“PC通常没有足够的内存装载全部web图谱,但如今PC的硬盘都很大,”卡内基梅隆大学Select Lab主任Carlos Guestrin表示:“但是与内存相比,硬盘的数据读写速度较慢,会拖慢整个计算过程。于是Guestrin的学生Aapo Kyrola设计了一个更快的,减少随机读写的硬盘访问方法。”
根据Guestrin介绍,一台运行GraphChi的Mac Mini能分析2010年以来的twitter数据——包括4000万个用户和12亿个关系,整个过程只需要59分钟!此前发布的研究成果中,进行类似的分析需要1000台计算机集群运算400分钟。
随着科技越来越网络化,数据集规模越来越庞大,图谱计算在很多领域的应用也变得普遍起来。Georgia Tech的一位图谱计算专家表示:“了解人类大脑的工作或分析病历都会设计图谱计算。”
图谱分析也带动了新web产品的发展,麻省理工学院的Jeremy Kepner认为:“文档搜索、广告投放、路线规划、旅行预订以及网络安全都依赖图谱分析。当web开发人员能够在他们的台式电脑上进行此类分析时,将大幅提高这些行业的产品开发速度。”
GraphChi还能处理“流图谱”(streaming graphs),流图谱能动态显示关系的变化,建立的大型网络模型也更加准确。Georgia Tech的Bader和他的同时开发了一个谱图计算框架——Stinger,为超级计算处理大规模流图谱进行了优化。
图谱分析的规模正越来越大,但Guestrin表示GraphChi能有效处理很多大规模图谱计算问题,用户无需求助云计算或者超计算机。
如今,一位计算生物学的研究人员能够在他们的个人电脑上处理大规模计算任务;而为数据中心开发算法的开发人员则能在应用部署到云计算前先在笔记本电脑上进行测试。Guestrin认为:“大数据已经无处不在,但有些大数据相对来说并没有之前那么大。类似GraphChi的工具能够让很多企业和创业公司在一台单机上解决图谱计算问题。这非常节省成本,也能推动创新。”Via TR
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: