不仅仅是Hadoop,解读微软的大数据战略

微软大数据

微软技术研究员Dave Campbell最近在接受信息周刊采访时透露了微软在Azure上提供Hadoop、机器学习、高性能计算和数据分析服务的业务战略。

提到大数据,人们更多想到的是Google、Facebook和亚马逊这样的互联网企业,微软在2013版的大数据产业生态地图中的位置并不耀眼,但实际上微软也是一个不折不扣的大数据公司,微软的Bing搜索引擎、Office365和Azure云计算服务每天都在制造和处理大量数据。

而且微软在大数据技术方面的动作也绝不仅限于与Hortonworks在Hadoop平台上的合作,根据微软技术研究员Dave Campbell透露:“Hadoop只是微软信息生产线迈出的第一步。”

近日,微软开始加大大数据市场的营销推广力度,推出了“2013年全球企业大数据趋势调查报告”(报告生成的信息图在本文末尾),调查指出:未来12个月中,全球超过75%的大中型企业将开始部署大数据相关解决方案,客户关怀、销售/财务和市场营销是企业大数据应用的三大热点。信息周刊为此专访了Dave Cambell,就微软的大数据策略进行了深入解读,IT经理网整理编译如下:

 

问:微软在帮助企业利用外部数据方面有什么作为?

Campbell:我们做的一件事就是数据集市(基于Windows Azure)。但不仅仅是提供数据集,还包括分析模型等。过去的15年是大型企业应用的全盛时期——SAP、PeopleSoft等,这些大型企业应用产生大量数据孤岛。在粘合各种应用的过程中我们经历了多个整合阶段。但是大数据更加水平化,你需要混搭来自业务流程、系统记录、外部的各种数据。大数据不仅仅是应用和服务器,大数据更多是数据生产。

 

问:微软在大数据方面还提供哪些产品和服务?

Campbell:我们的策略是让信息制造流程更加轻松,帮助客户混搭各种格式的数据然后交给BI平台处理。我们的工作是帮助客户提高数据的投资回报。

我和其他微软员工一道极力推动微软采纳Hadoop,因为Hadoop已经成为大数据的品牌,例如客户经常会问:“你有哪些Hadoop集成的成功案例?”而不是“你有哪些大数据的成功案例?”但是大数据的商业价值不在Hadoop里,而是分析处理环节。 我们与Hortonworks的合作是为了让Hadoop的安装、部署和管理更加容易。这意味着通过微软虚拟机管理器部署、用System Center来管理,用Active Directory来集成。我们和Hortonworks的紧密合作就是为了确保这一点。

 

问:很多人都认为机器学习解决大数据人才短缺的好途径,那么机器学习是否真的能帮助企业开发出预测应用,减少对数据科学家的依赖?

Campbell:机器学习其实就是将相对稀缺的数据科学家的智慧规模化。今天从事机器学习工作都是博士专家,他们用自己独特的方法完成任务,但是他们运行的模型数量有限,在实际应用中经常会出问题,专家们往往扮演救火队员的角色。 例如过去几年中,全球广告网络使用的预测模型就已经难以满足不同广告主的需要,广告主需要这些模型能够自我维护,并在一种模式失效后衍生出新的模型。微软很希望替客户完成这个任务。 其他还有很多著名的机器学习模型例如欺诈侦测、垃圾邮件过滤等。很多人都在开发相关的模型,而微软希望能将这些模型打包部署到Azure环境中。

任何人开发出的模型都可能会得到500强企业的青睐,并部署和运行在我们的云计算环境中。而运行这些模型的数据,Azure也能提供。

 

问:微软如何处理数据库内分析(in-database analytics,一种常见的预测分析加速技术)

Campbell:我们有一系列可在多个处理运行时中运行的基础算法。在今天这个崭新的时代,时间和地点数据已经成了最基础的数据,所以我们计划在数据仓库或者HPC的内存中运行时间序列分析(time-series-analysis)。但是我们也有很多人用SQL Server的CLR(common language runtime)来定义分析功能或用户自定义功能。Jim Gray为科学家和宇航员们带来了强大的数据库,很多科学工作如今都在SQL Server上通过.Net CLR来完成。

 

问:在大数据市场,微软的SQL Server和HPC平台的定位是什么?

Campbell:在我们正在建设的信息生产线上,那些数以百计的TB或者PB级别的大量数据一开始存储在Hadoop系统中,这些数据经过精炼,通常是通过MapReduce,体量会缩小到TB级别,这样就能载入到一个小的集群甚至普通服务器中进行处理,你很可能会在HPC平台上完成最后的分析工作。

 

问:你怎么看待大数据市场微软的竞争对手?

Campbell:坦率讲,Oracle、SAP甚至IBM自身业务的数据处理量都不像微软这样每天数百PB。他们每天也不需要索引整个web(像微软的Bing),微软能获得更多的社交网络信息。微软的商业数据平台、操作系统、SQL数据库、BI、高性能计算和在线服务整合到一起正产生非常有趣的聚合效应,这个星球上很少有企业能像我们这样拥有大规模的互联网服务和商业平台。

 

信息图:2013年全球企业大数据趋势调查  Via 微软 (点击放大)

2013年全球企业大数据趋势调查报告

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者

主要关注社会化商务时代的客户关系管理、业务流程管理、数据挖掘、商业智能和企业协作等领域的新技术、新应用和新趋势。曾长期从事信息化咨询服务和软件开发工作,服务过首都机场、国家电网公司、中国蓝星等企业。邮箱:guanzhigang@ctocio.com