CERN准备拥抱OpenStack开放云

CERN_LHC_1

在web的发源地,那些发现上帝粒子的科学狂人们已经做好向开放云计算(Open Cloud)迁移的准备,他们选择了OpenStack。

发现希格斯玻色子,即“上帝粒子”,是近几十年来最具革命性的物理学发现,那么,欧洲的科学家们是如何做到的呢?从IT的角度看,他们所依靠的是一个优秀的、有点儿老派的网格计算基础架构,虽然一个新的、基于云的计算基础架构已经出现在了地平线上。

欧洲核子研究中心(CERN)已经部署了十年之久的网格计算基础设施在过去几年间被研究人员广泛使用,而帮助发现希格斯玻色子,或所谓“上帝粒子”,也使其一夜成名。

CERN的网格与公有云有很大不同,公有云是把数据和资源托管在一个或多个集中管理的数据中心,用户通过网络连接这些资源,而CERN的网格则是将全球150多个计算站点相互连接,彼此共享信息。

在CERN的网格刚刚建成的时候,它每年处理的数据量在15PB到20PB之间。而今年,CERN所处理的数据量已经超过30PB。CERN的计算网格项目负责人Ian Bird称,“如果所有数据处理量都由CERN自己来做的话,那是肯定不行了。”作为曾经热炒的概念,网格计算其实与如今的云计算非常相似。”从某种意义上说,我们已经在云中了,”他说。

发现希格斯玻色子的大型强子对撞机(LHC)处于CERN网格的Tier 0核心位置。在LHC长达24公里的轨道里,粒子碰撞产生大量科学数据。实验产生的数据通过网格发送到11个Tier 1站点,这些站点都是拥有大规模数据中心的著名实验室,可处理海量的科学数据。这些站点所产生的数据集再分发给全世界120多家学术机构,供进一步的测试和研究。

整个网格的磁盘容量高达200PB,有30万个处理器核心,通过10Gbps链路连接了150多个计算中心。“网格将所有这一切连接在一起,使其看上去就像一个单一系统。”绝大多数站点都安装了标准的红帽Linux发行版,以及定制的存储和计算界面,每个站点还可提供描绘数据的信息服务。

当然,对于希格斯玻色子这样的里程碑式的发现做出贡献的研究并非总是集中管理的。Bird说,事实上这是一个相当混乱的过程,也使得他们很难制定出一个为各个实验站点准确分配计算资源的计划。举例来说,在LHC内部发生一次粒子对撞后,受到影响的各种粒子瞬间就会在探测器里消失得无影无踪。数据分析的第一阶段就是重建对撞过程,然后跟踪各种粒子的轨迹,这一工作主要在Tier 0(也就是CERN内部)和Tier 1站点上进行。其他阶段的分析则被分解为一些更小的数据集,分发给合作的学术机构进行分析。由此开始,大量的统计分析、直方图分析和数据挖掘会随之进行。如果实验有了一个新的发现,分析就应该非常精确,可供重复试验用。“我们真的没法预测工作流。”Bird表示。

这也就是为什么Bird和CERN对于云计算的潜力感觉相当兴奋的原因。“我们感兴趣的是可以使用云存储,”他说。“不过在这个时点上,我们无法确定使用云的成本,以及它会对我们的资金结构产生何种影响。”CERN主要的资金来源是各种学术机构访问CERN所生成的数据用于分析,并为此支付一定费用。很多这样的合作学术团体都有自己的计算资源,希望用CERN的数据在他们自己的站点上做实验,让这些资源能够在他们的学术社区上被人使用。“从技术角度看,云模式是可以运行的,只是我不知道如何投入。”

CERN已经迈出了跨向云的最初几步。从内部而言,CERN正在运行一个基于OpenStack开源代码的私有云。很多合作组织也都在自己的站点上构建了私有云。

今年3月,CERN和另外两家欧洲研究机构还创建了一个公共云——Helix Nebula,也叫科学云。这是研究机构、云厂商和IT支持企业为科研社区共同创建的社区云。CERN最近已经启动了两年期的试点计划,可在Helix Nebula云中运行LHC的模拟实验。

Bird对云计算充满了希望,认为下一个十年,云就是现在的网格。“只是如何实现这一点尚不明朗。”不过即便云计算充满了挑战,Bird还是坚信,能从事上帝粒子这样重大科学发现的科学家们也肯定能够理解并掌握云计算。(编者按:不要忘了,CERN也是web万维网的诞生地)

 

via  Techcentral ,编译:波波CNW

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:
标签: ,


关于作者