火星计算:超低配置,超高可靠性
图片:NASA
地球上最顽强的绳命是什么?是那些能在沸腾的酸水中生存的单细胞生物。
史上最强大的星际探测器——NASA的好奇号火星车以满分的落地姿态着陆火星后,在一片赞誉声中也传来一些不和谐的质疑,因为被称为史上最智慧火星车的好奇号装备的计算机配置还赶不上一部低配的智能手机。这是为什么呢?
好奇号装备了BAE系统公司开发的RAD750型计算机。如果按照地球人的计算机性能标准,RAD750的配置确实比较“低调”:CPU采用的是10年前的IBM PowerPC芯片设计,132MHz的CPU频率让人一下回忆起了Windows95的时代。此外,RAD750只有120M内存,比当今大多数智能手机的容量都小。
事实上,BAE在开发这套系统时,重点考虑的是如何经受发射时的剧烈震动、环境温差变化以及抵御火星表面超强宇宙射线和恶劣天气条件。
好奇号需要经受的离子射线强度足以烤熟任何一部地球人使用的电脑,而RAD750计算机的特制处理器芯片能够经受高能粒子的破坏性冲击。后者BAE发现今天的超级计算机的设计中其实也会遇到类似的宇宙射线防辐射问题。今天的芯片制造商制造芯片规程越来越细微,当这些芯片应用于大规模集群计算系统时,宇宙射线的问题也越来越突出。
美国橡树林国家实验室的研究人员在Jaguar猎豹超级计算机上研究了宇宙射线导致的位翻转(bit-flipping)现象。他们发现该超级计算机的362TB内存每秒钟会触发300次ECC校验(一种芯片纠错技术,能够修复宇宙射线、高温、电压波动导致的位翻转)。
”宇宙射线对大型计算机的影响巨大,如果没有ECC内存技术,今天的超级计算机甚至无法顺利启动“,橡树林国家实验室的研究科学家AI Geist说道。
早些时候,只有学术、航天和医疗等领域的公司关心宇宙射线问题,他们在类似“核与空间辐射效应大会”等不为人知的会议上讨论此事,通用处理器制造商如英特尔和AMD从不问津此类会议。但是近10年来,随着芯片制造工艺降到90纳米以下,商业半导体公司对宇宙射线问题的关注度大增。
芯片制造商们担心随着制造工艺精细度的不断提高,位翻转将成为大问题。芯片的工艺水平越高(精细),带电粒子能产生的位翻转就越多。大多数ECC代码能处理1-2个位翻转,但处理4个甚至16个位翻转则需要重新编写代码。
RAD750系统的主板 图片:BAE System
在充斥宇宙射线外的太空环境,好奇号的计算机需要很多额外的技术来维持正常运转和数据通讯。例如RAD750的处理器布满了配合点(Tie Points),可以捕获高能粒子,使其放电而不致影响到芯片的缓存。RAD750的定制PowerPC处理器还采用很多其他防辐射技术,但是BAE系统公司将其视作商业机密而不愿透露更多信息。
很多计算机科学家对宇宙射线的影响不以为然,但近年来的一系列事件正在让这个问题浮出水面。
10年前,Sun公司的UltraSparc II 处理器的片上缓存的位翻转为该公司的客户带来巨大麻烦。Sun当时的首席执行官Scotty McNealy承认芯片的缓存没有采用ECC技术。
当然,导致芯片故障的原因还有很多。2009年谷歌对其数据中心DRAM(动态随机访问内存)故障进行了研究,发现每年有8%的内存模块产生了至少一次错误,这个出错几率大大超出了人们的预期,但罪魁祸首并不是宇宙射线,而是时间这把杀猪刀。
另外,不久前橡树林国家实验室在猎豹超级计算机上的一次研究发现内存模块存在类似的高错误率。参与研究的人员中包括来自AMD的一位可靠性架构师Vilas Sridharan,他发现了抵御宇宙射线的新的芯片设计:"如今几乎所有的硅谷制造商都会在芯片设计中考虑宇宙射线的问题。”
由于高能粒子大多被地球大气层屏蔽,位翻转发生的几率会随着海拔升高而提高,在飞机上的几率是海平面的100倍。
这意味着当你在万米高空的飞机上上网时,你的笔记本电脑芯片中的位翻转频率将大增,不过不用惊慌,你的电脑并不会因此死机,大多数情况下你可能压根注意不到——有些位翻转可能会导致你显示屏上的某个像素的颜色发生变化。
但是对于地面上规模庞大的超计算机和数据中心来说,海量的内存和芯片把宇宙射线的影响成几何级数放大,成为影响计算可靠性的一个无法忽视的因素。(Via Wired)
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: