英特尔首次亮相超级计算HABANA
圣地亚哥超级计算机中心(SDSC)将准备在地板上放置近十个机架的Habana AI硬件,这标志着我们首次在任何大型超级计算站点上看到AI芯片初创公司(由Intel于2019年收购)。
这意味着我们可以谨慎地将Habana添加到已经在国家实验室和大型研究机构中立足的AI芯片初创公司列表中。这些地点最杰出的初创公司包括Cerebras,SambaNova,以及程度较小的Graphcore。
“谨慎”分类器来自采购的性质。正如SDSC的副总监Shawn Strande告诉我们的那样,NSF为该系统提供的资金不是标准的-并不是要让生产机器立即投入使用并进行验证。相反,它是关于实验和围绕新兴架构建立科学计算社区。由于其他实验室和大学已经选择了他们的AI加速器,因此离开了Habana。而且对于包括所有网络在内的总计很酷的500万美元,没有理由不冒险。
对于像SDSC这样的超级计算设备而言,这尤其有趣,该设备可为许多科学领域的大量广泛用户提供服务。此外,SDSC采购和使用HPC系统的方法全都涉及“无国界计算”,换句话说,不是采用整体机器方法来服务各种HPC,而是拥有量身定制的系统来处理通用工作负载以及更具针对性的机器。可以使用容器和云将它们网格化在一起,而不是依赖于单个体系结构来为所有用户提供服务。
即将面世的“ Voyager”超级计算机将具有一些超越培训(基于Gaudi架构)和推理硬件(Goya芯片)的独特功能。Supermicro正在将该系统集成到夏季交付中,并将基于其X12平台和Gaudi AI培训系统,该系统具有八张Gaudi HL-205卡以及双插槽“ Ice Lake” CPU。单独但连接的Goya推理系统还将具有HL-100 PCIe卡和“ Cascade Lake” CPU。软件堆栈是Habana的SynapseAI平台。
总共将有336个Gaudi处理器用于扩展培训,但是对于Strande而言,Habana架构最有趣的是设备上完全集成了RoCE RDMA v2的10个10GbE端口,这有望解决用户所遇到的一些可扩展性瓶颈。训练工作量大。“ Gaudi芯片中的融合以太网使我们可以尝试扩展,并且我们对在像以太网这样的更加开放的网络体系结构上开展工作感兴趣。”
考虑到系统功能,存储和网络也需要重新考虑。在网络方面,SDSC一直与其他HPC系统的长期合作伙伴保持联系,而Arista则与Voyager的网络主干保持联系。“我们研究了网络选项,但是运行Arista基础架构的带宽和低延迟意味着使用大型Arista内核从单个Gaudi节点进行的网络连接将达到400Gb。我们认为带宽和延迟方面对这台机器很重要。我们也期待着通过400Gb探索一个更加开放的互连平台和一个高性能的互连平台。”
尽管有网络连接的确定性,但存储仍处于上升状态。
该团队最初将与Ceph一起部署,前提是他们将在机器的试验阶段探索各种选项,这需要三年的时间才能完全投入生产。在这里,他们有很大的回旋余地来尝试存储中的新概念,他们可能无法满足诸如Expanse超级计算机之类的大型主力舰的关键任务需求。Voyager架构在每个节点上都有NVMe-训练,推理和计算。Arista交换机已挂接到其更广泛的数据中心结构和其他存储系统中,如果他们希望将来将Voyager的功能集成到其他系统和工作流程中(如果一切顺利的话,他们会计划在此范围内),这也很有希望。换句话说,
这是我们将继续遵循的实验,特别是因为它是大型HPC中心中唯一的野外Habana系统。Strande表示,尽管该系统并非为HPC的双精度要求而设计,但他们将要处理的工作负载将严格是AI / ML,并且在天文学,气候,化学,物理学等领域的应用正在不断增加。
对于英特尔来说,有什么比让一支高性能计算工程师团队测试驱动Habana架构和软件堆栈更好的呢?我们可以在TNP上以总计500万美元的价格(想象一下,仅从成本上考虑网络方面的费用)就可以看出,这台机器在英特尔方面确实很慷慨。这种情况发生在HPC中,超级计算站点的运行方式不像我们介绍的企业和超大规模企业那样。但是在我们看来,英特尔渴望不遗余力,因为所有其他PR,同行评审的基准以及其他组织正在产生的兴趣都将其他AI架构选择为NSF,DoE和其他采购的一部分。
这并不是说该架构在科学计算AI工作负载方面不会具有高性能。我们之前从未在这个领域看到过这样的系统。斯特兰德很有信心。他说:“从我们最初看到的架构性能可以看出,该系统对于我们当前在GPU上运行的某些应用程序而言将表现出色。”
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: