IBM开发可替代高能耗GPU的模拟AI芯片

IBM 研究中心开发了一种用于人工智能推理的混合信号模拟芯片,据称该芯片可能能够与 GPU 等数字芯片的性能相媲美,同时功耗显著降低。

据了解,该芯片目前仍是一个研究项目,IBM上周在《自然电子》杂志上发表的一篇论文详细介绍了该芯片。它结合使用相变存储器和数字电路,直接对存储在芯片上的网络权重执行矩阵向量乘法。

这并不是 IBM 在HERMES项目中开发的第一款此类芯片,但最新版本包含 64 个tile(即计算核心),而不是在 2021 年 IEEE VLSI 研讨会上展示的 34 个tile 芯片。 IBM 声称,展示了提供可行的低功耗模拟 AI 推理加速器芯片所需的许多构建模块。

例如,64个核心通过片上通信网络互连,并且该芯片还实现了处理卷积层所需的附加功能。

深度神经网络 (DNN) 推动了人工智能领域的许多最新进展,例如基础模型和生成人工智能,但在当前架构中,内存和处理单元是分开的。

IBM 表示,这意味着计算任务涉及在内存和处理单元之间不断地整理数据,这会减慢处理速度,并且是能源效率低下的一个关键根源。

IBM 的芯片遵循一种称为模拟内存计算 (AIMC) 的方法,使用相变存储器 (PCM) 单元将权重存储为模拟值并执行计算。

该芯片的 64 个内核中的每一个都包含一个 PCM 交叉阵列,能够存储 256×256 权重矩阵,并使用内核外部提供的输入激活执行模拟矩阵向量乘法。

这意味着每个核心都可以执行与 DNN 模型层相关的计算,并将权重编码为 PCM 设备的模拟电导值。

数字组件由一排八个全局数字处理单元 (GDPU) 组成,这些单元提供处理具有卷积层和长短期记忆 (LSTM) 层的网络时所需的额外数字后处理功能。

该论文重点介绍了如何使用数模转换器对 PCM 单元进行编程,数模转换器生成具有可变电流幅度和持续时间的编程脉冲。此后,内核可用于通过将脉宽调制 (PWM) 读取电压脉冲施加到 PCM 阵列来执行矩阵向量乘法,PCM 阵列的输出由 256 个基于时间的模数转换器阵列进行数字化。数字转换器。

当然,这过于简单化了,因为发表在 Nature Electronics 上的 IBM 论文详细介绍了每个 AIMC 中的电路如何运行来处理深度学习模型的权重。

该论文还演示了该芯片如何实现接近软件等效的推理精度,据说在 CIFAR-10 图像数据集上达到 92.81%。

IBM 还声称,测得的每平方毫米每秒 400 次千兆运算 (400 GOPS/mm 2 ) 的矩阵向量乘法吞吐量比以前基于电阻式存储器的多核芯片高出 15 倍以上,同时实现了相当的能效。

IBM 似乎没有提供与 GPU 等其他 AI 处理系统的有用的能源效率比较,但确实提到在测试期间,ResNet-9 的单个输入在 1.52 μs 内处理完毕,消耗了 1.51 μJ 的能量。

IBM 的论文声称,通过额外的数字电路来实现层间激活传输和本地内存中的中间激活存储,应该可以在此类芯片上运行完全管道化的端到端推理工作负载。

作者表示,AIMC 加速器还需要进一步提高重量密度,才能成为 GPU 等现有数字解决方案的强大竞争对手。

测试中使用的芯片是在纽约 IBM 奥尔巴尼纳米技术中心采用 14 纳米工艺制造的,并以 1GHz 的最大矩阵矢量乘法时钟频率运行。

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:
标签: ,


关于作者

隐私已经死去,软件正在吃掉世界,数据即将爆炸