数据中心与AI能耗激增:“节能减排”迫在眉睫

Deepseek
  • 研究表明,2024年11月,美国联邦能源监管委员会(FERC)拒绝了亚马逊直接从Susquehanna核电站购买180兆瓦电力用于附近数据中心的请求,理由是此举可能损害其他电网用户的利益。
  • 证据显示,美国电力需求近20年基本持平,但近年来因数据中心和AI模型的增长而迅速增加,尤其是大型语言模型如ChatGPT的普及。
  • 数据中心电力消耗从2018年的76太瓦时(TWh)增至2023年的176 TWh,预计2028年将达325-580 TWh,占美国总电力消耗的6.7-12%。
  • AI模型的训练和推理阶段耗电巨大,优化技术如剪枝(pruning)和量化(quantization)可降低能耗,数据中心操作优化工具如Perseus可减少30%能耗。
  • 令人意外的是,OpenAI和Google等公司未公开实际能耗数据,导致能耗估算存在争议,ML Energy Initiative的基准测试显示实际能耗可能低于预期。

引言:FERC的决定引发关注

2024年11月,美国联邦能源监管委员会(FERC)拒绝了亚马逊直接从Susquehanna核电站购买额外180兆瓦电力的请求,这一电力原计划用于附近的数据中心。拒绝理由是,直接购买电力而非通过电网获取,可能损害其他用户的利益。这一事件凸显了数据中心,尤其是支持AI运算的数据中心,对电力需求的快速增长所带来的压力。

背景:电力需求的变化

长期以来,美国的电力需求近20年基本保持稳定。然而,近年来情况发生了变化。FERC专员Mark Christie指出,负荷预测现在呈现快速增长的趋势,具体数字视接受的预测而定,或是激增,或是显著增加。这一变化主要源于数据中心,特别是运行日益复杂的AI模型所带来的电力需求激增。

AlexNet时刻:AI能耗的起点

这一趋势的起点可以追溯到2012年的AlexNet时刻。当时,多伦多大学的AI研究员Alex Krizhevsky、Ilya Sutskever和Geoffrey E. Hinton为ImageNet图像识别竞赛开发了一个卷积神经网络(CNN)。由于模型规模庞大,单GPU无法胜任,他们创新性地将训练任务分配给两个GPU并行处理。这一突破使AI模型的规模不再受限于单GPU能力,开启了多GPU训练的潮流,也为后续数据中心的能耗激增埋下了伏笔。

数据中心能耗趋势:从平稳到激增

根据电力研究协会(EPRI)的报告,2010年至2020年间,数据中心的电力消耗相对稳定。这一稳定得益于GPU计算的普及和GPU能效的提升。Nvidia数据中心产品营销负责人Dion Harris表示,公司通过将CPU与加速器结合,推动了能效的提升,2010-2020年间,Nvidia数据中心芯片的能效提高了约15倍,抵消了使用量增加的影响。然而,2022年ChatGPT等大型语言模型的兴起改变了这一局面。密歇根大学的教授Mosharaf Chowdhury指出,变换器模型(transformers)的主流化带来了显著的能耗跳跃。根据劳伦斯伯克利国家实验室的估计,数据中心电力消耗从2018年的76太瓦时(TWh)跃升至2023年的176 TWh。

以下是数据中心电力消耗的趋势:

年份电力消耗(TWh)
201876
2023176
2028(预计)325-580

Nvidia继续通过软件优化和硬件升级提升能效,例如2020年至今的10倍能效提升,以及去年将Hopper芯片性能提升约5倍。尽管如此,数据中心的能耗增长趋势依然明显。

AI模型生命周期:训练与推理的能耗分布

AI模型的生命周期包括训练和推理两个阶段。训练阶段涉及使用海量数据调整模型参数,是计算密集型过程。例如,OpenAI训练GPT-4时,据估计使用了超过25,000个Nvidia Ampere 100 GPU,运行100天,耗电约50吉瓦时(GW-hours)。Google的数据显示,训练阶段占AI模型生命周期总能耗的40%,而推理阶段占60%。推理阶段的能耗虽然单个查询较低,但由于查询量巨大,累积效应显著。

优化AI模型:剪枝与量化

面对日益增长的能耗,计算机科学界正在探索优化AI模型的方法。其中,剪枝(pruning)和量化(quantization)是两种主要技术。剪枝通过移除不重要参数减少模型规模,量化则将参数从32位浮点数压缩为更小的格式,从而降低内存需求和计算量。Nvidia在其AI模型优化工具包中实现了量化感知训练,据称可将内存需求降低29-51%。密歇根大学的Jae-Won Chung表示,这些方法类似于为汽车引擎调校,以提高速度并减少燃料消耗。

数据中心操作优化:平衡GPU工作负载

除了优化模型本身,数据中心也在优化运行方式。例如,训练阶段将工作负载分配给数万GPU时,工作量不均会导致能耗浪费。密歇根大学的Chung开发了Perseus工具,通过识别每个GPU的工作负载范围,调整运行速度以确保所有GPU同时完成任务,从而减少能耗。测试结果显示,Perseus在训练如GPT-3等大型语言模型时,可将能耗降低高达30%。Chung提到,该工具正考虑在Meta部署,但大型公司的实施周期较长。

能耗估算的争议:透明度缺失

尽管有诸多优化措施,能耗估算仍面临挑战。OpenAI和Google等公司未公开实际能耗数据,导致第三方估算存在较大不确定性。例如,EPRI报告估计,AI驱动的Google搜索可能需要额外部署40万台服务器,年耗电22.8 TWh,而FERC专员Christie在会议中提到,AI搜索耗电是非AI搜索的10倍(0.3瓦特对比2.9瓦特)。然而,密歇根大学的Chowdhury和Chung对此表示怀疑,认为这些数字缺乏科学依据,可能基于不同硬件世代的对比,且未经过同行评审。

以下是不同服务和模型的每查询能耗对比:

服务/模型每查询能耗(Wh)
Google搜索0.3
Chat GPT查询2.9
Llama 3.1 405B0.93
Mixtral 8x22B(Ampere)0.32
Mixtral 8x22B(Hopper)0.15

ML Energy Initiative通过基准测试提供了更可靠的数据,例如Meta的Llama 3.1 405B在两台H100 GPU上每请求耗能3352.92焦耳(约0.93瓦特小时),远低于ChatGPT的2.9瓦特小时估算。这些测量确认了硬件能效的提升,但专有模型如GPT-4的性能仍未知,研究界呼吁公司提高透明度。

未来展望:能效与挑战

数据中心的能耗集中问题也值得关注。例如,弗吉尼亚州已有25%的电力供应数据中心,爱尔兰预计未来数据中心将消耗全国三分之一的电力。Nvidia的Harris表示,数据中心的能效提升遵循类似摩尔定律的趋势,通过软件优化、冷却系统和硬件创新(如光子计算和2D半导体)仍有较大潜力。然而,效率提升可能引发杰文斯悖论(Jevons Paradox),即效率提高反而导致更多使用。Chowdhury认为,若能耗增长过快,社会可能会适度放缓,但人类历来善于找到解决方案。


参考资料:

第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom

   

除非注明,本站文章均为原创或编译,未经许可严禁转载。

相关文章:


关于作者