数据中心与AI能耗激增:“节能减排”迫在眉睫

- 研究表明,2024年11月,美国联邦能源监管委员会(FERC)拒绝了亚马逊直接从Susquehanna核电站购买180兆瓦电力用于附近数据中心的请求,理由是此举可能损害其他电网用户的利益。
- 证据显示,美国电力需求近20年基本持平,但近年来因数据中心和AI模型的增长而迅速增加,尤其是大型语言模型如ChatGPT的普及。
- 数据中心电力消耗从2018年的76太瓦时(TWh)增至2023年的176 TWh,预计2028年将达325-580 TWh,占美国总电力消耗的6.7-12%。
- AI模型的训练和推理阶段耗电巨大,优化技术如剪枝(pruning)和量化(quantization)可降低能耗,数据中心操作优化工具如Perseus可减少30%能耗。
- 令人意外的是,OpenAI和Google等公司未公开实际能耗数据,导致能耗估算存在争议,ML Energy Initiative的基准测试显示实际能耗可能低于预期。
引言:FERC的决定引发关注
2024年11月,美国联邦能源监管委员会(FERC)拒绝了亚马逊直接从Susquehanna核电站购买额外180兆瓦电力的请求,这一电力原计划用于附近的数据中心。拒绝理由是,直接购买电力而非通过电网获取,可能损害其他用户的利益。这一事件凸显了数据中心,尤其是支持AI运算的数据中心,对电力需求的快速增长所带来的压力。
背景:电力需求的变化
长期以来,美国的电力需求近20年基本保持稳定。然而,近年来情况发生了变化。FERC专员Mark Christie指出,负荷预测现在呈现快速增长的趋势,具体数字视接受的预测而定,或是激增,或是显著增加。这一变化主要源于数据中心,特别是运行日益复杂的AI模型所带来的电力需求激增。
AlexNet时刻:AI能耗的起点
这一趋势的起点可以追溯到2012年的AlexNet时刻。当时,多伦多大学的AI研究员Alex Krizhevsky、Ilya Sutskever和Geoffrey E. Hinton为ImageNet图像识别竞赛开发了一个卷积神经网络(CNN)。由于模型规模庞大,单GPU无法胜任,他们创新性地将训练任务分配给两个GPU并行处理。这一突破使AI模型的规模不再受限于单GPU能力,开启了多GPU训练的潮流,也为后续数据中心的能耗激增埋下了伏笔。
数据中心能耗趋势:从平稳到激增
根据电力研究协会(EPRI)的报告,2010年至2020年间,数据中心的电力消耗相对稳定。这一稳定得益于GPU计算的普及和GPU能效的提升。Nvidia数据中心产品营销负责人Dion Harris表示,公司通过将CPU与加速器结合,推动了能效的提升,2010-2020年间,Nvidia数据中心芯片的能效提高了约15倍,抵消了使用量增加的影响。然而,2022年ChatGPT等大型语言模型的兴起改变了这一局面。密歇根大学的教授Mosharaf Chowdhury指出,变换器模型(transformers)的主流化带来了显著的能耗跳跃。根据劳伦斯伯克利国家实验室的估计,数据中心电力消耗从2018年的76太瓦时(TWh)跃升至2023年的176 TWh。
以下是数据中心电力消耗的趋势:
年份 | 电力消耗(TWh) |
---|---|
2018 | 76 |
2023 | 176 |
2028(预计) | 325-580 |
Nvidia继续通过软件优化和硬件升级提升能效,例如2020年至今的10倍能效提升,以及去年将Hopper芯片性能提升约5倍。尽管如此,数据中心的能耗增长趋势依然明显。
AI模型生命周期:训练与推理的能耗分布
AI模型的生命周期包括训练和推理两个阶段。训练阶段涉及使用海量数据调整模型参数,是计算密集型过程。例如,OpenAI训练GPT-4时,据估计使用了超过25,000个Nvidia Ampere 100 GPU,运行100天,耗电约50吉瓦时(GW-hours)。Google的数据显示,训练阶段占AI模型生命周期总能耗的40%,而推理阶段占60%。推理阶段的能耗虽然单个查询较低,但由于查询量巨大,累积效应显著。
优化AI模型:剪枝与量化
面对日益增长的能耗,计算机科学界正在探索优化AI模型的方法。其中,剪枝(pruning)和量化(quantization)是两种主要技术。剪枝通过移除不重要参数减少模型规模,量化则将参数从32位浮点数压缩为更小的格式,从而降低内存需求和计算量。Nvidia在其AI模型优化工具包中实现了量化感知训练,据称可将内存需求降低29-51%。密歇根大学的Jae-Won Chung表示,这些方法类似于为汽车引擎调校,以提高速度并减少燃料消耗。
数据中心操作优化:平衡GPU工作负载
除了优化模型本身,数据中心也在优化运行方式。例如,训练阶段将工作负载分配给数万GPU时,工作量不均会导致能耗浪费。密歇根大学的Chung开发了Perseus工具,通过识别每个GPU的工作负载范围,调整运行速度以确保所有GPU同时完成任务,从而减少能耗。测试结果显示,Perseus在训练如GPT-3等大型语言模型时,可将能耗降低高达30%。Chung提到,该工具正考虑在Meta部署,但大型公司的实施周期较长。
能耗估算的争议:透明度缺失
尽管有诸多优化措施,能耗估算仍面临挑战。OpenAI和Google等公司未公开实际能耗数据,导致第三方估算存在较大不确定性。例如,EPRI报告估计,AI驱动的Google搜索可能需要额外部署40万台服务器,年耗电22.8 TWh,而FERC专员Christie在会议中提到,AI搜索耗电是非AI搜索的10倍(0.3瓦特对比2.9瓦特)。然而,密歇根大学的Chowdhury和Chung对此表示怀疑,认为这些数字缺乏科学依据,可能基于不同硬件世代的对比,且未经过同行评审。
以下是不同服务和模型的每查询能耗对比:
服务/模型 | 每查询能耗(Wh) |
---|---|
Google搜索 | 0.3 |
Chat GPT查询 | 2.9 |
Llama 3.1 405B | 0.93 |
Mixtral 8x22B(Ampere) | 0.32 |
Mixtral 8x22B(Hopper) | 0.15 |
ML Energy Initiative通过基准测试提供了更可靠的数据,例如Meta的Llama 3.1 405B在两台H100 GPU上每请求耗能3352.92焦耳(约0.93瓦特小时),远低于ChatGPT的2.9瓦特小时估算。这些测量确认了硬件能效的提升,但专有模型如GPT-4的性能仍未知,研究界呼吁公司提高透明度。
未来展望:能效与挑战
数据中心的能耗集中问题也值得关注。例如,弗吉尼亚州已有25%的电力供应数据中心,爱尔兰预计未来数据中心将消耗全国三分之一的电力。Nvidia的Harris表示,数据中心的能效提升遵循类似摩尔定律的趋势,通过软件优化、冷却系统和硬件创新(如光子计算和2D半导体)仍有较大潜力。然而,效率提升可能引发杰文斯悖论(Jevons Paradox),即效率提高反而导致更多使用。Chowdhury认为,若能耗增长过快,社会可能会适度放缓,但人类历来善于找到解决方案。
参考资料:
- FERC拒绝亚马逊电力购买请求详细报道
- EPRI数据中心能耗报告2023
- ML Energy Initiative能效基准测试
- Nvidia数据中心能效提升技术
- AI to drive 165% increase in data center power demand by 2030 | Goldman Sachs
- As generative AI asks for more power, data centers seek more reliable, cleaner energy solutions
- What the data centre and AI boom could mean for the energy sector – Analysis – IEA
- Chinese AI tech could cut projected spike in U.S. electricity demand from data centers • Louisiana Illuminator
- Power to the processors: AI data center energy demands in the exascale era – DCD
- How data centers and the energy sector can sate AI’s hunger for power
- Data centers powering AI could use more electricity than entire cities
- AI has high data center energy costs — but there are solutions | MIT Sloan
- How AI Is Fueling a Boom in Data Centers and Energy Demand | TIME
- US Data Center Power Use Will Double by 2030 Because of AI
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
除非注明,本站文章均为原创或编译,未经许可严禁转载。
相关文章: