数据中心与AI能耗激增：“节能减排”迫在眉睫

作者： CashCat
2025年03月26日
人工智能, 动态

研究表明，2024年11月，美国联邦能源监管委员会（FERC）拒绝了亚马逊直接从Susquehanna核电站购买180兆瓦电力用于附近数据中心的请求，理由是此举可能损害其他电网用户的利益。
证据显示，美国电力需求近20年基本持平，但近年来因数据中心和AI模型的增长而迅速增加，尤其是大型语言模型如ChatGPT的普及。
数据中心电力消耗从2018年的76太瓦时（TWh）增至2023年的176 TWh，预计2028年将达325-580 TWh，占美国总电力消耗的6.7-12%。
AI模型的训练和推理阶段耗电巨大，优化技术如剪枝（pruning）和量化（quantization）可降低能耗，数据中心操作优化工具如Perseus可减少30%能耗。
令人意外的是，OpenAI和Google等公司未公开实际能耗数据，导致能耗估算存在争议，ML Energy Initiative的基准测试显示实际能耗可能低于预期。

引言：FERC的决定引发关注

2024年11月，美国联邦能源监管委员会（FERC）拒绝了亚马逊直接从Susquehanna核电站购买额外180兆瓦电力的请求，这一电力原计划用于附近的数据中心。拒绝理由是，直接购买电力而非通过电网获取，可能损害其他用户的利益。这一事件凸显了数据中心，尤其是支持AI运算的数据中心，对电力需求的快速增长所带来的压力。

背景：电力需求的变化

长期以来，美国的电力需求近20年基本保持稳定。然而，近年来情况发生了变化。FERC专员Mark Christie指出，负荷预测现在呈现快速增长的趋势，具体数字视接受的预测而定，或是激增，或是显著增加。这一变化主要源于数据中心，特别是运行日益复杂的AI模型所带来的电力需求激增。

AlexNet时刻：AI能耗的起点

这一趋势的起点可以追溯到2012年的AlexNet时刻。当时，多伦多大学的AI研究员Alex Krizhevsky、Ilya Sutskever和Geoffrey E. Hinton为ImageNet图像识别竞赛开发了一个卷积神经网络（CNN）。由于模型规模庞大，单GPU无法胜任，他们创新性地将训练任务分配给两个GPU并行处理。这一突破使AI模型的规模不再受限于单GPU能力，开启了多GPU训练的潮流，也为后续数据中心的能耗激增埋下了伏笔。

数据中心能耗趋势：从平稳到激增

根据电力研究协会（EPRI）的报告，2010年至2020年间，数据中心的电力消耗相对稳定。这一稳定得益于GPU计算的普及和GPU能效的提升。Nvidia数据中心产品营销负责人Dion Harris表示，公司通过将CPU与加速器结合，推动了能效的提升，2010-2020年间，Nvidia数据中心芯片的能效提高了约15倍，抵消了使用量增加的影响。然而，2022年ChatGPT等大型语言模型的兴起改变了这一局面。密歇根大学的教授Mosharaf Chowdhury指出，变换器模型（transformers）的主流化带来了显著的能耗跳跃。根据劳伦斯伯克利国家实验室的估计，数据中心电力消耗从2018年的76太瓦时（TWh）跃升至2023年的176 TWh。

以下是数据中心电力消耗的趋势：

年份	电力消耗（TWh）
2018	76
2023	176
2028（预计）	325-580

Nvidia继续通过软件优化和硬件升级提升能效，例如2020年至今的10倍能效提升，以及去年将Hopper芯片性能提升约5倍。尽管如此，数据中心的能耗增长趋势依然明显。

AI模型生命周期：训练与推理的能耗分布

AI模型的生命周期包括训练和推理两个阶段。训练阶段涉及使用海量数据调整模型参数，是计算密集型过程。例如，OpenAI训练GPT-4时，据估计使用了超过25,000个Nvidia Ampere 100 GPU，运行100天，耗电约50吉瓦时（GW-hours）。Google的数据显示，训练阶段占AI模型生命周期总能耗的40%，而推理阶段占60%。推理阶段的能耗虽然单个查询较低，但由于查询量巨大，累积效应显著。

优化AI模型：剪枝与量化

面对日益增长的能耗，计算机科学界正在探索优化AI模型的方法。其中，剪枝（pruning）和量化（quantization）是两种主要技术。剪枝通过移除不重要参数减少模型规模，量化则将参数从32位浮点数压缩为更小的格式，从而降低内存需求和计算量。Nvidia在其AI模型优化工具包中实现了量化感知训练，据称可将内存需求降低29-51%。密歇根大学的Jae-Won Chung表示，这些方法类似于为汽车引擎调校，以提高速度并减少燃料消耗。

数据中心操作优化：平衡GPU工作负载

除了优化模型本身，数据中心也在优化运行方式。例如，训练阶段将工作负载分配给数万GPU时，工作量不均会导致能耗浪费。密歇根大学的Chung开发了Perseus工具，通过识别每个GPU的工作负载范围，调整运行速度以确保所有GPU同时完成任务，从而减少能耗。测试结果显示，Perseus在训练如GPT-3等大型语言模型时，可将能耗降低高达30%。Chung提到，该工具正考虑在Meta部署，但大型公司的实施周期较长。

能耗估算的争议：透明度缺失

尽管有诸多优化措施，能耗估算仍面临挑战。OpenAI和Google等公司未公开实际能耗数据，导致第三方估算存在较大不确定性。例如，EPRI报告估计，AI驱动的Google搜索可能需要额外部署40万台服务器，年耗电22.8 TWh，而FERC专员Christie在会议中提到，AI搜索耗电是非AI搜索的10倍（0.3瓦特对比2.9瓦特）。然而，密歇根大学的Chowdhury和Chung对此表示怀疑，认为这些数字缺乏科学依据，可能基于不同硬件世代的对比，且未经过同行评审。

以下是不同服务和模型的每查询能耗对比：

服务/模型	每查询能耗（Wh）
Google搜索	0.3
Chat GPT查询	2.9
Llama 3.1 405B	0.93
Mixtral 8x22B（Ampere）	0.32
Mixtral 8x22B（Hopper）	0.15

ML Energy Initiative通过基准测试提供了更可靠的数据，例如Meta的Llama 3.1 405B在两台H100 GPU上每请求耗能3352.92焦耳（约0.93瓦特小时），远低于ChatGPT的2.9瓦特小时估算。这些测量确认了硬件能效的提升，但专有模型如GPT-4的性能仍未知，研究界呼吁公司提高透明度。

未来展望：能效与挑战

数据中心的能耗集中问题也值得关注。例如，弗吉尼亚州已有25%的电力供应数据中心，爱尔兰预计未来数据中心将消耗全国三分之一的电力。Nvidia的Harris表示，数据中心的能效提升遵循类似摩尔定律的趋势，通过软件优化、冷却系统和硬件创新（如光子计算和2D半导体）仍有较大潜力。然而，效率提升可能引发杰文斯悖论（Jevons Paradox），即效率提高反而导致更多使用。Chowdhury认为，若能耗增长过快，社会可能会适度放缓，但人类历来善于找到解决方案。

参考资料：


第一时间获取面向IT决策者的独家深度资讯，敬请关注IT经理网微信号：ctociocom


   除非注明，本站文章均为原创或编译，未经许可严禁转载。


相关文章：


                    90%的企业和政府数据都是垃圾？
                                      英国退休教师创5.5倍能效神话：一场热泵安装工的”能效内卷”战争
                                      警惕基因暗礁：猛犸象回光返照与中国虎保护的破局之路
                                      亚马逊进军核电
                                      人工智能面临“水荒”
                                      去虚拟化兴起？Gartner发布数据中心基础设施技术炒作周期图
                                      奥特曼七万亿美元AI芯片计划的地缘政治博弈
                                      超2%的美国电力被用于比特币挖矿
                  



标签： esg, 数据中心, 算力, 绿色数据中心