大型 AI 计算中的电气考量

来源: Uptime Institute Journal 发布日期: 2025-2026 大型生成式 AI 模型的训练是高性能计算(HPC)工作负载的一个特例。这不仅是因为对 GPU 的依赖——许多工程和科学研究计算已经将 GPU 作为标准配置。也不是因为 AI 硬件的功率密度或液冷,因为大型 ...
导语
大型 AI 计算中的电气考量
要点
- 大型 AI 计算中的电气考量
来源: Uptime Institute Journal
发布日期: 2025-2026
大型生成式 AI 模型的训练是高性能计算(HPC)工作负载的一个特例。这不仅是因为对 GPU 的依赖——许多工程和科学研究计算已经将 GPU 作为标准配置。也不是因为 AI 硬件的功率密度或液冷,因为大型 HPC 系统已经极其密集并使用液冷。相反,AI 计算的特别之处在于其运行时行为:当训练基于 Transformer 的模型时,大型计算集群可能为数据中心设施的配电系统带来与步进负载相关的电能质量问题。
功率波动的规模

功率波动的规模使这一现象异常且棘手。大多数数据中心中大量通用服务器共同产生的电力负荷相对稳定——即使个别服务器经历突发的功率变化,它们也是不同步的。相比之下,AI 训练集群中计算节点的功率使用几乎是同步变化的。
即使与大多数其他 HPC 集群相比,AI 训练集群也表现出更大的功率波动。这是由于基于 Transformer 的神经网络架构与计算硬件之间的相互作用,每 1-2 秒就会产生频繁的功率尖峰和下跌。这些波动对应训练过程中的计算步骤,并在现代硅片积极追求峰值性能的驱动下进一步加剧。

由此产生的步进功率变化的范围取决于计算集群的大小和配置,以及 AI 服务器性能和电源管理设置等运营因素。Uptime Intelligence 估计,在最坏情况下,某些配置的集群在执行训练程序期间的功率低点和高点之间的差异可能超过系统级 100%(负载在毫秒内几乎瞬时翻倍)。
这些极端情况每隔几秒发生一次——每当一批权重和偏置被加载到 GPU 并开始训练时。这通常伴随着由功率越限事件产生的巨大电流尖峰,因为 GPU 会超出其 TDP,趁机利用低晶体管活动阶段后剩余的热和供电余量。

这种行为在现代计算芯片中很常见,包括个人设备和通用服务器。但只有在大型 AI 计算集群中,这些跨数十或数百台服务器的波动才几乎同步发生。
即使是在只有几十个机柜的中等规模集群中,这也可能导致交流电源的毫秒级突变——范围从数百千瓦到几兆瓦。如果电力组合中没有其他实质性负载来抑制这些波动,这些步进变化可能会给配电系统的容量组件带来压力。它们还可能导致电能质量问题,如电压暂降和暂升,或显著的谐波和次同步振荡,使交流电力系统的正弦波形失真。

根据与主要电力设备制造商(包括 ABB、Eaton、Schneider Electric、Siemens 和 Vertiv)的多次讨论和信息披露,普遍共识是:只要在额定负载范围内,现代配电设备预期能够处理 AI 功率波动。
IT 系统容量的重新定义

AI 步进负载的问题似乎集中在设备容量和避免频繁过载的需求上。标准容量规划实践通常从已安装 IT 硬件的标牌功率开始,然后降额以估算预期的实际功率。考虑到工作负载的多样性(因为它们不会同步运行),以及大多数软件很少将 IT 硬件推到接近额定功率的事实,这种调整可以将所有 IT 负载的总标牌功率降低 25% 到 50%。
相比之下,AI 训练系统可能表现出极端行为。较大的 AI 计算集群有可能产生类似于浪涌电流的情况,超过 IT 系统的持续最大额定功率。
通常,过载不会对现代配电构成问题。所有电气元件和系统都有指定的过载额定值来处理瞬态事件,并据此设计和测试。但是,如果配电元件的容量刚好与 AI 计算负载的额定容量匹配,这些瞬态过载在最坏情况下可能每年发生数百万次——元件并未针对定期重复过载进行测试。随着时间的推移,这可能导致机电应力、热应力和逐渐过热——最终导致组件故障。
预期的功率曲线还取决于服务器配置,如电源冗余级别、冷却模式和 GPU 代际。例如,在 2022-2024 代典型 AI 系统中,根据 Uptime 估计,功率波动可达每个 8-GPU 服务器节点 4 kW,或每个机柜(四个节点)16 kW。即便如此,超过机柜额定功率(约 41 kW)的可能性相对较低。
然而,对于最近发布的系统,问题进一步加剧,因为 GPU 占功率预算的更大份额——不仅因为它们消耗更多功率(每个 GPU 模块超过 1 kW),还因为这些系统更可能使用直接液冷(DLC)。液冷减少了系统风扇功率,从而降低了服务器功耗的稳定部分。
IT 硬件规格和电力设备供应商与 Uptime 共享的信息表明,在最坏情况下,负载波动可以达到 150%,过冲可能超过系统功率规格的 10% 以上。对于基于 Nvidia GB200 NVL72 架构的机柜级系统,机柜功率可能从约 60-70 kW 突然攀升到超过 150 kW。而最大功率规格为 132 kW,这意味着在最坏假设下,重复过载可达到瞬时功率的 20%。
当前缓解方案
在部署专用于训练大型 Transformer 模型的计算集群时,数据中心运营者可能需要考虑几个因素。目前,运营者处理配电系统中大型功率波动的工具有限。
- 与多样化 IT 负载混合,共享发电机。 最好的首要选择是将 AI 训练计算与其他多样化 IT 负载集成到共享电力基础设施中。这有助于减弱功率波动的影响,特别是对发电机组的影响。
- 选择 UPS 配置以最小化电能质量问题和过载。 即使较小的机柜可以处理波动,更大的系统也会携带更多电容来帮助吸收最严重的波动。另一个措施是使用更高容量的冗余配置,例如选择 N+2。
- 使用服务器性能/电源管理工具。 硬件的功率和性能管理在很大程度上仍未得到充分利用。有多种手段来管理功率和性能水平的峰值,例如功率上限、关闭升压时钟、限制性能状态,甚至设置更低的温度限制。
电力设备制造商正在研究额外快速充放电储能和 UPS 更新控制方案的价值,旨在屏蔽电源的波动。这些方法包括超级电容器、先进电池化学甚至飞轮。下一代 AI 计算系统也可能包含更多电容和储能,以限制对数据中心电力系统的波动。
Uptime Intelligence 观点
大多数情况下,数据中心运营者无需过度关注 IT 硬件的功耗曲线或相关工作负载的细节。但训练大型 Transformer 模型是不同的。专用计算硬件可能极其密集,产生巨大的功率波动,并能够产生接近甚至超过其硬件额定功率的频繁功率浪涌。这将迫使数据中心运营者重新审视其在基础设施中的容量规划方法和安全余量。