AI 功率波动给预算和硬件带来双重压力

来源： Uptime Institute Journal 发布日期： 2025 大规模 AI 训练带来的功耗模式会对服务器硬件和支撑电力系统造成压力，缩短设备寿命，并增加运营商的总拥有成本（TCO）。这些工作负载会导致 GPU 功率消耗在短时间内（甚至仅持续几毫秒）急剧飙升，超过其标称热设计...

弱电工程智能建筑数据中心楼宇自控

导语

AI 功率波动给预算和硬件带来双重压力

要点

AI 功率波动给预算和硬件带来双重压力

来源： Uptime Institute Journal

发布日期： 2025

大规模 AI 训练带来的功耗模式会对服务器硬件和支撑电力系统造成压力，缩短设备寿命，并增加运营商的总拥有成本（TCO）。

这些工作负载会导致 GPU 功率消耗在短时间内（甚至仅持续几毫秒）急剧飙升，超过其标称热设计功耗（TDP）或触及绝对功率限制。随着时间的推移，这种热应力会降低 GPU 及其板载电源元件的寿命。

即使平均功耗保持在硬件规格范围内，热应力也会影响电压调节器、焊点和电容器。这类磨损通常难以检测，可能只有在发生故障后才会显现。因此，隐藏的硬件劣化最终会影响 TCO——尤其是在非专为 AI 计算设计的数据中心中。

对支撑基础设施的压力

AI 训练的功率波动还可能将服务器电源单元（PSU）和连接器推至设计极限之外。PSU 可能被迫吸收快速的电流波动，使其内部电容器受压并增加发热量。在某些情况下，功率波动可能触发过流保护电路，导致意外重启或关机。某些电源连接器（如用于 GPU 的标准 12VHPWR 线缆）也很脆弱。高接触电阻会导致局部发热，进一步加剧磨损效应。

当 AI 工作负载涉及多个 GPU 同步运行时，功率波动效应会成倍增加。在某些情况下，多台服务器的同时功率尖峰可能超出行级 UPS 模块的额定容量——尤其是如果这些 UPS 是按照传统容量分配实践来配置的。在这种条件下，AI 计算集群有时可达其稳态最大功率水平的 150%。

在极端情况下，大型 AI 集群的负载波动可能超出 UPS 系统供电和调节的能力，迫使其使用存储能量。当 UPS 过载且无法仅靠内部电容满足需求时，就会发生这种情况。反复的严重过载将对内部元件以及储能子系统造成压力。对于电池（尤其是铅酸电池），这可能缩短其使用寿命。在最坏的情况下，这些波动可能导致电压暂降或其他电能质量问题。

容量规划挑战

在设计阶段考虑 AI 训练工作负载的功率波动影响是很有挑战性的。许多电路和电力系统是基于大量多样化 IT 负载的平均需求（而非理论组合峰值）来确定容量的。对于大型 AI 集群，这种方法可能导致容量规划中的假安全感。

当峰值幅度被低估时，支路电路可能过热、断路器可能跳闸，导体和绝缘层可能发生长期损坏——尤其是在缺乏余量的老旧环境中。更棘手的是，典型的监控工具每 100 毫秒或更长时间才采样一次 GPU 功率——这太慢了，无法检测到微秒级别的尖峰，而这些尖峰可能通过浪涌电流加速硬件磨损。

估算峰值功率行为取决于多个因素，包括 AI 模型、训练数据集、GPU 架构和工作负载同步。在相同硬件上进行的两次训练运行可能产生截然不同的功耗曲线。这种不确定性大大复杂化了容量规划，导致资源配置不足和运营风险增加。

面向大规模 AI 基础设施的设施设计需要考虑到动态功率波动的影响。专用训练集群的运营者可能过度配置 UPS 容量、使用快速响应 PSU，或使用软件工具（如 Nvidia-SMI）在 GPU 服务器上设置绝对功率和变化率限制。虽然这些方法有助于降低与功率相关的故障风险，但它们也会增加资本和运营成本，并可能在典型负载条件下降低效率。

许多规模较小的运营者——包括托管租户和正在探索 AI 的企业——可能正在通用基础设施上测试或采用 AI 训练。根据 Uptime Institute AI Infrastructure Survey 2025 的结果，近 30% 的运营者已经在进行 AI 训练，而那些尚未开展的运营者中，近一半预计在不久的将来开始。

许多较小的数据中心环境可能缺乏工作负载多样性（非 AI 负载）来吸收功率波动，或缺乏专门的工程能力来管理动态功耗行为。因此，这些运营者面临更高的故障事件风险、硬件损坏、组件寿命缩短和 UPS 可靠性降低——所有这些都导致更高的 TCO。

以下几种低成本策略有助于降低风险：包括过度配置支路电路（最好专用于 GPU 服务器）、将 GPU 分布在不同机柜和机房中以防止局部热点，以及在 GPU 上设置功率上限，以部分峰值性能换取更长的硬件寿命。

对于正在考虑或已经开始尝试 AI 训练的运营者来说，仅凭 TDP 不足以作为容量规划的设计基准。基础设施需要考虑到快速功率瞬变、工作负载特定的功耗模式，以及 IT 硬件与设施电力系统之间的复杂相互作用。

Uptime Intelligence 观点

对于并非专门设计用于支持 AI 训练工作负载的数据中心，GPU 功率波动会悄然加速硬件劣化并增加成本。这些工作负载的峰值功耗通常难以预测，组件磨损的迹象可能直到故障发生时才显现。拥有专用 AI 基础设施的大型运营者更可能在设计阶段就解决这些功率动态问题，而较小的运营者——或使用通用基础设施的运营者——可能选择较少。

为降低风险，这些运营者可以考虑为 GPU 服务器过度配置机柜级 UPS 容量、过度配置支路电路（并尽可能专用于 GPU 负载）、将 GPU 服务器的热量分布到不同机柜和机房以避免局部热点，以及应用基于软件的功率上限。数据中心运营者还应在财务规划中考虑更频繁的硬件更换，以更准确地反映运行 AI 训练工作负载的实际成本。