AI 功率波动给预算和硬件带来双重压力

来源: Uptime Institute Journal 发布日期: 2025 大规模 AI 训练带来的功耗模式会对服务器硬件和支撑电力系统造成压力,缩短设备寿命,并增加运营商的总拥有成本(TCO)。 这些工作负载会导致 GPU 功率消耗在短时间内(甚至仅持续几毫秒)急剧飙升,超过其标称热设计...
导语
AI 功率波动给预算和硬件带来双重压力
要点
- AI 功率波动给预算和硬件带来双重压力
来源: Uptime Institute Journal
发布日期: 2025
大规模 AI 训练带来的功耗模式会对服务器硬件和支撑电力系统造成压力,缩短设备寿命,并增加运营商的总拥有成本(TCO)。
这些工作负载会导致 GPU 功率消耗在短时间内(甚至仅持续几毫秒)急剧飙升,超过其标称热设计功耗(TDP)或触及绝对功率限制。随着时间的推移,这种热应力会降低 GPU 及其板载电源元件的寿命。

即使平均功耗保持在硬件规格范围内,热应力也会影响电压调节器、焊点和电容器。这类磨损通常难以检测,可能只有在发生故障后才会显现。因此,隐藏的硬件劣化最终会影响 TCO——尤其是在非专为 AI 计算设计的数据中心中。
对支撑基础设施的压力
AI 训练的功率波动还可能将服务器电源单元(PSU)和连接器推至设计极限之外。PSU 可能被迫吸收快速的电流波动,使其内部电容器受压并增加发热量。在某些情况下,功率波动可能触发过流保护电路,导致意外重启或关机。某些电源连接器(如用于 GPU 的标准 12VHPWR 线缆)也很脆弱。高接触电阻会导致局部发热,进一步加剧磨损效应。
当 AI 工作负载涉及多个 GPU 同步运行时,功率波动效应会成倍增加。在某些情况下,多台服务器的同时功率尖峰可能超出行级 UPS 模块的额定容量——尤其是如果这些 UPS 是按照传统容量分配实践来配置的。在这种条件下,AI 计算集群有时可达其稳态最大功率水平的 150%。
在极端情况下,大型 AI 集群的负载波动可能超出 UPS 系统供电和调节的能力,迫使其使用存储能量。当 UPS 过载且无法仅靠内部电容满足需求时,就会发生这种情况。反复的严重过载将对内部元件以及储能子系统造成压力。对于电池(尤其是铅酸电池),这可能缩短其使用寿命。在最坏的情况下,这些波动可能导致电压暂降或其他电能质量问题。
容量规划挑战
在设计阶段考虑 AI 训练工作负载的功率波动影响是很有挑战性的。许多电路和电力系统是基于大量多样化 IT 负载的平均需求(而非理论组合峰值)来确定容量的。对于大型 AI 集群,这种方法可能导致容量规划中的假安全感。
当峰值幅度被低估时,支路电路可能过热、断路器可能跳闸,导体和绝缘层可能发生长期损坏——尤其是在缺乏余量的老旧环境中。更棘手的是,典型的监控工具每 100 毫秒或更长时间才采样一次 GPU 功率——这太慢了,无法检测到微秒级别的尖峰,而这些尖峰可能通过浪涌电流加速硬件磨损。
估算峰值功率行为取决于多个因素,包括 AI 模型、训练数据集、GPU 架构和工作负载同步。在相同硬件上进行的两次训练运行可能产生截然不同的功耗曲线。这种不确定性大大复杂化了容量规划,导致资源配置不足和运营风险增加。
面向大规模 AI 基础设施的设施设计需要考虑到动态功率波动的影响。专用训练集群的运营者可能过度配置 UPS 容量、使用快速响应 PSU,或使用软件工具(如 Nvidia-SMI)在 GPU 服务器上设置绝对功率和变化率限制。虽然这些方法有助于降低与功率相关的故障风险,但它们也会增加资本和运营成本,并可能在典型负载条件下降低效率。
许多规模较小的运营者——包括托管租户和正在探索 AI 的企业——可能正在通用基础设施上测试或采用 AI 训练。根据 Uptime Institute AI Infrastructure Survey 2025 的结果,近 30% 的运营者已经在进行 AI 训练,而那些尚未开展的运营者中,近一半预计在不久的将来开始。
许多较小的数据中心环境可能缺乏工作负载多样性(非 AI 负载)来吸收功率波动,或缺乏专门的工程能力来管理动态功耗行为。因此,这些运营者面临更高的故障事件风险、硬件损坏、组件寿命缩短和 UPS 可靠性降低——所有这些都导致更高的 TCO。
以下几种低成本策略有助于降低风险:包括过度配置支路电路(最好专用于 GPU 服务器)、将 GPU 分布在不同机柜和机房中以防止局部热点,以及在 GPU 上设置功率上限,以部分峰值性能换取更长的硬件寿命。
对于正在考虑或已经开始尝试 AI 训练的运营者来说,仅凭 TDP 不足以作为容量规划的设计基准。基础设施需要考虑到快速功率瞬变、工作负载特定的功耗模式,以及 IT 硬件与设施电力系统之间的复杂相互作用。
Uptime Intelligence 观点
对于并非专门设计用于支持 AI 训练工作负载的数据中心,GPU 功率波动会悄然加速硬件劣化并增加成本。这些工作负载的峰值功耗通常难以预测,组件磨损的迹象可能直到故障发生时才显现。拥有专用 AI 基础设施的大型运营者更可能在设计阶段就解决这些功率动态问题,而较小的运营者——或使用通用基础设施的运营者——可能选择较少。
为降低风险,这些运营者可以考虑为 GPU 服务器过度配置机柜级 UPS 容量、过度配置支路电路(并尽可能专用于 GPU 负载)、将 GPU 服务器的热量分布到不同机柜和机房以避免局部热点,以及应用基于软件的功率上限。数据中心运营者还应在财务规划中考虑更频繁的硬件更换,以更准确地反映运行 AI 训练工作负载的实际成本。