AI越跑越快，传统散热还能跟上吗？

人工智能方案设计弱电工程安防监控技术标准运维维保

导语

干我们这行的都清楚，AI和高性能计算正在彻底改变数据中心里的“常态”。那些专为AI训练和推理设计的加速服务器，功耗比传统CPU系统高出一大截，而且动不动就长时间满负荷跑。我经手过的项目里，以前一台机柜跑个5千瓦就觉得了不起了，现在动不动就奔着30千瓦、50千瓦去了，这变化真是一年一个样。这种持续的高负载，让散热成了运营

要点

干我们这行的都清楚，AI和高性能计算正在彻底改变数据中心里的“常态”
那些专为AI训练和推理设计的加速服务器，功耗比传统CPU系统高出一大截，而且动不动就长时间满负荷跑
我经手过的项目里，以前一台机柜跑个5千瓦就觉得了不起了，现在动不动就奔着30千瓦、50千瓦去了，这变化真是一年一个样
这种持续的高负载，让散热成了运营商扩容速度的瓶颈

干我们这行的都清楚，AI和高性能计算正在彻底改变数据中心里的“常态”。那些专为AI训练和推理设计的加速服务器，功耗比传统CPU系统高出一大截，而且动不动就长时间满负荷跑。我经手过的项目里，以前一台机柜跑个5千瓦就觉得了不起了，现在动不动就奔着30千瓦、50千瓦去了，这变化真是一年一个样。

这种持续的高负载，让散热成了运营商扩容速度的瓶颈。一旦温度超过芯片能承受的极限，性能就会因为降频而大打折扣，可靠性风险也跟着飙升。说实话，AI工作负载产生的热量模式特别“贼”——GPU芯片上的热点，平均热流密度能高出好几倍，而且变化速度以毫秒计，传统散热手段根本来不及反应。

与此同时，外界的关注也越来越紧。电力供应已经直接决定了新机房能建在哪、多快能上线。根据国际能源署的预测，到2030年，全球数据中心的用电量可能达到945太瓦时左右，比2024年翻一番还多，而AI是主要的推手。

风冷在很多场景下依然管用，但随着机柜功率的提升，它的短板越来越明显。用风带走更多热量，就得靠更大的风量，这会让风扇能耗猛增，操作容错空间也越收越窄。所以，现在越来越多的运营商开始转向液冷来应对高密度部署。

液冷的好处是散热更贴近芯片，减少了对机房气流和环境温度的依赖。市面上很多方案用的是水基的直接接触芯片冷却，效果不错，但也带来了新的麻烦。水离IT设备这么近，一旦泄漏，后果就是宕机事故。运营方还得操心水质管理、防腐控制、定期维护这些事。有些估算显示，一座100兆瓦的数据中心，每天可能消耗大约110万加仑的水，具体取决于冷却设计和当地条件。

这些压力让无水冷却技术开始受到关注。这里说的“无水”，指的是把水从机房区域彻底请出去，减少对蒸发冷却的依赖——蒸发冷却是很多传统方案里耗水的大户。

一种做法是双相直接接触芯片冷却。在处理器上直接放一个冷板，里面灌的是介电传热液。处理器一发热，液体在受控温度下沸腾，变成蒸汽带走热量。蒸汽再冷凝回流到冷板，形成一个循环。因为相变本身就能搞定大部分散热工作，这类系统需要的流量比单相设计低不少——单相方案主要靠大量液体循环来带走热量。

随着机柜功率越来越高，分配架构也变得更重要了。共享式分配系统可以服务多个机柜，减少重复的基础设施，同时还能保持机柜级别的监控和控制。这对改造项目尤其关键。大多数现有机房都是按风冷设计的，要动基础设施灵活性很小。先从最高密度的区域引入液冷，既能延长现有设施的使用寿命，还能为热量回收创造机会。

根据Uptime Institute 2025年的冷却系统调查，22%的机构报告已经用上了直接液冷，而机柜密度提高是主要驱动力。随着液冷越来越普及，大家的关注点会转向运维成熟度，包括标准接口、遥测技术，以及专门为AI、HPC和托管环境设计的服务模式。

AI对芯片和机柜功耗的提升速度，比很多机房的重建速度还快。所以，冷却决策已经跟电力供应、用水量和运营效率一样，成了基础设施规划的核心。

运营商怎么搞定冷却，将直接决定新AI基础设施能多快部署，以及监管机构、客户和社区怎么看待它。这活儿，不好干啊。