人工智能方案设计弱电工程安防监控技术标准运维维保
导语
干我们这行的都清楚,AI和高性能计算正在彻底改变数据中心里的“常态”。那些专为AI训练和推理设计的加速服务器,功耗比传统CPU系统高出一大截,而且动不动就长时间满负荷跑。我经手过的项目里,以前一台机柜跑个5千瓦就觉得了不起了,现在动不动就奔着30千瓦、50千瓦去了,这变化真是一年一个样。这种持续的高负载,让散热成了运营
要点
- 干我们这行的都清楚,AI和高性能计算正在彻底改变数据中心里的“常态”
- 那些专为AI训练和推理设计的加速服务器,功耗比传统CPU系统高出一大截,而且动不动就长时间满负荷跑
- 我经手过的项目里,以前一台机柜跑个5千瓦就觉得了不起了,现在动不动就奔着30千瓦、50千瓦去了,这变化真是一年一个样
- 这种持续的高负载,让散热成了运营商扩容速度的瓶颈
干我们这行的都清楚,AI和高性能计算正在彻底改变数据中心里的“常态”。那些专为AI训练和推理设计的加速服务器,功耗比传统CPU系统高出一大截,而且动不动就长时间满负荷跑。我经手过的项目里,以前一台机柜跑个5千瓦就觉得了不起了,现在动不动就奔着30千瓦、50千瓦去了,这变化真是一年一个样。
这种持续的高负载,让散热成了运营商扩容速度的瓶颈。一旦温度超过芯片能承受的极限,性能就会因为降频而大打折扣,可靠性风险也跟着飙升。说实话,AI工作负载产生的热量模式特别“贼”——GPU芯片上的热点,平均热流密度能高出好几倍,而且变化速度以毫秒计,传统散热手段根本来不及反应。
与此同时,外界的关注也越来越紧。电力供应已经直接决定了新机房能建在哪、多快能上线。根据国际能源署的预测,到2030年,全球数据中心的用电量可能达到945太瓦时左右,比2024年翻一番还多,而AI是主要的推手。
风冷在很多场景下依然管用,但随着机柜功率的提升,它的短板越来越明显。用风带走更多热量,就得靠更大的风量,这会让风扇能耗猛增,操作容错空间也越收越窄。所以,现在越来越多的运营商开始转向液冷来应对高密度部署。
液冷的好处是散热更贴近芯片,减少了对机房气流和环境温度的依赖。市面上很多方案用的是水基的直接接触芯片冷却,效果不错,但也带来了新的麻烦。水离IT设备这么近,一旦泄漏,后果就是宕机事故。运营方还得操心水质管理、防腐控制、定期维护这些事。有些估算显示,一座100兆瓦的数据中心,每天可能消耗大约110万加仑的水,具体取决于冷却设计和当地条件。
这些压力让无水冷却技术开始受到关注。这里说的“无水”,指的是把水从机房区域彻底请出去,减少对蒸发冷却的依赖——蒸发冷却是很多传统方案里耗水的大户。
一种做法是双相直接接触芯片冷却。在处理器上直接放一个冷板,里面灌的是介电传热液。处理器一发热,液体在受控温度下沸腾,变成蒸汽带走热量。蒸汽再冷凝回流到冷板,形成一个循环。因为相变本身就能搞定大部分散热工作,这类系统需要的流量比单相设计低不少——单相方案主要靠大量液体循环来带走热量。
随着机柜功率越来越高,分配架构也变得更重要了。共享式分配系统可以服务多个机柜,减少重复的基础设施,同时还能保持机柜级别的监控和控制。这对改造项目尤其关键。大多数现有机房都是按风冷设计的,要动基础设施灵活性很小。先从最高密度的区域引入液冷,既能延长现有设施的使用寿命,还能为热量回收创造机会。
根据Uptime Institute 2025年的冷却系统调查,22%的机构报告已经用上了直接液冷,而机柜密度提高是主要驱动力。随着液冷越来越普及,大家的关注点会转向运维成熟度,包括标准接口、遥测技术,以及专门为AI、HPC和托管环境设计的服务模式。
AI对芯片和机柜功耗的提升速度,比很多机房的重建速度还快。所以,冷却决策已经跟电力供应、用水量和运营效率一样,成了基础设施规划的核心。
运营商怎么搞定冷却,将直接决定新AI基础设施能多快部署,以及监管机构、客户和社区怎么看待它。这活儿,不好干啊。