平均功率密度--数据中心机架中服务器的能耗--在过去两年中翻了一番多,从每个机架 8 千瓦增至 17 千瓦。随着人工智能工作负载的增加,预计到 2027 年将上升到 30 千瓦。
这只是平均值。单个机架的功率可能会更高。根据麦肯锡的数据,用于训练人工智能模型的服务器每个机架的耗电量可超过 80 千瓦,而 Nvidia 最新的 GB200 芯片与其服务器相结合,所需的密度可高达 120 千瓦。
大多数数据中心运营商表示,一旦机架功率密度超过 20 千瓦,空气就不再足以为其降温。Uptime Institute 的冷却系统调查显示,截至 2024 年初,22% 的数据中心运营商已经开始使用直接液冷技术。
在大多数情况下,液体冷却是在混合环境中部署的。在采用液冷技术的数据中心中,通常只有 10% 或更少的机架在使用液冷技术。
但随着人工智能工作负载的快速部署,液冷正变得越来越流行。事实上,由于采用率高于预期,Dell'Oro 集团刚刚提高了对液冷的市场预测。该公司现在预测,到 2029 年,数据中心物理基础设施市场将以每年 14% 的速度增长,达到 610 亿美元,高于之前预计的 13% 的增长率,部分原因是数据中心液体冷却细分市场的增长。
“Dell'Oro Group 创始人 Tam Dell'Oro 说:"人工智能工作负载将需要每个机架 60 到 120 千瓦的功率,以支持近距离加速服务器。“虽然机架功率密度的跃升将引发配电方面的创新和产品开发,但热管理方面正在发生更大的变化--从空气冷却过渡到液体冷却。”
联想集团副总裁兼 AI 和 HPC 总经理 Scott Tease 表示,绝大多数数据中心仍然采用风冷方式。“这很容易,人们都知道,很熟悉。” 据他估计,目前全球只有不到3%的服务器采用液冷技术。
但液冷的应用正在扩大两到三倍,“而且还在继续加速,”Tease 说。“它是当今数据中心市场增长最快的部分之一,甚至可以说是增长最快的部分"。
根据房地产和投资管理公司 JLL 的研究,空气冷却的效率最高只能达到 20 千瓦。当机架的功率超过 20 千瓦时,最有效的冷却方式是一种称为主动后门热交换的液体冷却方式,即仍然使用空气将热量从 GPU 转移到服务器的后门。在 100 千瓦的情况下,直接对芯片的液体冷却最为有效。超过 175 千瓦,我们就进入了浸入式冷却领域。
该公司报告说,在新建数据中心时,液冷基础设施已成为默认设置。虽然新建的数据中心数量很多,但仍远远不够。麦肯锡称,到 2030 年,全球对数据中心容量的需求将从现在的 60 千兆瓦增长到至少 171 千兆瓦,甚至高达 300 千兆瓦。