12月10日,曙光启动“数据中心液冷‘爆发’倒计时”,并将时针拨到了距象征液冷在数据中心行业全面爆发的“零时”仅余10分钟位置。曙光节能总经理何继盛介绍,随着世界范围内首个“刀片式浸没相变液冷”技术的大规模部署,目前曙光部署的液冷服务器已达数万台,液冷取代风冷成主流有望3至5年内实现。
受“互联网+”、大数据战略、数字经济等国家政策指引以及移动互联网快速发展的驱动,我国数据中心业务连续高速增长。现如今,多核处理器、GPU、高性能网络芯片等设备功耗、发热量与日俱增,对于数据中心运营也提出了新挑战。
如何才能有效降低PUE值,成为了当前热门话题。与此同时,互联网企业以及诸多IT厂商也在数据中心散热方面开展了深入研发,液冷散热替代风冷的时代正悄然而至。
液冷技术,压制高发热量的利器
何谓液冷技术?
液冷技术的发展,先驱者依然是IBM,它是最早为服务器配备液冷的厂商。在年,IBM发布了System/型91大型计算机,为保证高速运行,首度将水冷系统运用其中,这款产品引领了当时的计算风潮,超高的性能被用在太空探索、全球气候预测等科学计算领域。
之后的很长一段时间里,液冷技术都活跃在服务器与主机领域。年推出的IBMES/产品家族,就包括了8个水冷型号。年,IBM基于Power推出了direct-jetimpingement(直射式散热)方式,通过将水喷射至芯片背板进行散热,更加直接、高效。
年,真正的零排放水冷数据中心方案问世,以整机柜为单位的水冷循环系统更加方便、易用。同时,IBM推出了Power水冷超级计算机,它包含14个内置水冷管道,通过通道直接接入到服务器中,配合处理器散热器水冷铜座共同工作。
年,IBM为尤利希研究中心、雷根斯堡大学、伍珀塔尔大学建造的三台相同的水冷QPACE超级计算机,荣登年Green排行榜榜首,成为全球最具能效的超级计算机。
年,首款采用“热水”的超级计算机Aquasar问世,进一步降低了能耗。
年,德国巴伐利亚科学院莱布尼茨超级计算中心(LRZ)运营的SuperMUC,同样基于45度温水冷却,是一套非常成功的大规模商用案例。
相比传统风冷,液冷技术的优势有很多。首先是带走的热量更多了,同体积液体带走热量是同体积空气的倍。然后是温度传递更快,液体导热能力是空气的25倍,因此液冷也广泛受到超频玩家们的青睐,非常有利于挑战处理器极限频率。
再有就是降噪品质更好,浸没式水泵的噪音要远远小于风扇。同等散热水平时,液冷系统噪音比风冷噪音降低10~15dBA。最后就是更加节能,液冷系统约比风冷系统节电30%,很多大型数据中心与超算中心通过水冷技术都可以将PUE值降到1.05以下。
下面,让我们来看看当前主流的液冷技术。首先是间接接触型。冷却液体不直接与发热器件接触,主要发热器件固定在冷板上,依靠流经冷板的液体在设计好的液冷散热器内流动,通过循环将热量带走。
该类型液冷技术应用比较广泛,从服务器到消费级产品都能看到,很多PC机超频、游戏显卡、计算加速卡、超算中心等等环境应用比较普遍。优点在于技术比较成熟,可以用多种冷却液包括水。缺点在于结构相对复杂,有一定的漏液几率,冷却液必须有良好的循环才能保证效果。
另外一种是直接接触型,也称浸没式。将散热部件整体(主板和芯片等)直接浸没在不导电液体中,利用液体蒸发将散热部件释放热量带走的一种散热方式。
这种技术效果非常直观,常见于数据中心和超算中心,一般都是以机柜为独立单位进行散热设计。优点在于所有发热配件均浸没于冷却液中,处理器、内存、芯片之外的其他配件也可以进行散热,散热效果更加直接,服务器内部不需要太过复杂的管路设计。缺点是技术门槛较高。
除传统浸没式液冷之外,目前还有浸没相变式液冷,它主要是通过冷却液沸腾过程来带走热量,效果更加明显。其所配备的冷却液采用低沸点设计,例如曙光硅立方配备碳氟化合物冷却液,沸点只有50摄氏度。
液冷的关键是冷却液,必须能够快速吸收热量,并且在汽化和液化过程中都能够很高效地进行热传递,同时必须做到无腐蚀性。
因此主要的冷却液为以下几种。用户选择时重点考虑场景和价格:
第一种当然就是去离子纯净水了。水是一种良好的散热媒介,价格低廉环境友好无污染。但并非绝缘体,只能应用于非直接接触型液冷技术中,一旦发生泄漏会对IT设备造成致命损害。
第二种是矿物油,在很多机械设备中经常可以看到,矿物油价格低廉并且绝缘,但粘性较高,且其易分解,在特定条件下具有燃烧风险。
最后是氟化液,它最初是线路板清洁液,其绝缘且不燃的惰性特点被应用于数据中心液冷,是目前应用最广泛的浸没式冷却液,但是在三种冷却液中价格最昂贵。
液冷前沿:浸没相变液冷
目前,有很多IT厂商都在尝试液冷散热技术,相对于风冷,对于降低PUE等方面有着明显的优势。但相对来说,液冷的技术门槛还是很高的,需要从最基础的机柜、服务器入手进行整体化设计,还要面临设备规模化、标准化以及冷却液的选择等诸多挑战。
在数据中心制冷散热方面,各大云计算服务商和互联网企业也都在积极探索中。NodePole是Facebook在瑞典建立的数据中心,特点在于常年低温,冬季平均气温低至零下20度。因此在这样的地理环境下,数据中心可以实现自然冷却散热,非常有利于数据中心的运行,一定程度上减少了维护的成本。
微软海底数据中心
除了去北极之外,入海也是一种独特的创意。年,微软在苏格兰水域部署了潜水艇式水下数据中心。微软将一艘40英尺长的船沉入位于苏格兰近海的奥克尼群岛海岸,通过冰冷的海水辅助散热,该数据中心有12个机架,共有台服务器。此外,谷歌也宣布在其数据中心采用液冷技术,并表示今后其数据中心的降温方式将向液冷方向转变。
阿里麒麟浸没式数据中心
国内的阿里、腾讯、百度等云计算巨头也都开始尝试液冷数据中心,并且已经进入实战阶段。相信大家对阿里的“麒麟”数据中心解决方案都有印象,也采用了浸没式冷却,这一方案无需使用空调,PUE值接近了理论极限值1.0。该方案已经应用于阿里云服务,也是阿里的NASA计划重要基础,可为未来20年提供计算能力。
在液冷商业化方面,国内最早立项研发的厂商莫过于曙光。早在年,曙光就开始了液冷技术研发,年开始了浸没式液冷研发,之后升级了冷板式液冷刀片服务器。年,曙光继续向高密度进攻,正式推出了浸没相变液冷刀片服务器,开启了高密度液冷的里程碑。
众所周知,刀片服务器向来以高密度、高性能、高功耗著称,有些产品在数据中心里甚至会享受额外的“强冷”服务。因为在高负载的情况下,普通散热条件较难满足刀片的需求,肆无忌惮的风扇噪音似乎昭示着它疯狂的工作状态。
而浸没相变液冷解决的就是这个问题。发热量大且集中,那么就给它“泡”进冷却液里,散热效率更高,系统更加稳定,还消除了恼人的噪音问题。
曙光这套浸没式液冷基础设施配套解决方案为C系列,它的计算模组分配为:两个计算机柜配备一个制冷机柜,每个模组制冷能力kW,采用浸没相变液冷解决方案。
刀片方面也均为“主流高配”,单台刀片包含2个CPU和4个GPU,功耗高达4kW,单柜功率密度可达kW,在发热量集中的CPU与GPU位置上都增加铜质散热片,用以防止瞬间发热激增导致热量集中。其余部分包括内存、各种芯片等也都完全浸没于低沸点氟化液中,散热效果远远胜于普通风冷。
对于用户来讲,刀片服务器的优势在于超高的计算密度,因此往往都会承担起密集型或关键型业务,一旦宕机影响巨大,所以稳定性至关重要。与普通风冷相比浸没相变液冷解决方案采用了完全浸没的液体直接接触方式进行散热,服务器内部温度更加均匀,配件可靠性更有保障。在高负载情况下,有储热能力更强的制冷液“镇压”,CPU和GPU不会出现短时间集中发热,更不会出现因高温而降频等问题,系统性能得以保障。
此外,服务器内部采用了无风扇设计,计算模组主机实现了0风扇功耗和0噪音,散热模组也可以将噪音控制在45dB以下,PUE值可以实现低于1.04。
液冷大规模应用已成趋势
据资料显示,年中国数据中心总耗电量达到-亿千瓦时,这个数字超过三峡大坝(年全年发电量为.05亿千瓦时)和葛洲坝电厂发电量(年葛洲坝电厂发电量.5亿千瓦时)之和。据IDC预测,到年中国数据中心耗电量为亿千瓦时,年高达.2亿千瓦时。
为了限制并引导在建“数据中心”降低能耗,从年至今,北京、上海、深圳等多地出台了“数据中心建设”指导意见、准则,而“液冷”也成为数据中心行业节能技术的