电气时代网 电气时代网 电气时代网

李成章:数据中心供配电系统的可用性分级管理

 

近日,维谛(Vertiv,原艾默生网络能源)技术有限公司主办的“思无界•设享V来—2018设计院专家高端论坛”在北京隆重召开。论坛以“关键技术成就可靠与节能的完美平衡”为主题,来自权威设计院的技术大咖及维谛(Vertiv)的产品技术专家,针对数据中心的发展趋势,从技术应用、规划设计以及供配电、热管理关键系统的选择等维度呈献了多个精彩的技术报告,并分享了维谛(Vertiv)的科技创新成果及大量成功实践。

一直以来供配电系统作为数据中心基础设施主要组成部分,它的高可靠、高可用性、高节能性能高可维护性在数据中心行业备受关注,因此对于数据中心供配电技术的研究也从未中断。当前围绕数据中心供配电技术、产品、应用和整体解决方案也逐渐向标准化、系统化的方向发展,选择绿色的、经济的、高效的、可用性高的供配电系统已经成为数据中心建设和运维行业的共识。


中国科学院计算所高级工程师 李成章先生

对此,中国科学院计算所高级工程师李成章在《数据中心供配电系统的可用性分级管理》的演讲中,深入探讨了高性价比的数据中心供配电解决方案追求的核心价值,并指出要根据数据中心的不同用户对可靠性、效率、成本的不同业务需求来选择最适合的UPS产品及其对应的供配电系统的可用性级别和架构,从而获得最佳的TCO。

 

诱发数据中心供配电系统故障的几大因素

在造成数据中心瘫痪的原因中,以因供配电系统的产品选型和设计架构的”考虑欠妥”所诱发的电气瘫痪的危害性最大。相关的统计资料显示,它存在如下几种典型的故障隐患:                                

(1) 因UPS供电系统的产品或可用性级别的”选配欠妥”所诱发的故障占29%;  
(2) 因人为操作“失误”所诱发的故障占24%(例:2017年5月,因托管机房的工程师对UPS供配系统的输入开关执行”误关断”操作而致使某国外航空公司的几乎所有的IT设备进入”宕机瘫痪”的事故);      
(3)因未考虑到发电机带电容性负载的带载能力会“变弱“以及因阶跃性负载的“负载突增量过大”等原因所诱发的发电机“自动关机”的故障占10%;
(4)因气候及自然灾害所诱发的故障占12%(例:2017年12月,国外某机场因电力电缆的火灾所造成的长达十余小时的大面积停电事故)。

显而易见,能否消除掉上述的、足以对供配电系统的安全运行造成“致命危害”的故障隐患是能否确保该数据中心机房能长期可靠地运行的关键所在,以便为在后期的机房的日常运维操作过程中,能够及时地发现和规避这些风险、确保它能获得令人满意的可用性(99.99%∽99.999%)奠定下坚实的技术基础。根据GB50174—2017数据中心设计规范的要求,对于负责向IT/网络等关键设备供电的供配电系统而言,它所允许的瞬间供电中断时间应小于10ms。

通过对近年来发生在数据中心供配电系统中的多起事故的分析发现:同工频机UPS供配电系统相比,导致传统高频机UPS和模块化UPS供配电系统的故障率增高的重要诱因是:因为它们的抗瞬态输入过压保护的能力“变差“所致。通过在用户现场所捕捉到的输入故障波形以及在所搭建的故障模拟平台上所检测到数据可见:因“输入瞬态过压”而致使传统高频机和模块化UPS的典型故障类型有:因电池组异常放电所诱发的电池组使用寿命缩短;  在UPS供配电系统的输出端发生输出闪断或“被损环”的事故。其故障高发期是:
(a)当10KV高压因故发生停电/闪断事故时或位于这些UPS供电系统上游侧的大容量ATS开关因故需执行切换操作的瞬间。在此期间,在UPS的输入端出现“输入瞬态过压”故障的几率很高;
(b)为降低生产成本和充分利用廉价电能(注:夜间谷期电价仅为白天峰期电价的1/3左右),高能耗企业可能会采用夜间生产、白天停工的生产管理体制。对于地处邻近高能耗企业的数据中心而言,极易在高能耗企业“突然抽闸”的瞬间,在它的市电输入电网上诱发出”瞬态输入高压”。在此条件下,易发生电池组异常放电故障,从而造成电池组使用寿命缩短,增加后期运维成本。

李成章在演讲中以某数据中心的供配电系统故障为例,指出在该数据中心的运行中,因故遇到10KV高压电网发生停电几分钟的电力事故,导致运行仅1年多的3*300KVA 高频UPS并机系统发生故障:UPS并机系统输出“闪断”,并长期停留在交流旁路上。与此同时,位于同一机房中的已运行十几年的另外两套3*800KVA工频机UPS并机系统却一直正常地运行着。由此不难看出:此次事故就是因传统高频机UPS抗“瞬态输入过压”的保护能力”变差”所诱发出的故障,给该数据中心所需的应持续稳定运行带来负面影响。
 

“电池组异常放电”的故障案例:对于同时配置有工频机UPS和传统高频机UPS的某数据中心而言,在其运行中,常发现:对于它的4*500KVA高频机UPS供电系统而言,在每天的早上的7∽8点期间,易发生”电池异常放电”现象。与此同时,对于位于同一10KV供电网下运行的4*400KVA 工频机UPS供电系统,它却继续正常运行,从未发生过”电池组异常放电”的现象。
 

除此之外,李成章还举例指出:随着模块化UPS内部所并联的电源模块的数量的不断地增多(例:从传统高频塔式机的内置2-3个功率模块增加到传统模块化UPS的内置10-20个电源模块),它的“内部环流”必然会随之而增大。由此所带的新故障现象是:当用户在因故对这种模块化UPS执行停电维修操作之后(例:对机柜前面板上的“通风过滤罩”执行除尘清洗操作),再重新执行开机操作时,易发生UPS输出闪断或电源模块”被损坏”的事故。


  
高性价比的高频UPS产品应具备的运行特性

由于高频UPS电源具有效率高、体积小、重量轻以及输入功率因数达到0.99以上、输入电流的谐波含量小于5%、对市电电网的污染小等优点而日益受到用户的青睐。近年来,随着UPS制备技术的进步和发展,为提高它的可维护性,高频UPS逐步走向高智能模块化,可通过增减UPS机柜内的小功率电源模块数量的多少来满足用户对其功率输出及可维护性的要求。这样一来,它不仅具有极大的弹性,而且只要冗余允许还可以在线进行维护,实现”零维修时间”的操作功能。然而,对于部分高频UPS的生产和开发企业来说,由于存在只重视追求更高的效率和更低的制备成本的倾向,不够重视应采取必要的技术措施来消除传统高频机UPS和模块化UPS因抗瞬态输入过压保护能力”变差”所带来的故障率相对偏高的现象。

近年来,维谛(vertiv)公司遵循”不妥协的可靠性”的设计思念,通过在传统高频机UPS的整流器中增配”抗输入过压”保护部件的技术措施。这样一来,在確保它能获得”高效率”优点的前提下,还收到能大幅度地提高UPS可靠性以及将高频机UPS的输入功率因数(PF)从传统的电容性调控到所期望的电感性。在此基础上,开发出创新型的高性价比的UPS产品。

李成章指出,高性价比的高频机UPS应该具有效率高(≧97%)、可靠性高(具有很强的抗输入过压保护能力,UPS单机内部环流=0)、输入PF呈现电感性、高可维护性(例:易于对机内的”老化.滤波电容”执行现场的更换操作)等特点。只有具备这些特性,才能更好的保障数据中心的安全高效运行。在此背景下,不仅能为数据中心的供配电系统获得令人满意的高可用性奠定下坚实的技术基础。而且,还有十分利于降低它的Capex和Opex。


  
数据中心供配电系统的”可用性分级管理”

确保数据中心安全无疑是整个信息系统安全运行的前提保障,对此,李成章表示,电瘫痪、热瘫痪、网络安全已然成为当今数据中心所面临的三大故障隐患,如何避免及做好提前措施也成为备受关注的焦点。

同时,李成章基于全新的现场故障分析能力和实践工作经验,重点阐释了供配电系统的”分级可用性”的设计与规划。在对金融、交通,BAT及教育、商业等具有代表性用户的业务特点、允许业务中断的容忍度、IT系统及空调系统对供电系统的可用性的不同级别需求、IT/网络的机柜功率密度的高低对MDC(微模块)的设计架构的影响等进行全面分析后,李成章指出,采用“可用性分级管理”的设计理念的最终目标是:在充分满足用户的不同业务需求的前提下, 制定和选用具有TCO最低运行特性的供配电系统的设计方案。

为进一步阐释供配电系统分级可用性理念的重要意义,李成章以金融用户和BAT用户的供配电系统需求为例进行了说明。他表示,金融行业(集中处理)与BAT行业(分布式处理)对数据处理、存储和分享性数据传送的要求具有很大差异,前者要求数据应具有极高的完整性、一致性和高时效性。为此,其供配电系统的建设标准应采用带物理隔离运行特性的A级标准。李成章同时指出,即使在金融行业用户中,由于总行、省市分行及县级支行等机构级别的不同,其供配电系统的可用性级别也应不相同,在建设上也有所区别。

李成章最后表示,只有“根据用户对实际运行业务的不同需求来决定所选用的可用性级别的最适合的架构+最适合的UPS产品”才是最能恰如所需地满足用户需求的完美设计方案。显然,只有这样才能更好地为数据中心的用户提供最具有实用价值的服务和支持。