Introducción
Continuando con la Serie Confiabilidad en Sistemas de Misión Crítica, Empezar por el principio; nos proponemos llevarles a nuestros lectores los puntos de interés a partir de los artículos anteriores:
Serie: “Confiabilidad en Sistemas de Misión Crítica: Empezar por el Principio” (I Parte)
Serie: “Confiabilidad en Sistemas de Misión Crítica: Empezar por el Principio” (II Parte)
En los apartados anteriores sobre Conceptos generales y Sistemas de puesta a tierra, decíamos que los Sistemas de Misión Crítica son:
“… aquellos que son indispensables para que funciones de importancia relevante se lleven a cabo con éxito, ya sea en una empresa, un gobierno o cualquier tipo de organización.
El modelo sobre el cual trabajaremos en toda ésta serie fue presentado en la primera parte y es el siguiente. [1]
A modo de ejemplo:
- Sistema de puesta a tierra.
- Supresores de sobretensiones (SPD’s).
- Monitoreo y gestión.
- Técnicas, procedimientos y gestión de Operación y Mantenimiento (O&M).
- Gestión de riesgos.
- Planes de contingencia.
Ya vimos los temas más generales de los Sistemas de puesta a tierra, ahora siguiendo con el modelo pasaremos a examinar en detalle los sistemas de alimentación eléctrica crítica, que son el siguiente escalón para la confiabilidad del resto de las plataformas y servicios que están en niveles superiores de la pirámide.
Sistemas de Alimentación Eléctrica Crítica
¿Es el tablero de iluminación una parte crítica de un Datacenter o de la sala de control de una planta industrial?
La respuesta es, depende. Y ni siquiera de un factor, sino de varios.
A saber:
¿La iluminación es necesaria para la seguridad física del lugar?
¿Es necesaria para poder intervenir en la resolución de fallas de máquinas de infraestructura crítica?
¿Es necesaria para la operación de los sistemas de TI, monitoreo y/o control?
Y podríamos seguir.
Entonces, ¿Qué son sistemas eléctricos críticos?
Definición
Un sistema eléctrico debe estar diseñado, operado y mantenido para cumplir con la función requerida por las cargas conectadas. Si dichas cargas no soportan interrupciones eléctricas mayores a x milisegundos, el diseño debe ser hecho para evitar -dentro de intervalos de confiabilidad razonables y económicamente viables- que las interrupciones sean mayores a las requeridas.
Por lo tanto, un Sistema eléctrico crítico es aquel que alimenta directamente cargas críticas, o sus sistemas auxiliares cuando también están definidos como críticos.
Lo de “carga crítica” tiene una vinculación directa con el Costo de falla, por lo que es necesario hacer éste análisis previamente para definir si efectivamente se está dentro de la categoría correspondiente o no.
Recordemos que el costo no es solamente en ingresos económicos, puede ser de afectación de imagen, de incumplimiento de contratos y/o regulaciones públicas, de normas medioambientales, etc.
Para resumir, podríamos decir que los Sistemas se definen como críticos cuando fallar no es una opción.
Criterios de alimentacion para equipamiento de IT
La Computer Business Equipment Manufacturers Association (CBEMA) es una asociación de fabricantes de equipos informáticos y de telecomunicaciones que agrupa a los fabricantes más importantes.
Existe consenso general en usar la curva que CBEMA ha diseñado, como estándar sobre los requisitos de suministro de alimentación para equipos de IT.
Aquí podemos ver una versión reducida:
Y una más amplia con detalles a nivel de milisegundos sobre las tolerancias y los problemas que pueden tener los equipos si se sobrepasan algunos límites.
Como podemos ver en el caso de las sobretensiones y subtensiones de amplio porcentaje (dos y tres veces el nominal), la duración máxima que puede tolerar el equipo está en el orden de los micro segundos.
De aquí surgen dos temas importantes, el de asegurar la ininterrupción del suministro, y el de evitar las sobretensiones transitorias.
El primer punto será tratado en éste artículo, el segundo solo será mencionado, pero puede ser consultado directamente con NPConsulting para más detalles.
Eventos de falla
Recordemos algunos de los problemas eléctricos más comunes que originan intervalos de tensión anormal (o ausencia):
Transitorios (modo común y modo normal)
Los transitorios se originan en:
- Maniobras de red.
- Fallas y reconexiones de grandes cargas (o con alta potencia reactiva).
- Descargas atmosféricas.
- Fallas a nivel de media/alta tensión.
Ruido (modo común y modo normal)
Disturbios y señales no deseadas que pueden generar funcionamiento erróneo permanente o temporal en equipamiento electrónico.
En este punto interviene en forma importante el sistema de puesta a tierra, por lo que recomendamos la lectura del artículo anterior de ésta serie para ampliar la información. [2], [3].
Distorsión de voltaje y armónicos
Pueden parecer problemas más vinculados a la calidad y las exigencias del Utility, pero si son graves, pueden provocar salidas de servicio intempestivas, por lo que son parámetros que deben ser considerados y monitoreados.
Sag’s e interrupciones
Según la Norma IEEE 1159, se conocen como Sag las variaciones de tensión entre el 10% y el 90% de la nominal, desde un ciclo a un minuto. [10]
Las caídas a menos del 10% del voltaje nominal son consideradas directamente interrupciones del servicio. Habitualmente los sag’s tienen duraciones menores a 1 segundo.
También se debe diferenciar cuando el sag afecta a una sola fase, dos o las tres. Las variaciones se pueden deber al origen del evento, por ejemplo un cortocircuito o un cierre de líneas en media tensión con fallas entre fases, contra tierra, etc.
Es importante evaluar la conveniencia de usar equipo crítico en sistema monofásico o trifásico de acuerdo a las implicaciones que pueda tener la interrupción según cada caso. [5], [3].
Bajo voltaje y sobre voltaje
Cuando hacemos referencia a estas anomalías se entiende que es en forma permanente o semipermanente, por ejemplo debido a problemas en las redes de distribución que originan anomalías en horarios determinados, o en situaciones específicas.
Se debe evaluar este problema en la etapa de diseño, y si existe en forma permanente ya tomar las previsiones del caso.
Control de corriente y sobre-corrientes
El problema mayor aquí, además de los cortocircuitos, que son los que generan las mayores sobrecorrientes, es que habitualmente hay deficiencias en el diseño y mantenimiento de los sistemas de control de sobrecorriente y coordinación de los diversos niveles de protecciones.
Si a eso le sumamos la incidencia de armónicos debidos a cargas no lineales, el disparo intempestivo de interruptores puede transformarse en un gran problema.
Interrupción momentánea o temporal
Caso en que el tiempo y la profundidad de la anomalía de voltaje supera lo previsto en la definición de Sag.
Es uno de los input fundamentales en el análisis de riesgo para equipamiento crítico e involucra una gran parte del presupuesto de inversión (CAPEX) necesario para generar un sistema crítico confiable.
Variación de frecuencia
Problema debido generalmente a la pérdida de un gran generador (proporcionalmente) en una red de T&D. Hay países en donde es un problema con una gran incidencia en el menú de fallas eléctricas, y puede llevar a un funcionamiento excesivo del sistema UPS sobre baterías; o directamente a mantener toda la carga sobre el generador de emergencia.
Sistemas que contribuyen a mitigar o evitar cada uno de los fallos
Sistema de puesta a tierra
El primero de todos es tener un sistema de puesta a tierra y sus interconexiones en forma correcta, siempre adecuado a las corrientes de falla manejadas. (Ver el artículo anterior) [2] [3] [4].
Conexión a tierra del sistema eléctrico
También se ha hablado de este tema en el artículo anterior. [2].
“El correcto diseño de la conexión eléctrica a tierra y del SPAT, aseguran la protección a personas y bienes, además de la confiabilidad de la instalación, ya que es la base para la protección contra transitorios y descargas.” [2].
Si aún se está en la etapa de proyecto o anteproyecto, será bienvenida la evaluación de qué sistema de conexión Neutro-GND es el más conveniente, esto puede evitar muchos problemas a futuro, en especial si hay riesgos de explosión, o es necesaria la extrema protección de personas (hospitales, quirófanos, unidades de cuidados intensivos).
Surge protection devices contra sobretensiones transitorias
Los Surge o sobretensiones transitorias son fenómenos inevitables con los que cualquier instalación eléctrica debe convivir, se pueden reducir, controlar y mitigar su impacto, pero no se pueden eliminar.
Los equipos de protección generalmente contienen una mezcla de tecnologías, típicamente están basados en varistores o tubos de gas, con respuestas en el orden de los microsegundos.
Los protectores contra sobretensiones tienen una muy variada oferta de mercado y distintos principios de funcionamiento, algunos muy probados y fiables y otros con ofertas de soluciones casi mágicas, y por lo tanto no recomendables.
Sugerimos diseñar, mantener y sustituir protecciones con equipos de primer nivel y certificados bajo estrictas normas de calidad y seguridad (por ejemplo UL1449 Tercera Edición)
Se debe tener en cuenta que si hay un mal diseño del equipo y su coordinación interna no es la adecuada, puede haber resultados catastróficos (explosiones, incendio de componentes, etc.). [5], [6], [7].
Fotos: Problemas en protecciones que terminan generando incendios en tableros. [8]
Protecciones coordinadas (selectividad)
Es importante que se haga un diseño de protecciones que tenga como objetivos:
- La seguridad de las personas.
- La debida coordinación para asegurar que se deja sin servicio la zona afectada, Y SOLAMENTE ELLA. Es una de las bases para asegurar la disponibilidad y confiabilidad de las cargas críticas.
- Asegurar el correcto mantenimiento del sistema, diseñando con criterios de mantenibilidad, esto es que se puedan aislar las zonas necesarias para trabajar sin riesgos, poder realizar tareas de mantenimiento, pero sin afectar los servicios críticos.
IMPORTANTE: La coordinación debe incluir los protectores de sobretensiones instalados.
Generación de emergencia
Este agregado permite manejar la contingencia de cortes de servicio eléctrico prolongados.
Generalmente la alternativa son grupos motor-generador diesel-eléctricos, en cantidad necesaria para cubrir la potencia de carga.
Aquí entran en juego elecciones que deben ser realizadas juiciosamente sobre el tipo de Transfer switch a utilizar, cantidad de generadores, seccionamiento de zonas y cargas, etc.
Esto va a influir notablemente en el rendimiento y confiabilidad esperada del sistema. Si la instalación ya está en marcha y tuvo problemas cuando fue requerido el funcionamiento de los equipos de generación, puede ser un buen momento para analizar cambios en estos puntos.
Sistemas de alimentación ininterrumpida (UPS)
Los sistemas UPS cumplen la función de suministrar energía mientras se producen sag’s, y pequeñas perturbaciones que sería imposible combatir, por ejemplo, con una fuente alternativa como un generador diesel, debido a que son eventos del orden de los micro y mili segundos.
También cabe usar inversores DC-AC en algunos casos, puesto que hay instalaciones de corriente continua (DC) muy fiables en algunas industrias como las Telco, y son una buena base para el suministro permanente de energía de calidad.
En estos sistemas debe tenerse especial cuidado en el diseño orientado a obtener la máxima disponibilidad y confiabilidad.
Para esto es necesario, no solamente pensar los equipos y cableados en forma convenientemente redundante, sino también en el entorno y las posibilidades de mantenimiento.
Baterías: Son un elemento fundamental, tanto en UPS’s como en inversores que extraen energía de una planta de DC. Como es un elemento de base química que genera energía eléctrica, requiere un mantenimiento altamente especializado, herramientas e instrumentos de primer nivel, y especialmente personal humano altamente calificado.
Es recomendable que las baterías tengan un entorno diseñado para su óptimo rendimiento, seguridad y mantenibilidad. En la etapa de proyecto es un punto fundamental, y en la etapa de operación no está de más revisar estas condiciones en forma periódica.
Es importante partir en éste tema de un concepto fundamental. “La batería” útil es una serie formada por un conjunto de baterías, por lo tanto, como toda serie, será tan fuerte como su eslabón más débil. A modo de ejemplo, el tornillo de conexión intercelda puede convertirse en el causante de un outage debido a un torque de apriete insuficiente. El mantenimiento es tan fundamental como el técnico que se ocupa del mismo, y qué, sin la capacitación adecuada puede convertirse en el eslabón más débil del Sistema.
RECORDAR: “En sistemas de Corriente Continua es muy importante contemplar globalmente el SPAT junto con el grounding del sistema de potencia, especialmente por las corrientes nominales de servicio que son muy importantes y por lo tanto no es necesario llegar a un cortocircuito para que el evento sea peligroso.” [2]
Switch de transferencia estática (STS)
Son transferencias automáticas con velocidades de operación menores a ¼ de ciclo. Esto genera la ausencia de corte de suministro en los equipos conectados y permite planificar mantenimientos sin afectar las cargas ni la redundancia existente en ellas.
Obviamente la conmutación se hace entre dos fuentes “vivas”, por lo que deben ser fuentes constantes, descartando por ejemplo la generación diesel de emergencia.
Como además son viables económicamente en potencia relativamente pequeñas, se usan generalmente sobre el equipamiento de IT con dos ramas de UPS independientes conectadas a la carga.
Se debe tener presente que si bien incrementa la redundancia al ampliar la matriz fuentes/entradas de equipos, no menos cierto es que aumenta la complejidad de la instalación y sin el adecuado conocimiento de la misma puede dar lugar a muchos errores de operación.
Consideraciones generales sobre diseño y mantenimiento
Como siempre lo hacemos, intentaremos contribuir a la parte más práctica del trabajo, aportando algunos tips y comentando casos vistos en la práctica, como forma de dar pautas iniciales para quienes tengan problemas a resolver en plantas industriales o datacenters que ya están en funcionamiento.
A nivel general:
Incorporación del factor humano en el diseño:
Hemos visto esquemas impresionantes con niveles de redundancia 2N sobre casi todos los componentes críticos de una instalación eléctrica o de HVAC, pero fallan cuando uno de los sistemas cae y el técnico de mantenimiento no tiene claro cómo identificar el interruptor del sistema A en falla, y apaga el B que era el que funcionaba.
Los sistemas deben tender a hacer la operación lo más simple posible, en especial en momentos críticos en los cuales la presión sobre quien opera es muy grande y el margen para errores tiende a cero.
Los sistemas extremadamente complejos e interconectados en muchos casos solo alimentan el ego del diseñador, pero no contribuyen a la confiabilidad y la mantenibilidad.
Planes de contingencia:
Un problema común es que la alta rotación de personal impide la especialización y familiarización del personal con la instalación. Es conveniente recordar que un especialista en un determinado equipo, si no entiende el contexto operacional, probablemente esté tan limitado para mantener una instalación crítica como aquél que tiene mucho menos conocimiento sobre el equipo.
Para suplir estas falencias se hace muy necesario tener los planes de contingencia elaborados y actualizados; y al personal se lo debe entrenar para actuar correctamente de acuerdo a esos planes (especialmente a los más nuevos en la empresa).
Documentación desactualizada o inexistente:
La documentación en algunos casos causa más problemas que lo que aporta a solucionarlos. Llega un momento en que nadie confía en lo que dicen los esquemas porque todos saben que están desactualizados.
La causa raíz generalmente es cultural, no se logra ver la importancia de dedicar tiempo a mantener la documentación, y cuando se quiere actualizar es a través de terceros contratados; esto puede servir como upgrade forzado, pero si no hay un plan a largo plazo, pasado un tiempo vuelve a estar desactualizada.
Grupos electrógenos
Se debe tener, especial cuidado en que la carga total sea la adecuada para el/los equipos. Muchas veces se amplía el equipamiento conectado de una forma muy gradual y nadie nota que haya habido “grandes cambios”, pero llega el momento en que el generador ya no soporta, o bien la carga total o el nivel de reactiva a suministrar.
Salas para grupos electrógenos:
Habitualmente se instalan los equipos y los Transfer Switch “donde hay lugar”, pero ese lugar lejos está de poder disipar el calor y los gases generados por máquinas diesel en funcionamiento. Si a eso le sumamos aberturas deficientes que permitan el acceso de animales y roedores, la sala pasa a ser un gran problema para la disponibilidad de las máquinas de generación.
Si la planta de generación de emergencia alimenta equipos críticos, debe tener un monitoreo permanente, o bien a través de un software de gestión, o mínimamente por alarmas de cambio de estado que se transmitan a algún dispositivo.
Automatic transfer switch (ATS):
En muchos casos no llevan un estudio de ingeniería asociado a la selección y compra. Se opta por “el que viene con el equipo generador”, o el que recomienda el vendedor, inclusive se dan casos en que se elige el que tiene entrega inmediata al hacer la obra.
Los transfer switch, además de tener una función muy importante, se comportan habitualmente como un punto singular de falla, y por eso mismo deben tener capacidad de monitoreo, de acción tanto automática como manual, en lo posible se deben diseñar sistemas alternativos manuales y deben estar conformes al régimen de Neutro adecuado (este problema es muy habitual). Demás está decir que se debe entrenar al personal técnico de mantenimiento para que comprenda el funcionamiento del equipo y sea capaz de brindar soluciones a la hora de los problemas.
Combustible:
La ausencia de diseño de un sistema adecuado es la falencia más común detectada.
¿Existe un depósito de combustible adecuado en seguridad y dimensiones? (Ver NFPA 30).
¿Tiene la redundancia necesaria en bombas, válvulas y tuberías para la disponibilidad deseada?
¿Hay control del estado y la calidad del combustible desde el suministro hasta la entrada del equipo consumidor?
¿Es posible asegurar el abastecimiento en caso de emergencia por un período prolongado?
Coordinación de protecciones
Aquí el problema más común es la falta de diseño y estudio permanente de la coordinación y selectividad.
Simplemente se hace una instalación en base a cargas supuestas, pero luego no se hace un estudio sobre las cargas reales, el funcionamiento y la selectividad real de la instalación.
La mala noticia de esto es que no es un estudio que se hace una vez, sino que hay que irlo actualizando a medida que varían las cargas, las tecnologías y el contexto operacional (por ejemplo si aumentan los requerimientos de disponibilidad).
UPS y baterías
Baterías:
Problema más común: falta de mantenimiento. Las baterías son sumamente delicadas y deben recibir chequeos periódicos, planificados y correctamente ejecutados; pero también se deben analizar juiciosamente los resultados de esos chequeos, es lo que permitirá detectar tendencias, problemas potenciales y poder tomar acciones antes de que ocurran los eventos de falla.
El problema aquí es que los instrumentos a utilizar son caros, no son fáciles de usar y de analizar los resultados, por lo que es un trabajo que es conveniente tercerizarlo con especialistas.
Lo malo de contratarlo fuera de la empresa es que fácilmente cae dentro de los trabajos “a recortar” cuando hay ajustes de presupuesto.
Las salas de baterías también deben tener mantenimiento y monitoreo adecuados. La vida útil de una batería se puede recortar sustancialmente con la variación de unos pocos grados centígrados en la temperatura ambiente. Si las baterías no son selladas, el monitoreo de niveles de Hidrógeno es fundamental.
UPS, inversores y rectificadores:
Aquí el mantenimiento puede resultar más simple, pero aun así se constata la falta de una secuencia programada y un análisis sistemático de los datos obtenidos.
Es importante tener un sistema de monitoreo permanente de estos equipos y personal especializado que pueda entender y actuar en base a la información recibida.
Sistemas de puesta a tierra:
Véase nuestro trabajo anterior sobre sistemas de tierra. [2].
Resumen
Cuando fallar no es una opción, se debe diseñar, construir, operar y mantener con ese objetivo en mente. La falla cero no existe, pero debemos procurar que el sistema siga funcionando.
Como hemos expresado anteriormente, se debe realizar un diseño para fallos, y no contra fallos. Cualquier sistema va a fallar, podemos crear las condiciones para que ese fallo no afecte, o afecte lo menos posible la misión del sistema.
El factor humano es fundamental en cualquier sistema complejo, por lo que hay que tenerlo presente desde que comienza el diseño. Si usted debe mantener una planta ya construida, es una buena opción pensar en cómo incorporar el factor humano en la ingeniería de mantenimiento y confiabilidad. Esto puede llevar a rediseño de procesos y sistemas que agrega necesariamente trabajo e inversión, pero redundará en una mayor disponibilidad.
Referencias
- [1] Tomado de Curso de capacitación sobre SMC, NPConsulting 2014.
- [2] Sistemas de misión crítica, empezar por el principio, Sistemas de Puesta a Tierra. NPConsulting, 2016, Predictiva21.
- [3] IEEE 1100-2005, Recommended practice for Powering and Grounding Electronic Equipment, IEEE, 2005.
- [4] ANSI-TIA J-STD-607-A, Commercial Building Grounding ad Bonding Requirements for Telecommunications, ANSI, 2002.
- [5] IEEE C62.41.1-2002, IEEE Guide on the Surge Environment in Low-Voltage (1000 V and Less) ,AC Power Circuits.
- [6] IEEE 446, Recommended practice for Emergency and Standby Power Systems for industrial and Commercial Applications. IEEE, 1995.
- [7] NEC 70, National Electric Code, 2011 Edition, NFPA, 2011.
- [8] Advanced Protection Technologies, APT Surge Protection.
- [9] IEEE 242-2001, Recommended practice for Protection and Coordination of Industrial and Commercial Power Systems.
- [10] IEEE 1159-2009, Recommended Practice for Monitoring Electric Power Quality.
Autor: Nicolás Pintos Souza
Socio-Gerente, NPConsulting
Correo: info@npconsulting.com.uy