Confiabilidad en Sistemas de Misión Crítica. Empezar por el principio

Parte I

Se entienden como Sistemas de Misión Crítica aquellos que son indispensables para que funciones de importancia relevante se lleven a cabo con éxito, ya sea en una empresa, un gobierno o cualquier tipo de organización.

Los Datacenters que soportan las operaciones del sistema financiero, de los sistemas de salud, de la red de seguridad y atención a emergencias de un país o región (ej.*911) y otros similares son ejemplo de Sistemas de Misión Crítica, pero también la PBX de una empresa de CallCenter comercial será vista como un sistema crítico en el análisis de riesgo del negocio.

En términos comerciales diríamos que no son el producto final, pero son necesarios para que el mismo exista.

Al adquirir creciente importancia la economía de los servicios, todo lo relacionado a información y telecomunicación ha sido catalogado como crítico para el funcionamiento de la mayoría de las empresas de éste sector de la economía. De allí que sea una exigencia cada vez mayor a los responsables de IT de las empresas que sus sistemas estén “en servicio” durante la mayor cantidad de tiempo posible; al punto de que algunos piensan que un sistema bien diseñado y con la inversión adecuada podría estar en servicio indefinidamente (cosa ilógica, por cierto).

En 2010 ya se estimaba que entre el 1,7 y el 2,2% del consumo eléctrico de USA tenía como destino la industria de los Datacenters; éste dato nos da una idea de que estamos hablando de una industria en franca expansión y al mismo tiempo dependiente mayormente de un único insumo (el flujo eléctrico).

Las nuevas tendencias hacen que florezcan miles de estudios, análisis y servicios de consultoría que buscan mejorar la disponibilidad de los sistemas de IT, pero para hacer uso de todas estas herramientas, se debe tener claro a dónde se quiere llegar, y con qué se cuenta en la partida; y de eso precisamente se ocupa el presente documento.

Conceptos básicos

Confiabilidad

Es la probabilidad de que un producto o servicio pueda operar adecuadamente por un período específico de tiempo, bajo las condiciones operativas de diseño, sin falla.

Disponibilidad

Capacidad de un componente o sistema para cumplir la función requerida en un período de tiempo establecido.

Inherente

Es la probabilidad instantánea de que un componente o sistema esté en funciones (o no). La disponibilidad inherente solo considera el downtime referido a la reparación de la falla.

Operacional

Es la probabilidad instantánea de que un componente o sistema esté en funciones (o no), pero se diferencia de la Disponibilidad Inherente (Ai) en que la Operacional toma en cuenta todo el período de downtime, incluidos los tiempos que origina la logística, el mantenimiento programado, etc.

Mantenibilidad

Es quizás el menos desarrollado y conocido de los conceptos que se exponen. Mantenibilidad es una medida de la relativa facilidad y economía de tiempo y recursos con que se realiza el mantenimiento de un componente o sistema.

Es una función del diseño en detalles como el acceso, intercambiabilidad, estandarización y modularidad. Incluye desde el diseño al elemento humano en sus funciones de operación y mantenimiento.

Resiliencia

Es la capacidad intrínseca de una organización o sistema para mantener o recuperar un estado de estabilidad dinámica que le permite continuar en operación posteriormente a un accidente grave y/o en presencia de continuo stress.

Estructura de Sistemas de Misión Crítica (SMC)

Como vemos en éstas definiciones, salvo en la de Disponibilidad inherente, en todas se contemplan factores que dependen del elemento humano, tales como organización, entorno, logística, mantenimiento, etc. Entonces, ¿por qué no se diseña teniendo en cuenta todo esto, y se pretende que los resultados sean los mismos que si se hubiera hecho?

¿Qué aporte puede hacer este análisis en el diseño del sistema y de sus operaciones de O&M? Creemos que mucho.

Todos los equipos y sistemas sobre los que se basa la IT dependen de un suministro eléctrico confiable, sea para los equipos de producción, para el entorno, el acondicionamiento térmico, la seguridad física, la prevención y mitigación de incendios y un largo etcétera.

A continuación presentamos el modelo sobre el que basamos el trabajo de análisis, diseño y desarrollo de disponibilidad y confibilidad para Sistemas Críticos.

Figura 1
Figura 1

Usando un símil del Modelo OSI de capas (Open systems interconnection) de la ISO, intentamos definir una estructura jerárquica que permita visualizar cuales son los elementos fundamentales que permiten que el siguiente nivel pueda funcionar.

Para mayor facilidad de comprensión, y dado que nos vamos a centrar en el sistema eléctrico, hemos omitido otros factores críticos, en el caso del HVAC por ejemplo, el suministro de agua de calidad adecuada (que también está condicionado por su sistema de bombeo y filtrado basado en electricidad).

El diseño del contenedor de Capacitación no es accidental, encierra todo un concepto, ya que no debe ser compartimentado en cada capa, no debe ser rígido, y debe dar una comprensión global del sistema a todos los involucrados.

En el lateral derecho se pueden ver, también sin rigidez de capas, los sistemas e instrumentos a aplicar para mejorar la confiabilidad y mantenibilidad de los sistemas involucrados.

A modo de ejemplo:

  • Sistema de puesta a tierra.
  • Supresores de sobretensiones (SPD’s).
  • Monitoreo y gestión.
  • Técnicas, procedimientos y gestión de Operación y Mantenimiento (O&M).
  • Gestión de riesgos.
  • Planes de contingencia.

Cuando se comienzan planes e inversiones para la mejora de la Confiabilidad, ¿se piensa globalmente sobre estos temas?

¿Se invierte pensando en este contexto?, por ejemplo, ¿los sistemas DCIM están contribuyendo a prevenir fallas críticas? ¿O solo están porque “hay que tener un DCIM”?

Resumen

Se debe realizar un diseño para fallos, y no contra fallos. Cualquier sistema va a fallar, podemos crear las condiciones para que ese fallo no afecte, o afecte lo menos posible la misión del sistema. No sabemos cuándo ocurrirá el próximo evento, ni que combinación lo hará posible, por lo que debemos trabajar en forma permanente y realimentada para analizar, prevenir y rediseñar, no sólo los equipos, sino también los planes de mantenimiento, de capacitación, de contingencia y de Disaster Recovery.

Tener en cuenta que diferentes condiciones de reliability y maintainability pueden dar la misma Disponibilidad operacional (Ao), recordar el uso de los tres conceptos ya que el diseño de por sí no garantiza una Ao excelente si el equipo humano tiene fallos, el sistema de manejo de documentación es malo o inexistente, etc.

Existe la tendencia siempre a creer que la tecnología nos salvará de todos los problemas, en el caso de los sistemas de Misión Crítica se apunta a los sistemas DCIM, BMS, de gestión y monitoreo remoto de cuánto equipo haya en la instalación. Esto se asocia generalmente a que se pueden reducir costos operativos, especialmente de personal que será sustituido por tecnología.

Sin embargo se debe tener claro que la tecnología no sustituye al operador, sino que lo complementa y ayuda, al mismo tiempo que lo “complica” a medida que la herramienta se hace más compleja; por lo tanto la inversión en capacitación debe aumentar en vez de disminuir, ya que es la única forma de maximizar el rendimiento de la inversión en tecnología.

Parte II: Sistemas de Puesta a Tierra

Introducción

Continuando con la Serie Confiabilidad en Sistemas de Misión Crítica, Empezar por el principio; nos proponemos llevarle a nuestros lectores los puntos de interés a partir del artículo inicial.

Decíamos en el primer artículo que los Sistemas de Misión Crítica son:

“… aquellos que son indispensables para que funciones de importancia relevante se lleven a cabo con éxito, ya sea en una empresa, un gobierno o cualquier tipo de organización.

Los Datacenters que soportan las operaciones del sistema financiero, de los sistemas de salud, de la red de seguridad y atención a emergencias de un país o región (ej.*911) y otros similares son ejemplo de Sistemas de Misión Crítica, pero también la PBX de una empresa de CallCenter comercial será vista como un sistema crítico en el análisis de riesgo del negocio.

En términos comerciales diríamos que no son el producto final, pero son necesarios para que el mismo exista…”

El modelo sobre el cual trabajaremos en toda ésta serie fue presentado en la primera parte y es el siguiente:

“…A continuación presentamos el modelo sobre el que basamos el trabajo de análisis, diseño y desarrollo de disponibilidad y confiabilidad para Sistemas Críticos.

Figura 1
Figura 1

A modo de ejemplo:

• Sistema de puesta a tierra.
• Supresores de sobretensiones (SPD’s).
• Monitoreo y gestión.
• Técnicas, procedimientos y gestión de Operación y Mantenimiento (O&M).
• Gestión de riesgos.
• Planes de contingencia.

Sistemas de Puesta a Tierra

Un Sistema de puesta a Tierra (SPAT) o instalación de puesta a tierra “es aquella instalación eléctrica que tiene como misión derivar corriente hacia la tierra, o bien, establecer contacto con ella; las corrientes involucradas pueden ser de naturaleza estacionaria, cuasi estacionaria, de alta frecuencia o electromagnética en forma de impulsos, corrientes que pueden ser originadas durante el funcionamiento de un sistema técnico hecho por el hombre o causado por un fenómeno natural.

Se demuestra por otra parte que la puesta a tierra más elemental satisface los requisitos para considerársele sistema”

Bonding y Grounding

Existen diferencias entre estos dos términos, y muchas veces se usan erróneamente como sinónimos. Veamos en detalle:

Bonding

Es la interconexión eléctrica de partes conductivas, diseñada para mantener un potencial eléctrico común. La conexión debe ser permanente y asegurar la continuidad eléctrica y la capacidad de conducir en forma segura cualquier corriente.

Grounding

Es la conexión, intencional o accidental de un circuito eléctrico a tierra o a algún cuerpo conductor (chasis) de tamaño tal que sirve como tierra.

En la siguiente imagen se pueden ver los dos tipos de conexión, el Grounding a la izquierda, y una unión (Bonding) entre los dos bloques delimitados por líneas punteadas. La aplicación es en un sistema de Neutro tipo TN:

Figura 2
Figura 2.
Fuente: Commercial Building Grounding and Bonding Requirements, J-STD-607-A

Conexión a tierra del sistema eléctrico

Otro concepto, habitualmente no bien comprendido, es el de la puesta a tierra del sistema eléctrico. Esto es, la forma en que está vinculado a tierra el transformador y las subestaciones de las cuáles se alimenta la instalación eléctrica en cuestión.

En esta categoría caben las conexiones de neutro, tanto a tierra, como aislados, con impedancia o con resistencia. El tema es profundo y complejo y debe ser tratado en detalle.

A continuación se puede ver un resumen de los esquemas de conexión de Neutro más utilizado:

Figura 3
Figura 3.
Fuente: IEEE 142. Recommended Practice for Grounding of Industrial and Commercial Power Systems

El correcto diseño de la conexión eléctrica a tierra y del SPAT, aseguran la protección a personas y bienes, además de la confiabilidad de la instalación, ya que es la base para la protección contra transitorios y descargas.

En sistemas de corriente continua es muy importante contemplar globalmente el SPAT junto con el grounding del sistema de potencia, especialmente por las corrientes nominales de servicio que son muy importantes y por lo tanto no es necesario llegar a un cortocircuito para que el evento sea peligroso.

Consideraciones generales

Según IEEE 1100-2005, el SPAT:

  • Provee un camino de baja Impedancia para el retorno de corrientes de falla.
  • Mantiene una baja diferencia de potencial entre metales expuestos (chasis) con el objetivo de proteger a las personas.
  • Funciona como control de sobre voltaje.

¿Por qué debemos hablar en estos casos de reactancia y no resistencia?

  • Habitualmente se hacen cálculos con resistencia de 50 Ω, pero en 50/60 Hz.
  • ¿Qué sucede con la resistencia cuando aumenta la frecuencia?
    • Deja de ser significativa, y pasa a ser importante la Reactancia.
    • Este problema se incrementa con cargas no lineales.
Figura 4
Figura 4.
Fuente: IEEE 1100-2005, pág. 113
Figura 5
Figura 5.
Fuente: IEEE 1100-2005, pág. 115
Figura 6
Figura 6.
Fuente: IEEE 1100-2005, pág. 115

Estos puntos deben ser tenidos en cuenta al diseñar el sistema de puesta a tierra, ya que, de no hacerlo la corriente circulante puede llegar a ser mayor que la de diseño y los resultados operativos muy malos (incluso catastróficos).

La respuesta en frecuencia es fundamental en el análisis de sobretensiones transitorias por descargas atmosféricas.

Protección contra sobretensiones transitorias

Los Surge o sobretensiones transitorias son fenómenos inevitables con los que cualquier instalación eléctrica debe convivir, se pueden reducir, controlar y mitigar su impacto, pero no se pueden eliminar.

Son los causantes de una gran cantidad de fallas que parecen aleatorias pero que no lo son, en muchos casos generan desgaste prematuro por acumulación, pero al no haber una vinculación directa entre el fenómeno y la consecuencia (como por ejemplo cuando “cae un rayo”), se tiende a pensar que es una fatalidad y que no había nada por hacer.

Origen de las perturbaciones (sobretensiones y sobrecorrientes)

Según la Norma IEEE C62.41.1-2002, las perturbaciones se originan por:

Descargas atmosféricas

Son el resultado de un rayo directo sobre el sistema eléctrico, una estructura metálica perteneciente al mismo, o en sus cercanías (incluido el suelo). Cuando las descargas son lejanas puede haber efectos también, debido a la inducción de sobretensiones en las instalaciones.

Perturbaciones por maniobras

Típicamente conmutaciones intencionales en la red eléctrica, tales como conmutación de capacitores de reactiva, on/off de grandes cargas, transferencias automáticas, etc.

También se pueden deber a acciones correctivas posteriores a fallas del sistema (típicamente recierre de líneas), o a eventos no intencionales (fallas).

Sobretensiones originadas en interacción de sistemas

Típicamente ocurren durante el flujo de sobrecorrientes en un sistema de AC interconectado con otros, y estos últimos son afectados debido a la interconexión.

Daños causados por sobretensiones en equipos electrónicos

Figura 7
Figura 7.
Fuente: Dranetz, Handbook for Power Quality

Vemos en esta tabla la importancia que tienen “pequeños eventos” en la operativa del equipamiento usado en sistemas informáticos y de telecomunicaciones.

Prevenir no sólo los daños de hardware, sino los que refieren a los procesos debe ser el objetivo de todo administrador u operador de un Data Center o Sistema Crítico.

¿Se tienen en cuenta estas limitaciones en la sobretensión admisible a la hora de diseñar Datacenters y nodos de telecomunicaciones? La disponibilidad de los servicios que corren sobre el hardware del Datacenter está directamente relacionada con estos eventos, aunque no haya “secuelas” visibles o inmediatas en el equipamiento.

EMI/RFI

Los requerimientos de contemplar la interferencia radioeléctrica y electromagnética son imprescindibles en sistemas electrónicos y especialmente de TI; tanto para evitar ser afectado, como para no afectar a los equipamientos vecinos.

Problemas más comunes de SPAT

A continuación presentamos una lista de problemas detectados en relevamientos y trabajos de reingeniería. La misma no pretende ser exhaustiva ni mucho menos una referencia absoluta sobre el tema; pero puede ayudar a intentar entender por dónde comenzar en caso de tener problemas.

Loop de tierra

Los loop de tierra son peligrosos para el funcionamiento del sistema, especialmente para bajas frecuencia, y se forman cuando dos o más puntos en un sistema eléctrico que está nominalmente puesto a tierra, están conectados por un conductor que tiene por lo menos un extremo a potencial diferente. En altas frecuencias es importante tener “retornos” de GND para evitar ruido EMI/RFI, pero todo esto debe manejarse con criterio, especialmente cuando hay alimentaciones de distintos sistemas eléctricos, y se forman loop con sistemas que tienen distinta conexión de Neutro a GND. Muchas veces los loops son originados por interconexión de sistemas de datos (ej RS-485, RS-232) que corresponden a locaciones diferentes y tienen distintos sistemas eléctricos y de GND.

Malla de tierra con diseño no adecuado a las corrientes circulantes

Muchas veces se encuentra que los cálculos iniciales son inexistentes, o basados en supuestos que no son los que corresponden al contexto operacional de la industria o edificio en cuestión. Esto lleva como primera cosa a ocuparse de la seguridad de las personas, los voltajes de paso y de toque pueden llegar a ser peligrosos en casos puntuales de descargas que incrementen el potencial, máxime si las protecciones diferenciales no son las adecuadas. El siguiente problema es el de la continuidad de servicio, especialmente en un entorno crítico, ya que puede haber daños de hardware.

Resolución deficiente de la interacción entre múltiples fuentes

Es un problema que puede estar vinculado al descrito anteriormente. En sistemas que tienen generación de emergencia (generalmente diésel) con transferencias automáticas, puede haber transferencias de referencia de neutro, o incluso “neutros compartidos”, que generan circulación de corriente en servicio, o; peor aún, corrientes de falla y cortocircuito por lugares que no tienen las protecciones diseñadas para tales eventos. Típicamente estos problemas forman parte de la causa raíz de fallas y salidas de servicio intempestivas de generadores diésel, o destrucción de interruptores por los cuales, en teoría, no deberían circular grandes corrientes.

Ausencia de mantenimiento

Problema detectado en forma permanente; el sistema de puesta a tierra fue instalado, enterrado, y con suerte probado; luego se asume que estará en buen estado de por vida. La verdad es que hay múltiples factores que van afectando el sistema con el paso del tiempo, por ejemplo los cambios de humedad debido a cambios en el suelo, esto cambia la resistencia (resistividad aparente) y con ello la performance del SPAT.

Otro punto que contribuye a disminuir la humedad es la evaporación que se produce en los alrededores de los electrodos cuando hay descargas; por lo que la revisión del sistema debe tener una cierta periodicidad. También se detectan habitualmente problemas de conexiones defectuosas, oxidación, y especialmente loops involuntarios debidos a la operación diaria, por ejemplo con agregados de equipos que tienen más de una conexión de GND, desinstalación de equipos a los que se deja la conexión de tierra suelta sobre partes metálicas y generan retornos, etc.

Resumen

Partiendo de las conclusiones del primer documento de ésta serie, recordamos que se debe realizar un diseño para fallos, y no contra fallos. Cualquier sistema va a fallar, podemos crear las condiciones para que ese fallo no afecte, o afecte lo menos posible la misión del sistema.

En el caso del sistema de puesta a tierra, se debe diseñar adecuadamente para cumplir su función en las condiciones más exigentes, pero también se debe planificar y ejecutar un mantenimiento acorde al contexto operacional de la instalación. Las “fallas aleatorias” muchas veces no son tan aleatorias, sino que son fruto de problemas ocultos con efecto acumulativo.

Parte III: Sistemas de Alimentación Eléctrica Crítica

Introducción

Continuando con la Serie Confiabilidad en Sistemas de Misión Crítica, Empezar por el principio; nos proponemos llevarles a nuestros lectores los puntos de interés a partir de los artículos anteriores.

En los apartados anteriores sobre Conceptos generales y Sistemas de puesta a tierra, decíamos que los Sistemas de Misión Crítica son:

“… aquellos que son indispensables para que funciones de importancia relevante se lleven a cabo con éxito, ya sea en una empresa, un gobierno o cualquier tipo de organización.

El modelo sobre el cual trabajaremos en toda ésta serie fue presentado en la primera parte y es el siguiente. [1]

A modo de ejemplo:

  • Sistema de puesta a tierra.
  • Supresores de sobretensiones (SPD’s).
  • Monitoreo y gestión.
  • Técnicas, procedimientos y gestión de Operación y Mantenimiento (O&M).
  • Gestión de riesgos.
  • Planes de contingencia.

Ya vimos los temas más generales de los Sistemas de puesta a tierra, ahora siguiendo con el modelo pasaremos a examinar en detalle los sistemas de alimentación eléctrica crítica, que son el siguiente escalón para la confiabilidad del resto de las plataformas y servicios que están en niveles superiores de la pirámide.

Figura 1
Figura 1

Sistemas de Alimentación Eléctrica Crítica

¿Es el tablero de iluminación una parte crítica de un Datacenter o de la sala de control de una planta industrial?

La respuesta es, depende. Y ni siquiera de un factor, sino de varios.

A saber:

¿La iluminación es necesaria para la seguridad física del lugar?

¿Es necesaria para poder intervenir en la resolución de fallas de máquinas de infraestructura crítica?

¿Es necesaria para la operación de los sistemas de TI, monitoreo y/o control?

Y podríamos seguir.

Entonces, ¿Qué son sistemas eléctricos críticos?

Definición

Un sistema eléctrico debe estar diseñado, operado y mantenido para cumplir con la función requerida por las cargas conectadas. Si dichas cargas no soportan interrupciones eléctricas mayores a x milisegundos, el diseño debe ser hecho para evitar -dentro de intervalos de confiabilidad razonables y económicamente viables- que las interrupciones sean mayores a las requeridas.

Por lo tanto, un Sistema eléctrico crítico es aquel que alimenta directamente cargas críticas, o sus sistemas auxiliares cuando también están definidos como críticos.

Lo de “carga crítica” tiene una vinculación directa con el Costo de falla, por lo que es necesario hacer éste análisis previamente para definir si efectivamente se está dentro de la categoría correspondiente o no.

Recordemos que el costo no es solamente en ingresos económicos, puede ser de afectación de imagen, de incumplimiento de contratos y/o regulaciones públicas, de normas medioambientales, etc.

Para resumir, podríamos decir que los Sistemas se definen como críticos cuando fallar no es una opción.

Criterios de alimentacion para equipamiento de IT

La Computer Business Equipment Manufacturers Association (CBEMA) es una asociación de fabricantes de equipos informáticos y de telecomunicaciones que agrupa a los fabricantes más importantes.

Existe consenso general en usar la curva que CBEMA ha diseñado, como estándar sobre los requisitos de suministro de alimentación para equipos de IT.

Aquí podemos ver una versión reducida:

Figura 2
Figura 2

Y una más amplia con detalles a nivel de milisegundos sobre las tolerancias y los problemas que pueden tener los equipos si se sobrepasan algunos límites.

Figura 3
Figura 3

Como podemos ver en el caso de las sobretensiones y subtensiones de amplio porcentaje (dos y tres veces el nominal), la duración máxima que puede tolerar el equipo está en el orden de los micro segundos.

De aquí surgen dos temas importantes, el de asegurar la ininterrupción del suministro, y el de evitar las sobretensiones transitorias.

El primer punto será tratado en éste artículo, el segundo solo será mencionado, pero puede ser consultado directamente con NPConsulting para más detalles.

Eventos de falla

Recordemos algunos de los problemas eléctricos más comunes que originan intervalos de tensión anormal (o ausencia):

Transitorios (modo común y modo normal)

Los transitorios se originan en:

  • Maniobras de red.
  • Fallas y reconexiones de grandes cargas (o con alta potencia reactiva).
  • Descargas atmosféricas.
  • Fallas a nivel de media/alta tensión.

Ruido (modo común y modo normal)

Disturbios y señales no deseadas que pueden generar funcionamiento erróneo permanente o temporal en equipamiento electrónico.

En este punto interviene en forma importante el sistema de puesta a tierra, por lo que recomendamos la lectura del artículo anterior de ésta serie para ampliar la información. [2], [3].

Distorsión de voltaje y armónicos

Pueden parecer problemas más vinculados a la calidad y las exigencias del Utility, pero si son graves, pueden provocar salidas de servicio intempestivas, por lo que son parámetros que deben ser considerados y monitoreados.

Sag’s e interrupciones

Según la Norma IEEE 1159, se conocen como Sag las variaciones de tensión entre el 10% y el 90% de la nominal, desde un ciclo a un minuto. [10]

Las caídas a menos del 10% del voltaje nominal son consideradas directamente interrupciones del servicio. Habitualmente los sag’s tienen duraciones menores a 1 segundo.

También se debe diferenciar cuando el sag afecta a una sola fase, dos o las tres. Las variaciones se pueden deber al origen del evento, por ejemplo un cortocircuito o un cierre de líneas en media tensión con fallas entre fases, contra tierra, etc.

Es importante evaluar la conveniencia de usar equipo crítico en sistema monofásico o trifásico de acuerdo a las implicaciones que pueda tener la interrupción según cada caso. [5], [3].

Bajo voltaje y sobre voltaje

Cuando hacemos referencia a estas anomalías se entiende que es en forma permanente o semipermanente, por ejemplo debido a problemas en las redes de distribución que originan anomalías en horarios determinados, o en situaciones específicas.

Se debe evaluar este problema en la etapa de diseño, y si existe en forma permanente ya tomar las previsiones del caso.

Control de corriente y sobre-corrientes

El problema mayor aquí, además de los cortocircuitos, que son los que generan las mayores sobrecorrientes, es que habitualmente hay deficiencias en el diseño y mantenimiento de los sistemas de control de sobrecorriente y coordinación de los diversos niveles de protecciones.

Si a eso le sumamos la incidencia de armónicos debidos a cargas no lineales, el disparo intempestivo de interruptores puede transformarse en un gran problema.

Interrupción momentánea o temporal

Caso en que el tiempo y la profundidad de la anomalía de voltaje supera lo previsto en la definición de Sag.

Es uno de los input fundamentales en el análisis de riesgo para equipamiento crítico e involucra una gran parte del presupuesto de inversión (CAPEX) necesario para generar un sistema crítico confiable.

Variación de frecuencia

Problema debido generalmente a la pérdida de un gran generador (proporcionalmente) en una red de T&D. Hay países en donde es un problema con una gran incidencia en el menú de fallas eléctricas, y puede llevar a un funcionamiento excesivo del sistema UPS sobre baterías; o directamente a mantener toda la carga sobre el generador de emergencia.

Sistemas que contribuyen a mitigar o evitar cada uno de los fallos

Sistema de puesta a tierra

El primero de todos es tener un sistema de puesta a tierra y sus interconexiones en forma correcta, siempre adecuado a las corrientes de falla manejadas. (Ver el artículo anterior) [2] [3] [4].

Figura 4
Figura 4.
Fuente: Commercial Building Grounding and Bonding Requirements, J-STD-607-A

Conexión a tierra del sistema eléctrico

También se ha hablado de este tema en el artículo anterior. [2].

“El correcto diseño de la conexión eléctrica a tierra y del SPAT, aseguran la protección a personas y bienes, además de la confiabilidad de la instalación, ya que es la base para la protección contra transitorios y descargas.” [2].

Si aún se está en la etapa de proyecto o anteproyecto, será bienvenida la evaluación de qué sistema de conexión Neutro-GND es el más conveniente, esto puede evitar muchos problemas a futuro, en especial si hay riesgos de explosión, o es necesaria la extrema protección de personas (hospitales, quirófanos, unidades de cuidados intensivos).

Surge protection devices contra sobretensiones transitorias

Los Surge o sobretensiones transitorias son fenómenos inevitables con los que cualquier instalación eléctrica debe convivir, se pueden reducir, controlar y mitigar su impacto, pero no se pueden eliminar.

Los equipos de protección generalmente contienen una mezcla de tecnologías, típicamente están basados en varistores o tubos de gas, con respuestas en el orden de los microsegundos.

Los protectores contra sobretensiones tienen una muy variada oferta de mercado y distintos principios de funcionamiento, algunos muy probados y fiables y otros con ofertas de soluciones casi mágicas, y por lo tanto no recomendables.

Sugerimos diseñar, mantener y sustituir protecciones con equipos de primer nivel y certificados bajo estrictas normas de calidad y seguridad (por ejemplo UL1449 Tercera Edición)

Se debe tener en cuenta que si hay un mal diseño del equipo y su coordinación interna no es la adecuada, puede haber resultados catastróficos (explosiones, incendio de componentes, etc.). [5], [6], [7].

Fotografía 1
Fotografía 1
Fotografía 2
Fotografía 2

Fotos: Problemas en protecciones que terminan generando incendios en tableros. [8]

Protecciones coordinadas (selectividad)

Es importante que se haga un diseño de protecciones que tenga como objetivos:

  • La seguridad de las personas.
  • La debida coordinación para asegurar que se deja sin servicio la zona afectada, Y SOLAMENTE ELLA. Es una de las bases para asegurar la disponibilidad y confiabilidad de las cargas críticas.
  • Asegurar el correcto mantenimiento del sistema, diseñando con criterios de mantenibilidad, esto es que se puedan aislar las zonas necesarias para trabajar sin riesgos, poder realizar tareas de mantenimiento, pero sin afectar los servicios críticos.

IMPORTANTE: La coordinación debe incluir los protectores de sobretensiones instalados.

Generación de emergencia

Este agregado permite manejar la contingencia de cortes de servicio eléctrico prolongados.

Generalmente la alternativa son grupos motor-generador diesel-eléctricos, en cantidad necesaria para cubrir la potencia de carga.

Aquí entran en juego elecciones que deben ser realizadas juiciosamente sobre el tipo de Transfer switch a utilizar, cantidad de generadores, seccionamiento de zonas y cargas, etc.

Esto va a influir notablemente en el rendimiento y confiabilidad esperada del sistema. Si la instalación ya está en marcha y tuvo problemas cuando fue requerido el funcionamiento de los equipos de generación, puede ser un buen momento para analizar cambios en estos puntos.

Sistemas de alimentación ininterrumpida (UPS)

Los sistemas UPS cumplen la función de suministrar energía mientras se producen sag’s, y pequeñas perturbaciones que sería imposible combatir, por ejemplo, con una fuente alternativa como un generador diesel, debido a que son eventos del orden de los micro y mili segundos.

También cabe usar inversores DC-AC en algunos casos, puesto que hay instalaciones de corriente continua (DC) muy fiables en algunas industrias como las Telco, y son una buena base para el suministro permanente de energía de calidad.

En estos sistemas debe tenerse especial cuidado en el diseño orientado a obtener la máxima disponibilidad y confiabilidad.

Para esto es necesario, no solamente pensar los equipos y cableados en forma convenientemente redundante, sino también en el entorno y las posibilidades de mantenimiento.

Baterías: Son un elemento fundamental, tanto en UPS’s como en inversores que extraen energía de una planta de DC. Como es un elemento de base química que genera energía eléctrica, requiere un mantenimiento altamente especializado, herramientas e instrumentos de primer nivel, y especialmente personal humano altamente calificado.

Es recomendable que las baterías tengan un entorno diseñado para su óptimo rendimiento, seguridad y mantenibilidad. En la etapa de proyecto es un punto fundamental, y en la etapa de operación no está de más revisar estas condiciones en forma periódica.

Es importante partir en éste tema de un concepto fundamental. “La batería” útil es una serie formada por un conjunto de baterías, por lo tanto, como toda serie, será tan fuerte como su eslabón más débil. A modo de ejemplo, el tornillo de conexión intercelda puede convertirse en el causante de un outage debido a un torque de apriete insuficiente. El mantenimiento es tan fundamental como el técnico que se ocupa del mismo, y qué, sin la capacitación adecuada puede convertirse en el eslabón más débil del Sistema.

RECORDAR: “En sistemas de Corriente Continua es muy importante contemplar globalmente el SPAT junto con el grounding del sistema de potencia, especialmente por las corrientes nominales de servicio que son muy importantes y por lo tanto no es necesario llegar a un cortocircuito para que el evento sea peligroso.” [2]

Switch de transferencia estática (STS)

Son transferencias automáticas con velocidades de operación menores a ¼ de ciclo. Esto genera la ausencia de corte de suministro en los equipos conectados y permite planificar mantenimientos sin afectar las cargas ni la redundancia existente en ellas.

Obviamente la conmutación se hace entre dos fuentes “vivas”, por lo que deben ser fuentes constantes, descartando por ejemplo la generación diesel de emergencia.

Como además son viables económicamente en potencia relativamente pequeñas, se usan generalmente sobre el equipamiento de IT con dos ramas de UPS independientes conectadas a la carga.

Se debe tener presente que si bien incrementa la redundancia al ampliar la matriz fuentes/entradas de equipos, no menos cierto es que aumenta la complejidad de la instalación y sin el adecuado conocimiento de la misma puede dar lugar a muchos errores de operación.

Consideraciones generales sobre diseño y mantenimiento

Como siempre lo hacemos, intentaremos contribuir a la parte más práctica del trabajo, aportando algunos tips y comentando casos vistos en la práctica, como forma de dar pautas iniciales para quienes tengan problemas a resolver en plantas industriales o datacenters que ya están en funcionamiento.

A nivel general:

Incorporación del factor humano en el diseño:

Hemos visto esquemas impresionantes con niveles de redundancia 2N sobre casi todos los componentes críticos de una instalación eléctrica o de HVAC, pero fallan cuando uno de los sistemas cae y el técnico de mantenimiento no tiene claro cómo identificar el interruptor del sistema A en falla, y apaga el B que era el que funcionaba.

Los sistemas deben tender a hacer la operación lo más simple posible, en especial en momentos críticos en los cuales la presión sobre quien opera es muy grande y el margen para errores tiende a cero.

Los sistemas extremadamente complejos e interconectados en muchos casos solo alimentan el ego del diseñador, pero no contribuyen a la confiabilidad y la mantenibilidad.

Planes de contingencia:

Un problema común es que la alta rotación de personal impide la especialización y familiarización del personal con la instalación. Es conveniente recordar que un especialista en un determinado equipo, si no entiende el contexto operacional, probablemente esté tan limitado para mantener una instalación crítica como aquél que tiene mucho menos conocimiento sobre el equipo.

Para suplir estas falencias se hace muy necesario tener los planes de contingencia elaborados y actualizados; y al personal se lo debe entrenar para actuar correctamente de acuerdo a esos planes (especialmente a los más nuevos en la empresa).

Documentación desactualizada o inexistente:

La documentación en algunos casos causa más problemas que lo que aporta a solucionarlos. Llega un momento en que nadie confía en lo que dicen los esquemas porque todos saben que están desactualizados.

La causa raíz generalmente es cultural, no se logra ver la importancia de dedicar tiempo a mantener la documentación, y cuando se quiere actualizar es a través de terceros contratados; esto puede servir como upgrade forzado, pero si no hay un plan a largo plazo, pasado un tiempo vuelve a estar desactualizada.

Grupos electrógenos

Se debe tener, especial cuidado en que la carga total sea la adecuada para el/los equipos. Muchas veces se amplía el equipamiento conectado de una forma muy gradual y nadie nota que haya habido “grandes cambios”, pero llega el momento en que el generador ya no soporta, o bien la carga total o el nivel de reactiva a suministrar.

Salas para grupos electrógenos:

Habitualmente se instalan los equipos y los Transfer Switch “donde hay lugar”, pero ese lugar lejos está de poder disipar el calor y los gases generados por máquinas diesel en funcionamiento. Si a eso le sumamos aberturas deficientes que permitan el acceso de animales y roedores, la sala pasa a ser un gran problema para la disponibilidad de las máquinas de generación.

Si la planta de generación de emergencia alimenta equipos críticos, debe tener un monitoreo permanente, o bien a través de un software de gestión, o mínimamente por alarmas de cambio de estado que se transmitan a algún dispositivo.

Automatic transfer switch (ATS):

En muchos casos no llevan un estudio de ingeniería asociado a la selección y compra. Se opta por “el que viene con el equipo generador”, o el que recomienda el vendedor, inclusive se dan casos en que se elige el que tiene entrega inmediata al hacer la obra.

Los transfer switch, además de tener una función muy importante, se comportan habitualmente como un punto singular de falla, y por eso mismo deben tener capacidad de monitoreo, de acción tanto automática como manual, en lo posible se deben diseñar sistemas alternativos manuales y deben estar conformes al régimen de Neutro adecuado (este problema es muy habitual). Demás está decir que se debe entrenar al personal técnico de mantenimiento para que comprenda el funcionamiento del equipo y sea capaz de brindar soluciones a la hora de los problemas.

Combustible:

La ausencia de diseño de un sistema adecuado es la falencia más común detectada.

¿Existe un depósito de combustible adecuado en seguridad y dimensiones? (Ver NFPA 30).

¿Tiene la redundancia necesaria en bombas, válvulas y tuberías para la disponibilidad deseada?

¿Hay control del estado y la calidad del combustible desde el suministro hasta la entrada del equipo consumidor?

¿Es posible asegurar el abastecimiento en caso de emergencia por un período prolongado?

Coordinación de protecciones

Aquí el problema más común es la falta de diseño y estudio permanente de la coordinación y selectividad.

Simplemente se hace una instalación en base a cargas supuestas, pero luego no se hace un estudio sobre las cargas reales, el funcionamiento y la selectividad real de la instalación.

La mala noticia de esto es que no es un estudio que se hace una vez, sino que hay que irlo actualizando a medida que varían las cargas, las tecnologías y el contexto operacional (por ejemplo si aumentan los requerimientos de disponibilidad).

UPS y baterías

Baterías:

Problema más común: falta de mantenimiento. Las baterías son sumamente delicadas y deben recibir chequeos periódicos, planificados y correctamente ejecutados; pero también se deben analizar juiciosamente los resultados de esos chequeos, es lo que permitirá detectar tendencias, problemas potenciales y poder tomar acciones antes de que ocurran los eventos de falla.

El problema aquí es que los instrumentos a utilizar son caros, no son fáciles de usar y de analizar los resultados, por lo que es un trabajo que es conveniente tercerizarlo con especialistas.

Lo malo de contratarlo fuera de la empresa es que fácilmente cae dentro de los trabajos “a recortar” cuando hay ajustes de presupuesto.

Las salas de baterías también deben tener mantenimiento y monitoreo adecuados. La vida útil de una batería se puede recortar sustancialmente con la variación de unos pocos grados centígrados en la temperatura ambiente. Si las baterías no son selladas, el monitoreo de niveles de Hidrógeno es fundamental.

Figura 5
Figura 5

UPS, inversores y rectificadores:

Aquí el mantenimiento puede resultar más simple, pero aun así se constata la falta de una secuencia programada y un análisis sistemático de los datos obtenidos.

Es importante tener un sistema de monitoreo permanente de estos equipos y personal especializado que pueda entender y actuar en base a la información recibida.

Sistemas de puesta a tierra:

Véase nuestro trabajo anterior sobre sistemas de tierra. [2].

Resumen

Cuando fallar no es una opción, se debe diseñar, construir, operar y mantener con ese objetivo en mente. La falla cero no existe, pero debemos procurar que el sistema siga funcionando.

Como hemos expresado anteriormente, se debe realizar un diseño para fallos, y no contra fallos. Cualquier sistema va a fallar, podemos crear las condiciones para que ese fallo no afecte, o afecte lo menos posible la misión del sistema.

El factor humano es fundamental en cualquier sistema complejo, por lo que hay que tenerlo presente desde que comienza el diseño. Si usted debe mantener una planta ya construida, es una buena opción pensar en cómo incorporar el factor humano en la ingeniería de mantenimiento y confiabilidad. Esto puede llevar a rediseño de procesos y sistemas que agrega necesariamente trabajo e inversión, pero redundará en una mayor disponibilidad.

Referencias

  • [1] Tomado de Curso de capacitación sobre SMC, NPConsulting 2014.
  • [2] Sistemas de misión crítica, empezar por el principio, Sistemas de Puesta a Tierra. NPConsulting, 2016, Predictiva21.
  • [3] IEEE 1100-2005, Recommended practice for Powering and Grounding Electronic Equipment, IEEE, 2005.
  • [4] ANSI-TIA J-STD-607-A, Commercial Building Grounding ad Bonding Requirements for Telecommunications, ANSI, 2002.
  • [5] IEEE C62.41.1-2002, IEEE Guide on the Surge Environment in Low-Voltage (1000 V and Less) ,AC Power Circuits.
  • [6] IEEE 446, Recommended practice for Emergency and Standby Power Systems for industrial and Commercial Applications. IEEE, 1995.
  • [7] NEC 70, National Electric Code, 2011 Edition, NFPA, 2011.
  • [8] Advanced Protection Technologies, APT Surge Protection.
  • [9] IEEE 242-2001, Recommended practice for Protection and Coordination of Industrial and Commercial Power Systems.
  • [10] IEEE 1159-2009, Recommended Practice for Monitoring Electric Power Quality.

Autor: Nicolás Pintos Souza
Socio-Gerente, NPConsulting
Correo: info@npconsulting.com.uy

0 comentarios

Trackbacks/Pingbacks

  1. Serie: Sistemas de Alimentación Eléctrica Crítica (III Parte) - Predictiva 21 - […] Serie: “Confiabilidad en Sistemas de Misión Crítica: Empezar por el Principio” (I Parte) […]

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Próximos cursos:

Del 13 de abril al 04 de mayo
16 horas académicas en línea en vivo
9:00 am – 1:00 pm, Hora CDMX

Del 04 de junio al 23 de julio
64 horas académicas en línea en vivo
9:00 am – 1:00 pm, Hora CDMX

Próximos eventos:

Del 25 al 27 de marzo
Evento en línea 7:00 pm, hora CDMX
¡Regístrate gratis!

Recursos:

¡Descárgala ahora!