Confiabilidad en Sistemas de Misión Crítica. Empezar por el principio.

Se entienden como Sistemas de Misión Crítica aquellos que son indispensables para que funciones de importancia relevante se lleven a cabo con éxito, ya sea en una empresa, un gobierno o cualquier tipo de organización.

Los Datacenters que soportan las operaciones del sistema financiero, de los sistemas de salud, de la red de seguridad y atención a emergencias de un país o región (ej.*911) y otros similares son ejemplo de Sistemas de Misión Crítica, pero también la PBX de una empresa de CallCenter comercial será vista como un sistema crítico en el análisis de riesgo del negocio.

En términos comerciales diríamos que no son el producto final, pero son necesarios para que el mismo exista.

Al adquirir creciente importancia la economía de los servicios, todo lo relacionado a información y telecomunicación ha sido catalogado como crítico para el funcionamiento de la mayoría de las empresas de éste sector de la economía. De allí que sea una exigencia cada vez mayor a los responsables de IT de las empresas que sus sistemas estén “en servicio” durante la mayor cantidad de tiempo posible; al punto de que algunos piensan que un sistema bien diseñado y con la inversión adecuada podría estar en servicio indefinidamente (cosa ilógica, por cierto).

En 2010 ya se estimaba que entre el 1,7 y el 2,2% del consumo eléctrico de USA tenía como destino la industria de los Datacenters; éste dato nos da una idea de que estamos hablando de una industria en franca expansión y al mismo tiempo dependiente mayormente de un único insumo (el flujo eléctrico).

Las nuevas tendencias hacen que florezcan miles de estudios, análisis y servicios de consultoría que buscan mejorar la disponibilidad de los sistemas de IT, pero para hacer uso de todas estas herramientas, se debe tener claro a dónde se quiere llegar, y con qué se cuenta en la partida; y de eso precisamente se ocupa el presente documento.

Conceptos básicos

Confiabilidad

Es la probabilidad de que un producto o servicio pueda operar adecuadamente por un período específico de tiempo, bajo las condiciones operativas de diseño, sin falla.

Disponibilidad

Capacidad de un componente o sistema para cumplir la función requerida en un período de tiempo establecido.

Inherente

Es la probabilidad instantánea de que un componente o sistema esté en funciones (o no). La disponibilidad inherente solo considera el downtime referido a la reparación de la falla.

Operacional

Es la probabilidad instantánea de que un componente o sistema esté en funciones (o no), pero se diferencia de la Disponibilidad Inherente (Ai) en que la Operacional toma en cuenta todo el período de downtime, incluidos los tiempos que origina la logística, el mantenimiento programado, etc.

Mantenibilidad

Es quizás el menos desarrollado y conocido de los conceptos que se exponen. Mantenibilidad es una medida de la relativa facilidad y economía de tiempo y recursos con que se realiza el mantenimiento de un componente o sistema.

Es una función del diseño en detalles como el acceso, intercambiabilidad, estandarización y modularidad. Incluye desde el diseño al elemento humano en sus funciones de operación y mantenimiento.

Resiliencia

Es la capacidad intrínseca de una organización o sistema para mantener o recuperar un estado de estabilidad dinámica que le permite continuar en operación posteriormente a un accidente grave
y/o en presencia de continuo stress.

Estructura de Sistemas de Misión Crítica (SMC)

Como vemos en éstas definiciones, salvo en la de Disponibilidad inherente, en todas se contemplan factores que dependen del elemento humano, tales como organización, entorno, logística, mantenimiento, etc. Entonces, ¿por qué no se diseña teniendo en cuenta todo esto, y se pretende que los resultados sean los mismos que si se hubiera hecho?

¿Qué aporte puede hacer este análisis en el diseño del sistema y de sus operaciones de O&M? Creemos que mucho.

Todos los equipos y sistemas sobre los que se basa la IT dependen de un suministro eléctrico confiable, sea para los equipos de producción, para el entorno, el acondicionamiento térmico, la seguridad física, la prevención y mitigación de incendios y un largo etcétera.

A continuación presentamos el modelo sobre el que basamos el trabajo de análisis, diseño y desarrollo de disponibilidad y confibilidad para Sistemas Críticos.

Imagen 1: Disponibilidad y confiabilidad

Usando un símil del Modelo OSI de capas (Open systems interconnection) de la ISO, intentamos definir una estructura jerárquica que permita visualizar cuales son los elementos fundamentales que permiten que el siguiente nivel pueda funcionar.

Para mayor facilidad de comprensión, y dado que nos vamos a centrar en el sistema eléctrico, hemos omitido otros factores críticos, en el caso del HVAC por ejemplo, el suministro de agua de calidad adecuada (que también está condicionado por su sistema de bombeo y filtrado basado en electricidad).

El diseño del contenedor de Capacitación no es accidental, encierra todo un concepto, ya que no debe ser compartimentado en cada capa, no debe ser rígido, y debe dar una comprensión global del sistema a todos los involucrados.

En el lateral derecho se pueden ver, también sin rigidez de capas, los sistemas e instrumentos a aplicar para mejorar la confiabilidad y mantenibilidad de los sistemas involucrados.

A modo de ejemplo:

  • Sistema de puesta a tierra
  • Supresores de sobretensiones (SPD’s)
  • Monitoreo y gestión
  • Técnicas, procedimientos y gestión de Operación y Mantenimiento (O&M)
  • Gestión de riesgos
  • Planes de contingencia

Cuando se comienzan planes e inversiones para la mejora de la Confiabilidad, ¿se piensa globalmente sobre estos temas?

¿Se invierte pensando en este contexto?, por ejemplo, ¿los sistemas DCIM están contribuyendo a prevenir fallas críticas? ¿O solo están porque “hay que tener un DCIM?

Resumen

Se debe realizar un diseño para fallos, y no contra fallos. Cualquier sistema va a fallar, podemos crear las condiciones para que ese fallo no afecte, o afecte lo menos posible la misión del sistema. No sabemos cuándo ocurrirá el próximo evento, ni que combinación lo hará posible, por lo que debemos trabajar en forma permanente y realimentada para analizar, prevenir y rediseñar, no sólo los equipos, sino también los planes de mantenimiento, de capacitación, de contingencia y de Disaster Recovery.

Tener en cuenta que diferentes condiciones de reliability y maintainability pueden dar la misma Disponibilidad operacional (Ao), recordar el uso de los tres conceptos ya que el diseño de por sí no garantiza una Ao excelente si el equipo humano tiene fallos, el sistema de manejo de documentación es malo o inexistente, etc.

Existe la tendencia siempre a creer que la tecnología nos salvará de todos los problemas, en el caso de los sistemas de Misión Crítica se apunta a los sistemas DCIM, BMS, de gestión y monitoreo remoto de cuánto equipo haya en la instalación. Esto se asocia generalmente a que se pueden reducir costos operativos, especialmente de personal que será sustituido por tecnología.

Sin embargo se debe tener claro que la tecnología no sustituye al operador, sino que lo complementa y ayuda, al mismo tiempo que lo “complica” a medida que la herramienta se hace más compleja; por lo tanto la inversión en capacitación debe aumentar en vez de disminuir, ya que es la única forma de maximizar el rendimiento de la inversión en tecnología.

Autor: Nicolás Pintos Souza Socio-Gerente, NPConsulting info@npconsulting.com.uy

La importancia de los datos y como convertirlos en dinero
Javier Leonardo Salas & Alberto Salas Mejia

* indicates required
Reliabytics