Confiabilidad y Disponibilidad en sistemas críticos de informática y telecomunicaciones

Objetivo de los sistemas de TI en las organizaciones

Cada organización tiene de nido un negocio central que es el “core”, el motivo de su existencia, y en el caso de organizaciones empresariales, el principal modo de obtener ingresos y ganancias.

En una empresa que se dedica a proveer servicios de Datacenter a clientes externos, los sistemas de TI y la infraestructura eléctrica y termomecánica que los soportan, pasan a ser la base de la pirámide sobre la cual se desarrolla el negocio.

Pero en una organización sin fines de lucro como un hospital o biblioteca públicos, el centro de datos puede llegar a ser tan importante como en el caso anterior, ya que la falta del catálogo de publicaciones disponibles o el no acceso a historias clínicas puede llevar a la imposibilidad de cumplir con la función básica de la institución.

Empresa industrial

En el caso industrial más general es común no asociar la importancia de los sistemas de TI dentro del core del negocio. Esto puede suceder simplemente porque hay otros problemas que impiden que la producción (sea cual sea) se complete, y suceden con más frecuencia.

Es así que un fallo en un motor o una bomba pueden llegar a ser problemas críticos que detengan o ralenticen la producción, y en el momento que eso sucede, es el cuello de botella en el funcionamiento de la empresa.

No obstante, se debe recordar que un producto terminado, en una estantería, perfectamente empacado, controlado e inventariado, no produce ni ingresos ni satisfacción de clientes, por lo tanto se debe recordar siempre que:

“En todo momento hay que tener en mente la Misión definida por la organización y trabajar en esa dirección, cada cual desde su responsabilidad, pero sabiendo que se es parte de un todo con un objetivo único y común”.

Para que esto sea posible se deben dar varias condiciones:

  • La Misión de la organización debe estar correctamente definida.
  • La cultura organizacional debe servir de base para cumplir con la Misión y la Visión.
  • Se tienen que diseñar las estructuras de la organización para cumplir con los objetivos, y no establecer objetivos en base a la organización que se tiene (aquí es cuando las estructuras “cobran vida”).
  • Se deben suministrar los recursos materiales y humanos para cumplir con los objetivos (compromiso de la Dirección).

¿Qué pasaría si…?

Los productos están terminados pero los vendedores no pueden ingresar los pedidos de los clientes porque los PDA´s no logran conectarse al sistema de gestión.

Los productos están sobre los vehículos para la distribución pero “el sistema está caído” y no se puede facturar, por lo tanto no se puede entregar.

La respuesta:

A los ojos del cliente el producto no fue entregado, por lo que el compromiso está incumplido.

Y de nada servirá explicarles que se han invertido cientos de miles de pesos en la nueva línea de producción, ni que se ha obtenido una Certificación XYZ, ni que…

¿Qué sistema de TI necesitamos?

Un primer impulso puede ser pensar que necesitamos un Datcenter Tier IV, súper redundante contra múltiples fallos; y quizás sea cierto, pero lo primero que se debe hacer es establecer realmente qué se necesita, de lo contrario se pueden invertir recursos en algo que no es necesario y que termina aumentando los costos de CAPEX y OPEX, además de crear una especialización en la empresa que no es el core del negocio, por lo tanto solo se transformó en un problema más. Por lo tanto la respuesta es que no hay un modelo a aplicar en forma genérica, sino que se debe analizar criteriosamente cada caso, y deben participar todas las áreas de la empresa, no solo TI.

No debe olvidarse que cuando se hace un diseño para un centro de datos (por pequeño que sea), se deben establecer niveles de disponibilidad inherentes al diseño, pero la disponibilidad operacional depende de otros factores, entre los que se cuentan:

  • Las partes del sistema que no controlamos directamente.
  • Fenómenos extremos, tanto climáticos como sociales, de salud pública, etc.
  • Muchas veces al pretender aumentar la redundancia se aumentan la complejidad y los puntos de fallo, por lo que el entrenamiento y la comprensión cabal del sistema terminan siendo fundamentales para resolver una falla; y en la confiabilidad total intervienen con más peso que la confiabilidad del equipamiento.
  • Operación y mantenimiento, que incluye capacitación de personal, logística de repuestos, asistencia técnica calificada, etc.

Operación y mantenimiento

Naturalmente el Datacenter para funcionar debe tener una plantilla de personal capacitado (así sean empresas contratadas), un plan de mantenimiento predictivo, preventivo y correctivo acorde, y un programa de reconstrucción ante desastres que realmente funcione, dándole una resiliencia adecuada al sistema.

Aquí es donde entra en juego el “factor humano” y la curva de aprendizaje sobra la cual se irá basando la confiabilidad de la operación del sistema.

La curva de aprendizaje, si los errores realmente se convierten en aprendizaje, muestra que la probabilidad de errores humanos es una función de la experiencia (Managing Risk: The human element; Duffey and Saull).

Figura 1
Figura 1

Basta ésta definición para saber que la variable tiempo está involucrada, por lo que es imposible contar con ese “aprendizaje” desde el día cero, por más Tier IV que sea la infraestructura, o que el personal seleccionado tenga mucha experiencia (en otros Datacenter’s).

Es evidente por lo tanto que debe haber un sistema que permita transformar los errores en experiencia acumulada y ese sistema solo puede estar basado en una cultura de aprendizaje que debe excluir el sistema de “encontrar un culpable y cerrar el asunto”.

Comprender el sistema y sus limitaciones

La infraestructura Fault Tolerant que brinda Tier IV, le va a permitir tratar las fallas con una “tranquilidad” que los niveles inferiores quizás no le den, pero siempre estamos hablando de situaciones normales.

Por ejemplo, tener combustible disponible para 24 horas es una solución para un fallo “estándar” de la red eléctrica, pero no para un colapso de tránsito por un fenómeno climático extremo, que sume al corte de energía la imposibilidad de desplazarse para adquirir combustible.

En el caso de una industria de manufactura el ejemplo anterior puede quedar fuera de las consideraciones, ¿pero en un hospital?, ¿en un sistema de respuesta ante emergencias? ¿Cuáles son las posibilidades de ocurrencia de esta combinación de fenómenos? ¿Y el impacto en la organización?

Pues de eso se trata, de analizarlo, intentar cuantificar, fijar un límite de tolerancia aceptable y trabajar sobre lo que queda por fuera de ese límite.

Conclusiones

  • No hay una “receta” ni un diseño a seguir si no es el que realmente colabora para alcanzar los objetivos de la organización.
  • Aunque ya exista la infraestructura, se puede revisar el diseño y adecuarla a las necesidades de la organización, en muchos casos sin grandes costos.
  • Se debe trabajar en forma coordinada dentro de la organización y con los proveedores críticos externos para que cada equipo y/o tarea realmente aporte al objetivo común.

Autor: Nicolás Pintos Zouza
www.npconsulting.com.uy
Correo: Info@npconsulting.com.uy

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Próximos cursos:

Del 13 de abril al 04 de mayo
16 horas académicas en línea en vivo
9:00 am – 1:00 pm, Hora CDMX

Del 04 de junio al 23 de julio
64 horas académicas en línea en vivo
9:00 am – 1:00 pm, Hora CDMX

Próximos eventos:

Del 25 al 27 de marzo
Evento en línea 7:00 pm, hora CDMX
¡Regístrate gratis!

Recursos:

¡Descárgala ahora!