Confiabilidad y Disponibilidad en sistemas críticos de informática y telecomunicaciones

Objetivo de los sistemas de TI en las organizaciones

Cada organización tiene de nido un negocio central que es el “core”, el motivo de su existencia, y en el caso de organizaciones empresariales, el principal modo de obtener ingresos y ganancias.

En una empresa que se dedica a proveer servicios de Datacenter a clientes externos, los sistemas de TI y la infraestructura eléctrica y termomecánica que los soportan, pasan a ser la base de la pirámide sobre la cual se desarrolla el negocio.

Pero en una organización sin fines de lucro como un hospital o biblioteca públicos, el centro de datos puede llegar a ser tan importante como en el caso anterior, ya que la falta del catálogo de publicaciones disponibles o el no acceso a historias clínicas puede llevar a la imposibilidad de cumplir con la función básica de la institución.

Empresa industrial

En el caso industrial más general es común no asociar la importancia de los sistemas de TI dentro del core del negocio. Esto puede suceder simplemente porque hay otros problemas que impiden que la producción (sea cual sea) se complete, y suceden con más frecuencia.

Es así que un fallo en un motor o una bomba pueden llegar a ser problemas críticos que detengan o ralenticen la producción, y en el momento que eso sucede, es el cuello de botella en el funcionamiento de la empresa.

No obstante, se debe recordar que un producto terminado, en una estantería, perfectamente empacado, controlado e inventariado, no produce ni ingresos ni satisfacción de clientes, por lo tanto se debe recordar siempre que:

“En todo momento hay que tener en mente la Misión definida por la organización y trabajar en esa dirección, cada cual desde su responsabilidad, pero sabiendo que se es parte de un todo con un objetivo único y común”.

Para que esto sea posible se deben dar varias condiciones:

  • La Misión de la organización debe estar correctamente definida.
  • La cultura organizacional debe servir de base para cumplir con la Misión y la Visión.
  • Se tienen que diseñar las estructuras de la organización para cumplir con los objetivos, y no establecer objetivos en base a la organización que se tiene (aquí es cuando las estructuras “cobran vida”).
  • Se deben suministrar los recursos materiales y humanos para cumplir con los objetivos (compromiso de la Dirección).

¿Qué pasaría si…?

Los productos están terminados pero los vendedores no pueden ingresar los pedidos de los clientes porque los PDA´s no logran conectarse al sistema de gestión.

Los productos están sobre los vehículos para la distribución pero “el sistema está caído” y no se puede facturar, por lo tanto no se puede entregar.

La respuesta:

A los ojos del cliente el producto no fue entregado, por lo que el compromiso está incumplido.

Y de nada servirá explicarles que se han invertido cientos de miles de pesos en la nueva línea de producción, ni que se ha obtenido una Certificación XYZ, ni que…

¿Qué sistema de TI necesitamos?

Un primer impulso puede ser pensar que necesitamos un Datcenter Tier IV, súper redundante contra múltiples fallos; y quizás sea cierto, pero lo primero que se debe hacer es establecer realmente qué se necesita, de lo contrario se pueden invertir recursos en algo que no es necesario y que termina aumentando los costos de CAPEX y OPEX, además de crear una especialización en la empresa que no es el core del negocio, por lo tanto solo se transformó en un problema más. Por lo tanto la respuesta es que no hay un modelo a aplicar en forma genérica, sino que se debe analizar criteriosamente cada caso, y deben participar todas las áreas de la empresa, no solo TI.

No debe olvidarse que cuando se hace un diseño para un centro de datos (por pequeño que sea), se deben establecer niveles de disponibilidad inherentes al diseño, pero la disponibilidad operacional depende de otros factores, entre los que se cuentan:

  • Las partes del sistema que no controlamos directamente.
  • Fenómenos extremos, tanto climáticos como sociales, de salud pública, etc.
  • Muchas veces al pretender aumentar la redundancia se aumentan la complejidad y los puntos de fallo, por lo que el entrenamiento y la comprensión cabal del sistema terminan siendo fundamentales para resolver una falla; y en la confiabilidad total intervienen con más peso que la confiabilidad del equipamiento.
  • Operación y mantenimiento, que incluye capacitación de personal, logística de repuestos, asistencia técnica calificada, etc.

Operación y mantenimiento

Naturalmente el Datacenter para funcionar debe tener una plantilla de personal capacitado (así sean empresas contratadas), un plan de mantenimiento predictivo, preventivo y correctivo acorde, y un programa de reconstrucción ante desastres que realmente funcione, dándole una resiliencia adecuada al sistema.

Aquí es donde entra en juego el “factor humano” y la curva de aprendizaje sobra la cual se irá basando la confiabilidad de la operación del sistema.

La curva de aprendizaje, si los errores realmente se convierten en aprendizaje, muestra que la probabilidad de errores humanos es una función de la experiencia (Managing Risk: The human element; Duffey and Saull).

Figura 1
Figura 1

Basta ésta definición para saber que la variable tiempo está involucrada, por lo que es imposible contar con ese “aprendizaje” desde el día cero, por más Tier IV que sea la infraestructura, o que el personal seleccionado tenga mucha experiencia (en otros Datacenter’s).

Es evidente por lo tanto que debe haber un sistema que permita transformar los errores en experiencia acumulada y ese sistema solo puede estar basado en una cultura de aprendizaje que debe excluir el sistema de “encontrar un culpable y cerrar el asunto”.

Comprender el sistema y sus limitaciones

La infraestructura Fault Tolerant que brinda Tier IV, le va a permitir tratar las fallas con una “tranquilidad” que los niveles inferiores quizás no le den, pero siempre estamos hablando de situaciones normales.

Por ejemplo, tener combustible disponible para 24 horas es una solución para un fallo “estándar” de la red eléctrica, pero no para un colapso de tránsito por un fenómeno climático extremo, que sume al corte de energía la imposibilidad de desplazarse para adquirir combustible.

En el caso de una industria de manufactura el ejemplo anterior puede quedar fuera de las consideraciones, ¿pero en un hospital?, ¿en un sistema de respuesta ante emergencias? ¿Cuáles son las posibilidades de ocurrencia de esta combinación de fenómenos? ¿Y el impacto en la organización?

Pues de eso se trata, de analizarlo, intentar cuantificar, fijar un límite de tolerancia aceptable y trabajar sobre lo que queda por fuera de ese límite.

Conclusiones

  • No hay una “receta” ni un diseño a seguir si no es el que realmente colabora para alcanzar los objetivos de la organización.
  • Aunque ya exista la infraestructura, se puede revisar el diseño y adecuarla a las necesidades de la organización, en muchos casos sin grandes costos.
  • Se debe trabajar en forma coordinada dentro de la organización y con los proveedores críticos externos para que cada equipo y/o tarea realmente aporte al objetivo común.

Autor: Nicolás Pintos Zouza
www.npconsulting.com.uy
Correo: Info@npconsulting.com.uy

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Edición 29 Predictiva21

ver todas las ediciones

Suscríbete a Predictiva21

Síguenos en Linkedin

Sistemas de Indicadores (KPI) para Evaluar la Gestión del Mantenimiento

  • Sistemas de medición del desempeño en mantenimiento
  • Balanced scorecard y la gestión de mantenimiento
  • Indicadores técnicos de mantenimiento
  • Overall equipment effectiveness (OEE) y el mantenimiento
  • Indicadores de la SMRP y de la EFNMS- en 15341
  • Sistema jerárquico-funcional de indicadores para mantenimiento

Taller de Análisis de Criticidad (Detección de Oportunidades)

  • Fundamentos del Análisis de Criticidad
  • Pasos para la realización de un Análisis de Criticidad
  • Modelos Cuantitativos
  • Modelos Cualitativos
  • Modelos Probabilisticos
  • Selección de Matriz de Criticidad

Fundamentos Técnicos de Tribología y Lubricación

  • Conocer los fundamentos de tribología y lubricación, así como su uso y aplicación.
  • Importancia de la Lubricación para mejorar la confiabilidad en los procesos.
  • Conocer características de los diferentes productos empleados en lubricación y criterios de uso.
  • Conocimientos para facilitar un proceso de cambio en el enfoque de mantenimiento.
  • Identificar el vinculo Mantenimiento-Lubricación-Diseño.
  • Identificar que una adecuada Lubricación contribuye en ahorrar energía y reduce costos.

Auto Evaluación de Mantenimiento

  • Formación del Comité de Análisis y Diagnostico.
  • Establecimiento de parámetros para evaluar el mantenimiento.
  • Elaboración y aplicación de cuestionarios.
  • Principios y reglas de investigación eficaz.
  • Grado de madurez del área de mantenimiento.
  • Establecimiento da la Matriz de Esfuerzos versus Impacto.

Análisis de Costo de Ciclo de Vida LCC

  • Comprender la teoría del Análisis del Costo del Ciclo de Vida acorde a las normas ISO 15663 y UNE EN 60300-3-3 para la selección de alternativas económicas.
  • Evaluar el impacto económico de la Confiabilidad y de la Mantenibilidad en los costos de ciclo de vida de un equipo industrial.
  • Identificar los puntos de atención, barreras y debilidades relacionados con la utilización de las técnicas de Análisis del Costo del Ciclo de Vida y Evaluación Costo Riesgo Beneficio.
  • Determinar la Vida Útil Económica para decidir cuándo es el momento oportuno para reemplazar un activo físico instalado en una planta industrial.

Gestión y Optimización de Inventarios para Mantenimiento

  • Aspectos claves en gestión de inventarios
  • Clasificación de inventarios en mantenimiento
  • Análisis de Criticidad jerarquización de repuestos
  • Cantidad económica de Pedido
  • Indicadores en la Gestión de Inventarios

Generación de Planes Óptimos de Mantenimiento Centrado en Confiabilidad RCM

  • Fundamentos del MCC
  • Desarrollo del MCC
  • Beneficios del MCC
  • Desarrollo del AMEF
  • Generación de Planes de Mantenimiento

Planificación, Programación y Costos de Mantenimiento

  • Modelo de la Gestión de Mantenimiento
  • Sistemas indicadores de la Gestión
  • Planificación del Mantenimiento
  • El sistema de Orden de Trabajo
  • Análisis de Mantenibilidad
  • Programación del Mantenimiento

Técnicas de Análisis de Fallas y Solución de Problemas a través del Análisis de Causa Raíz RCA

  • Fundamentos del falla
  • Modos de falla
  • Tipos de falla
  • Análisis Causa Raiz
  • Tipos de ACR
  • Aplicación de ACR con Árbol Logico
  • Jerarquización de Problemas
  • Desarollo de Hipótesis
  • Evaluación de resultados

Análisis de Confiabilidad, Disponibilidad y Mantenibilidad (RAM)

  • Definiciones y conceptos.
  • Relación de un análisis RAM con la vida del activo.
  • Información requerida para realizar un análisis RAM.
  • Etapas para efectuar un análisis RAM.
  • Construcción del modelo en el análisis RAM.
  • Ajuste de distribuciones de probabilidad.
  • Incorporación de la opinión de experto.
  • Combinación de fuentes (Teorema de Bayes).
  • Simulación Montecarlo.
  • Análisis de Resultados.
  • Jerarquización de activos según criticidad.

Mantenimiento Productivo Total (TPM)

  • Evolución del mantenimiento.
  • Objetivos del TPM.
  • Eficiencia operacional global.
  • Pilares de sustentación del TPM.
  • Implementación del TPM.
  • Evaluación de la eficacia de los equipos.
  • Control administrativo (Las 5 S – housekeepig).

Introducción a la Confiabilidad Operacional

  • Los fundamentos de confiabilidad, así como su uso y aplicación.
  • Visión de Confiabilidad Operacional como estrategia para mejorar la confiabilidad en los procesos
  • Conocimientos para facilitar un proceso de cambio del enfoque de mantenimiento hacia un enfoque de Confiabilidad Operacional, que apunta hacia la reducción sistemática en la ocurrencia de fallas o eventos no deseados en los Sistemas.
  • Obtener criterios para aplicar la estrategia de Confiabilidad Operacional.
  • El diseño de estrategias y la selección de acciones técnicamente factibles y económicamente rentables en minimizar la ocurrencia de fallas.

Mantenimiento por Condición para Equipos Estáticos y Dinámicos (Mantenimiento Predictivo)

  • Mantenimiento por monitoreo de condición
  • Estimación de intervalos P-F
  • Costo riesgo beneficio
  • Planes de Monitoreo de Condición

Mantenibilidad y soporte a la Confiabilidad Operacional

  • Conocer conceptos que soportan el enfoque de Mantenibilidad.
  • Importancia de la Mantenibilidad para mejorar la confiabilidad en los procesos.
  • Entender y comprender los factores que influyen y afectan la Mantenibilidad en las operaciones.
  • Diferenciar función y funcionalidad para aplicar mejoras.
  • Identificar que una adecuada valoración de Mantenibilidad permite aumentar la rentabilidad.
  • Identificar el vinculo Mantenibilidad-Disponibilidad.
  • Mantenibilidad y los factores: personales, condicionales, del entorno organizacional y ambientales.

Análisis de Vibración Nivel I

  • Fundamentos de las vibraciones Mecánicas
  • Características de la vibración
  • Tipos de medición de vibración
  • Posición para medir vibración
  • Sistemas de monitoreo continuo y portátiles de vibración
  • Criterios para la selección de un sistema de medición y/o protección de vibración

Aplicación de la Norma ISO 14224 en sistemas CMMS para gestión de Activos

  • Protocolos para definición del Plan de Mantenimiento
  • Plan de Mantenimiento
  • Estándar Internacional ISO-14224
  • Sistemas de información para Gestión de Mantenimiento – CMMS
  • Administración de información de mantenimiento.
  • Limites jerárquicos de los equipos
  • Equivalencia taxonómica SAP-PM e ISO-14224.

Estándares de Planeamiento y Control de Mantenimiento

  • Formación del Comité de Análisis y Diagnostico.
  • Establecimiento de parámetros para evaluar el mantenimiento.
  • Elaboración y aplicación de cuestionarios.
  • Principios y reglas de investigación eficaz.
  • Grado de madurez del área de mantenimiento.
  • Establecimiento da la Matriz de Esfuerzos versus Impacto.

Administración del Mantenimiento

  • Identificación de los Activos.
  • Planificación y programación de mantenimiento
  • Plan / Programa maestro de mantenimiento
  • Las órdenes de trabajo, su evolución y metodologías de generación y recolección de registros
  • Los registros de materiales
  • Recolección de Datos de Mantenimiento

Gestión de Mantenimiento

  • Identificación de los Activos.
  • Planificación y programación de mantenimiento
  • Plan / Programa maestro de mantenimiento
  • Las órdenes de trabajo, su evolución y metodologías de generación y recolección de registros
  • Los registros de materiales
  • Recolección de Datos de Mantenimiento