Resumen
Las fallas múltiples son las principales causas de las fallas catastróficas, la mayoría de los accidentes que causan pérdidas humanas, daños al ambiente o instalaciones, generalmente están asociadas a errores humanos o fallas múltiples, es por eso que se hace indispensable su análisis detallado con el fin de prevenir sus ocurrencias y de no ser posible, minimizar sus consecuencias. El análisis de fallas múltiples está generalmente muy asociado a las fallas no detectadas u ocultas como lo indica la metodología de Análisis de Mantenimiento Centrado en Confiabilidad (RCM). En este artículo se propone una metodología sencilla para su análisis basada en normas o estándares usado comúnmente.
1 Introducción
La mayoría de las instalaciones, sistemas y equipos industriales están expuestos a sufrir fallas, las cuales se hacen más graves cuando están relacionadas a fallos múltiples, generalmente los daños asociados a este tipo de evento pueden provocar la destrucción total o parcial de instalaciones y/o equipos, daños ambientales irreversibles e incluso pérdidas humanas. Es por esta razón que se hace indispensable el análisis de las fallas múltiples con el fin de detectarlos a tiempo para prevenir su ocurrencia o mitigar sus consecuencias.
Una falla múltiple ocurre cuando falla la función protegida mientras el propio dispositivo de seguridad, protección o control está averiado o en falla1, yo ampliaría esta definición de John Moubray de su libro RCMII, no solo cuando falla un dispositivo de seguridad, protección o control asociados a la función protegida, sino también cuando falla al arranque un equipo de respaldo o de “spare” como ejemplo bombas de respaldos de sistemas contra incendio, plantas generadoras de electricidad de respaldo para cubrir picos de consumo.
Las fallas múltiples están asociadas principalmente a fallas ocultas:
- En el caso de los dispositivos de seguridad, solo se produce un fallo múltiple si falla la función protegida mientras el propio dispositivo de seguridad está averiado.
- Las Fallas ocultas están mayoritariamente constituidas por los dispositivos de seguridad que no disponen de seguridad inherente y las que se instalan para el respaldo de quipos.
Se llama falla no detectada u oculta a las fallas que no son detectables bajo circunstancias normales, haría falta un procedimiento para ser detectadas. De los cuales se estima que pueden ser hasta el 50% de los modos de falla en los sistemas y equipos modernos debido a su automatización. Se asume que no se hace ningún mantenimiento o prueba y que la detección es independiente del tiempo.
El monitoreo de los sistemas y equipos debido a la presencia de cambios dinámicos de los procesos operativos que afectan la operación normal, así como la presencia de variables externas ambientales o humanas, permiten un diagnóstico de fallas que es capaz de localizar el conjunto de modos de fallas involucrados en eventos de fallas múltiples. El método detecta los modos de fallas, el tipo de falla, el tiempo en el cual está presente la falla y la probabilidad de ocurrencia nos podrá ayudar a detectar o evitar un fallo múltiple.
La detección de la fallas múltiples no es un proceso sencillo debido a la complejidad de los sistemas actuales, sin embargo su análisis nos permitirá identificar las posibles causas, efecto con el objetivo de determinar las tareas proactivas que permitan evitar su ocurrencia.
2 Análisis de Fallas Múltiples
El método propuesto para el análisis de las fallas múltiples (Análisis de Fallas Múltiples Optimizado – AFMOp©) está compuesto de cinco (05) fases como se muestra en la Figura 2, de las cuales las tres (03) primeras fases las podemos extraer de las normas SAE JA1011 “Evaluation Criteria for Reliability-Centered Maintenance (RCM) Processes”, y el punto 4.4.2 “FMEA process” de la metodología “Procedures for performing a Failure Mode, Effects, and Criticality Analysis (FMECA)” de la norma MIL-STD-1629A. Para el punto 5, nos apoyamos en parte en la norma IEC 61025 – “Fault tree analysis (FTA)”.
Antes de determinar la probabilidad de falla múltiple de un sistema o equipo, debemos identificar los modos de falla ocultos y las probabilidades de falla individuales de cada elemento del sistema. El análisis de los datos, es el principal paso para poder determinar las funciones probabilísticas de falla, los datos estadísticos en la mayoría de los casos requieren un manejo y revisión previa, debido a que tienden a ser escasos, poco confiables o inexactos, por todo esto la recopilación de información, es sumamente critica, ya que se van a procesar de una u otra forma para llegar a resultados confiables.
Recopilar datos significa obtenerlos mediante bases de datos de fallas o en bases de datos genéricas para equipos y componentes similares y contextos operacionales parecidos. Una vez que hemos recopilado los datos, tenemos que representarlos o expresarlos en forma de gráficos, tablas, texto, o combinando las anteriores, de manera que sea más fácil su análisis.
Resulta oportuno mencionar que la Metodología de Análisis de Falla múltiple Optimizada (AFMOp©) propuesta, requiere de conocimiento de los sistemas y/o equipos a analizar, por lo que es imprescindible realizar este tipo de análisis con un equipo multidisciplinario que incluya a personal de operación, mantenimiento y seguridad que está en las labores cotidianas de la planta o instalación.
2.1 Selección del sistema y/o equipo
Existen varios métodos que podemos utilizar para determinar por donde iniciar este tipo de análisis, un método de jerarquización representa una excelente herramienta para tomar este tipo de decisiones y permite a su vez direccionar los recursos y esfuerzos, por lo que el Análisis de Criticidad (CA) permite establecer bajo criterios homologados, niveles jerárquicos en sistemas, equipos y componentes, para ser clasificados como de alta, media o baja criticidad, de acuerdo a su impacto total en el proceso, obtenido de la influencia combinada de la probabilidad de ocurrencia de fallas por sus consecuencias en la seguridad, ambiente, producción, operación y costos.
En esta etapa se deberá llevar a cabo una recopilación de datos de fallas de los sistemas o equipos, con sus impactos asociados, con el fin de realizar un tratamiento de los mismos, para determinar las probabilidades de fallas futuras y sus consecuencias. Aunque en este punto solo podemos determinar el impacto individual de las fallas, al desarrollar el punto 5 de la metodología nos permitirá establecer la probabilidad de falla múltiple.
Es fundamental identificar correctamente las fallas y sus probabilidades de ocurrencia, así como cuantificar su impacto utilizando elementos que incluyan el análisis cuantitativo de riesgo, con el objeto de focalizar los esfuerzos la atención en aquellas áreas que generen mayores riesgos o impactos a las operaciones.
En definitiva la selección del sistema y/o equipo que se analizará incluye su nivel de criticidad, identificando su impacto individual asociados a consecuencia en la seguridad, ambiente, operaciones y el desempeño esperado en todos los niveles del mismo, las restricciones del sistema.
De los valores obtenidos del Rango de Criticidad, se establecerá la Jerarquización de Criticidad del Activo (Instalación, Proceso, Sistema o Equipo). A continuación en la Tabla 1, se muestra un ejemplo de tales niveles de Criticidad:
2.2 Definición de las funciones del sistema y/o equipo
Las narrativas funcionales del sistema y/o equipos deben incluir descripciones de cada desempeño esperado en términos cuantitativos y cualitativos que permita identificar las tareas a realizar para cada misión, fase de la misión y modo operativo. Las narrativas deben describir los perfiles de seguridad, ambientales, los tiempos de esperados de operación normal y la utilización del equipo, y las funciones y propósito del sistema (razón por la cual existe). ¿Qué se necesita que haga? ¿De qué debe ser capaz?
En la Tabla 2 se muestra un ejemplo de las funciones de un sistema de bombeo de aceite.
2.3 Identificar los modos de fallas
La norma ISO 14224 define a los modos de fallas como: “Efecto por el cual una falla es observada en un ítem fallado”, sin embargo en nuestro caso no solo debemos identificar los modos de fallas visibles sino que también hay que determinar los modos de fallas no detectados cuando el sistema está en condiciones normales de operación. Estos modos de fallas están asociados a equipos o componentes con fallas no detectadas (UF – Undetected Failures) es decir, un “estado de un ítem caracterizado por la incapacidad para realizar una función requerida”, esto debido a que generalmente son los causantes de las fallas múltiples.
Mientras mayor sea el nivel de análisis de los modos de fallas, mayor será la cantidad de modos de falla a identificar. El proceso de avance en los niveles de detalle debe detenerse hasta el punto en el cual el equipo multidisciplinario que está efectuando el análisis tiene control sobre el modo de falla.
El nivel al cual debe ser identificado cualquier modo de falla es aquel que posibilita la identificación de una apropiada política para gerenciar la falla. En la Tabla 3 vemos un ejemplo de modos de fallas visibles y no detectadas en condiciones normales de operación.
2.4 Determinar las probabilidades de falla
La probabilidad de que un componente sobreviva/funcione más allá de un instante t, viene determinada por la Función de Supervivencia, que en el ámbito de la confiabilidad recibe el nombre de Función de confiabilidad (Reliability Function):
El complemento de la confiabilidad F(t)=1−R(t) es la probabilidad de falla, o sea que no sobrevivan el mismo tiempo t.
La confiabilidad de un equipo o componente (por ejemplo, un motor o una bomba) o el sistema completo se miden por el Tiempo Medio Entre Fallas (MTBF). Es el tiempo promedio hasta que ocurre una falla y generalmente se mide en horas o en años. Un MTBF de 8760 horas significa que, en promedio, cada año ocurre una falla, según una muestra grande.
Uno de los problemas con este cálculo es que la aparición de fallos no sigue una distribución uniforme. La tasa de fallas es alta para equipos nuevos (mortalidad infantil) y si el equipo llega al final de su vida. Para nuestro análisis consideraremos que los equipos están en el tiempo intermedio, es cuando queremos utilizar el equipo para la producción.
La inversa del MTBF es la tasa de fallas (λ). La tasa de falla anualizada (TFA) se define como el número promedio de fallas por año:
TFA = 1/MTBFaños = 8760/MTBFhoras
Por ejemplo una bomba de aceite de una turbina que ha operado 380,069.00 horas y ha tenido 6 fallas en ese periodo significa de tiene un MTBF de 63,344.83 es decir en promedio cada 7.23 años, lo que significa una TFA de 0.1383 fallas al año.
Las tasas de falla de los diversos equipos se muestran en la Tabla 4. La confiabilidad y la probabilidad de falla se calculan para cada componente individual asumiendo un período de operación determinado.
2.5 Árbol de falla y cálculo de probabilidad de falla múltiple
El análisis de árbol de fallas (FTA) nos permite la identificación y análisis de las condiciones y/o factores que causan o pueden causar o contribuir a la ocurrencia de un evento superior definido, en nuestro caso, una falla múltiple (FM). Con FTA, este evento suele ser una afectación a la seguridad o medio ambiente, degradación del rendimiento del sistema u otras condiciones operativas importantes.
El análisis del árbol de fallas (FTA) se fundamenta para el análisis de seguridad de sistemas (como sistemas de generación eléctrica, compresión de gas o cualquier otro sistema que pueda requerir una evaluación de la seguridad de su funcionamiento). El análisis del árbol de fallas también se puede utilizar para el análisis de disponibilidad y confiabilidad.
Uno de los principales usos que tiene un FTA son:
- Determinar la combinación lógica pertinente de eventos que conducen al evento principal y, potencialmente, su priorización;
- Para investigar un sistema en desarrollo y anticipar y prevenir, o mitigar, las causas potenciales de un evento superior no deseado;
Continuando con nuestro ejemplo, en la Figura siguiente se muestra el análisis de árbol de falla (FTA) de 3 niveles.
Desde luego, el árbol podría profundizarse más, analizando las causas de los eventos que hemos denominado principales. En cualquier caso, el grado de profundidad en el desarrollo de los eventos dependerá de los objetivos del estudio. En general, un nivel como el mostrado en el ejemplo podría ser suficiente para este análisis, pero como se mencionó anteriormente dependerá de la complejidad del sistema y/o equipo.
Una vez completado el árbol de falla, procedemos a determinar las probabilidades de fallas de los modos de fallas determinados de cada elemento tal como de la Tabla 5, en la que se detalla la tasa de falla, la confiabilidad y probabilidad de falla, su denominación simplificada a efectos del dibujo del árbol, y una descripción más detallada, incluyendo el modo de fallo. Esto último es especialmente importante dado que la mayor parte de los componentes estudiados tienen más de un modo de fallo.
2.6 Análisis cualitativo del árbol de fallos
El árbol de falla es una representación gráfica de cómo podemos llegar al evento tope (falla múltiple) a partir de las fallas individuales de cada componente descrito en el árbol. Sin embargo esta representación puede expresarse en forma de una ecuación equivalente de confiabilidad o probabilidad de falla, al sustituir las compuestas “AND” como componentes en serie y “OR” como componentes en paralelo por ejemplo.
Para los componentes que están en serie:
RSist(t) = R1(t) × R2(t) = πRi ; Psist(t) = 1 – RSist(t)
Para los componentes que están en paralelo:
PSist(t) = P1(t) × P2(t) = πRi ; Rsist(t) = 1 – PSist(t)
En nuestro ejemplo, para que ocurra una falla múltiple que deje sin lubricación a los cojinetes de la turbina y por lo tanto una posible falla catastrófica asociada a costos operativos y de reparación, la probabilidad sería:
PFBP = P1 × P2;
PFBAux = P3 × P4;
PFBE = P5 × P6;
La probabilidad de falla general (falla múltiple) será entonces:
RFM = (1 – PFBP) x (1 – PFBAux) x (1 – PFBE)
PFM = 1 – RFM
Sustituyendo los números proporcionados en la Tabla 5 y resolviendo la ecuación:
PFM = 0.000111%
Basados en los datos suministrados, para este ejemplo en particular la probabilidad de falla múltiple es muy pequeña pero existe.
3 Abreviaturas y Acrónimos
Algunas abreviaturas específicas utilizadas son:
- AFMOp©: Metodología de Análisis de Falla Múltiple Optimizado.
- FTA: Análisis del Árbol de Fallas.
- FM: Falla Múltiple.
- MTBF: Tiempo Promedio Entre Fallas.
- P(t): Función de Probabilidad de Falla.
- RCM: Mantenimiento Centrado en Confiabilidad.
- R(t): Función de Probabilidad de Confiabilidad.
- TFA: Tasa de Falla Anualizada.
- λ: Tasa de Falla.
- UF: Falla no Detectado u Oculta.
4 Conclusiones
Dependiendo del sistema o equipo a analizar, la determinación de la probabilidad de falla múltiple puede ser compleja, sin embargo con la Metodología de Análisis de Falla Múltiple Optimizado (AFMOp©) propuesta, cada fase del análisis puede ser llevado en forma estructurada y ordena, lo que permitirá completarlo de manera factible.
5 Referencias
- [1] John Moubray; – RCMII – Mantenimiento Centrado en Confiabilidad.
- [2] ISO 14224:2016 – Petroleum, petrochemical and natural gas industries — Collection and exchange of reliability and maintenance data for equipment.
- [3] SAE JA1011 “Evaluation Criteria for Reliability-Centered Maintenance (RCM) Processes.
- [4] IEC 61025 – “Fault tree analysis (FTA”.
- [5] Petroleum, petrochemical and natural gas industries — Collection and exchange of reliability and maintenance data for equipment (ISO 14224:2016).
- [6]Klaus Shcmidt – High Availability and Disaster Recovery: Concepts, Design, Implementation (Inglés) 2006th Edición.
- [7] D. A. Crowl and J. F. Louvar, “Chemical Process Safety: Fundamentals with Applications”, 2nd Ed., Prentice Hall, 2002.
- [8] MIL-STD-1629A “Procedures for performing a Failure Mode, Effects, and Criticality Analysis (FMECA)”.
- [9] Arturo Trujillo – El Árbol de Fallos y el Análisis de Importancia, dos herramientas para la optimización de la gestión de distintos tipos de riesgos”.
Autor: Arquímedes José Ferrera Martínez
CMRP, CRL
Correo: arquimedes.ferrera.m@gmail.com
LinkedIn: https://www.linkedin.com/in/arquimedes-ferrera-cmrp-crl-89585820/