1. Resumen
Tradicionalmente, el Análisis de Modos y Efectos de Falla (AMEF) se ha utilizado en la industria para eliminar defectos en procesos de producción y para desarrollar planes de mantenimiento en equipos. Con el advenimiento de la Industria 4.0, las empresas tienden a utilizar nuevas tecnologías en sus procesos productivos con el fin de que las instalaciones sean capaces de autogestionarse para utilizar los recursos de forma mucho más eficiente. Pareciera que, en este nuevo entorno, las metodologías tradicionales como el AMEF ya no resultan útiles. Nada más alejado de la realidad. En este artículo se ilustra cómo el AMEF, realizado de la forma correcta, es un insumo esencial en las reglas lógicas y algoritmos utilizados en aplicaciones de “Machine Learning”.
2. Evolución del AMEF
El Análisis de Modos y Efectos de Fallas es una metodología utilizada para identificar problemas potenciales (errores, defectos, fallas), sus causas y los efectos en un sistema o proceso, con la finalidad de priorizarlos, para facilitar la toma de decisiones relacionadas con la asignación de recursos destinados a la prevención de esos problemas y/o a la mitigación de sus consecuencias.
EL AMEF surge a finales de los años 40 en la industria militar, como respuesta a reiterados defectos de fabricación en municiones. Para entonces se documentó el procedimiento MIL-P-1629, el cual funcionó y fue adoptado luego por las industrias nuclear y aeroespacial en los años 50.
Posteriormente, en los años 70, las fallas ocurridas en un modelo de automóvil de una de las mayores ensambladoras de vehículos de los Estados Unidos motivaron a que esta empresa implementara el AMEF en su proceso de diseño.
El resto de las ensambladoras y empresas agrupadas en la AIAG (Automotive Industry Action Group) comenzaron a utilizar también el AMEF. Desde el año 1993 la utilización del AMEF en los procesos de diseño y construcción ha sido requisito de la norma QS-9000, posteriormente convertida a ISO/TS 16949, estándar de gestión de calidad para la industria automotriz reconocido internacionalmente.
Después de la industria automotriz, el AMEF se comenzó a utilizar en otras industrias y hoy son muchas las que lo emplean con diferentes enfoques o variantes.
3. Enfoques tradicionales del AMEF
Independientemente del tipo de industria, el AMEF se ha utilizado hasta ahora como una herramienta de análisis de riesgo enfocada en:
- Eliminar defectos durante el proceso de diseño o manufactura de un producto.
- Evitar fallas o mitigar sus consecuencias en componentes / equipos / sistemas.
En el caso de eliminación de defectos durante un proceso de manufactura, las acciones recomendadas van dirigidas a mejoras en los procesos de fabricación o en la capacitación de los operarios de las máquinas. La Tabla 1 muestra una hoja de trabajo de AMEF de proceso orientado a evitar defectos en piezas fabricadas mediante inyección de plástico. En este caso, la acción recomendada está orientada a incluir elementos de medición y control (sensores y válvula limitadora de presión) para evitar el error humano.
Por otro lado, en el caso de evitar fallas o mitigar sus consecuencias en componentes, equipos y/o sistemas de un proceso productivo, las recomendaciones se refieren a tareas de mantenimiento proactivo (preventivo, predictivo, detección), rediseño o capacitación de operarios y/o mantenedores en la correcta operación y mantenimiento del equipo. La Tabla 2 muestra una hoja de trabajo típica de este tipo de AMEF.
En los dos casos descritos, se calcula el NPRi (Numero de Prioridad de Riesgo inicial) para determinar la criticidad del modo de falla mediante el producto de los criterios de Severidad, Ocurrencia y Detección de la falla (Si, Oi y Di). EL NPRf (Número de Prioridad de Riesgo final) indica la criticidad del modo de falla después de implementar la acción de control. Por supuesto, para que la acción propuesta tenga sentido, el NPRf debe ser menor al NPRi.
Un aspecto importante del AMEF orientado a evitar fallas en o mitigar sus consecuencias es que se identifica la causa (o las causas, en caso de que sea más de una) de la aparición del modo de falla. Esta información será de vital importancia para el uso del AMEF en soluciones de Machine Learning.
4. Inteligencia Artificial y Machine Learning
La Inteligencia Artificial (IA) y el Machine Learning (ML) están muy relacionadas entre sí, pero no son lo mismo.
Dicho de forma muy sencilla, mientras que la Inteligencia Artificial implica que las máquinas pueden ejecutar órdenes de manera inteligente y realizar tareas adaptándose a diferentes situaciones, el Machine Learning es una rama de la IA que se basa en la creación de máquinas que procesan datos y que aprenden de ellos sin necesidad de una supervisión constante.
Los adelantos obtenidos en IA han sido en gran parte gracias al ML, ya que los investigadores han comprendido que es más eficiente enseñar a las computadoras a como aprender, que enseñarles cómo hacer cada tarea, proporcionándoles información para ello.
5. Principios del Machine Learning
Como ya se mencionó, el ML se basa en el aprendizaje mediante el procesamiento de datos, pero ¿de qué tipo de datos estamos hablando? La respuesta es: depende de la aplicación que se quiera dar al ML. En nuestro caso hablaremos de la aplicación de Machine Learning a procesos productivos.
Cualquiera que sea el proceso productivo, las personas encargadas de la operación y mantenimiento de los activos que forman parte de ese proceso siempre tienen presentes las siguientes preguntas:
- ¿Cómo mejorar el desempeño de la planta, la disponibilidad y calidad?
- ¿Cómo optimizar costos de operación y mantenimiento?
- ¿Por qué se incrementaron los costos de operación recientemente?
- ¿Cómo reducir las interrupciones del proceso debido a fallas?
- ¿Cómo optimizar el uso de recursos?
- ¿Por qué hay indicadores fuera de los objetivos?
- ¿Cómo identificar y solucionar problemas de forma anticipada?
Para responder todas estas preguntas se requiere disponer de información, preferiblemente que dicha información sea “accionable”, es decir, que nos indique que hacer cuando se detecta un problema, o que por lo menos nos facilite la toma de decisiones.
Hasta ahora, este tipo de información la han generado los Ingenieros de Procesos, Calidad, Confiabilidad y otros, involucrados con la operación, mantenimiento y productividad de los activos. Sin embargo, la gran cantidad de datos que deben analizarse, las distintas fuentes de las que estos datos provienen y las limitantes en la cantidad de personas que se pueden asignar a realizar este tipo de tareas, hacen que se obtenga solo una fracción de la información que se podría obtener y que por tanto no se pueda alcanzar todo el potencial de confiabilidad y rendimiento que poseen los procesos productivos.
Implementando soluciones de Machine Learning y Analítica avanzada se hace posible procesar una cantidad inmensa de datos y obtener “información accionable” orientada a mejorar la confiabilidad y rendimiento de los procesos.
Una adecuada solución de Machine Learning aplicada a los procesos productivos se enfoca en 3 aspectos principales: recolección, análisis y visualización de la información (Figura 1).
A continuación, una breve descripción de cada uno de estos aspectos:
5.1. Recolección
Mediante soluciones de Machine Learning se puede recolectar una gran cantidad de datos provenientes de diferentes fuentes, tales como:
- Visualizadores e historiadores de variables de operación y proceso en tiempo real.
- Sistemas de Control Distribuido (SCD).
- Controladores Lógicos Programables (PLC´s).
- Sistemas de monitoreo en línea de vibración, corrosión, etc.
- Hojas de datos de equipos.
- Curvas y/o mapas de operación de equipos dinámicos.
- Diagramas de flujo de proceso.
- Hojas de Análisis de Modos y Efectos de Falla.
La selección de las fuentes de donde se toman los datos y los datos en sí mismos que se deben recolectar dependen de la información que se desea obtener y del uso que se le dará a la misma. Por ejemplo, si solo se quiere monitorear la condición de salud de un tren de compresión de gas formado por una turbina a gas y uno o más compresores centrífugos, seguramente será suficiente con obtener datos de vibración, presiones, flujos y temperaturas de succión y descarga. Sin embargo, si aparte de la salud, también se quiere monitorear el performance de la turbina y de los compresores, tendrá que obtenerse datos de, por ejemplo: % de apertura de válvula de control de surge, flujo, presión, temperatura y cromatografía del gas combustible.
5.2. Análisis
Después de obtener los datos requeridos de las fuentes seleccionadas, las soluciones de ML realizan el procesamiento y análisis de esos datos. Dicho procesamiento incluye el empleo de “algoritmos inteligentes” que utilizan, entre otras, las siguientes técnicas:
Limpieza de datos: los datos son procesados con el fin de detectar, corregir o eliminar registros imprecisos, incorrectos, incompletos, mal formateados o duplicados. El principal objetivo de este proceso es facilitar el movimiento de los datos y la transformación de estos.
Clustering: tiene como finalidad principal lograr el agrupamiento de conjuntos de objetos no etiquetados, para lograr construir subconjuntos de datos conocidos como Clusters. Este proceso desarrolla una acción fundamental que le permite a los algoritmos de aprendizaje automatizado entrenar y conocer de forma adecuada los datos con los que desarrollan sus actividades y ayuda a generar capacidades de análisis de forma rápida, en grandes volúmenes y con la menor cantidad de errores posibles.
Análisis de regresión: El análisis de regresión es una técnica de mediante la cual se calcula la relación estimada entre una variable dependiente y una o varias variables independientes. Con el análisis de regresión, es posible modelar la relación entre las variables elegidas, así como predecir valores basándose en el modelo creado.
Análisis secuencial: con este análisis se identifican los eventos y la secuencia de ellos que originan la ocurrencia de un estado o evento indeseado. Es de suma utilidad para identificar patrones de falla o de funcionamiento inadecuado.
Árbol de decisiones: es una vía de análisis que parte de la representación de manera gráfica de todos los sucesos que pueden derivar de la toma de una decisión y a su vez, de todos los sucesos que pueden derivar de cada uno de esos sucesos iniciales. Los árboles de decisión se emplean para la resolución de problemas ya que sirven para organizar los datos, estructurar los canales de análisis y, en última instancia, tomar la decisión con mayor probabilidad de acierto. Aplicado al Machine Learning, el árbol de decisión se utiliza para enseñar a las máquinas a tomar decisiones y por tanto, a resolver problemas de regresión o de clasificación. Como resultado, se obtienen modelos predictivos precisos y confiables.
5.3 Visualización
La información obtenida a partir del procesamiento y análisis de datos y la forma de presentarla dependerá del uso que se quiera hacer de la misma y hacia quien debe dirigirse.
La información obtenida puede estar relacionada con:
- La gestión de salud del activo.
- Detección de brechas en el desempeño.
- Predicción de fallas.
- Identificación de causa raíz de un problema.
- Acción a implementar antes de que ocurra la interrupción del proceso.
Por otro lado, las personas a quienes debe llegar la información pueden ser los operadores y/o mantenedores de la instalación, sus supervisores o los gerentes de cada organización.
Es por ello que la información se debe presentar en “tableros inteligentes” que vayan de lo general, mostrando por ejemplo, bajo rendimiento en un equipo, hasta lo particular, mostrando la causa de ese bajo rendimiento y las “acciones prescriptivas” que deben implementarse para corregir las desviaciones detectadas.
La Figura 2 ilustra un tablero inteligente en el cual se alerta sobre un problema de rendimiento en un compresor centrífugo, mostrando además la relación entre la eficiencia politrópica esperada y la real, la causa del bajo rendimiento y la acción prescriptiva recomendada.
6. AMEF aplicado a Machine Learnig
En la sección 4.1 se mencionó al Análisis de Modos y Efectos de Falla como una de las fuentes de recolección de datos utilizada en aplicaciones de Machine Learning. Manteniéndonos enfocados en el AMEF dirigido a evitar fallas de componentes, equipos y/o sistemas, este tipo de análisis, realizado de la manera correcta, servirá de insumo para los algoritmos inteligentes encargados de identificar la causa de una falla y las acciones prescriptivas recomendadas. Entonces, ¿Cuál es la manera correcta de realizar un AMEF que servirá de insumo a estos algoritmos inteligentes? ¿Cómo luciría la hoja de trabajo de AMEF en estos casos? Habría que darle unos “retoques” a la hoja mostrada en la Figura 1. A continuación, hablaremos de dichos “retoques”.
En primer lugar, debemos dar más detalles sobre los efectos de la falla. En la Figura 1, el efecto identificado es el efecto final, o efecto en el proceso. Es el evento que no se quiere que ocurra: “Paro por alta temperatura del fluido enfriado”. Para que el algoritmo inteligente pueda correlacionar variables e identificar patrones de falla, debemos darle entonces datos de variables. Algo que ayudaría mucho es identificar como se entera el operador de que está ocurriendo la falla, cual es el efecto local o inmediato que se logra detectar y cual es el efecto en un próximo nivel antes de que se produzca el efecto final que sería el paro por alta temperatura del fluido. En nuestro caso, el efecto local sería una indicación de bajo flujo de descarga. Un efecto en el próximo nivel sería el aumento en la temperatura del fluido que se está enfriando y el efecto final, el paro por alta temperatura de ese fluido.
Obviamente, en todos estos casos debe indicarse el valor de las variables de flujo y temperatura y sus unidades, de manera que el algoritmo identifique qué es “bajo”, qué es “alto” y qué es “normal”. De esta forma, cuando el algoritmo confirme disminución en la presión de descarga de la bomba, combinado solamente con la alta temperatura del fluido enfriado, identificará como causa de la falla el desgaste interno de la bomba (desgaste normal). Sin embargo, si las mismas dos condiciones anteriores vienen acompañadas de disminución en la presión diferencial del filtro de succión, entonces la causa identificada será el exceso de sólidos en el fluido.
Por otro lado, las acciones recomendadas también requerirán cambios. Volviendo a la Figura 1, las acciones recomendadas requieren el monitoreo de variables de flujo y presión de descarga de la bomba, así como presión diferencial en el filtro de succión. Pero resulta que si se tiene trabajando una solución de Machine Learning, ese monitoreo de variables y la correlación entre ellas para identificar la causa de la falla ya lo está haciendo el algoritmo inteligente de Machine Learning. Lo que se requiere entonces es indicar que hacer después de que se identifica la causa de la falla. En nuestro caso, si la causa de falla identificada es el desgaste normal de la bomba, la acción requerida será, por ejemplo, programar paro de la bomba para realizar remplazo de partes internas. Incluso, si el algoritmo cuenta con suficientes datos podría indicar con cuanto tiempo se cuenta antes de que el desgaste interno origine un flujo de descarga inaceptable para el proceso. Pero si la causa identificada fuese exceso de solidos en el fluido bombeado, la acción requerida pudiera ser remplazo del filtro o elemento filtrante ubicado en la succión de la bomba. En ambos casos, la solución de Machine Learning podría crear también un “aviso de avería” y enviarlo al departamento de planificación de mantenimiento para que se elabore la respectiva orden de trabajo.
7. Conclusiones
Adicionalmente a las aplicaciones que tradicionalmente ha tenido el AMEF, ahora también, realizado de la manera correcta, puede utilizarse como fuente de información para los algoritmos inteligentes de Machine Learning en procesos productivos para identificar causas de falla y las acciones prescriptivas recomendadas.
Los principales cambios por efectuar en un AMEF tradicional orientado a evitar fallas para que sea de utilidad a los algoritmos inteligentes utilizados en Machine Learning consisten en:
- Identificar varios niveles de efecto de falla (efecto local, efecto en el próximo nivel y efecto final). Dichos efectos deben estar relacionados con variables (temperatura, presión, flujo, etc.) y estas a su vez deben ser expresadas en magnitud y unidad de medida.
- Indicar las tareas prescriptivas dirigidas a evitar que ocurra la falla funcional del sistema.
En general, las soluciones de Machine Learning aplicadas a procesos productivos contribuyen a que los sistemas sean capaces de autogestionarse para utilizar los recursos de forma mucho más eficiente.
8. Referencias
- Judith Hurtwitz / Daniel Kirsch. Machien Learning for dummies. IBM Limited Edition. John Wiley & Sons, Inc. 2018.
- Emerson Process Management. Plant Web Optics Analytics Overview. 2020.
Autor: Carlos Alberto Villegas Moran
CMRP.
Ingeniero Mecánico con Especialización en Confiabilidad de Sistemas Industriales.
Director de Operaciones de E&M Solutions S.A de C.V.
Correo: carlos.villegas@eymsolutions.com
LinkedIn: https://www.linkedin.com/in/carlosvillegasmoran/