Seleccionar página

1 Introducción

El Aprendizaje Automático Supervisado (SML) tiene como objetivo clasificar o predecir datos basados en el conocimiento previo de un conjunto de características de datos. Por lo tanto, el  SML se puede dividir en dos categorías como Clasificación y Regresión. La Clasificación de Aprendizaje Automático Supervisado (SMLC) tiene el objetivo principal de clasificar los datos basados en las características observadas previamente en un conjunto de datos.

Por lo tanto, el SML tiene muchas aplicaciones para el campo del mantenimiento como clasificar automáticamente la criticidad del equipo, clasificar automáticamente el riesgo de equipos, clasificar el equipo de alto rendimiento o bajo rendimiento, clasificar automáticamente zonas de alarma y otra clasificación aplicada en el campo del mantenimiento. La ventaja principal de tal acercamiento es clasificar automáticamente un número enorme de datos basados en los modelos de SMLC, que permiten reducir la cantidad enorme de tiempo dedicado a actividades de clasificación de datos. Los modelos SMLC más comunes son los siguientes:

  • K-Nearest Neighbor (KNN);
  • Decision Tree;
  • Naive Bayes;
  • Linear Discriminant Analysis;
  • Support Vector Machine;
  • Neural Network;
  • Logistic Regression.

Los pasos generales del proceso de aprendizaje automático de clasificación se describen en la Figura 1.

Figura 1. Metodología de clasificación de aprendizaje automático supervisado.
Figura 1. Metodología de clasificación de aprendizaje automático supervisado.

2 – Modelo Naive Bayes

El Naive Bayes es basado en los Principios del Teorema de Bayes. Por lo tanto, vamos a empezar con una introducción sobre el teorema de Bayes, y después, vamos a discutir el método Bayes Naive. El teorema de Bayes define la probabilidad condicional considerando por ejemplo dos eventos A y B, tenemos la ecuación abajo:

El objetivo del modelo Naive Bayes es definir la probabilidad de que un dato con características definidas pertenezca a una clase basada en la probabilidad condicional definida por:

Donde:

  • Y = etiquetas
  • X = variables

Finalmente, para definir el valor de la etiqueta que maximiza la probabilidad de condición tenemos:

Si asumimos la independencia entre la variable, podemos simplificar la probabilidad de la condición para:

Entonces, la probabilidad de que un nuevo punto de datos pertenezca a una clase está definida por:

Este modelo se llama “Naive” debido a la suposición de independencia entre las variables. Vamos a ver el próximo ítem la aplicación práctica del modelo Naive Bayes.

3 – Caso práctico: Clasificación de profesionales de Mantenimiento en “Experto” y “No Experto”

Para entender el método Naive Bayes, vamos a demostrar un ejemplo clásico aplicado para el equipo de mantenimiento que siempre necesita clasificar a sus empleados en expertos o no expertos en mantenimiento. Con el fin de clasificar los antecedentes técnicos de los empleados como por ejemplo:

  • Nivel de Educación (Técnico, Graduado, Maestría, Doctorado).
  • Nivel de Experiencia (Años).     
  • Número de informes técnicos.
  • Número de certificaciones de mantenimiento.

En la Tabla 1 se resumen los criterios para clasificar al profesional de mantenimiento como experto. Sin embargo, para ser clasificado como experto, la profesión debe tener al menos dos criterios clasificados como alto o, uno como alto y otro como muy alto.

Tabla 1. Criterios de clasificación profesional del mantenimiento.
Tabla 1. Criterios de clasificación profesional del mantenimiento.

3.1 – Caso Práctico: Modelo Naive Bayes – Datos y Aprendizaje

Ahora que los criterios para clasificar un profesional de mantenimiento en experto o no experto, es necesario obtener una muestra de empleados y aplicar tal clasificación. Sobre la base de esa clasificación, un grupo de empleados de mantenimiento se clasifica como “Experto” y “No Experto” como muestra la Tabla 2. El siguiente paso es probar el modelo Naive Bayes para clasificar otro grupo de empleados automáticamente de otra planta en la misma empresa.

Tabla 2. Mantenimiento Clasificación de expertos y no expertos.
Tabla 2. Mantenimiento Clasificación de expertos y no expertos.

Al definir un conjunto de datos de empleados, el Método Naive Bayes se aplica para clasificar el profesional de mantenimiento como “Experto” y “No Experto”. Antes del modelo de entrenamiento, el conjunto de datos descrito en la Tabla 2 se divide en los datos de entrenamiento (70%) y los datos de prueba (30%).

La Figura 2 muestra el resultado gráfico de la clasificación basada en el Naive Bayes. El eje X representa el número de informe de mantenimiento y el eje Y representa el nivel de experiencia profesional en años.

Los otros aspectos también se consideraron en la clasificación, sin embargo, para representar un gráfico 2D, los parámetros deben ser seleccionados. En el color azul se representa el profesional clasificado como “Experto” y en el color rojo se clasifica la profesión como “No Experto”.

Figura 2. Resultado de la clasificación profesional de mantenimiento de Naive Bayes
Figura 2. Resultado de la clasificación profesional de mantenimiento de Naive Bayes.

En la Figura 2 hay un profesional mal clasificado, que justifica la precisión del modelo Naive Bayes de 94,1% en este caso. La clasificación errónea puede llevar a una conclusión errónea y el riesgo de clasificar a un profesional de mantenimiento como “No experto” cuando es un experto.

De hecho, es un riesgo normal que plantea en este tipo de clasificación no importa si estamos utilizando un modelo A.I o lo hacemos manualmente.

Sin embargo, cuando un gran número de profesionales necesitan ser clasificados para un nuevo puesto, por ejemplo, el Modelo Bayes Naive clasifica al profesional de mantenimiento en segundos. Eso es una gran ventaja porque la clasificación manual puede tomar horas, días o semanas.

De hecho, uno de los temas más críticos en la selección profesional para un puesto de trabajo es el proceso de clasificación que hace que este proceso de selección tarde mucho tiempo, lo que es doloroso para el participante y los reclutadores.

3.2 – Caso Práctico: Modelo Naive Bayes – Verificación

En cuanto a la verificación de la clasificación, como se ha indicado anteriormente, la Figura 3 muestra la matriz de confusión con una sola clasificación errónea resaltada en rosa, donde un experto de mantenimiento que es “No Experto” es predicho por el Modelo Bayes Naive como “Experto”.

La matriz de confusión, o matriz de error, muestra el porcentaje de clasificación adecuada considerando todas las posibilidades. El tipo de clasificación en la matriz de confusión es el siguiente:

Verdaderos positivos (TP): Son el número de variables positivas predichas que son positivas basado en la clasificación real. En este caso son los profesionales de mantenimiento predichos clasificados como “Expertos” que son “Expertos”.

Falsos positivos (FP): Son el número de variables positivas predichas que son negativas basado en la clasificación real. En este caso son los profesionales de mantenimiento predichos clasificados como “Expertos” que son “No expertos”.

Verdaderos negativos (TN): Son el número de variables negativas predichas que son negativas basado en la clasificación real. En este caso son los profesionales de mantenimiento predichos clasificados como “No Expertos” que son “No Expertos”.

Falsos negativos (FN): Son el número de variables negativas predichas que son positivas basado en la clasificación real. En este caso son los profesionales de mantenimiento predichos clasificados como “No Expertos” pero son “Expertos”.

Para verificar la precisión del modelo Naive, se aplican los índices de verificación tales como accuracy (exactitud), recall (sensibilidad) y precision (precisión). La exactitud se puede definir como la ración de predicción verdadera (TP+TN) dividida por todas las clasificaciones como muestra la siguiente ecuación:

Aplicando esta ecuación basada en el resultado de la Matriz de Confusión descrito en la Figura 3 tenemos:

El recall puede definirse como la relación entre el número total de positivos verdaderos (TP) dividido por el número total de clasificados verdaderos (TP+TN).

Aplicando esta ecuación basada en el resultado de la Matriz de Confusión descrito en la Figura 3 tenemos:

Figura 3. Matriz de confusión del modelo ingenuo de Bayes.
Figura 3. Matriz de confusión del modelo ingenuo de Bayes.

Por último, la precisión se define como la relación entre el número total de positivos verdaderos (PT) y el número total de positivos clasificados (TP+FP).

Aplicando esta ecuación basada en el resultado de la Matriz de Confusión descrito en la Figura 3 tenemos:

3.3 Caso Práctico: Modelo Naive Bayes – Validación

Con el fin de validar el modelo ingenuo aplicado a la clasificación profesional de mantenimiento, vamos a probar la clasificación de datos para otro grupo de profesionales como se describe en la Tabla 3. Supongamos que la empresa quiere contratar a un nuevo experto en mantenimiento y utilizará los mismos criterios y modelo presentados anteriormente. En este cuadro el primer profesional tiene nivel de educación de graduación, tiene alta experiencia, tiene un alto nivel de informe técnico, pero tiene bajo número de certificaciones. ¿Cuál es la clasificación para este profesional de mantenimiento? ¿”Experto” o “No Experto”?

Para responder a esta pregunta, se aplica la siguiente ecuación:

Sobre la base de la Tabla 3, podemos calcular las siguientes probabilidades:

Los valores finales del profesional de Mantenimiento se clasifican como “Experto” es:

El siguiente paso es hacer el mismo cálculo para la clasificación de No Experto como sigue:

Sobre la base de la Tabla 3, podemos calcular las siguientes probabilidades:

Los valores finales de la clasificación profesional de Mantenimiento como “No experto” son:

Desde entonces:

Por lo tanto, el profesional de mantenimiento se clasifica como “experto”. Sin embargo, el mismo proceso de cálculo debe realizarse para los otros dieciséis profesionales de mantenimiento. Al buscar la solución MATLAB en la Figura 3, este profesional también fue clasificado como “Experto”, el primero en la lista superior.

De hecho, en la vida real, cientos o miles de perfiles profesionales de mantenimiento deben ser evaluados y clasificados como “Expertos” y “No Expertos”. Utilizando el algoritmo del modelo Bayes Naive en el software de MATLAB (u otro lenguaje) es posible clasificar automáticamente a los nuevos profesionales y averiguar, cuáles de ellos son expertos como muestra el resultado.

Figura 4. Validación del modelo Naive Bayes.
Figura 4. Validación del modelo Naive Bayes.

La Tabla 3 resume el resultado que valida el primer modelo para clasificar un nuevo grupo de profesionales de mantenimiento en “Experto” y “No Experto”. La quinta columna muestra la clasificación prevista basada en el algoritmo Naive Bayes en el MATLAB y la sexta columna muestra la clasificación real. Sólo había una clasificación falsa, donde el modelo predijo un profesional como experto, pero en realidad, sobre la base de los criterios definidos que no es un experto y necesita ser clasificado como un “No Experto”. Sin embargo, eso no es un problema en absoluto porque en la práctica ese perfil profesional será revisado y se detectará que no es un experto. El problema aquí es cuando el algoritmo clasifica a alguien como un “No Experto” cuando en realidad él o ella es un “Experto”, pero eso no sucedió en el modelo propuesto.

Tabla 3. Resultado de la validación del modelo Naive Bayes.
Tabla 3. Resultado de la validación del modelo Naive Bayes.

4 Conclusión

El Modelo Bayes Naive se puede aplicar a diferentes tipos de clasificación y predecir la probabilidad de que un nuevo dato pertenezca a una de estas clases. Siempre habrá la posibilidad de clasificación errónea para cualquier tipo de modelo de aprendizaje automático, pero con seguridad mediante la aplicación de este modelo, el número de trabajos manuales se reduce drásticamente, así como el nivel de confianza de los aumentos de clasificación. El Modelo Naive Bayes también se puede aplicar como verificación de una clasificación manual. Las ventajas del modelo Naive Bayes son:

  • Fácil de implementar y aplicar a diferentes casos como la clasificación de texto.
  • Naive Bayes requiere una pequeña cantidad de datos de entrenamiento para estimar los datos de las pruebas.
  • Menos esfuerzo de preparación de datos.

Los inconvenientes del modelo Naive Bayes son:

  • Tiene la fuerte hipótesis de independencia variable.
  • Si la variable categórica tiene una categoría en el conjunto de datos de prueba, que no se observó en el conjunto de datos de entrenamiento, entonces el modelo asignará una probabilidad 0 (cero). En este caso, debe añadirse una unidad de cada conjunto de datos.

Autor: Dr. Eduardo Calixto
Eduardo Calixto Consulting (ECC), CEO & Founder
Correo: ec@eduardocalixto.com
Sitio Web: www.eduardocalixto.com

Próximos cursos:

Del 04 de junio al 23 de julio
64 horas académicas en línea en vivo
9:00 am – 1:00 pm, Hora CDMX