¿Qué es el aprendizaje supervisado?
El aprendizaje supervisado es una rama de Machine Learning , un método de análisis de datos que utiliza algoritmos que aprenden iterativamente de los datos para permitir que los ordenadores encuentren información escondida sin tener que programar de manera explícita dónde buscar. El aprendizaje supervisado es uno de los tres métodos de la forma en que las máquinas "aprenden": supervisado, no supervisado y optimización.
El aprendizaje supervisado resuelve problemas conocidos y utiliza un conjunto de datos etiquetados para entrenar un algoritmo para realizar tareas específicas. Utiliza modelos para predecir resultados conocidos como "¿Cuál es el color de la imagen?" "¿Cuántas personas hay en la imagen?" "¿Cuáles son los factores determinantes para el fraude o los defectos del producto?" etc. Por ejemplo, un proceso de aprendizaje supervisado podría consistir en clasificar vehículos de dos y cuatro ruedas a partir de sus imágenes. Los datos de entrenamiento tendrían que estar correctamente etiquetados para identificar si un vehículo es de dos o cuatro ruedas. El aprendizaje supervisado permite que los algoritmos 'aprendan' de datos históricos/de entrenamiento y los apliquen a entradas desconocidas para obtener la salida correcta. Para funcionar, el aprendizaje supervisado utiliza árboles de decisión, bosques aleatorios y Gradient Boosting Machine.
Por el contrario, el aprendizaje no supervisado es un tipo de Machine Learning que se utiliza para identificar nuevos patrones y detectar anomalías. Los datos que se introducen en los algoritmos de aprendizaje no supervisados no están etiquetados. El algoritmo (o modelos) intentan dar sentido a los datos por sí mismos mediante la búsqueda de características y patrones. Una pregunta de muestra que Machine Learning sin supervisión podría responder es "¿Están surgiendo nuevos clústeres de fraude o patrones de compra o modos de falla?" El aprendizaje no supervisado utiliza el agrupamiento, los componentes principales, las redes neuronales y las máquinas de vectores de soporte.
La optimización, el tercer tipo de Machine Learning, encuentra la mejor solución incluso cuando existen restricciones complejas. Por ejemplo, la optimización podría responder a la pregunta "¿Cuál es la ruta óptima a seguir o la asignación de recursos o el programa de mantenimiento del equipo?" La optimización utiliza algoritmos genéticos, que se basan en la teoría de la evolución de Darwin.
¿Qué es la clasificación en el aprendizaje supervisado?
Existen dos tipos principales de aprendizaje supervisado; clasificación y regresión. La clasificación es el lugar donde se entrena a un algoritmo para clasificar los datos de entrada en variables discretas. Durante el entrenamiento, los algoritmos reciben datos de entrada de entrenamiento con una etiqueta de 'clasificación'. Por ejemplo, los datos de entrenamiento pueden consistir en las últimas facturas de tarjetas de crédito de un conjunto de clientes, con la etiqueta de si realizaron una compra futura o no fue así. Cuando el saldo de la tarjeta de un nuevo cliente se presenta al algoritmo, este clasificará al cliente en el grupo de "comprará" o "no comprará".
¿Qué es la regresión en el aprendizaje supervisado?
A diferencia de la clasificación, la regresión es un método de aprendizaje supervisado en el que se entrena a un algoritmo para predecir una salida a partir de un rango continuo de valores posibles. Por ejemplo, los datos de entrenamiento inmobiliario tomarán nota de la ubicación, el área y otros parámetros relevantes, la salida será el precio de un inmueble específico.
En la regresión, un algoritmo necesita identificar una relación funcional entre los parámetros de entrada y salida. El valor de salida no es discreto como en la clasificación, sino que es una función de los parámetros de entrada. La exactitud de un algoritmo de regresión se calcula en función de la desviación entre la salida precisa y la salida prevista.

Aplicaciones prácticas de la clasificación
Clasificación binaria
Este algoritmo clasifica los datos de entrada en uno de dos grupos posibles. A menudo, una de las clases indica un estado "normal/deseado" y la otra indica un estado "anormal/no deseado". Las aplicaciones prácticas de la clasificación binaria incluyen:
Detección de spam
El algoritmo recibe ejemplos de correos electrónicos que están etiquetados como "spam" o "no spam" durante la fase de aprendizaje supervisado. Posteriormente, cuando el algoritmo recibe una nueva entrada de correo electrónico, predice si el correo corresponde a un "spam" o "no spam".
Predicción de migración de clientes
El algoritmo utiliza un conjunto de datos de entrenamiento de clientes que previamente cancelaron la suscripción de un servicio. Según el entrenamiento, el algoritmo predice si un nuevo cliente finalizará la suscripción o no en función de los parámetros de entrada.
Predicción de conversión
El algoritmo se entrena con los datos del comprador y si compró el artículo o no. Luego, basándose en esta capacitación, el algoritmo predice si un nuevo cliente realizará una compra o no.
Los principales algoritmos utilizados para la clasificación binaria incluyen la regresión logística y las máquinas de vectores de soporte.
Clasificación multiclase
En la clasificación multiclase, el conjunto de datos de entrenamiento se etiqueta con una de las múltiples clases posibles. A diferencia de la clasificación binaria, un algoritmo multiclase se entrena con datos que se pueden clasificar en una de las muchas clases posibles. Las aplicaciones para la clasificación multiclase incluyen:
- Clasificación de rostros: según los datos de entrenamiento, un modelo categoriza una foto y la asigna a una persona específica. Un detalle a tener en cuenta aquí es que podría haber una gran cantidad de etiquetas de clase. En este caso, miles de personas.
- Clasificación de correo electrónico: la clasificación multiclase se utiliza para segregar los correos electrónicos en varias categorías: social, educación, trabajo y familia.
- Los principales algoritmos utilizados para la clasificación multiclase son Bosques Aleatorios, Naive Bayes, árbol de decisiones, K-vecinos más cercanos y Gradient Boosting.
Clasificación de etiquetas múltiples
A diferencia de la clasificación binaria y multiclase donde el resultado tiene solo una clase posible, la salida de etiquetas múltiples pertenece a una o más clases, lo cual significa que los mismos datos de entrada podrían clasificarse en diferentes compartimentos. Las aplicaciones de la clasificación de etiquetas múltiples incluyen:
- Detección de fotos: en los casos en que las fotos tienen varios objetos, como un vehículo, un animal y personas, la foto podría caer en varias etiquetas.
- Clasificación de audio/video: las canciones y los videos pueden encajar en varios géneros y estados de ánimo. Se puede utilizar la clasificación de etiquetas múltiples para asignar estas etiquetas múltiples.
- Clasificación de documentos: es posible clasificar artículos en función de su contenido.
Clasificación con datos desbalanceados
Este es un caso especial de clasificación binaria, donde existe un desbalance de clases en el conjunto de datos de entrenamiento. La mayoría de los ejemplos de los datos de entrenamiento pertenecen a un conjunto y una pequeña parte pertenece al segundo conjunto. Desafortunadamente, la mayoría de los algoritmos de Machine Learning funcionan mejor cuando existe una distribución equitativa entre las clases. Por ejemplo, en sus datos de entrenamiento, usted tiene 10.000 transacciones de clientes genuinos y solo 100 son fraudulentas. Para igualar la precisión, se necesitan técnicas especializadas debido al desbalance en los datos. Las aplicaciones de la clasificación con datos desbalanceados podrían ser:
- Detección de fraude: en el conjunto de datos etiquetados que se utilizan para el entrenamiento, solo una pequeña cantidad de entradas se etiquetan como fraude.
- Diagnósticos médicos: en una gran cantidad de muestras, las que tienen un caso positivo de una enfermedad podrían ser mucho menos.
Se utilizan técnicas especializadas como enfoques basados en costos y enfoques basados en muestreo para ayudar a lidiar con casos de clasificación con datos desbalanceados.
Aplicaciones prácticas de la regresión
Regresión lineal
La regresión lineal en el aprendizaje supervisado entrena a un algoritmo para encontrar una relación lineal entre los datos de entrada y salida. Es el modelo más simple utilizado donde las salidas representan una combinación linealmente ponderada de las salidas. La regresión lineal se puede utilizar para predecir valores dentro de un rango continuo (por ejemplo, ventas, pronóstico de precios) o clasificarlos en categorías (por ejemplo, gato, perro - regresión logística). En los datos de entrenamiento para la regresión lineal, se proporcionan una variable de entrada (independiente) y una respectiva variable de salida (la variable dependiente). A partir de los datos proporcionados de entrada que son etiquetados, el algoritmo de regresión calcula la intersección y el coeficiente x en la función lineal. Las aplicaciones de la regresión lineal pueden incluir:
Pronóstico: una de las aplicaciones más importantes de la regresión lineal es el pronóstico. El pronóstico puede ser de diferentes naturalezas. Las empresas utilizan la regresión lineal para pronosticar las ventas o los comportamientos de compra de sus clientes. También se utiliza para predecir el crecimiento económico, las ventas de bienes raíces y los precios de productos básicos como el petróleo. La regresión lineal también se utiliza para estimar el salario óptimo para un nuevo empleado, basándose en los datos históricos de los salarios.
Regresión logística
Se utiliza para determinar la probabilidad de que ocurra un evento. Los datos de entrenamiento tendrán una variable independiente, y el resultado deseado será un valor entre 0 y 1. Una vez que el algoritmo se entrena con la regresión logística, podrá predecir el valor de una variable dependiente (entre 0 y 1) en función del valor de la variable independiente (entrada). La regresión logística utiliza la función sigmoidea clásica en forma de S. En la regresión logística en el contexto de aprendizaje supervisado, un algoritmo calcula los valores del coeficiente beta b0 y b1 a partir de los datos de entrenamiento proporcionados.
probabilidad = e^(b0 + b1 * X)
Las aplicaciones de la regresión logística incluyen:
- Determinación de la probabilidad: Una de las principales aplicaciones de la regresión logística es determinar la probabilidad de un evento. La probabilidad de cualquier evento se encuentra entre 0 y 1, y ese es el resultado de una función logística. Los algoritmos de regresión logística en Machine Learning se pueden utilizar para predecir los resultados de las elecciones, las probabilidades de un desastre natural y otros eventos similares.
- Clasificación: aunque la regresión logística utiliza una función continua, algunas de sus aplicaciones están en la clasificación. Se puede utilizar para la segregación de imágenes y problemas de clasificación relacionados.
Regresión polinomial
La regresión polinomial se utiliza para un conjunto de datos más complejo que no encajaría perfectamente en una regresión lineal. Un algoritmo se entrena con un conjunto de datos complejos y etiquetados que podrían no encajar adecuadamente en una regresión en línea recta. Si dichos datos de entrenamiento se utilizan con regresión lineal, podría causar un ajuste insuficiente, donde el algoritmo no capturará las tendencias verdaderas de los datos. Las regresiones polinomiales permiten una mayor curvatura en la línea de regresión y, por lo tanto, una mejor aproximación de la relación entre la variable dependiente y la independiente.
El sesgo y la desviación son dos términos principales asociados con la regresión polinomial. El sesgo es el error en el modelado que se produce al simplificar la función de ajuste. La desviación también se refiere a un error causado por el uso de una función demasiado compleja para ajustar los datos.
Pasos básicos del aprendizaje supervisado
Para ejecutar y resolver un problema mediante Machine Learning supervisado, se deberá:
- Seleccionar el tipo de datos de entrenamiento: el primer paso en el aprendizaje supervisado es determinar cuál es la naturaleza de los datos que se utilizarán para el entrenamiento. Por ejemplo, en el caso del análisis de escritura a mano, esto podría ser una sola letra, una palabra o una oración.
- Recopilar y limpiar los datos de entrenamiento: en este paso, los datos de entrenamiento se recopilan de varias fuentes y se someten a una limpieza rigurosa de datos.
- Elegir un modelo utilizando un algoritmo de aprendizaje supervisado: según la naturaleza de los datos de entrada y el uso deseado, elija un algoritmo de clasificación o de regresión. Pueden ser árboles de decisión, SVM, Naïve Bayes o bosques aleatorios. La consideración principal al seleccionar un algoritmo es la velocidad de entrenamiento, el uso de la memoria, la precisión de la predicción de nuevos datos y la transparencia/interpretación del algoritmo.
- Entrenar el modelo: la función de ajuste se perfecciona a través de múltiples iteraciones de datos de entrenamiento para mejorar la precisión y la velocidad de predicción.
- Realizar predicciones y evaluar el modelo: una vez que la función de ajuste sea satisfactoria, se podrán proporcionar nuevos conjuntos de datos al algoritmo para realizar nuevas predicciones.
Optimizar y volver a entrenar el modelo: la degradación de datos es una parte natural de Machine Learning. Por lo tanto, los modelos se deberán volver a entrenar periódicamente con datos actualizados para garantizar la precisión.