¿Qué es la regresión logística?

La regresión logística es un modelo estadístico que se utiliza para determinar la probabilidad de que ocurra un evento. Muestra la relación entre características y luego calcula la probabilidad de un resultado determinado.

Diagrama de regresión logística

La regresión logística se utiliza en Machine Learning (ML) para ayudar a crear predicciones precisas. Es similar a la regresión lineal, excepto que en lugar de un resultado gráfico, la variable objetivo es binaria; el valor es 1 o 0.

Existen dos tipos de variables medibles, las variables o características explicativas (elemento que se mide) y la variable de respuesta o variable binaria objetivo, que corresponde al resultado.

Por ejemplo, al intentar predecir si un estudiante aprobará o reprobará una prueba, las horas estudiadas son la característica y la variable de respuesta tendrá dos valores: aprobado o reprobado.

Existen tres tipos básicos de regresión logística:

  1. Regresión logística binaria: aquí solo existen dos resultados posibles para la respuesta categórica. Como en el ejemplo anterior, un estudiante aprueba o reprueba.
  2. Regresión logística multinomial: aquí es donde las variables de respuesta pueden incluir tres o más variables, que no estarán en ningún orden. Un ejemplo es predecir si los comensales de un restaurante prefieren cierto tipo de comida: vegetariana, de carne o vegana.
  3. Regresión logística ordinal: al igual que la regresión multinomial, puede haber tres o más variables. Sin embargo, existe un orden en el que siguen las medidas. Un ejemplo es calificar un hotel en una escala del 1 al 5.

Supuestos utilizados para la regresión logística

Cuando se trabaja con regresión logística, se hacen ciertas suposiciones.

  • En la regresión logística binaria, es necesario que la variable de respuesta sea binaria. El resultado es una cosa u otra.
  • El resultado deseado debe estar representado por el nivel de factor 1 de la variable de respuesta, el no deseado es 0.
  • Solo deberán incluirse las variables que sean significativas.
  • Las variables independientes tienen que ser esencialmente independientes entre sí. Deberá haber poca o ninguna multicolinealidad.
  • Las funciones logit y las variables independientes deben estar relacionadas linealmente.
  • La regresión logística debe aplicarse solo a tamaños de muestra masivos.
¿Qué superhéroe de DataScience es usted?
¿Qué superhéroe de DataScience es usted?
Descargue este libro electrónico para aprender las seis aptitudes principales que necesita para diferenciarse como científico de datos.

Aplicaciones de la regresión logística

Existen varios campos y formas en que se puede utilizar la regresión logística y estos incluyen casi todos los campos de las ciencias médicas y sociales.

Sector sanitario

Por ejemplo, el puntaje de gravedad de traumatismos y lesiones (TRISS), se utiliza en todo el mundo para predecir la muerte de pacientes lesionados. Este modelo ha sido desarrollado con la aplicación de regresión logística. Utiliza variables como Revised Trauma Score, el puntaje de gravedad de la lesión y la edad del paciente para predecir los resultados de salud. Es una técnica que incluso se puede utilizar para predecir la posibilidad de que una persona se vea afectada por una determinada enfermedad. Por ejemplo, las dolencias como la diabetes y las enfermedades cardíacas se pueden predecir en función de variables como la edad, el sexo, el peso y los factores genéticos.

Política

La regresión logística también se puede utilizar para intentar predecir las elecciones. ¿Llegará al poder un líder demócrata, republicano o independiente en Estados Unidos? Estas predicciones se realizan sobre la base de variables como la edad, el sexo, el lugar de residencia, la posición social y los patrones de votación previos (variables) para producir una predicción de voto (variable de respuesta).

Evaluación de productos

La regresión logística se puede utilizar en ingeniería para predecir el éxito o el fracaso de un sistema que se está evaluando o un producto prototipo.

Marketing

LR se puede utilizar para predecir las posibilidades de que la consulta de un cliente se convierta en una venta, la posibilidad de que se inicie o cancele una suscripción o incluso el interés potencial del cliente en una nueva línea de productos.

Sector financiero

Un ejemplo de uso en el sector financiero es una compañía de tarjetas de crédito que lo utiliza para predecir la probabilidad de que un cliente no cumpla con sus pagos. Se puede crear un modelo para decidir si se le emite una tarjeta de crédito a un cliente o no. El modelo establecerá si un determinado cliente "cumplirá" o "no cumplirá". Esto se conoce, en términos bancarios, como el "modelado de propensión predeterminada".

Comercio electrónico

En la misma línea, las empresas de comercio electrónico invierten mucho en campañas publicitarias y promocionales en los medios, desean saber qué campaña es la más efectiva y la opción con más probabilidades de obtener una respuesta de su público objetivo potencial. El conjunto de modelos categorizará al cliente como "respondedor" o "no respondedor". Este modelo se denomina modelado de propensión a responder.

Con los conocimientos que provienen de los resultados de la regresión logística, las empresas pueden optimizar sus estrategias y lograr los objetivos comerciales con reducción de gastos y pérdidas. Las regresiones logísticas ayudan a maximizar el retorno de la inversión (ROI) en las campañas de marketing, un beneficio para el resultado final de una empresa a largo plazo.

Ventajas y desventajas de la regresión logística

Ventajas

La regresión logística se usa ampliamente porque es extremadamente eficiente y no necesita grandes cantidades de recursos computacionales. Se puede interpretar fácilmente y no necesita escalar las características de entrada. Es fácil de regularizar y los resultados que proporciona son probabilidades pronosticadas adecuadamente calibradas.

Al igual que en la regresión lineal, la regresión logística tiende a funcionar de manera más eficiente cuando se omiten los atributos que no están relacionados con la variable de salida. Por lo tanto, la ingeniería de características tiene un papel importante que desempeñar en la eficacia del desempeño de la regresión logística y lineal.

La regresión logística también se implementa fácilmente y es fácil de entrenar, y eso es lo que la convierte en una excelente línea de base para ayudar a medir el rendimiento de otros algoritmos complejos.

Inconvenientes

La regresión logística no se puede utilizar para resolver problemas no lineales y, lamentablemente, muchos de los sistemas actuales no son lineales. Además, la regresión logística no es el algoritmo más eficaz en la actualidad. Existen varias alternativas que pueden crear predicciones mucho mejores y más complejas.

La regresión logística también se basa en gran medida en la presentación de datos. Esto significa que, a menos que usted haya identificado todas las variables independientes necesarias, la salida no tendrá valor. Con un resultado que es discreto, la regresión logística solo se podrá utilizar para predecir un resultado categórico. Y finalmente, es un algoritmo conocido por su tendencia a sobreajustar.