¿Qué es el análisis de regresión?

El análisis de regresión es un método estadístico que muestra la relación entre dos o más variables. Por lo general, expresado en un gráfico, el método evalúa la relación entre una variable dependiente con las variables independientes. Por lo general, la(s) variable(s) independiente(s) cambian con la(s) variable(s) dependiente(s) y el análisis de regresión intenta responder cuáles son los factores más importantes para ese cambio.

Diagrama de análisis de regresión

Sabemos que necesitamos tomar decisiones basadas en datos, pero cuando hay literalmente millones o billones de puntos de datos, ¿por dónde comenzar? Afortunadamente, la inteligencia artificial (AI) y Machine Learning (ML) pueden tomar enormes cantidades de datos y analizarlos en cuestión de horas para hacerlos más digeribles. Depende entonces del analista examinar la relación más de cerca.

Un ejemplo de análisis de regresión

En el mundo real, un escenario en el que se utiliza el análisis de regresión podría verse así.

Una empresa minorista necesita predecir las cifras de ventas para el próximo mes (o la variable dependiente). Es difícil saberlo, ya que existen muchas variables en torno a ese número (las variables independientes): el clima, el lanzamiento de un nuevo modelo, lo que hacen sus competidores o el trabajo de mantenimiento que se realiza en el pavimento exterior.

Muchos pueden tener una opinión, como Bob de cuentas o Rachel, que ha trabajado en el piso de ventas durante diez años. Pero el análisis de regresión clasifica todas las variables medibles e indicará lógicamente cuál tendrá un impacto. El análisis le dice qué factores influirán en las ventas y cómo interactuarán las variables entre sí, lo cual ayudará a la empresa a tomar mejores decisiones basadas en datos.

En este ejemplo de una empresa minorista, la variable dependiente son las ventas y las variables independientes son el clima, el comportamiento de la competencia, el mantenimiento de las aceras y los lanzamientos de nuevos modelos.

El uso de líneas de regresión en el análisis de regresión

Para iniciar un análisis de regresión, un científico de datos recopilará todos los datos que necesitan sobre las variables. Esto probablemente incluirá las cifras de ventas de un período sustancial de antemano, y el clima, incluidos los niveles de lluvia, para ese mismo período. Luego, los datos se procesarán y se presentarán en un gráfico.

En el análisis, el eje Y siempre contiene la variable dependiente o lo que está intentando evaluar. En este caso, las cifras de ventas. El eje X representa la variable independiente, la cantidad de pulgadas de lluvia. Al mirar este simple gráfico ficticio, podrá ver que las ventas aumentan cuando llueve, una correlación positiva. Pero no le dirá exactamente cuántas ventas puede concretar según la cantidad de lluvia. Aquí es cuando agrega una línea de regresión.

Esta es una línea que muestra el mejor ajuste para los datos y la relación entre la variable dependiente y la independiente. En este ejemplo, podrá ver que la línea de regresión intercepta los datos, mostrando visualmente una predicción de lo que sucedería con cualquier cantidad de lluvia.

Una línea de regresión utiliza una fórmula para calcular sus predicciones. Y = A + BX. Y es la variable dependiente (ventas), X la variable independiente (lluvia), B es la pendiente de la línea y A es el punto donde Y intercepta la línea.

En la ciencia de datos, los programas sofisticados ejecutan todos estos cálculos en una fracción de segundo, para producir predicciones basadas en datos altamente precisos.

/resources/ebook-download/become-data-science-superhero-6-easy-steps
¿Qué superhéroe de DataScience es usted?
Descargue este libro electrónico para aprender las seis aptitudes principales que necesita para diferenciarse como científico de datos.

Regresiones múltiples

Si bien solo puede haber una variable dependiente por regresión, puede haber múltiples variables independientes. Esto generalmente se conoce como regresión múltiple.

Esto permite a los expertos en estadística identificar relaciones complejas entre variables. Si bien los resultados serán más complejos, podrán generar resultados más realistas que un simple análisis de regresión de una variable. En el ejemplo de la empresa minorista, esto demostrará los efectos del clima, el lanzamiento del producto y la publicidad de la competencia en las ventas en la tienda.

¿Qué son los términos de error?

Los análisis de regresión no predicen la causalidad, solo la relación entre variables. Si bien es tentador decir que es obvio que el nivel de lluvia afecta las cifras de ventas, no hay pruebas de que sea así. Las variables independientes nunca serán un predictor perfecto de una variable dependiente.

El término de error es la figura que le muestra la certeza con la que puede confiar en la fórmula. Cuanto mayor sea el término de error, menos segura será la línea de regresión. El término de error puede ser del 50 %, lo que indica que la variable es equiparable a la suerte. O podría ser del 85 %, lo que demuestra que existe una probabilidad significativa de que la variable independiente afecte a la variable dependiente.

La correlación no es igual a la causalidad: puede que no sea la lluvia la que cause ese aumento en las ventas, podría ser otra variable independiente. Si bien las variables parecen estar vinculadas, es posible que haya algo completamente diferente, y solo mediante la ejecución de análisis múltiples una empresa podrá obtener una comprensión más clara de los factores involucrados. Es casi imposible predecir una causa y efecto directos en el análisis de regresión.

Esta es la razón por la que los análisis de regresión generalmente incluyen una serie de variables, por lo que es más probable que encuentre la causa real del aumento o la disminución de las ventas. Por supuesto, incluir múltiples variables independientes puede crear un conjunto desordenado de resultados, sin embargo, los buenos científicos de datos y estadísticos podrán clasificar los datos para obtener resultados precisos.

El otro factor que puede ayudar es el conocimiento del negocio. Es posible que la tienda venda más productos en los días con lluvias más intensas, pero si los científicos de datos hablan con el personal de ventas, es posible que descubran que más personas vienen por el café gratis que se regala en los días de lluvia. Si ese es el caso, ¿la causa del aumento de las ventas es la lluvia o el café gratis?

Esto significa que la empresa necesita hacer un poco de investigación de mercado. Preguntar a sus clientes por qué compraron algo en un día específico. Puede ser que el café los atrajera, la lluvia los hiciera quedarse, y luego vieron un producto que tenían la intención de comprar. Por lo tanto, la causa del aumento de las ventas es la lluvia, pero también debe tener en cuenta el café gratis. Uno sin el otro no dará como resultado el mismo resultado.

¿Cómo puede una empresa utilizar el análisis de regresión?

Generalmente, el análisis de regresión se utiliza para:

  • Intentar explicar un fenómeno
  • Predecir eventos futuros
  • Optimizar los procesos de fabricación y entrega
  • Resolver errores
  • Proporcionar nuevos conocimientos

Explicación del fenómeno

Habría que tratar de encontrar una razón (variable) por la cual las ventas se disparan en un día determinado del mes, por qué las llamadas de servicio aumentaron en un mes determinado o por qué las personas devuelven los autos de alquiler tarde solo en ciertos días.

Hacer predicciones

Si el análisis de regresión demostró que las personas compraron más de un producto después de una determinada promoción, la empresa puede tomar una decisión precisa sobre qué publicidad ejecutar o qué promoción utilizar.

Las predicciones en el análisis de regresión pueden cubrir una amplia variedad de situaciones y escenarios. Por ejemplo, predecir cuántas personas verán una valla publicitaria puede ayudar a la gerencia a decidir si una inversión en publicidad es una buena idea. ¿En qué escenario ofrece esta valla publicitaria un buen retorno de la inversión?

Las compañías de seguros y los bancos utilizan mucho las predicciones del análisis de regresión. ¿Cuántos titulares de hipotecas devolverán sus préstamos a tiempo? ¿Cuántos asegurados tendrán un accidente automovilístico o se producirán robos en sus hogares? Estas predicciones permiten la evaluación de riesgos, pero también predicen tarifas óptimas y precios premium.

Optimizar procesos

En una panadería, podría existir una relación entre la vida útil de las galletas y la temperatura del horno durante la cocción. El resultado de la optimización aquí sería la vida útil más larga, mientras se conserva la calidad de la consistencia de las galletas. Es posible que un centro de llamadas necesite conocer la relación entre los volúmenes de quejas y los tiempos de espera, de modo que puedan capacitar a su personal o contratar más para responder a las llamadas dentro de un cierto período de tiempo para la máxima satisfacción del cliente. Por supuesto, los volúmenes de llamadas cambiarán a lo largo del día, lo que equipará aún más a la administración para tomar decisiones fundamentadas y optimizadas sobre los niveles de personal

Resolución de errores

El gerente de una tienda tiene una idea brillante: ampliar el horario de apertura aumentará las ventas. Después de todo, explica el gerente, si está abierto cuatro horas más al día, eso significará un aumento correspondiente de las ventas. Sin embargo, mantener una tienda abierta por más tiempo no siempre significará un aumento en las ganancias. Se puede ejecutar un análisis de regresión que muestre que cualquier aumento en las ventas podría no cubrir el costo de estas ventas. Dicho análisis cuantitativo brindará apoyo a las decisiones ejecutivas.

Nuevas perspectivas

La mayoría de las empresas tienen grandes volúmenes de datos, con frecuencia en un estado caótico. Mediante el análisis de regresión, estos datos pueden proporcionar información sobre las relaciones entre variables que pueden haber pasado desapercibidas en el pasado. Si utiliza los datos de su punto de venta, es posible que descubra momentos del día ocupados, picos de demanda o fechas de ventas elevadas que antes no había notado.

Desafíos del análisis de regresión

La correlación no es igual a la causalidad. Usted puede demostrar una relación entre dos variables, pero eso no prueba que una de las variables cause la otra. Algunas personas piensan cuando ven una relación positiva en un análisis de regresión que es un signo claro de causa y efecto. Sin embargo, como comentamos antes, el análisis de regresión solo muestra la relación entre las variables, no la causa y el efecto, por lo que deberá tener cuidado de no hacer suposiciones sobre relaciones que no existen en la vida real.

La variable independiente podría ser algo que usted no puede controlar. Por ejemplo, sabe que la lluvia aumenta los volúmenes de ventas, pero no puede controlar el clima. ¿Realmente importa esa variable? Igualmente podrá controlar muchos factores internos; su marketing, distribución de la tienda, comportamiento del personal, características y promociones. Esperar a que llueva no es una buena estrategia de ventas.

Lo que entra es lo que sale

Una gran parte de la función de un científico de datos es la limpieza de datos. Esto se debe a que sus cálculos son tan buenos como los datos proporcionados. Si la información de entrada es inútil, el resultado del análisis de regresión también lo será. Si bien las estadísticas y la limpieza de datos pueden contribuir a administrar y controlar algunas irregularidades o imperfecciones, los datos deberán ser precisos para que las predicciones resultantes sean precisas.

Ignorando el término de error. Si los resultados dicen que los datos explican el 60 % del resultado, podría haber información importante en ese 40 % restante que deberá examinarse. Deberá preguntarse: ¿Es este cálculo lo suficientemente preciso como para confiar, o existe un factor o variable más importante en juego aquí? Con frecuencia, conseguir que un gerente experimentado o una persona involucrada con el negocio observe el resultado puede ser una prueba de cordura. La intuición y el conocimiento del dominio empresarial son importantes, ya que garantizarán que no se pierda nada ni se atribuya falsamente.