O que é análise de regressão?
A análise de regressão é um método estatístico que mostra a relação entre duas ou mais variáveis. Normalmente expresso em um gráfico, o método testa a relação entre uma variável dependente e variáveis independentes. Normalmente, as variáveis independentes mudam com as variáveis dependentes e a análise de regressão tenta responder quais fatores são mais importantes para essa mudança.
Sabemos que precisamos tomar decisões baseadas em dados, mas quando há literalmente milhões ou trilhões de pontos de dados, por onde você começa? Felizmente, a inteligência artificial (IA) e o aprendizado de máquina (ML) podem pegar enormes quantidades de dados e analisá-los em questão de horas para torná-los mais digeríveis. Cabe então ao analista examinar a relação mais de perto.
Um exemplo de uma análise de regressão
No mundo real, um cenário em que a análise de regressão é usada pode se parecer com este.
Uma empresa de varejo precisa prever os números de vendas para o próximo mês (ou a variável dependente). É difícil saber, uma vez que existem tantas variáveis em torno desse número (as variáveis independentes) - o clima, o lançamento de um novo modelo, o que seus concorrentes fazem ou o trabalho de manutenção em andamento no pavimento externo.
Muitos podem ter uma opinião, como Bob de contas ou Rachel, que trabalhou na área de vendas por dez anos. Mas a análise de regressão classifica todas as variáveis mensuráveis e pode indicar logicamente quais terão um impacto. A análise informa quais fatores influenciarão as vendas e como as variáveis interagem umas com as outras. Isso ajuda a empresa a tomar melhores decisões baseadas em dados.
Neste exemplo de negócio de varejo, a variável dependente são as vendas e as variáveis independentes são o clima, o comportamento do concorrente, a manutenção da calçada e os lançamentos de novos modelos.
O Uso de Linhas de Regressão na Análise de Regressão
Para iniciar uma análise de regressão, um cientista de dados coletará todos os dados de que precisa sobre as variáveis. Isso provavelmente incluirá números de vendas de um período substancial de antemão e o clima, incluindo níveis de precipitação, para o mesmo período. Em seguida, os dados são processados e apresentados em um gráfico.
Na análise, o eixo Y sempre contém a variável dependente ou o que você está tentando testar. Neste caso, números de vendas. O eixo X representa a variável independente, o número de centímetros de chuva. Olhando para este gráfico fictício simples, você pode ver que as vendas aumentam quando chove, uma correlação positiva. Mas não diz exatamente quanto você pode esperar vender com uma certa quantidade de chuva. É quando você adiciona uma linha de regressão.
Esta é uma linha que mostra o melhor ajuste para os dados e a relação entre a variável dependente e independente. Neste exemplo, você pode ver que a linha de regressão cruza os dados, mostrando visualmente uma previsão do que aconteceria com qualquer quantidade de chuva.
Uma linha de regressão usa uma fórmula para calcular suas previsões. Y = A + BX. Y é a variável dependente (vendas), X a variável independente (precipitação), B é a inclinação da linha e A é o ponto onde Y intercepta a linha.
Na ciência de dados , programas sofisticados executam todos esses cálculos em uma fração de segundo, para produzir previsões baseadas em dados altamente precisas.

Regressões Múltiplas
Embora possa haver apenas uma variável dependente por regressão, pode haver várias variáveis independentes. Isso geralmente é chamado de regressão múltipla.
Isso permite que os estatísticos identifiquem relacionamentos complexos entre as variáveis. Embora os resultados sejam mais complexos, eles podem criar resultados mais realistas do que uma análise de regressão simples de uma variável. No exemplo do varejo, isso mostrará os efeitos do clima, lançamento do produto e publicidade do concorrente nas vendas da loja.
O que são termos de erro?
As análises de regressão não prevêem a causalidade, apenas a relação entre as variáveis. Embora seja tentador dizer que é óbvio que o nível de chuvas afeta os números das vendas, não há prova de que seja esse o caso. Variáveis independentes nunca serão um preditor perfeito de uma variável dependente.
O termo de erro é a figura que mostra a certeza com a qual você pode confiar na fórmula. Quanto maior o termo de erro, menos certeza é a linha de regressão. O termo de erro pode ser 50 por cento, indicando que a variável não é melhor do que o acaso. Ou pode ser 85 por cento, mostrando que há uma probabilidade significativa de a variável independente afetar a variável dependente.
Correlação não é igual a causalidade - pode não ser a chuva que está causando esse aumento nas vendas, pode ser outra variável independente. Embora as variáveis pareçam estar vinculadas, é possível que haja algo completamente diferente, e somente executando análises múltiplas uma empresa será capaz de obter uma compreensão mais clara dos fatores envolvidos. É quase impossível prever uma causa e efeito diretos na análise de regressão.
É por isso que as análises de regressão geralmente incluem várias variáveis, de modo que é mais provável que você encontre a causa real do aumento ou diminuição das vendas. É claro que incluir várias variáveis independentes pode criar um conjunto confuso de resultados; no entanto, bons cientistas de dados e estatísticos podem classificar os dados para obter resultados precisos.
Outra coisa que pode ajudar é o conhecimento do negócio. A loja pode vender mais produtos em dias com chuvas mais intensas, mas se os cientistas de dados conversarem com a equipe de vendas, eles podem descobrir que mais pessoas entram para o café gratuito que é distribuído em dias chuvosos. Se for esse o caso, a causa do aumento das vendas é a chuva ou o café grátis?
Isso significa que a empresa precisa fazer um pouco de pesquisa de mercado. Perguntar aos clientes por que compraram algo em um dia específico. Pode ser que o café os atraiu, a chuva os fez ficar e então viram um produto que pretendiam comprar. Portanto, a causa do aumento das vendas é a chuva, mas é preciso levar em consideração o café de graça também. Um sem o outro não trará no mesmo resultado.
Como uma empresa pode usar a análise de regressão?
Geralmente, a análise de regressão é usada para:
- Experimentar e explicar um fenômeno
- Prever eventos futuros
- Otimizear os processos de fabricação e entrega
- Resolver erros
- Fornecer novas informações
Explicar um fenômeno
Isso pode ser uma tentativa de encontrar uma razão (variável) pela qual as vendas disparam em um determinado dia do mês, por que as ligações para serviço aumentam em um determinado mês ou por que as pessoas devolvem os carros alugados com atraso apenas em determinados dias.
Fazer previsões
Se a análise de regressão mostrou que as pessoas compram mais de um produto após uma determinada promoção, a empresa pode tomar uma decisão precisa sobre qual anúncio exibir ou promoção usar.
As previsões na análise de regressão podem abranger uma ampla variedade de situações e cenários. Por exemplo, prever quantas pessoas verão um outdoor pode ajudar a administração a decidir se um investimento em publicidade é uma boa ideia; Em qual cenário esse outdoor oferece um bom retorno do investimento?
As seguradoras e os bancos usam muito as previsões da análise de regressão. Quantos detentores de hipotecas pagarão seus empréstimos dentro do prazo? Quantos segurados sofrerão um acidente de carro ou terão furtos em suas residências? Essas previsões permitem a avaliação de risco, mas também prevem taxas ótimas e preços premium.
Otimizar processos
Em uma padaria, pode haver uma relação entre a vida útil dos biscoitos e a temperatura do forno durante o cozimento. O resultado da otimização aqui seria a vida útil mais longa, ao mesmo tempo em que retém a qualidade mastigável dos cookies. Um call center pode precisar saber a relação entre o volume de reclamações e os tempos de espera, para que possa treinar sua equipe / contratar mais funcionários para responder às chamadas dentro de um determinado período de tempo para a máxima satisfação do cliente. Obviamente, o volume de chamadas mudará ao longo do dia, equipando ainda mais a administração para tomar decisões informadas e otimizadas sobre os níveis de pessoal.
Resolver erros
Um gerente de loja tem uma ideia brilhante; que o aumento do horário de funcionamento aumentará as vendas. Afinal, explica o gerente, se você fica aberto mais quatro horas por dia, isso significa um aumento correspondente nas vendas. Exceto, manter uma loja aberta por mais tempo nem sempre significa um aumento no lucro. Uma análise de regressão pode ser executada, mostrando que qualquer aumento nas vendas pode não cobrir o custo dessas vendas. Essa análise quantitativa fornece suporte para decisões executivas.
Novas idéias
A maioria das empresas possui grandes volumes de dados, geralmente em um estado caótico. Usando a análise de regressão, esses dados podem produzir informações sobre relações entre variáveis que podem ter passado despercebidas. Se você usar os dados do seu ponto de venda, poderá descobrir horários de maior movimento, picos de demanda ou datas de vendas elevadas não percebidas anteriormente.
Desafios da análise de regressão
Correlação não é igual a causalidade. Você pode mostrar uma relação entre quaisquer duas variáveis, mas isso não prova que uma das variáveis causa a outra. Algumas pessoas pensam, quando veem uma relação positiva em uma análise de regressão, que é um sinal claro de causa e efeito. No entanto, como discutimos antes, a análise de regressão mostra apenas a relação entre as variáveis, não a causa e o efeito. Você deve ter cuidado para não fazer suposições sobre relacionamentos que não existem na vida real.
A variável independente pode ser algo que você não pode controlar. Por exemplo, você sabe que a chuva aumenta o volume de vendas, mas não pode controlar o clima. Essa variável ainda importa? Você pode controlar muitos fatores internos; seu marketing, layout da loja, comportamento da equipe, recursos e promoções. Esperar que chova não é uma boa estratégia de vendas.
GI: GO (entra lixo: sai lixo)
Uma grande parte da função de um cientista de dados é limpar os dados. Isso ocorre porque seus cálculos são tão bons quanto os dados fornecidos. Se a informação de entrada for lixo, o resultado da análise de regressão também será. Embora as estatísticas e a limpeza de dados possam gerenciar e controlar algumas irregularidades ou imperfeições, os dados devem ser precisos para que as previsões resultantes sejam precisas.
Ignorando o termo de erro. Se os resultados indicarem que os dados explicam 60% do resultado, pode haver informações importantes nesses 40% restantes que devem ser examinadas. Você deve se perguntar: Esse cálculo é preciso o suficiente para ser confiável ou existe um fator ou variável maior em jogo aqui? Frequentemente, fazer com que um gerente ou pessoa experiente se envolva com o negócio para analisar o resultado pode ser uma verificação de sanidade. A intuição e o conhecimento do domínio do negócio são importantes, pois garantem que nada seja esquecido ou atribuído de forma falsa.