O que é regressão logística?
A regressão logística é um modelo estatístico usado para determinar a probabilidade de um evento acontecer. Ele mostra a relação entre os recursos e, em seguida, calcula a probabilidade de um determinado resultado.
A regressão logística é usada no aprendizado de máquina (ML) para ajudar a criar previsões precisas. É semelhante à regressão linear, exceto que, em vez de um resultado gráfico, a variável de destino é binária; o valor é 1 ou 0.
Existem dois tipos de mensuráveis, as variáveis / características explicativas (item sendo medido) e a variável de resposta / variável binária alvo, que é o resultado.
Por exemplo, ao tentar prever se um aluno será aprovado ou reprovado em um teste, as horas estudadas são o recurso, e a variável de resposta terá dois valores - aprovado ou reprovado.
Existem três tipos básicos de regressão logística:
- Regressão logística binária: aqui, há apenas dois resultados possíveis para a resposta categórica. Como no exemplo acima - um aluno é aprovado ou reprovado.
- Regressão logística multinomial: é onde as variáveis de resposta podem incluir três ou mais variáveis, que não estarão em nenhuma ordem. Um exemplo é prever se os clientes de um restaurante preferem um certo tipo de comida - vegetariana, carne ou vegana.
- Regressão logística ordinal: Como a regressão multinomial, pode haver três ou mais variáveis. No entanto, há uma ordem que as medições seguem. Um exemplo é classificar um hotel em uma escala de 1 a 5.
Premissas usadas para regressão logística
Ao trabalhar com regressão logística, certas suposições são feitas.
- Na regressão logística binária, é necessário que a variável resposta seja binária. O resultado é uma coisa ou outra.
- O resultado desejado deve ser representado pelo fator nível 1 da variável resposta, o indesejado é 0.
- Apenas as variáveis que são significativas devem ser incluídas.
- Variáveis independentes devem ser essencialmente independentes umas das outras. Deve haver pouca ou nenhuma multi-colinearidade.
- As probabilidades de log e as variáveis independentes devem estar linearmente relacionadas.
- A regressão logística deve ser aplicada apenas a tamanhos de amostra massivos.

Aplicações de Regressão Logística
Existem vários campos e maneiras em que a regressão logística pode ser usada e isso inclui quase todos os campos das ciências médicas e sociais.
Saúde
Por exemplo, o Trauma and Injury Severity Score (TRISS) é usado no mundo todo para prever fatalidade em pacientes feridos. Este modelo foi desenvolvido com a aplicação de regressão logística. Ele usa variáveis como a pontuação revisada do trauma, a pontuação da gravidade da lesão e a idade do paciente para prever os resultados de saúde. É uma técnica que pode até ser usada para prever a possibilidade de uma pessoa apresentar determinada doença. Por exemplo, doenças como diabetes e doenças cardíacas podem ser previstas com base em variáveis como idade, sexo, peso e fatores genéticos.
Política
A regressão logística também pode ser usada para tentar prever eleições. Um líder democrata, republicano ou independente chegará ao poder nos EUA? Essas previsões são feitas com base em variáveis como idade, sexo, local de residência, posição social e padrões de votação anteriores (variáveis) para produzir uma previsão de voto (variável de resposta).
Teste de produto
A regressão logística pode ser usada em engenharia para prever o sucesso ou falha de um sistema que está sendo testado ou de um protótipo de produto.
Marketing
LR pode ser usado para prever as chances de uma consulta do cliente se transformar em uma venda, a possibilidade de uma assinatura ser iniciada ou encerrada ou até mesmo o interesse potencial do cliente em uma nova linha de produtos.
Setor financeiro
Um exemplo de uso no setor financeiro é em uma empresa de cartão de crédito que o utiliza para prever a probabilidade de um cliente não pagar seus pagamentos. O modelo construído pode ser para a emissão de um cartão de crédito para um cliente ou não. O modelo pode dizer se um determinado cliente “ficará inadimplente” ou “não ficará inadimplente”. Isso é conhecido como “modelagem de propensão de padrão” em termos bancários.
Comércio eletrônico
Na mesma linha, as empresas de comércio eletrônico investem pesadamente em campanhas publicitárias e promocionais em toda a mídia. Eles querem ver qual campanha é a mais eficaz e a opção com maior probabilidade de obter uma resposta de seu público-alvo potencial. O conjunto de modelos categorizará o cliente como “respondente” ou “não respondente”. Este modelo é chamado de modelagem de propensão para resposta.
Com informações que vêm de resultados de regressão logística, as empresas são capazes de otimizar suas estratégias e atingir as metas de negócios com redução de despesas e perdas. As regressões logísticas ajudam a maximizar o retorno sobre o investimento (ROI) em campanhas de marketing, um benefício para os resultados financeiros de uma empresa no longo prazo.
Vantagens e desvantagens da regressão logística
Vantagens
A Regressão Logística é amplamente utilizada por ser extremamente eficiente e não necessitar de grandes quantidades de recursos computacionais. Pode ser interpretada facilmente e não precisa de escala de recursos de entrada. É simples de regularizar e as saídas que fornece são probabilidades previstas bem calibradas.
Assim como na regressão linear, a regressão logística tende a funcionar com mais eficiência quando os atributos não relacionados à variável de saída e aqueles que estão correlacionados são omitidos. A engenharia de recursos, portanto, tem um papel importante a desempenhar na eficácia do desempenho da regressão logística e linear.
A regressão logística também é facilmente implementada e simples de treinar, o que a torna uma ótima linha de base para ajudar a medir o desempenho de outros algoritmos complexos.
Desvantagens
Infelizmente a regressão logística não pode ser usada para resolver problemas não lineares e muitos dos sistemas atuais são não lineares. Além disso, a regressão logística não é o algoritmo mais poderoso disponível. Existem várias alternativas que podem criar previsões muito melhores e mais complexas.
A regressão logística também depende muito da apresentação de dados. Isso significa que, a menos que você tenha identificado todas as variáveis independentes necessárias, o resultado não tem valor. Com um resultado que é discreto, a regressão logística só pode ser usada para prever um resultado categórico. E, finalmente, é um algoritmo com um histórico conhecido de vulnerabilidade ao sobreajuste.