Qu'est-ce que la régression logistique ?

La régression logistique est un modèle statistique qui sert à déterminer la probabilité qu'un événement se produise. Elle montre la relation entre les caractéristiques, puis calcule la probabilité d'un certain résultat.

Diagramme de régression logistique

La régression logistique est utilisée dans le machine learning (ML) pour aider à créer des prédictions précises. Elle est similaire à la régression linéaire, sauf qu'au lieu d'un résultat graphique, la variable cible est binaire, la valeur étant soit 1, soit 0.

Il existe deux types de mesurables, les variables ou caractéristiques explicatives (l'élément mesuré) et la variable de réponse ou variable binaire cible, qui est le résultat.

Par exemple, lorsqu'on essaie de prédire si un étudiant va réussir ou échouer à un test, les heures étudiées sont la caractéristique, et la variable de réponse aura deux valeurs : réussite ou échec.

Il existe trois types fondamentaux de régression logistique :

  1. La régression logistique binaire : ici, il n'y a que deux résultats possibles pour la réponse catégorielle. Comme dans l'exemple ci-dessus, un étudiant réussit ou échoue.
  2. La régression logistique multinomiale : dans ce cas, les variables de réponse peuvent inclure trois variables ou plus, qui ne seront pas dans un ordre quelconque. Par exemple, on peut prédire si les patrons d'un restaurant préfèrent un certain type de nourriture : végétarienne, omnivore ou végétalienne.
  3. La régression logistique ordinale : comme la régression multinomiale, il peut y avoir trois variables ou plus. Cependant, il existe un ordre que les mesures doivent suivre. Par exemple, la notation d'un hôtel sur une échelle de 1 à 5.

Hypothèses utilisées pour la régression logistique

Lorsque l'on travaille avec la régression logistique, certaines hypothèses sont formulées.

  • Dans la régression logistique binaire, il faut que la variable de réponse soit binaire. Le résultat est soit une chose, soit une autre.
  • Le résultat souhaité doit être représenté par le niveau de facteur 1 de la variable de réponse, le non souhaité étant 0.
  • Seules les variables significatives doivent être incluses.
  • Les variables indépendantes doivent être essentiellement indépendantes les unes des autres. Il doit y avoir peu ou pas de multicolinéarité.
  • Les probabilités logarithmiques et les variables indépendantes doivent être liées linéairement.
  • La régression logistique ne doit être appliquée qu'à des échantillons de taille massive.
Quel super-héros de la Data Science êtes-vous ?
Quel super-héros de la Data Science êtes-vous ?
Téléchargez cet e-book pour connaître les six compétences principales dont vous avez besoin pour vous démarquer en tant que data scientist.

Applications de la régression logistique

La régression logistique peut être utilisée dans plusieurs domaines et de plusieurs manières, notamment dans presque tous les domaines des sciences médicales et sociales.

Santé

Par exemple, le Trauma and Injury Severity Score (TRISS). Il est utilisé dans le monde entier pour prédire le taux de mortalité chez les patients blessés. Ce modèle a été développé avec l'application de régression logistique. Il utilise des variables telles que le score révisé de traumatisme, le score de gravité des blessures et l'âge du patient pour prédire les résultats de santé. Il s'agit d'une technique qui peut même être utilisée pour prédire la possibilité qu'une personne soit atteinte d'une certaine maladie. Par exemple, des maladies comme le diabète et les maladies cardiaques peuvent être prédites à partir de variables telles que l'âge, le sexe, le poids et les facteurs génétiques.

Politique

La régression logistique peut également être utilisée pour tenter de prédire les élections. Aux États-Unis, un leader démocrate, républicain ou indépendant arrivera-t-il au pouvoir ? Ces prédictions sont faites sur la base de variables telles que l'âge, le sexe, le lieu de résidence, le statut social et les habitudes de vote antérieures (variables) pour produire une prédiction de vote (variable de réponse).

Test des produits

La régression logistique peut être utilisée en ingénierie pour prédire le succès ou l'échec d'un système en cours de test ou d'un prototype de produit.

Marketing

La régression logistique peut être utilisée pour prévoir les chances qu'une demande de renseignements d'un client se transforme en vente, la possibilité de commencer ou de terminer un abonnement, ou même l'intérêt potentiel d'un client pour une nouvelle ligne de produits.

Secteur financier

Un exemple d'utilisation dans le secteur financier est celui d'une société de cartes de crédit qui l'utilise pour prédire la probabilité qu'un client ne respecte pas ses paiements. Le modèle construit pourrait servir à l'émission d'une carte de crédit à un client ou non. Le modèle peut dire si un certain client sera « en défaut » ou « ne sera pas en défaut » de paiement. C'est ce qu'on appelle la « modélisation de la propension au défaut » en termes bancaires.

E-commerce

Dans le même ordre d'idées, les entreprises de commerce électronique investissent massivement dans des campagnes de publicité et de promotion à travers les médias. Elles veulent savoir quelle campagne est la plus efficace et l'option la plus susceptible d'obtenir une réponse de leur public cible potentiel. Le modèle défini classera le client en tant que « répondeur » ou « non-répondeur ». Ce modèle est appelé modélisation de la propension à répondre.

Grâce aux informations fournies par les résultats des régressions logistiques, les entreprises peuvent optimiser leurs stratégies et atteindre leurs objectifs commerciaux en réduisant leurs dépenses et leurs pertes. Les régressions logistiques aident à maximiser le retour sur investissement (ROI) dans les campagnes de marketing, ce qui est avantageux pour les résultats de l'entreprise à long terme.

Avantages et inconvénients de la régression logistique

Avantages

La régression logistique est largement utilisée car elle est extrêmement efficace et ne requiert pas d'énormes quantités de ressources informatiques. Elle peut être interprétée facilement et ne nécessite pas de mise à l'échelle des caractéristiques d'entrée. Elle est simple à régulariser et les résultats qu'elle fournit sont des probabilités prédites bien calibrées.

Tout comme dans la régression linéaire, la régression logistique a tendance à fonctionner plus efficacement lorsque les attributs non liés à la variable de sortie et ceux qui sont corrélés, sont omis. L'ingénierie des caractéristiques joue un rôle important dans l'efficacité des performances de la régression logistique et linéaire.

La régression logistique est également simple pour former les utilisateurs et facile à mettre en œuvre, ce qui en fait une excellente référence pour aider à mesurer les performances d'autres algorithmes complexes.

Inconvénients

La régression logistique ne peut pas être utilisée pour résoudre des problèmes non linéaires et, malheureusement, de nombreux systèmes actuels sont non linéaires. De plus, la régression logistique n'est pas l'algorithme le plus puissant disponible. Il existe plusieurs alternatives qui peuvent créer des prédictions bien meilleures et plus complexes.

La régression logistique repose également fortement sur la présentation des données. Cela signifie que si vous n'avez pas identifié toutes les variables indépendantes nécessaires, le résultat n'a aucune valeur. Avec un résultat qui est discret, la régression logistique ne peut être utilisée que pour prédire un résultat catégorique. Enfin, il s'agit d'un algorithme dont la vulnérabilité à l'ajustement excessif est connue.