Qu'est-ce que l'analyse de régression ?

L'analyse de régression est une méthode statistique qui montre la relation entre deux ou plusieurs variables. Généralement exprimée sous forme de graphique, cette méthode teste la relation entre une variable dépendante et des variables indépendantes. En général, la ou les variables indépendantes changent en fonction de la ou des variables dépendantes et l'analyse de régression tente de déterminer les facteurs les plus importants pour ce changement.

Diagramme d'analyse de régression

Nous savons que nous devons prendre des décisions fondées sur des données, mais lorsqu'il y a littéralement des millions, voire des trillions de points de données, par où commencer ? Heureusement, l'intelligence artificielle (IA) et le machine learning (ML) peuvent prendre d'énormes quantités de données et les analyser en quelques heures pour les rendre plus digestes. C'est ensuite à l'analyste d'examiner la relation de plus près.

Un exemple d'analyse de régression

Voici un exemple d'analyse de régression potentiel dans le monde réel.

Un commerce de détail doit prévoir les chiffres de vente pour le mois suivant (ou la variable dépendante). Il est difficile de le savoir, car de nombreuses variables entourent ce chiffre (les variables indépendantes) : la météo, la sortie d'un nouveau modèle, ce que font vos concurrents ou les travaux d'entretien de la chaussée à l'extérieur.

Beaucoup peuvent avoir une opinion, comme Bob de la comptabilité ou Rachel qui travaille depuis dix ans dans la salle des ventes. Mais l'analyse de régression trie toutes les variables mesurables et peut logiquement indiquer celles qui auront un impact. L'analyse vous indique quels facteurs vont influencer les ventes et comment les variables interagissent entre elles. Cela aide l'entreprise à prendre de meilleures décisions, fondées sur des données.

Dans cet exemple de commerce de détail, la variable dépendante sont les ventes, et les variables indépendantes sont la météo, le comportement des concurrents, l'entretien des trottoirs et la sortie de nouveaux modèles.

L'utilisation des lignes de régression dans l'analyse de régression

Pour commencer une analyse de régression, un data scientist va collecter toutes les données dont il a besoin sur les variables. Il s'agira probablement des chiffres de vente d'une longue période dans le passé, et de la météo, y compris les niveaux de précipitations, pour cette même période. Ensuite, les données sont traitées et présentées dans un graphique.

Dans l'analyse, l'axe des Y contient toujours la variable dépendante, ou ce que vous essayez de tester. Dans ce cas, le chiffre de vente. L'axe des X représente la variable indépendante, le nombre de centimètres de pluie. En regardant ce simple graphique fictif, vous pouvez voir que les ventes augmentent lorsqu'il pleut, une corrélation positive. Mais cela ne vous dit pas exactement combien vous pouvez espérer vendre avec une certaine quantité de pluie. C'est à ce moment-là que vous ajoutez une ligne de régression.

Il s'agit d'une ligne qui montre la meilleure adaptation aux données et la relation entre la variable dépendante et la variable indépendante. Dans cet exemple, vous pouvez voir que la ligne de régression coupe les données, montrant visuellement une prédiction de ce qui se passerait avec n'importe quelle quantité de pluie.

Une ligne de régression utilise une formule pour calculer ses prédictions. Y = A + BX. Y est la variable dépendante (les ventes), X la variable indépendante (les précipitations), B est la pente de la ligne et A est le point où Y intercepte la ligne.

Dans le cadre de la data science, des programmes sophistiqués effectuent tous ces calculs en une fraction de seconde, afin de produire des prédictions très précises, fondées sur des données.

/ressources/ebook-download/become-data-science-superhero-6-easy-steps
Quel super-héros de la Data Science êtes-vous ?
Téléchargez cet e-book pour connaître les six compétences principales dont vous avez besoin pour vous démarquer en tant que data scientist.

Régressions multiples

Alors qu'il ne peut y avoir qu'une seule variable dépendante par régression, il peut y avoir plusieurs variables indépendantes. C'est ce qu'on appelle généralement une régression multiple.

Cela permet aux statisticiens d'identifier des relations complexes entre les variables. Bien que les résultats soient plus complexes, ils peuvent donner des résultats plus réalistes qu'une simple analyse de régression à variable unique. Dans l'exemple de la vente au détail, cela permettra de montrer les effets de la météo, de la sortie d'un produit et de la publicité de la concurrence sur les ventes du magasin.

Que sont les termes d'erreur ?

Les analyses de régression ne prédisent pas la causalité, mais seulement la relation entre les variables. S'il est tentant de dire qu'il est évident que le niveau des précipitations affecte les chiffres de vente, rien ne prouve que ce soit le cas. Les variables indépendantes ne seront jamais un prédicteur parfait d'une variable dépendante.

Le terme d'erreur est le chiffre qui vous indique la certitude avec laquelle vous pouvez faire confiance à la formule. Plus le terme d'erreur est grand, moins la ligne de régression est sûre. Le terme d'erreur peut être de 50 %, indiquant que la variable n'est pas meilleure que la chance. Il peut aussi être de 85 %, ce qui montre qu'il y a une forte probabilité que la variable indépendante affecte la variable dépendante.

Corrélation n'est pas synonyme de causalité : ce n'est peut-être pas la pluie qui est à l'origine de l'augmentation des ventes, mais une autre variable indépendante. Si les variables semblent liées, il est possible qu'il s'agisse de quelque chose complètement différent, et ce n'est qu'en effectuant une analyse multiple qu'une entreprise pourra mieux comprendre les facteurs impliqués. Il est presque impossible de prédire une relation directe de cause à effet dans une analyse de régression.

C'est pourquoi les analyses de régression comprennent généralement un certain nombre de variables, afin d'avoir plus de chances de trouver la cause réelle de l'augmentation ou de la diminution des ventes. Bien sûr, l'inclusion de plusieurs variables indépendantes peut créer un ensemble désordonné de résultats, mais les bons data scientists et statisticiens peuvent trier les données pour obtenir des résultats précis.

L'autre élément qui peut aider est la connaissance de l'entreprise. Le magasin peut vendre plus de produits les jours de fortes pluies, mais si les data scientists parlent au personnel de vente, ils peuvent découvrir que plus de gens viennent pour le café gratuit offert les jours de pluie. Si c'est le cas, la cause de l'augmentation des ventes est-elle la pluie ou le café gratuit ?

Cela signifie que l'entreprise doit faire une petite étude de marché. Demander à ses clients pourquoi ils ont acheté quelque chose un jour donné. Il se peut que le café les ait attirés, que la pluie les ait fait rester, puis qu'ils aient vu un produit qu'ils avaient l'intention d'acheter. Par conséquent, la cause de l'augmentation des ventes est la pluie, mais vous devez également tenir compte du café gratuit. L'un sans l'autre n'aboutira pas au même résultat.

Comment une entreprise peut-elle utiliser l'analyse de régression ?

En général, l'analyse de régression est utilisée pour :

  • Essayer d'expliquer un phénomène
  • Prédire les événements futurs
  • Optimiser les processus de fabrication et de livraison
  • Résoudre les erreurs
  • Fournir de nouvelles informations

Explication du phénomène

Il peut s'agir d'essayer de trouver une raison (variable) pour laquelle les ventes explosent un certain jour du mois, pourquoi les appels de service ont augmenté au cours d'un certain mois, ou pourquoi les gens rendent les voitures de location en retard certains jours seulement.

Faites des prédictions

Si l'analyse de régression montre que les gens achètent davantage d'un produit après une certaine promotion, l'entreprise peut prendre une décision précise sur la publicité ou la promotion à utiliser.

Les prédictions de l'analyse de régression peuvent couvrir une grande variété de situations et de scénarios. Par exemple, prédire combien de personnes verront un panneau publicitaire peut aider la direction à décider si un investissement dans la publicité à cet endroit est une bonne idée ; dans quel scénario ce panneau publicitaire offre-t-il un bon retour sur investissement ?

Les compagnies d'assurance et les banques utilisent beaucoup les prédictions de l'analyse de régression. Combien d'emprunteurs hypothécaires rembourseront leur prêt à temps ? Combien d'assurés auront un accident de voiture ou seront victimes d'un vol à leur domicile ? Ces prédictions permettent d'évaluer les risques, mais aussi de prévoir le prix optimal des frais et des primes d'assurance.

Optimiser les processus

Dans une boulangerie, il pourrait y avoir une relation entre la durée de conservation des biscuits et la température du four lors de la cuisson. Le résultat de l'optimisation serait la durée de conservation la plus longue, tout en conservant la qualité moelleuse des biscuits. Un centre d'appels peut avoir besoin de connaître la relation entre les volumes de réclamations et les temps d'attente afin de former son personnel ou d'embaucher plus de personnel pour répondre aux appels dans un certain délai, pour offrir une satisfaction maximale au client. Bien entendu, les volumes d'appels varient tout au long de la journée, ce qui permet à la direction de prendre des décisions éclairées et optimisées concernant le nombre d'employés.

Résoudre les erreurs

Le directeur d'un magasin a une idée lumineuse : l'extension des heures d'ouverture permettra d'augmenter les ventes. Après tout, explique le directeur, si vous êtes ouvert quatre heures de plus par jour, cela signifie une augmentation correspondante des ventes. Sauf que le fait de garder un magasin ouvert plus longtemps ne signifie pas toujours une augmentation des bénéfices. Une analyse de régression peut être effectuée, qui montre que toute augmentation des ventes pourrait ne pas couvrir le coût de ces ventes. Une telle analyse quantitative permet d'étayer les décisions de la direction.

Nouvelles perspectives

La plupart des entreprises disposent de grands volumes de données, souvent dans un état chaotique. En utilisant l'analyse de régression, ces données peuvent fournir des informations sur les relations entre les variables qui auraient pu passer inaperçues dans le passé. Si vous utilisez les données de votre point de vente, vous découvrirez peut-être des moments de la journée où il y a beaucoup de monde, des pics de demande ou des dates de vente élevées qui n'avaient pas été remarquées auparavant.

Les défis de l'analyse de régression

Corrélation n'est pas synonyme de causalité. Vous pouvez montrer une relation entre deux variables quelconques, mais cela ne prouve pas que l'une des variables cause l'autre. Certaines personnes pensent que lorsqu'elles voient une relation positive dans une analyse de régression, c'est un signe évident de cause à effet. Cependant, comme nous l'avons vu précédemment, l'analyse de régression ne montre que la relation entre les variables, et non la cause et l'effet. Vous devez veiller à ne pas faire d'hypothèses sur des relations qui n'existent pas dans la vie réelle.

La variable indépendante peut être quelque chose que vous ne pouvez pas contrôler. Par exemple, vous savez que la pluie augmente le volume des ventes, mais vous ne pouvez pas contrôler la météo. Cette variable est-elle vraiment importante ? Vous pouvez contrôler un grand nombre de facteurs internes : votre marketing, l'agencement du magasin, le comportement du personnel, les caractéristiques et les promotions. Attendre qu'il pleuve n'est pas une bonne stratégie de vente.

GI:GO (Garbage in : garbage out)

Une grande partie du rôle d'un data scientist consiste à nettoyer les données. En effet, la qualité de vos calculs dépend de celle des données fournies. Si les informations d'entrée ne sont pas fiables, le résultat de l'analyse de régression sera de mème. Si les statistiques et le nettoyage des données permettent de gérer et de contrôler certaines irrégularités ou imperfections, les données doivent être exactes pour que les prédictions qui en résultent le soient également.

Ignorer le terme d'erreur. Si les résultats indiquent que les données expliquent 60 % du résultat, il se peut que les 40 % restants contiennent des informations importantes qu'il faut examiner. Vous devez vous demander : ce calcul est-il suffisamment précis pour que l'on s'y fie, ou y a-t-il un facteur ou une variable plus importante en jeu ? Souvent, le fait de demander à un cadre expérimenté ou à une personne impliquée dans l'entreprise d'examiner le résultat peut être un moyen de vérifier la justesse du calcul. L'intuition et la connaissance du domaine d'activité sont importantes, car elles permettent de s'assurer que rien n'a été oublié ou attribué à tort.