Qu'est-ce que l'analyse de la variance (ANOVA) ?
Analyse de la variance (ANOVA) est une formule statistique utilisée pour comparer les variances entre la ou les moyennes de différents groupes. Elle est utilisée dans de nombreux scénarios pour déterminer s'il existe une différence entre les moyennes de différents groupes.
Par exemple, pour étudier l'efficacité de différents médicaments contre le diabète, les scientifiques conçoivent une expérience afin d'explorer la relation entre le type de médicament et le taux de glycémie qui en résulte. La population de l'échantillon est un ensemble de personnes. Nous divisons la population de l'échantillon en plusieurs groupes, et chaque groupe reçoit un médicament particulier pendant une période d'essai. À la fin de la période d'essai, les taux de glycémie de chacun des participants individuels sont mesurés. Ensuite, pour chaque groupe, on calcule le taux de glycémie moyen. ANOVA permet de comparer ces moyennes de groupe pour savoir si elles sont statistiquement différentes ou si elles sont similaires.
Le résultat d'ANOVA est la « statistique F ». Ce ratio montre la différence entre la variance à l'intérieur du groupe et la variance entre les groupes, ce qui produit finalement un chiffre qui permet de conclure que l'hypothèse nulle est soutenue ou rejetée. S'il existe une différence significative entre les groupes, l'hypothèse nulle n'est pas soutenue, et le ratio F sera plus grand.

Terminologie utilisée par ANOVA
Variable dépendante : c'est l'élément qui est mesuré car on pense qu'il est affecté par les variables indépendantes.
Variable(s) indépendante(s) : ce sont le ou les éléments mesurés qui peuvent avoir un effet sur la variable dépendante.
Une hypothèse nulle (H0) : elle se produit lorsqu'il n'y a pas de différence entre les groupes ou les moyennes. En fonction du résultat du test ANOVA, l'hypothèse nulle sera soit acceptée, soit rejetée.
Une hypothèse alternative (H1) : lorsqu'une théorie veut qu'il existe une différence entre les groupes et les moyennes.
Facteurs et niveaux : dans la terminologie d'ANOVA, une variable indépendante est appelée un facteur qui affecte la variable dépendante. Le niveau désigne les différentes valeurs de la variable indépendante qui est utilisée dans une expérience.
Modèle à facteur fixe : certaines expériences n'utilisent qu'un ensemble discret de niveaux pour les facteurs. Par exemple, une expérience à facteur fixe consisterait à tester trois dosages différents d'un médicament et à ne pas examiner les autres dosages.
Modèle à facteur aléatoire : ce modèle tire une valeur aléatoire du niveau parmi toutes les valeurs possibles de la variable indépendante.
Quelle est la différence entre ANOVA à un facteur et ANOVA à deux facteurs ?
Il existe deux types d'ANOVA.
ANOVA unidirectionnelle
L'analyse de variance unidirectionnelle est également connue sous le nom d'ANOVA à un seul facteur ou ANOVA simple. Comme son nom l'indique, ANOVA unidirectionnelle convient aux expériences comportant une seule variable indépendante (facteur) à deux niveaux ou plus. Par exemple, une variable dépendante peut être le mois de l'année où il y a le plus de fleurs dans le jardin. Il y aura douze niveaux. ANOVA unidirectionnelle présuppose :
- Indépendance : la valeur de la variable dépendante pour une observation est indépendante de la valeur de toute autre observation.
- Normalité : la valeur de la variable dépendante est normalement distribuée.
- Variance : la variance est comparable dans les différents groupes expérimentaux.
- Continue : la variable dépendante (nombre de fleurs) est continue et peut être mesurée sur une échelle qui peut être subdivisée.
ANOVA factorielle complète (également appelée ANOVA bidirectionnelle)
ANOVA factorielle complète est utilisée lorsqu'il y a deux variables indépendantes ou plus. Chacun de ces facteurs peut avoir plusieurs niveaux. ANOVA factorielle complète ne peut être utilisée que dans le cas d'une expérience factorielle complète, où l'on utilise toutes les permutations possibles des facteurs et de leurs niveaux. Il peut s'agir du mois de l'année où il y a le plus de fleurs dans le jardin, puis du nombre d'heures d'ensoleillement. Cette ANOVA bidirectionnelle ne mesure pas seulement l'indépendance par rapport à la variable indépendante, mais aussi si les deux facteurs s'influencent mutuellement. ANOVA bidirectionnelle suppose :
- Continue : comme ANOVA unidirectionnelle, la variable dépendante doit être continue.
- Indépendance : chaque échantillon est indépendant des autres échantillons, sans croisement.
- Variance : la variance des données entre les différents groupes est la même.
- Normalité : les échantillons sont représentatifs d'une population normale.
- Catégories : les variables indépendantes doivent être classées dans des catégories ou des groupes distincts.
Pourquoi ANOVA est-elle utile ?
Certaines personnes questionnent la nécessité d'ANOVA ; après tout, il suffit de regarder les valeurs moyennes pour les évaluer. Mais ANOVA ne se contente pas de comparer des moyennes.
Même si les valeurs moyennes des différents groupes semblent être différentes, cela pourrait être dû à une erreur d'échantillonnage plutôt qu'à l'effet de la variable indépendante sur la variable dépendante. Si cela est dû à une erreur d'échantillonnage, la différence entre les moyennes des groupes n'a pas de sens. ANOVA permet de déterminer si la différence entre les valeurs moyennes est statistiquement significative.
ANOVA révèle aussi indirectement si une variable indépendante influence la variable dépendante. Par exemple, dans l'expérience ci-dessus sur le taux de glycémie, supposons qu'ANOVA révèle que les moyennes des groupes ne sont pas statistiquement significatives, et que la différence entre les moyennes des groupes est uniquement due à une erreur d'échantillonnage. Ce résultat conclut que le type de médicament (variable indépendante) n'est pas un facteur significatif qui influence le taux de glycémie.
Limites d'ANOVA
ANOVA peut seulement indiquer s'il existe une différence significative entre les moyennes d'au moins deux groupes, mais elle ne peut pas expliquer quelle paire diffère dans ses moyennes. Si des données granulaires sont requises, le déploiement de processus statistiques de suivi supplémentaires permettra de déterminer quels groupes diffèrent par leur valeur moyenne. Généralement, ANOVA est utilisée en combinaison avec d'autres méthodes statistiques.
ANOVA suppose également que l'ensemble de données est distribué uniformément, car elle ne compare que les moyennes. Si les données ne sont pas distribuées selon une courbe normale et qu'il y a des valeurs aberrantes, alors ANOVA n'est pas le bon procédé pour interpréter les données.
De même, ANOVA suppose que les écarts types sont identiques ou similaires entre les groupes. S'il y a une grande différence dans les écarts types, la conclusion du test peut être inexacte.
Comment ANOVA est-elle utilisée en Data Science ?
L'un des plus grands défis du machine learning est la sélection des caractéristiques les plus fiables et les plus utiles qui sont utilisées pour former un modèle. ANOVA aide à sélectionner les meilleures caractéristiques pour former un modèle. ANOVA minimise le nombre de variables d'entrée afin de réduire la complexité du modèle. ANOVA permet de déterminer si une variable indépendante influence une variable cible.
Un exemple d'utilisation d'ANOVA dans la Data Science est la détection des spams parmi les e-mails. En raison du nombre massif d'e-mails et des caractéristiques de ceux-ci, il est devenu très difficile et coûteux d'identifier et de rejeter tous les e-mails non sollicités. ANOVA et les tests f sont déployés pour identifier les caractéristiques importantes afin d'identifier correctement les e-mails qui étaient des spams et ceux qui ne l'étaient pas.
Questions auxquelles ANOVA permet de répondre
Même si ANOVA implique des étapes statistiques complexes, c'est une technique bénéfique pour les entreprises via l'utilisation d'intelligence artificielle. Les organisations utilisent ANOVA pour prendre des décisions sur l'alternative à choisir parmi de nombreuses options possibles. Par exemple, ANOVA peut aider à :
- Comparer le rendement de deux variétés de blé différentes sous trois marques d'engrais différentes.
- Comparer l'efficacité de diverses publicités sur les médias sociaux pour les ventes d'un produit particulier.
- Comparer l'efficacité de différents lubrifiants pour différents types de véhicules.
