Qu'est-ce que l'analyse de correspondance ?

L'analyse de correspondance, également appelée moyenne réciproque, est une technique de visualisation de data science utile pour découvrir et afficher la relation entre les catégories. Elle utilise un graphique qui trace les données, montrant visuellement le résultat de deux points de données ou plus.

Exemple d'analyse de correspondance

Il s'agit d'un outil statistique multivarié qui a été proposé pour la première fois en 1935 par Herman Otto Hartley. Hartley a écrit un article sur les tableaux de contingence qui a ouvert la voie à Jean-Paul Benzécri pour développer, dans les années 1960, la technique d'analyse que nous connaissons aujourd'hui. Depuis sa mise au point, cette technique a gagné en popularité et les façons dont elle est appliquée se sont multipliées.

Une analyse de correspondance utilise un tableau de contingence (un tableau de fréquences) qui montre comment les variables distribuent les catégories. Les données du tableau subissent une série de transformations par rapport aux données qui les entourent pour produire des données relationnelles. Les données résultantes sont ensuite représentées sous forme de graphique afin de montrer visuellement ces relations.

Comment fonctionne l'analyse de correspondances multiples ?

Dans la vie, tout ne se déroule pas sur une échelle parfaite de zéro à dix, et une simple échelle ne couvre pas tous les attributs et catégories nécessaires. C'est là qu'intervient l'analyse de correspondance. Essentiellement, elle prend un tableau de données et le transforme en comparaisons précieuses qui permettent de tirer des conclusions. Par exemple, les données relatives aux ventes d'une année sont réparties en services.

Ce tableau permet de calculer les valeurs attendues, c'est-à-dire la moyenne de la ligne, multipliée par la moyenne de la colonne, puis divisée par la valeur globale. Ce chiffre est ensuite soustrait du chiffre original dans cette case. Ces chiffres « résiduels » montrent l'association, ou l'absence d'association, entre les étiquettes de la ligne et de la colonne. Il ne s'agit donc pas de montrer combien d'argent un service a gagné au cours d'un mois donné, mais de montrer l'association entre ce mois et les chiffres de ce service.

Les chiffres du graphique montrent clairement une relation entre les chiffres ; la distance entre les deux points montre la force de cette relation. Les gens achètent-ils plus d'articles ménagers en décembre ? Existe-t-il une relation entre le mois et les ventes de vêtements ? Par exemple, si un magasin organise une grande vente de vêtements en juillet, on peut s'attendre à ce que la distance physique entre les ventes de vêtements et celles de juillet soit plus proche que celle des autres mois. Les dimensions horizontale et verticale expliquent le pourcentage de variance dans les données.

Cette vision est trop simpliste, car l'analyse de correspondance montre les relativités. Elle n'indique pas quel est le mois où les ventes sont les plus élevées ; elle montre que les ventes de vêtements n'ont augmenté que de 29 % en juillet, alors que les ventes d'articles ménagers ont augmenté de 82 % en décembre. Le graphique montre les relativités.

Si l'entreprise ne s'intéresse qu'à l'évolution des ventes dans le temps ou au service qui vend le plus, les données brutes et les tableaux simples seront une meilleure façon de présenter les données.

Essai gratuit de TIBCO Data Science
Essai gratuit de TIBCO Data Science
Démocratisez, collaborez et rendez opérationnel le machine learning dans votre entreprise avec TIBCO Data Science.

Utilisations de l'analyse de correspondance

Pour une entreprise, l'analyse de correspondance est importante pour pouvoir comprendre facilement une variété de relations. Par exemple, la cartographie des marques est une forme d'analyse de correspondance. Les cartes de marque sont utilisées pour placer les attributs de l'entreprise et les produits sur un graphique. Si les produits sont placés très près les uns des autres sur la carte, cela montre une similarité entre l'image ou le profil, ce qui peut aider à informer la stratégie.

Pour le marketing, une analyse de la correspondance peut répondre à des questions telles que :

  • Y a-t-il des lacunes dans le marché qui pourraient être comblées par cette entreprise ?
  • Le positionnement de la marque est-il correct ?
  • L'entreprise peut-elle se différencier de la concurrence ?
  • Quels sont les attributs que les concurrents possèdent ou, au contraire, que cette entreprise possède ?

Par exemple, pensez à une analyse de correspondance très simple. La variable X, qui s'étend sur la ligne horizontale, est le rapport qualité-prix, avec le prix abordable à une extrémité et le haut de gamme à l'autre extrémité. La variable Y, qui est verticale, représente la santé. Elle varie de sain à très malsain.

Les entreprises de restauration rapide sont représentées sur le graphique à l'aide de divers points de données. McDonald's étant plus abordable et plus malsain, il serait placé dans un quadrant, tandis qu'un bar à salades à faire soi-même pourrait se trouver dans le quadrant le plus cher mais le plus sain. Le fait de placer toutes les grandes entreprises de restauration rapide sur le graphique montre très clairement les endroits où la concurrence est forte ou ceux où il y a littéralement un vide dans le marché.

L'analyse de correspondance est précieuse en termes de perception des marques pour plusieurs raisons. Elle élimine l'interférence de la taille de la marque ; il n'y a pas d'effet trompeur lié à une entreprise trop grande. Elle donne également un aperçu rapide et intuitif des relations entre les attributs de la marque qui ne sont pas présentées par d'autres techniques graphiques.

Alternatives à l'analyse de correspondance

Le but de l'analyse de correspondance est de comparer des catégories. Il existe quelques autres méthodes statistiques qui permettent d'accomplir la même tâche ou une tâche similaire, notamment les tests du Khi-deux, l'analyse en composantes principales et l'analyse factorielle, qui seront étudiés plus en détail ci-dessous.

Tests du Khi-deux

Les tests du Khi-deux montrent, sous forme de graphique, la relation entre les catégories. Ils vous montrent une statistique de « qualité de l'ajustement », mesurant dans quelle mesure les données observées correspondent aux distributions attendues. Cependant, ils nécessitent un carré de test par relation, et donc dès que vous avez un groupe de variables à comparer, ils deviennent encombrants.

Les tests du Khi-deux permettent également d'examiner si les lignes et les colonnes ont une association statistiquement significative. Bien que l'analyse de correspondance soit liée au test du Khi-deux, il ne s'agit pas d'une méthode inférentielle permettant de tester des théories et des hypothèses.

Analyse en composantes principales (ACP) et analyse factorielle (AF)

Ces techniques de réduction des données sont régulièrement utilisées pour saisir la différence entre un ensemble de variables. Mais elles sont spécifiquement utilisées avec des variables continues. L'analyse factorielle a une extension proposée pour les variables ordinales et binaires, mais cela suppose que les variables sont continues, avec une distribution bivariée normale. L'analyse en composantes principales utilise une combinaison linéaire de variables et l'analyse factorielle pour les variables latentes.

Essayez TIBCO Spotfire - Essai gratuit
Essayez TIBCO Spotfire - Essai gratuit
Avec TIBCO Spotfire, la solution d'analyse la plus complète du marché, découvrez facilement de nouvelles informations à partir de vos données.

Avantages de l'analyse de correspondance

Les avantages de l'analyse de correspondance sont les suivants :

Elle montre les relations entre les catégories

La façon dont les informations sont présentées visuellement signifie que tout le monde peut facilement comprendre la force des relations entre les catégories avec un peu de formation ou d'explication.

Elle est objective et ne fait pas d'hypothèses

Comme on n'utilise pas les résultats réels, mais un calcul des chiffres en relation avec les autres résultats, l'analyse de correspondance est très objective. Elle ne comprend aucune hypothèse de distribution sous-jacente et s'adapte donc à toutes les variables de catégorie.

Elle comprend plusieurs variables

La force évidente de l'analyse de correspondance est qu'elle traite facilement et simplement des variables multiples. C'est une chose qu'aucune autre méthode statistique ne fait avec autant de facilité.

Elle simplifie les choses

Contrairement à de nombreux autres outils de data science, l'analyse de correspondance prend un tableau énorme et peu maniable comportant plusieurs variables et catégories et, au final, fournit une visualisation simple.

Limites et défis de l'analyse de correspondance

Elle est facilement incomprise

Comme l'analyse de correspondance montre des relations relatives, les personnes qui lisent le graphique se trompent souvent sur les résultats. L'idée qu'il n'y a pas de force de corrélation en raison de la distance physique entre les points est un raisonnement erroné dû à une mauvaise compréhension du graphique.

Solution : dans la plupart des cas, un simple tableau des ventes ou un graphique à barres sera beaucoup plus facile à lire et à comprendre qu'une analyse de correspondance.

Les données doivent être cohérentes

L'analyse de correspondance n'est utile que lorsque les données comportent au moins deux lignes et deux colonnes. Il ne doit y avoir aucune donnée manquante, aucune donnée négative, et toutes les données doivent avoir une échelle identique.

De nombreux tableaux, par exemple, comportent une colonne ou une ligne consacrée aux totaux, c'est-à-dire à la somme de toute cette ligne ou colonne. Cependant, cela signifie que le tableau ne peut pas être transformé en un tableau d'analyse de correspondance, car les totaux sont présenté à une échelle différente de celle du reste du tableau.

Certains tableaux comprennent des pourcentages ainsi que des décomptes. Cela rend les données inutiles, il faut donc supprimer les pourcentages.

Solution : la plupart des logiciels d'intelligence artificielle suppriment automatiquement les totaux, les pourcentages ou les lignes de données non comptabilisées. Ils peuvent transformer les données pour qu'elles soient sur la même échelle cohérente et aussi pour supprimer les négatifs. Toutefois, sans ces ajustements, l'analyse est inutile.

L'analyse de correspondance est trop influencée par les valeurs aberrantes

Lorsque les données sont moyennées dans le tableau multivarié, s'il y a des données aberrantes, cela fausse l'ensemble des résultats. L'influence des données aberrantes est énorme et peut entraîner une déformation de l'ensemble de l'analyse.

Solution : il n'y a pas de solution claire à ce problème, à moins d'éliminer toutes les valeurs aberrantes. Outre le fait de s'assurer que les chiffres sont corrects, il n'existe pas d'autres méthodes pour produire des relations graphiques plus précises. Toutefois, ces valeurs aberrantes sont tempérées par le calcul de la moyenne des points de données, certains scientifiques affirmant que les valeurs aberrantes constituent la force de l'analyse de correspondance, et non sa faiblesse.

Mise à l'échelle des coordonnées sur les cartes

Lorsque le graphique d'analyse de correspondance est établi, les coordonnées des lignes et des colonnes sont créées. Cependant, celles-ci peuvent être tracées de telle sorte que les relations qui en résultent ne sont pas affichées avec précision. Il peut en résulter une carte à l'aspect étrange, avec des groupes de données regroupés de manière rapprochée et d'autres points de données placés à une grande distance les uns des autres.

Solution : s'il existe une grande variance entre les coordonnées, il n'y a aucun moyen de minimiser la distance entre les points sans modifier l'échelle de la carte.

Manque de signification statistique

Contrairement au Khi-carré, qui montre clairement la signification statistique, l'analyse de correspondance ne montre qu'une relation. Il n'y a aucune mention ou moyen de mesurer si ces relations ont une quelconque signification ou si la force de la relation est due à autre chose qu'au hasard.

L'analyse de correspondance reste la méthode généralement acceptée

Malgré les nombreux défis inhérents à l'analyse de correspondance, elle reste la méthode généralement acceptée pour afficher visuellement la relation et l'association entre deux ou plusieurs variables catégorielles.

Bien qu'elle soit principalement utilisée dans le domaine scientifique, l'analyse de correspondance a sa place dans le monde des affaires. L'analyse de correspondance peut être un outil précieux, à condition que les personnes qui consultent la carte comprennent qu'elle ne représente pas les points de données brutes, mais la relation entre les variables. Une fois que l'on a compris comment ces cartes sont créées et quel est l'objet de l'analyse, l'analyse de correspondance est un outil puissant qui ignore les effets de taille des marques et fournit des informations puissantes et facilement interprétables sur les relations au sein d'une marque et entre les marques.