Qu'est-ce qu'un nuage de points ?

Un nuage de points , également appelé diagramme de dispersion, est un graphique qui montre la relation entre deux variables. Il s'agit d'un type de graphique incroyablement puissant, qui permet aux lecteurs de comprendre immédiatement une relation ou une tendance qui serait impossible à voir sous d'autres formes.

Exemple de nuage de points/diagramme de dispersion

Son origine n'est pas claire, mais les nuages de points modernes sont basés sur le système de coordonnées cartésiennes de René Descartes, créé au 17e siècle. Les nuages de points sont très utilisés dans le domaine scientifique, la plupart du temps dans les revues et publications scientifiques.

Les nuages de points sont considérés comme l'une des inventions les plus polyvalentes et les plus utiles de l'histoire des graphiques statistiques. Même si cette affirmation est audacieuse, les nuages de points permettent de donner un sens à des données confuses. Ils sont bien plus qu'un simple outil de visualisation ; ils constituent un outil de découverte.

Démonstration de nuage de points
Visualisations et graphiques avec Spotfire
Regardez cette démo pour voir à quel point il est facile, grâce à Spotfire, de commencer à visualiser tous les aspects de vos données.

Comment fonctionne un nuage de points ?

Comme la plupart des autres types de graphiques ou de diagrammes, un nuage de points comporte un axe X et un axe Y. Le X est la ligne horizontale de la variable indépendante et le Y est la ligne verticale de la variable dépendante. Une échelle égale est créée sur les deux axes, puis une marque ou un point est placé à l'endroit qui représente l'intersection des deux coordonnées.

D'autres modèles peuvent être trouvés dans un nuage de points :

  • Linéaire ou non linéaire : une corrélation linéaire droite peut être formée par les points de données, mais une corrélation non linéaire peut montrer une relation courbe.
  • Faible ou forte : plus la corrélation est forte, plus les points sont proches les uns des autres. Une corrélation faible aura plus de points de données dispersés.

Afin de montrer clairement ces relations et ces tendances, de nombreux nuage de points utilisent des lignes de tendance. Une ligne de tendance est dessinée sur le graphique pour mettre en évidence la direction et la force de la tendance.

Meilleures pratiques pour les nuages de points

Il existe quelques astuces simples pour s'assurer que votre nuage de points présente les informations de manière propre et sans déformation des données.

Commencez en plaçant l'axe Y à zéro. Bien qu'il puisse y avoir des cas où une échelle accordéon soit nécessaire pour que les données soient présentées de manière plus précise, ces cas sont rares. Faites preuve de prudence lorsque vous décidez d'utiliser un accordéon.

Gardez l'échelle uniformément répartie sur les deux axes. Cela signifie qu'il n'y a pas de déformation.

Réfléchissez bien aux données aberrantes. S'il y a des raisons de penser qu'elles sont incorrectes ou si elles n'apportent pas de valeur ajoutée à votre histoire, il peut être judicieux de les exclure.

Avec les nuages de points, il est souvent préférable d'inclure plus de données et de variables, et non moins. Contrairement à d'autres types de graphiques, s'ils sont réalisés correctement, les nuages de points ne prêtent pas à confusion avec davantage de données. Envisagez d'ajouter des variations de taille et de couleur aux points afin d'inclure davantage de données pertinentes d'une manière qui permette de les comprendre facilement.

Utilisez des lignes de tendance. Ces lignes sont généralement tracées par le logiciel, bien qu'elles puissent être ajoutées manuellement. Ces lignes permettent de rendre les tendances très claires pour l'observateur. Toutefois, il ne faut pas avoir plus de deux lignes de tendance, car cela peut prêter à confusion.

Quand utiliser les nuages de points

En dehors des études scientifiques, il existe quelques cas où les entreprises peuvent décider d'utiliser un nuage de points :

  • Pour identifier les anomalies
  • Pour voir comment une variable en affecte une autre
  • Pour identifier une corrélation, un modèle, une tendance ou une relation.

Un agent immobilier peut vouloir voir la relation entre la superficie en mètres carrés et le prix payé pour les maisons. Si ce simple nuage de points ne permet pas d'analyser en profondeur toutes les variables, telles que l'emplacement, le caractère récent des rénovations ou la taille du jardin, il donne néanmoins aux acheteurs et aux vendeurs une idée de l'évolution du marché et de la place d'une maison sur l'échelle.

Une entreprise peut vouloir voir s'il existe une relation entre les volumes de ventes et une autre variable. La météo influence-t-elle les ventes ? Le jour de la semaine ? Qu'en est-il du nombre de vêtements sur un présentoir ? Vend-on plus de vêtements s'il y en a plus sur l'étalage ?

Avantages des nuages de points

Les nuages de points présentent de multiples avantages et bénéfices.

Montrer clairement les relations

Ce graphique est sans doute le mieux adapté pour montrer les relations entre deux variables. Non seulement il montre une relation entre deux points de données, mais il montre également un modèle ou une tendance globale sur un ensemble de données.

Faciles à créer et à comprendre

Peut-être en raison de leur popularité, les nuages de points sont immédiatement compris. Leur objectif est facilement reconnaissable, et les données qu'ils contiennent sont faciles à assimiler. De plus, pour ceux qui souhaitent réaliser un nuage de points, ils sont simples à créer.

L'étendue des données peut être déterminée

Les valeurs maximales et minimales sont visibles sur les nuages de données, ce qui est important pour comprendre l'ensemble des données. Cependant, les valeurs aberrantes peuvent créer des confusions.

Inconvénients des nuages de points

Il peut y avoir trop de données

Dans le cas d'un graphique en nuage de points surchargé, les modèles sont difficiles à voir, car il ne s'agit que d'une énorme tache. Ainsi, bien qu'un graphique ait besoin de suffisamment de données pour former une corrélation ou un modèle visible, il y a un point où plus de données deviennent moins utiles.

La Solution

Une carte thermique peut être utile pour montrer les parties les plus chargées du graphique. Envisagez un code couleur pour les différents ensembles de données.

Aucune relation

Il arrive que des données semblent présenter un schéma ou une association. Mais si la taille et la possession d'un chat peuvent sembler liées, elles ne le sont probablement pas.

La Solution

Évitez de tracer des variables qui ne sont probablement pas liées.

Corrélation n'est pas synonyme de causalité

N'oubliez jamais que corrélation n'est pas synonyme de causalité. Ce n'est pas parce qu'il y a corrélation qu'une valeur est la cause de l'autre. S'il semble que les personnes de grande taille possèdent plus de chats, il est peu probable que la taille soit la cause de la possession de chats. Même les relations les plus logiques peuvent succomber à ce phénomène : si les ventes augmentent lorsqu'il fait froid, cela est-il dû à la météo ou à une troisième variable, comme le chocolat chaud gratuit que le magasin offre à ses clients ?

La Solution

Ne pas établir de lien de causalité sur la base d'une corrélation.

Essai du logiciel de nuage de points
Essai gratuit de TIBCO Spotfire
Avec TIBCO Spotfire, la solution d'analyse la plus complète du marché, découvrez facilement de nouvelles informations à partir de vos données.

Alternatives au nuage de points

Diagramme en arête de poisson

Un diagramme en arête de poisson ressemble à un squelette de poisson. La « tête » représente le problème et les causes du problème partent de la colonne vertébrale, tout comme les arêtes de poisson. C'est l'autre diagramme principal que les gens utilisent pour les aider à établir des liens de causalité. Cependant, il ne se base pas sur des données quantitatives comme un nuage de points, mais plutôt sur une session de brainstorming organique. Ce sont des diagrammes très différents, conçus pour des processus différents. Bien qu'il puisse y avoir une relation de cause à effet, les similitudes entre les deux graphiques sont limitées.