Qu'est-ce qu'un histogramme ?

Un histogramme est un graphique utilisé pour représenter la distribution de fréquence de quelques points de données d'une variable. Les histogrammes classent souvent les données en divers « bacs » ou « groupes d'intervalles » et comptent combien de points de données appartiennent à chacun de ces bacs.

Exemple d'histogramme

L'histogramme a été inventé par Karl Pearson, un mathématicien anglais. Les histogrammes sont particulièrement utiles en statistiques, car ils permettent de représenter la distribution des données d'un échantillon.

L'exemple d'histogramme ci-dessous représente les notes des tests d'élèves. Les notes des élèves sont classés selon plusieurs plages. La hauteur de chaque barre représente le nombre d'élèves qui ont obtenu une note dans cette plage.

Exemple d'histogramme de notes d'élèves

Démonstration de l'histogramme
Visualisations et graphiques avec Spotfire
Regardez cette démo pour voir à quel point il est facile, grâce à Spotfire, de commencer à visualiser tous les aspects de vos données.

Quand faut-il utiliser un histogramme ?

Lorsque les données ont une seule variable indépendante

Lorsque les données dépendent d'une seule variable, comme l'âge d'un client, il convient d'utiliser un histogramme. Les histogrammes aident les visualiseurs à comprendre la distribution de la variable en question. Par exemple, le solde bancaire des clients en fonction de leur âge.

Lorsque les données ont une plage continue

Lorsque les données de l'échantillon représentent une plage continue, comme les résultats des tests des élèves, l'utilisation d'un histogramme peut s'avérer pratique. Lorsque les données présentent des écarts importants dans leur plage, les histogrammes ne conviennent peut-être pas.

Quand deux ensembles de données doivent être comparés

Les histogrammes sont un excellent outil pour comparer la distribution de fréquence de deux ensembles de données. Par exemple, considérez le nombre d'achats effectués par des clients de différents groupes d'âge. Un histogramme peut être utilisé pour comparer ces données dans plusieurs magasins.

Quelles sont les principales utilisations des histogrammes ?

Analyse de la distribution de fréquences

Les histogrammes sont particulièrement utiles pour analyser la distribution de fréquence des données d'un échantillon. Dans une expérience statistique, la distribution de fréquence est le nombre d'observations qui appartiennent à une catégorie particulière (ou « bac » dans la terminologie des histogrammes).

Dans l'exemple ci-dessous, l'histogramme montre les achats effectués par des clients de différents groupes d'âge. L'histogramme montre clairement l'écart entre les groupes d'âge et les achats. Selon l'histogramme, les clients de la tranche d'âge 50-70 ans ont effectué le plus grand nombre d'achats.

Exemple d'histogramme des âges des clients

Analyse de la symétrie des données

Avec les histogrammes, les observateurs peuvent analyser la nature des distributions de fréquences. Certaines distributions peuvent être symétriques, ce qui signifie que la moyenne de la distribution se situe précisément autour de la valeur médiane de l'ensemble des données. D'autres distributions peuvent ne pas être symétriques, mais inclinées vers la gauche ou la droite. Cela signifie que la valeur moyenne des données se situe autour du début ou de la fin de la plage de données. Certaines données auront une distribution uniforme où chaque bac contient presque le même nombre de points de données. La figure ci-dessous présente quelques exemples de distribution d'histogrammes.

Exemple de distribution d'histogrammes

Analyse du changement dans le temps

Les histogrammes permettent d'analyser l'évolution des résultats des processus dans le temps. Par exemple, le nombre d'articles défectueux fabriqués au cours d'une période de travail dans une usine peut évoluer dans le temps. Une organisation peut utiliser ces données pour déterminer les heures où les défauts sont élevés et chercher des mesures préventives.

Quelles sont les meilleures pratiques dans l'utilisation d'un histogramme ?

Utilisation d'une base de référence zéro

Lorsque vous utilisez des histogrammes, la valeur de base doit toujours être égale à zéro. Comme la hauteur de chaque barre représente le nombre d'échantillons dans une plage, l'utilisation d'une base non nulle faussera la visualisation d'une distribution de fréquence.

Choisir le bon nombre de bacs

Une décision importante lors de la création des histogrammes est le nombre de bacs. En général, les outils ont des algorithmes différents pour définir le nombre de bacs. Si le nombre de bacs est trop élevé, la distribution des données aura l'air grossière. Les valeurs non significatives (bruit) peuvent également être représentées, ce qui rend l'analyse difficile. S'il y a trop peu de bacs, l'histogramme n'aura pas assez de détails pour permettre de faire une déduction à partir des données. Lors de l'élaboration d'un histogramme, il est nécessaire de procéder à des essais et erreurs sur la taille des bacs.

Utilisation de tailles de bacs égales

Bien que la plupart des histogrammes aient des bacs de taille égale, il ne s'agit pas d'une exigence stricte. Dans les ensembles de données éparses, il peut sembler pratique de combiner quelques bacs, ce qui donne des bacs de taille inégale. Cela rend l'interprétation des histogrammes difficile. La surface totale d'un histogramme représente l'ensemble des données et chaque barre représente ses parties. Lorsque la taille des bacs est égale, il suffit de regarder la hauteur des barres pour identifier la fréquence des points de données. Lorsque la taille des bacs est inégale, il faut regarder la surface de chaque bac plutôt que sa hauteur. En général, il est plus facile d'interpréter la hauteur que la surface, donc l'utilisation de tailles de bacs égales est une bonne pratique pour faciliter l'interprétation.

Quand ne faut-il pas utiliser les histogrammes ?

Lorsque les données ne sont pas numériques

Les histogrammes sont les plus adaptés à la représentation graphique d'une variable numérique avec une plage de données continue. Si les données sont constituées de valeurs non numériques comme le sexe ou la ville, l'histogramme est clairement inadapté. Dans ce cas, on peut utiliser des graphiques circulaires ou des diagrammes en barres.

Quand la taille de l'échantillon est petite

Les histogrammes fonctionnent bien lorsqu'il y a suffisamment de points de données dans l'échantillon. Lorsqu'il y a trop peu de points de données, l'histogramme ne permet pas de visualiser la distribution des données. En règle générale, les histogrammes sont utiles lorsqu'il y a vingt observations ou plus. Lorsqu'il y a moins de points de données, il est préférable d'utiliser des diagrammes de probabilité standard.

Quand il y a de grandes lacunes dans les données

Les histogrammes sont les mieux adaptés lorsque les données de l'échantillon sont continues. Les histogrammes représentent des points de données qui appartiennent à des bacs différents. Le graphique est donc inefficace lorsque les données sont manquantes ou indéfinies.

Quelles sont les applications des histogrammes ?

Alors que les graphiques circulaires et les diagrammes à barres sont des outils de data visualization, les histogrammes sont principalement utilisés en statistiques. Les statisticiens utilisent les histogrammes pour mieux comprendre les données de l'échantillon. Les histogrammes sont souvent utilisés pour explorer diverses propriétés statistiques des données.

Visualiser la variabilité

Supposons qu'il existe deux ensembles de données dont les valeurs moyennes sont similaires. D'après ces informations, les ensembles de données semblent similaires. Lorsque nous reportons ces données dans des histogrammes, la variabilité des données devient apparente. Les principaux points de données se situent entre 40 et 70 sur l'histogramme de gauche, tandis que sur celui de droite, ils sont répartis de manière presque égale entre 20 et 100. Même si la moyenne est la même, un histogramme permet de visualiser facilement la variance des données.

Exemple d'histogramme de variance des données

Identifier les valeurs aberrantes

En statistiques, une valeur aberrante est un point de données qui se trouve à une distance anormale des autres points de données. Les histogrammes sont utiles pour visualiser ces valeurs aberrantes. Elles apparaissent sous la forme d'une barre isolée. Les valeurs aberrantes sont dues à une anomalie dans les données ou à des erreurs de saisie.

Identifier les distributions multimodales

En statistiques, une distribution multimodale est une distribution comportant plusieurs pics. Par exemple, l'histogramme ci-dessous présente deux pics différents. Les caractéristiques multimodales d'un ensemble de données peuvent ne pas être facilement identifiables en calculant la moyenne et la variance de la distribution. Un histogramme permet d'identifier ces distributions multimodales.

Évaluer l'ajustement d'une fonction de distribution de probabilité

Les statisticiens utilisent souvent les histogrammes pour évaluer l'ajustement d'une fonction de distribution de probabilité. Un histogramme est une représentation des données réelles de l'échantillon. Une ligne de distribution ajustée tente d'identifier la fonction de distribution de probabilité qui peut prédire correctement la distribution des données de l'échantillon. Les statisticiens superposent souvent les fonctions de distribution de probabilité sur l'histogramme pour évaluer leur adéquation.

Exemple de ligne de distribution ajustée à un histogramme

Logiciel d'histogramme
Essai gratuit de TIBCO Spotfire
Avec TIBCO Spotfire, la solution d'analyse la plus complète du marché, découvrez facilement de nouvelles informations à partir de vos données.

Quels sont les autres graphiques liés aux histogrammes ?

Diagrammes à barres

Lorsque les données sont non numériques ou discrètes, un diagramme à barres est plus adapté que les histogrammes. Par exemple, les diagrammes à barres ne sont pas utiles pour représenter les achats effectués par différentes catégories de clients (visiteurs, nouveaux utilisateurs et utilisateurs existants), car ces catégories sont discrètes et non numériques. En revanche, les histogrammes sont utiles lorsque nous traçons les achats en fonction de l'âge des clients (continu et numérique).

Ajustement linéaire

Lorsqu'il y a beaucoup de points de données avec une déviation minimale, l'histogramme peut ne pas visualiser la nature des données. Dans ce cas, un ajustement linéaire est plus approprié pour visualiser la nature des données.

Nuage de points

L'histogramme et l'ajustement linéaire sont utiles lorsqu'il n'y a qu'une seule variable indépendante. Lorsqu'il y a deux variables indépendantes, un nuage de points est une meilleure option. Dans un nuage de points, l'axe des X représente une variable indépendante et l'axe des Y représente la seconde variable. S'il y a trois variables indépendantes, on peut utiliser un nuage de points en 3D.