Was ist ein Histogramm-Diagramm?

Ein Histogramm ist ein Diagramm, das zur Darstellung der Häufigkeitsverteilung einiger Datenpunkte einer Variable verwendet wird. Histogramme klassifizieren Daten häufig in verschiedene „Klassen“ oder „Bereichsgruppen“ und zählen, wie viele Datenpunkte zu diesen Klassen gehören.

Beispiel für ein Histogramm-Diagramm

Das Histogramm wurde von Karl Pearson, einem englischen Mathematiker, erfunden. Histogramme sind in der Statistik besonders nützlich, da sie die Verteilung von Stichprobendaten darstellen können.

Das folgende Histogramm-Beispiel stellt die Testergebnisse der Schüler dar. Die Punktzahlen des Schülers werden in verschiedene Bereiche eingeteilt. Die Höhe der einzelnen Balken gibt die Anzahl der Schüler an, die in diesem Bereich eine Punktzahl erreicht haben.

Beispiel für ein Histogramm für die Schüler-Punktzahl

Histogramm-Demo
Visualisierungen / Diagramme mit Spotfire
In dieser Demo erfahren Sie, wie Spotfire die Visualisierung aller Aspekte Ihrer Daten erleichtert.

Wann sollte ein Histogramm verwendet werden?

Wenn Daten eine einzelne unabhängige Variable haben

Wenn die Daten von einer einzelnen Variable abhängig sind, z. B. vom Alter eines Kunden, sollte ein Histogramm verwendet werden. Histogramme helfen dem Betrachter, die Verteilung der abhängigen Variablen zu verstehen. Beispiel hierzu wäre das Bankguthaben von Kunden basierend auf ihrem Alter.

Wenn Daten einen kontinuierlichen Bereich haben

Wenn die Stichprobendaten einen kontinuierlichen Bereich wie die Testergebnisse von Schülern darstellen, ist ein Histogramm nützlich. Wenn Daten erhebliche Lücken in ihrem Bereich aufweisen, ist ein Histogramm möglicherweise nicht geeignet.

Wenn zwei Datensätze verglichen werden müssen

Histogramme sind ein hervorragendes Werkzeug, um die Häufigkeitsverteilung zweier Datensätze zu vergleichen. Denken Sie beispielsweise an die Anzahl der Einkäufe, die von Kunden verschiedener Altersgruppen getätigt wurden. Ein Histogramm kann verwendet werden, um diese Daten über mehrere Geschäfte hinweg zu vergleichen.

Was sind die Hauptanwendungen von Histogrammen?

Analyse der Frequenzverteilung

Histogramme sind besonders hilfreich, um die Häufigkeitsverteilung von Stichprobendaten zu analysieren. In einem statistischen Experiment ist die Häufigkeitsverteilung die Anzahl der Beobachtungen, die zu einer bestimmten Kategorie (oder „Klasse“ in der Histogramm-Terminologie) gehören.

Im nachfolgenden Beispiel zeigt das Histogramm die Käufe von Kunden verschiedener Altersgruppen an. Das Histogramm zeigt deutlich den Bereich der Altersgruppen im Vergleich zu Käufen. Laut Histogramm haben Kunden der Altersgruppe 50–70 die meisten Einkäufe getätigt.

Beispiel für ein Histogramm des Kundenalters

Analyse der Datensymmetrie

Mit Histogrammen können Betrachter die Art von Frequenzverteilungen analysieren. Einige der Verteilungen können symmetrisch sein, was bedeutet, dass der Mittelwert der Verteilung genau um den Mittelwert des Datensatzes liegt. Einige andere Verteilungen sind möglicherweise nicht symmetrisch, sondern nach links oder rechts verzehrt. Das zeigt, dass der Mittelwert der Daten am Anfang oder am Ende des Datenbereichs liegt. Einige der Daten haben eine gleichmäßige Verteilung, wobei jeder Abschnitt fast die gleiche Anzahl von Datenpunkten hat. Die nachfolgende Abbildung zeigt einige Histogramm-Beispielverteilungen.

Beispiel einer Histogrammverteilung

Analyse von Veränderungen im Laufe

Histogramme können analysieren, wie sich Prozessergebnisse mit der Zeit ändern. Beispielsweise kann sich die Anzahl der defekten Artikel, die im Laufe einer Schicht in einer Fabrik hergestellt wurden, im Laufe der Zeit ändern. Eine Organisation kann diese Daten verwenden, um die Zeiten mit hohen Mängeln zu ermitteln und vorbeugende Maßnahmen zu ergreifen.

Was sind die Best Practices bei der Verwendung eines Histogramms?

Verwendung einer Nullbasislinie

Bei der Verwendung von Histogrammen muss der Basiswert immer Null sein. Da die Höhe jedes Balkens die Anzahl der Stichproben in einem Bereich darstellt, verzerrt die Verwendung einer Basis ungleich Null die Visualisierung einer Frequenzverteilung.

Auswahl der richtigen Anzahl von Klassen

Eine wichtige Entscheidung bei der Erstellung der Histogramme ist die Anzahl der Klassen. Normalerweise haben Tools unterschiedliche Algorithmen, um die Anzahl der Klassen zu definieren. Zu viele Abschnitte führen dazu, dass die Datenverteilung grob aussieht. Die Werte, die nicht signifikant sind (Rauschen), können ebenfalls dargestellt werden, was die Analyse schwierig macht. Wenn zu wenige Abschnitte vorhanden sind, weist das Histogramm nicht genügend Details auf, um aus den Daten Rückschlüsse zu ziehen. Bei der Erstellung von Histogrammen ist ein gewisses Maß an Versuch und Irrtum für die Klassengröße erforderlich.

Gleiche Klassengrößen verwenden

Die meisten Histogramme haben zwar gleich große Klassen, dies ist jedoch keine strenge Anforderung. In Datensätzen mit spärlichen Daten mag es praktisch erscheinen, einige Abschnitte zu kombinieren, was zu ungleichen Klassengrößen führt. Dies erschwert die Interpretation von Histogrammen. Die Gesamtfläche eines Histogramms stellt die gesamten Daten dar, und jeder Balken repräsentiert seine Teile. Bei gleichen Bin-Größen reicht es aus, die Höhe der Balken zu betrachten, um die Häufigkeit von Datenpunkten zu ermitteln. Wenn die Klassengrößen ungleich werden, muss man den Bereich der einzelnen Balken und nicht die Höhe betrachten. In der Regel ist es einfacher, die Höhe als den Bereich zu interpretieren. Daher ist die Verwendung gleicher Klassengrößen eine gute Methode für eine einfache Interpretation.

Wann sollten Histogramme nicht verwendet werden?

Wenn die Daten nicht numerisch sind

Histogramme eignen sich am besten für die grafische Darstellung einer numerischen Variable mit einem kontinuierlichen Datenbereich. Wenn die Daten aus nicht numerischen Werten wie Geschlecht oder Ort bestehen, ist das Histogramm eindeutig falsch. Kreis- oder Balkendiagramme können in diesem Fall verwendet werden.

Wenn die Stichprobengröße klein ist

Histogramme funktionieren gut, wenn die Stichprobe genügend Datenpunkte enthält. Wenn zu wenige Datenpunkte vorhanden sind, kann das Histogramm die Verteilung der Daten nicht visualisieren. Als Faustregel gilt: Histogramme sind nützlich, wenn es zwanzig oder mehr Beobachtungen gibt. Wenn weniger Datenpunkte vorhanden sind, empfiehlt es sich, Standard-Wahrscheinlichkeitsnetze zu verwenden.

Wenn es große Datenlücken gibt

Histogramme eignen sich am besten, wenn die Stichprobendaten kontinuierlich sind. Histogramme stellen Datenpunkte dar, die zu verschiedenen Klassen gehören, sodass das Diagramm ineffizient ist, wenn Daten fehlen oder nicht definiert sind.

Was sind die Anwendungen von Histogrammen?

Während Kreis- und Balkendiagramme Werkzeuge zur Daten-Visualisierung sind, werden Histogramme überwiegend bei Statistiken verwendet. Statistiker verwenden Histogramme, um die Stichprobendaten besser zu verstehen. Histogramme werden häufig verwendet, um verschiedene statistische Eigenschaften der Daten zu untersuchen.

Visualisierung der Variabilität

Angenommen, es gibt zwei Datensätze mit ähnlichen Mittelwerten. Auf Grundlage dieser Informationen scheinen die Datensätze ähnlich zu sein. Wenn wir diese Daten in Histogrammen darstellen, wird die Variabilität der Daten offensichtlich. Die wichtigsten Datenpunkte liegen im linken Histogramm zwischen 40 und 70, im der rechten Histogramm sind sie fast gleichmäßig zwischen 20 und 100 verteilt. Obwohl der Mittelwert derselbe ist, visualisiert ein Histogramm die Datenvarianz auf einfache Weise.

Beispiel für ein Datenvarianz-Histogramm

Identifizierung der Ausreißer

In der Statistik ist ein Ausreißer ein Datenpunkt, der sich in einer abnormalen Entfernung von den anderen Datenpunkten befindet. Histogramme sind nützlich, um diese Ausreißer zu visualisieren. Sie erscheinen als isolierter Balken. Ausreißer treten aufgrund von Datenanomalien oder aufgrund einiger Dateneingabefehler auf.

Identifizierung multimodaler Verteilungen

In der Statistik ist eine multimodale Verteilung eine mit mehreren Spitzen. Das nachfolgende Histogramm hat beispielsweise zwei verschiedene Spitzen. Die multimodalen Eigenschaften eines Datensatzes sind möglicherweise nicht leicht identifizierbar, indem der Mittelwert und die Varianz der Verteilung berechnet werden. Ein Histogramm hilft dabei, solche multimodalen Verteilungen zu identifizieren.

Beurteilung der Anpassung einer Wahrscheinlichkeitsverteilungsfunktion

Statistiker verwenden häufig Histogramme, um die Anpassung einer Wahrscheinlichkeitsverteilungsfunktion zu beurteilen. Ein Histogramm ist eine Darstellung der tatsächlichen Stichprobendaten. Eine angepasste Verteilungslinie versucht, die Wahrscheinlichkeitsverteilungsfunktion zu identifizieren, die die Verteilung der Stichprobendaten korrekt vorhersagen kann. Statistiker überlagern häufig die Wahrscheinlichkeitsverteilungsfunktionen über das Histogramm, um ihre Anpassung zu beurteilen.

Beispiel für eine angepasste Verteilungslinie mit einem Histogramm

Histogramm-Software
Testen Sie TIBCO Spotfire - Kostenlose Testversion
Mit TIBCO Spotfire, der umfassendsten Analyse-Lösung auf dem Markt, können Sie ganz einfach neue Erkenntnisse aus Ihren Daten gewinnen.

Was sind andere Diagramme, die mit Histogrammen verwandt sind?

Balkendiagramme

Wenn die Daten nicht numerisch oder diskret sind, passt ein Balkendiagramm besser als Histogramme. Balkendiagramme sind beispielsweise nützlich, um Käufe verschiedener Kundenkategorien (Gast, neuer Benutzer und vorhandener Benutzer) darzustellen, da diese Kategorien diskret und nicht numerisch sind. Im Gegensatz dazu sind Histogramme nützlich, wenn wir Käufe im Vergleich zum Alter der Kunden darstellen (kontinuierlich und numerisch).

Linienanpassung

Wenn es viele Datenpunkte mit minimaler Abweichung gibt, visualisiert das Histogramm möglicherweise nicht die Natur der Daten. In diesem Fall ist eine Linienanpassung besser geeignet, um die Art der Daten zu visualisieren.

Streudiagramm

Histogramm und Linienanpassung sind nützlich, wenn es nur eine unabhängige Variable gibt. Wenn es zwei unabhängige Variablen gibt, ist ein Streudiagramm die bessere Option. In einem Streudiagramm stellt die X-Achse eine unabhängige Variable dar, und die Y-Achse stellt die zweite Variable dar. Wenn es drei unabhängige Variablen gibt, kann ein 3D-Streudiagramm verwendet werden.