Was ist ein Histogramm-Diagramm?
Ein Histogramm ist ein Diagramm, das zur Darstellung der Häufigkeitsverteilung einiger Datenpunkte einer Variable verwendet wird. Histogramme klassifizieren Daten häufig in verschiedene „Klassen“ oder „Bereichsgruppen“ und zählen, wie viele Datenpunkte zu diesen Klassen gehören.
Das Histogramm wurde von Karl Pearson, einem englischen Mathematiker, erfunden. Histogramme sind in der Statistik besonders nützlich, da sie die Verteilung von Stichprobendaten darstellen können.
Das folgende Histogramm-Beispiel stellt die Testergebnisse der Schüler dar. Die Punktzahlen des Schülers werden in verschiedene Bereiche eingeteilt. Die Höhe der einzelnen Balken gibt die Anzahl der Schüler an, die in diesem Bereich eine Punktzahl erreicht haben.

Wann sollte ein Histogramm verwendet werden?
Wenn Daten eine einzelne unabhängige Variable haben
Wenn die Daten von einer einzelnen Variable abhängig sind, z. B. vom Alter eines Kunden, sollte ein Histogramm verwendet werden. Histogramme helfen dem Betrachter, die Verteilung der abhängigen Variablen zu verstehen. Beispiel hierzu wäre das Bankguthaben von Kunden basierend auf ihrem Alter.
Wenn Daten einen kontinuierlichen Bereich haben
Wenn die Stichprobendaten einen kontinuierlichen Bereich wie die Testergebnisse von Schülern darstellen, ist ein Histogramm nützlich. Wenn Daten erhebliche Lücken in ihrem Bereich aufweisen, ist ein Histogramm möglicherweise nicht geeignet.
Wenn zwei Datensätze verglichen werden müssen
Histogramme sind ein hervorragendes Werkzeug, um die Häufigkeitsverteilung zweier Datensätze zu vergleichen. Denken Sie beispielsweise an die Anzahl der Einkäufe, die von Kunden verschiedener Altersgruppen getätigt wurden. Ein Histogramm kann verwendet werden, um diese Daten über mehrere Geschäfte hinweg zu vergleichen.
Was sind die Hauptanwendungen von Histogrammen?
Analyse der Frequenzverteilung
Histogramme sind besonders hilfreich, um die Häufigkeitsverteilung von Stichprobendaten zu analysieren. In einem statistischen Experiment ist die Häufigkeitsverteilung die Anzahl der Beobachtungen, die zu einer bestimmten Kategorie (oder „Klasse“ in der Histogramm-Terminologie) gehören.
Im nachfolgenden Beispiel zeigt das Histogramm die Käufe von Kunden verschiedener Altersgruppen an. Das Histogramm zeigt deutlich den Bereich der Altersgruppen im Vergleich zu Käufen. Laut Histogramm haben Kunden der Altersgruppe 50–70 die meisten Einkäufe getätigt.
Analyse der Datensymmetrie
Mit Histogrammen können Betrachter die Art von Frequenzverteilungen analysieren. Einige der Verteilungen können symmetrisch sein, was bedeutet, dass der Mittelwert der Verteilung genau um den Mittelwert des Datensatzes liegt. Einige andere Verteilungen sind möglicherweise nicht symmetrisch, sondern nach links oder rechts verzehrt. Das zeigt, dass der Mittelwert der Daten am Anfang oder am Ende des Datenbereichs liegt. Einige der Daten haben eine gleichmäßige Verteilung, wobei jeder Abschnitt fast die gleiche Anzahl von Datenpunkten hat. Die nachfolgende Abbildung zeigt einige Histogramm-Beispielverteilungen.
Analyse von Veränderungen im Laufe
Histogramme können analysieren, wie sich Prozessergebnisse mit der Zeit ändern. Beispielsweise kann sich die Anzahl der defekten Artikel, die im Laufe einer Schicht in einer Fabrik hergestellt wurden, im Laufe der Zeit ändern. Eine Organisation kann diese Daten verwenden, um die Zeiten mit hohen Mängeln zu ermitteln und vorbeugende Maßnahmen zu ergreifen.
Was sind die Best Practices bei der Verwendung eines Histogramms?
Verwendung einer Nullbasislinie
Bei der Verwendung von Histogrammen muss der Basiswert immer Null sein. Da die Höhe jedes Balkens die Anzahl der Stichproben in einem Bereich darstellt, verzerrt die Verwendung einer Basis ungleich Null die Visualisierung einer Frequenzverteilung.
Auswahl der richtigen Anzahl von Klassen
Eine wichtige Entscheidung bei der Erstellung der Histogramme ist die Anzahl der Klassen. Normalerweise haben Tools unterschiedliche Algorithmen, um die Anzahl der Klassen zu definieren. Zu viele Abschnitte führen dazu, dass die Datenverteilung grob aussieht. Die Werte, die nicht signifikant sind (Rauschen), können ebenfalls dargestellt werden, was die Analyse schwierig macht. Wenn zu wenige Abschnitte vorhanden sind, weist das Histogramm nicht genügend Details auf, um aus den Daten Rückschlüsse zu ziehen. Bei der Erstellung von Histogrammen ist ein gewisses Maß an Versuch und Irrtum für die Klassengröße erforderlich.
Gleiche Klassengrößen verwenden
Die meisten Histogramme haben zwar gleich große Klassen, dies ist jedoch keine strenge Anforderung. In Datensätzen mit spärlichen Daten mag es praktisch erscheinen, einige Abschnitte zu kombinieren, was zu ungleichen Klassengrößen führt. Dies erschwert die Interpretation von Histogrammen. Die Gesamtfläche eines Histogramms stellt die gesamten Daten dar, und jeder Balken repräsentiert seine Teile. Bei gleichen Bin-Größen reicht es aus, die Höhe der Balken zu betrachten, um die Häufigkeit von Datenpunkten zu ermitteln. Wenn die Klassengrößen ungleich werden, muss man den Bereich der einzelnen Balken und nicht die Höhe betrachten. In der Regel ist es einfacher, die Höhe als den Bereich zu interpretieren. Daher ist die Verwendung gleicher Klassengrößen eine gute Methode für eine einfache Interpretation.
Wann sollten Histogramme nicht verwendet werden?
Wenn die Daten nicht numerisch sind
Histogramme eignen sich am besten für die grafische Darstellung einer numerischen Variable mit einem kontinuierlichen Datenbereich. Wenn die Daten aus nicht numerischen Werten wie Geschlecht oder Ort bestehen, ist das Histogramm eindeutig falsch. Kreis- oder Balkendiagramme können in diesem Fall verwendet werden.
Wenn die Stichprobengröße klein ist
Histogramme funktionieren gut, wenn die Stichprobe genügend Datenpunkte enthält. Wenn zu wenige Datenpunkte vorhanden sind, kann das Histogramm die Verteilung der Daten nicht visualisieren. Als Faustregel gilt: Histogramme sind nützlich, wenn es zwanzig oder mehr Beobachtungen gibt. Wenn weniger Datenpunkte vorhanden sind, empfiehlt es sich, Standard-Wahrscheinlichkeitsnetze zu verwenden.
Wenn es große Datenlücken gibt
Histogramme eignen sich am besten, wenn die Stichprobendaten kontinuierlich sind. Histogramme stellen Datenpunkte dar, die zu verschiedenen Klassen gehören, sodass das Diagramm ineffizient ist, wenn Daten fehlen oder nicht definiert sind.
Was sind die Anwendungen von Histogrammen?
Während Kreis- und Balkendiagramme Werkzeuge zur Daten-Visualisierung sind, werden Histogramme überwiegend bei Statistiken verwendet. Statistiker verwenden Histogramme, um die Stichprobendaten besser zu verstehen. Histogramme werden häufig verwendet, um verschiedene statistische Eigenschaften der Daten zu untersuchen.
Visualisierung der Variabilität
Angenommen, es gibt zwei Datensätze mit ähnlichen Mittelwerten. Auf Grundlage dieser Informationen scheinen die Datensätze ähnlich zu sein. Wenn wir diese Daten in Histogrammen darstellen, wird die Variabilität der Daten offensichtlich. Die wichtigsten Datenpunkte liegen im linken Histogramm zwischen 40 und 70, im der rechten Histogramm sind sie fast gleichmäßig zwischen 20 und 100 verteilt. Obwohl der Mittelwert derselbe ist, visualisiert ein Histogramm die Datenvarianz auf einfache Weise.
Identifizierung der Ausreißer
In der Statistik ist ein Ausreißer ein Datenpunkt, der sich in einer abnormalen Entfernung von den anderen Datenpunkten befindet. Histogramme sind nützlich, um diese Ausreißer zu visualisieren. Sie erscheinen als isolierter Balken. Ausreißer treten aufgrund von Datenanomalien oder aufgrund einiger Dateneingabefehler auf.
Identifizierung multimodaler Verteilungen
In der Statistik ist eine multimodale Verteilung eine mit mehreren Spitzen. Das nachfolgende Histogramm hat beispielsweise zwei verschiedene Spitzen. Die multimodalen Eigenschaften eines Datensatzes sind möglicherweise nicht leicht identifizierbar, indem der Mittelwert und die Varianz der Verteilung berechnet werden. Ein Histogramm hilft dabei, solche multimodalen Verteilungen zu identifizieren.
Beurteilung der Anpassung einer Wahrscheinlichkeitsverteilungsfunktion
Statistiker verwenden häufig Histogramme, um die Anpassung einer Wahrscheinlichkeitsverteilungsfunktion zu beurteilen. Ein Histogramm ist eine Darstellung der tatsächlichen Stichprobendaten. Eine angepasste Verteilungslinie versucht, die Wahrscheinlichkeitsverteilungsfunktion zu identifizieren, die die Verteilung der Stichprobendaten korrekt vorhersagen kann. Statistiker überlagern häufig die Wahrscheinlichkeitsverteilungsfunktionen über das Histogramm, um ihre Anpassung zu beurteilen.

Was sind andere Diagramme, die mit Histogrammen verwandt sind?
Balkendiagramme
Wenn die Daten nicht numerisch oder diskret sind, passt ein Balkendiagramm besser als Histogramme. Balkendiagramme sind beispielsweise nützlich, um Käufe verschiedener Kundenkategorien (Gast, neuer Benutzer und vorhandener Benutzer) darzustellen, da diese Kategorien diskret und nicht numerisch sind. Im Gegensatz dazu sind Histogramme nützlich, wenn wir Käufe im Vergleich zum Alter der Kunden darstellen (kontinuierlich und numerisch).
Linienanpassung
Wenn es viele Datenpunkte mit minimaler Abweichung gibt, visualisiert das Histogramm möglicherweise nicht die Natur der Daten. In diesem Fall ist eine Linienanpassung besser geeignet, um die Art der Daten zu visualisieren.
Streudiagramm
Histogramm und Linienanpassung sind nützlich, wenn es nur eine unabhängige Variable gibt. Wenn es zwei unabhängige Variablen gibt, ist ein Streudiagramm die bessere Option. In einem Streudiagramm stellt die X-Achse eine unabhängige Variable dar, und die Y-Achse stellt die zweite Variable dar. Wenn es drei unabhängige Variablen gibt, kann ein 3D-Streudiagramm verwendet werden.