¿Qué es un histograma?

Un histograma es un gráfico que se utiliza para representar la distribución de frecuencias de algunos puntos de datos de una variable. Los histogramas frecuentemente clasifican los datos en varios “contenedores” o “grupos de rango” y cuentan cuántos puntos de datos pertenecen a cada uno de esos contenedores.

Ejemplo de histograma

El histograma se le atribuye a Karl Pearson, un matemático inglés. Los histogramas son específicamente útiles en estadísticas, ya que pueden representar la distribución de datos de muestra.

El siguiente ejemplo de histograma representa los resultados de las pruebas de los estudiantes. Los resultados se clasifican en varios rangos. La altura de cada barra representa la cantidad de estudiantes que lograron una calificación en ese rango.

Ejemplo de histograma de calificaciones de estudiantes

Demostración de histograma
Visualizaciones/Gráficos con Spotfire
Vea esta demostración para ver la forma sencilla de cómo lo hace Spotfire para comenzar a visualizar todos los aspectos de sus datos.

¿Cuándo usar un histograma?

Cuando los datos tienen una sola variable independiente

Se puede usar un histograma cuando los datos dependen de una sola variable, como la edad de un cliente. Los histogramas ayudan a los espectadores a comprender la distribución de la variable dependiente. Por ejemplo, el saldo bancario de los clientes en función de su edad.

Cuando los datos tienen un rango continuo

Un histograma resultará útil cuando los datos de la muestra representan un rango continuo, como los resultados de las pruebas de los estudiantes. Cuando los datos tienen brechas significativas en su rango, entonces un histograma podría no ser el adecuado.

Cuando es necesario comparar dos conjuntos de datos

Los histogramas son una herramienta excelente para comparar la distribución de frecuencias de dos conjuntos de datos. Por ejemplo, considere la cantidad de compras realizadas por clientes de diferentes grupos de edad. Se puede usar un histograma para comparar estos datos en varias tiendas.

¿Cuáles son los principales usos de los histogramas?

Análisis de distribución de frecuencias

Los histogramas son especialmente útiles para analizar la distribución de frecuencias de datos de muestra. En un experimento estadístico, la distribución de frecuencias es la cantidad de observaciones que pertenecen a una categoría particular (o "contenedor" en la terminología de histogramas).

En el siguiente ejemplo, el histograma muestra las compras realizadas por clientes de diferentes grupos de edad. El histograma muestra claramente el rango de grupos de edad en comparación con las compras. Según el histograma, los clientes del grupo de edad de entre 50 a 70 años realizaron el mayor número de compras.

Ejemplo de histograma sobre edades de clientes

Análisis de la simetría de datos

Con los histogramas, los espectadores pueden analizar la naturaleza de las distribuciones de frecuencias. Algunas de las distribuciones pueden ser simétricas, lo que significa que la media de la distribución está precisamente alrededor del valor medio del conjunto de datos. Algunas otras distribuciones podrían no ser simétricas sino sesgadas hacia la izquierda o hacia la derecha, lo cual demuestra que el valor medio de los datos está alrededor del principio o al final del rango de datos. Algunos de los datos tendrán una distribución uniforme donde cada contenedor tiene casi la misma cantidad de puntos de datos. La siguiente figura muestra algunas distribuciones de histogramas de muestra.

Ejemplo de distribución de histograma

Análisis del cambio durante un periodo de tiempo

Los histogramas analizan cómo cambian los resultados del proceso con el tiempo. Por ejemplo, la cantidad de artículos defectuosos fabricados durante un turno en una fábrica podría cambiar con el tiempo. Una organización puede usar estos datos para determinar las horas en las que los defectos son altos y buscar medidas preventivas.

¿Cuáles son las mejores prácticas al usar un histograma?

Uso de una línea de base cero

Al usar histogramas, el valor base siempre deberá ser cero. Como la altura de cada barra representa la cantidad de muestras en un rango, el uso de una base distinta de cero sesgará la visualización de una distribución de frecuencias.

Elegir la cantidad correcta de contenedores

Una decisión importante al crear los histogramas es la cantidad de contenedores. Por lo general, las herramientas tendrán diferentes algoritmos para definir la cantidad de contenedores. Demasiados contenedores resultarán en que la distribución de datos se vea tosca. Los valores que no son significativos (ruido) también estarán representados, lo que dificultará el análisis. Si existen muy pocos contenedores, el histograma no tendrá suficientes detalles para hacer una inferencia a partir de los datos. Al hacer histogramas, es necesaria una cierta cantidad de prueba y error en el tamaño del contenedor.

Utilizar contenedores del mismo tamaño

Si bien la mayoría de los histogramas tienen contenedores del mismo tamaño, no es un requisito obligatorio. En conjuntos de datos con datos escasos, podría parecer conveniente combinar algunos contenedores, lo que da como resultado contenedores de diferente tamaño, lo cual dificultará la interpretación de los histogramas. El área total de un histograma representa los datos completos y cada barra representa sus partes. Con contenedores del mismo tamaño, será suficiente observar la altura de las barras para identificar la frecuencia de los puntos de datos. Cuando los contenedores son de diferente tamaño, será necesario observar el área de cada barra en lugar de la altura. Por lo general, será más fácil interpretar la altura que el área, por lo que utilizar contenedores de igual tamaño resultará en una buena práctica facilitando la interpretación.

¿Cuándo no usar un histograma?

Cuando los datos no son numéricos

Los histogramas son más adecuados para la representación gráfica de una variable numérica con un rango de datos continuo. Si los datos consisten en valores no numéricos como el género o la ubicación, el histograma claramente no se ajustará. En este caso, se podrán utilizar gráficos circulares o de barras.

Cuando el tamaño de la muestra es pequeño

Los histogramas funcionan bien cuando existen suficientes puntos de datos en la muestra. Cuando existen muy pocos puntos de datos, el histograma no mostrará la distribución de los datos. Como regla general, los histogramas son útiles cuando existen veinte o más observaciones. Cuando existen menos puntos de datos, será mejor usar gráficos de probabilidad estándar.

Cuando existen grandes lagunas en los datos

Los histogramas son más adecuados cuando los datos de muestra son continuos. Los histogramas representan puntos de datos que pertenecen a diferentes contenedores, por lo que el gráfico será ineficiente cuando falten datos o no estén definidos.

¿Cuáles son las aplicaciones de los histogramas?

Si bien los gráficos circulares y de barras son herramientas de visualización de datos, los histogramas se utilizan predominantemente en estadísticas. Los estadísticos utilizan histogramas para comprender mejor los datos de la muestra. Los histogramas se utilizan frecuentemente para explorar varias propiedades estadísticas de los datos.

Visualizar la variabilidad

Suponga que existen dos conjuntos de datos con valores medios similares. A partir de esta información, los conjuntos de datos parecen similares. Cuando representamos estos datos en los histogramas, la variabilidad de los datos se hace evidente. Los principales puntos de datos se encuentran entre 40 y 70 en el histograma de la izquierda, mientras que en el de la derecha están distribuidos casi por igual entre 20 y 100. Aunque la media es la misma, un histograma mostrará fácilmente la desviación de los datos.

Ejemplo de histograma de desviación de datos

Identificar valores atípicos

En estadística, un valor atípico es un punto de datos que se encuentra a una distancia anormal de los otros puntos de datos. Los histogramas son útiles para visualizar estos valores atípicos. Aparecen como una barra aislada. Los valores atípicos se dan debido a la anomalía en los datos o debido a algunos errores de entrada de datos.

Para identificar distribuciones multimodales

En estadística, una distribución multimodal es una con múltiples picos. Por ejemplo, el siguiente histograma tiene dos picos diferentes. Las características multimodales de un conjunto de datos podrían no ser fácilmente identificables al calcular la media y la desviación de la distribución. Un histograma ayuda a identificar tales distribuciones multimodales.

Evaluar el ajuste de una función de distribución de probabilidad

Los estadísticos frecuentemente utilizan histogramas para evaluar el ajuste de una función de distribución de probabilidad. Un histograma es una representación de los datos de muestra reales. Una línea de distribución ajustada intenta identificar la función de distribución de probabilidad que puede predecir correctamente la distribución de datos de la muestra. Los estadísticos frecuentemente superponen las funciones de distribución de probabilidad sobre el histograma para evaluar su ajuste.

Ejemplo de línea de distribución ajustada de histograma

Software de histograma
Pruebe TIBCO Spotfire - Prueba gratuita
Con TIBCO Spotfire, la solución de análisis más completa del mercado, descubra fácilmente nuevos conocimientos a partir de sus datos.

¿Cuáles son los otros gráficos relacionados con los histogramas?

Gráficos de barras

Cuando los datos no son numéricos o son discretos, un gráfico de barras se ajusta mejor que los histogramas. Por ejemplo, los gráficos de barras son útiles para trazar compras realizadas por diferentes categorías de clientes (invitado, usuario nuevo y usuario existente), ya que estas categorías son discretas y no numéricas. Por el contrario, los histogramas son útiles cuando graficamos compras frente a la edad de los clientes (continua y numérica).

Ajuste de línea

Cuando existen muchos puntos de datos con una desviación mínima, es posible que el histograma no visualice la naturaleza de los datos. En este caso, un ajuste de línea será más adecuado para visualizar la naturaleza de los datos.

Diagrama de dispersión

El histograma y el ajuste de línea son útiles cuando solo existe una variable independiente. Cuando existen dos variables independientes, un diagrama de dispersión será una mejor opción. En un diagrama de dispersión, el eje X representa una variable independiente y el eje Y representa la segunda variable. Si existen tres variables independientes, se puede usar un diagrama de dispersión 3D.