O que é um gráfico de histograma?

Um histograma é um gráfico usado para representar a distribuição de frequência de alguns pontos de dados de uma única variável. Os histogramas geralmente classificam os dados em vários “compartimentos” ou “grupos de intervalo” e contam quantos pontos de dados pertencem a cada um desses compartimentos.

Exemplo de gráfico de histograma

O histograma foi inventado por Karl Pearson, um matemático inglês. Os histogramas são especificamente úteis em estatística, pois podem representar a distribuição de dados de uma amostra.

O exemplo de histograma abaixo representa as notas dos testes de alunos. As notas do aluno são classificadas em vários intervalos. A altura de cada barra representa o número de alunos que alcançou uma nota nesse intervalo.

Exemplo de histograma de notas de alunos

Demonstração de histograma
Visualizações/gráficos com Spotfire
Confira esta demonstração para ver como o Spotfire torna fácil começar a visualizar todos os aspectos de seus dados.

Quando um histograma deve ser usado?

Quando os dados têm uma única variável independente

Quando os dados dependem de uma única variável, como a idade de um cliente, um histograma deve ser usado. Os histogramas ajudam o visualizador a entender a distribuição da variável dependente. Por exemplo, o saldo bancário dos clientes com base na idade.

Quando os dados têm um intervalo contínuo

Quando os dados de amostra representam um intervalo contínuo, como pontuações de testes de alunos, um histograma é útil. Quando os dados têm lacunas significativas em seu intervalo, um histograma pode não ser adequado.

Quando dois conjuntos de dados precisam ser comparados

Os histogramas são uma excelente ferramenta para comparar a distribuição de frequência de dois conjuntos de dados. Por exemplo, considere o número de compras feitas por clientes de diferentes faixas etárias. Um histograma pode ser usado para comparar esses dados em várias lojas.

Quais são os principais usos dos histogramas?

Análise da distribuição de frequência

Os histogramas são particularmente úteis para analisar a distribuição de frequência de dados de amostra. Em um experimento estatístico, a distribuição de frequência é o número de observações que pertencem a uma determinada categoria (ou “compartimento” na terminologia do histograma).

No exemplo abaixo, o histograma mostra as compras feitas por clientes de diferentes faixas etárias. O histograma mostra claramente a gama de faixas etárias em relação às compras. De acordo com o histograma, os clientes da faixa etária de 50 a 70 anos fizeram o maior número de compras.

Exemplo de histograma de idades de clientes

Análise da simetria de dados

Com histogramas, os visualizadores podem analisar a natureza das distribuições de frequência. Algumas das distribuições podem ser simétricas, o que significa que a média da distribuição se situa precisamente em torno do valor médio do conjunto de dados. Algumas outras distribuições podem não ser simétricas, mas assimétricas à esquerda ou à direita. Isso mostra que o valor médio dos dados está próximo do início ou do final do intervalo de dados. Alguns dos dados terão uma distribuição uniforme, onde cada compartimento tem quase o mesmo número de pontos de dados. A figura abaixo mostra alguns exemplos de distribuições de histograma.

Exemplo de distribuição de histograma

Análise da mudança ao longo do tempo

Os histogramas podem analisar como resultados de processo mudam com o tempo. Por exemplo, o número de itens defeituosos fabricados durante um turno em uma fábrica pode mudar. Uma organização pode usar esses dados para determinar as horas em que os defeitos mais ocorrem e buscar medidas preventivas.

Quais são as melhores práticas ao usar um histograma?

Usar uma linha de base zero

Ao usar histogramas, o valor base deve ser sempre zero. Como a altura de cada barra representa o número de amostras em um intervalo, usar uma base diferente de zero distorcerá a visualização de uma distribuição de frequência.

Escolher o número certo de compartimentos

Uma decisão importante ao criar os histogramas é o número de compartimentos. Normalmente, as ferramentas terão algoritmos diferentes para definir o número de compartimentos. Muitos compartimentos resultarão em uma distribuição de dados grosseira. Os valores que não são significativos (ruído) também podem ser representados, o que dificulta a análise. Se houver poucos compartimentos, o histograma não terá detalhes suficientes para fazer uma inferência dos dados. Ao fazer histogramas, é necessária uma certa quantidade de tentativa e erro no tamanho do compartimento.

Usar tamanhos de compartimentos iguais

Embora a maioria dos histogramas tenha compartimentos de tamanhos iguais, esse não é um requisito fixo. Em conjuntos de dados esparsos, pode parecer conveniente combinar alguns compartimentos, resultando em tamanhos de compartimentos desiguais. Isso dificulta a interpretação dos histogramas. A área total de um histograma representa os dados inteiros, e cada barra representa suas partes. Com tamanhos de compartimentos iguais, basta observar a altura das barras para identificar a frequência dos pontos de dados. Quando os tamanhos dos compartimentos tornam-se desiguais, é preciso olhar para a área de cada barra e não para a altura. Normalmente, é mais fácil interpretar a altura do que a área, portanto, usar tamanhos de compartimentos iguais é uma boa prática para facilitar a interpretação.

Quando os histogramas não devem ser usados?

Quando os dados são não numéricos

Os histogramas são mais adequados para a representação gráfica de uma variável numérica com um intervalo de dados contínuo. Se os dados consistem em valores não numéricos, como sexo ou localização, o histograma claramente não é uma boa escolha. Gráficos de pizza ou barras podem ser usados neste caso.

Quando o tamanho da amostra é pequeno

Os histogramas funcionam bem quando há pontos de dados suficientes na amostra. Quando há poucos pontos de dados, o histograma não consegue visualizar a sua distribuição. Como regra geral, os histogramas são úteis quando há vinte ou mais observações. Quando há menos pontos de dados, é melhor usar gráficos de probabilidade padrão.

Quando há grandes lacunas nos dados

Os histogramas são mais adequados quando os dados da amostra são contínuos. Os histogramas representam pontos de dados que pertencem a diferentes compartimentos, portanto, o gráfico é ineficiente quando os dados estão ausentes ou indefinidos.

Quais são as aplicações dos histogramas?

Enquanto gráficos de pizza e gráficos de barras são ferramentas de visualização de dados, os histogramas são predominantemente usados em estatísticas. Os estatísticos usam histogramas para entender melhor os dados da amostra. Os histogramas são frequentemente usados para explorar várias propriedades estatísticas dos dados.

Para visualizar a variabilidade

Suponha que existam dois conjuntos de dados com valores médios semelhantes. A partir dessas informações, os conjuntos de dados parecem semelhantes. Quando plotamos esses dados em histogramas, a variabilidade dos dados se torna aparente. Os principais pontos de dados estão entre 40-70 no histograma esquerdo, enquanto que à direita, eles são distribuídos quase igualmente entre 20-100. Mesmo que a média seja a mesma, um histograma mostra facilmente a variação dos dados.

Exemplo de histograma de variação de dados

Para identificar valores atípicos

Em estatística, um valor atípico (outlier) é um ponto de dados que se encontra a uma distância anormal dos outros pontos de dados. Os histogramas são úteis para visualizar esses valores atípicos. Eles aparecem como uma barra isolada e ocorrem devido a anormalidade nos dados ou a alguns erros de entrada de dados.

Para identificar distribuições multimodais

Em estatística, uma distribuição multimodal é aquela com múltiplos picos. Por exemplo, o histograma abaixo tem dois picos diferentes. As características multimodais de um conjunto de dados podem não ser facilmente identificáveis pelo cálculo da média e variância da distribuição. Um histograma ajuda a identificar tais distribuições multimodais.

Para avaliar o ajuste de uma função de distribuição de probabilidade

Os estatísticos costumam usar histogramas para avaliar a adequação de uma função de distribuição de probabilidades. Um histograma é uma representação dos dados de amostra reais. Uma linha de distribuição ajustada tenta identificar a função de distribuição de probabilidade que pode prever corretamente a distribuição dos dados da amostra. Os estatísticos geralmente sobrepõem as funções de distribuição de probabilidade ao histograma para avaliar sua adequação.

Exemplo de linha de distribuição ajustada por histograma

Software de histograma
Experimente TIBCO Spotfire - Teste Grátis
Com o TIBCO Spotfire, a solução analítica mais completa do mercado, descubra facilmente novos insights de seus dados.

Quais são outros gráficos relacionados a histogramas?

Gráficos de barras

Quando os dados são não numéricos ou discretos, um gráfico de barras é mais adequado do que um histograma. Por exemplo, os gráficos de barras são úteis para plotar compras feitas por diferentes categorias de clientes (convidado, novo usuário e usuário existente), pois essas categorias são discretas e não numéricas. Em contraste, os histogramas são úteis quando plotamos compras em relação à idade dos clientes (contínua e numérica).

Ajuste de linha

Quando há muitos pontos de dados com desvio mínimo, o histograma pode não visualizar a natureza dos dados. Nesse caso, um ajuste de linha é mais adequado para visualizar a natureza dos dados.

Gráfico de dispersão

O histograma e o ajuste de linha são úteis quando há apenas uma variável independente. Quando há duas variáveis independentes, um gráfico de dispersão é a melhor opção. Em um gráfico de dispersão, o eixo X representa uma variável independente e o eixo Y representa a segunda variável. Se houver três variáveis independentes, um gráfico de dispersão 3D pode ser usado.