O que é um gráfico de dispersão?
Um gráfico de dispersão, também chamado de gráfico de pontos dispersos, é um gráfico que mostra a relação entre duas variáveis. Ele é um tipo de gráfico incrivelmente poderoso, permitindo que o leitor entenda imediatamente um relacionamento ou tendência, o que seria impossível ver de quase qualquer outra forma.
Suas origens não são claras, mas os gráficos de dispersão modernos são baseados no sistema de coordenadas cartesianas de René Descartes, criado no século XVII. Os gráficos de dispersão são muito usados na ciência, com uma grande maioria usada em revistas e publicações científicas.
Os gráficos de dispersão são considerados uma das invenções mais versáteis e úteis da história dos gráficos estatísticos. Embora isso possa ser uma afirmação ousada, os gráficos de dispersão pegam dados confusos e dão um sentido a eles. Eles são muito mais do que apenas uma ferramenta de visualização; eles são uma ferramenta de descoberta.

Como funciona um gráfico de dispersão?
Como a maioria dos outros tipos de gráfico ou diagrama, um gráfico de dispersão tem um eixo X e um eixo Y. O X é a linha horizontal com a variável independente, e o Y é a linha vertical com a variável dependente. Uma escala uniforme é criada em ambos os eixos e, em seguida, é feita uma marca ou ponto no local que representa a interseção das duas coordenadas.
Existem outros padrões a serem encontrados em um gráfico de dispersão:
- Linear ou não linear: uma correlação linear— direta —pode ser formada através dos pontos de dados, mas uma correlação não linear pode mostrar uma relação curva.
- Fraco ou forte: quanto mais forte a correlação, mais próximos os pontos estarão juntos. Uma correlação fraca terá mais pontos de dados espalhados.
Para mostrar claramente essas relações e tendências, muitos gráficos de dispersão utilizam linhas de tendência. Uma linha de tendência é desenhada no gráfico para enfatizar a direção e a força da tendência.
Melhores práticas para gráficos de dispersão
Existem algumas dicas simples para garantir que seu gráfico de dispersão apresente as informações de forma clara e sem qualquer distorção nos dados.
Inicie o eixo Y em zero. Embora possa haver alguns casos em que uma escala sanfonada seja necessária para que os dados sejam apresentados com mais precisão, esses casos são poucos. Tenha muito cuidado ao decidir se uma escala sanfonada é necessária ou não.
Mantenha a escala distribuída uniformemente em ambos os eixos. Isso significa que não há distorção.
Pense cuidadosamente sobre os pontos fora da curva (outliers). Se houver motivos para suspeitar que eles estejam incorretos ou se não agregarem valor à sua história, pode ser prudente excluí-los.
Com gráficos de dispersão, geralmente é melhor incluir mais dados e variáveis, não menos. Ao contrário de outros tipos de gráficos, se feitos corretamente, os gráficos de dispersão não são confusos com mais dados. Considere adicionar variações de tamanho e cor aos pontos para incluir dados mais relevantes de uma forma que possam ser facilmente compreendidos.
Use linhas de tendência. Essas linhas geralmente são traçadas pelo software, embora possam ser adicionadas manualmente. Essas linhas ajudam a deixar as tendências muito claras para o leitor. No entanto, não tenha mais do que duas linhas de tendência, pois isso pode causar confusão.
Quando usar gráficos de dispersão
Além dos estudos científicos, há algumas ocasiões em que as empresas podem decidir usar um gráfico de dispersão:
- Para identificar anomalias
- Para ver como uma variável afeta outra
- Para detectar uma correlação, padrão, tendência ou relacionamento
Um corretor de imóveis pode querer ver uma relação entre a metragem quadrada e o preço pago pelas casas. Embora este gráfico de dispersão simples não possa detalhar e mostrar todas as variáveis, como localização, reformas recentes ou o tamanho do jardim, ele ainda dará aos compradores e vendedores uma ideia de como está o mercado e onde uma casa pode se encaixar na escala.
Uma empresa pode querer ver se existe uma relação entre os volumes de vendas e alguma outra variável. O clima influencia as vendas? O dia da semana? E quanto ao número de roupas em um cabide? São vendidas mais roupas se houver mais delas em exposição?
Benefícios dos gráficos de dispersão
Os gráficos de dispersão têm vários benefícios e vantagens.
Mostra claramente os relacionamentos
Este é sem dúvida o melhor gráfico para mostrar as relações entre duas variáveis. Ele não apenas mostra uma relação entre dois pontos de dados, mas também mostra um padrão ou tendência completos em um conjunto de dados.
Fácil de criar e de entender
Talvez por causa de sua popularidade, os gráficos de dispersão são imediatamente compreendidos. Seu propósito é facilmente reconhecido e seus dados são facilmente digeridos. Não apenas isso, mas para aqueles que desejam fazer um gráfico de dispersão, eles são simples de criar.
O intervalo de dados pode ser determinado
Os valores máximo e mínimo podem ser vistos em gráficos de dispersão, o que é importante para entender o conjunto de dados como um todo. No entanto, as discrepâncias podem criar confusão.
Desvantagens dos gráficos de dispersão
Pode ter dados demais
Se houver um gráfico de dispersão com plotagem excessiva, os padrões são de difícil visualização, pois resulta em uma mancha gigante. Portanto, embora um gráfico precise de dados suficientes para formar uma correlação ou padrão visível, há um ponto em que mais dados se tornam menos úteis.
Solução
Um mapa de calor pode ajudar, mostrando as partes mais cheias de pontos do gráfico. Considere codificar conjuntos de dados usando cores diferentes.
Nenhuma relação
Há momentos em que os dados podem parecer ter um padrão ou associação. Mas, embora a altura do dono e a propriedade de um gato possam parecer relacionadas, provavelmente não são.
Solução
Evite plotar variáveis que provavelmente não estejam relacionadas.
Correlação não é igual a causalidade
Lembre-se sempre de que correlação não é igual a causalidade. Só porque existe uma correlação, não significa que uma causa a outra. Embora possa parecer que pessoas altas possuem mais gatos, é improvável que a altura seja a causa da propriedade de gatos. Relações ainda mais lógicas podem sucumbir a isso também; enquanto as vendas podem aumentar quando o tempo está frio, isso se deve ao clima ou a alguma terceira variável, como o chocolate quente grátis que a loja oferece aos clientes?
Solução
Não atribua causalidade com base em uma correlação.

Alternativas a um gráfico de dispersão
Gráfico de espinha de peixe
Um diagrama de espinha de peixe se assemelha a um esqueleto de peixe. A “cabeça” é o problema, e as causas do problema saem da espinha, assim como as espinhas de um peixe. Este é o outro gráfico primário que as pessoas usam para ajudar a estabelecer a causalidade. No entanto, ele não usa dados quantitativos, como um gráfico de dispersão; em vez disso, é mais como uma sessão de brainstorming orgânico. São gráficos muito diferentes, projetados para processos diferentes. Embora possa haver uma causa e um efeito, este é o limite das semelhanças dos gráficos.