O que é a análise de correspondência?
A análise de correspondência, também chamada de média recíproca, é uma técnica útil de visualização da ciência de dados para descobrir e exibir a relação entre as categorias. Ela usa um gráfico que plota os dados, mostrando visualmente o resultado de dois ou mais pontos de dados.
É uma ferramenta estatística multivariada que foi proposta pela primeira vez em 1935, por Herman Otto Hartley. Hartley escreveu um artigo sobre tabelas de contingência que abriu caminho para Jean-Paul Benzécri desenvolver, na década de 1960, a técnica de análise que conhecemos hoje. Desde o seu desenvolvimento, ela cresceu em popularidade e nas formas de aplicação.
Uma análise de correspondência usa uma tabela de contingência (tabela de frequências) que mostra como as variáveis distribuem categorias. Os dados na tabela passam por uma série de transformações em relação aos dados ao seu redor para produzir dados relacionais. Os dados resultantes são então representados graficamente para mostrar essas relações visualmente.
Como funciona a análise de correspondência múltipla?
Nem tudo na vida funciona em uma escala perfeita de zero a dez, nem uma escala simples cobre todos os atributos e categorias necessários. É aqui que a análise de correspondência brilha. Essencialmente, ela pega uma tabela de dados e a transforma em comparações valiosas que permitem fazer inferências. Por exemplo, os dados de vendas de um ano são divididos em departamentos.
O que esta tabela faz é calcular os valores esperados, que é a média das linhas, multiplicada pela média das colunas e depois dividida pelo valor geral. Esse número é então subtraído do número original naquele quadrado. Esses números “residuais” mostram a associação, ou a falta dela, entre os rótulos de linha e coluna. Portanto, isso não mostra quanto dinheiro um departamento ganhou em um determinado mês; está mostrando a associação entre aquele mês e os números daquele departamento.
As figuras no gráfico mostram claramente uma relação entre os números; a distância entre os dois pontos mostra a força dessa relação. Mais pessoas compram utensílios domésticos em dezembro? Existe alguma relação entre mês e vendas de roupas? Por exemplo, se uma loja tiver uma grande liquidação de roupas em julho, pode-se esperar que a distância física entre as roupas e a liquidação de julho seja mais próxima do que nos outros meses. As dimensões horizontal e vertical explicam a porcentagem de variância dos dados.
Mas isso é simplista demais, porque a análise de correspondência mostra as relatividades. Não está mostrando qual mês tem as vendas mais altas; mostra que as vendas de roupas aumentaram apenas 29% em julho, enquanto as de artigos para casa aumentaram 82% em dezembro. O gráfico mostra as relatividades.
Se a organização estiver interessada apenas em como as vendas mudaram ao longo do tempo ou em qual departamento vende mais, os dados brutos e as tabelas simples serão uma maneira melhor de mostrar os dados.

Usos da análise de correspondência
Para uma empresa, a análise de correspondência é importante para poder entender facilmente uma variedade de relacionamentos. Por exemplo, o mapeamento de marca é uma forma de análise de correspondência. Os mapas de marca são usados para colocar atributos de negócios e produtos em um gráfico. Se os produtos forem colocados juntos no mapa, isso mostra uma semelhança entre a imagem ou o perfil, o que pode ajudar a informar a estratégia.
Para o marketing, uma análise de correspondência pode responder a perguntas como:
- Existem lacunas no mercado que poderiam ser preenchidas por este negócio?
- O posicionamento da marca está correto?
- A empresa poderia se diferenciar da concorrência?
- Quais atributos os concorrentes possuem ou, alternativamente, esse negócio possui?
Por exemplo, pense em uma análise de correspondência muito simples. A variável X que atravessa a linha horizontal é a relação custo-benefício, com preços acessíveis em uma extremidade e sofisticados na outra. A variável Y, correndo verticalmente, é a salubridade, indo de muito saudável a muito não saudável.
As empresas de fast food são plotadas no gráfico usando uma variedade de pontos de dados. Sendo mais acessível e menos saudável, o McDonald's seria colocado em um quadrante, enquanto uma lanchonete de saladas self-service pode estar no quadrante caro, mas saudável. Colocar todas as principais empresas de fast food no gráfico mostra muito claramente onde há muita concorrência ou onde há literalmente uma lacuna no mercado.
A análise de correspondência é valiosa em termos de percepções da marca por alguns motivos. Acaba com a interferência do tamanho da marca; não há efeito enganoso de ser uma empresa excessivamente grande. Ele também fornece uma visão geral rápida e intuitiva dos relacionamentos de atributos da marca que não são apresentados por outras técnicas gráficas.
Alternativas à análise de correspondência
O objetivo da análise de correspondência é comparar categorias. Existem alguns outros métodos estatísticos que ajudam a realizar a mesma tarefa ou uma tarefa semelhante, incluindo testes de qui quadrado, análise de componentes principais e análise fatorial, que serão explorados em mais detalhes abaixo.
Testes de qui quadrado
Os testes de qui quadrado mostram, de forma gráfica, a relação entre as categorias. Eles mostram uma estatística de “adequação de ajuste”, medindo quão bem os dados observados se encaixam nas distribuições esperadas. No entanto, eles precisam ter um quadrado de teste por relacionamento e, assim que você tiver um grupo de variáveis para comparar, elas se tornarão complicadas.
Testes de qui quadrado também examinam se linhas e colunas têm uma associação estatisticamente significativa. Embora a análise de correspondência esteja relacionada ao qui quadrado, não é um método inferencial para testar teorias e hipóteses.
Análise de componentes principais (PCA) e Análise fatorial (FA)
Essas técnicas de redução de dados são usadas regularmente para capturar a diferença entre um conjunto de variáveis, mas são usadas especificamente com variáveis contínuas. A análise fatorial tem uma extensão proposta para variáveis ordinais e binárias, mas esta assume que as variáveis são contínuas, com distribuição normal bivariada. A análise de componentes principais utiliza uma combinação linear de variáveis e análise fatorial para variáveis latentes.

Benefícios da análise de correspondência
Os benefícios da análise de correspondência são:
Exibição das relações entre categorias
A forma como as informações são apresentadas visualmente significa que qualquer pessoa pode entender facilmente a força das relações entre as categorias com um pouco de treinamento ou explicação.
É objetiva e não faz suposições
Como os resultados reais não são usados, mas um cálculo dos números em relação aos outros resultados, a análise de correspondência é muito objetiva. Não há suposições distributivas subjacentes e, portanto, acomoda todas as variáveis de categoria.
Existem múltiplas variáveis
A força óbvia da análise de correspondência é que ela lida com múltiplas variáveis de maneira fácil e simples. Isso é algo que nenhum outro método estatístico faz com tanta facilidade.
Torna as coisas mais simples
Ao contrário de muitas outras ferramentas de ciência de dados, a análise de correspondência usa uma tabela enorme e complicada com várias variáveis e categorias e, no final, fornece uma visualização simples.
Limitações e desafios da análise de correspondência
É facilmente incompreendida
Como a análise de correspondência mostra relações relativas, as pessoas que leem o gráfico geralmente interpretam mal os resultados. A ideia de que não há força de correlação por causa da distância física entre os pontos é um pensamento falho, derivado da não compreensão do gráfico.
Solução: para a maioria dos propósitos, uma simples tabela de vendas ou gráfico de barras seria muito mais fácil de ler e entender do que uma análise de correspondência.
Os dados devem ser consistentes
A análise de correspondência só é útil quando há pelo menos duas linhas e duas colunas nos dados. Não deve haver dados ausentes ou dados negativos, e todos os dados devem ter uma escala idêntica.
Muitas tabelas, por exemplo, têm uma coluna ou linha dedicada aos totais, a soma de toda essa linha ou coluna. No entanto, isso significa que a tabela não pode ser transformada em um gráfico de análise de correspondência porque os totais estão em uma escala diferente do restante da tabela.
Algumas tabelas incluem porcentagens e contagens. Isso tornará os dados inúteis, portanto, as porcentagens precisam ser removidas.
Solução: a maioria dos softwares de inteligência artificial removerá automaticamente totais, porcentagens ou linhas de dados não contadas. Eles podem transformar os dados para terem a mesma escala consistente e também remover negativos. No entanto, sem esses ajustes, a análise é inútil.
A análise de correspondência é muito influenciada por outliers
Quando a média dos dados está sendo calculada na tabela multivariada, se houver dados discrepantes, isso distorce todo o resultado. A influência dos dados discrepantes é enorme e pode fazer com que toda a análise seja deturpada.
Solução: além da remoção de todos os outliers, não há uma solução clara para isso. Além de garantir que os números estejam corretos, não há outros métodos para produzir relações gráficas mais precisas. No entanto, esses outliers são atenuados pela média dos pontos de dados, com alguns cientistas dizendo que os outliers são a força da análise de correspondência, não a fraqueza.
Escala de coordenadas nos mapas
Quando o gráfico de análise de correspondência é elaborado, as coordenadas de linha e coluna são criadas. No entanto, elas podem ser desenhadas de forma que as relações resultantes não sejam exibidas com precisão. Isso pode resultar em um mapa de aparência estranha, com conjuntos de dados agrupados e outros pontos de dados muito distantes.
Solução: se houver uma grande variação entre as coordenadas, não há como minimizar a distância entre os pontos sem alterar a escala no mapa.
Falta de significância estatística
Ao contrário dos qui quadrados, que mostram claramente significância estatística, a análise de correspondência mostra apenas uma relação. Não há menção ou maneira de medir se esses relacionamentos têm algum significado ou se a força do relacionamento se deve a algo que não seja o acaso.
A análise de correspondência ainda é o método geralmente aceito
Apesar da gama de desafios inerentes à análise de correspondência, ainda é a maneira geralmente aceita de exibir visualmente a relação e associação entre duas ou mais variáveis categóricas.
Embora usado principalmente em eventos científicos, há um lugar para análise de correspondência nos negócios. A análise de correspondência pode ser uma ferramenta valiosa, desde que as pessoas que visualizam o mapa entendam que ela não está plotando os pontos de dados brutos, mas a relação entre as variáveis. Uma vez entendido como esses mapas são criados e do que ela trata, a análise de correspondência é uma ferramenta poderosa que ignora os efeitos do dimensionamento da marca e fornece informações poderosas e facilmente interpretáveis sobre os relacionamentos dentro de uma marca e entre marcas.