Cos'è l'analisi delle corrispondenze?
L'analisi delle corrispondenze, chiamata anche media reciproca, è un'utile tecnica di visualizzazione della scienza dei dati per scoprire e visualizzare la relazione tra le categorie. Utilizza un grafico che traccia i dati, mostrando visivamente il risultato di due o più punti dati.
È uno strumento statistico multivariato che fu proposto per la prima volta nel 1935 da Herman Otto Hartley. Hartley scrisse un documento sulle tabelle di contingenza che aprì la strada a Jean-Paul Benzécri per sviluppare la tecnica di analisi negli anni '60 che conosciamo oggi. Dal suo sviluppo, è cresciuta in popolarità e nei modi in cui viene applicata.
Un'analisi delle corrispondenze utilizza una tabella di contingenza — una tabella di frequenze — che mostra come le variabili distribuiscono le categorie. I dati nella tabella subiscono una serie di trasformazioni in relazione ai dati circostanti per produrre dati relazionali. I dati risultanti vengono poi rappresentati in un grafico per mostrare visivamente queste relazioni.
Come funziona l'analisi delle corrispondenze multiple?
Non tutto nella vita scorre su una scala perfetta da zero a dieci, né una semplice scala copre tutti gli attributi e le categorie necessarie. È qui che subentra l'analisi delle corrispondenze. Essenzialmente, prende una tabella di dati e la trasforma in preziosi confronti che permettono di trarre delle deduzioni. Per esempio, i dati di vendita di un anno sono suddivisi in reparti.
Quello che fa questa tabella è calcolare i valori attesi, che è la media delle righe, moltiplicata per la media delle colonne e poi divisa per il valore complessivo. Questa cifra viene quindi sottratta dalla cifra originale in quel quadrato. Questi numeri "residui" mostrano l'associazione, o la mancanza di essa, tra le etichette della riga e della colonna. Quindi ciò non mostra quanti soldi ha incassato un reparto in un certo mese; mostra l'associazione tra quel mese e le cifre di quel reparto.
Le cifre sul grafico mostrano chiaramente una relazione tra le cifre; la distanza tra i due punti mostra la forza di questa relazione. La gente compra più articoli per la casa in dicembre? Esiste una relazione tra il mese e le vendite di abbigliamento? Per esempio, se un negozio ha una grande vendita di abbigliamento a luglio, ci si potrebbe aspettare che la distanza fisica tra le vendite di abbigliamento e luglio sia più stretta rispetto agli altri mesi. Le dimensioni orizzontale e verticale spiegano la percentuale di varianza dei dati.
Ciò è tuttavia troppo semplicistico perché l'analisi della corrispondenza mostra le relatività. Non mostra quale mese ha le vendite più alte; mostra che le vendite di abbigliamento hanno avuto un picco solo del 29% a luglio, mentre gli articoli per la casa hanno avuto un picco dell'82% a dicembre. Il grafico mostra le relatività.
Se l'organizzazione è interessata solo a come le vendite sono cambiate nel tempo o quale reparto vende di più, allora i dati grezzi e le semplici tabelle saranno un modo migliore per mostrare i dati.

Usi dell'analisi delle corrispondenze
Per un'azienda, l'analisi delle corrispondenze è importante per essere in grado di comprendere facilmente una varietà di relazioni. Per esempio, la mappatura del marchio è una forma di analisi delle corrispondenze. Le mappe del marchio sono usate per mettere gli attributi aziendali e i prodotti su un grafico. Se i prodotti sono posizionati vicini sulla mappa, questa mostra una somiglianza tra l'immagine e il profilo, che può aiutare a informare la strategia.
Per il marketing, un'analisi delle corrispondenze può rispondere a domande come:
- Ci sono lacune nel mercato che potrebbero essere colmate da questa attività?
- Il posizionamento del marchio è corretto?
- L'azienda potrebbe differenziarsi dalla concorrenza?
- Quali attributi possiedono i concorrenti o, in alternativa, possiede questa azienda?
Per esempio, pensa a un'analisi delle corrispondenze molto semplice. La variabile X che corre lungo la linea orizzontale è il rapporto qualità-prezzo, con un prezzo accessibile ad un'estremità e un prezzo di fascia alta all'altra. La variabile Y, che corre verticalmente, è la salubrità, che va da molto sano a molto malsano.
Le aziende di fast food sono tracciate sul grafico usando una varietà di punti dati. Essendo più economico e più malsano, McDonald's potrebbe essere collocato in un quadrante, mentre un'insalatiera fai-da-te potrebbe essere sul quadrante costoso ma sano. Posizionare tutte le maggiori compagnie di fast food sul grafico mostra molto chiaramente dove c'è molta concorrenza o dove c'è letteralmente un vuoto nel mercato.
L'analisi delle corrispondenze è preziosa in termini di percezione del marchio per alcune ragioni. Elimina l'interferenza delle dimensioni del marchio; non c'è nessun effetto fuorviante derivante dall'essere un'azienda troppo grande. Dà anche una panoramica rapida e intuitiva delle relazioni tra gli attributi del marchio che non sono presentate da altre tecniche grafiche.
Alternative all'analisi delle corrispondenze
Lo scopo dell'analisi delle corrispondenze è confrontare le categorie. Ci sono alcuni altri metodi statistici che vanno in parte a svolgere lo stesso o un compito simile, compresi i test chi-quadrato, l'analisi delle componenti principali e l'analisi dei fattori, che saranno esplorati più in dettaglio in seguito.
Test del chi-quadrato
I test chi-quadrato mostrano, in forma grafica, la relazione tra le categorie. Mostrano una statistica di "bontà di adattamento", misurando quanto bene i dati osservati si adattano alle distribuzioni attese. Tuttavia, hanno bisogno di avere un quadrato di test per ogni relazione, e quindi una volta che si ha un gruppo di variabili da confrontare, diventano ingombranti.
I test del chi-quadrato esaminano anche se le righe e le colonne hanno un'associazione statisticamente significativa. Mentre l'analisi delle corrispondenze è legata al chi-quadrato, non è un metodo inferenziale per testare teorie e ipotesi.
Analisi delle componenti principali (PCA) e analisi dei fattori (FA)
Queste tecniche di riduzione dei dati sono regolarmente utilizzate per catturare la differenza tra un insieme di variabili. Ma sono specificamente usate con variabili continue. L'analisi dei fattori ha un'estensione proposta per le variabili ordinali e binarie, ma questo presuppone che le variabili siano continue, con distribuzione normale bivariata. L'analisi dei componenti principali usa una combinazione lineare di variabili e l'analisi dei fattori per le variabili latenti.

Vantaggi dell'analisi delle corrispondenze
I vantaggi dell'analisi delle corrispondenze sono:
Mostra le relazioni tra le categorie
Il modo in cui le informazioni sono presentate visivamente significa che chiunque può facilmente comprendere la forza delle relazioni tra le categorie con un po' di allenamento o spiegazione.
È oggettiva e non fa supposizioni
Poiché non vengono utilizzati i risultati effettivi, ma un calcolo delle cifre in relazione con gli altri risultati, l'analisi della corrispondenza è molto oggettiva. Non ci sono ipotesi distributive sottostanti, e quindi si adatta a tutte le variabili di categoria.
Ci sono più variabili
La forza evidente dell'analisi delle corrispondenze è che gestisce facilmente e semplicemente variabili multiple. Questo è qualcosa che nessun altro metodo statistico fa con tanta facilità.
Rende le cose più semplici
A differenza di molti altri strumenti di scienza dei dati, l'analisi delle corrispondenze prende una tabella enorme e ingombrante con più variabili e categorie e, alla fine, fornisce una semplice visualizzazione.
Limiti e sfide dell'analisi delle corrispondenze
È facilmente fraintendibile
Poiché l'analisi delle corrispondenze mostra relazioni relative, le persone che leggono il grafico spesso fraintendono i risultati. L'idea che non ci sia forza di correlazione a causa della distanza fisica tra i punti è un pensiero errato nato dalla mancata comprensione del grafico.
Soluzione: per la maggior parte degli scopi, una semplice tabella delle vendite o un grafico a barre sarebbe molto più facilmente leggibile e comprensibile di un'analisi delle corrispondenze.
I dati devono essere coerenti
L'analisi delle corrispondenze è utile solo quando ci sono almeno due righe e due colonne nei dati. Non ci dovrebbero essere dati mancanti, nessun dato negativo e tutti i dati devono avere una scala identica.
Molte tabelle, per esempio, hanno una colonna o una riga dedicata ai totali, la somma di tutta quella riga o colonna. Tuttavia, questo significa che la tabella non può essere trasformata in un grafico di analisi delle corrispondenze perché i totali sono su una scala diversa dal resto della tabella.
Alcune tabelle includono sia le percentuali che i conteggi. Questo renderà i dati inutili, quindi le percentuali devono essere rimosse.
Soluzione: la maggior parte dei software di intelligenza artificiale rimuovono automaticamente i totali, le percentuali o le linee di dati non conteggiati. Può trasformare i dati per essere sulla stessa scala coerente e anche per rimuovere i negativi. Tuttavia, senza queste regolazioni, l'analisi è inutile.
L'analisi delle corrispondenze è troppo influenzata dagli outlier
Quando i dati vengono mediati nella tabella multivariata, se ci sono dati fuori scala, l'intero risultato viene distorto. L'influenza dei dati anomali è enorme e può causare un'errata rappresentazione dell'intera analisi.
Soluzione: a parte la rimozione di tutti gli outlier, non c'è una soluzione chiara a questo. Oltre a garantire che le cifre siano corrette, non ci sono altri metodi per produrre relazioni grafiche più accurate. Tuttavia, questi outlier sono mitigati dalla media dei punti dati, con alcuni scienziati che dicono che gli outlier sono la forza dell'analisi delle corrispondenze, non la debolezza.
Ridimensionamento delle coordinate sulle mappe
Quando si disegna il grafico dell'analisi delle corrispondenze, vengono create le coordinate di riga e colonna. Tuttavia, queste possono essere disegnate in modo tale che le relazioni risultanti non siano visualizzate accuratamente. Questo può determinare una mappa dall'aspetto strano, con gruppi di dati raggruppati strettamente insieme e altri punti di dati posizionati molto lontano.
Soluzione: se c'è una grande varianza tra le coordinate, non c'è modo di minimizzare la distanza tra i punti senza cambiare la scala della mappa.
Mancanza di significatività statistica
A differenza del chi-quadrato, che mostra chiaramente la significatività statistica, l'analisi delle corrispondenze mostra solo una relazione. Non c'è nessuna menzione o modo di misurare se queste relazioni hanno qualche significato o se la forza della relazione è dovuta a qualcosa di diverso dal caso.
L'analisi delle corrispondenze è ancora il metodo generalmente accettato
Nonostante la gamma di sfide inerenti all'analisi delle corrispondenze, è ancora il modo generalmente accettato di mostrare visivamente la relazione e l'associazione tra due o più variabili categoriche.
Sebbene sia usato principalmente nelle imprese scientifiche, c'è un posto per l'analisi delle corrispondenze negli affari. L'analisi delle corrispondenze può essere uno strumento prezioso, a patto che le persone che visualizzano la mappa capiscano che non sta tracciando i punti dati grezzi, ma la relazione tra le variabili. Una volta capito come vengono create queste mappe e in cosa consiste l'analisi, l'analisi delle corrispondenze è uno strumento potente che ignora gli effetti di brand-sizing e fornisce intuizioni potenti e facilmente interpretabili sulle relazioni all'interno di un marchio e tra i marchi.