Cos'è l'analisi della varianza (ANOVA)?

Analisi della varianza (ANOVA) è una formula statistica usata per confrontare le varianze tra le medie (o la media) di gruppi diversi. Un range di scenari la utilizza per stabilire se c'è qualche differenza tra le medie di gruppi diversi.

Diagramma dell'analisi della varianza (ANOVA)

Per esempio, per studiare l'efficacia di diversi farmaci per il diabete, gli scienziati realizzano progetti ed esperimenti per esplorare il rapporto tra il tipo di farmaco e il livello di zucchero che risulta essere presente nel sangue. La popolazione campione è un insieme di persone. Dividiamo la popolazione campione in più gruppi e ogni gruppo riceve una particolare medicina per un periodo di sperimentazione. Alla fine del periodo di sperimentazione, i livelli di glicemia vengono misurati per ogni singolo partecipante. Poi, per ogni gruppo, viene calcolato il livello medio di glicemia. ANOVA aiuta a confrontare queste medie di gruppo per scoprire se sono statisticamente diverse o se sono simili.

Il risultato di ANOVA è il "test F". Questo rapporto mostra la differenza tra la varianza all'interno del gruppo e la varianza tra i gruppi, che alla fine genera una cifra che permette di concludere che l'ipotesi nulla è supportata o rifiutata. Se tra i gruppi c'è una differenza significativa, l'ipotesi nulla non è supportata e il rapporto F sarà maggiore.

Visualizzazioni/grafici con Spotfire
Visualizzazioni/grafici con Spotfire
Dai un'occhiata a questa demo per vedere quanto Spotfire sia in grado di rendere facile la visualizzazione dei tuoi dati sotto ogni aspetto.

Terminologia ANOVA

Variabile dipendente: questo è l'elemento da misurare che è teorizzato per essere influenzato dalle variabili indipendenti.

Variabile/i indipendente/i: sono gli elementi misurati che possono avere un effetto sulla variabile dipendente.

Un'ipotesi nulla (H0): ciò avviene quando non c'è differenza tra i gruppi o le medie. A seconda del risultato del test ANOVA, l'ipotesi nulla sarà accettata o rifiutata.

Un'ipotesi alternativa (H1): quando si teorizza che ci sia una differenza tra gruppi e mezzi.

Fattori e livelli: nella terminologia ANOVA, una variabile indipendente è chiamata fattore che influenza la variabile dipendente. Il livello denota i diversi valori della variabile indipendente utilizzati in un esperimento.

Modello a fattore fisso: alcuni esperimenti utilizzano soltanto un insieme distinto di livelli per i fattori. Per esempio, un test a fattore fisso prevederebbe il test di tre diversi dosaggi di un farmaco e di non considerare altri dosaggi.

Modello a fattore casuale: questo modello estrae un valore casuale di livello da tutti i possibili valori della variabile indipendente.

Qual è la differenza tra un fattore e due fattori ANOVA?

Ci sono due tipi di ANOVA.

ANOVA a una via

L'analisi della varianza a una via è anche conosciuta come ANOVA a fattore singolo o ANOVA semplice. Come suggerisce il nome, l'ANOVA a una via è adatta per esperimenti con una sola variabile indipendente (fattore) con due o più livelli. Ad esempio, una variabile dipendente può essere il mese dell'anno in cui ci sono più fiori in giardino. Ci saranno dodici livelli. Un'ANOVA unidirezionale presuppone:

  • Indipendenza: il valore della variabile dipendente per un'osservazione è indipendente dal valore di qualsiasi altra osservazione.
  • Normalità: il valore della variabile dipendente è distribuito normalmente
  • Varianza: la varianza è comparabile nei diversi gruppi di esperimento.
  • Continuità: la variabile dipendente (numero di fiori) è continua e può essere misurata su una scala che può essere suddivisa.

ANOVA fattoriale completa (chiamata anche ANOVA a due vie)

L'ANOVA fattoriale completa viene usata quando ci sono due o più variabili indipendenti. Ognuno di questi fattori può avere più livelli. L'ANOVA fattoriale completa può essere utilizzata soltanto nel caso di un esperimento fattoriale completo, in cui si usa ogni possibile permutazione dei fattori e dei loro livelli. Questo potrebbe essere il mese dell'anno in cui ci sono più fiori nel giardino, e poi il maggior numero di ore di sole. Questa ANOVA a due vie non misura soltanto la variabile indipendente rispetto alla variabile indipendente, ma se i due fattori si influenzano a vicenda. Un'ANOVA a due vie presuppone:

  • Continuità: come per un ANOVA a una via, la variabile dipendente dovrebbe essere continua.
  • Indipendenza: ogni campione è indipendente dagli altri campioni, senza crossover.
  • Varianza: la varianza dei dati nei diversi gruppi è la stessa.
  • Normalità: i campioni sono rappresentativi di una popolazione normale.
  • Categorie: le variabili indipendenti dovrebbero essere in categorie o gruppi separati.

Perché ANOVA funziona?

Alcune persone mettono in dubbio la necessità di ANOVA; dopo tutto, i valori medi possono essere valutati semplicemente guardandoli. Ma l'ANOVA non si limita a confrontare le medie.

Anche se i valori medi dei vari gruppi sembrano essere diversi, ciò potrebbe essere dovuto a un errore di campionamento piuttosto che all'effetto della variabile indipendente sulla variabile dipendente. Se è dovuto a un errore di campionamento, la differenza tra le medie dei gruppi non ha senso. L'ANOVA aiuta a scoprire se la differenza nei valori medi è statisticamente significativa.

Inoltre, l'ANOVA rivela indirettamente se una variabile indipendente sta influenzando la variabile dipendente. Per esempio, nell'esperimento del livello di glicemia di cui sopra, supponiamo che l'ANOVA riscontri che le medie di gruppo non siano statisticamente significative e che la differenza tra le medie di gruppo sia dovuta esclusivamente all'errore di campionamento. Questo risultato implica che il tipo di farmaco (variabile indipendente) non è un fattore significativo che influenza il livello di zucchero nel sangue.

Limiti di ANOVA

L'ANOVA può esclusivamente indicare se è presente una differenza significativa tra le medie di almeno due gruppi, ma non riesce a spiegare quale coppia differisce nelle loro medie. Se c'è bisogno di dati granulari, l'attuazione di ulteriori processi statistici successivi aiuterà a scoprire quali gruppi differiscono nel valore medio. Generalmente, l'ANOVA è utilizzata in combinazione con altri metodi statistici.

L'ANOVA presuppone anche che il set di dati sia uniformemente distribuito, poiché confronta solo le medie. Se i dati non sono distribuiti su una curva normale e ci sono valori aberranti, l'ANOVA non è il processo giusto per interpretare i dati.

Allo stesso modo, l'ANOVA presuppone che le deviazioni standard siano le stesse o simili tra i gruppi. Se c'è una grande differenza nelle deviazioni standard, la conclusione del test potrebbe essere imprecisa.

Come si usa l'ANOVA nella Data Science?

Una delle più grandi sfide nel machine learning è la selezione delle funzionalità più affidabili e utili che vengono utilizzate per istruire un modello. L'ANOVA aiuta a selezionare le migliori caratteristiche proprio a tal fine. L'ANOVA minimizza il numero di variabili di input per ridurre la complessità del modello. L'ANOVA aiuta a stabilire se una variabile indipendente stia influenzando una variabile obiettivo.

Un esempio dell'uso dell'ANOVA nella data science è il rilevamento dello spam via e-mail. A causa dell'enorme numero di e-mail e caratteristiche delle e-mail, è diventato molto difficile e dispendioso in termini di risorse individuare e rifiutare tutte le email di spam. ANOVA e test f sono stati impiegati per individuare le caratteristiche che erano importanti per identificare correttamente quali e-mail erano spam e quali no.

Domande a cui l'ANOVA aiuta a rispondere

Anche se l'ANOVA implica passaggi statistici complessi, è una tecnica vantaggiosa per le aziende attraverso l'uso dell'IA. Le imprese usano l'ANOVA per prendere decisioni su quale alternativa scegliere tra molte opzioni possibili. Per esempio, l'ANOVA può aiutare a:

  • confrontare la resa di due diverse varietà di grano con tre diverse marche di fertilizzanti.
  • confrontare l'efficacia di varie pubblicità sui social media sulle vendite di un particolare prodotto.
  • confrontare l'efficacia di diversi lubrificanti in diversi tipi di veicoli.
Prova TIBCO Spotfire
Prova TIBCO Spotfire - Prova gratuita
Con TIBCO Spotfire, la soluzione di analisi più completa sul mercato, scopri facilmente nuove insight dai tuoi dati.