Che cos'è un grafico a istogramma?

Un istogramma è un grafico utilizzato per rappresentare la distribuzione di frequenza di alcuni punti dati di una variabile. Gli istogrammi spesso classificano i dati in vari "bin" o "gruppi di intervallo" e contano quanti punti dati appartengono a ciascuno di questi bin.

Esempio di grafico a istogramma

L'istogramma è stato inventato da Karl Pearson, un matematico inglese. Gli istogrammi sono particolarmente utili in statistica in quanto possono rappresentare la distribuzione dei dati di un campione.

L'esempio di istogramma qui sotto rappresenta i punteggi dei test degli studenti. I punteggi degli studenti sono classificati in diversi intervalli. L'altezza di ogni barra rappresenta il numero di studenti che hanno ottenuto un punteggio in quell'intervallo.

Esempio di istogramma dei punteggi degli studenti

Demo dell'istogramma
Visualizzazioni/grafici con Spotfire
Dai un'occhiata a questa demo per vedere quanto Spotfire sia in grado di rendere facile la visualizzazione dei tuoi dati sotto ogni aspetto.

Quando si deve usare un istogramma?

Quando i dati hanno una singola variabile indipendente

Quando i dati dipendono da una singola variabile, come l'età di un cliente, è opportuno utilizzare un istogramma. Gli istogrammi aiutano a comprendere la distribuzione della variabile dipendente. Ad esempio, il saldo bancario dei clienti in base alla loro età.

Quando i dati hanno un intervallo continuo

Quando i dati del campione rappresentano un intervallo continuo, come i punteggi dei test degli studenti, un istogramma è utile. Quando i dati presentano lacune significative nel loro intervallo, l'istogramma potrebbe non essere adatto.

Quando è necessario confrontare due insiemi di dati

Gli istogrammi sono uno strumento eccellente per confrontare la distribuzione di frequenza di due serie di dati. Ad esempio, si consideri il numero di acquisti effettuati da clienti di diverse fasce d'età. Un istogramma può essere utilizzato per confrontare questi dati tra più negozi.

Quali sono gli usi principali degli istogrammi?

Analisi della distribuzione di frequenza

Gli istogrammi sono particolarmente utili per analizzare la distribuzione di frequenza dei dati del campione. In un esperimento statistico, la distribuzione di frequenza è il numero di osservazioni che appartengono a una particolare categoria (o "bin" nella terminologia degli istogrammi).

Nell'esempio seguente, l'istogramma mostra gli acquisti effettuati da clienti di diverse fasce d'età. L'istogramma mostra chiaramente la gamma di gruppi di età rispetto agli acquisti. Secondo l'istogramma, i clienti della fascia d'età 50-70 hanno effettuato il maggior numero di acquisti.

Esempio di istogramma delle età dei clienti

Analisi della simmetria dei dati

Con gli istogrammi è possibile analizzare la natura delle distribuzioni di frequenza. Alcune distribuzioni possono essere simmetriche, il che significa che la media della distribuzione è esattamente intorno al valore medio dell'insieme di dati. Altre distribuzioni possono non essere simmetriche, ma con un'inclinazione a destra o a sinistra. Ciò indica che il valore medio dei dati si trova all'inizio o alla fine dell'intervallo di dati. Alcuni dati avranno una distribuzione uniforme in cui ogni bin ha quasi lo stesso numero di punti dati. La figura seguente mostra alcuni esempi di distribuzione di istogrammi.

Esempio di distribuzione dell'istogramma

Analisi del cambiamento nel tempo

Gli istogrammi sono in grado di analizzare come i risultati del processo cambiano nel tempo. Ad esempio, il numero di articoli difettosi prodotti durante un turno in una fabbrica può cambiare nel tempo. Un'organizzazione può utilizzare questi dati per determinare le ore in cui i difetti sono più elevati e cercare misure preventive.

Quali sono le migliori pratiche quando si usa un istogramma?

Utilizzo di una linea di base zero

Quando si utilizzano gli istogrammi, il valore di base deve sempre essere zero. Poiché l'altezza di ogni barra rappresenta il numero di campioni in un intervallo, l'uso di una base diversa da zero altera la visualizzazione di una distribuzione di frequenza.

Scelta del giusto numero di bin

Una decisione importante durante la creazione degli istogrammi è il numero di bin. Di solito gli strumenti hanno diversi algoritmi per definirlo. Un numero eccessivo di bin fa sì che la distribuzione dei dati appaia grossolana. Anche i valori non significativi (rumore) potrebbero essere rappresentati, rendendo difficile l'analisi. Se i bin sono troppo pochi, l'istogramma non avrà abbastanza dettagli per poter trarre un'inferenza dai dati. Durante la creazione degli istogrammi, è necessaria una certa dose di tentativi ed errori sulla dimensione dei bin.

Utilizzo di bin di uguali dimensioni

Sebbene la maggior parte degli istogrammi abbia bin di dimensioni uguali, non si tratta di un requisito rigoroso. Negli insiemi di pochi dati, può sembrare conveniente combinare alcuni bin, ottenendo così bin di dimensioni disuguali. Questo rende difficile l'interpretazione degli istogrammi. L'area totale di un istogramma rappresenta l'insieme dei dati e ogni barra rappresenta le sue parti. Se le dimensioni dei bin sono uguali, è sufficiente osservare l'altezza delle barre per individuare la frequenza dei punti dati. Quando le dimensioni dei bin diventano disuguali, è necessario osservare l'area di ciascuna barra piuttosto che l'altezza. Di solito è più facile interpretare l'altezza piuttosto che l'area, quindi l'uso di bin di dimensioni uguali è una buona prassi per una facile interpretazione.

Quando non si dovrebbero usare gli istogrammi?

Quando i dati non sono numerici

Gli istogrammi sono più adatti alla rappresentazione grafica di una variabile numerica con un intervallo di dati continuo. Se i dati sono costituiti da valori non numerici, come il sesso o la località, l'istogramma è chiaramente inadatto. In questo caso si possono utilizzare grafici a torta o a barre.

Quando la dimensione del campione è piccola

Gli istogrammi funzionano bene quando ci sono abbastanza punti dati nel campione. Quando i punti dati sono troppo pochi, l'istogramma non riesce a visualizzare la distribuzione dei dati. Come regola generale, gli istogrammi sono utili quando ci sono venti o più osservazioni. Quando ci sono meno punti dati, è meglio usare i grafici di probabilità standard.

Quando ci sono grandi lacune nei dati

Gli istogrammi sono più adatti quando i dati del campione sono continui. Gli istogrammi rappresentano punti dati che appartengono a bin diversi, quindi il grafico è inefficiente quando i dati sono mancanti o non definiti.

Quali sono le applicazioni degli istogrammi?

Mentre i grafici a torta e a barre sono strumenti di visualizzazione dei dati, gli istogrammi sono utilizzati prevalentemente in statistica. Gli statistici utilizzano gli istogrammi per comprendere meglio i dati del campione. Gli istogrammi sono spesso utilizzati per esplorare varie proprietà statistiche dei dati.

Visualizzare la variabilità

Supponiamo che vi siano due serie di dati con valori medi simili. Da queste informazioni, le serie di dati sembrano simili. Quando riportiamo questi dati in istogrammi, la variabilità dei dati diventa evidente. I punti dati principali si trovano tra 40 e 70 nell'istogramma di sinistra, mentre a destra sono quasi equamente distribuiti tra 20 e 100. Anche se la media è la stessa, un istogramma visualizza facilmente la varianza dei dati.

Esempio di istogramma della varianza dei dati

Identificare gli outlier

In statistica, un outlier è un punto dati che si trova a una distanza anomala dagli altri punti dati. Gli istogrammi sono utili per visualizzare gli outlier. Essi appaiono come una barra isolata e si verificano a causa di anomalie nei dati o a causa di alcuni errori di inserimento dei dati.

Identificare le distribuzioni multimodali

In statistica, una distribuzione multimodale è una distribuzione con più picchi. Ad esempio, l'istogramma sottostante presenta due picchi diversi. Le caratteristiche multimodali di un insieme di dati possono non essere facilmente identificabili calcolando la media e la varianza della distribuzione. Un istogramma aiuta a identificare tali distribuzioni multimodali.

Valutare l'adattamento di una funzione di distribuzione di probabilità

Gli statistici utilizzano spesso gli istogrammi per valutare l'adattamento di una funzione di distribuzione di probabilità. Un istogramma è una rappresentazione dei dati reali del campione. Una linea di distribuzione adattata cerca di identificare la funzione di distribuzione di probabilità che può prevedere correttamente la distribuzione dei dati del campione. Gli statistici spesso sovrappongono le funzioni di distribuzione di probabilità all'istogramma per valutarne l'adattamento.

Esempio di linea di distribuzione adattata all'istogramma

Software dell'istogramma
Prova TIBCO Spotfire - Prova gratuita
Con TIBCO Spotfire, la soluzione di analisi più completa sul mercato, scopri facilmente nuove insight dai tuoi dati.

Quali sono gli altri grafici correlati agli istogrammi?

Grafici a barre

Quando i dati sono non numerici o discreti, un grafico a barre è più adatto degli istogrammi. Ad esempio, i grafici a barre sono utili per tracciare gli acquisti effettuati da diverse categorie di clienti (ospiti, nuovi utenti e utenti esistenti), poiché queste categorie sono discrete e non numeriche. Al contrario, gli istogrammi sono utili quando si tracciano gli acquisti rispetto all'età dei clienti (continua e numerica).

Adattamento alla linea

Quando ci sono molti punti dati con una deviazione minima, l'istogramma potrebbe non visualizzare la natura dei dati. In questo caso, un adattamento alla linea è più adatto a visualizzare la natura dei dati.

Grafico di dispersione

L'istogramma e l'adattamento alla linea sono utili quando c'è una sola variabile indipendente. Quando le variabili indipendenti sono due, l'opzione migliore è un grafico di dispersione. In un grafico di dispersione, l'asse X rappresenta una variabile indipendente e l'asse Y rappresenta la seconda variabile. Se le variabili indipendenti sono tre, è possibile utilizzare un grafico a dispersione 3D.