Che cos'è la distribuzione dell'istogramma?
La distribuzione dell'istogramma nelle statistiche si riferisce ai modelli, alle forme e alle posizioni delle barre di dati univariate su un istogramma. Come e dove vengono distribuite le barre possono essere utilizzate per analizzare e trarre conclusioni sui dati. L'analisi della distribuzione dell'istogramma è importante per identificare tratti come la normalità dei dati, le distribuzioni multimodali e i dati distorti.
Un istogramma è un display di dati univariato che utilizza rettangoli proporzionali nell'area per classificare o bin bin per mostrare visivamente le caratteristiche dei dati. I punti dati nell'istogramma sono organizzati in bin e la distribuzione dell'istogramma stessa è un'approssimazione visiva della distribuzione di frequenza dei dati o della funzione di densità di probabilità. La forma della distribuzione può cambiare in base al numero di bin.
L'analisi della distribuzione dell'istogramma viene spesso utilizzata come controllo qualitativo per la normalità dei dati. Sebbene esistano metodi analitici per determinare la normalità, gli istogrammi possono essere utilizzati per fornire un controllo rapido e di buon senso per risparmiare tempo. Se i dati dell'istogramma appaiono approssimativamente uniformi e centrati sulla media, si presume che i dati siano normali. Sebbene veloce e relativamente semplice, questo tipo di controllo qualitativo è soggettivo e dovrebbero essere utilizzati metodi analitici se è richiesto uno standard di precisione più elevato.
Determinare se un set di dati presenta asimmetria è un altro modo in cui è possibile utilizzare l'analisi della distribuzione dell'istogramma. L'asimmetria dei dati è definita come asimmetria pronunciata nei dati. L'inclinazione negativa o l'inclinazione a sinistra è presente nei set di dati con pochissimi valori bassi. L'inclinazione positiva o l'inclinazione a destra si verifica in set di dati con pochi valori elevati. L'osservazione della distribuzione dell'istogramma può rivelare valori anomali e dati distorti.
Oltre a rivelare le caratteristiche dei dati con una singola modalità, la forma di un istogramma può anche rivelare le caratteristiche dei dati multimodali. I set di dati multimodali contengono più di una modalità e sono caratterizzati da distribuzioni di frequenza con più di un picco o massimo. Le affiliazioni politiche in una città, i sondaggi di opinione di approvazione e le dimensioni corporee delle api sono esempi di set di dati che possono essere multimodali. Osservare la forma dell'istogramma e notare i vari picchi nei dati multimodali può spesso fornire a un ricercatore una visione più approfondita rispetto a semplici calcoli statistici univariati.
L'analisi degli istogrammi e la distribuzione dei dati dipendono fortemente dalle dimensioni dei contenitori scelti. In pratica, il numero di bin può essere stimato prendendo la radice quadrata del numero di osservazioni, sebbene possano essere usate altre dimensioni di bin. Ad esempio, un insegnante può scegliere di analizzare i voti dei test scegliendo le dimensioni del cestino che riflettono i voti delle lettere.