Hvad er histogramdistribution?
Histogramfordeling i statistik henviser til mønstre, former og placeringer af univariate datalinjer på et histogram. Hvordan og hvor søjlerne er fordelt kan bruges til at analysere og drage konklusioner om dataene. Histogramfordelingsanalyse er vigtig for at identificere træk såsom datanormalitet, multimodale fordelinger og skæve data.
Et histogram er et univariat datavisning, der bruger rektangler, der er proportionale i område til klasse- eller bin-frekvenser til visuelt at vise funktioner i data. Datapunkterne i histogrammet er organiseret i bins, og selve histogramfordelingen er en visuel tilnærmelse af dataens frekvensfordeling eller sandsynlighedsdensitetsfunktion. Formen på fordelingen kan ændres baseret på antallet af skraldespande.
Histogramfordelingsanalyse bruges ofte som en kvalitativ kontrol af datanormalitet. Selvom der findes analytiske metoder til bestemmelse af normalitet, kan histogrammer bruges til at tilvejebringe en hurtig, sund fornuftkontrol for at spare tid. Hvis histogramdataene forekommer nogenlunde lige og centreret om gennemsnittet, antages dataene at være normale. Selvom hurtig og relativt let, er denne type kvalitativ kontrol subjektiv, og analysemetoder bør anvendes, hvis der kræves en højere nøjagtighedsstandard.
At bestemme, om et datasæt udviser skævhed, er en anden måde, hvorpå histogramfordelingsanalyse kan bruges. Dataskelthed defineres som udtalt asymmetri i dataene. Negativt skævt eller skævt til venstre ses i datasæt med meget få lave værdier. Positivt skævhed eller skævhed til højre forekommer i datasæt med få høje værdier. Iagttagelse af histogramfordelingen kan afsløre outliers og skæve data.
Ud over at afsløre egenskaberne ved data med en enkelt tilstand, kan formen på et histogram også afsløre karakteristika ved multimodale data. Multimodale datasæt indeholder mere end en tilstand og er kendetegnet ved frekvensfordelinger, der har mere end en top eller maksima. Politiske tilknytninger i en by, meningsmålinger med godkendelser og biers kropsstørrelser er eksempler på datasæt, der kan være multimodale. Iagttagelse af histogrammets form og bemærkning af de forskellige toppe i multimodale data kan ofte give en forsker mere indsigt end enkle univariate statistiske beregninger ville have.
Analysen af histogrammer og fordelingen af data er meget afhængig af de valgte bin-størrelser. I praksis kan antallet af skraldespande estimeres ved at tage kvadratroten af antallet af observationer, skønt andre papirkurvestørrelser kan anvendes. For eksempel kan en lærer vælge at analysere prøvekarakterer ved at vælge skraldestørrelser, der afspejler bogstavkarakterer.