Hvad er histogramklasser?
Histogramklasser er områder af værdier, der indeholder datapunkter i en frekvensfordeling eller tabulering af rå data. De kaldes også intervaller, skraldespand eller skraldebredde. I et histogram, en type søjlediagram, er disse klasser afbildet som lodrette kolonner, hvor højden af søjlen angiver antallet af datapunkter, der er indeholdt i klasseområdet. Valget af histogramklasse foretages typisk for at forbedre den visuelle repræsentation af datastatistikker eller tendenser.
Når der er en stor mængde data, der skal vises, er et histogram især nyttigt til at skildre formen for dens distribution. En hel række data opdeles i intervaller, og antallet af datapunkter, der falder ind i hver, tælles for at give klassefrekvensen. Intervallet eller bredden af intervallet bestemmer antallet af histogramklasser og påvirker formen på grafen.
Hvis intervallet er for bredt, kan vigtige oplysninger muligvis udelades ved, at klasserne er for inkluderende. Når valget af intervallbredde er for smalt, kan lav klassefrekvens muligvis give unødig betydning for, hvad der faktisk er en tilfældig variation. Der er flere metoder til at indstille et passende antal histogramklasser til et datasæt.
I henhold til Sturgis regel skal antallet af klasser være tæt på basis 2-loggen for antallet af datapunkter plus et. Ved hjælp af Rice's regel skal antallet af klasser, der er defineret, være det dobbelte af terningen af antallet af datapunkter. Uanset hvilken metode der bruges til at vælge antallet af histogramklasser, skal flere forskellige bredder forsøges for at teste histogramformens følsomhed over for klassestørrelse. Det korrekte antal klasser er det, der mest nøjagtigt viser fordelingen af dataene.
Med det korrekte antal histogramklasser for en række data, bør der gives en meningsfuld grafisk repræsentation, der muliggør klar fortolkning. Et histogram skal vise centrum og spredning af dataene, enhver skævhed eller datasymmetri og outliers eller datapunkter, der forekommer uden for det forventede værdiområde. Tilstanden eller den hyppigst forekommende værdi skal være synlig såvel som grupperinger, der kan indikere en multiple modalitet. Histogramanalyse kan også indikere fejl i dataindsamlingsprocessen.
Længe brugt inden for økonomi og samfundsvidenskab bliver histogrammer mere kendte i de grafiske skærme af forbrugerelektronik. Digital fotografering er især åben for deres brug, hvor mange kameraer indeholder et farvehistogram til at indikere hvidbalance og eksponering. Et histogram med digital fotografering viser muligvis også pixels, da histogramklasser er afbildet mod gråtoner.