Hva er histogramdistribusjon?
Histogramfordeling i statistikk refererer til mønstre, former og plassering av univariate datalinjer på et histogram. Hvordan og hvor søylene er fordelt kan brukes til å analysere og trekke konklusjoner om dataene. Histogramdistribusjonsanalyse er viktig for å identifisere egenskaper som datanormalitet, multimodale distribusjoner og skjevdata.
Et histogram er et univariat datavisning som bruker rektangler proporsjonale i område til klasse- eller bin-frekvenser for visuelt å vise funksjoner i data. Datapunktene i histogrammet er organisert i binger, og selve histogramfordelingen er en visuell tilnærming av datas frekvensfordeling eller sannsynlighetstetthetsfunksjon. Formen på fordelingen kan endre seg basert på antall søppelkasser.
Histogramdistribusjonsanalyse brukes ofte som en kvalitativ sjekk for datanormalitet. Selv om det finnes analytiske metoder for å bestemme normalitet, kan histogrammer brukes til å gi en rask, sunn fornuftskontroll for å spare tid. Hvis histogramdataene vises omtrent jevne og sentrert om gjennomsnittet, antas dataene å være normale. Selv om det er raskt og relativt enkelt, er denne typen kvalitativ sjekk subjektiv, og analysemetoder bør brukes hvis en høyere standard for nøyaktighet er nødvendig.
Å bestemme om et datasett viser skjevhet er en annen måte histogramfordelingsanalyse kan brukes. Dataskehet er definert som uttalt asymmetri i dataene. Negativt skjevt, eller skjevt til venstre, sees i datasett med svært få lave verdier. Positivt skjevt, eller skjevt til høyre, forekommer i datasett med få høye verdier. Å observere fordeling av histogram kan avdekke utleggere og skjevdata.
I tillegg til å avsløre karakteristikken til data med en enkelt modus, kan formen på et histogram også avsløre kjennetegn ved multimodale data. Multimodale datasett inneholder mer enn én modus og er preget av frekvensfordelinger som har mer enn en topp eller maksima. Politiske tilknytninger i en by, meningsmålinger om godkjenning, og kroppsstørrelser på bier er eksempler på datasett som kan være multimodale. Å observere formen på histogrammet og legge merke til de forskjellige toppene i multimodale data kan ofte gi en forsker mer innsikt enn enkle univariate statistiske beregninger ville gjort.
Analysen av histogrammer og distribusjonen av data er veldig avhengig av de valgte beholderstørrelsene. I praksis kan antallet søppelkasser estimeres ved å ta kvadratroten av antall observasjoner, selv om andre søppelstørrelser kan brukes. For eksempel kan en lærer velge å analysere testkarakterer ved å velge søppelstørrelser som gjenspeiler bokstavkarakterer.