Hvad er histogramfordeling?
Histogramfordeling i statistik henviser til mønstre, former og placeringer af univariate databarer på et histogram. Hvordan og hvor søjlerne distribueres, kan bruges til at analysere og drage konklusioner om dataene. Histogramfordelingsanalyse er vigtig for at identificere træk såsom datalormalitet, multimodale fordelinger og skæve data.
Et histogram er et univariat datavisning, der bruger rektangler, der er proportional i område til klasse- eller binfrekvenser til visuelt at vise funktioner i data. Datapunkterne i histogrammet er organiseret i skraldespande, og selve histogramfordelingen er en visuel tilnærmelse af datas frekvensfordeling eller sandsynlighedsdensitetsfunktion. Formen på fordelingen kan ændres baseret på antallet af skraldespande.
Histogramfordelingsanalyse bruges ofte som en kvalitativ kontrol for datalormalitet. Selvom der findes analytiske metoder til bestemmelse af normalitet, kan histogrammer bruges til at give en hurtig, sund fornuftskontrol for at spare tid. Hvis histogramdataene vises nogenlunde jævnt og centreret om gennemsnittet, antages dataene at være normale. Selvom den er hurtig og relativt let, er denne form for kvalitativ kontrol subjektiv, og analytiske metoder skal bruges, hvis der kræves en højere standard for nøjagtighed.
Bestemmelse af, om et datasæt udviser skævhed er en anden måde, histogramfordelingsanalyse kan bruges. Data -skævhed defineres som udtalt asymmetri i dataene. Negativt skæv eller skæv til venstre ses i datasæt med meget få lave værdier. Positiv skæv, eller skæv til højre, forekommer i datasæt med få høje værdier. Observation af histogramfordelingen kan afsløre outliers og skæve data.
Ud over at afsløre egenskaberne ved data med en enkelt tilstand kan formen på et histogram også afsløre egenskaber ved multimodale data. Multimodale datasæt indeholder mere end en tilstand og er karakterIzed af frekvensfordelinger, der har mere end en top eller maksima. Politiske tilknytninger i en by, godkendelsesudtalelsesmålinger og kropsstørrelser af bier er eksempler på datasæt, der kan være multimodale. At observere formen på histogrammet og bemærke de forskellige toppe i multimodale data kan ofte give en forsker mere indsigt end enkle univariate statistiske beregninger ville.
Analysen af histogrammer og fordelingen af data er meget afhængige af de valgte skraldespandstørrelser. I praksis kan antallet af skraldespande estimeres ved at tage kvadratroten af antallet af observationer, selvom andre skraldestørrelser kan bruges. For eksempel kan en lærer vælge at analysere testkvaliteter ved at vælge skraldestørrelser, der afspejler bogstavkarakterer.