Wat is histogramverdeling?

Histogramverdeling in statistieken verwijst naar de patronen, vormen en locaties van univariate datastars op een histogram. Hoe en waar de staven worden verdeeld, kan worden gebruikt om conclusies over de gegevens te analyseren en te trekken. Histogramverdelingsanalyse is belangrijk bij het identificeren van eigenschappen zoals gegevensnormaliteit, multimodale distributies en scheve gegevens.

Een histogram is een univariate gegevensweergave die rechthoeken van evenredig in gebied tot klasse of bin -frequenties gebruikt om gegevens van gegevens visueel te tonen. De gegevenspunten in het histogram zijn georganiseerd in bakken en de histogramverdeling zelf is een visuele benadering van de frequentieverdeling of waarschijnlijkheidsdichtheidsfunctie van de gegevens. De vorm van de verdeling kan veranderen op basis van het aantal bakken.

histogramverdelingsanalyse wordt vaak gebruikt als een kwalitatieve controle voor gegevensnormaliteit. Hoewel analytische methoden voor het bepalen van de normaliteit bestaan, kunnen histogrammen worden gebruikt om een ​​snelle, gezond verstand te geven om tijd te besparen. Als de histogramgegevens ongeveer gelijkmatig verschijnen en gecentreerd op het gemiddelde, worden de gegevens aangenomen dat ze normaal zijn. Hoewel snel en relatief eenvoudig, is dit soort kwalitatieve controle subjectief en moeten analytische methoden worden gebruikt als een hogere standaardnauwkeurigheid vereist is.

Bepalen of een gegevensset scheefheid vertoont, is een andere manier waarop histogramverdelingsanalyse kan worden gebruikt. Gegevens scheefheid wordt gedefinieerd als uitgesproken asymmetrie in de gegevens. Negatieve scheeftrekking, of scheef naar links, wordt gezien in gegevenssets met zeer weinig lage waarden. Positieve scheeftrekking, of scheef naar rechts, komt voor in datasets met weinig hoge waarden. Het waarnemen van de histogramverdeling kan uitbijters en scheve gegevens onthullen.

Naast het onthullen van de kenmerken van gegevens met een enkele modus, kan de vorm van een histogram ook kenmerken van multimodale gegevens onthullen. Multimodale gegevenssets bevatten meer dan één modus en zijn karakterized door frequentiedistributies met meer dan één piek of maxima. Politieke voorkeuren in een stad, goedkeuring opiniepeilingen en lichaamsgroottes van bijen zijn voorbeelden van gegevenssets die multimodaal kunnen zijn. Het observeren van de vorm van het histogram en het opmerken van de verschillende pieken in multimodale gegevens kan een onderzoeker vaak meer inzicht bieden dan eenvoudige univariate statistische berekeningen.

De analyse van histogrammen en de verdeling van gegevens zijn sterk afhankelijk van de gekozen bin -maten. In de praktijk kan het aantal bakken worden geschat door de vierkantswortel van het aantal observaties te nemen, hoewel andere bingroottes kunnen worden gebruikt. Een leraar kan er bijvoorbeeld voor kiezen om testcijfers te analyseren door bin -maten te kiezen die lettercijfers weerspiegelen.

ANDERE TALEN