Wat is histogramverdeling?
Histogramverdeling in statistieken verwijst naar de patronen, vormen en locaties van univariate gegevensbalken op een histogram. Hoe en waar de balken worden verdeeld, kan worden gebruikt om de gegevens te analyseren en conclusies te trekken. Histogram-distributieanalyse is belangrijk bij het identificeren van eigenschappen zoals gegevensnormaliteit, multimodale distributies en scheve gegevens.
Een histogram is een eenduidige gegevensweergave die rechthoeken gebruikt die evenredig zijn in gebied tot klasse of bin-frequenties om gegevenskenmerken visueel weer te geven. De gegevenspunten in het histogram zijn georganiseerd in bins en de histogramverdeling zelf is een visuele benadering van de frequentieverdeling van de gegevens of de waarschijnlijkheidsdichtheidsfunctie. De vorm van de verdeling kan veranderen op basis van het aantal bakken.
Histogram distributie-analyse wordt vaak gebruikt als een kwalitatieve controle op gegevensnormaliteit. Hoewel analytische methoden voor het bepalen van de normaliteit bestaan, kunnen histogrammen worden gebruikt om een snelle, logische controle uit te voeren om tijd te besparen. Als de histogramgegevens ruwweg gelijk en gecentreerd op het gemiddelde lijken, worden de gegevens als normaal beschouwd. Hoewel snel en relatief eenvoudig, is dit soort kwalitatieve controle subjectief en moeten analysemethoden worden gebruikt als een hogere standaard van nauwkeurigheid vereist is.
Bepalen of een gegevensset scheef is, is een andere manier waarop histogramverdelinganalyse kan worden gebruikt. Data skewness wordt gedefinieerd als uitgesproken asymmetrie in de data. Negatieve scheeftrekking of scheeftrekking naar links is te zien in gegevenssets met zeer weinig lage waarden. Positieve scheeftrekking of scheeftrekking naar rechts treedt op in gegevenssets met weinig hoge waarden. Het observeren van de histogramverdeling kan uitbijters en scheve gegevens onthullen.
Naast het onthullen van de kenmerken van gegevens met een enkele modus, kan de vorm van een histogram ook kenmerken van multimodale gegevens onthullen. Multimodale gegevenssets bevatten meer dan één modus en worden gekenmerkt door frequentieverdelingen die meer dan één piek of maxima hebben. Politieke voorkeuren in een stad, opiniepeilingen van goedkeuringen en lichaamslengtes van bijen zijn voorbeelden van datasets die multimodaal kunnen zijn. Het observeren van de vorm van het histogram en het vaststellen van de verschillende pieken in multimodale gegevens kan een onderzoeker vaak meer inzicht verschaffen dan eenvoudige univariate statistische berekeningen.
De analyse van histogrammen en de distributie van gegevens zijn sterk afhankelijk van de gekozen bin-formaten. In de praktijk kan het aantal bakken worden geschat door de vierkantswortel van het aantal waarnemingen te nemen, hoewel andere bakken kunnen worden gebruikt. Een docent kan er bijvoorbeeld voor kiezen om testcijfers te analyseren door bakafmetingen te kiezen die lettercijfers weerspiegelen.