Wat zijn histogramklassen?
Histogramklassen zijn waardenbereiken die gegevenspunten in een frequentieverdeling bevatten of tabellen van onbewerkte gegevens. Ze worden ook wel intervallen, bakken of bakbreedtes genoemd. In een histogram, een type staafdiagram, worden deze klassen weergegeven als verticale kolommen waarbij de hoogte van de kolom het aantal gegevenspunten in het klassenbereik aangeeft. Doorgaans wordt de keuze van de histogramklasse gemaakt om de visuele weergave van gegevensstatistieken of trends te verbeteren.
Wanneer er een grote hoeveelheid gegevens moet worden weergegeven, is een histogram bijzonder nuttig voor het weergeven van de vorm van de verdeling. Een volledig gegevensbereik wordt opgesplitst in intervallen en het aantal gegevenspunten dat in elk daarvan valt, wordt geteld om de klassefrequentie te geven. Het bereik of de breedte van het interval bepaalt het aantal histogramklassen en beïnvloedt de vorm van de grafiek.
Als het interval te breed is, kan belangrijke informatie achterwege worden gelaten omdat de klassen te inclusief zijn. Wanneer de keuze van de intervalbreedte te smal is, kan een lage klassefrequentie onnodig belang hechten aan wat eigenlijk een willekeurige variatie is. Er zijn verschillende methoden om een geschikt aantal histogramklassen voor een gegevensset in te stellen.
Volgens de regel van Sturgis moet het aantal klassen dicht bij het logboek van base 2 van het aantal datapunten liggen, plus één. Met behulp van de regel van Rice moet het aantal gedefinieerde klassen tweemaal de kubuswortel van het aantal gegevenspunten zijn. Welke methode ook wordt gebruikt bij het selecteren van het aantal histogramklassen, verschillende breedten moeten worden geprobeerd om de gevoeligheid van de histogramvorm voor de klassengrootte te testen. Het juiste aantal klassen is degene die de verdeling van de gegevens het meest nauwkeurig weergeeft.
Met het juiste aantal histogramklassen voor een reeks gegevens, moet een betekenisvolle grafische weergave worden verkregen die een duidelijke interpretatie mogelijk maakt. Een histogram moet het midden en de spreiding van de gegevens, scheefheid of gegevensasymmetrie en uitschieters of gegevenspunten buiten het verwachte waardenbereik weergeven. De modus, of de meest voorkomende waarde, moet duidelijk zijn, evenals groeperingen die op een meervoudige modaliteit kunnen wijzen. Histogramanalyse kan ook wijzen op fouten in het gegevensverzamelingsproces.
Lange tijd gebruikt in de financiële en sociale wetenschappen, worden histogrammen steeds bekender in de grafische weergave van consumentenelektronica. Digitale fotografie staat met name open voor gebruik, waarbij veel camera's een kleurenhistogram bevatten om witbalans en belichting aan te geven. Een histogram van digitale fotografie kan ook pixels weergeven als histogramklassen uitgezet tegen grijstinten.