Wat is een boxplot?
Een boxplot of box-and-whisker-diagram is een methode voor het ordenen van numerieke gegevens langs een enkele getallenlijn, die horizontaal of verticaal kan zijn. Het werkelijke vak, wanneer de plot horizontaal is, bevindt zich iets boven de getallenlijn en bestaat uit drie verticale lijnen, onderling verbonden door horizontale lijnen. De horizontale grenzen van het vak vertegenwoordigen het eerste en derde kwartiel (25e en 75e percentiel), gescheiden door de middelste lijn, die de mediaan of het 50e percentiel is. Aan weerszijden van de boxplot vanuit het midden van de horizontale lijnen, strekken zich verticale lijnen, soms snorharen, uit. Wanneer deze minimum- en maximumaantallen van de gegevensset bereiken, eindigen ze in kleinere horizontale lijnen, hoewel dit enigszins kan variëren, afhankelijk van de gegevensverspreiding.
Er zijn enkele belangrijke elementen waaruit een goede boxplot bestaat en een aantal cijfers die mensen moeten weten wanneer ze deze grafieken maken. De eerste hiervan wordt de samenvatting met vijf cijfers genoemd, vaak afgekort als vijf cijfers. som. Dit is een lijst met eerste en derde kwartielen, mediaan en minimum- en maximumaantallen gegevens. In sommige toepassingen moeten mensen deze in de buurt van de plot weergeven, hoewel analyse van een plot met een goede getallenlijn deze getallen ook kan afleiden door te kijken naar de drie horizontale lijnen en de afsluitende snorharen. Het is geen kip / ei-vraag voor de persoon die een plot tekent, omdat de vijf num. som. moet worden gebruikt om de plot te maken.
Mensen moeten ook een nummer kennen dat het interkwartielbereik (IQR) wordt genoemd. Door het eerste kwartiel af te trekken van het derde kwartiel wordt de IQR afgeleid, en het gebruik van verschillende software of wetenschappelijke rekenmachines kan ook dit getal en de samenvatting van vijf cijfers krijgen door alle gegevens in te voeren. De IQR is belangrijk omdat lijnen die zich uitstrekken van de doos zich meestal alleen uitstrekken tot 1,5 keer de IQR. Gegevens voorbij dat punt worden aangegeven met stippen in plaats van een doorlopende lijn. Deze punten suggereren vaak dat de gegevens uitbijters hebben.
Er zijn verschillende toepassingen voor de boxplot. Meerdere plots kunnen boven een getallenlijn worden getekend en kunnen vergelijkbare sets gegevens vergelijken die door een belangrijke factor worden onderscheiden. Wetenschappers of statistici kunnen bijvoorbeeld de hartslag van mannen en vrouwen registreren en vervolgens twee gestapelde boxplots construeren om te zoeken naar significante verschillen in bereik en kwartielen.
Boxplots houden geen rekening met gegevensfrequentie. Het ontbreken van een extra schaal (verticaal of horizontaal) laat informatie over herhalende nummers, de grootte van de gegevensset en de meeste individuele nummers weg. De persoon die naar een boxplot kijkt, begrijpt de samenvatting van de vijf cijfers, het bereik en de vraag of de gegevens uitbijters hebben het meest. Boxgrootte, relatie van mediaan tot kwartielen en lengte van snorharen kunnen aangeven of gegevens scheef zijn, maar het kan niet spreken van dingen als gemiddelde, modus of standaarddeviatie. Andere grafieken zoals histogrammen kunnen nuttiger zijn wanneer mensen dingen zoals frequentie willen weergeven of betere visuals over gegevensdistributie willen afleiden.