Co to jest fabuła pudełkowa?
Wykres pudełkowy lub schemat pudełkowo-wąsowy to metoda organizowania danych liczbowych wzdłuż jednej linii liczbowej, która może być pozioma lub pionowa. Rzeczywiste pole, gdy wykres jest poziomy, znajduje się nieco powyżej linii liczbowej i składa się z trzech pionowych linii, połączonych ze sobą poziomymi liniami. Poziome granice ramki reprezentują pierwszy i trzeci kwartyl (25. i 75. percentyl), oddzielone linią środkową, która jest medianą danych lub 50. percentylem. Po obu stronach pudełka od środka poziomych linii rozciągają się pionowe linie, zwane czasem wąsami. Kiedy osiągną minimalną i maksymalną liczbę zbiorów danych, kończą się mniejszymi poziomymi liniami, chociaż mogą się one nieznacznie różnić w zależności od rozproszenia danych.
Istnieje kilka ważnych elementów, które składają się na dobry wykres pudełkowy, i pewne liczby, które ludzie powinni znać, tworząc te wykresy. Pierwszy z nich nazywa się pięciocyfrowym streszczeniem, często skracanym jako pięć liczb. suma. Jest to wykaz pierwszego i trzeciego kwartylu, mediany oraz minimalnej i maksymalnej liczby danych. W niektórych aplikacjach ludzie będą musieli wymienić je w pobliżu wykresu, chociaż analiza wykresu z dobrą linią liczbową może również wyprowadzić te liczby, patrząc na trzy poziome linie i końcowe wąsy. To nie jest pytanie z kurczaka / jajka dla osoby rysującej fabułę, ponieważ pięć liczb. suma. należy użyć do utworzenia fabuły.
Ludzie muszą również znać liczbę zwaną przedziałem międzykwartylowym (IQR). Odejmując pierwszy kwartyl od trzeciego kwartylu, uzyskuje się IQR, a przy użyciu innego oprogramowania lub kalkulatorów naukowych można również uzyskać tę liczbę i podsumowanie pięciu liczb, wprowadzając wszystkie dane. IQR jest ważny, ponieważ linie wychodzące z pudełka zwykle rozciągają się tylko 1,5 raza w stosunku do IQR. Dane poza tym punktem są oznaczone kropkami zamiast linii ciągłej. Te kropki często sugerują, że dane mają wartości odstające.
Istnieje wiele zastosowań wykresu pudełkowego. Kilka wykresów można narysować powyżej jednej linii liczbowej i można porównać podobne zestawy danych zróżnicowane według pewnych ważnych czynników. Na przykład naukowcy lub statystycy mogą rejestrować tętno kobiet i mężczyzn, a następnie konstruować dwa ułożone w stosy wykresów pudełkowych w celu znalezienia znaczących różnic w zakresie i kwartylach.
Wykresy pudełkowe nie odnoszą się do częstotliwości danych. Brak dodatkowej skali (pionowej lub poziomej) pomija informacje o powtarzających się liczbach, rozmiarze zestawu danych i większości pojedynczych liczb. Osoba patrząca na wykres pudełkowy najlepiej zrozumie podsumowanie pięciu liczb, zakres i to, czy dane mają jakieś wartości odstające. Rozmiar pudełka, stosunek mediany do kwartyli i długość wąsów mogą pokazywać, czy dane są wypaczone, ale nie mogą mówić o takich wartościach, jak średnia, tryb lub odchylenie standardowe. Inne wykresy, takie jak histogramy, mogą być bardziej przydatne, gdy ludzie chcą przedstawić takie rzeczy, jak częstotliwość lub uzyskać lepsze wizualizacje dotyczące dystrybucji danych.