Co to jest rozkład histogramu?
Rozkład histogramu w statystykach odnosi się do wzorów, kształtów i lokalizacji jednowymiarowych pasków danych na histogramie. Sposób i miejsce rozmieszczenia słupków można wykorzystać do analizy i wyciągania wniosków na temat danych. Analiza rozkładu histogramu jest ważna w identyfikowaniu cech, takich jak normalność danych, rozkłady multimodalne i skośne dane.
Histogram to jednowymiarowy wyświetlacz danych, który wykorzystuje prostokąty proporcjonalne w powierzchni do klasy lub częstotliwości bin, aby wizualnie pokazać cechy danych. Punkty danych na histogramie są zorganizowane w przedziały, a sam rozkład histogramu jest wizualnym przybliżeniem rozkładu częstotliwości danych lub funkcji gęstości prawdopodobieństwa. Kształt rozkładu może się zmieniać w zależności od liczby pojemników.
Analiza rozkładu histogramów jest często stosowana jako jakościowa kontrola normalności danych. Chociaż istnieją analityczne metody określania normalności, histogramy mogą służyć do szybkiego i zdrowego rozsądku, aby zaoszczędzić czas. Jeśli dane histogramu wydają się mniej więcej równe i wyśrodkowane na średniej, przyjmuje się, że dane są normalne. Chociaż szybki i stosunkowo łatwy, tego rodzaju kontrola jakościowa jest subiektywna i należy zastosować metody analityczne, jeżeli wymagany jest wyższy standard dokładności.
Ustalenie, czy zestaw danych wykazuje skośność, jest innym sposobem na zastosowanie analizy rozkładu histogramu. Skośność danych jest definiowana jako wyraźna asymetria w danych. Negatywne pochylenie lub pochylenie w lewo jest widoczne w zestawach danych z bardzo małą liczbą niskich wartości. Dodatnie pochylenie lub pochylenie w prawo występuje w zestawach danych z kilkoma wysokimi wartościami. Obserwacja rozkładu histogramu może ujawnić wartości odstające i przekrzywione dane.
Oprócz ujawnienia cech danych za pomocą jednego trybu, kształt histogramu może również ujawnić cechy danych multimodalnych. Multimodalne zestawy danych zawierają więcej niż jeden tryb i charakteryzują się rozkładami częstotliwości, które mają więcej niż jeden pik lub maksima. Przynależność polityczna w mieście, sondaże opinii o aprobacie i rozmiary pszczół to przykłady zbiorów danych, które mogą być multimodalne. Obserwacja kształtu histogramu i odnotowanie różnych pików w danych multimodalnych może często zapewnić badaczowi więcej wglądu niż zwykłe jednoznaczne obliczenia statystyczne.
Analiza histogramów i rozkład danych są wysoce zależne od wybranych rozmiarów pojemników. W praktyce liczbę pojemników można oszacować, biorąc pierwiastek kwadratowy z liczby obserwacji, chociaż można zastosować inne rozmiary pojemników. Na przykład nauczyciel może przeanalizować oceny testowe, wybierając rozmiary pojemników odzwierciedlające oceny literowe.