Was ist die Histogrammverteilung?
Die Histogrammverteilung in der Statistik bezieht sich auf die Muster, Formen und Positionen von univariaten Datenbalken in einem Histogramm. Wie und wo die Balken verteilt sind, lässt sich analysieren und Rückschlüsse auf die Daten ziehen. Die Analyse der Histogrammverteilung ist wichtig, um Merkmale wie Normalität der Daten, multimodale Verteilungen und verzerrte Daten zu identifizieren.
Ein Histogramm ist eine univariate Datenanzeige, bei der Rechtecke verwendet werden, deren Fläche der Klasse oder den Bin-Frequenzen proportional ist, um die Merkmale von Daten visuell darzustellen. Die Datenpunkte im Histogramm sind in Bins organisiert, und die Histogrammverteilung selbst ist eine visuelle Annäherung an die Häufigkeitsverteilung oder Wahrscheinlichkeitsdichtefunktion der Daten. Die Form der Verteilung kann sich je nach Anzahl der Fächer ändern.
Die Histogrammverteilungsanalyse wird häufig als qualitative Überprüfung der Datennormalität verwendet. Obwohl analytische Methoden zur Bestimmung der Normalität existieren, können Histogramme verwendet werden, um eine schnelle Überprüfung des gesunden Menschenverstands zu ermöglichen und Zeit zu sparen. Wenn die Histogrammdaten ungefähr gleichmäßig und auf dem Mittelwert zentriert erscheinen, wird davon ausgegangen, dass die Daten normal sind. Obwohl diese Art der qualitativen Überprüfung schnell und relativ einfach ist, ist sie subjektiv, und wenn ein höherer Genauigkeitsstandard erforderlich ist, sollten Analysemethoden angewendet werden.
Das Bestimmen, ob ein Datensatz eine Schiefe aufweist, ist eine andere Möglichkeit, die Histogrammverteilungsanalyse zu verwenden. Datenversatz ist als ausgeprägte Asymmetrie in den Daten definiert. Ein negativer Versatz oder ein Versatz nach links wird in Datensätzen mit sehr wenigen niedrigen Werten beobachtet. In Datensätzen mit wenigen hohen Werten tritt ein positiver Versatz oder ein Versatz nach rechts auf. Die Beobachtung der Histogrammverteilung kann Ausreißer und verzerrte Daten aufdecken.
Die Form eines Histogramms deckt nicht nur die Eigenschaften von Daten in einem einzigen Modus auf, sondern kann auch Eigenschaften multimodaler Daten aufdecken. Multimodale Datensätze enthalten mehr als einen Modus und sind durch Häufigkeitsverteilungen gekennzeichnet, die mehr als einen Peak oder ein Maximum aufweisen. Politische Zugehörigkeiten in einer Stadt, Genehmigungsumfragen und Körpergrößen von Bienen sind Beispiele für Datensätze, die multimodal sein können. Das Beobachten der Form des Histogramms und das Notieren der verschiedenen Peaks in multimodalen Daten kann dem Forscher häufig mehr Einblicke bieten als einfache univariate statistische Berechnungen.
Die Analyse von Histogrammen und die Verteilung von Daten hängen stark von den gewählten Behältergrößen ab. In der Praxis kann die Anzahl von Behältern geschätzt werden, indem die Quadratwurzel der Anzahl von Beobachtungen genommen wird, obwohl andere Behältergrößen verwendet werden können. Zum Beispiel kann ein Lehrer wählen, Testnoten zu analysieren, indem er Behältergrößen wählt, die die Buchstabengrade widerspiegeln.