Qu'est-ce que la distribution d'histogramme?
La distribution d'histogramme dans les statistiques fait référence aux modèles, formes et emplacements de barres de données univariées sur un histogramme. Comment et où les barres sont distribuées peuvent être utilisées pour analyser et tirer des conclusions sur les données. L'analyse de la distribution d'histogramme est importante pour identifier des caractéristiques telles que la normalité des données, les distributions multimodales et les données asymétriques.
Un histogramme est un affichage de données univarié qui utilise des rectangles proportionnels en surface à classe ou en fréquences bin pour montrer visuellement les caractéristiques des données. Les points de données de l'histogramme sont organisés en bacs et la distribution de l'histogramme est elle-même une approximation visuelle de la distribution de fréquence ou de la fonction de densité de probabilité des données. La forme de la distribution peut changer en fonction du nombre de bacs.
L'analyse de distribution d'histogramme est souvent utilisée comme vérification qualitative de la normalité des données. Bien que des méthodes analytiques existent pour déterminer la normalité, les histogrammes peuvent être utilisés pour permettre une vérification rapide et sensée afin de gagner du temps. Si les données de l'histogramme apparaissent à peu près égales et centrées sur la moyenne, les données sont supposées normales. Bien que rapide et relativement facile, ce type de contrôle qualitatif est subjectif et des méthodes analytiques doivent être utilisées si un niveau de précision supérieur est requis.
Déterminer si un ensemble de données présente une asymétrie est un autre moyen d'utiliser l'analyse de distribution d'histogramme. L'asymétrie des données est définie comme une asymétrie prononcée dans les données. Un biais négatif, ou un biais vers la gauche, apparaît dans les ensembles de données contenant très peu de valeurs basses. Un biais positif, ou un biais vers la droite, apparaît dans les ensembles de données contenant peu de valeurs élevées. Observer la distribution de l'histogramme peut révéler des données aberrantes et faussées.
En plus de révéler les caractéristiques des données avec un seul mode, la forme d'un histogramme peut également révéler les caractéristiques des données multimodales. Les ensembles de données multimodaux contiennent plus d'un mode et sont caractérisés par des distributions de fréquence comportant plusieurs pics ou maxima. Les affiliations politiques dans une ville, les sondages d'approbation et la taille des abeilles sont des exemples d'ensembles de données pouvant être multimodaux. Observer la forme de l'histogramme et noter les différents pics des données multimodales peut souvent fournir aux chercheurs plus d'informations que de simples calculs statistiques univariés.
L'analyse des histogrammes et la distribution des données dépendent fortement de la taille des groupes choisis. En pratique, le nombre de cases peut être estimé en prenant la racine carrée du nombre d'observations, bien que d'autres tailles de case puissent être utilisées. Par exemple, un enseignant peut choisir d'analyser les notes des tests en choisissant des tailles de corbeille qui correspondent aux notes des lettres.