Qu'est-ce que la régression linéaire simple?
La régression linéaire simple s'applique aux statistiques et aide à décrire (x, y) les données qui semblent avoir une relation linéaire, permettant une certaine prédiction de y si x est connu. Ces données sont souvent tracées sur des nuages de points et la formule de régression linéaire crée une ligne qui correspond le mieux à tous les points, à condition qu'ils aient réellement une corrélation linéaire. Il ne correspondra pas exactement à tous les points, mais ce devrait être une ligne où la somme des carrés de la différence entre les données réelles et les données attendues (résidus) crée le nombre le plus bas, souvent appelé ligne des moindres carrés ou ligne de meilleur ajustement. L'équation de la droite pour les données d'échantillon et les données de population est la suivante: ŷ = b 0 + b 1 x et Y = B 0 + B 1 x.
Toute personne familiarisée avec l'algèbre peut noter la similarité de cette ligne avec y = mx + b, et les deux sont en fait relativement identiques, sauf que les deux termes du côté droit de l'équation sont permutés, de sorte que B 1 est égal à la pente ou à m. La raison de ce réarrangement est qu’il devient alors élégamment facile d’ajouter des termes supplémentaires avec des caractéristiques telles que des exposants qui pourraient décrire différentes formes de relation non linéaires.
Les formules permettant d’obtenir une droite de régression linéaire simple sont relativement complexes et fastidieuses, et la plupart des gens ne passent pas beaucoup de temps à les noter, car elles prennent beaucoup de temps. Différents programmes, tels que Excel® ou de nombreux types de calculatrices scientifiques, peuvent facilement calculer une ligne de moindres carrés. La ligne n'est appropriée pour la prédiction que s'il existe des preuves claires d'une forte corrélation entre les ensembles de données (x, y). Une calculatrice générera une ligne, qu’elle ait un sens ou non de l’utiliser.
Simultanément, une équation de ligne de régression linéaire simple est générée. Les personnes doivent donc examiner le niveau de corrélation. Cela signifie qu’il faut évaluer r, le coefficient de corrélation, par rapport à une table de valeurs pour déterminer s’il existe une corrélation linéaire. De plus, évaluer les données en les représentant sous forme de diagramme de dispersion est un bon moyen de déterminer si les données ont une relation linéaire.
Ce qui peut alors être fait avec une simple ligne de régression linéaire, à condition qu’il y ait une corrélation linéaire, est que les valeurs peuvent être substituées dans x, pour obtenir une valeur prédite pour. Cette prédiction a ses limites. Les données présentes, en particulier s’il s’agit d’un échantillon, peuvent maintenant avoir une corrélation linéaire, mais pas plus tard si des échantillons supplémentaires sont ajoutés.
Alternativement, un échantillon entier peut partager une corrélation, contrairement à une population entière. La prévision est donc limitée et aller au-delà des valeurs de données disponibles est appelé extrapolation et n'est pas encouragé. De plus, si les gens savaient que s'il n'existait aucune corrélation linéaire, la meilleure estimation de x est la moyenne de toutes les données y.
La régression linéaire simple est essentiellement un outil statistique utile qui peut, avec discrétion, être utilisé pour prédire les valeurs sur la base de la valeur ax. Il est presque toujours enseigné avec l'idée de corrélation linéaire car la détermination de l'utilité d'une droite de régression nécessite l'analyse de r. Heureusement, avec de nombreux programmes techniques modernes, les utilisateurs peuvent tracer des diagrammes de dispersion, ajouter des lignes de régression et déterminer le coefficient de corrélation r avec quelques entrées.