Qu'est-ce que la simple régression linéaire?
La régression linéaire simple s'applique aux statistiques et aide à décrire les données (x, y) qui semblent avoir une relation linéaire, permettant une certaine prédiction de Y si x est connu. Ces données sont souvent tracées sur des diagrammes de dispersion et la formule de régression linéaire crée une ligne qui correspond le mieux à tous les points, à condition qu'ils aient vraiment une corrélation linéaire. Il ne conviendra pas exactement à tous les points, mais ce devrait être une ligne où la somme des carrés de la différence entre les données réelles et les données attendues (résidus) crée le nombre le plus bas, qui est souvent appelé la ligne ou la ligne des moindres carrés de mieux. L'équation de la ligne pour les données d'échantillonnage et les données de population est la suivante: ŷ = B
Quiconque familier avec l'algèbre peut noter la similitude de cette ligne avec y = mx + b, et en fait les deux sont relativement identiques, sauf que les deux termes sur le côté droit de l'équation sont commutés, de sorte que B 1 sub> est égal à SPOLe ou m. La raison de ce réarrangement est qu'elle devient alors élégamment facile d'ajouter des termes supplémentaires avec des fonctionnalités telles que des exposants qui pourraient décrire différentes formes de relation non linéaires.
Les formules pour obtenir une simple ligne de régression linéaire sont relativement complexes et lourdes, et la plupart des gens ne passent pas beaucoup de temps à les écrire car ils prennent beaucoup de temps. Au lieu de cela, divers programmes, comme pour Excel® ou pour de nombreux types de calculatrices scientifiques, peuvent facilement calculer une ligne de moindre carrés. La ligne ne convient que pour la prédiction s'il existe des preuves claires d'une forte corrélation entre les ensembles de données (x, y). Une calculatrice générera une ligne, qu'elle soit logique de l'utiliser.
En même temps, une simple équation de ligne de régression linéaire est générée, les gens doivent examiner le niveau de corrélation. Cela signifie évaluer r, le correlcoefficient d'atelier, contre un tableau des valeurs pour déterminer s'il existe une corrélation linéaire. De plus, l'évaluation des données en les traçant en tant que diagramme de dispersion est un bon moyen d'avoir un sentiment si les données ont une relation linéaire.
Ce qui peut alors être fait avec une simple ligne de régression linéaire, à condition qu'il ait une corrélation linéaire, c'est que les valeurs peuvent être remplacées en x, pour obtenir une valeur prévue pour ŷ. Cette prédiction a ses limites. Les données présentes, en particulier si ce n'est qu'un échantillon, peut avoir une corrélation linéaire maintenant, mais pourrait ne pas plus tard avec un matériau d'échantillon supplémentaire ajouté.
Alternativement, un échantillon entier peut partager une corrélation alors qu'une population entière ne le fait pas. La prédiction est donc limitée, et aller bien au-delà des valeurs de données disponibles est appelée extrapolation et n'est pas encouragée. De plus, si les gens savent que si aucune corrélation linéaire n'existe, la meilleure estimation de X est la moyenne de toutes les données Y.
Essentiellement, la régression linéaire simple est un T statistique utileOOL qui peut, avec discrétion, être utilisé pour prédire ŷ Valeurs basées sur une valeur x. Il est presque toujours enseigné avec l'idée de corrélation linéaire car la détermination de l'utilité d'une ligne de régression nécessite une analyse de R. Heureusement, avec de nombreux programmes techniques modernes, les gens peuvent représenter des diagrammes de dispersion, ajouter des lignes de régression et déterminer le coefficient de corrélation R avec quelques entrées.