¿Qué es la regresión lineal simple?
La regresión lineal simple se aplica a las estadísticas y ayuda a describir datos (x, y) que parecen tener una relación lineal, lo que permite alguna predicción de y si se conoce x. Estos datos a menudo se trazan en diagramas de dispersión y la fórmula para la regresión lineal crea una línea que mejor se ajusta a todos los puntos, siempre que realmente tengan una correlación lineal. No se ajustará exactamente a todos los puntos, pero debería ser una línea en la que la suma de los cuadrados de la diferencia entre los datos reales y los datos esperados (residuos) crea el número más bajo, que a menudo se denomina línea de mínimos cuadrados o línea de mejor ajuste. La ecuación de la línea para datos de muestra y datos de población es la siguiente: ŷ = b 0 + b 1 x e y = b 0 + b 1 x.
Cualquier persona familiarizada con el álgebra puede notar la similitud de esta línea a y = mx + b, y de hecho los dos son relativamente idénticos, excepto que los dos términos en el lado derecho de la ecuación se cambian, de modo que b 1 igualmente slope o m. La razón de este reordenamiento es que se vuelve elegantemente fácil agregar términos adicionales con características como exponentes que podrían describir diferentes formas de relación no lineales.
Las fórmulas para obtener una línea de regresión lineal simple son relativamente complejas y engorrosas, y la mayoría de las personas no pasan mucho tiempo escribiendolas porque tardan mucho en completarse. En cambio, varios programas, como para Excel® o para muchos tipos de calculadoras científicas, pueden calcular fácilmente una línea de mínimos cuadrados. La línea solo es apropiada para la predicción si hay evidencia clara de una fuerte correlación entre los conjuntos de datos (x, y). Una calculadora generará una línea, independientemente de si tiene sentido usarla.
Al mismo tiempo se genera una ecuación de línea de regresión lineal simple, las personas deben analizar el nivel de correlación. Esto significa evaluar r, el correlcoeficiente de atención, contra una tabla de valores para determinar si existe una correlación lineal. Además, evaluar los datos al trazarlo como un diagrama de dispersión es una buena manera de tener una sensación si los datos tienen una relación lineal.
Lo que luego se puede hacer con una línea de regresión lineal simple, siempre que tenga una correlación lineal, es que los valores se pueden sustituir en x, para obtener un valor predicho para ŷ. Esta predicción tiene sus límites. Los datos presentes, particularmente si es solo una muestra, pueden tener una correlación lineal ahora, pero es posible que no sea más tarde con material de muestra adicional agregado.
Alternativamente, una muestra completa puede compartir una correlación, mientras que una población completa no lo hace. Por lo tanto, la predicción es limitada, y ir mucho más allá de los valores de datos disponibles se llama extrapolación y no se recomienda. Además, si las personas saben que si no existe una correlación lineal, la mejor estimación de X es la media de todos los datos Y.
esencialmente, la regresión lineal simple es una t estadística útil útilOOL que puede, con discreción, usarse para predecir los valores ŷ basados en un valor x. Casi siempre se enseña con la idea de la correlación lineal, ya que determinar la utilidad de una línea de regresión requiere el análisis de r. Afortunadamente, con muchos programas técnicos modernos, las personas pueden graficar gráficos de dispersión, agregar líneas de regresión y determinar el coeficiente de correlación R con un par de entradas.