Hvad er enkel lineær regression?
Enkel lineær regression gælder for statistikker og hjælper med at beskrive (x, y) data, der ser ud til at have et lineært forhold, hvilket muliggør en vis forudsigelse af y, hvis x er kendt. Disse data er ofte afbildet på scatterplots, og formlen for lineær regression skaber en linje, der bedst passer til alle punkter, forudsat at de virkelig har en lineær korrelation. Det passer ikke nøjagtigt til alle punkter, men det skal være en linje, hvor summen af kvadraterne af forskellen mellem faktiske data og forventede data (rester) skaber det laveste antal, der ofte kaldes den mindste kvadratlinje eller linje af bedste pasform. Ligningen for linjen for eksempeldata og populationsdata er følgende: ŷ = b 0 + b 1 x og Y = B 0 + B 1 x.
Enhver, der kender algebra, kan bemærke ligheden på denne linje til y = mx + b, og faktisk er de to relativt identiske, bortset fra at de to udtryk på højre side af ligningen er skiftet, så B1 er lig med hældning eller m. Årsagen til denne omarrangering er, at det derefter bliver elegant let at tilføje yderligere udtryk med funktioner såsom eksponenter, der muligvis beskriver forskellige ikke-lineære former for forhold.
Formlerne til at få en simpel lineær regressionslinje er relativt komplekse og besværlige, og de fleste bruger ikke meget tid på at nedskrive disse, fordi de tager lang tid at gennemføre. I stedet kan forskellige programmer, f.eks. Til Excel® eller til mange typer videnskabelige regnemaskiner, let beregne en mindstekvadratslinje. Linjen er kun passende til forudsigelse, hvis der er tydelige tegn på en stærk sammenhæng mellem sæt (x, y) data. En lommeregner genererer en linje, uanset om det giver mening at bruge den.
Samtidig genereres der en simpel lineær regressionslinjeligning, mennesker skal se på korrelationsniveauet. Dette betyder at evaluere r, korrelationskoefficienten, ud fra en tabel med værdier for at bestemme, om der er lineær korrelation. Derudover er evaluering af dataene ved at plotte dem som en scatterplot en god måde at få en mening om, hvis data har et lineært forhold.
Hvad der derefter kan gøres med en simpel lineær regressionslinje, forudsat at den har en lineær korrelation, er, at værdier kan substitueres i x for at få en forudsagt værdi for ŷ. Denne forudsigelse har sine grænser. De tilstedeværende data, især hvis det kun er en prøve, kan have en lineær sammenhæng nu, men muligvis ikke senere med tilføjet yderligere prøvemateriale.
Alternativt kan en hel prøve dele en sammenhæng, mens en hel population ikke gør det. Forudsigelse er derfor begrænset, og at gå langt ud over de tilgængelige dataværdier kaldes ekstrapolering og opmuntres ikke. Skulle folk vide, at hvis der ikke findes nogen lineær korrelation, er det bedste estimat af x middelværdien af alle y-data.
I det væsentlige er enkel lineær regression et nyttigt statistisk værktøj, der med skøn kan bruges til at forudsige ŷ-værdier baseret på økseværdien. Det læres næsten altid med ideen om lineær korrelation, da bestemmelse af nytten af en regressionslinje kræver analyse af r. Heldigvis med mange moderne tekniske programmer kan folk tegne scatterplots, tilføje regressionslinjer og bestemme korrelationskoefficient r med et par poster.