Hva er enkel lineær regresjon?
Enkel lineær regresjon gjelder statistikk og hjelper til med å beskrive (x, y) data som ser ut til å ha et lineært forhold, noe som gir mulighet for noe prediksjon av y hvis x er kjent. Disse dataene er ofte plottet på scatterplots og formelen for lineær regresjon skaper en linje som best passer til alle punktene, forutsatt at de virkelig har en lineær korrelasjon. Det vil ikke passe nøyaktig til alle punktene, men det skal være en linje der summen av kvadratene med forskjellen mellom faktiske data og forventede data (rester) skaper det laveste tallet, som ofte kalles den minste kvadratene linje eller linje med passer best. Ligningen for linjen for eksempeldata og populasjonsdata er følgende: ŷ = b 0 + b 1 x og Y = B 0 + B 1 x.
Alle som er kjent med algebra kan merke likheten til denne linjen til y = mx + b, og faktisk er de to relativt identiske, bortsett fra at de to begrepene på høyre side av ligningen er byttet, slik at B1 tilsvarer helning eller m. Årsaken til denne omorganiseringen er at det da blir elegant enkelt å legge til tilleggsuttrykk med funksjoner som eksponenter som kan beskrive forskjellige ikke-lineære former for forhold.
Formlene for å få en enkel lineær regresjonslinje er relativt komplekse og tungvint, og de fleste bruker ikke mye tid på å skrive disse ned fordi de tar lang tid å fullføre. I stedet kan forskjellige programmer, for eksempel for Excel® eller for mange typer vitenskapelige kalkulatorer, enkelt beregne en minste kvadratlinje. Linjen er bare passende for prediksjon hvis det er klare bevis for en sterk korrelasjon mellom settene med (x, y) data. En kalkulator vil generere en linje, uavhengig av om det er fornuftig å bruke den.
Samtidig som det genereres en enkel lineær ligning med regresjonslinje, må folk se på korrelasjonsnivå. Dette betyr å evaluere r, korrelasjonskoeffisienten, opp mot en verdistabell for å bestemme om lineær korrelasjon eksisterer. I tillegg er det å evaluere dataene ved å plotte dem som en spredningsdiagram en god måte å få en mening om hvis data har et lineært forhold.
Det som da kan gjøres med en enkel lineær regresjonslinje, forutsatt at den har en lineær korrelasjon, er at verdier kan erstattes til x for å få en forutsagt verdi for ŷ. Denne prediksjonen har sine grenser. Dataene som er til stede, spesielt hvis det bare er en prøve, kan ha en lineær korrelasjon nå, men kanskje ikke senere med ekstra prøvemateriale lagt til.
Alternativt kan et helt utvalg dele en sammenheng mens en hel populasjon ikke gjør det. Prediksjon er derfor begrenset, og å gå langt utover de tilgjengelige dataverdiene kalles ekstrapolering, og blir ikke oppmuntret. Skulle folk vite at hvis ingen lineær sammenheng eksisterer, er det beste estimatet av x gjennomsnittet av alle y-data.
I hovedsak er enkel lineær regresjon et nyttig statistisk verktøy som med skjønn kan brukes til å forutsi ŷ verdier basert på økseverdi. Det læres nesten alltid med ideen om lineær sammenheng siden det å bestemme nytten av en regresjonslinje krever analyse av r. Heldigvis med mange moderne tekniske programmer, kan folk tegne scatterplots, legge til regresjonslinjer og bestemme korrelasjonskoeffisient r med et par oppføringer.