Wat is eenvoudige lineaire regressie?
Eenvoudige lineaire regressie is van toepassing op statistieken en helpt bij het beschrijven (x, y) van gegevens die een lineair verband lijken te hebben, waardoor enige voorspelling van y mogelijk is als x bekend is. Deze gegevens worden vaak uitgezet op spreidingsplots en de formule voor lineaire regressie creëert een lijn die het beste bij alle punten past, op voorwaarde dat ze echt een lineaire correlatie hebben. Het past niet precies op alle punten, maar het zou een lijn moeten zijn waarbij de som van de kwadraten van het verschil tussen de werkelijke gegevens en de verwachte gegevens (residuen) het laagste getal creëert, wat vaak de kleinste vierkantenlijn of lijn van beste pasvorm. De vergelijking van de regel voor steekproefgegevens en populatiegegevens is de volgende: ŷ = b 0 + b 1 x en Y = B 0 + B 1 x.
Iedereen die bekend is met algebra kan de gelijkenis van deze lijn met y = mx + b opmerken, en in feite zijn de twee relatief identiek, behalve dat de twee termen aan de rechterkant van de vergelijking worden veranderd, zodat BI gelijk is aan helling of m. De reden voor deze herschikking is dat het dan elegant eenvoudig wordt om extra termen toe te voegen met functies zoals exponenten die verschillende niet-lineaire vormen van relaties kunnen beschrijven.
De formules voor het verkrijgen van een eenvoudige lineaire regressielijn zijn relatief complex en omslachtig en de meeste mensen besteden niet veel tijd aan het opschrijven hiervan omdat het lang duurt om ze te voltooien. In plaats daarvan kunnen verschillende programma's, zoals voor Excel® of voor veel soorten wetenschappelijke rekenmachines, gemakkelijk een kleinste kwadratenlijn berekenen. De lijn is alleen geschikt voor voorspelling als er duidelijk bewijs is van een sterke correlatie tussen de sets van (x, y) gegevens. Een rekenmachine genereert een regel, ongeacht of het zin heeft deze te gebruiken.
Tegelijkertijd wordt een eenvoudige lineaire regressielijnvergelijking gegenereerd, mensen moeten naar het correlatieniveau kijken. Dit betekent het evalueren van r, de correlatiecoëfficiënt, tegen een tabel met waarden om te bepalen of er lineaire correlatie bestaat. Bovendien is het evalueren van de gegevens door het als een spreidingsdiagram te plotten een goede manier om een idee te krijgen of gegevens een lineair verband hebben.
Wat dan kan worden gedaan met een eenvoudige lineaire regressielijn, op voorwaarde dat het een lineaire correlatie heeft, is dat waarden kunnen worden vervangen door x om een voorspelde waarde voor ŷ te krijgen. Deze voorspelling heeft zijn grenzen. De aanwezige gegevens, vooral als het slechts een steekproef is, kunnen nu een lineaire correlatie hebben, maar misschien niet later met toegevoegd monstermateriaal.
Als alternatief kan een hele steekproef een correlatie delen, terwijl een hele populatie dat niet doet. Voorspelling is daarom beperkt en het overstijgen van de beschikbare gegevenswaarden wordt extrapolatie genoemd en wordt niet aangemoedigd. Als mensen bovendien weten dat als er geen lineaire correlatie bestaat, de beste schatting van x het gemiddelde is van alle y-gegevens.
In wezen is eenvoudige lineaire regressie een nuttig statistisch hulpmiddel dat, met discretie, kan worden gebruikt om ŷ waarden te voorspellen op basis van de bijlwaarde. Het wordt bijna altijd onderwezen met het idee van lineaire correlatie, omdat het bepalen van het nut van een regressielijn analyse van r vereist. Gelukkig met veel moderne technische programma's, kunnen mensen spreidingsgrafieken in kaart brengen, regressielijnen toevoegen en de correlatiecoëfficiënt r bepalen met een paar ingangen.