Wat is eenvoudige lineaire regressie?
Eenvoudige lineaire regressie is van toepassing op statistieken en helpt bij het beschrijven van (x, y) gegevens die een lineaire relatie lijken te hebben, waardoor een voorspelling van Y mogelijk is als X bekend is. Deze gegevens worden vaak uitgezet op scatterplots en de formule voor lineaire regressie creëert een lijn die het beste bij alle punten past, op voorwaarde dat ze echt een lineaire correlatie hebben. Het past niet precies alle punten, maar het moet een lijn zijn waar de som van de vierkanten van het verschil tussen werkelijke gegevens en verwachte gegevens (residuen) het laagste aantal creëert, dat vaak de minste kwadratenlijn of lijn van de beste pasvorm wordt genoemd. De vergelijking van de lijn voor steekproefgegevens en populatiegegevens zijn de volgende: ŷ = B 0 + B 1 x en y = b 0 + B 1 x.
Iedereen die bekend is met algebra kan de gelijkenis van deze lijn op y = mx + b opmerken, en in feite zijn de twee relatief identiek, behalve dat de twee termen aan de rechterkant van de vergelijking worden geschakeld, zodat b 1 gelijk is aan slope of m. De reden voor deze herschikking is dat het dan elegant eenvoudig wordt om extra termen toe te voegen met functies zoals exponenten die verschillende niet -lineaire vormen van relatie kunnen beschrijven.
De formules voor het krijgen van een eenvoudige lineaire regressielijn zijn relatief complex en omslachtig, en de meeste mensen besteden niet veel tijd aan het schrijven van deze omdat ze lang duren om te voltooien. In plaats daarvan kunnen verschillende programma's, zoals voor Excel® of voor vele soorten wetenschappelijke rekenmachines, gemakkelijk een kleinste kwadratenlijn berekenen. De lijn is alleen geschikt voor voorspelling als er duidelijk bewijs is van een sterke correlatie tussen de sets van (x, y) gegevens. Een rekenmachine zal een lijn genereren, ongeacht of deze zinvol is om deze te gebruiken.
Tegelijkertijd wordt een eenvoudige lineaire regressielijnvergelijking gegenereerd, mensen moeten kijken naar het niveau van correlatie. Dit betekent evalueren van r, de correlationcoëfficiënt, tegen een tabel met waarden om te bepalen of lineaire correlatie bestaat. Bovendien is het evalueren van de gegevens door het te plotten als een spreidingsplot een goede manier om een gevoel te krijgen als gegevens een lineaire relatie hebben.
Wat dan kan worden gedaan met een eenvoudige lineaire regressielijn, op voorwaarde dat deze een lineaire correlatie heeft, is dat waarden kunnen worden vervangen in X, om een voorspelde waarde voor ŷ te krijgen. Deze voorspelling heeft zijn grenzen. De aanwezige gegevens, vooral als het slechts een monster is, kunnen nu een lineaire correlatie hebben, maar misschien niet later met extra monstermateriaal toegevoegd.
Als alternatief kan een hele steekproef een correlatie delen, terwijl een hele populatie dat niet doet. Voorspelling is daarom beperkt en veel verder gaan dan de beschikbare gegevenswaarden wordt extrapolatie genoemd en wordt niet aangemoedigd. Bovendien, als mensen weten dat als er geen lineaire correlatie bestaat, de beste schatting van X het gemiddelde is van alle Y -gegevens.
In wezen is eenvoudige lineaire regressie een nuttige statistische tOOL die met discretie kan worden gebruikt om ŷ waarden te voorspellen op basis van een X -waarde. Het wordt bijna altijd onderwezen met het idee van lineaire correlatie, omdat het bepalen van het nut van een regressielijn analyse van r vereist. Gelukkig kunnen mensen met veel moderne technische programma's scatterplots grafieken, regressielijnen toevoegen en de correlatiecoëfficiënt R met een paar inzendingen bepalen.