Co je to jednoduchá lineární regrese?
Jednoduchá lineární regrese se vztahuje na statistiky a pomáhá popsat (x, y) data, která, jak se zdá, mají lineární vztah, což umožňuje určitou predikci y, pokud je x známo. Tato data se často vykreslují na rozptylech a vzorec pro lineární regresi vytváří čáru, která nejlépe vyhovuje všem bodům, za předpokladu, že skutečně mají lineární korelaci. Nesedí přesně na všechny body, ale měla by to být čára, kde součet čtverců rozdílu mezi skutečnými daty a očekávanými daty (zbytky) vytváří nejnižší číslo, které se často nazývá čára nebo řádek nejmenších čtverců nejlépe padnou. Rovnice přímky pro data vzorku a data populace jsou následující: ŷ = b 0 + b 1 x a Y = B 0 + B 1 x.
Každý, kdo je obeznámen s algebrou, si může všimnout podobnosti této linie s y = mx + b, a ve skutečnosti jsou dva relativně stejné, kromě toho, že jsou přepnuty dva termíny na pravé straně rovnice, takže B 1 se rovná sklon nebo m. Důvodem tohoto přeskupení je pak to, že je elegantně snadné přidat další termíny s vlastnostmi, jako jsou exponenty, které by mohly popisovat různé nelineární formy vztahu.
Vzorce pro získání jednoduché lineární regresní čáry jsou relativně složité a těžkopádné a většina lidí je nestráví příliš mnoho času, než si je zapisují, protože jejich dokončení trvá dlouho. Místo toho mohou různé programy, například pro Excel® nebo pro mnoho typů vědeckých kalkulaček, snadno spočítat řádek nejmenších čtverců. Řádek je vhodný pouze pro predikci, pokud existuje jasný důkaz silné korelace mezi sadami (x, y) dat. Kalkulačka vygeneruje linku, bez ohledu na to, zda má smysl ji používat.
Současně se vytvoří jednoduchá lineární rovnice regresní přímky, lidé se musí dívat na úroveň korelace. To znamená vyhodnocení r, korelačního koeficientu, s tabulkou hodnot pro určení, zda existuje lineární korelace. Vyhodnocení dat jejich vykreslením jako rozptylu je navíc dobrý způsob, jak získat smysl, pokud data mají lineární vztah.
Co pak lze udělat s jednoduchou lineární regresní přímkou, za předpokladu, že má lineární korelaci, je to, že hodnoty mohou být nahrazeny do x, aby se získala předpovězená hodnota pro ŷ. Tato předpověď má své meze. Údaje, zejména pokud se jedná pouze o vzorek, mohou mít nyní lineární korelaci, ale později nemusí být přidány další vzorky.
Alternativně může celý vzorek sdílet korelaci, zatímco celá populace ne. Predikce je proto omezená a překročení dostupných datových hodnot se nazývá extrapolace a není podporováno. Pokud by lidé věděli, že pokud neexistuje žádná lineární korelace, nejlepší odhad x je průměr ze všech dat y.
V zásadě je jednoduchá lineární regrese užitečným statistickým nástrojem, který lze podle uvážení použít k predikci ŷ hodnot založených na hodnotě osy. Téměř vždy se učí s myšlenkou lineární korelace, protože stanovení užitečnosti regresní linie vyžaduje analýzu r. Naštěstí s mnoha moderními technickými programy mohou lidé grafovat rozptyly, přidat regresní čáry a určit korelační koeficient r pomocí několika položek.