Co to jest prosta regresja liniowa?
Prosta regresja liniowa ma zastosowanie do statystyki i pomaga opisać (x, y) dane, które wydają się mieć zależność liniową, umożliwiając pewne przewidywanie y, jeśli x jest znane. Dane te są często wykreślane na wykresach rozrzutu, a wzór na regresję liniową tworzy linię, która najlepiej pasuje do wszystkich punktów, pod warunkiem, że naprawdę mają korelację liniową. Nie pasuje dokładnie do wszystkich punktów, ale powinna być linią, w której suma kwadratów różnicy między danymi rzeczywistymi a danymi oczekiwanymi (resztami) tworzy najniższą liczbę, która jest często nazywana linią najmniejszych kwadratów lub linią najlepiej dopasowana. Równanie linii dla danych próbki i danych populacji jest następujące: ŷ = b 0 + b 1 x i Y = B 0 + B 1 x.
Każdy, kto zna algebrę, może zauważyć podobieństwo tej linii do y = mx + b, w rzeczywistości oba są względnie identyczne, z wyjątkiem tego, że dwa terminy po prawej stronie równania są zamienione, tak że B 1 równa się nachyleniu lub m. Powodem tego przestawienia jest eleganckie dodanie dodatkowych terminów za pomocą funkcji, takich jak wykładniki, które mogą opisywać różne nieliniowe formy relacji.
Formuły na uzyskanie prostej linii regresji liniowej są stosunkowo złożone i kłopotliwe, a większość ludzi nie spędza dużo czasu na ich zapisywaniu, ponieważ ich wypełnienie zajmuje dużo czasu. Zamiast tego różne programy, takie jak Excel® lub wiele rodzajów kalkulatorów naukowych, mogą łatwo obliczyć linię najmniejszych kwadratów. Linia jest odpowiednia do przewidywania tylko wtedy, gdy istnieją wyraźne dowody silnej korelacji między zestawami danych (x, y). Kalkulator wygeneruje linię, niezależnie od tego, czy warto z niej skorzystać.
Jednocześnie generowane jest proste równanie linii regresji liniowej, ludzie muszą spojrzeć na poziom korelacji. Oznacza to oszacowanie r, współczynnika korelacji, na podstawie tabeli wartości w celu ustalenia, czy istnieje korelacja liniowa. Ponadto ocena danych przez wykreślenie ich jako wykres rozrzutu jest dobrym sposobem na uzyskanie zrozumienia, czy dane mają związek liniowy.
To, co można następnie zrobić za pomocą prostej linii regresji liniowej, pod warunkiem że ma ona korelację liniową, polega na tym, że wartości można podstawić na x, aby uzyskać przewidywaną wartość ŷ. Ta prognoza ma swoje granice. Obecne dane, szczególnie jeśli jest to tylko próbka, mogą mieć teraz korelację liniową, ale nie później z dodanym dodatkowym materiałem próbki.
Alternatywnie, cała próbka może dzielić korelację, podczas gdy cała populacja nie. Prognozy są zatem ograniczone, a wykraczanie poza dostępne wartości danych nazywa się ekstrapolacją i nie jest zalecane. Ponadto, jeśli ludzie wiedzą, że jeśli nie istnieje korelacja liniowa, najlepszym oszacowaniem x jest średnia wszystkich danych y.
Zasadniczo prosta regresja liniowa jest użytecznym narzędziem statystycznym, które według własnego uznania można wykorzystać do przewidywania wartości based na podstawie wartości osi. Prawie zawsze uczy się tego z ideą korelacji liniowej, ponieważ określenie użyteczności linii regresji wymaga analizy r. Na szczęście dzięki wielu nowoczesnym programom technicznym ludzie mogą rysować wykresy rozrzutu, dodawać linie regresji i określać współczynnik korelacji r za pomocą kilku wpisów.