Was ist einfache lineare Regression?
Einfache lineare Regression gilt für Statistiken und hilft bei der Beschreibung von (x, y) -Daten, die eine lineare Beziehung zu haben scheinen, und ermöglicht eine gewisse Vorhersage von y, wenn x bekannt ist. Diese Daten werden häufig in Streudiagrammen aufgezeichnet, und die Formel für die lineare Regression erstellt eine Linie, die für alle Punkte am besten geeignet ist, sofern sie tatsächlich eine lineare Korrelation aufweisen. Es passt nicht genau zu allen Punkten, aber es sollte eine Linie sein, bei der die Summe der Quadrate der Differenz zwischen tatsächlichen Daten und erwarteten Daten (Residuen) die niedrigste Zahl ergibt, die oft als Linie oder Linie der kleinsten Quadrate bezeichnet wird beste Passform. Die Gleichung der Linie für Probendaten und Populationsdaten lautet wie folgt: ŷ = b 0 + b 1 x und Y = B 0 + B 1 x.
Jeder, der mit Algebra vertraut ist, kann die Ähnlichkeit dieser Linie mit y = mx + b bemerken, und tatsächlich sind die beiden relativ identisch, außer dass die beiden Terme auf der rechten Seite der Gleichung vertauscht sind, so dass B 1 gleich Steigung oder m ist. Der Grund für diese Neuanordnung ist, dass es dann elegant einfach wird, zusätzliche Begriffe mit Merkmalen wie Exponenten hinzuzufügen, die verschiedene nichtlineare Beziehungsformen beschreiben könnten.
Die Formeln zum Erhalten einer einfachen linearen Regressionslinie sind relativ komplex und umständlich, und die meisten Leute verbringen nicht viel Zeit damit, diese aufzuschreiben, da ihre Fertigstellung viel Zeit in Anspruch nimmt. Stattdessen können verschiedene Programme, z. B. für Excel® oder für viele Arten von wissenschaftlichen Taschenrechnern, problemlos eine Linie mit den kleinsten Quadraten berechnen. Die Linie ist nur zur Vorhersage geeignet, wenn es eindeutige Hinweise auf eine starke Korrelation zwischen den Mengen von (x, y) -Daten gibt. Ein Taschenrechner generiert eine Zeile, unabhängig davon, ob es sinnvoll ist, sie zu verwenden.
Gleichzeitig wird eine einfache lineare Regressionsgeradengleichung generiert, bei der die Korrelationsebene berücksichtigt werden muss. Dies bedeutet, dass r, der Korrelationskoeffizient, anhand einer Wertetabelle ausgewertet wird, um festzustellen, ob eine lineare Korrelation vorliegt. Darüber hinaus ist die Auswertung der Daten durch Auftragen als Streudiagramm eine gute Methode, um festzustellen, ob Daten eine lineare Beziehung haben.
Was dann mit einer einfachen linearen Regressionsgeraden gemacht werden kann, vorausgesetzt sie hat eine lineare Korrelation, ist, dass Werte in x eingesetzt werden können, um einen vorhergesagten Wert für ŷ zu erhalten. Diese Vorhersage hat ihre Grenzen. Die vorliegenden Daten, insbesondere wenn es sich nur um eine Probe handelt, können jetzt eine lineare Korrelation aufweisen, jedoch nicht später, wenn zusätzliches Probenmaterial hinzugefügt wird.
Alternativ kann eine ganze Stichprobe eine Korrelation aufweisen, eine ganze Population jedoch nicht. Die Vorhersage ist daher begrenzt und ein weites Überschreiten der verfügbaren Datenwerte wird als Extrapolation bezeichnet und nicht empfohlen. Wenn die Leute wissen, dass keine lineare Korrelation besteht, ist die beste Schätzung von x der Mittelwert aller y-Daten.
Grundsätzlich ist die einfache lineare Regression ein nützliches statistisches Werkzeug, mit dem nach Belieben ŷ-Werte auf der Grundlage des Ax-Werts vorhergesagt werden können. Es wird fast immer mit der Idee der linearen Korrelation unterrichtet, da die Bestimmung der Nützlichkeit einer Regressionslinie die Analyse von r erfordert. Glücklicherweise können mit vielen modernen technischen Programmen Streudiagramme erstellt, Regressionslinien hinzugefügt und der Korrelationskoeffizient r mit ein paar Einträgen bestimmt werden.