Skip to main content

Что такое простая линейная регрессия?

Простая линейная регрессия применяется к статистике и помогает описать (x, y) данные, которые, по-видимому, имеют линейную зависимость, что позволяет сделать некоторый прогноз y, если x известен. Эти данные часто наносятся на диаграммы рассеяния, и формула для линейной регрессии создает линию, которая наилучшим образом соответствует всем точкам, при условии, что они действительно имеют линейную корреляцию. Это не будет соответствовать точно всем точкам, но это должна быть линия, где сумма квадратов разности между фактическими данными и ожидаемыми данными (остатки) создает наименьшее число, которое часто называют линией наименьших квадратов или линией наиболее подходящий. Уравнение линии для выборочных данных и данных о населении имеет следующий вид: ŷ = b 0 + b 1 x и Y = B 0 + B 1 x.

Любой, кто знаком с алгеброй, может заметить сходство этой линии с y = mx + b, и на самом деле эти два относительно идентичны, за исключением того, что два члена в правой части уравнения переключаются, так что B 1 равен наклону или m. Причина такой перестройки заключается в том, что тогда становится элегантно легко добавлять дополнительные термины с такими функциями, как показатели, которые могут описывать различные нелинейные формы отношений.

Формулы для получения простой линии линейной регрессии относительно сложны и громоздки, и большинство людей не тратят много времени на их запись, потому что для их завершения требуется много времени. Вместо этого различные программы, такие как Excel® или для многих типов научных калькуляторов, могут легко вычислить линию наименьших квадратов. Линия подходит для прогнозирования только в том случае, если имеются явные доказательства сильной корреляции между наборами данных (x, y). Калькулятор сгенерирует строку независимо от того, имеет ли смысл ее использовать.

В то же время генерируется простое уравнение линии линейной регрессии, люди должны смотреть на уровень корреляции. Это означает оценку r, коэффициента корреляции, по таблице значений, чтобы определить, существует ли линейная корреляция. Кроме того, оценка данных путем их построения в виде диаграммы рассеяния - это хороший способ понять, имеют ли данные линейную зависимость.

Что можно сделать с помощью простой линии линейной регрессии, при условии, что она имеет линейную корреляцию, - это то, что значения можно подставить в x, чтобы получить прогнозируемое значение для ŷ. Этот прогноз имеет свои пределы. Представленные данные, особенно если это просто образец, могут теперь иметь линейную корреляцию, но не могут позже, с добавлением дополнительного материала образца.

Альтернативно, целая выборка может иметь корреляцию, а целая популяция - нет. Поэтому прогнозирование ограничено, и выход за пределы доступных значений данных называется экстраполяцией и не поощряется. Более того, если люди знают, что если линейной корреляции не существует, наилучшая оценка x - это среднее значение всех данных y.

По сути, простая линейная регрессия является полезным статистическим инструментом, который может по своему усмотрению использоваться для прогнозирования ŷ значений на основе значения топора. Это почти всегда преподается с идеей линейной корреляции, поскольку определение полезности линии регрессии требует анализа r. К счастью, со многими современными техническими программами люди могут построить график рассеяния, добавить линии регрессии и определить коэффициент корреляции r с помощью нескольких записей.