Регрессия
Описание | В математической статистике линейная регрессия представляет собой метод аппроксимации зависимостей между входными и выходными переменными на основе линейной модели. Является частью более широкой статистической методики, называемой регрессионным анализом.
В регрессионном анализе входные (независимые) переменные называются также предикторными переменными или регрессорами, а зависимые переменные — критериальными. |
---|---|
Область знаний | Информатика, Математика, Социология |
Авторы | |
Поясняющее видео | |
Близкие понятия | Регрессионный анализ, Множественная регрессия |
Среды и средства для освоения понятия | ChatGPT, R, Python |
Математическое определение регрессии
Строго регрессионную зависимость можно определить следующим образом. Пусть [math]\displaystyle{ Y, X_1, X_2, \ldots, X_p }[/math] — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений [math]\displaystyle{ X_1=x_1, X_2=x_2, \ldots, X_p=x_p }[/math] определено условное математическое ожидание
- [math]\displaystyle{ y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p) }[/math] (уравнение регрессии в общем виде),
то функция [math]\displaystyle{ y(x_1,x_2, \ldots, x_p) }[/math] называется регрессией величины [math]\displaystyle{ Y }[/math] по величинам [math]\displaystyle{ X_1, X_2,\ldots, X_p }[/math], а её график — линией регрессии [math]\displaystyle{ Y }[/math] по [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math], или уравнением регрессии.
Зависимость [math]\displaystyle{ Y }[/math] от [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math] проявляется в изменении средних значений [math]\displaystyle{ Y }[/math] при изменении [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math]. Хотя при каждом фиксированном наборе значений [math]\displaystyle{ X_1=x_1, X_2=x_2, \ldots, X_p=x_p }[/math] величина [math]\displaystyle{ Y }[/math] остаётся случайной величиной с определённым распределением.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение [math]\displaystyle{ Y }[/math] при изменении [math]\displaystyle{ X_1, X_2, ..., X_p }[/math], используется средняя величина дисперсии [math]\displaystyle{ Y }[/math] при разных наборах значений [math]\displaystyle{ X_1, X_2, ..., X_p }[/math] (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).
В матричной форме уравнение регрессии (УР) записывается в виде: [math]\displaystyle{ Y=BX+U }[/math], где [math]\displaystyle{ U }[/math] — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.