Регрессия: различия между версиями
Patarakin (обсуждение | вклад) |
Patarakin (обсуждение | вклад) |
||
Строка 9: | Строка 9: | ||
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]] | Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]] | ||
: <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде), | : <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде), | ||
то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется '''[[Регрессия | то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется '''[[Регрессия|регрессией]]''' величины <math>Y</math> по величинам <math>X_1, X_2,\ldots, X_p</math>, а её [[график функции|график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, \ldots, X_p</math>, или '''уравнением регрессии'''. | ||
Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым [[Распределение вероятностей|распределением]]. | Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым [[Распределение вероятностей|распределением]]. |
Текущая версия на 13:24, 12 апреля 2024
Описание | В математической статистике линейная регрессия представляет собой метод аппроксимации зависимостей между входными и выходными переменными на основе линейной модели. Является частью более широкой статистической методики, называемой регрессионным анализом.
В регрессионном анализе входные (независимые) переменные называются также предикторными переменными или регрессорами, а зависимые переменные — критериальными. |
---|---|
Область знаний | Математика, Информатика, Социология |
Авторы | |
Поясняющее видео | |
Близкие понятия | Регрессионный анализ, Множественная регрессия, Линейная регрессия |
Среды и средства для освоения понятия | ChatGPT, R, Python |
Математическое определение регрессии
Строго регрессионную зависимость можно определить следующим образом. Пусть [math]\displaystyle{ Y, X_1, X_2, \ldots, X_p }[/math] — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений [math]\displaystyle{ X_1=x_1, X_2=x_2, \ldots, X_p=x_p }[/math] определено условное математическое ожидание
- [math]\displaystyle{ y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p) }[/math] (уравнение регрессии в общем виде),
то функция [math]\displaystyle{ y(x_1,x_2, \ldots, x_p) }[/math] называется регрессией величины [math]\displaystyle{ Y }[/math] по величинам [math]\displaystyle{ X_1, X_2,\ldots, X_p }[/math], а её график — линией регрессии [math]\displaystyle{ Y }[/math] по [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math], или уравнением регрессии.
Зависимость [math]\displaystyle{ Y }[/math] от [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math] проявляется в изменении средних значений [math]\displaystyle{ Y }[/math] при изменении [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math]. Хотя при каждом фиксированном наборе значений [math]\displaystyle{ X_1=x_1, X_2=x_2, \ldots, X_p=x_p }[/math] величина [math]\displaystyle{ Y }[/math] остаётся случайной величиной с определённым распределением.
Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение [math]\displaystyle{ Y }[/math] при изменении [math]\displaystyle{ X_1, X_2, ..., X_p }[/math], используется средняя величина дисперсии [math]\displaystyle{ Y }[/math] при разных наборах значений [math]\displaystyle{ X_1, X_2, ..., X_p }[/math] (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).
В матричной форме уравнение регрессии (УР) записывается в виде: [math]\displaystyle{ Y=BX+U }[/math], где [math]\displaystyle{ U }[/math] — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.