Регрессия: различия между версиями

Материал из Поле цифровой дидактики
 
Строка 9: Строка 9:
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]]
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]]
: <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде),
: <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде),
то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется '''[[Регрессия (математика)|регрессией]]''' величины <math>Y</math> по величинам <math>X_1, X_2,\ldots, X_p</math>, а её [[график функции|график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, \ldots, X_p</math>, или '''уравнением регрессии'''.
то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется '''[[Регрессия|регрессией]]''' величины <math>Y</math> по величинам <math>X_1, X_2,\ldots, X_p</math>, а её [[график функции|график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, \ldots, X_p</math>, или '''уравнением регрессии'''.


Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым [[Распределение вероятностей|распределением]].
Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым [[Распределение вероятностей|распределением]].

Текущая версия на 13:24, 12 апреля 2024


Описание В математической статистике линейная регрессия представляет собой метод аппроксимации зависимостей между входными и выходными переменными на основе линейной модели. Является частью более широкой статистической методики, называемой регрессионным анализом.

В регрессионном анализе входные (независимые) переменные называются также предикторными переменными или регрессорами, а зависимые переменные — критериальными.

Область знаний Математика, Информатика, Социология
Авторы
Поясняющее видео
Близкие понятия Регрессионный анализ, Множественная регрессия, Линейная регрессия
Среды и средства для освоения понятия ChatGPT, R, Python

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть [math]\displaystyle{ Y, X_1, X_2, \ldots, X_p }[/math] — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений [math]\displaystyle{ X_1=x_1, X_2=x_2, \ldots, X_p=x_p }[/math] определено условное математическое ожидание

[math]\displaystyle{ y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p) }[/math] (уравнение регрессии в общем виде),

то функция [math]\displaystyle{ y(x_1,x_2, \ldots, x_p) }[/math] называется регрессией величины [math]\displaystyle{ Y }[/math] по величинам [math]\displaystyle{ X_1, X_2,\ldots, X_p }[/math], а её графиклинией регрессии [math]\displaystyle{ Y }[/math] по [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math], или уравнением регрессии.

Зависимость [math]\displaystyle{ Y }[/math] от [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math] проявляется в изменении средних значений [math]\displaystyle{ Y }[/math] при изменении [math]\displaystyle{ X_1, X_2, \ldots, X_p }[/math]. Хотя при каждом фиксированном наборе значений [math]\displaystyle{ X_1=x_1, X_2=x_2, \ldots, X_p=x_p }[/math] величина [math]\displaystyle{ Y }[/math] остаётся случайной величиной с определённым распределением.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение [math]\displaystyle{ Y }[/math] при изменении [math]\displaystyle{ X_1, X_2, ..., X_p }[/math], используется средняя величина дисперсии [math]\displaystyle{ Y }[/math] при разных наборах значений [math]\displaystyle{ X_1, X_2, ..., X_p }[/math] (фактически речь идёт о мере рассеяния зависимой переменной вокруг линии регрессии).

В матричной форме уравнение регрессии (УР) записывается в виде: [math]\displaystyle{ Y=BX+U }[/math], где [math]\displaystyle{ U }[/math] — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.