Остаток
| Описание | Остаток (residual) — это разница между фактическим (наблюдаемым) значением переменной и значением, предсказанным регрессионной моделью. Остатки показывают, насколько точно наша модель описывает реальные данные. |
|---|---|
| Область знаний | Статистика, Моделирование |
| Авторы | |
| Поясняющее видео | |
| Близкие понятия | |
| Среды и средства для освоения понятия |
Остаток вычисляется по формуле: [math]\displaystyle{ e_i = y_i - \hat{y}_i }[/math]
- где
- [math]\displaystyle{ e_i }[/math] — остаток для наблюдения [math]\displaystyle{ i }[/math]
- [math]\displaystyle{ y_i }[/math] — фактическое (наблюдаемое) значение
- [math]\displaystyle{ \hat{y}_i }[/math] — предсказанное значение, полученное из регрессионной модели
Представьте, что мы строим модель для предсказания оценок студентов на основе количества часов, потраченных на учёбу. Допустим, наша модель предсказывает оценку 85 баллов для студента, который учился 10 часов, но на самом деле он получил 92 балла.
Остаток для этого студента: [math]\displaystyle{ e = 92 - 85 = 7 }[/math] Положительный остаток (+7) указывает, что студент получил результат лучше ожидаемого.
Если фактическое значение меньше предсказанного, остаток отрицательный: [math]\displaystyle{ e_i \lt 0 \text{ когда } y_i \lt \hat{y}_i }[/math] Это означает, что модель переоценила реальное значение.
При правильной подгонке регрессионной модели остатки должны обладать следующими свойствами:
- Сумма остатков равна нулю: положительные остатки уравновешиваются отрицательными - [math]\displaystyle{ \sum_{i=1}^{n} e_i = 0 }[/math]
- Среднее значение остатков равно нулю: [math]\displaystyle{ \bar{e} = \frac{1}{n} \sum_{i=1}^{n} e_i = 0 }[/math]
- Остатки независимы друг от друга — величина одного остатка не должна влиять на другой.
- Остатки нормально распределены — большинство остатков должны быть близки к нулю, а крайние значения встречаются редко.
- Гомоскедастичность (постоянная дисперсия) — разброс остатков должен быть одинаков для всех значений предсказанной переменной.
Для проверки независимости остатков (особенно важно для временных рядов) используется статистика Дарбина-Уотсона: [math]\displaystyle{ \text{DW} = \frac{\sum_{t=2}^{n} (e_t - e_{t-1})^2}{\sum_{t=1}^{n} e_t^2} }[/math]
Значение DW колеблется от 0 до 4:
- DW ≈ 2 — нет автокорреляции (идеально)
- DW < 2 — положительная автокорреляция (остатки скоррелированы)
- DW > 2 — отрицательная автокорреляция
