Метод наименьших квадратов: различия между версиями

Материал из Поле цифровой дидактики
Строка 44: Строка 44:
* <math>\boldsymbol{\beta}</math> — вектор параметров размерности <math>k \times 1</math>
* <math>\boldsymbol{\beta}</math> — вектор параметров размерности <math>k \times 1</math>
* <math>\mathbf{y}</math> — вектор наблюдений размерности <math>n \times 1</math>
* <math>\mathbf{y}</math> — вектор наблюдений размерности <math>n \times 1</math>
==== Ключевые термины и показатели ====
; Остатки (Residuals)
Остатками называются отклонения наблюдаемых значений от предсказанных моделью:
<math>e_i = y_i - \hat{y}_i</math>
; Коэффициент детерминации (R²)
Коэффициент детерминации показывает, какую долю дисперсии зависимой переменной объясняет модель:
<math>R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2}</math>
где <math>\bar{y}</math> — среднее значение зависимой переменной.[8][3]
; Среднеквадратическая ошибка (MSE)
MSE (Mean Squared Error) — мера точности модели:
<math>MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2</math>
==== Пример в образовательной сфере ====
Рассмотрим задачу оценки влияния количества часов подготовки к экзамену (<math>x</math>) на итоговый балл студента (<math>y</math>). Если у нас есть данные по 50 студентам, [[МНК]] позволит построить регрессионное уравнение вида:
<math>Балл = \beta_0 + \beta_1 \cdot Часы\_подготовки + \varepsilon</math>
где <math>\beta_1</math> показывает, на сколько баллов в среднем увеличивается оценка при увеличении времени подготовки на один час.
==== Примеры моделей [[NetLogo]] для изучения [[МНК]] ====
; Модель "Simple Economy" (Простая экономика)[13]
Эта модель из библиотеки NetLogo демонстрирует распределение богатства в обществе. Применение МНК:
- Построение регрессионной зависимости между начальными условиями и итоговым распределением богатства
- Оценка параметров кривой Лоренца методом наименьших квадратов
- Анализ влияния правил обмена на коэффициент Джини

Версия от 17:32, 5 сентября 2025


Описание Метод наименьших квадратов (МНК) (англ. Least Squares Method, Ordinary Least Squares, OLS) — это математический метод оценки параметров статистических моделей, основанный на принципе минимизации суммы квадратов отклонений между наблюдаемыми и предсказанными моделью значениями.
Область знаний Социология, Экономика, Статистика
Авторы Гаусс
Поясняющее видео
Близкие понятия Регрессионный анализ
Среды и средства для освоения понятия Urban Suite - Economic Disparity

Метод был впервые разработан Карлом Фридрихом Гауссом (1795) и независимо Адриен-Мари Лежандром (1805), который опубликовал его под современным названием (фр. Méthode des moindres quarrés). Позднее Пьер-Симон Лаплас связал метод с теорией вероятностей, а работы А.А. Маркова в начале XX века включили МНК в теорию математической статистики.

Математические основы метода

Основная формулировка задачи

Пусть у нас есть набор экспериментальных данных: [math]\displaystyle{ y_i, i = 1, ..., n }[/math] (зависимая переменная) и [math]\displaystyle{ x_i, i = 1, ..., n }[/math] (независимая переменная). Основная цель МНК заключается в минимизации функции:

[math]\displaystyle{ S = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \rightarrow \min }[/math]

где:

  1. [math]\displaystyle{ y_i }[/math] — наблюдаемое значение
  2. [math]\displaystyle{ \hat{y}_i }[/math] — предсказанное моделью значение
  3. [math]\displaystyle{ S }[/math] — сумма квадратов остатков (англ. Sum of Squares of Residuals)

Для простейшего случая линейной регрессии вида [math]\displaystyle{ y = mx + b }[/math], коэффициенты вычисляются по формулам:

Коэффициент наклона (slope)

[math]\displaystyle{ m = \frac{n\sum_{i=1}^{n} x_i y_i - \sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i}{n\sum_{i=1}^{n} x_i^2 - \left(\sum_{i=1}^{n} x_i\right)^2} }[/math]

Свободный член (intercept)

[math]\displaystyle{ b = \frac{\sum_{i=1}^{n} y_i - m\sum_{i=1}^{n} x_i}{n} }[/math]

Многомерная регрессия

Для многомерного случая МНК может быть представлен в матричной форме:

Нормальные уравнения

[math]\displaystyle{ \mathbf{X}^T\mathbf{X}\boldsymbol{\beta} = \mathbf{X}^T\mathbf{y} }[/math]

Решение

[math]\displaystyle{ \boldsymbol{\beta} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y} }[/math]

где:

  • [math]\displaystyle{ \mathbf{X} }[/math] — матрица регрессоров размерности [math]\displaystyle{ n \times k }[/math]
  • [math]\displaystyle{ \boldsymbol{\beta} }[/math] — вектор параметров размерности [math]\displaystyle{ k \times 1 }[/math]
  • [math]\displaystyle{ \mathbf{y} }[/math] — вектор наблюдений размерности [math]\displaystyle{ n \times 1 }[/math]


Ключевые термины и показатели

Остатки (Residuals)

Остатками называются отклонения наблюдаемых значений от предсказанных моделью:

[math]\displaystyle{ e_i = y_i - \hat{y}_i }[/math]

Коэффициент детерминации (R²)

Коэффициент детерминации показывает, какую долю дисперсии зависимой переменной объясняет модель:

[math]\displaystyle{ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2} }[/math]

где [math]\displaystyle{ \bar{y} }[/math] — среднее значение зависимой переменной.[8][3]

Среднеквадратическая ошибка (MSE)

MSE (Mean Squared Error) — мера точности модели:

[math]\displaystyle{ MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2 }[/math]

Пример в образовательной сфере

Рассмотрим задачу оценки влияния количества часов подготовки к экзамену ([math]\displaystyle{ x }[/math]) на итоговый балл студента ([math]\displaystyle{ y }[/math]). Если у нас есть данные по 50 студентам, МНК позволит построить регрессионное уравнение вида:

[math]\displaystyle{ Балл = \beta_0 + \beta_1 \cdot Часы\_подготовки + \varepsilon }[/math]

где [math]\displaystyle{ \beta_1 }[/math] показывает, на сколько баллов в среднем увеличивается оценка при увеличении времени подготовки на один час.

Примеры моделей NetLogo для изучения МНК

Модель "Simple Economy" (Простая экономика)[13]

Эта модель из библиотеки NetLogo демонстрирует распределение богатства в обществе. Применение МНК: - Построение регрессионной зависимости между начальными условиями и итоговым распределением богатства - Оценка параметров кривой Лоренца методом наименьших квадратов - Анализ влияния правил обмена на коэффициент Джини