Дисперсионный анализ

Материал из Поле цифровой дидактики


Описание ANOVA = ANalysis Of VAriance = Дисперсионный анализ Дисперсионный анализ (от лат. translate:Dispersio — рассеивание, англ. translate:Analysis of Variance, ANOVA) — статистический метод, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях двух или более групп. В отличие от t-критерия, позволяет одновременно сравнивать средние значения трёх и более групп без увеличения риска ошибки I рода.
Область знаний Статистика
Авторы Фишер
Поясняющее видео
Близкие понятия F-test, T-тест
Среды и средства для освоения понятия F-test

ANOVA — это метод, который разделяет общую вариативность данных на составляющие части: вариативность между группами (объясняемая независимой переменной) и вариативность внутри групп (случайная, необъясняемая вариативность). Метод разработан Рональдом Фишером в 1920-х годах для анализа результатов экспериментальных исследований.

[math]\displaystyle{ F = \frac{MS_{between}}{MS_{within}} = \frac{\text{Межгрупповая средняя квадратичная ошибка}}{\text{Внутригрупповая средняя квадратичная ошибка}} }[/math]

Если различия между группами обусловлены только случайностью, то F-статистика будет близка к 1. Если между группами есть систематические различия, F-статистика будет значительно больше 1.

Математические основы

Разложение общей суммы квадратов
Общая сумма квадратов отклонений разлагается на две части:

[math]\displaystyle{ SS_{total} = SS_{between} + SS_{within} }[/math]

где: - [math]\displaystyle{ SS_{total} = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_{general})^2 }[/math] — общая сумма квадратов - [math]\displaystyle{ SS_{between} = \sum_{i=1}^{k}n_i(\bar{X}_i - \bar{X}_{general})^2 }[/math] — межгрупповая сумма квадратов - [math]\displaystyle{ SS_{within} = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_i)^2 }[/math] — внутригрупповая сумма квадратов

Степени свободы

Степени свободы в ANOVA
Компонент Формула Описание
Между группами [math]\displaystyle{ df_{between} = k - 1 }[/math] k — количество групп
Внутри групп [math]\displaystyle{ df_{within} = N - k }[/math] N — общий размер выборки
Общие [math]\displaystyle{ df_{total} = N - 1 }[/math] Общие степени свободы

F-статистика

[math]\displaystyle{ F = \frac{MS_{between}}{MS_{within}} = \frac{SS_{between}/(k-1)}{SS_{within}/(N-k)} }[/math]

F-статистика следует F-распределению с параметрами [math]\displaystyle{ df_1 = k-1 }[/math] и [math]\displaystyle{ df_2 = N-k }[/math].

Типы дисперсионного анализа

Однофакторный ANOVA (One-Way ANOVA)

Применение: Изучается влияние одного фактора (независимой переменной) на зависимую переменную.

Модель: [math]\displaystyle{ Y_{ij} = \mu + \alpha_i + \varepsilon_{ij} }[/math]

где:

  • [math]\displaystyle{ Y_{ij} }[/math] — j-е наблюдение в i-й группе
  • [math]\displaystyle{ \mu }[/math] — общее среднее
  • [math]\displaystyle{ \alpha_i }[/math] — эффект i-й группы
  • [math]\displaystyle{ \varepsilon_{ij} }[/math] — случайная ошибка
Гипотезы
  • [math]\displaystyle{ H_0: \mu_1 = \mu_2 = ... = \mu_k }[/math] (средние всех групп равны)
  • [math]\displaystyle{ H_1: }[/math] хотя бы одно среднее отличается от других

Двухфакторный ANOVA (Two-Way ANOVA)

Применение: Изучается влияние двух факторов на зависимую переменную, а также их взаимодействие.

Модель: [math]\displaystyle{ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk} }[/math]

где
  • [math]\displaystyle{ \alpha_i }[/math] — эффект i-го уровня первого фактора
  • [math]\displaystyle{ \beta_j }[/math] — эффект j-го уровня второго фактора
  • [math]\displaystyle{ (\alpha\beta)_{ij} }[/math] — эффект взаимодействия факторов

Многофакторный ANOVA (Multifactor ANOVA)

Применение: Анализ влияния трёх и более факторов на зависимую переменную.

Предпосылки применения ANOVA
Условия применения дисперсионного анализа
Условие Описание Методы проверки
Нормальность распределения Данные в каждой группе должны быть нормально распределены Тест Шапиро-Уилка, Q-Q графики, тест Жарка-Бера
Гомогенность дисперсий Дисперсии во всех группах должны быть равны Тест Левина, тест Бартлетта, тест Флигнера-Килина
Независимость наблюдений Наблюдения должны быть независимы друг от друга Планирование эксперимента, рандомизация
Количественная зависимая переменная Зависимая переменная должна быть измерена в интервальной или относительной шкале Анализ типа данных
Случайная выборка Данные должны быть получены случайным образом Методы сбора данных

Перечень NetLogo моделей для изучения экономики

Central Limit Theorem, Fire (model), Language Change, Minority Game, Random Basic Advanced, Simple Economy, Sugarscape model, Urban Suite - Economic Disparity, Wealth Distribution, Потребительский выбор (модель)