Дисперсионный анализ

Материал из Поле цифровой дидактики


Описание ANOVA = ANalysis Of VAriance = Дисперсионный анализ Дисперсионный анализ (от лат. translate:Dispersio — рассеивание, англ. translate:Analysis of Variance, ANOVA) — статистический метод, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях двух или более групп. В отличие от t-критерия, позволяет одновременно сравнивать средние значения трёх и более групп без увеличения риска ошибки I рода.
Область знаний Статистика
Авторы Фишер
Поясняющее видео
Близкие понятия F-test, T-тест
Среды и средства для освоения понятия F-test

ANOVA — это метод, который разделяет общую вариативность данных на составляющие части: вариативность между группами (объясняемая независимой переменной) и вариативность внутри групп (случайная, необъясняемая вариативность). Метод разработан Рональдом Фишером в 1920-х годах для анализа результатов экспериментальных исследований.

[math]\displaystyle{ F = \frac{MS_{between}}{MS_{within}} = \frac{\text{Межгрупповая средняя квадратичная ошибка}}{\text{Внутригрупповая средняя квадратичная ошибка}} }[/math]

Если различия между группами обусловлены только случайностью, то F-статистика будет близка к 1. Если между группами есть систематические различия, F-статистика будет значительно больше 1.

Математические основы

Разложение общей суммы квадратов
Общая сумма квадратов отклонений разлагается на две части:

[math]\displaystyle{ SS_{total} = SS_{between} + SS_{within} }[/math]

где: - [math]\displaystyle{ SS_{total} = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_{general})^2 }[/math] — общая сумма квадратов - [math]\displaystyle{ SS_{between} = \sum_{i=1}^{k}n_i(\bar{X}_i - \bar{X}_{general})^2 }[/math] — межгрупповая сумма квадратов - [math]\displaystyle{ SS_{within} = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_i)^2 }[/math] — внутригрупповая сумма квадратов

Степени свободы

Степени свободы в ANOVA
Компонент Формула Описание
Между группами [math]\displaystyle{ df_{between} = k - 1 }[/math] k — количество групп
Внутри групп [math]\displaystyle{ df_{within} = N - k }[/math] N — общий размер выборки
Общие [math]\displaystyle{ df_{total} = N - 1 }[/math] Общие степени свободы

F-статистика

[math]\displaystyle{ F = \frac{MS_{between}}{MS_{within}} = \frac{SS_{between}/(k-1)}{SS_{within}/(N-k)} }[/math]

F-статистика следует F-распределению с параметрами [math]\displaystyle{ df_1 = k-1 }[/math] и [math]\displaystyle{ df_2 = N-k }[/math].

Типы дисперсионного анализа

Однофакторный ANOVA (One-Way ANOVA)

Применение: Изучается влияние одного фактора (независимой переменной) на зависимую переменную.

Модель: [math]\displaystyle{ Y_{ij} = \mu + \alpha_i + \varepsilon_{ij} }[/math]

где:

  • [math]\displaystyle{ Y_{ij} }[/math] — j-е наблюдение в i-й группе
  • [math]\displaystyle{ \mu }[/math] — общее среднее
  • [math]\displaystyle{ \alpha_i }[/math] — эффект i-й группы
  • [math]\displaystyle{ \varepsilon_{ij} }[/math] — случайная ошибка
Гипотезы
  • [math]\displaystyle{ H_0: \mu_1 = \mu_2 = ... = \mu_k }[/math] (средние всех групп равны)
  • [math]\displaystyle{ H_1: }[/math] хотя бы одно среднее отличается от других

Двухфакторный ANOVA (Two-Way ANOVA)

Применение: Изучается влияние двух факторов на зависимую переменную, а также их взаимодействие.

Модель: [math]\displaystyle{ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk} }[/math]

где
  • [math]\displaystyle{ \alpha_i }[/math] — эффект i-го уровня первого фактора
  • [math]\displaystyle{ \beta_j }[/math] — эффект j-го уровня второго фактора
  • [math]\displaystyle{ (\alpha\beta)_{ij} }[/math] — эффект взаимодействия факторов

Многофакторный ANOVA (Multifactor ANOVA)

Применение: Анализ влияния трёх и более факторов на зависимую переменную.

Предпосылки применения ANOVA
Условия применения дисперсионного анализа
Условие Описание Методы проверки
Нормальность распределения Данные в каждой группе должны быть нормально распределены Тест Шапиро-Уилка, Q-Q графики, тест Жарка-Бера
Гомогенность дисперсий Дисперсии во всех группах должны быть равны Тест Левина, тест Бартлетта, тест Флигнера-Килина
Независимость наблюдений Наблюдения должны быть независимы друг от друга Планирование эксперимента, рандомизация
Количественная зависимая переменная Зависимая переменная должна быть измерена в интервальной или относительной шкале Анализ типа данных
Случайная выборка Данные должны быть получены случайным образом Методы сбора данных