Дисперсионный анализ
| Описание | ANOVA = ANalysis Of VAriance = Дисперсионный анализ Дисперсионный анализ (от лат. translate:Dispersio — рассеивание, англ. translate:Analysis of Variance, ANOVA) — статистический метод, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях двух или более групп. В отличие от t-критерия, позволяет одновременно сравнивать средние значения трёх и более групп без увеличения риска ошибки I рода. |
|---|---|
| Область знаний | Статистика |
| Авторы | Фишер |
| Поясняющее видео | |
| Близкие понятия | F-test, T-тест |
| Среды и средства для освоения понятия | F-test |
ANOVA — это метод, который разделяет общую вариативность данных на составляющие части: вариативность между группами (объясняемая независимой переменной) и вариативность внутри групп (случайная, необъясняемая вариативность). Метод разработан Рональдом Фишером в 1920-х годах для анализа результатов экспериментальных исследований.
[math]\displaystyle{ F = \frac{MS_{between}}{MS_{within}} = \frac{\text{Межгрупповая средняя квадратичная ошибка}}{\text{Внутригрупповая средняя квадратичная ошибка}} }[/math]
Если различия между группами обусловлены только случайностью, то F-статистика будет близка к 1. Если между группами есть систематические различия, F-статистика будет значительно больше 1.
Математические основы
- Разложение общей суммы квадратов
- Общая сумма квадратов отклонений разлагается на две части:
[math]\displaystyle{ SS_{total} = SS_{between} + SS_{within} }[/math]
где: - [math]\displaystyle{ SS_{total} = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_{general})^2 }[/math] — общая сумма квадратов - [math]\displaystyle{ SS_{between} = \sum_{i=1}^{k}n_i(\bar{X}_i - \bar{X}_{general})^2 }[/math] — межгрупповая сумма квадратов - [math]\displaystyle{ SS_{within} = \sum_{i=1}^{k}\sum_{j=1}^{n_i}(X_{ij} - \bar{X}_i)^2 }[/math] — внутригрупповая сумма квадратов
Степени свободы
| Компонент | Формула | Описание |
|---|---|---|
| Между группами | [math]\displaystyle{ df_{between} = k - 1 }[/math] | k — количество групп |
| Внутри групп | [math]\displaystyle{ df_{within} = N - k }[/math] | N — общий размер выборки |
| Общие | [math]\displaystyle{ df_{total} = N - 1 }[/math] | Общие степени свободы |
F-статистика
[math]\displaystyle{ F = \frac{MS_{between}}{MS_{within}} = \frac{SS_{between}/(k-1)}{SS_{within}/(N-k)} }[/math]
F-статистика следует F-распределению с параметрами [math]\displaystyle{ df_1 = k-1 }[/math] и [math]\displaystyle{ df_2 = N-k }[/math].
Типы дисперсионного анализа
Однофакторный ANOVA (One-Way ANOVA)
Применение: Изучается влияние одного фактора (независимой переменной) на зависимую переменную.
Модель: [math]\displaystyle{ Y_{ij} = \mu + \alpha_i + \varepsilon_{ij} }[/math]
где:
- [math]\displaystyle{ Y_{ij} }[/math] — j-е наблюдение в i-й группе
- [math]\displaystyle{ \mu }[/math] — общее среднее
- [math]\displaystyle{ \alpha_i }[/math] — эффект i-й группы
- [math]\displaystyle{ \varepsilon_{ij} }[/math] — случайная ошибка
- Гипотезы
- [math]\displaystyle{ H_0: \mu_1 = \mu_2 = ... = \mu_k }[/math] (средние всех групп равны)
- [math]\displaystyle{ H_1: }[/math] хотя бы одно среднее отличается от других
Двухфакторный ANOVA (Two-Way ANOVA)
Применение: Изучается влияние двух факторов на зависимую переменную, а также их взаимодействие.
Модель: [math]\displaystyle{ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk} }[/math]
- где
- [math]\displaystyle{ \alpha_i }[/math] — эффект i-го уровня первого фактора
- [math]\displaystyle{ \beta_j }[/math] — эффект j-го уровня второго фактора
- [math]\displaystyle{ (\alpha\beta)_{ij} }[/math] — эффект взаимодействия факторов
Многофакторный ANOVA (Multifactor ANOVA)
Применение: Анализ влияния трёх и более факторов на зависимую переменную.
- Предпосылки применения ANOVA
| Условие | Описание | Методы проверки |
|---|---|---|
| Нормальность распределения | Данные в каждой группе должны быть нормально распределены | Тест Шапиро-Уилка, Q-Q графики, тест Жарка-Бера |
| Гомогенность дисперсий | Дисперсии во всех группах должны быть равны | Тест Левина, тест Бартлетта, тест Флигнера-Килина |
| Независимость наблюдений | Наблюдения должны быть независимы друг от друга | Планирование эксперимента, рандомизация |
| Количественная зависимая переменная | Зависимая переменная должна быть измерена в интервальной или относительной шкале | Анализ типа данных |
| Случайная выборка | Данные должны быть получены случайным образом | Методы сбора данных |
Перечень NetLogo моделей для изучения экономики
Central Limit Theorem, Fire (model), Language Change, Minority Game, Random Basic Advanced, Simple Economy, Sugarscape model, Urban Suite - Economic Disparity, Wealth Distribution, Потребительский выбор (модель)
