Тест Шапиро-Уилка

Материал из Поле цифровой дидактики
Краткое описание инструмента Тест Шапиро–Уилка — непараметрический статистический критерий, предназначенный для проверки гипотезы о нормальности распределения выборки. Позволяет оценить, насколько данные соответствуют нормальному закону распределения
Возможности
Трудности использования
Область знаний Экономика, Статистика
Область применения
Поясняющее видео
Веб-сайт
Пользователи
Используется для создания (проведения) Статистический анализ
Разработчик
Сообщество вокруг средства
Лицензия
Год первого релиза
Совместное сетевое использование Нет
Какой язык основной English
Есть ли поддержка Искусственным Интеллектом Нет

Определение и формулировка

Тест проверяет нулевую гипотезу [math]\displaystyle{ H_0 }[/math]: выборка получена из нормального распределения альтернативу [math]\displaystyle{ H_1 }[/math]: распределение существенно отличается от нормального.

Математический аппарат

Пусть имеется упорядоченная выборка объёма [math]\displaystyle{ n }[/math]: [math]\displaystyle{ x_{(1)} \le x_{(2)} \le \dots \le x_{(n)}. }[/math] Тогда статистика Шапиро–Уилка определяется как [math]\displaystyle{ W = \frac{\bigl(\sum_{i=1}^{n} a_i\,x_{(i)}\bigr)^2}{\sum_{i=1}^{n}(x_i - \bar x)^2}, }[/math] где

  • [math]\displaystyle{ \bar x = \frac1n\sum_{i=1}^{n}x_i }[/math] — выборочное среднее;
  • коэффициенты [math]\displaystyle{ a_i }[/math] задаются из вектора ожидаемых значений упорядоченных выборок стандартного нормального распределения и ковариационной матрицы порядка [math]\displaystyle{ n }[/math] (табличные или вычисляются алгоритмически).

Статистика [math]\displaystyle{ W }[/math] лежит в пределах [math]\displaystyle{ 0 \lt W \le 1 }[/math]. Меньшие значения [math]\displaystyle{ W }[/math] свидетельствуют о сильном отклонении от нормальности.

Предпосылки применения

  • Случайная независимая выборка
  • Объём выборки: [math]\displaystyle{ 3 \le n \le 5000 }[/math] (для очень больших [math]\displaystyle{ n }[/math] критический порог подбирается эмпирически)
  • Проверяется распределение данных без учёта группировки.

Интерпретация результата

  • [math]\displaystyle{ p \ge \alpha }[/math] (обычно [math]\displaystyle{ \alpha = 0{,}05 }[/math]): нет оснований отвергать нормальность.
  • [math]\displaystyle{ p \lt \alpha }[/math]: распределение данных статистически отличается от нормального.

Применение к моделям NetLogo на платформе digida.mgpu.ru

Экономические агентно-ориентированные модели генерируют данные, распределения которых могут не быть нормальными. Тест Шапиро–Уилка помогает:

  1. Проверить нормальность распределения выходных параметров модели (доходы, производительность, время жизни агентов и пр.).
  2. Выбрать корректные статистические методы анализа (параметрические vs непараметрические).

Random Basic Advanced

В модели «Random Basic Advanced» агенты генерируют случайные значения экономических индикаторов.

  • Применение: проверить нормальность распределения случайных шоков и выбрать метод анализа чувствительности результатов.

Simple Economy

Модель «Simple Economy» описывает обмен товарами и деньгами между агентами.

  • Применение: оценка распределения средних потребительских расходов агентов на разных этапах симуляции.

Sugarscape model

«Sugarscape» моделирует перемещение агентов в пространстве с распределением ресурса «сахар».

  • Применение: тест на нормальность распределения накопленного «сахара» для выбора статистики при сравнении сценариев.

Urban Suite – Economic Disparity

Модель «Urban Suite – Economic Disparity» исследует распределение доходов в городской среде.

  • Применение: проверка нормальности распределения доходов в различных районах перед применением ANOVA или регрессии.

Wealth Distribution

«Wealth Distribution» моделирует эволюцию богатства агентов под влиянием налогов и инвестиций.

  • Применение: тест Шапиро–Уилка для распределения богатства; при отказе от нормальности применять методы на основе квантилей или непараметрические тесты.

Central Limit Theorem

Модель «Central Limit Theorem» демонстрирует схождение распределения выборочных средних к нормальному.

  • Применение: верификация на малых выборках, проверка условия достаточного [math]\displaystyle{ n }[/math] для нормальности выборочных средних.

Пример реализации в R

# Данные агентов из NetLogo
data <- read.csv("netlogo_output.csv")$variable

# Тест Шапиро–Уилка
shapiro.test(data)

Литература и ресурсы

  • Shapiro S.S., Wilk M.B. (1965). An analysis of variance test for normality (complete samples). Biometrika.
  • Royston P. (1995). A remark on algorithm AS 181: The W test for normality. Journal of the Royal Statistical Society.