Bootstrap

Материал из Поле цифровой дидактики


Описание Bootstrap - Бутстрэп (англ. bootstrapping) — это непараметрический метод статистического анализа, основанный на resampling данных с возвращением для оценки распределения статистики, доверительных интервалов и стандартных ошибок.
Область знаний Статистика
Авторы
Поясняющее видео
Близкие понятия
Среды и средства для освоения понятия StatKey

Бутстрэп в статистике (Bootstrap method)

Бутстрэп (англ. bootstrapping) — это непараметрический метод статистической инференции, основанный на resampling данных с возвращением для оценки распределения статистики, доверительных интервалов и стандартных ошибок.

[math]\displaystyle{ \theta^* = \frac{1}{B} \sum_{b=1}^B t(\mathbf{X}^{*b}) }[/math] ([math]\displaystyle{ \theta^* = \frac{1}{B} \sum_{b=1}^B t(\mathbf{X}^{*b}) }[/math]).

Метод особенно полезен в агентно-ориентированном моделировании (ABM), где данные генерируются симуляциями, как в моделях NetLogo по социально-экономической статистике.

В образовательной сфере бутстрэп применяется для анализа симуляций успеваемости учеников или удовлетворенности преподавателей, где традиционные предположения о нормальности распределения не выполняются из-за стохастической природы агентов.

Принцип работы метода

Бутстрэп предполагает многократное (обычно 1000–10000 раз) извлечение выборок с возвращением из исходного датасета размером \( n \), вычисление целевой статистики для каждой и построение эмпирического распределения.[math]\displaystyle{ \mathbf{X}^* = \{X_1^*, \dots, X_n^*\} \sim \text{empirical distribution of } \mathbf{X} }[/math] ([math]\displaystyle{ \mathbf{X}^* = \{X_1^*, \dots, X_n^*\} \sim \text{empirical distribution of } \mathbf{X} }[/math]). Это позволяет оценивать квантили для доверительных интервалов без аналитических формул.

Например, в моделировании рынка труда учителей средняя удовлетворенность может варьироваться стохастически; бутстрэп дает распределение этой статистики для проверки гипотез о стабильности системы.

Bootstrap работает, потому что ЦПТ гарантирует, что даже если ваши данные "грязные" и не нормальные, средние из повторных выборок будут нормальными. Это позволяет вычислять доверительные интервалы без знания истинной популяции.

 Description
Центральная предельная теоремаЦентра́льные преде́льные теоре́мы (ЦПТ) — класс теорем в теории вероятностей, утверждающих, что сумма достаточно большого количества слабо зависимых случайных величин, имеющих примерно одинаковые масштабы (ни одно из слагаемых не доминирует, не вносит в сумму определяющего вклада), имеет распределение, близкое к нормальному. Так как многие случайные величины в приложениях формируются под влиянием нескольких слабо зависимых случайных факторов, их распределение считают нормальным. При этом должно соблюдаться условие, что ни один из факторов не является доминирующим. Центральные предельные теоремы в этих случаях обосновывают применение нормального распределения.

В проектах по "выращиванию данных" (data farming) в NetLogo, таких как модель Teacher Satisfaction (model), бутстрэп оценивает неопределенность агрегированных метрик из тысяч запусков. Модель симулирует удовлетворенность учителей (mean_satisfaction-all), текучесть кадров и вакансии школ в зависимости от радиуса мобильности, зарплаты и качества школ.

Для датасета из ~25000 строк бутстрэп на столбце mean_satisfaction-all (среднее по 17 первым: 0.557) строит доверительный интервал для оценки устойчивости равновесия рынка труда учителей.

    • Пример в R: загрузка через nlrx, resampling с boot или meboot для временных рядов.

В образовании: анализ симуляций распределения учителей по школам Москвы, где бутстрэп проверяет влияние параметров на неравенство удовлетворенности (satisfaction_inequality).

StatKey как инструмент анализа

StatKey — онлайн-апплет для визуализации бутстрэпа и рандомизации, идеален для данных из ABM как поле для быстрого прототипирования интервалов без программирования. Загрузите колонку mean_satisfaction-all в StatKey (Theoretical Distribution → One Quantitative → Bootstrap CI for Mean), сгенерируйте 5000 сэмплов для перцентильного интервала.

В контексте Teacher Satisfaction: копируйте данные в StatKey для оценки вариабельности mean_school_vacancy_rate, визуализируя распределение бутстрэп-средних


Пример вывода: для сэмпла std=0.020, бутстрэп дает CI шириной ~0.01, подтверждая стабильность модели при unemployment_rate ~0.003.


CODAP предоставляет плагин Bootstrap для resampling данных и моделирования доверительных интервалов без программирования